PromptQuorumPromptQuorum
ホーム/ローカルLLM/Ollama コマンドガイド: すべてのコマンド説明 (2026)
Tools & Interfaces

Ollama コマンドガイド: すべてのコマンド説明 (2026)

·11分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

Ollama はコマンドラインツールで、そのコマンドを理解することでより強力になります。このガイドは基本コマンドをカバーしています: `ollama pull`、`ollama run`、`ollama list`、`ollama rm`、`ollama serve` および高度なオプション(モデル量子化とカスタム Modelfiles)。

Ollama はコマンドラインツールで、そのコマンドを理解することでより強力になります。このガイドは基本コマンドをカバーしています: `ollama pull`、`ollama run`、`ollama list`、`ollama rm`、`ollama serve` および高度なオプション(モデル量子化とカスタム Modelfiles)。2026 年 4 月時点で、これらのコマンドは実際の使用ケースの 95% をカバーしています。

重要なポイント

  • `ollama pull <model>` -- モデルをダウンロード(例: `ollama pull llama3.2:3b`)。
  • `ollama run <model>` -- モデルとチャットセッションを開始。
  • `ollama list` -- ダウンロード済みモデルとサイズを表示。
  • `ollama rm <model>` -- ダウンロード済みモデルを削除。
  • `ollama serve` -- Ollama API サーバーを開始(Mac/Windows では自動実行)。
  • `ollama create <name> -f <modelfile>` -- Modelfile からカスタムモデルを作成。
  • 2026 年 4 月時点で、これらのコマンドは安定し、すべての一般的な使用ケースをカバー。

基本的な Ollama コマンドは何か?

  • `ollama list` -- ダウンロード済みモデル、ディスク使用量、変更日を表示。
  • `ollama pull <model>` -- 名前でモデルをダウンロード(例: `ollama pull mistral`)。
  • `ollama run <model>` -- モデルとチャットセッションを開始。
  • `ollama rm <model>` -- モデルを削除してディスク容量を解放。
  • `ollama serve` -- REST API サーバーを開始(通常は自動)。
  • `ollama help` -- 利用可能なすべてのコマンドを表示。

Ollama でモデルを管理するには?

Ollama のモデル管理は完全にコマンドベースです:

bash
# ダウンロード済みモデルをリスト
ollama list

# Ollama ライブラリからモデルをダウンロード
ollama pull llama3.2:3b       # 7-bit バージョン (~2.5 GB)
ollama pull llama3.2:3b-fp16  # フル精度 (~6.5 GB)

# 特定の量子化をダウンロード
ollama pull qwen2.5:7b-q4   # 4-bit 量子化
ollama pull qwen2.5:7b-q8   # 8-bit 量子化

# ディスク使用量を表示
du -sh ~/.ollama/models

# モデルを削除
ollama rm llama3.2:3b

# カスタムレジストリから取得(高度)
ollama pull localhost:5000/custom-model

モデルを実行してサーブするには?

Ollama を使用する 2 つの方法:

bash
# 1. インタラクティブチャット (CLI)
ollama run llama3.2:3b
# プロンプトを入力して Enter キーを押す

# 2. API サーバーを開始(バックグラウンド実行)
ollama serve
# API は http://localhost:11434/v1 をリッスン

# 3. 別のターミナルから API 経由でモデルを使用
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "こんにちは"}]
  }'

Modelfiles でカスタムモデルを作成するには?

Modelfile は設定ファイル(Dockerfile のような)で、ベースモデルから始まり、システムプロンプト、パラメータ、ウェイトを追加してカスタムモデルを定義します。

bash
# Modelfile という名前のファイルを作成
FROM llama3.2:3b

# システムプロンプトを追加
SYSTEM """
あなたは機械学習の専門家です。
複雑な概念は常に簡単な言葉で説明してください。
"""

# パラメータを調整
PARAMETER temperature 0.7
PARAMETER top_p 0.9

# カスタムモデルをビルド
ollama create ml-expert -f Modelfile

# 使用
ollama run ml-expert

Ollama がサポートする量子化オプションは何か?

量子化は低精度数値を使用してモデルサイズと VRAM を削減します。 Ollama は複数の量子化で GGUF 形式をサポート:

量子化サイズ (7B)VRAM品質速度
FP16 (フル精度)14 GB16 GB最高最も遅い
Q8_0 (8-bit)7 GB8 GB優秀速い
Q6_K (6-bit)5.5 GB6 GB非常に良い速い
Q5_K_M (5-bit)5 GB5.5 GB良い非常に速い
Q4_K_M (4-bit)4.7 GB5 GB良い非常に速い
Q3_K_M (3-bit)3.3 GB4 GBまあまあ最も速い

Ollama で利用可能な embedding モデルは何か?

Embedding モデルはテキストを数値ベクトルに変換し、セマンティック検索、RAG などに使用。 Ollama は複数の embedding モデルをサポート:

  • `nomic-embed-text` -- 小さく高速な embedding モデル(~260 MB)。RAG とローカル検索に最適。
  • `mxbai-embed-large` -- より高品質の大きなモデル(~335 MB)。より良いセマンティック検出。
  • 使用: `ollama pull nomic-embed-text` してから `"model": "nomic-embed-text"` で API リクエスト。

どの環境変数を設定できるか?

環境変数は再コンパイルなしに Ollama 動作を制御:

  • `OLLAMA_HOST` -- API アドレスを設定(デフォルト: `127.0.0.1:11434`)。
  • `OLLAMA_MODELS` -- モデルディレクトリを指定(デフォルト: `~/.ollama/models`)。
  • `OLLAMA_NUM_PARALLEL` -- 並列リクエスト数(デフォルト: 1)。
  • `OLLAMA_KEEP_ALIVE` -- モデルがメモリに残る時間(デフォルト: 5 分)。
  • `OLLAMA_NOPRUNE` -- 未使用モデルの自動削除を防止。
  • 例: `export OLLAMA_HOST=0.0.0.0:8000 && ollama serve`

よくある間違いは何か?

  • 間違ったモデル名。 `ollama pull llama` は動作しません; `ollama pull llama3.2:3b` または `ollama pull llama2:7b` を使用。
  • VRAM が多すぎる必要。 より小さいモデルまたはより強い量子化を選択。Q4_K_M が最適なバランス。
  • `serve` で更新されない。 `ollama pull` でモデルを変更した場合、`ollama serve` を再起動する必要がある。
  • `ollama serve` を開始し忘れ。 API は明示的に開始しない限り実行しない(Mac/Windows では自動、Linux ではしない)。
  • Modelfile 構文エラー。 大文字を確認: `FROM`、`SYSTEM`、`PARAMETER` は大文字。

Ollama コマンドについてよくある質問

ダウンロード済みモデルを更新するには?

`ollama pull <model>` を再度実行。新しいバージョンがある場合、Ollama が更新します。古いものを手動で削除する必要はない。

デフォルトチャットプロンプトを変更するには?

SYSTEM コマンド付き Modelfile を使用。カスタムプロンプト付き Modelfile を作成してから `ollama create <name> -f Modelfile`。

Ollama モデルを共有できるか?

はい、カスタムモデルをレジストリにプッシュ: `ollama push <registry>/<model>`。他は `ollama pull` で取得可能。

初心者向けにどのモデルを選ぶべきか?

`ollama pull llama3.2:3b` が良い選択: 小さい(~2 GB)、高速、合理的に知識がある。より良い品質は `mistral:7b`(~4.5 GB)。

ディスク使用量を削減するには?

量子化を使用: FP16 の代わりに `ollama pull llama3.2:3b-q4`。Q4_K_M または Q5_K_M が最適バランス。

複数モデルを同時に実行できるか?

別ポートで複数インスタンスを開始した場合のみ。標準設定はメモリにモデルを 1 つロード。リクエストパイプラインに `OLLAMA_NUM_PARALLEL` を使用。

ソース

  • Ollama 公式ドキュメント -- ollama.com
  • Ollama GitHub リポジトリ -- github.com/ollama/ollama
  • GGUF モデル形式 -- github.com/ggerganov/ggml
  • Ollama Modelfile 仕様 -- ollama.com/docs/modelfile

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

PromptQuorumで、ローカルLLMを25以上のクラウドモデルと同時に比較しましょう。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る

Ollama Befehls-Referenz 2026: pull, run, serve