ホーム/ローカルLLM/Ollama コマンドガイド: すべてのコマンド説明 (2026)

Tools & Interfaces

Ollama コマンドガイド: すべてのコマンド説明 (2026)

最終更新: 2026年4月·11分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

言語を選択:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Ollama はコマンドラインツールで、そのコマンドを理解することでより強力になります。このガイドは基本コマンドをカバーしています: `ollama pull`、`ollama run`、`ollama list`、`ollama rm`、`ollama serve` および高度なオプション（モデル量子化とカスタム Modelfiles）。

重要なポイント

`ollama pull <model>` -- モデルをダウンロード（例: `ollama pull llama3.2:3b`）。
`ollama run <model>` -- モデルとチャットセッションを開始。
`ollama list` -- ダウンロード済みモデルとサイズを表示。
`ollama rm <model>` -- ダウンロード済みモデルを削除。
`ollama serve` -- Ollama API サーバーを開始（Mac/Windows では自動実行）。
`ollama create <name> -f <modelfile>` -- Modelfile からカスタムモデルを作成。
2026 年 4 月時点で、これらのコマンドは安定し、すべての一般的な使用ケースをカバー。

基本的な Ollama コマンドは何か？

`ollama list` -- ダウンロード済みモデル、ディスク使用量、変更日を表示。
`ollama pull <model>` -- 名前でモデルをダウンロード（例: `ollama pull mistral`）。
`ollama run <model>` -- モデルとチャットセッションを開始。
`ollama rm <model>` -- モデルを削除してディスク容量を解放。
`ollama serve` -- REST API サーバーを開始（通常は自動）。
`ollama help` -- 利用可能なすべてのコマンドを表示。

Ollama でモデルを管理するには？

Ollama のモデル管理は完全にコマンドベースです:

bash

# ダウンロード済みモデルをリスト
ollama list

# Ollama ライブラリからモデルをダウンロード
ollama pull llama3.2:3b       # 7-bit バージョン (~2.5 GB)
ollama pull llama3.2:3b-fp16  # フル精度 (~6.5 GB)

# 特定の量子化をダウンロード
ollama pull qwen2.5:7b-q4   # 4-bit 量子化
ollama pull qwen2.5:7b-q8   # 8-bit 量子化

# ディスク使用量を表示
du -sh ~/.ollama/models

# モデルを削除
ollama rm llama3.2:3b

# カスタムレジストリから取得（高度）
ollama pull localhost:5000/custom-model

モデルを実行してサーブするには？

Ollama を使用する 2 つの方法:

bash

# 1. インタラクティブチャット (CLI)
ollama run llama3.2:3b
# プロンプトを入力して Enter キーを押す

# 2. API サーバーを開始（バックグラウンド実行）
ollama serve
# API は http://localhost:11434/v1 をリッスン

# 3. 別のターミナルから API 経由でモデルを使用
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "こんにちは"}]
  }'

Modelfiles でカスタムモデルを作成するには？

Modelfile は設定ファイル（Dockerfile のような）で、ベースモデルから始まり、システムプロンプト、パラメータ、ウェイトを追加してカスタムモデルを定義します。

bash

# Modelfile という名前のファイルを作成
FROM llama3.2:3b

# システムプロンプトを追加
SYSTEM """
あなたは機械学習の専門家です。
複雑な概念は常に簡単な言葉で説明してください。
"""

# パラメータを調整
PARAMETER temperature 0.7
PARAMETER top_p 0.9

# カスタムモデルをビルド
ollama create ml-expert -f Modelfile

# 使用
ollama run ml-expert

Ollama がサポートする量子化オプションは何か？

量子化は低精度数値を使用してモデルサイズと VRAM を削減します。 Ollama は複数の量子化で GGUF 形式をサポート:

量子化	サイズ (7B)	VRAM	品質	速度
FP16 (フル精度)	14 GB	16 GB	最高	最も遅い
Q8_0 (8-bit)	7 GB	8 GB	優秀	速い
Q6_K (6-bit)	5.5 GB	6 GB	非常に良い	速い
Q5_K_M (5-bit)	5 GB	5.5 GB	良い	非常に速い
Q4_K_M (4-bit)	4.7 GB	5 GB	良い	非常に速い
Q3_K_M (3-bit)	3.3 GB	4 GB	まあまあ	最も速い

Ollama で利用可能な embedding モデルは何か？

Embedding モデルはテキストを数値ベクトルに変換し、セマンティック検索、RAG などに使用。 Ollama は複数の embedding モデルをサポート:

`nomic-embed-text` -- 小さく高速な embedding モデル（~260 MB）。RAG とローカル検索に最適。
`mxbai-embed-large` -- より高品質の大きなモデル（~335 MB）。より良いセマンティック検出。
使用: `ollama pull nomic-embed-text` してから `"model": "nomic-embed-text"` で API リクエスト。

どの環境変数を設定できるか？

環境変数は再コンパイルなしに Ollama 動作を制御:

`OLLAMA_HOST` -- API アドレスを設定（デフォルト: `127.0.0.1:11434`）。
`OLLAMA_MODELS` -- モデルディレクトリを指定（デフォルト: `~/.ollama/models`）。
`OLLAMA_NUM_PARALLEL` -- 並列リクエスト数（デフォルト: 1）。
`OLLAMA_KEEP_ALIVE` -- モデルがメモリに残る時間（デフォルト: 5 分）。
`OLLAMA_NOPRUNE` -- 未使用モデルの自動削除を防止。
例: `export OLLAMA_HOST=0.0.0.0:8000 && ollama serve`

よくある間違いは何か？

間違ったモデル名。 `ollama pull llama` は動作しません; `ollama pull llama3.2:3b` または `ollama pull llama2:7b` を使用。
VRAM が多すぎる必要。 より小さいモデルまたはより強い量子化を選択。Q4_K_M が最適なバランス。
`serve` で更新されない。 `ollama pull` でモデルを変更した場合、`ollama serve` を再起動する必要がある。
`ollama serve` を開始し忘れ。 API は明示的に開始しない限り実行しない（Mac/Windows では自動、Linux ではしない）。
Modelfile 構文エラー。 大文字を確認: `FROM`、`SYSTEM`、`PARAMETER` は大文字。

Ollama コマンドについてよくある質問

ダウンロード済みモデルを更新するには？

`ollama pull <model>` を再度実行。新しいバージョンがある場合、Ollama が更新します。古いものを手動で削除する必要はない。

デフォルトチャットプロンプトを変更するには？

SYSTEM コマンド付き Modelfile を使用。カスタムプロンプト付き Modelfile を作成してから `ollama create <name> -f Modelfile`。

Ollama モデルを共有できるか？

はい、カスタムモデルをレジストリにプッシュ: `ollama push <registry>/<model>`。他は `ollama pull` で取得可能。

初心者向けにどのモデルを選ぶべきか？

`ollama pull llama3.2:3b` が良い選択: 小さい（~2 GB）、高速、合理的に知識がある。より良い品質は `mistral:7b`（~4.5 GB）。

ディスク使用量を削減するには？

量子化を使用: FP16 の代わりに `ollama pull llama3.2:3b-q4`。Q4_K_M または Q5_K_M が最適バランス。

複数モデルを同時に実行できるか？

別ポートで複数インスタンスを開始した場合のみ。標準設定はメモリにモデルを 1 つロード。リクエストパイプラインに `OLLAMA_NUM_PARALLEL` を使用。

ソース

Ollama 公式ドキュメント -- ollama.com
Ollama GitHub リポジトリ -- github.com/ollama/ollama
GGUF モデル形式 -- github.com/ggerganov/ggml
Ollama Modelfile 仕様 -- ollama.com/docs/modelfile

サードパーティの情報に関する注意

この記事はサードパーティのAIモデル、ベンチマーク、価格、ライセンスを参照しています。AIの状況は急速に変化しています。ベンチマークスコア、ライセンス条件、モデル名、API価格は執筆時とお読みになる時の間で変わる可能性があります。この記事に基づいてデプロイやコンプライアンスに関する決定を下す前に、各プロバイダーの公式ソース（ライセンスとベンチマークはHugging Faceのモデルカード、API価格はプロバイダーのウェブサイト、現在のGDPRとEU AI法のテキストはEUR-Lex）で最新の数値を確認してください。この記事は2026年5月時点で公開されている情報を反映しています。

ローカルLLM、独自のAPIキー、またはその両方でPromptQuorumを使用できます — バックエンドはあなたが選択します。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る

Ollama コマンドガイド: すべてのコマンド説明 (2026)

基本的な Ollama コマンドは何か？

Ollama でモデルを管理するには？

モデルを実行してサーブするには？

Modelfiles でカスタムモデルを作成するには？

Ollama がサポートする量子化オプションは何か？

Ollama で利用可能な embedding モデルは何か？

どの環境変数を設定できるか？

よくある間違いは何か？

Ollama コマンドについてよくある質問

ダウンロード済みモデルを更新するには？

デフォルトチャットプロンプトを変更するには？

Ollama モデルを共有できるか？

初心者向けにどのモデルを選ぶべきか？

ディスク使用量を削減するには？

複数モデルを同時に実行できるか？

関連記事

ソース

サードパーティの情報に関する注意