Ollama はコマンドラインツールで、そのコマンドを理解することでより強力になります。このガイドは基本コマンドをカバーしています: `ollama pull`、`ollama run`、`ollama list`、`ollama rm`、`ollama serve` および高度なオプション（モデル量子化とカスタム Modelfiles）。2026 年 4 月時点で、これらのコマンドは実際の使用ケースの 95% をカバーしています。

重要なポイント

`ollama pull <model>` -- モデルをダウンロード（例: `ollama pull llama3.2:3b`）。
`ollama run <model>` -- モデルとチャットセッションを開始。
`ollama list` -- ダウンロード済みモデルとサイズを表示。
`ollama rm <model>` -- ダウンロード済みモデルを削除。
`ollama serve` -- Ollama API サーバーを開始（Mac/Windows では自動実行）。
`ollama create <name> -f <modelfile>` -- Modelfile からカスタムモデルを作成。
2026 年 4 月時点で、これらのコマンドは安定し、すべての一般的な使用ケースをカバー。

基本的な Ollama コマンドは何か？

`ollama list` -- ダウンロード済みモデル、ディスク使用量、変更日を表示。
`ollama pull <model>` -- 名前でモデルをダウンロード（例: `ollama pull mistral`）。
`ollama run <model>` -- モデルとチャットセッションを開始。
`ollama rm <model>` -- モデルを削除してディスク容量を解放。
`ollama serve` -- REST API サーバーを開始（通常は自動）。
`ollama help` -- 利用可能なすべてのコマンドを表示。

Ollama でモデルを管理するには？

Ollama のモデル管理は完全にコマンドベースです:

bash

# ダウンロード済みモデルをリスト
ollama list

# Ollama ライブラリからモデルをダウンロード
ollama pull llama3.2:3b       # 7-bit バージョン (~2.5 GB)
ollama pull llama3.2:3b-fp16  # フル精度 (~6.5 GB)

# 特定の量子化をダウンロード
ollama pull qwen2.5:7b-q4   # 4-bit 量子化
ollama pull qwen2.5:7b-q8   # 8-bit 量子化

# ディスク使用量を表示
du -sh ~/.ollama/models

# モデルを削除
ollama rm llama3.2:3b

# カスタムレジストリから取得（高度）
ollama pull localhost:5000/custom-model

モデルを実行してサーブするには？

Ollama を使用する 2 つの方法:

bash

# 1. インタラクティブチャット (CLI)
ollama run llama3.2:3b
# プロンプトを入力して Enter キーを押す

# 2. API サーバーを開始（バックグラウンド実行）
ollama serve
# API は http://localhost:11434/v1 をリッスン

# 3. 別のターミナルから API 経由でモデルを使用
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [{"role": "user", "content": "こんにちは"}]
  }'

Modelfiles でカスタムモデルを作成するには？

Modelfile は設定ファイル（Dockerfile のような）で、ベースモデルから始まり、システムプロンプト、パラメータ、ウェイトを追加してカスタムモデルを定義します。

bash

# Modelfile という名前のファイルを作成
FROM llama3.2:3b

# システムプロンプトを追加
SYSTEM """
あなたは機械学習の専門家です。
複雑な概念は常に簡単な言葉で説明してください。
"""

# パラメータを調整
PARAMETER temperature 0.7
PARAMETER top_p 0.9

# カスタムモデルをビルド
ollama create ml-expert -f Modelfile

# 使用
ollama run ml-expert

Ollama がサポートする量子化オプションは何か？

量子化は低精度数値を使用してモデルサイズと VRAM を削減します。 Ollama は複数の量子化で GGUF 形式をサポート:

量子化	サイズ (7B)	VRAM	品質	速度
FP16 (フル精度)	14 GB	16 GB	最高	最も遅い
Q8_0 (8-bit)	7 GB	8 GB	優秀	速い
Q6_K (6-bit)	5.5 GB	6 GB	非常に良い	速い
Q5_K_M (5-bit)	5 GB	5.5 GB	良い	非常に速い
Q4_K_M (4-bit)	4.7 GB	5 GB	良い	非常に速い
Q3_K_M (3-bit)	3.3 GB	4 GB	まあまあ	最も速い

Ollama で利用可能な embedding モデルは何か？

Embedding モデルはテキストを数値ベクトルに変換し、セマンティック検索、RAG などに使用。 Ollama は複数の embedding モデルをサポート:

`nomic-embed-text` -- 小さく高速な embedding モデル（~260 MB）。RAG とローカル検索に最適。
`mxbai-embed-large` -- より高品質の大きなモデル（~335 MB）。より良いセマンティック検出。
使用: `ollama pull nomic-embed-text` してから `"model": "nomic-embed-text"` で API リクエスト。

どの環境変数を設定できるか？

環境変数は再コンパイルなしに Ollama 動作を制御:

`OLLAMA_HOST` -- API アドレスを設定（デフォルト: `127.0.0.1:11434`）。
`OLLAMA_MODELS` -- モデルディレクトリを指定（デフォルト: `~/.ollama/models`）。
`OLLAMA_NUM_PARALLEL` -- 並列リクエスト数（デフォルト: 1）。
`OLLAMA_KEEP_ALIVE` -- モデルがメモリに残る時間（デフォルト: 5 分）。
`OLLAMA_NOPRUNE` -- 未使用モデルの自動削除を防止。
例: `export OLLAMA_HOST=0.0.0.0:8000 && ollama serve`

よくある間違いは何か？

間違ったモデル名。 `ollama pull llama` は動作しません; `ollama pull llama3.2:3b` または `ollama pull llama2:7b` を使用。
VRAM が多すぎる必要。 より小さいモデルまたはより強い量子化を選択。Q4_K_M が最適なバランス。
`serve` で更新されない。 `ollama pull` でモデルを変更した場合、`ollama serve` を再起動する必要がある。
`ollama serve` を開始し忘れ。 API は明示的に開始しない限り実行しない（Mac/Windows では自動、Linux ではしない）。
Modelfile 構文エラー。 大文字を確認: `FROM`、`SYSTEM`、`PARAMETER` は大文字。

Ollama コマンドについてよくある質問

ダウンロード済みモデルを更新するには？

`ollama pull <model>` を再度実行。新しいバージョンがある場合、Ollama が更新します。古いものを手動で削除する必要はない。

デフォルトチャットプロンプトを変更するには？

SYSTEM コマンド付き Modelfile を使用。カスタムプロンプト付き Modelfile を作成してから `ollama create <name> -f Modelfile`。

Ollama モデルを共有できるか？

はい、カスタムモデルをレジストリにプッシュ: `ollama push <registry>/<model>`。他は `ollama pull` で取得可能。

初心者向けにどのモデルを選ぶべきか？

`ollama pull llama3.2:3b` が良い選択: 小さい（~2 GB）、高速、合理的に知識がある。より良い品質は `mistral:7b`（~4.5 GB）。

ディスク使用量を削減するには？

量子化を使用: FP16 の代わりに `ollama pull llama3.2:3b-q4`。Q4_K_M または Q5_K_M が最適バランス。

複数モデルを同時に実行できるか？

別ポートで複数インスタンスを開始した場合のみ。標準設定はメモリにモデルを 1 つロード。リクエストパイプラインに `OLLAMA_NUM_PARALLEL` を使用。

ソース

Ollama 公式ドキュメント -- ollama.com
Ollama GitHub リポジトリ -- github.com/ollama/ollama
GGUF モデル形式 -- github.com/ggerganov/ggml
Ollama Modelfile 仕様 -- ollama.com/docs/modelfile

Ollama コマンドガイド: すべてのコマンド説明 (2026)

基本的な Ollama コマンドは何か？

Ollama でモデルを管理するには？

モデルを実行してサーブするには？

Modelfiles でカスタムモデルを作成するには？

Ollama がサポートする量子化オプションは何か？

Ollama で利用可能な embedding モデルは何か？

どの環境変数を設定できるか？

よくある間違いは何か？

Ollama コマンドについてよくある質問

ダウンロード済みモデルを更新するには？

デフォルトチャットプロンプトを変更するには？

Ollama モデルを共有できるか？

初心者向けにどのモデルを選ぶべきか？

ディスク使用量を削減するには？

複数モデルを同時に実行できるか？

ソース

A Note on Third-Party Facts

Ollama コマンドガイド: すべてのコマンド説明 (2026)

基本的な Ollama コマンドは何か？

Ollama でモデルを管理するには？

モデルを実行してサーブするには？

Modelfiles でカスタムモデルを作成するには？

Ollama がサポートする量子化オプションは何か？

Ollama で利用可能な embedding モデルは何か？

どの環境変数を設定できるか？

よくある間違いは何か？

Ollama コマンドについてよくある質問

ダウンロード済みモデルを更新するには？

デフォルトチャットプロンプトを変更するには？

Ollama モデルを共有できるか？

初心者向けにどのモデルを選ぶべきか？

ディスク使用量を削減するには？

複数モデルを同時に実行できるか？

関連記事

ソース

A Note on Third-Party Facts