重要なポイント
- `ollama pull <model>` -- モデルをダウンロード(例: `ollama pull llama3.2:3b`)。
- `ollama run <model>` -- モデルとチャットセッションを開始。
- `ollama list` -- ダウンロード済みモデルとサイズを表示。
- `ollama rm <model>` -- ダウンロード済みモデルを削除。
- `ollama serve` -- Ollama API サーバーを開始(Mac/Windows では自動実行)。
- `ollama create <name> -f <modelfile>` -- Modelfile からカスタムモデルを作成。
- 2026 年 4 月時点で、これらのコマンドは安定し、すべての一般的な使用ケースをカバー。
基本的な Ollama コマンドは何か?
- `ollama list` -- ダウンロード済みモデル、ディスク使用量、変更日を表示。
- `ollama pull <model>` -- 名前でモデルをダウンロード(例: `ollama pull mistral`)。
- `ollama run <model>` -- モデルとチャットセッションを開始。
- `ollama rm <model>` -- モデルを削除してディスク容量を解放。
- `ollama serve` -- REST API サーバーを開始(通常は自動)。
- `ollama help` -- 利用可能なすべてのコマンドを表示。
Ollama でモデルを管理するには?
Ollama のモデル管理は完全にコマンドベースです:
# ダウンロード済みモデルをリスト
ollama list
# Ollama ライブラリからモデルをダウンロード
ollama pull llama3.2:3b # 7-bit バージョン (~2.5 GB)
ollama pull llama3.2:3b-fp16 # フル精度 (~6.5 GB)
# 特定の量子化をダウンロード
ollama pull qwen2.5:7b-q4 # 4-bit 量子化
ollama pull qwen2.5:7b-q8 # 8-bit 量子化
# ディスク使用量を表示
du -sh ~/.ollama/models
# モデルを削除
ollama rm llama3.2:3b
# カスタムレジストリから取得(高度)
ollama pull localhost:5000/custom-modelモデルを実行してサーブするには?
Ollama を使用する 2 つの方法:
# 1. インタラクティブチャット (CLI)
ollama run llama3.2:3b
# プロンプトを入力して Enter キーを押す
# 2. API サーバーを開始(バックグラウンド実行)
ollama serve
# API は http://localhost:11434/v1 をリッスン
# 3. 別のターミナルから API 経由でモデルを使用
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2:3b",
"messages": [{"role": "user", "content": "こんにちは"}]
}'Modelfiles でカスタムモデルを作成するには?
Modelfile は設定ファイル(Dockerfile のような)で、ベースモデルから始まり、システムプロンプト、パラメータ、ウェイトを追加してカスタムモデルを定義します。
# Modelfile という名前のファイルを作成
FROM llama3.2:3b
# システムプロンプトを追加
SYSTEM """
あなたは機械学習の専門家です。
複雑な概念は常に簡単な言葉で説明してください。
"""
# パラメータを調整
PARAMETER temperature 0.7
PARAMETER top_p 0.9
# カスタムモデルをビルド
ollama create ml-expert -f Modelfile
# 使用
ollama run ml-expertOllama がサポートする量子化オプションは何か?
量子化は低精度数値を使用してモデルサイズと VRAM を削減します。 Ollama は複数の量子化で GGUF 形式をサポート:
| 量子化 | サイズ (7B) | VRAM | 品質 | 速度 |
|---|---|---|---|---|
| FP16 (フル精度) | 14 GB | 16 GB | 最高 | 最も遅い |
| Q8_0 (8-bit) | 7 GB | 8 GB | 優秀 | 速い |
| Q6_K (6-bit) | 5.5 GB | 6 GB | 非常に良い | 速い |
| Q5_K_M (5-bit) | 5 GB | 5.5 GB | 良い | 非常に速い |
| Q4_K_M (4-bit) | 4.7 GB | 5 GB | 良い | 非常に速い |
| Q3_K_M (3-bit) | 3.3 GB | 4 GB | まあまあ | 最も速い |
Ollama で利用可能な embedding モデルは何か?
Embedding モデルはテキストを数値ベクトルに変換し、セマンティック検索、RAG などに使用。 Ollama は複数の embedding モデルをサポート:
- `nomic-embed-text` -- 小さく高速な embedding モデル(~260 MB)。RAG とローカル検索に最適。
- `mxbai-embed-large` -- より高品質の大きなモデル(~335 MB)。より良いセマンティック検出。
- 使用: `ollama pull nomic-embed-text` してから `"model": "nomic-embed-text"` で API リクエスト。
どの環境変数を設定できるか?
環境変数は再コンパイルなしに Ollama 動作を制御:
- `OLLAMA_HOST` -- API アドレスを設定(デフォルト: `127.0.0.1:11434`)。
- `OLLAMA_MODELS` -- モデルディレクトリを指定(デフォルト: `~/.ollama/models`)。
- `OLLAMA_NUM_PARALLEL` -- 並列リクエスト数(デフォルト: 1)。
- `OLLAMA_KEEP_ALIVE` -- モデルがメモリに残る時間(デフォルト: 5 分)。
- `OLLAMA_NOPRUNE` -- 未使用モデルの自動削除を防止。
- 例: `export OLLAMA_HOST=0.0.0.0:8000 && ollama serve`
よくある間違いは何か?
- 間違ったモデル名。 `ollama pull llama` は動作しません; `ollama pull llama3.2:3b` または `ollama pull llama2:7b` を使用。
- VRAM が多すぎる必要。 より小さいモデルまたはより強い量子化を選択。Q4_K_M が最適なバランス。
- `serve` で更新されない。 `ollama pull` でモデルを変更した場合、`ollama serve` を再起動する必要がある。
- `ollama serve` を開始し忘れ。 API は明示的に開始しない限り実行しない(Mac/Windows では自動、Linux ではしない)。
- Modelfile 構文エラー。 大文字を確認: `FROM`、`SYSTEM`、`PARAMETER` は大文字。
Ollama コマンドについてよくある質問
ダウンロード済みモデルを更新するには?
`ollama pull <model>` を再度実行。新しいバージョンがある場合、Ollama が更新します。古いものを手動で削除する必要はない。
デフォルトチャットプロンプトを変更するには?
SYSTEM コマンド付き Modelfile を使用。カスタムプロンプト付き Modelfile を作成してから `ollama create <name> -f Modelfile`。
Ollama モデルを共有できるか?
はい、カスタムモデルをレジストリにプッシュ: `ollama push <registry>/<model>`。他は `ollama pull` で取得可能。
初心者向けにどのモデルを選ぶべきか?
`ollama pull llama3.2:3b` が良い選択: 小さい(~2 GB)、高速、合理的に知識がある。より良い品質は `mistral:7b`(~4.5 GB)。
ディスク使用量を削減するには?
量子化を使用: FP16 の代わりに `ollama pull llama3.2:3b-q4`。Q4_K_M または Q5_K_M が最適バランス。
複数モデルを同時に実行できるか?
別ポートで複数インスタンスを開始した場合のみ。標準設定はメモリにモデルを 1 つロード。リクエストパイプラインに `OLLAMA_NUM_PARALLEL` を使用。
ソース
- Ollama 公式ドキュメント -- ollama.com
- Ollama GitHub リポジトリ -- github.com/ollama/ollama
- GGUF モデル形式 -- github.com/ggerganov/ggml
- Ollama Modelfile 仕様 -- ollama.com/docs/modelfile