重要なポイント
- コンシューマー向け総合最高:Qwen 3.6 27B(77.2% SWE-bench、Q4で24GBに収まる)。バランス型:qwen3:30b。
- 最多ダウンロード:Llama 3.2 3B(チュートリアル向け)とLlamaファミリー。
- 推論最強:DeepSeek-R1(Chain-of-Thought)とgpt-oss:20b(推論調整可能、~o3-miniレベル)。
- コーディング最強:Kimi K2.6(Frontier MoE)、Qwen 3.6 27B(最高密度)、Devstral Small 24B(最高エージェント)、qwen3-coder:30b(補完)。
- 小型・16GB最強:gpt-oss:20b。ビジョン/マルチモーダル最強:Gemma 4(E4B以上)。長コンテキスト(10M)/ 大規模マルチモーダル最強:Llama 4 Scout(~55GB)。
- Ollamaライブラリ6月2026:4,500+モデル。すべて`ollama pull <名前>`で利用可。
Ollama最新アップデート — 2026年6月
現在のOllamaバージョン:v0.30.8(2026年6月12日リリース)。これが最新の安定版で、ollama.com/downloadから入手できます。`curl https://ollama.ai/install.sh | sh`(macOS:`brew upgrade ollama`)でアップデートし、`ollama --version`で確認してください。
v0.30シリーズでの変更点(2026年5月〜6月): Ollama v0.30はllama.cpp経由でGGUFモデルの互換性を拡大し、Apple Silicon以外へのハードウェア対応を広げました。さらにMLXエンジンが2026年6月11日にアップグレードされ、過去最速のApple Silicon推論を実現しました。より少ないメモリでより高品質な出力が得られます。v0.30.8までのポイントリリースでは、Gemma 4 QAT重み(6月5日)、Hermes Desktop(6月7日)、プロンプト/KVキャッシュ再利用の改善、Windowsの設定パス修正が追加されました。詳細:github.com/ollama/ollama/releases。
今月追加された最新モデル(2026年6月):
- MiniMax M3(MiniMax、2026年6月1日)— 最新のオープンウェイト旗艦モデル:フロンティアコーディング(SWE-Bench Pro 59.0)、1Mトークンのコンテキストウィンドウ、ネイティブの画像/動画入力を初めて兼ね備えたモデルです。Ollamaライブラリへ順次展開中 — `ollama pull minimax-m3`で利用可否を確認してください。
- NVIDIA Nemotron 3 Ultra(NVIDIA、2026年6月4日)— 高スループットの推論と長時間稼働するエージェントワークフロー向けに構築。NVIDIA Open Model License。プル:`ollama pull nemotron3-ultra`
- DeepSeek V4 Pro(DeepSeek、2026年4月23日)— アルゴリズミックコーディングの専門モデル、93.5% LiveCodeBench、MITライセンス。軽量ハードウェア向けの廉価版DeepSeek V4 Flashもあります。プル:`ollama pull deepseek-v4-pro`
- Kimi K2.6(Moonshot AI、2026年4月20日)— フロンティアコーディングモデル、SWE-Bench Pro 58.6、SWE-bench Verified 80.2%。MoEアーキテクチャ(32B活性/1T合計)。Modified MIT ライセンス。
- Qwen 3.6 27B(Alibaba、2026年4月16日)— コンシューマー向け総合最高、77.2% SWE-bench、Apache 2.0、Q4で24GBに収まる。Qwen3.6-35B-A3B(MoE、73.4 SWE-bench)も。
- GLM-5.1(Z.ai、2026年4月7日)— 744B / 40B活性MoE、MITライセンス、SWE-Bench Pro 58.4。構造化コード生成リーダー。
- gpt-oss(OpenAI、2026年)— オープンウェイトMoE:gpt-oss:20b(21B合計 / 3.6B活性、16GBで動作、~o3-miniレベル、推論調整可能)とgpt-oss:120b(80GB)。
- Gemma 4(Google、2026年4月2日)— マルチモーダルサイズ E2B / E4B / E12B(26B MoE)/ E27B(31B密度)、すべてビジョンとツール呼び出し対応。QAT重みを2026年6月5日に追加。E4Bは~6GB VRAMで動作。
# Ollamaを最新版にアップデート(v0.30.8)
curl https://ollama.ai/install.sh | sh
# またはMac:brew upgrade ollama
# 現在のバージョンを確認
ollama --version # 出力:ollama version 0.30.8
# 2026年6月の最新モデルをプル
ollama pull minimax-m3
ollama pull deepseek-v4-pro
ollama pull kimi-k2.6Ollama最人気モデル
Ollamaは完全公開ダウンロード統計を提供。 2026年6月データより:
Llama 3.2 3Bは全体で最多ダウンロード。主にチュートリアルとして使用。コンシューマー向け品質では、Qwen 3.6 27B(77.2% SWE-bench、Q4で24GBに収まる)が現在の総合最良の選択。
Qwen3・Qwen 3.6はOllama ライブラリで最速成長のモデルファミリー。Qwen3と新しいQwen 3.6密度バリアントがQwen3を急速に置き換え。DeepSeek-R1はリリース後に大きなスパイクを記録し、推論タスク向けに常に高ダウンロード状態。
Meta Llama 4 2026年4月リリースでScout(17B活性、109B合計、MoE)とMaverick(17B活性、400B合計)を展開。Ollama ライブラリで安定済み(`ollama pull llama4:scout`)。Llama 4はMoEアーキテクチャを採用し、トークンあたり17Bのみが活性だが、109B合計のためScoutはQ4で~55GB VRAMが必要(24GBは1.78ビットのみ、~20 tok/s)。Scoutの強みは10Mトークンのコンテキストとマルチモーダル入力であり、コンシューマーハードウェアへの適合性ではない。Ollama エコシステムは2026年4月に大幅拡張。Kimi K2.6(Moonshot AI、Modified MIT、32B活性/1T合計MoE)はSWE-Bench Pro 58.6を記録しGPT-5.5と同等。Qwen 3.6 27Bは77.2% SWE-benchでコンシューマー向け総合最高を達成(Q4で24GBに収まる)。OpenAIのオープンウェイトgpt-oss:20b(21B合計/3.6B活性MoE)は16GBで~o3-miniレベル、推論調整可能で動作。現在のリリースであるOllama v0.30.8(2026年6月12日)は、llama.cpp経由でGGUFのハードウェア対応を拡大し、Apple Silicon MLXエンジンを強化しています。Ollama ライブラリは現在4,500+モデルを参照しており、今月の最新追加はMiniMax M3、NVIDIA Nemotron 3 Ultra、DeepSeek V4 Proです。
カテゴリ別トップモデル
モデルの出力品質はプロンプトの設計に大きく左右されます。Chain-of-Thought、Few-Shot例、出力フォーマットなど、すべてのローカルモデルで使える構造化テクニックについてはプロンプトエンジニアリングガイドをご覧ください。推論タスク用に、Chain-of-ThoughtプロンプティングはDeepSeek-R1とQwen3出力品質を大幅に改善。各モデルに必要なRAMを確認するには、VRAM要件ガイド →をご参照ください。Gemma 4エージェントワークフロー用はTree-of-Thoughtと ReAct参照。このリストにあるツール呼び出し対応モデルを、ファイルアクセスやデータベース照会まで含むマルチステップのループに組み込む方法は、MCP を使ったローカル AI エージェントを参照してください。オープンソースのオーケストレーションパターンを解説しています。
- 一般チャット(初心者):`ollama run llama3.2:3b` -- ドキュメント多数、最適入門モデル。
- 一般チャット(最良の選択):`ollama run qwen3.6:27b` -- 77.2% SWE-bench、コンシューマー向け総合最高、Q4で24GBに収まる。バランス型:`ollama run qwen3:30b`。8GB機はllama3.2:3b維持。
- 長コンテキスト / マルチモーダル:`ollama run llama4:scout` -- 10Mトークンコンテキスト + マルチモーダル、MoE(17B活性/109B合計)。Q4で~55GB VRAM必要(24GBは1.78ビットのみ、~20 tok/s)。
- 小型・16GB最強:`ollama run gpt-oss:20b` -- 21B合計 / 3.6B活性MoE、~o3-miniレベル、推論調整可能。大型:`ollama run gpt-oss:120b`(80GB)。
- コード(7B):`ollama run qwen3:8b` -- 76% HumanEval、Qwen3から改善、多言語対応。
- コード(最高エージェント、24B):`ollama run devstral-small:24b` -- 最高エージェントコーディング(マルチファイル編集、デバッグ)。16GB RAM。Mistral AI製。
- コード(最高密集、27B):`ollama run qwen3.6:27b` -- 77.2% SWE-bench。最高密集コーディングモデル。22GB VRAM。
- コード(フロンティアMoE):`ollama run kimi-k2.6` -- SWE-Bench Pro 58.6(GPT-5.5と同等)、トップティア。MoE(32B活性/1T合計)。Modified MIT License。
- エージェント・ツール呼び出し:`ollama run gemma4:e4b` -- 2026年4月2日リリース。組み込みツール呼び出し+ビジョンサポート。ローカルエージェント、機能呼び出し、構造出力推奨。6GB RAM。
- 推論・数学:`ollama run deepseek-r1:7b` -- Chain-of-Thoughtモデル、ローカル数学最高性能at 7B。
- 多言語:`ollama run qwen3:7b` -- 29+言語対応、非英語対応最強、76% HumanEval。
- 画像理解:`ollama run gemma4:e4b` -- Vision + Tool Calling(2026年6月)。または `ollama run llama3.2-vision:11b`専用Vision。
- 高速・軽量:`ollama run gemma2:2b` -- 最速CPU推論、1.7GB RAM。
- 高品質(16GB RAM):`ollama run mistral-small3.1` -- 70B品質に近い14GB RAM。
- ホームオートメーション / ウェイクワードAI:`ollama run phi4-mini` — Phi-4 Mini(3.8B、VRAM約3 GB)は専用GPUなしのミニPCでHome Assistantの音声コマンドを20〜25 tok/secで処理できます。Home Assistant + Ollama 統合ガイド →をご覧ください。
DeepSeek-R1:推論ブレークスルー
DeepSeek-R1は2025年1月リリース。ローカルサイズでの推論大躍進。Chain-of-Thought(CoT)実装で思考過程を表示。
- サイズ展開:1.5B(モバイル)、7B、70B。1.5Bは教育端末で十分。7Bはllama 3.1 13Bを数学で上回る。
- ベンチマーク:52% MATH(Llama 3.3 8B比23%)。ロジック・多段階問題解決向上。
- RAM必須:1.5B:2GB、7B:6GB、70B:44GB(Q4量子化)。
- ライセンス:DeepSeek License(逆アセンブリ制限あり。エンタープライズ前に確認)。
- 日本データ処理:APAC地域デプロイ時、DeepSeek-R1はデータ保護方針準拠。ローカル実行で主権確保--クラウド転送なし。
ollama run deepseek-r1:7b
# プロンプト例:「時速100kmで駅に近づく列車2台、いつ出会う?」
# DeepSeek-R1:7bが思考過程を表示:
# <思考>
# ...経路を探索、仮定を検証...
# </思考>
# 答え:彼らは出会う...ビジョンモデル
4つの優秀ビジョンモデルがOllamaネイティブ対応:
| モデル | RAM | 画像対応 | Ollamaコマンド |
|---|---|---|---|
| Llama 3.2 Vision 11B | 11 GB | JPEG、PNG、GIF・複数画像入力 | ollama run llama3.2-vision:11b |
| Qwen2-VL 7B | 8 GB | JPEG、PNG・OCR精密 | ollama run qwen2-vl:7b |
| Gemma 3 Vision 9B | 9.5 GB | JPEG、PNG・ネイティブ128Kコンテキスト | ollama run gemma3:9b |
| Mistral AI Pixtral 12B | 12.5 GB | JPEG、PNG・潜在表現 | ollama run pixtral:12b |
トップ10完全比較
2026年4月Ollama月間DL数トップ10:
| # | モデル | 最適用途 | RAM | HumanEval |
|---|---|---|---|---|
| 1 | Llama 3.3 8B | 初心者・汎用 | 6.5 GB | 68.2% |
| 2 | Qwen3 7B | コード・数学 | 6.5 GB | 75.4% |
| 3 | Mistral Small | 多言語 | 6.5 GB | 73.2% |
| 4 | Llama 3.3 70B | 高スループット | 44 GB | 86.1% |
| 5 | DeepSeek-R1 7B | 推論 | 6.5 GB | 76.8% |
| 6 | Gemma 3 9B | ビジョン+テキスト | 9.5 GB | 72.1% |
| 7 | Llama 3.2 Vision 11B | マルチモーダル | 11 GB | 71.5% |
| 8 | Phi-3.5 Mini 3.8B | 小型端末 | 3 GB | 61.2% |
| 9 | Qwen3 32B | 品質重視 | 20 GB | 81.7% |
| 10 | Mistral Small 3.1 | 高速・軽量 | 5 GB | 68.9% |
Ollama ライブラリの探索方法
Ollamaモデルの操作には2つの方法があります。インストール済みモデルの切り替え: Ollama Macアプリのチャット入力欄下部にあるモデルドロップダウンボタン(例:"gemma3:1b"と表示)をクリックして、ローカルにインストールされたモデルを切り替えます。新しいモデルの検索・ダウンロード: ollama.com/libraryで4500以上のモデルをカテゴリ別に検索し、以下のCLIコマンドでインストールします。
- ブラウザで https://ollama.ai/library を開く。4500+モデル検索可能。
- フィルタオプション:モデルサイズ、ライセンス、リリース日、ベンチマーク(MMLU、HumanEval、MATH)。
- モデル評価:ユーザーDL数、GitHub⭐(ベースモデル)、Ollama⭐。
- Ollama新モデル:毎週木曜日UTC 18:00更新。
ollama list
# インストール済みモデル表示
ollama pull llama3.1:8b
# Llama 3.3 8B ダウンロード・インストール
ollama pull qwen2.5:7b
# Qwen3 7B ダウンロード(コード・数学向け)
ollama run qwen2.5:7b
# インタラクティブセッション開始
ollama run -m deepseek-r1:7b "2^10を解く"
# CoTで推論タスク実行Ollama選択の一般的ミス
大きいモデルタグをプルしたがRAM満杯。何が?
確認なしプル。プル前に`ollama show [model-name]`実行。例:`ollama show llama3.1:70b`でRAM表示(約42-48GB、Q4量子化)。初心者は7B-13Bに留める(RAM 16GB以下)。`ollama rm [model-name]`で削除。
Llama 3.3みたいな汎用モデル使うがコード遅い。なぜ?
Llama 3.3 8Bは汎用向きだがQwen3やMistral Smallは技術専門。コード:Qwen3 7B切替(HumanEval 75.4% vs Llama 68.2%)。両方RAM 8GB以下。
モデルプルしたが表示されない。確認は?
`ollama list`実行。モデルはMac: `~/.ollama/models/`またはWindows: `%USERPROFILE%.ollamamodels`に保存。表示されなければOllamaデーモン再起動:終了して再起動。
次のステップ
- コーディング向け最高ローカルLLM — コード特化の最良Ollamaモデルを選ぶ →
- CPUのみで動く最高LLM — GPU なし?ここから始める →
- ローカルLLMハードウェアガイド2026 — あなたのPCでこれらのモデルが動くか確認 →
よくある質問
ローカルモデルに必要なRAM量は?
7B:6.5-8GB。13B:11-14GB。70B:42-48GB(Q4_K_M量子化)。3B:2-3GB。プル前に`ollama show [model-name]`で確認。
Ollamaモデルはオフラインで実行できる?
はい。初期DL後、推論は完全ローカル実行。インターネット不要。Ollamaが定期更新確認(自動適用なし)。
日本語サポート最高のモデルは?
Qwen3 7B。CulturaXと日本語Wikiで高精度。Llama 3.3は日本語OK但しQwenが精密。Mistral Smallは仏語西語向き。
Ollamaモデルは本当に無料?
はい。全Ollamaモデルはオープンソース・フリーライセンス(Apache 2.0、Meta Llama Community、Deepseek)。サブスク・API料金なし。DL・ローカルインストール・無制限使用。
DeepSeek-R1の速度は本当?
生成速度:M1 Pro 15-25tokens/秒(Llama 3.3 7B相応)。総レイテンシは思考過程生成で高い--中程度クエリ8-12秒。リアルタイム:Llama 3.3やMistral。
OllamaでなくChatGPT Plusを選ぶ理由は?
プライバシー:チャットがOpenAIに送信されない。コスト:月額なし・GPU買い切り。オフライン:完全インターネット不要。カスタマイズ:システムプロンプト・動作・パラメータ全掌握。
Ollamaモデルは画像処理できる?
はい。Llama 3.2 Vision、Qwen2-VL、Gemma 3全てマルチモーダル。画像をローカルファイルアップロード。クラウド転送なし。JPEG、PNG、GIF対応。
Ollamaモデルを新版にアップデートは?
`ollama pull [model-name]`再実行。差分のみDL(重複排除)。旧版削除:`ollama rm [model-name]:tag`。
GDPRはOllamaで気にすべき?
はい。GDPR個人データセキュリティ必須。ローカル推論で設計による保護要件満たし。クラウド転送なし=主権・非エクスポート・コンプライアンス。注:クラウドモデル使用時は処理契約確認。
日本企業向けOllama活用は?
はい。日本企業が利益:データ主権(クラウドロックイン回避)、IT標準準拠(IPA・MEI-TI Governance 2024)、標準HW スケーラビリティ、API料金排除。Qwen3 7Bは標準デスクGPUで実行。Llama 3.3 8Bはエンタープライズスタンダードツール・顧客自動化・文書処理向け検証済み。
参考資料
- VS CodeとCursorでローカルLLMインストール -- VS CodeとCursorが今Ollama自動認識。
- ローカルモデル選択:Llamaは Qwenか Mistralか -- ビギナー向け完全比較。
- OllamaはLM Studioより速い? -- GPU・スループットベンチ。
- Ollama Windows/Mac インストール方法 -- ステップバイステップ・環境設定。
- ローカルLLM ハードウェアガイド2026 GPU要件 -- どのGPU・RAM・ストレージがモデルに必須。
- トラブル:Ollama エラーと解策 -- CUDA・MPS・CPU落とし穴・一般エラー。
- ローカルLLMモデル更新情報2026 -- Ollama対応日付付きの主要オープンウェイトリリース完全タイムライン。
ソース
- Ollama モデルライブラリ -- 4500+モデル、ライブDL統計。
- Ollama GitHub:DL人気モデル -- 月別ユーザー・トレンド(公開)。
- DeepSeek-R1 論文 -- "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning"(2025年1月)。
- Gemma 3 発表 -- GoogleブログGemma 3マルチモーダル・128Kコンテキスト(2026年2月)。