重要なポイント
- 総合的に最良の入門モデル:Llama 3.2 3B — 2 GBダウンロード、4 GB RAMで動作、サイズに対して優れた指示追従性能。
- 低RAM(4 GB以下)に最適:Phi-4 Mini 3.8B — Microsoftの小型モデルで推論・コーディングに強い(68% MMLU、70% HumanEval、わずか2.5 GB RAM)。
- 最速の2Bモデル:Gemma 3 2B — Googleの更新モデルで128KコンテキストにてCPU上で40〜60トークン/秒(Gemma 2の8Kから大幅拡張)。
- 最良の7Bオールラウンダー:Mistral 7B v0.3 — 信頼性が高く、Function Calling対応、Apache 2.0ライセンス。2026年4月時点でQwen2.5 7Bがコーディングで、Llama 3.1 8Bが英語推論で上回る。
- 多言語・コーディングに最適:Qwen2.5 7B — コーディングベンチマークでMistral 7Bを超え、29言語にネイティブ対応。
初心者向けチェックリスト:ローカルはあなたに適していますか?
最初のモデルをダウンロードする前に、これら3つの質問に答えてください:
1. 8GB以上のRAMをお持ちですか? (いいえの場合、クラウドAPIの方が開始が速いです。)
2. データをプライベートに保つ必要がありますか? (いいえの場合、クラウドAPIはより良い品質を提供します。)
3. 20~40分のセットアップを許容できますか? (いいえの場合、クラウドAPIは5分で準備完了です。)
2つ以上の質問に「いいえ」と答えた場合、**ローカルvsクラウド比較をお読みください** - クラウドAPIがハードウェアとタイムラインに適しているかを確認してください。初心者はしばしばローカルLLMが常に良いと仮定します——それは真実ではありません。正しい選択はあなたの特定の制約に依存します。
初心者向けローカルLLMモデルの選び方
ローカルLLMのモデル選択は3つの制約に依存します:利用可能なRAM、推論速度、タスクの種類——この優先順位で。
パラメータ数(3B、7B、13B)がRAM要件の主な決定要因です。4ビット量子化——ほとんどのローカル推論ツールのデフォルト——では、パラメータ数に~0.5を掛けて必要なGB RAMを推定できます。Q4_K_Mの7Bモデルは約4.5 GBのRAMを必要とします。
ほとんどの初心者にとって、Q4_K_M量子化の7Bモデルが8 GB以上のマシンで品質・速度・RAM使用のバランスが最良です。4〜6 GB RAMのマシンでは3Bモデルが実用的な上限です。
#1 Meta Llama 3.2 3B — 総合的に最適な入門モデル
Meta Llama 3.2 3Bはほとんどのユーザーにとって最良の出発点です。 5分以内にダウンロードでき、4 GB RAMのどのマシンでも動作し、以前の3Bモデルより明らかに優れた指示追従性能を発揮します。128Kコンテキストウィンドウを使用——同サイズモデルより大幅に広い。
8コアのノートPC CPUでのテストでは、Llama 3.2 3Bは25〜45トークン/秒を生成します。Apple M3 Proでは70〜90トークン/秒に達します。要約・Q&A・簡単なコーディングタスクには十分な品質ですが、多段階推論では7Bモデルに及びません。
| スペック | 値 |
|---|---|
| パラメータ数 | 3B |
| 必要RAM | ~2.5 GB (Q4_K_M) |
| ダウンロードサイズ | ~2 GB |
| コンテキストウィンドウ | 128Kトークン |
| CPU速度(8コアノートPC) | 25〜45トークン/秒 |
| Ollamaコマンド | ollama run llama3.2:3b |
#2 Microsoft Phi-4 Mini 3.8B — 低RAM向けの最良モデル
Phi-4 MiniはMicrosoftの小規模での推論・コーディングタスク向けに最適化されたコンパクトモデルです。 68% MMLU・70% HumanEvalを達成——問題解決に特化した高品質合成データによる訓練のおかげで、多くの2024年製7Bモデルを超えます。
4〜6 GB RAMで品質が重要なマシンに推奨されるモデルです。Phi-4 MiniはRAM 2.5 GB使用(Phi-3.5 Miniの3 GBから削減)で、4 GBマシンでも使いやすくなっています。
| スペック | 値 |
|---|---|
| パラメータ数 | 3.8B |
| 必要RAM | ~2.5 GB (Q4_K_M) |
| ダウンロードサイズ | ~2.3 GB |
| MMLUスコア | 68% |
| コンテキストウィンドウ | 128Kトークン |
| CPU速度(8コアノートPC) | 30〜50トークン/秒 |
| Ollamaコマンド | ollama run phi4-mini |
#3 Google Gemma 3 2B — 最速の2Bモデル
Gemma 3 2BはGoogleの更新された2Bモデルで、CPUのみの推論に最も高速な選択肢です。 ミッドレンジのノートPC CPUで40〜60トークン/秒を生成——同ハードウェアでLlama 3.2 3Bの約2倍の速度。Gemma 3は前バージョンを大幅に改善:コンテキストウィンドウが8K(Gemma 2)から128Kトークンに拡大し、文書タスクの主要な制限が解消されました。
Gemma 3 2Bは応答速度が最優先の場合、≤4 GB RAMのマシン、またはより大きなモデルをダウンロードする前にローカルLLMセットアップを確認するテストモデルとして適しています。
| スペック | 値 |
|---|---|
| パラメータ数 | 2B |
| 必要RAM | ~1.7 GB (Q4_K_M) |
| ダウンロードサイズ | ~1.6 GB |
| コンテキストウィンドウ | 128Kトークン |
| CPU速度(8コアノートPC) | 40〜60トークン/秒 |
| Ollamaコマンド | ollama run gemma3:2b |
#4 Mistral 7B v0.3 — 最良の7Bオールラウンダー
Mistral 7B v0.3は明確な指示フォーマットとFunction Calling対応を持つ信頼性の高い汎用7Bモデルです。 2026年4月時点でQwen2.5 7Bがコーディングベンチマークで、Llama 3.1 8Bが英語推論で上回っていますが——Mistral AIがApache 2.0ライセンスのフランス企業であるため、EUデータ主権の文脈で依然として有力な選択肢です。
8 GB RAMのマシンでは、Mistral 7Bは3Bモデルからの自然なステップアップです。長いテキスト、複雑な指示、多段階会話をどの3Bモデルよりも確実に処理します。
| スペック | 値 |
|---|---|
| パラメータ数 | 7B |
| 必要RAM | ~4.5 GB (Q4_K_M) |
| ダウンロードサイズ | ~4.1 GB |
| コンテキストウィンドウ | 32Kトークン |
| CPU速度(8コアノートPC) | 10〜20トークン/秒 |
| Ollamaコマンド | ollama run llama3.2 |
#5 Qwen2.5 7B — 多言語・コーディングに最適
Qwen2.5 7BはHumanEval(コーディング)とMBPPベンチマークでMistral 7Bを超え、中国語・日本語・韓国語・アラビア語・主要欧州語を含む29言語にネイティブ対応しています。 非英語ワークフローやコーディング主体のユースケースに推奨される選択肢です。
Qwen2.5 7Bは128Kコンテキストウィンドウ(Mistral 7Bの32Kと比較)を使用し、JSONモードによる構造化出力をサポートします。モデルはInstructバージョンとBaseバージョンで利用可能——チャット用途には必ずInstructバージョンを使用してください。詳細なベンチマークデータはQwen vs Llama vs Mistralベンチマーク比較を参照。
| スペック | 値 |
|---|---|
| パラメータ数 | 7B |
| 必要RAM | ~4.7 GB (Q4_K_M) |
| ダウンロードサイズ | ~4.4 GB |
| コンテキストウィンドウ | 128Kトークン |
| CPU速度(8コアノートPC) | 10〜18トークン/秒 |
| Ollamaコマンド | ollama run qwen2.5:7b |
RAM・速度・コンテキストウィンドウ別の最優秀モデルは?
| モデル | RAM | 速度(CPU) | コンテキスト | 最適用途 |
|---|---|---|---|---|
| Llama 3.2 3B | 2.5 GB | 25〜45トークン/秒 | 128K | 汎用・最初のモデル |
| Phi-4 Mini 3.8B | 2.5 GB | 30〜50トークン/秒 | 128K | 推論・コーディング・低RAM |
| Gemma 3 2B | 1.7 GB | 40〜60トークン/秒 | 128K | 速度・超低RAM |
| Mistral 7B v0.3 | 4.5 GB | 10〜20トークン/秒 | 32K | EUデプロイ・Function Calling・Apache 2.0 |
| Qwen2.5 7B | 4.7 GB | 10〜18トークン/秒 | 128K | 多言語・コーディング |
どのモデルから始めるべきか?
- 4 GB RAM以下:`ollama run gemma3:2b` — 最速ダウンロード、最小メモリ使用、128Kコンテキスト。基本タスクに許容できる品質。
- 8 GB RAM、最初のモデル:`ollama run llama3.2:3b` — 最初の体験に品質とRAMの最良バランス。
- 4〜6 GB RAM、推論/コーディング:`ollama run phi4-mini` — 68% MMLU、70% HumanEval(わずか2.5 GB RAM)。構造化タスクでLlama 3.2 3Bより優秀。
- 8 GB RAM、本格的な使用:`ollama run mistral` または `ollama run qwen2.5:7b` — 長文書・複雑な指示向けのステップアップ。
- 主にコーディングタスク:`ollama run qwen2.5:7b` — このリストで最高のHumanEvalスコア;Python・JavaScript・SQLに強い。
- 日本語・多言語:`ollama run qwen2.5:7b` — 29言語のネイティブサポート、翻訳オーバーヘッドなし。日本語テキストでのトークン効率が30〜40%向上。
地域に応じたモデル選択は?
日本(METI):日本語ワークフローには、Qwen2.5 7Bが正しい最初のモデルです——ネイティブ日本語トークン化によりLlamaやMistralより30〜40%優れたトークン効率を実現。コマンド:`ollama run qwen2.5:7b`。2024年のMETI AIガバナンスガイドラインでは、モデル名とバージョンの文書化が求められています——ここに記載された5つのモデルすべてに、これを満たすバージョン付きOllamaタグがあります。
東アジア(データ主権):中国語・韓国語ワークフローにもQwen2.5 7Bが推奨されます。29言語のネイティブサポートにより、アジア太平洋地域全体で最も効率的な多言語モデルです。Ollama経由のローカル推論はデータをローカルに保持するため、APAC地域のデータ越境規制要件を満たします。
グローバル(EU・その他):EU組織ではMistral 7B v0.3(フランス、Apache 2.0)がGDPRコンプライアンス文書化で最も簡単です。英語中心のワークフローにはLlama 3.2 3B(Meta、USA)が広く使用されています。5つのモデルすべてがOllama経由のローカル推論で外部サーバーへのデータ送信なしに動作します。
これらのモデルをどうやってダウンロード・実行するか?
5つのモデルすべてがOllamaコマンド1つでインストールできます——手動設定は不要です。 セットアップはOllamaのインストール方法を参照し、初回実行の手順は初めてのローカルLLM実行をご覧ください。RAMが限られたノートPCで実行する場合は、ノートPCでローカルLLMを実行する方法で量子化と制約されたハードウェアのパフォーマンスチューニングを参照。
最初のモデルが動いたら、次のステップは効果的なプロンプトの作り方を学ぶことです。プロンプトエンジニアリングの基礎から始めましょう——温度設定から出力フォーマットまで、すべてのプロンプトに必要な基本要素を16のガイドで解説しています。
ローカルLLM選択で初心者がよくやる失敗は?
- パラメータ数だけでモデルサイズを選ぶ——4ビット量子化の7Bは、量子化が不適切な13Bより高性能なことがある。
- GPU VRAMの量子化オーバーヘッドを考慮しない——モデルはファイルサイズより10〜15%多いVRAMを必要とする場合がある。
- 新しい量子化(Q4_K_M)が同サイズで優れた品質を提供するのに、古い量子化(Q3_K_S)を使用する。
- Mistral 7Bをデフォルトの7Bモデルに選ぶ: Mistral 7B v0.3は2023〜2024年のコミュニティ標準でしたが、現在はコーディングでQwen2.5 7Bに、英語タスクでLlama 3.1 8Bに同じRAM要件で上回られています。ツールがデフォルトで`ollama run mistral`を使う場合、RAMを増やさずに良い結果を得るために`ollama run qwen2.5:7b`または`ollama run llama3.2`に切り替えてください。
- 利用可能なRAMを確認せずにモデルをダウンロードする: 利用可能なRAMを超えるモデルをプルすると、Ollamaはディスクスワップを伴う低速なCPU推論にフォールバックし——時に1トークン/秒未満。7Bを超えるモデルをプルする前に、必ず`free -h`(Linux/macOS)を実行するかタスクマネージャー(Windows)を確認してください。
よくある質問
2026年に初心者向けの最良のローカルLLMモデルは何ですか?
ほとんどのユーザーにはLlama 3.2 3B——4 GB RAMのどのマシンでも動作し、5分以内にダウンロードでき、優れた指示追従出力を提供します。8 GB RAMにはQwen2.5 7Bがより良いコーディングと多言語性能を提供。最低RAMにはGemma 3 2Bが1.7 GBでCPUで40〜60トークン/秒で動作。
ローカルLLMを実行するために必要な最低RAMはどれくらいですか?
有用な出力の実用的な最低値はQ4_K_M量子化の3Bモデルで4 GB RAMです。8 GB RAMで7Bモデルが解放され、複雑なタスクで明らかに優れた結果を生成します。
Ollamaでこれらのモデルをどうやって実行しますか?
ollama.comからOllamaをインストールし、推奨入門モデルのために`ollama run llama3.2:3b`を実行します。Ollamaは最初の実行時にモデルをダウンロードします。ここに記載された5つのモデルはすべてOllamaライブラリにあります。
Llama 3.2 3Bは日常的なタスクに十分ですか?
可:要約、シンプルなQ&A、基本的なコード説明、会話チャット。不可:多段階推論、複雑なコーディング、長形式の構造化文章作成。それらのタスクには8 GB RAMでLlama 3.1 8BまたはQwen2.5 7Bにアップグレード。
3Bモデルと7Bモデルの違いは何ですか?
7Bモデルは複雑な指示と推論で明らかに優れた出力を生成します。3Bモデルは約半分のRAMを使用し、2〜3倍速く動作します。選択はほぼ常に利用可能なRAMで決まります——4〜6 GBマシンには3B、8 GBマシンには7B。
コーディングタスクに最適なモデルはどれですか?
Qwen2.5 7Bが5モデルの中でHumanEvalをリード。さらに良いコーディングには専用コードバリアントを使用:`ollama run qwen2.5-coder:7b`。4〜6 GB RAMに限定される場合はPhi-4 Mini 3.8Bが最良のコーディングモデル(2.5 GB RAMで70% HumanEval)。
日本語や非英語言語にはどのモデルを使うべきですか?
Qwen2.5 7Bは中国語・日本語・韓国語・アラビア語・主要欧州語を含む29言語をネイティブサポートします。日本語テキストをLlamaやMistralより効率的に処理し、トークン効率が30〜40%向上します。
これらのモデルは個人データに使っても安全ですか?
はい——5つのモデルすべてが完全にあなたのハードウェア上で動作します。プロンプトテキスト・コンテキスト・出力は外部サーバーに送信されません。ローカル推論は機密データに対してクラウドAPIより本質的にプライバシーが高いです。
これらのモデルのダウンロードにどれくらいかかりますか?
100 Mbps接続で:Gemma 3 2B(1.6 GB)約2分。Llama 3.2 3B(2 GB)約3分。Phi-4 Mini(2.3 GB)約3分。Mistral 7B(4.1 GB)約5分。モデルは初回ダウンロード後にキャッシュされ——次回の起動は数秒で開始。
同じマシンで複数のモデルを実行できますか?
はい——5つすべてがディスク上に同時に共存できます。5つすべてをインストールする場合は15〜20 GBを計画してください。Ollamaは一度に1つのモデルをロードし、5分の非アクティブ後にアンロードします。
参考文献
- Meta AI. (2024). "Llama 3.2 Model Card." https://llama.meta.com/ — Llama 3.2 3Bと1Bモデルの公式仕様とベンチマーク。
- Microsoft. (2025). "Phi-4 Mini Technical Report." https://huggingface.co/microsoft/Phi-4-mini-instruct — Phi-4 Miniのベンチマークデータ(68% MMLU、70% HumanEval)。
- Google DeepMind. (2025). "Gemma 3 Model Card." https://ai.google.dev/gemma/docs/core — 128Kコンテキストウィンドウ更新を含むGemma 3 2Bの仕様と性能。
- Ollama. (2026). "Ollama Model Library." https://ollama.com/library — Ollamaモデルタグ・サイズ・プルコマンドの正規ソース。
- Hugging Face. (2026). "Open LLM Leaderboard." https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard — すべてのオープンモデルのMMlu・HumanEval・MATHベンチマークスコア。
- Mistral AI. (2024). "Mistral 7B v0.3 Release Notes." https://mistral.ai/news/announcing-mistral-7b/ — 技術仕様とApache 2.0ライセンスの詳細。
- Alibaba DAMO Academy. (2024). "Qwen2.5 Technical Report." arXiv:2412.15115. https://arxiv.org/abs/2412.15115 — Qwen2.5 7Bの多言語ベンチマークデータとアーキテクチャの詳細。