重要なポイント
- 小規模スケールでの最高の推論: Phi-4 Mini 3.8B -- 68% MMLU、70% HumanEval、4 GB RAMで動作。
- CPUで最速: Gemma 2 2B -- 最新のノートパソコンのCPUで40~60トークン/秒、1.7 GB RAM。
- 最高の小規模コーディングモデル: Qwen2.5 3B -- ~2 GB RAMで65% HumanEval。
- 最高の汎用3Bモデル: Llama 3.2 3B -- 最も多くのコミュニティサポート、128Kコンテキスト、2.5 GB RAM。
- 2026年4月現在、2B以下のモデルはプロフェッショナルなタスクに適した出力品質を生成しません。実務では3B以上を使用してください。
「小規模」ローカルLLMとは何か、そしていつ使うべきか?
小規模ローカルLLMは、通常、40億未満のパラメータを持つモデルとして定義されます。 Q4_K_M量子化では、これらのモデルは1.5~3 GBのRAMを必要とします。これは、4~8 GBの総メモリを持つエントリーレベルノートパソコンの制約内です。
2026年4月現在、小規模モデルは以下に適しています:クイック要約、シンプルなQ&A、コードスニペット説明、短いテキストの翻訳、分類タスク。複数ステップの推論、複雑なコード生成、長い一貫した文書の作成には適していません。
3Bモデルと7Bモデル間の品質ギャップは重大です。GPT-3.5 MiniとGPT-3.5 Turbo間のギャップとほぼ同等です。8 GB RAMを持つユーザーの場合、マシンに余裕があれば、Q4_K_Mの7Bモデルがほぼ常に良い選択です。7B推奨については、最高の初心者向けローカルLLMモデルを参照してください。
Phi-4 Mini 3.8B -- Sub-4Bクラスで最高の推論パフォーマンス
Microsoft Phi-4 MiniはMMLA68%、HumanEval70%を達成します。 これらのスコアは2025年より前にリリースされた多くの7Bモデルを上回っています。これが可能な理由は、Phi-4 Miniが広いウェブテキストではなく、推論と問題解決に焦点を当てた管理されたシンセティックデータセットで訓練されたためです。
2026年4月現在、Phi-4 Miniは、主に推論(数学、論理、段階的説明)またはコード支援が必要で、4~6 GB RAMのハードウェアを持つユーザーに推奨される選択肢です。
| Spec | Value |
|---|---|
| MMLU | 68% |
| HumanEval | 70% |
| RAM (Q4_K_M) | ~2.5 GB |
| コンテキスト | 128Kトークン |
| CPU速度 | 30~50トークン/秒 |
| Ollamaコマンド | ollama run phi4-mini |
Gemma 2 2B -- CPUで最速の小規模ローカルLLM
Google Gemma 2 2Bは、モダンノートパソコンのCPUで40~60トークン/秒を生成します。 この品質帯域内のモデルの中で最速です。1.7 GB RAMのフットプリントにより、4 GBマシン上のOSと他のアプリケーション用に十分なメモリが残ります。
推論タスクではPhi-4 MiniまたはLlama 3.2 3Bより品質が低いです。8Kコンテキストウィンドウ(Phi-4 MiniとLlama 3.2の128Kに対して)は、より長い文書の実用的な制限です。応答速度が出力の深さより重要な場合、Gemma 2 2Bが正しい選択です。
| Spec | Value |
|---|---|
| MMLU | 52% |
| RAM (Q4_K_M) | ~1.7 GB |
| コンテキスト | 8Kトークン |
| CPU速度 | 40~60トークン/秒 |
| Ollamaコマンド | ollama run gemma2:2b |
Qwen2.5 3B -- コーディングタスク向けの最高の小規模モデル
Qwen2.5 3BはHumanEvalで65%のスコアを獲得し、Llama 3.2 3Bより5ポイント高く、3Bスケールでのコーディングタスクに最適です。JSONモードと関数呼び出しサポートを含み、29言語をネイティブに処理します。
英語での非コーディングタスクについては、Llama 3.2 3BとPhi-4 Miniはより自然なプロスを生成します。コーディングまたは多言語出力が主なユースケースの場合、特にQwen2.5 3Bを選択してください。
| Spec | Value |
|---|---|
| MMLU | 62% |
| HumanEval | 65% |
| RAM (Q4_K_M) | ~2 GB |
| コンテキスト | 128Kトークン |
| CPU速度 | 25~40トークン/秒 |
| Ollamaコマンド | ollama run qwen2.5:3b |
Llama 3.2 3B -- 最高の汎用小規模モデル
Meta Llama 3 .2 3Bは、最も広くドキュメント化され、コミュニティがサポートする3Bモデルです。MMLU58%、HumanEval60%のスコアは、両方でPhi-4 Miniを若干下回りますが、最も広いツールサポート、最も利用可能なファインチューン、最大のコミュニティガイドコレクションを備えています。
128Kコンテキストウィンドウは、より大きなLlama 3.xモデルと同じで、中程度の長さの文書の要約に適しています。最初の小規模モデルとして、Llama 3.2 3Bは予測可能な動作と広範なドキュメンテーションのため、最も安全な選択のままです。
| Spec | Value |
|---|---|
| MMLU | 58% |
| RAM (Q4_K_M) | ~2.5 GB |
| コンテキスト | 128Kトークン |
| CPU速度 | 25~45トークン/秒 |
| Ollamaコマンド | ollama run llama3.2:3b |
Llama 3.2 1B -- 有用な出力のための絶対最小値
Llama 3.2 1Bはわずか1.3 GBのRAMを必要とし、CPUで60~90トークン/秒を生成します。最も高速なローカル実行可能モデルです。出力品質は限界的です:非常にシンプルな分類とキーワード抽出を処理しますが、一貫した複数文の応答に苦労します。2026年4月現在、RAMが本当に制約(3 GB未満)である場合、またはツール統合をテストする場合のみ、Llama 3.2 1Bを使用してください。
完全比較:4B未満の最高の小規模ローカルLLM
| モデル | MMLU | HumanEval | RAM | コンテキスト | 最適用途 |
|---|---|---|---|---|---|
| Phi-4 Mini 3.8B | 68% | 70% | 2.5 GB | 128K | 推論、コーディング |
| Qwen2.5 3B | 62% | 65% | 2 GB | 128K | コーディング、多言語 |
| Llama 3.2 3B | 58% | 60% | 2.5 GB | 128K | 汎用、最初のモデル |
| Gemma 2 2B | 52% | 38% | 1.7 GB | 8K | 速度、非常に低いRAM |
| Llama 3.2 1B | 32% | 28% | 1.3 GB | 128K | 絶対最小RAM |
地域別の小規模ローカルLLM
日本(METI): 小規模モデルティアでの日本語タスクについては、この比較の唯一のモデルであるネイティブな日本語トークン化はQwen2.5 3Bです。Llama 3.2 3Bは日本語を処理しますが、トークン効率は低くなります。RAM制約の下での日本語要約または翻訳の場合:`ollama run qwen2.5:3b`。小規模モデルの速度の利点は日本企業の使用に特に関連しています。CPUで25~40トークン/秒は、標準的な職場ハードウェア上のチャットインターフェースに適切なリアルタイム応答を提供します。日本の独立系企業向けMETIガイダンスに準拠した小規模モデルの実装については、Ollama経由のローカル展開がすべてのテキスト処理をオンデバイスに保つため推奨されます。
中国: Qwen2.5 3B(Alibaba、Apache 2.0)は、中国語の小規模モデル展開の自然な選択です。ネイティブな中国語トークン化により、同等のパラメータ数のLlamaより30~40%効率的に中国語テキストを処理します。IoTおよび中国のデータセキュリティ法(数据安全法)下でのエッジ展開の場合:`ollama run qwen2.5:3b`は4 GB RAMを備えた任意のLinuxデバイスで動作し、外部APIコールなしですべてのテキストをオンデバイスで処理します。
その他の地域: 英語ユースケースの場合、Phi-4 Mini 3.8BはCPUベースのシステムで最高の推論品質を提供します。コストの最適化と速度が重要な場合、Gemma 2 2Bはスケールできる推論基盤を最小限のメモリで提供します。
小規模ローカルLLMを実行する場合の一般的な誤り
- Q4_K_Mの代わりにQ8_0量子化を使用する: Q8_0は、小規模での品質改善がわずかなため、Q4_K_Mのほぼ2倍のRAMを必要とします。Llama 3.2 3BモデルのQ8_0は~3.8 GB RAMが必要で、Q4_K_Mでは~2.5 GBです。4 GBマシンではQ8_0はスワップ使用をトリガーし、推論を3~5倍遅くする可能性があります。Sub-4BモデルではデフォルトとしてQ4_K_Mを常に使用してください。
- 命令バリアント代わりにベースモデルを実行する: ベースモデル(例:`llama3.2:3b-text`)は、テキスト内の次のトークンを予測するようにトレーニングされた事前ファインチューニングチェックポイントです。指示に従いません。ベースモデルに「2+2は何ですか?」と聞くと、「4」と答える代わりにクイズとして文を完成させるかもしれません。常に命令バリアントを使用してください:`llama3.2:3b`(Ollamaは名前付きモデルのデフォルトで命令を使用)。
- 3Bモデルから7Bモデルの品質を期待する: 68% MMLU(Phi-4 Mini)の3Bモデルは、一般的なタスクで2023年のGPT-3.5 Miniと同様にパフォーマンスします。複雑な推論チェーン、長文の作成、微妙なコード生成は、7Bモデルより顕著に低い品質を生成します。出力品質が不十分な場合は、7Bモデルにアップグレードしてください。RAMの差は~2 GB(2.5 GB → 4.5 GB)です。
関連資料
- 最高の初心者向けローカルLLMモデル -- 8 GB RAMが利用可能で、品質が3Bからステップアップする必要がある場合の7B推奨
- 最初のローカルLLMを実行する -- Ollamaを使用して10分未満でこのページの任意のモデルをプルして実行するステップバイステップガイド
- ノートパソコン上のローカルLLM -- RAM制約の下での持続的な推論のための熱管理とバッテリー管理
- LLM量子化の説明 -- Q4_K_Mがデフォルトである理由と、極端なRAM制約のためにQ3_K_Mを考慮する場合
- 最高のローカルコーディング用LLM -- Qwen2.5 3Bが複雑なタスクに十分でない場合の7B+スケールのコード固有モデル
- ローカルLLMセットアップのトラブルシューティング -- RAM制約マシンで一般的なOOMエラー、遅い推論、モデルロードの失敗を修正
小規模ローカルLLMモデルについてのよくある質問
有用な出力を生成する最小のローカルLLMは何ですか?
2026年4月現在、有用な出力の実用的な最小値はQ4_K_M量子化での3Bモデルです。2B以下のパラメータを持つモデル(Llama 3.2 1B、Gemma 2 2B)は一貫した単一文を生成しますが、複数ステップの指示と複雑な推論に苦労しています。要約やシンプルなQ&Aなどのタスクの場合、Gemma 2 2Bは使用可能です。より複雑な場合は、3Bモデルから始めてください。
3Bモデルを電話で実行できますか?
はい -- Llama 3.2 1Bと3Bは、オンデバイスのモバイル展開用に設計されています。Metaは、iOS(MLC LLM経由)およびAndroid向けの最適化されたビルドを提供します。モダンフォン(Snapdragon 8 Gen 3またはApple A17 Pro)での推論は、1Bモデルで15~30トークン/秒を生成します。LM StudioとOllamaは現在iOSまたはAndroidで動作しません。モバイルには別のフレームワークが必要です。
小規模モデルは要約に適していますか?
はい -- 要約は小規模モデルの最強のユースケースの1つです。Gemma 2 2BとLlama 3.2 3Bは、~4,000語までのテキスト(品質出力の実用的なコンテキスト制限)の正確な要約を確実に生成します。より長い文書の場合は、Phi-4 MiniまたはLlama 3.2 3B(両方で128Kトークン)のような大きなコンテキストウィンドウを持つモデルを使用してください。
2Bモデルは同じハードウェアで7Bモデルより何倍速いですか?
CPU上で約2~3倍速いです。Gemma 2 2Bは同じノートパソコンのCPUでMistral 7Bより40~60トークン/秒対10~20トークン/秒を生成します。GPUではスピード利点は狭くなります。スピード差はCPUのみのマシンで最も顕著です。
小規模モデルは関数呼び出しをサポートしていますか?
いくつかサポートしています。Qwen2.5 3Bは関数呼び出しとJSONモードをサポートしています。Llama 3.2 3Bは基本的なツール使用をサポートしています。Gemma 2 2Bは関数呼び出しをサポートしていません。構造化された出力に依存するパイプラインを構築する前に、モデルのドキュメントを確認してください。
英語以外の言語に最適な小規模モデルはどれですか?
Qwen2.5 3Bは、中国語、日本語、韓国語、アラビア語を含む29言語をネイティブにサポートしています。Gemma 2 2BとPhi-4 Miniは主に英語最適化されています。小規模モデルスケールでの非英語タスクの場合、Qwen2.5 3Bが明確な選択肢です。Qwen vs Llama vs Mistral 多言語比較で完全な言語比較を参照してください。
日常的なタスクでのPhi-4 MiniとLlama 3.2 3Bの違いは何ですか?
Phi-4 Miniはほぼ同じRAM(各2.5 GB)で推論、数学、コーディングでLlama 3.2 3Bを上回ります(68%対58% MMLU、70%対60% HumanEval)。日常的なタスク -- Q&A、要約、シンプルな説明 -- では、品質ギャップは顕著ですが劇的ではありません。Llama 3.2 3Bはより広いコミュニティサポートとより多くのファインチューンが利用可能です。構造化された推論にはPhi-4 Miniを選択し、汎用チャットと互換性にはLlama 3.2 3Bを選択してください。
2つの小規模モデルを同時に実行できますか?
はい、合計RAMが許可する場合。Q4_K_Mで2つの3Bモデルは~5 GB組み合わされて使用します。リーンなOSを備えた8 GBマシンでは実行可能です。Ollamaはデフォルトでプロセスごとに一度に1つのモデルをロードします。異なるポート(OLLAMA_HOST=:11434とOLLAMA_HOST=:11435)で2つのOllamaインスタンスを実行して、2つのモデルを並行して提供してください。これは出力をA/Bテストするのに役立ちます。
小規模モデルはRAG(検索拡張生成)に機能しますか?
シンプルなRAGの場合ははい。Llama 3.2 3BとPhi-4 Miniは、取得した文書チャンク上の質問に確実に答えることができます。複数ホップの推論が必要な大規模な知識ベース上のRAGの場合、7B+モデルはより一貫してパフォーマンスします。GPT4AllのLocalDocsフィーチャーはドキュメントQ&Aに3Bモデルを使用し、個人ドキュメント集合に対してうまく動作します。
Phi-4 MiniはコーディングでLlama 3.2 3Bより優れていますか?
はい。Phi-4 Miniはこのスケールで意味のある10ポイントギャップでLlama 3.2 3Bの60%対70% HumanEvalスコアを達成します。4~6 GB RAMマシンでのコーディング支援の場合、Phi-4 Miniが推奨される選択肢です。多言語コーディング(非Python)の場合、65% HumanEvalのQwen2.5 3Bはphi-4 Miniと競争力があり、関数呼び出しもサポートしています。
ソース
- Hugging Face Open LLM Leaderboard -- open-llm-leaderboard.hf.space(MMLUとHumanEvalスコア)
- Microsoft Phi-4技術レポート -- microsoft.com/en-us/research/publication/phi-4-technical-report/
- Meta Llama 3.2モデルカード -- huggingface.co/meta-llama/Llama-3.2-3B-Instruct
- Google Gemma 2技術レポート -- storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf