すべてのApple Silicon Mac向けベストローカルLLMモデル推奨。16GB（Phi-4）、36GB（Llama 3.1 8B）、64GB（Qwen2 34B）、128GB（Llama 3.1 70B）の具体的なモデル選択とM5 Pro/MaxのTok/s数値。

Macメモリ別ベストモデル推奨

最終確認：2026-05-15。モデル推奨は新モデルのリリースとともに変わる可能性があります。四半期ごとに更新。

メモリ	第一選択	量子化	サイズ	M5 Pro tok/s	M5 Max tok/s	代替
16 GB	Phi-4	Q4_K_M	2.5 GB	60–70	110–130	Llama 3.1 8B Q4（ギリギリ）
36 GB	Llama 3.1 8B	Q8	8.5 GB	38–45	75–85	Qwen2.5 14B Q4（8.5 GB）
48 GB	Qwen2.5 14B	Q8	16 GB	25–30	50–60	Mixtral 8x7B Q4（26 GB）
64 GB	Qwen2.5 34B	Q5	24 GB	18–22	35–42	Mixtral 8x7B Q5（32 GB）
96 GB	Llama 3.1 70B	Q4	42 GB	10–13	20–25	Qwen2.5 72B Q4（44 GB）
128 GB	Llama 3.1 70B	Q5	49 GB	8–11	14–18	Qwen2.5 72B Q5（51 GB）
128 GB	Llama 3.1 70B	Q8	74 GB	N/A	9–12	最高品質、M5 Maxのみ

サイズはGGUFフォーマット。MLX 4ビット相当品は同等です。

モデル品質ベンチマーク（2026標準テスト）

モデル	MMLU	HumanEval	GSM8K	平均	備考
Phi-4 (3.8B)	84.8	82.6	91.0	86.1	最高の小型モデル
Llama 3.1 8B	73.0	72.6	84.5	76.7	万能型
Qwen2.5 14B	79.7	83.5	90.2	84.5	強力な推論力
Mistral 7B	60.1	30.5	50.0	46.9	古いが高速
Qwen2.5 34B	83.3	88.4	93.0	88.2	ベスト中型モデル
Mixtral 8x7B	70.6	40.2	60.4	57.1	MoEアーキテクチャ
Llama 3.1 70B	86.0	80.5	95.1	87.2	ベスト汎用モデル
Qwen2.5 72B	86.1	86.6	95.8	89.5	トップ推論力
Llama 3.1 405B	88.6	89.0	96.8	91.5	ローカルに収まらない
GPT-4o（参照）	88.7	90.2	95.8	91.6	クラウド基準

128GB Mac上のQwen2.5 72Bは継続コスト0円でGPT-4oの品質に近づきます。これは2026年のローカルAIで最も重要な発展です。

ユースケース別ベストモデル（2026）

ユースケース	36GB Mac向けベスト	64GB Mac向けベスト	128GB Mac向けベスト
コーディング（一般）	Llama 3.1 8B	DeepSeek Coder V2 16B	Llama 3.1 70B
コーディング（Python）	DeepSeek Coder V2 Lite	DeepSeek Coder V2 16B	DeepSeek Coder V2 236B
長文ライティング	Llama 3.1 8B Q8	Qwen2.5 34B Q5	Llama 3.1 70B Q5
チャット / 会話	Mistral 7B	Mixtral 8x7B	Llama 3.1 70B
推論 / 数学	Qwen2.5 14B	Qwen2.5 34B	Qwen2.5 72B
RAG / Q&A	Llama 3.1 8B + nomic-embed	Llama 3.1 8B + bge-large	Llama 3.1 70B + bge-large
ビジョン / マルチモーダル	LLaVA 7B	Llama 3.2 Vision 11B	Llama 3.2 Vision 90B
翻訳	Qwen2.5 14B	Qwen2.5 34B	Aya Expanse 32B
要約	Llama 3.1 8B	Qwen2.5 34B	Llama 3.1 70B
コードレビュー	DeepSeek Coder V2 Lite	DeepSeek Coder V2 16B	Llama 3.1 70B

専門モデルは特定タスクで汎用モデルを上回ることが多い。DeepSeek CoderはLlamaが大きいモデルでも、コードではLlamaに勝ります。

ユーザータイプ別の実際の設定

💡Tip: インディー開発者（Mac Mini M5 Pro 64GB、約180,000円） - コーディング：DeepSeek Coder V2 Lite（16B Q4、10 GB） - 執筆：Llama 3.1 8B Q8（8.5 GB）でドキュメントとメール - 常時稼働：`OLLAMA_MAX_LOADED_MODELS=2`で両モデルをウォーム状態に - 1日のコスト：0円（vs Copilot + ChatGPT月4,000–15,000円）

💡Tip: プライバシー重視のプロ（MacBook Pro M5 Pro 48GB、約380,000円） - メイン：一般業務にLlama 3.1 8B Q8 - 機密：法律/医療/金融文書にQwen2.5 14B Q5 - 出張：飛行機や安全施設でオフライン動作 - データはラップトップ外に出ない

💡Tip: 研究者 / MLエンジニア（Mac Studio M5 Max 128GB、約600,000円） - メイン：品質のためLlama 3.1 70B Q5（49 GB） - 専門：非英語研究にQwen2.5 72B Q4 - コーディング：DeepSeek Coder V2 16B - ビジョン：論文の図のためLlama 3.2 Vision 11B - 4モデルを同時にロード

💡Tip: 家族用AIサーバー（Mac Mini M5 Pro 64GB、常時稼働） - 音声アシスタント：Llama 3.1 8B + Whisper + Piper - RAG：埋め込みによる家族文書Q&A - REST API経由で家族のコーディング支援 - 電力コスト：約5,000円/年 - 代替：4人分のChatGPT Plus = 約150,000円/年

2026年に避けるべきモデル（その理由）

⚠️Warning: Llama 2（どのサイズも）は避ける — 2023年リリース、Llama 3および3.1に置き換えられた。同じパラメータ数で品質が30–50%低い。古いチュートリアルにまだ登場する — 従わないこと。代替：Llama 3.1 8B。

⚠️Warning: Vicuna、Alpaca、WizardLMは避ける — 2023年のコミュニティファインチューン。現代のベースモデル（Llama 3.1、Qwen2.5）が同等以上のパフォーマンス。代替：Qwen2.5 14BまたはLlama 3.1 8B。

⚠️Warning: Falcon 180Bは避ける — コンシューマーApple Siliconには収まらない。Llama 3.1 70B（より小型）が上回る。代替：Llama 3.1 70B Q5。

⚠️Warning: コンシューマーハードウェアでのFP16量子化は避ける — Llama 3.1 70B FP16 = 140GB、どのMacにも収まらない。Q5に対する品質向上は1%未満。代替：Q4_K_MまたはQ5_K_M。

⚠️Warning: 純粋なベースモデル（instructバリアントなし）は避ける — ベースモデルはテキストを補完するが指示に従わない。"-instruct"または"-chat"サフィックスを探すこと。代替：同じモデルのinstructバリアント。

⚠️Warning: 積極的に開発されていないモデルは避ける — StableLM、RedPajama、MPT、Pythia：放棄済みまたは陳腐化。定期的なアップデートがあるMeta、Alibaba、Mistral、Microsoftのモデルを使用。

モデルフォーマットクイックリファレンス

フォーマット	使用ツール	オリジナル比サイズ
GGUF Q4_K_M	Ollama、llama.cpp	FP16の約30%
GGUF Q5_K_M	Ollama、llama.cpp	FP16の約35%
GGUF Q8_0	Ollama、llama.cpp	FP16の約50%
MLX 4-bit	MLXフレームワーク	FP16の約30%
MLX 8-bit	MLXフレームワーク	FP16の約50%
FP16（オリジナル）	全フレームワーク	100%

この記事のサイズは特記なき限りGGUF Q4_K_M。MLX 4ビット相当品は同様のサイズ。正確なバイト数はHuggingFaceのモデルカードを確認。

クイックリファレンス：これらのモデルのダウンロード

bash

# 16 GB Mac
ollama pull phi4

# 36 GB Mac (いずれか選択)
ollama pull llama3.1:8b
ollama pull qwen2.5:14b
ollama pull mistral:7b

# 64 GB Mac
ollama pull qwen2.5:34b
ollama pull mixtral:8x7b

# 128 GB Mac
ollama pull llama3.1:70b
ollama pull qwen2.5:72b

# 専門モデル
ollama pull deepseek-coder-v2:16b   # コーディング
ollama pull llama3.2-vision:11b     # ビジョン
ollama pull aya-expanse:32b         # 翻訳

2つの異なるモデルを同時に実行できますか？

はい、`OLLAMA_MAX_LOADED_MODELS=2`を環境変数に設定します。64GBで8B + 34Bを同時実行できます。

初心者に最適なモデルはどれですか？

Llama 3.1 8B。広く利用可能で、良好な出力品質、実績があります。M1+ Macで動作します。

Mixtral 8x7BはLlama 8Bより高速ですか？

いいえ、やや遅い（M5 Proで40–50 tok/s vs 50–60 tok/s）。しかし推論能力は優れています。

2026年のベストローカルLLMは何ですか？

Apple Silicon上のほとんどのユーザーに：Qwen2.5（Macに収まる任意のサイズ）が現在品質ベンチマークをリード。128GB MacではLlama 3.1 70Bが同等。16GB未満：Phi-4は3.8Bパラメータで期待以上の性能を発揮し、2024年の8Bモデルと同等。

MacでLlama 3.1 405Bを実行できますか？

いいえ。Llama 3.1 405BはQ4量子化でも200GB以上必要 — どのコンシューマーMacも十分なユニファイドメモリを持っていません。M5 Ultra（2026年中頃予定、256GB）を待ってください — Q3–Q4で405Bを実行できる最初のコンシューマーハードウェアになる予定です。

ローカル使用ではQwenはLlamaより優れていますか？

ほとんどのタスクで、Qwen2.5は同じパラメータ数でLlama 3.1をベンチマークでわずかに上回ります（MMPUで1–3ポイント）。Llamaはより広いコミュニティサポートとファインチューンが豊富。ほとんどのユーザーは違いに気付かないでしょう — 可用性とファインチューンエコシステムに基づいて選択してください。

実際に役立つ最小のモデルは何ですか？

Phi-4（3.8Bパラメータ）。MMPUで84.8を獲得 — 2024年の一部の8Bモデルと同等。チャットやQ&Aでは驚くほど有能です。コーディングや複雑な推論はLlama 3.1 8BやQwen2.5 14Bに進んでください。

Apple Silicon向けベストLLMモデル2026：16GB、36GB、64GB、128GBの推奨モデル

MacでどのLLMモデルを使うべきですか？

Macメモリ別ベストモデル推奨

モデル品質ベンチマーク（2026標準テスト）

ユースケース別ベストモデル（2026）

ユーザータイプ別の実際の設定

2026年に避けるべきモデル（その理由）

モデルフォーマットクイックリファレンス

クイックリファレンス：これらのモデルのダウンロード

2つの異なるモデルを同時に実行できますか？

初心者に最適なモデルはどれですか？

Mixtral 8x7BはLlama 8Bより高速ですか？

2026年のベストローカルLLMは何ですか？

MacでLlama 3.1 405Bを実行できますか？

ローカル使用ではQwenはLlamaより優れていますか？

実際に役立つ最小のモデルは何ですか？

A Note on Third-Party Facts

Apple Silicon向けベストLLMモデル2026：16GB、36GB、64GB、128GBの推奨モデル

MacでどのLLMモデルを使うべきですか？

Macメモリ別ベストモデル推奨

モデル品質ベンチマーク（2026標準テスト）

ユースケース別ベストモデル（2026）

ユーザータイプ別の実際の設定

2026年に避けるべきモデル（その理由）

モデルフォーマットクイックリファレンス

クイックリファレンス：これらのモデルのダウンロード

関連記事

2つの異なるモデルを同時に実行できますか？

初心者に最適なモデルはどれですか？

Mixtral 8x7BはLlama 8Bより高速ですか？

2026年のベストローカルLLMは何ですか？

MacでLlama 3.1 405Bを実行できますか？

ローカル使用ではQwenはLlamaより優れていますか？

実際に役立つ最小のモデルは何ですか？

A Note on Third-Party Facts