Macメモリ別ベストモデル推奨
最終確認:2026-05-15。モデル推奨は新モデルのリリースとともに変わる可能性があります。四半期ごとに更新。
| メモリ | 第一選択 | 量子化 | サイズ | M5 Pro tok/s | M5 Max tok/s | 代替 |
|---|---|---|---|---|---|---|
| 16 GB | Phi-4 | Q4_K_M | 2.5 GB | 60–70 | 110–130 | Llama 3.1 8B Q4(ギリギリ) |
| 36 GB | Llama 3.1 8B | Q8 | 8.5 GB | 38–45 | 75–85 | Qwen2.5 14B Q4(8.5 GB) |
| 48 GB | Qwen2.5 14B | Q8 | 16 GB | 25–30 | 50–60 | Mixtral 8x7B Q4(26 GB) |
| 64 GB | Qwen2.5 34B | Q5 | 24 GB | 18–22 | 35–42 | Mixtral 8x7B Q5(32 GB) |
| 96 GB | Llama 3.1 70B | Q4 | 42 GB | 10–13 | 20–25 | Qwen2.5 72B Q4(44 GB) |
| 128 GB | Llama 3.1 70B | Q5 | 49 GB | 8–11 | 14–18 | Qwen2.5 72B Q5(51 GB) |
| 128 GB | Llama 3.1 70B | Q8 | 74 GB | N/A | 9–12 | 最高品質、M5 Maxのみ |
サイズはGGUFフォーマット。MLX 4ビット相当品は同等です。
モデル品質ベンチマーク(2026標準テスト)
| モデル | MMLU | HumanEval | GSM8K | 平均 | 備考 |
|---|---|---|---|---|---|
| Phi-4 (3.8B) | 84.8 | 82.6 | 91.0 | 86.1 | 最高の小型モデル |
| Llama 3.1 8B | 73.0 | 72.6 | 84.5 | 76.7 | 万能型 |
| Qwen2.5 14B | 79.7 | 83.5 | 90.2 | 84.5 | 強力な推論力 |
| Mistral 7B | 60.1 | 30.5 | 50.0 | 46.9 | 古いが高速 |
| Qwen2.5 34B | 83.3 | 88.4 | 93.0 | 88.2 | ベスト中型モデル |
| Mixtral 8x7B | 70.6 | 40.2 | 60.4 | 57.1 | MoEアーキテクチャ |
| Llama 3.1 70B | 86.0 | 80.5 | 95.1 | 87.2 | ベスト汎用モデル |
| Qwen2.5 72B | 86.1 | 86.6 | 95.8 | 89.5 | トップ推論力 |
| Llama 3.1 405B | 88.6 | 89.0 | 96.8 | 91.5 | ローカルに収まらない |
| GPT-4o(参照) | 88.7 | 90.2 | 95.8 | 91.6 | クラウド基準 |
128GB Mac上のQwen2.5 72Bは継続コスト0円でGPT-4oの品質に近づきます。これは2026年のローカルAIで最も重要な発展です。
ユースケース別ベストモデル(2026)
| ユースケース | 36GB Mac向けベスト | 64GB Mac向けベスト | 128GB Mac向けベスト |
|---|---|---|---|
| コーディング(一般) | Llama 3.1 8B | DeepSeek Coder V2 16B | Llama 3.1 70B |
| コーディング(Python) | DeepSeek Coder V2 Lite | DeepSeek Coder V2 16B | DeepSeek Coder V2 236B |
| 長文ライティング | Llama 3.1 8B Q8 | Qwen2.5 34B Q5 | Llama 3.1 70B Q5 |
| チャット / 会話 | Mistral 7B | Mixtral 8x7B | Llama 3.1 70B |
| 推論 / 数学 | Qwen2.5 14B | Qwen2.5 34B | Qwen2.5 72B |
| RAG / Q&A | Llama 3.1 8B + nomic-embed | Llama 3.1 8B + bge-large | Llama 3.1 70B + bge-large |
| ビジョン / マルチモーダル | LLaVA 7B | Llama 3.2 Vision 11B | Llama 3.2 Vision 90B |
| 翻訳 | Qwen2.5 14B | Qwen2.5 34B | Aya Expanse 32B |
| 要約 | Llama 3.1 8B | Qwen2.5 34B | Llama 3.1 70B |
| コードレビュー | DeepSeek Coder V2 Lite | DeepSeek Coder V2 16B | Llama 3.1 70B |
専門モデルは特定タスクで汎用モデルを上回ることが多い。DeepSeek CoderはLlamaが大きいモデルでも、コードではLlamaに勝ります。
ユーザータイプ別の実際の設定
💡Tip: インディー開発者(Mac Mini M5 Pro 64GB、約180,000円) - コーディング:DeepSeek Coder V2 Lite(16B Q4、10 GB) - 執筆:Llama 3.1 8B Q8(8.5 GB)でドキュメントとメール - 常時稼働:`OLLAMA_MAX_LOADED_MODELS=2`で両モデルをウォーム状態に - 1日のコスト:0円(vs Copilot + ChatGPT月4,000–15,000円)
💡Tip: プライバシー重視のプロ(MacBook Pro M5 Pro 48GB、約380,000円) - メイン:一般業務にLlama 3.1 8B Q8 - 機密:法律/医療/金融文書にQwen2.5 14B Q5 - 出張:飛行機や安全施設でオフライン動作 - データはラップトップ外に出ない
💡Tip: 研究者 / MLエンジニア(Mac Studio M5 Max 128GB、約600,000円) - メイン:品質のためLlama 3.1 70B Q5(49 GB) - 専門:非英語研究にQwen2.5 72B Q4 - コーディング:DeepSeek Coder V2 16B - ビジョン:論文の図のためLlama 3.2 Vision 11B - 4モデルを同時にロード
💡Tip: 家族用AIサーバー(Mac Mini M5 Pro 64GB、常時稼働) - 音声アシスタント:Llama 3.1 8B + Whisper + Piper - RAG:埋め込みによる家族文書Q&A - REST API経由で家族のコーディング支援 - 電力コスト:約5,000円/年 - 代替:4人分のChatGPT Plus = 約150,000円/年
2026年に避けるべきモデル(その理由)
⚠️Warning: Llama 2(どのサイズも)は避ける — 2023年リリース、Llama 3および3.1に置き換えられた。同じパラメータ数で品質が30–50%低い。古いチュートリアルにまだ登場する — 従わないこと。代替:Llama 3.1 8B。
⚠️Warning: Vicuna、Alpaca、WizardLMは避ける — 2023年のコミュニティファインチューン。現代のベースモデル(Llama 3.1、Qwen2.5)が同等以上のパフォーマンス。代替:Qwen2.5 14BまたはLlama 3.1 8B。
⚠️Warning: Falcon 180Bは避ける — コンシューマーApple Siliconには収まらない。Llama 3.1 70B(より小型)が上回る。代替:Llama 3.1 70B Q5。
⚠️Warning: コンシューマーハードウェアでのFP16量子化は避ける — Llama 3.1 70B FP16 = 140GB、どのMacにも収まらない。Q5に対する品質向上は1%未満。代替:Q4_K_MまたはQ5_K_M。
⚠️Warning: 純粋なベースモデル(instructバリアントなし)は避ける — ベースモデルはテキストを補完するが指示に従わない。"-instruct"または"-chat"サフィックスを探すこと。代替:同じモデルのinstructバリアント。
⚠️Warning: 積極的に開発されていないモデルは避ける — StableLM、RedPajama、MPT、Pythia:放棄済みまたは陳腐化。定期的なアップデートがあるMeta、Alibaba、Mistral、Microsoftのモデルを使用。
モデルフォーマットクイックリファレンス
クイックリファレンス:これらのモデルのダウンロード
# 16 GB Mac
ollama pull phi4
# 36 GB Mac (いずれか選択)
ollama pull llama3.1:8b
ollama pull qwen2.5:14b
ollama pull mistral:7b
# 64 GB Mac
ollama pull qwen2.5:34b
ollama pull mixtral:8x7b
# 128 GB Mac
ollama pull llama3.1:70b
ollama pull qwen2.5:72b
# 専門モデル
ollama pull deepseek-coder-v2:16b # コーディング
ollama pull llama3.2-vision:11b # ビジョン
ollama pull aya-expanse:32b # 翻訳2つの異なるモデルを同時に実行できますか?
はい、`OLLAMA_MAX_LOADED_MODELS=2`を環境変数に設定します。64GBで8B + 34Bを同時実行できます。
初心者に最適なモデルはどれですか?
Llama 3.1 8B。広く利用可能で、良好な出力品質、実績があります。M1+ Macで動作します。
Mixtral 8x7BはLlama 8Bより高速ですか?
いいえ、やや遅い(M5 Proで40–50 tok/s vs 50–60 tok/s)。しかし推論能力は優れています。
2026年のベストローカルLLMは何ですか?
Apple Silicon上のほとんどのユーザーに:Qwen2.5(Macに収まる任意のサイズ)が現在品質ベンチマークをリード。128GB MacではLlama 3.1 70Bが同等。16GB未満:Phi-4は3.8Bパラメータで期待以上の性能を発揮し、2024年の8Bモデルと同等。
MacでLlama 3.1 405Bを実行できますか?
いいえ。Llama 3.1 405BはQ4量子化でも200GB以上必要 — どのコンシューマーMacも十分なユニファイドメモリを持っていません。M5 Ultra(2026年中頃予定、256GB)を待ってください — Q3–Q4で405Bを実行できる最初のコンシューマーハードウェアになる予定です。
ローカル使用ではQwenはLlamaより優れていますか?
ほとんどのタスクで、Qwen2.5は同じパラメータ数でLlama 3.1をベンチマークでわずかに上回ります(MMPUで1–3ポイント)。Llamaはより広いコミュニティサポートとファインチューンが豊富。ほとんどのユーザーは違いに気付かないでしょう — 可用性とファインチューンエコシステムに基づいて選択してください。
実際に役立つ最小のモデルは何ですか?
Phi-4(3.8Bパラメータ)。MMPUで84.8を獲得 — 2024年の一部の8Bモデルと同等。チャットやQ&Aでは驚くほど有能です。コーディングや複雑な推論はLlama 3.1 8BやQwen2.5 14Bに進んでください。