PromptQuorumPromptQuorum
ホーム/ローカルLLM/Apple Silicon向けベストLLMモデル2026:16GB、36GB、64GB、128GBの推奨モデル
Hardware & Performance

Apple Silicon向けベストLLMモデル2026:16GB、36GB、64GB、128GBの推奨モデル

·10分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

16GB:Phi-4。36GB:Llama 3.1 8B Q8(約38 tok/s)。64GB:Qwen2.5 34B Q5(約18 tok/s)。128GB:Llama 3.1 70B Q5(約14 tok/s M5 Pro、約16 tok/s M5 Max)。すべてMetal上のOllamaで動作。

すべてのApple Silicon Mac向けベストローカルLLMモデル推奨。16GB(Phi-4)、36GB(Llama 3.1 8B)、64GB(Qwen2 34B)、128GB(Llama 3.1 70B)の具体的なモデル選択とM5 Pro/MaxのTok/s数値。

Macメモリ別ベストモデル推奨

最終確認:2026-05-15。モデル推奨は新モデルのリリースとともに変わる可能性があります。四半期ごとに更新。

メモリ第一選択量子化サイズM5 Pro tok/sM5 Max tok/s代替
16 GBPhi-4Q4_K_M2.5 GB60–70110–130Llama 3.1 8B Q4(ギリギリ)
36 GBLlama 3.1 8BQ88.5 GB38–4575–85Qwen2.5 14B Q4(8.5 GB)
48 GBQwen2.5 14BQ816 GB25–3050–60Mixtral 8x7B Q4(26 GB)
64 GBQwen2.5 34BQ524 GB18–2235–42Mixtral 8x7B Q5(32 GB)
96 GBLlama 3.1 70BQ442 GB10–1320–25Qwen2.5 72B Q4(44 GB)
128 GBLlama 3.1 70BQ549 GB8–1114–18Qwen2.5 72B Q5(51 GB)
128 GBLlama 3.1 70BQ874 GBN/A9–12最高品質、M5 Maxのみ

サイズはGGUFフォーマット。MLX 4ビット相当品は同等です。

モデル品質ベンチマーク(2026標準テスト)

モデルMMLUHumanEvalGSM8K平均備考
Phi-4 (3.8B)84.882.691.086.1最高の小型モデル
Llama 3.1 8B73.072.684.576.7万能型
Qwen2.5 14B79.783.590.284.5強力な推論力
Mistral 7B60.130.550.046.9古いが高速
Qwen2.5 34B83.388.493.088.2ベスト中型モデル
Mixtral 8x7B70.640.260.457.1MoEアーキテクチャ
Llama 3.1 70B86.080.595.187.2ベスト汎用モデル
Qwen2.5 72B86.186.695.889.5トップ推論力
Llama 3.1 405B88.689.096.891.5ローカルに収まらない
GPT-4o(参照)88.790.295.891.6クラウド基準

128GB Mac上のQwen2.5 72Bは継続コスト0円でGPT-4oの品質に近づきます。これは2026年のローカルAIで最も重要な発展です。

ユースケース別ベストモデル(2026)

ユースケース36GB Mac向けベスト64GB Mac向けベスト128GB Mac向けベスト
コーディング(一般)Llama 3.1 8BDeepSeek Coder V2 16BLlama 3.1 70B
コーディング(Python)DeepSeek Coder V2 LiteDeepSeek Coder V2 16BDeepSeek Coder V2 236B
長文ライティングLlama 3.1 8B Q8Qwen2.5 34B Q5Llama 3.1 70B Q5
チャット / 会話Mistral 7BMixtral 8x7BLlama 3.1 70B
推論 / 数学Qwen2.5 14BQwen2.5 34BQwen2.5 72B
RAG / Q&ALlama 3.1 8B + nomic-embedLlama 3.1 8B + bge-largeLlama 3.1 70B + bge-large
ビジョン / マルチモーダルLLaVA 7BLlama 3.2 Vision 11BLlama 3.2 Vision 90B
翻訳Qwen2.5 14BQwen2.5 34BAya Expanse 32B
要約Llama 3.1 8BQwen2.5 34BLlama 3.1 70B
コードレビューDeepSeek Coder V2 LiteDeepSeek Coder V2 16BLlama 3.1 70B

専門モデルは特定タスクで汎用モデルを上回ることが多い。DeepSeek CoderはLlamaが大きいモデルでも、コードではLlamaに勝ります。

ユーザータイプ別の実際の設定

💡Tip: インディー開発者(Mac Mini M5 Pro 64GB、約180,000円) - コーディング:DeepSeek Coder V2 Lite(16B Q4、10 GB) - 執筆:Llama 3.1 8B Q8(8.5 GB)でドキュメントとメール - 常時稼働:`OLLAMA_MAX_LOADED_MODELS=2`で両モデルをウォーム状態に - 1日のコスト:0円(vs Copilot + ChatGPT月4,000–15,000円)

💡Tip: プライバシー重視のプロ(MacBook Pro M5 Pro 48GB、約380,000円) - メイン:一般業務にLlama 3.1 8B Q8 - 機密:法律/医療/金融文書にQwen2.5 14B Q5 - 出張:飛行機や安全施設でオフライン動作 - データはラップトップ外に出ない

💡Tip: 研究者 / MLエンジニア(Mac Studio M5 Max 128GB、約600,000円) - メイン:品質のためLlama 3.1 70B Q5(49 GB) - 専門:非英語研究にQwen2.5 72B Q4 - コーディング:DeepSeek Coder V2 16B - ビジョン:論文の図のためLlama 3.2 Vision 11B - 4モデルを同時にロード

💡Tip: 家族用AIサーバー(Mac Mini M5 Pro 64GB、常時稼働) - 音声アシスタント:Llama 3.1 8B + Whisper + Piper - RAG:埋め込みによる家族文書Q&A - REST API経由で家族のコーディング支援 - 電力コスト:約5,000円/年 - 代替:4人分のChatGPT Plus = 約150,000円/年

2026年に避けるべきモデル(その理由)

⚠️Warning: Llama 2(どのサイズも)は避ける — 2023年リリース、Llama 3および3.1に置き換えられた。同じパラメータ数で品質が30–50%低い。古いチュートリアルにまだ登場する — 従わないこと。代替:Llama 3.1 8B。

⚠️Warning: Vicuna、Alpaca、WizardLMは避ける — 2023年のコミュニティファインチューン。現代のベースモデル(Llama 3.1、Qwen2.5)が同等以上のパフォーマンス。代替:Qwen2.5 14BまたはLlama 3.1 8B。

⚠️Warning: Falcon 180Bは避ける — コンシューマーApple Siliconには収まらない。Llama 3.1 70B(より小型)が上回る。代替:Llama 3.1 70B Q5。

⚠️Warning: コンシューマーハードウェアでのFP16量子化は避ける — Llama 3.1 70B FP16 = 140GB、どのMacにも収まらない。Q5に対する品質向上は1%未満。代替:Q4_K_MまたはQ5_K_M

⚠️Warning: 純粋なベースモデル(instructバリアントなし)は避ける — ベースモデルはテキストを補完するが指示に従わない。"-instruct"または"-chat"サフィックスを探すこと。代替:同じモデルのinstructバリアント。

⚠️Warning: 積極的に開発されていないモデルは避ける — StableLM、RedPajama、MPT、Pythia:放棄済みまたは陳腐化。定期的なアップデートがあるMeta、Alibaba、Mistral、Microsoftのモデルを使用。

モデルフォーマットクイックリファレンス

フォーマット使用ツールオリジナル比サイズ
GGUF Q4_K_MOllama、llama.cppFP16の約30%
GGUF Q5_K_MOllama、llama.cppFP16の約35%
GGUF Q8_0Ollama、llama.cppFP16の約50%
MLX 4-bitMLXフレームワークFP16の約30%
MLX 8-bitMLXフレームワークFP16の約50%
FP16(オリジナル)全フレームワーク100%

この記事のサイズは特記なき限りGGUF Q4_K_M。MLX 4ビット相当品は同様のサイズ。正確なバイト数はHuggingFaceのモデルカードを確認。

クイックリファレンス:これらのモデルのダウンロード

bash
# 16 GB Mac
ollama pull phi4

# 36 GB Mac (いずれか選択)
ollama pull llama3.1:8b
ollama pull qwen2.5:14b
ollama pull mistral:7b

# 64 GB Mac
ollama pull qwen2.5:34b
ollama pull mixtral:8x7b

# 128 GB Mac
ollama pull llama3.1:70b
ollama pull qwen2.5:72b

# 専門モデル
ollama pull deepseek-coder-v2:16b   # コーディング
ollama pull llama3.2-vision:11b     # ビジョン
ollama pull aya-expanse:32b         # 翻訳

2つの異なるモデルを同時に実行できますか?

はい、`OLLAMA_MAX_LOADED_MODELS=2`を環境変数に設定します。64GBで8B + 34Bを同時実行できます。

初心者に最適なモデルはどれですか?

Llama 3.1 8B。広く利用可能で、良好な出力品質、実績があります。M1+ Macで動作します。

Mixtral 8x7BはLlama 8Bより高速ですか?

いいえ、やや遅い(M5 Proで40–50 tok/s vs 50–60 tok/s)。しかし推論能力は優れています。

2026年のベストローカルLLMは何ですか?

Apple Silicon上のほとんどのユーザーに:Qwen2.5(Macに収まる任意のサイズ)が現在品質ベンチマークをリード。128GB MacではLlama 3.1 70Bが同等。16GB未満:Phi-4は3.8Bパラメータで期待以上の性能を発揮し、2024年の8Bモデルと同等。

MacでLlama 3.1 405Bを実行できますか?

いいえ。Llama 3.1 405BはQ4量子化でも200GB以上必要 — どのコンシューマーMacも十分なユニファイドメモリを持っていません。M5 Ultra(2026年中頃予定、256GB)を待ってください — Q3–Q4で405Bを実行できる最初のコンシューマーハードウェアになる予定です。

ローカル使用ではQwenはLlamaより優れていますか?

ほとんどのタスクで、Qwen2.5は同じパラメータ数でLlama 3.1をベンチマークでわずかに上回ります(MMPUで1–3ポイント)。Llamaはより広いコミュニティサポートとファインチューンが豊富。ほとんどのユーザーは違いに気付かないでしょう — 可用性とファインチューンエコシステムに基づいて選択してください。

実際に役立つ最小のモデルは何ですか?

Phi-4(3.8Bパラメータ)。MMPUで84.8を獲得 — 2024年の一部の8Bモデルと同等。チャットやQ&Aでは驚くほど有能です。コーディングや複雑な推論はLlama 3.1 8BやQwen2.5 14Bに進んでください。

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Macのモデルを選びましたか?PromptQuorumでGPT-4、Claude、Geminiや他22モデルと並べて比較 — 特定のユースケースでローカルのLlama、Qwen、Phiモデルがクラウド品質に達しているかを検証できます。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る

Apple Silicon 2026:最適なモデル 16GB–128GB | PromptQuorum