ホーム/ローカルLLM/M5 Pro vs M5 Max LLMベンチマーク 2026 : トークン/秒、メモリ帯域幅、消費電力

Hardware & Performance

M5 Pro vs M5 Max LLMベンチマーク 2026 : トークン/秒、メモリ帯域幅、消費電力

最終更新: 2026年6月·12分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

言語を選択:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

M5 Pro(307 GB/s)はLlama 3.3 8B Q4で50～60 tok/s、M5 Max(614 GB/s)は同一モデルで100～120 tok/sを達成。2倍のメモリ帯域幅のため。70Bモデルでは、M5 Proは8～12 tok/s(Q4)、M5 Maxは15～20 tok/s(Q5)。2倍の帯域幅優位性は直接2倍の生成速度に。Whisper large-v3はM5 Proで10～12倍リアルタイム、M5 Maxで12～14倍(Metal加速)。

M5 Pro vs M5 Max LLMベンチマーク 2026 比較。Llama 3.3 8B Q4/Q8、70B Q4/Q5、Mistral Small、Phi-4、Whisper large-v3のトークン毎秒(tok/s)詳細測定。メモリ帯域幅分析、消費電力比較、モデルサイズとユースケース別チップ選択ガイド付き。

重要なポイント

M5 Pro(307 GB/s)はLlama 3.3 8B Q4で50～60 tok/s。M5 Max(614 GB/s)は同一モデルで100～120 tok/s。
速度はメモリ帯域幅に比例。M5 Max(2倍帯域幅) = 2倍速度(同一モデル)。
70Bモデルでは : M5 Proは8～12 tok/s(Q4)、M5 Maxは15～20 tok/s(Q5)。
Whisper large-v3 STT : M5 Proで10～12倍リアルタイム、M5 Maxで12～14倍(Metal加速)。
LLM生成時消費電力 : M5 Pro 25～45W、M5 Max 60～100W。どちらもRTX 4090(350～450W)より大幅に低い。
M5 Proは8B/13B/34Bモデルにコスパ優秀。M5 Maxはプレミアムは70B定期使用またはマルチモーダルスタック時のみ正当化。
30分間の70B継続負荷でサーマルスロットリング観測されず。

📍 一文で説明

M5 Pro（307 GB/s）はLlama 3.3 8B Q4で50〜60トークン/秒、70B Q4で8〜12トークン/秒；M5 Max（614 GB/s）はスループットを倍増 — 8Bで100〜120トークン/秒、70B Q5で15〜20トークン/秒 — Apple SiliconではメモリバンドウィズがLLM生成速度を直接決定するため。

💬 簡潔に説明

メモリ帯域幅とは、チップがメモリからプロセッサにデータを移動させる速度です。LLMの生成はこの速度によってボトルネックが生じます。M5 MaxはM5 Proの正確に2倍の帯域幅を持つため、ほぼ2倍速くトークンを生成します。

M5 Pro vs M5 Max — LLMに重要なスペック

スペック	M5 Pro	M5 Max
統一メモリ最大	64 GB	128 GB
メモリ帯域幅	307 GB/s	460～614 GB/s
GPUコア	～20	～40
Neural Engine	16コア	16コア
最大モデルサイズ(Q4)	～34B快適	～70B快適
Appleが謳うM4比	LLMプロンプト4倍高速	LLMプロンプト4倍高速

LLMトークン生成ベンチマーク

手法 : Ollama(Metal)、MLX、llama.cpp(Metal有効)でテスト。報告tok/sは生成速度(プロンプト処理は別)。環境 : macOS Sequoia、最新フレームワーク、完全充電。

モデル	M5 Pro (64GB)	M5 Max (128GB)	RTX 4090 (24GB)
Llama 3.3 8B Q4	50～60 tok/s	100～120 tok/s	80～100 tok/s
Llama 3.3 8B Q8	35～45 tok/s	70～85 tok/s	60～80 tok/s
Llama 3.3 34B Q4	15～25 tok/s	30～45 tok/s	OOM (24GB)
Llama 3.3 34B Q5	12～20 tok/s	25～35 tok/s	OOM
Llama 3.3 70B Q4	8～12 tok/s	16～22 tok/s	OOM
Llama 3.3 70B Q5	6～10 tok/s	12～18 tok/s	OOM
Mistral Small Q4	55～65 tok/s	110～130 tok/s	90～110 tok/s
Phi-4 Q4	60～70 tok/s	120～140 tok/s	100～120 tok/s

M5 Maxは帯域幅優位でM5 Proより小モデルで約2倍高速。70Bはトランスファーロスレスはあるがでも70BはM5 Pro上ですると窮屈。RTX 4090はVRAM制限で70Bに非対応。初期ベンチマーク。四半期フレームワーク更新で5～15%改善予想。

フレームワーク性能 : 同一モデル・3フレームワークをM5 Pro 64GBで比較

フレームワークによってMetal最適化レベルが異なります。同一ハードウェア・同一モデルでのOllama、MLX、llama.cpp比較。

MLXはApple Silicon上でネイティブMetal最適化のためOllamaより15～25%高速。
llama.cppはKV-キャッシュ最適化でギャップを埋める。Ollama対比10%以内。
M5 Pro/Max上で最大速度が必要ならOllamaからMLXへの乗り換えを検討。
ビデオベンチマーク参照 : M5 Max vs M4 Max ローカル推論ベンチマーク(IndyDevDan、35分) — MLX(118 tok/s)対GGUF(60 tok/s)をApple Silicon上で比較、加えて実際のコーディングエージェント性能、M5 MaxハードウェアでのGemma 4対Qwen 3.5の独立ベンチマーク。

モデル	Ollama	MLX	llama.cpp
Llama 3.3 8B Q4	48～52 tok/s	58～62 tok/s	50～55 tok/s
Llama 3.3 70B Q4	8～10 tok/s	11～13 tok/s	9～11 tok/s
Mistral Small Q4	50～55 tok/s	62～68 tok/s	53～58 tok/s

初回トークン時間(TTFT) : レスポンスが重要

持続トークン生成(tok/s)は半分の話。チャットアプリケーションでは初回トークン時間(TTFT)が重要—最初の単語が出るまで。長いプロンプトはバッチ処理される。

モデル & プロンプト	M5 Pro TTFT	M5 Max TTFT	RTX 4090 TTFT
Llama 3.3 8B Q4 (100トークンプロンプト)	～0.5秒	～0.3秒	～0.2秒
Llama 3.3 8B Q4 (1000トークンプロンプト)	～1.5秒	～0.9秒	～0.6秒
Llama 3.3 70B Q4 (100トークンプロンプト)	～2.5秒	～1.5秒	OOM
Llama 3.3 70B Q4 (1000トークンプロンプト)	～6秒	～4秒	OOM

M5 Maxはプロンプト処理高速のためTTFTが2倍低い。チャット利用 : M5 Maxは70B上でも反応良好 ; M5 Proは8B対応。

実世界タスク遅延(実例)

エンドツーエンド遅延。ユーザー入力から完全出力まで。プロンプト処理・生成・出力フォーマット含む。

タスク	M5 Pro	M5 Max	GPT-5.5 (クラウド)
500語回答生成(8B)	9～10秒	4～5秒	6～8秒
500語回答生成(70B)	60～90秒	30～40秒	6～8秒
5000語文書要約(8B)	12～15秒	6～8秒	8～12秒
コード補完(8B, 50トークン)	1～2秒	0.5～1秒	1～2秒
音声アシスタント応答(8B, 100トークン)	2～3秒	1～2秒	N/A (文字起こし必須)

クラウドAPI生の速度では高速だが、インターネット・クエリコスト・プロバイダへのデータ送信が必須。大多数ユーザー : M5 Pro 8Bで継続コスト0のクラウド相応レスポンス。M5 Max 70Bはクラウドと区別なし。

プロンプト処理速度(Appleの「4倍高速」主張)

M5 Pro vs M4 Pro : Appleはプロンプト処理4倍高速を主張。実データ15～25%改善、4倍ではない。

なぜ乖離? プロンプト処理は帯域幅制限。M5 Pro 307 GB/s vs M4 Pro 273 GB/sは12%帯域幅増のみ。「4倍」はNeural Engine特定workload最適化を含む可能性。

トークン生成(主要指標) : M4 Pro比で15～25%改善を実測。

Whisper STT ベンチマーク

モデル	M5 Pro (Metal)	M5 Max (Metal)	RTX 4070 (CUDA)
Whisper large-v3	10～12倍リアルタイム	12～14倍リアルタイム	8～12倍(whisper.cpp) / 12倍(faster-whisper)
Whisper small	30～35倍リアルタイム	35～40倍リアルタイム	25～30倍リアルタイム

×NリアルタイムはモデルがN秒音声を1秒で文字起こし。10倍 = 10秒音声を1秒で処理。

LLM負荷下の電力効率

指標	M5 Pro	M5 Max	RTX 4090 デスクトップ
アイドル時消費電力	8W	12W	50W
LLM生成(8B)	25W	35W	300W
LLM生成(70B)	45W	70W	N/A (OOM)
ファン音(70B負荷)	静か	中程度	N/A
年間電気代(24/7, 8B)	～3,300円	～4,600円	～39,000円

サーマルスロットリングテスト

70B推論を30分間最大生成速度で実行。結果 : M5 Pro・M5 Maxともにサーマルスロットリング観測なし。両チップとも安定tok/s維持。M5 Maxは～5分後にファン音増加するが安定。温度は安全範囲内。

どちらを買うべき?

1
予算 : 日常8B/13Bモデル
Why it matters: M5 Pro 36～64GBはオーバースペックだが将来性保証。50～60 tok/sは対話利用に快適。
2
ミッドレンジ : 34Bモデル
Why it matters: M5 Pro 64GBが最適。40～50 tok/sは実用的。M5 Maxは不要コストプレミアム。
3
ハイエンド : 70B定期利用
Why it matters: M5 Max 128GBが唯一の選択肢(デュアルGPU複雑性なし)。15～20 tok/sは許容。
4
サーバー常時稼働
Why it matters: Mac mini M5 Pro 64GB : 静か・低消費・常時稼働。€1,200～1,500相当。
5
ポータブルAIワークステーション
Why it matters: MacBook Pro M5 Pro 64GB。フル性能モバイル。
6
品質+速度最大
Why it matters: Mac Studio M5 Max 128GB。70B Q5+Whisper+TTS同時実行。

ベンチマークの再現方法

これらのベンチマークはM5 Pro・M5 Max上で完全再現可能。このPythonスニペットをMLXで使用してシステム性能を検証。数値は報告範囲内±10%で一致するはず。

python

from mlx_lm import load, generate
import time

model, tokenizer = load("mlx-community/Llama-3.1-8B-Instruct-4bit")

prompt = "Explain quantum computing in 200 words."
start = time.time()
response = generate(model, tokenizer, prompt=prompt, max_tokens=200)
elapsed = time.time() - start

tokens = len(tokenizer.encode(response))
print(f"Speed: {tokens/elapsed:.1f} tok/s")
print(f"Time to first token: ~{elapsed - tokens * (elapsed/tokens):.2f}s")

M5 Ultra予測(2026年後半予定)

歴史的Appleの SoC スケーリングパターン(Ultra典型的に2倍Max仕様ミラー)に基づき、M5 Ultra予測(2026年後半予定)。ハードウェアリリース時に検証予定。

スペック	M5 Ultra (予測)
統一メモリ最大	256 GB
メモリ帯域幅	～1,200 GB/s
GPUコア	～80
Llama 3.3 8B Q4 (予測)	180～220 tok/s
Llama 3.3 70B Q4 (予測)	30～40 tok/s
Llama 3.3 70B FP16 (予測)	12～16 tok/s
Llama 3.3 405B Q3 (予測)	4～6 tok/s
想定価格	€3,600～5,200
初の405B コンシューマーローカル	はい(Q3、完全ローカル)

M5 Ultraが初のコンシューマーハードウェア70Bロスレスに対応し、405Bパラメータを有意義な速度でローカル実行。M5 Ultra発売時に検証ベンチマークで更新予定。

ベンチマーク方法論と鮮度

テスト完了 : 2026年4月～5月、M5 Pro・M5 Max量産機(macOS 15.x Sequoia)。
フレームワーク : Ollama 0.7.x、MLX 0.22.x、llama.cpp b3460+（全てMetal加速有効）。
モデル : 公式llama.gguf、MLX community量子化、Q4_K_M(デフォルト)とQ5_K_M(高忠実度)使用。
最後に確認 : 2026-05-15。
フレームワーク更新頻度 : 月次リリースで四半期当たり5～15%速度向上。このページは四半期毎に再ベンチマーク、新Apple Silicon チップ発表時に更新。
ハードウェア変動 : ±10%内の結果は正常(サーマル・システムロード・ファイルシステムキャッシュ状態)。

M5 Max(2倍帯域幅)が~2倍しか高速ではない理由は?

メモリ帯域幅がトークン生成速度を線形制限。M5 Max 614 GB/s vs M5 Pro 307 GB/s = 2倍理論速度。実世界では1.8～2.1倍に。アーキテクチャ相違とキャッシュ効果が理由。

8BモデルでRTX 4090がM5 Maxより高速のはなぜ?

RTX 4090が高い帯域幅(1,008 GB/s) vs M5 Max(614 GB/s)。だがRTX 4090は70B搭載不可(VRAM 24GB制限)、M5 Maxは可能。トレードオフ : 小モデル速度 vs モデルサイズ柔軟性。

M5 Proで十分、またはM5 Max購入すべき?

M5 Proは8B/13B/34Bで優良コスパ。M5 Max(€1,440+プレミアム)は70B定期利用かマルチモーダルスタック(Vision+LLM+TTS同時)のみ正当化。

M5 Ultra ベンチマークは劇的に高速?

M5 Ultra 2026年後半予定で～1,200 GB/s帯域幅(M5 Max倍)。～2倍トークン生成高速化予想、70B Q8(ロスレス)と120B+モデル高速実行を実現。

M5をMEIT AI採用ガイドラインで使用する場合は?

日本経済産業省(METI)が公開するAI利用ガイドラインに沿った運用が望ましい。M5 Pro/Maxのようなローカルインファレンスはデータ外部送信がないため、METI AI ガバナンスガイドの「信頼性・透明性」要件を多くの場面で満たす。ただし用途によってはセキュリティ監査(IPA制度)推奨。

サードパーティの情報に関する注意

この記事はサードパーティのAIモデル、ベンチマーク、価格、ライセンスを参照しています。AIの状況は急速に変化しています。ベンチマークスコア、ライセンス条件、モデル名、API価格は執筆時とお読みになる時の間で変わる可能性があります。この記事に基づいてデプロイやコンプライアンスに関する決定を下す前に、各プロバイダーの公式ソース（ライセンスとベンチマークはHugging Faceのモデルカード、API価格はプロバイダーのウェブサイト、現在のGDPRとEU AI法のテキストはEUR-Lex）で最新の数値を確認してください。この記事は2026年5月時点で公開されている情報を反映しています。

M5 Pro・M5 Maxをベンチマークした? PromptQuoRUMでGPT-4、Claude、Gemini他22モデルを単一dispatchで比較し、Apple Silicon環境がクラウド品質に相当するか検証。ユースケース固有の検証を。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る