RTX 5090 は Llama 3.2 8B で 200 Tok/s と速度を支配していますが、Mac Studio M2 Ultra（192GB 統合メモリ）は Llama 3.3 70B をネイティブに 35 Tok/s で実行します。これは市販 GPU では不可能です。CPU インファレンスは 5 Tok/s で、リアルタイム利用には実用的ではありません。本ガイドは3つのアーキテクチャをメモリ帯域幅、コスト、ユースケース観点で比較しています（2026年4月）。

重要なポイント

GPU（NVIDIA RTX 5090）：8B モデルで 200 トークン/秒。最高性能、2,000 ドル。
GPU（NVIDIA RTX 4090）：8B モデルで 150 トークン/秒。ベストバリュー：RTX 4070 Ti は 80 Tok/s で 600 ドル。
Apple Silicon M2 Ultra：8B で 60 Tok/s、70B で 35 Tok/s *ネイティブ*（オフロード不要）。唯一の市販ハードウェア 70B モデル無損失実行可能。
CPU（Intel i9）：5–6 トークン/秒。リアルタイムチャット用途では実用的でない（5–10秒レイテンシー）。
本格的な作業向け：GPU が速度で勝利（メモリ帯域幅で 30–40× 高速）。Apple M2 Ultra は大規模モデル向け（ネイティブ 70B 実行）。

パフォーマンス比較：速度とスループット

*RAM へのオフロード — 品質大幅低下

ハードウェア	Llama 3.2 8B	Llama 3.3 70B	Qwen2.5 32B	コスト
RTX 5090（GPU、32GB）	200 Tok/s	50 Tok/s	70 Tok/s	2,000 ドル
RTX 4090（GPU、24GB）	150 Tok/s	10 Tok/s*	50 Tok/s	1,800 ドル
RTX 4070 Ti（GPU、12GB）	80 Tok/s	不可能	25 Tok/s	600 ドル
Mac Studio M2 Ultra（192GB）	60 Tok/s	35 Tok/s	45 Tok/s	4,000 ドル
MacBook Pro M4 Max（128GB）	35 Tok/s	8 Tok/s*	22 Tok/s	4,000 ドル
MacBook Pro M5 Max（96GB）	25 Tok/s	5 Tok/s*	15 Tok/s	3,500 ドル
Intel i9 14900K（CPU のみ）	5 Tok/s	1 Tok/s	2 Tok/s	600 ドル
AMD Ryzen 9 7950X（CPU のみ）	6 Tok/s	1 Tok/s	2 Tok/s	650 ドル

8Bモデルでの速度比較：RTX 5090は200 Tok/s（CPUの5 Tok/sより40倍高速）。Mac Studio M2 Ultraは唯一、Llama 3.3 70Bをネイティブ実行できる消費者向けハードウェア（35 Tok/s）。

NVIDIA GPU：パフォーマンスの王者

NVIDIA GPU は専用 CUDA コア、テンソルコア、高バンド幅メモリで LLM インファレンスで圧倒的に高速です。

RTX 5090（2025年フラッグシップ）：8B モデルで 200 Tok/s、32GB VRAM、1,792 GB/s メモリ帯域幅。単一 GPU で 70B モデル実行可能（50 Tok/s）。

RTX 4090（前世代フラッグシップ）：8B で 150 Tok/s、24GB VRAM。本格的な現場で最も一般的。

RTX 4070 Ti（ベストバリュー）：8B で 80 Tok/s、12GB VRAM、600 ドル。チャット・コーディング補助向け実用的。

GPU はメモリ帯域幅を通じて LLM インファレンス支配。CPU は 89 GB/s（DDR5）に対し、RTX 5090 は 1,792 GB/s。
CUDA エコシステム（vLLM、llama.cpp、LM Studio）が GPU 利用を簡素化。
量子化なし 70B モデルは 40GB VRAM 必要。RTX 5090 のみ単一 GPU で対応。RTX 4090 は 70B を部分オフロード（品質低下）。

CPU のみ：予算重視だが実用的でない

CPU のみマシンは LLM インファレンスに適していません。メモリ帯域幅不足が原因です。

Intel i9 14900K / AMD Ryzen 9 7950X：8B モデルで 5–6 Tok/s。5–10 秒のレイテンシー = チャット実用的でない。

メモリ帯域幅：CPU RAM は 89 GB/s（DDR5）。GPU VRAM は 2,000+ GB/s（RTX 5090）。20–30× の差がスピードの差を説明します。

CPU インファレンスはバッチ処理（オフライン）ユースケースにのみ適しています。

llama.cpp は CPU マルチスレッド活用。しかしボトルネックはメモリ帯域幅で、コア数では解決できません。
GPU またはApple Silicon への投資が、CPU のみシステムより 30–40 倍価値があります（リアルタイム利用の場合）。

Apple Silicon：統合メモリの利点

Apple Silicon（M3/M4 シリーズ）は統合メモリを通じてユニークな価値を提供します。GPU と CPU が同じメモリプール共有 = データ転送オーバーヘッドなし。

M5 Max（96GB）：8B モデルで 25 Tok/s。ポータブル開発向け。

M4 Max（128GB）：8B で 35 Tok/s、70B で 8 Tok/s（オフロード、品質低下）。

Mac Studio M2 Ultra（192GB）：8B で 60 Tok/s、70B で 35 Tok/s *ネイティブ*（オフロード不要）。市販ハードウェア唯一 70B ネイティブ実行。リサーチ・ファインチューニング向け最高。

統合メモリ = GPU ↔ CPU データ転送ペナルティなし。Nvidia GPU は高速でも、システム RAM へのオフロード時に 80% 品質低下。
Mac Studio M2 Ultra の 192GB で同時に 4 個の 40GB モデル保持可能。

メモリ帯域幅：実際のボトルネック

LLM インファレンスはメモリ制約で、計算制約ではありません。高いメモリ帯域幅 = 高速トークン生成。

インファレンス速度 ≈ メモリ帯域幅 ÷ モデルサイズ（ロード済み重み）。
Apple Silicon 統合メモリは CPU ↔ GPU 転送オーバーヘッド排除。
Mac Studio M2 Ultra は 70B+ モデルをネイティブ保持、オフロード不要。
DDR5 RAM 89 GB/s = CPU インファレンス GPU より 30–40× 遅い理由。

プラットフォーム	メモリ帯域幅	実効速度（8B）
RTX 5090（GDDR7）	1,792 GB/s	200 Tok/s
RTX 4090（GDDR6X）	1,008 GB/s	150 Tok/s
RTX 4070 Ti（GDDR6X）	504 GB/s	80 Tok/s
Mac Studio M2 Ultra（統合）	800 GB/s	60 Tok/s
MacBook Pro M4 Max（統合）	546 GB/s	35 Tok/s
MacBook Pro M5 Max（統合）	400 GB/s	25 Tok/s
DDR5-5600 RAM（CPU）	89 GB/s	5 Tok/s

トークンあたりのコスト：3年償却

各プラットフォーム 3 年使用でのコスト計算。ハードウェア投資は頻繁な API 呼び出しより安い場合があります。

*Mac は既にシステム電力に含まれる

ハードウェア	初期コスト	3年コスト	合計	Tok/s
RTX 4090	1,800 ドル	2,400 ドル	4,200 ドル	150
RTX 4070 Ti	600 ドル	1,200 ドル	1,800 ドル	80
M5 Max Mac	3,500 ドル	0 ドル*	3,500 ドル	25
OpenAI API	0 ドル	10,000+ ドル	10,000+ ドル	無制限

どのプラットフォームを選ぶか

GPU を選ぶ：本格的な作業。70B モデル。複数モデル同時実行。RTX 4070 Ti (600 ドル) が最高バリュー。
Apple Silicon を選ぶ：Mac ユーザー向け。M2 Ultra は唯一市販 70B ネイティブ実行。研究・ファインチューニング向け最高。
CPU のみ：避けるべき。バッチ処理のみ実用的。リアルタイムチャット向けは GPU/Apple Silicon が必須。

よくある誤解

1
「より多くの CPU コア = 高速」 — 誤り。ボトルネックはメモリ帯域幅。CPU コア追加は限定的。
2
「70B モデルは RTX 4090 で実行可能」 — 部分的。オフロード時品質 80% 低下。Mac Studio M2 Ultra のみネイティブ可能。
3
「Apple Silicon は GPU と同等」 — 誤り。M3/M4 は 8B には十分。70B はM2 Ultra のみ。
4
「GPU は電気代が高い」 — RTX 4090 で月 200 ドル。API 費用より安い（月 500+ ドル）。
5
「CPU インファレンスで llama.cpp は十分」 — 5 Tok/s は実用的でない。リアルタイム用途は不可。
6
「量子化は常に品質低下」 — 誤り。Q5 は 95% 品質保持、スピード低下なし。
7
「メモリ帯域幅は重要でない」 — 最も重要。GPU/CPU スピード差 30–40× の原因。

よくある質問

GPU か CPU か、ローカル LLM 実行にはどちらが良い？

GPU が圧倒的です。NVIDIA RTX 4090 は 7B モデルを 150 トークン/秒で実行。Intel i9 は同モデルを 3–5 トークン/秒で実行。CPU インファレンスは 5–10 秒レイテンシー、対話的チャット不可能。

Apple Silicon はローカル LLM 実行可能か？

はい。Apple M（M3、M4）シリーズは 7B モデルを 25–30 トークン/秒で実行（統合メモリ）。NVIDIA 離散 GPU より遅いが、x86 CPU のみシステムより大幅に高速。70B モデルは Apple Silicon メモリ制限で実行不可（M2 Ultra 除く）。

ローカル LLM に最低限必要な GPU VRAM は？

6GB VRAM は Q4 量子化で 7B モデル実行可能。8GB が 7B Q5 実用的最小値。16GB+ は 13B モデル必須。24GB は 30B 処理可能。

GPU はローカル LLM インファレンスで CPU より何倍高速か？

NVIDIA GPU は CPU より 30–100 倍高速。RTX 4090 は 7B モデル 150 トークン/秒生成。Intel i9 は 3–5 トークン/秒。CUDA 並列処理と専用テンソルコアが原因。

ローカル LLM のためだけに GPU 購入する価値あるか？

RTX 4070 Ti（600 ドル）は 3 年償却で OpenAI API 月 500+ ドルより安い（1 日 2 時間使用の場合）。80 トークン/秒でリアルタイムチャット、コーディング補助、ドキュメント要約可能。

複数 CPU コア使用して LLM インファレンス加速可能か？

わずか。llama.cpp はスレッド活用。ボトルネックはメモリ帯域幅（50–100 GB/s システム RAM 対 2,000+ GB/s GPU VRAM）。コア追加で解決不可 — GPU または Apple Silicon が必須。

メモリ帯域幅とは何か、LLM にはなぜ重要か？

LLM インファレンスはメモリ制約。トークン生成速度はモデル重みロード速度依存。RTX 5090 は 1,792 GB/s；DDR5 RAM は 89 GB/s。差が GPU を 30–40 倍高速化。

ローカル LLM に最高の Apple Silicon チップは？

Mac Studio M2 Ultra（192GB）は 70B モデル 35 Tok/s でネイティブ実行 — 唯一市販ハードウェア。MacBook Pro M4 Max（128GB）はポータブル 35 Tok/s（8B）。M5 Max（96GB）は 7–13B モデル向け。

Apple Silicon は 70B モデル実行可能か？

Mac Studio M2 Ultra 192GB メモリは Llama 3.3 70B を 35 Tok/s でネイティブ実行。唯一市販ハードウェア。小型 Mac はオフロード時（5–10× ペナルティ品質低下）部分実行。M2 Ultra のみ完全品質。

RTX 5090（2,000 ドル）はローカル LLM に価値があるか？

70B モデル頻繁実行の場合のみ。RTX 5090（200 Tok/s 8B）は RTX 4090 より 2.5 倍高速（1,800 ドル）。ベストバリュー：RTX 4070 Ti（600 ドル、80 Tok/s 8B）8–32B モデル向け；Mac Studio M2 Ultra（4,000 ドル）ネイティブ 70B 向け。

NVIDIA CUDA Compute Capability — 公式 GPU 仕様 https://developer.nvidia.com/cuda-compute-capability
Apple Metal for Machine Learning — 統合メモリ最適化 https://developer.apple.com/metal/
vLLM テンソル並列化ドキュメント — マルチ GPU 推論 https://docs.vllm.ai/
llama.cpp GitHub — オープンソース推論エンジン https://github.com/ggerganov/llama.cpp

GPU vs CPU vs Apple Silicon でのローカルLLM：パフォーマンス分析

スライドデッキ: GPU vs CPU vs Apple Silicon でのローカルLLM：パフォーマンス分析