重要なポイント
- GPU(NVIDIA RTX 5090):8B モデルで 200 トークン/秒。最高性能、2,000 ドル。
- GPU(NVIDIA RTX 4090):8B モデルで 150 トークン/秒。ベストバリュー:RTX 4070 Ti は 80 Tok/s で 600 ドル。
- Apple Silicon M2 Ultra:8B で 60 Tok/s、70B で 35 Tok/s *ネイティブ*(オフロード不要)。唯一の市販ハードウェア 70B モデル無損失実行可能。
- CPU(Intel i9):5–6 トークン/秒。リアルタイムチャット用途では実用的でない(5–10秒レイテンシー)。
- 本格的な作業向け:GPU が速度で勝利(メモリ帯域幅で 30–40× 高速)。Apple M2 Ultra は大規模モデル向け(ネイティブ 70B 実行)。
パフォーマンス比較:速度とスループット
*RAM へのオフロード — 品質大幅低下
| ハードウェア | Llama 3.2 8B | Llama 3.3 70B | Qwen2.5 32B | コスト |
|---|---|---|---|---|
| RTX 5090(GPU、32GB) | 200 Tok/s | 50 Tok/s | 70 Tok/s | 2,000 ドル |
| RTX 4090(GPU、24GB) | 150 Tok/s | 10 Tok/s* | 50 Tok/s | 1,800 ドル |
| RTX 4070 Ti(GPU、12GB) | 80 Tok/s | 不可能 | 25 Tok/s | 600 ドル |
| Mac Studio M2 Ultra(192GB) | 60 Tok/s | 35 Tok/s | 45 Tok/s | 4,000 ドル |
| MacBook Pro M4 Max(128GB) | 35 Tok/s | 8 Tok/s* | 22 Tok/s | 4,000 ドル |
| MacBook Pro M5 Max(96GB) | 25 Tok/s | 5 Tok/s* | 15 Tok/s | 3,500 ドル |
| Intel i9 14900K(CPU のみ) | 5 Tok/s | 1 Tok/s | 2 Tok/s | 600 ドル |
| AMD Ryzen 9 7950X(CPU のみ) | 6 Tok/s | 1 Tok/s | 2 Tok/s | 650 ドル |
NVIDIA GPU:パフォーマンスの王者
NVIDIA GPU は専用 CUDA コア、テンソルコア、高バンド幅メモリで LLM インファレンスで圧倒的に高速です。
RTX 5090(2025年フラッグシップ):8B モデルで 200 Tok/s、32GB VRAM、1,792 GB/s メモリ帯域幅。単一 GPU で 70B モデル実行可能(50 Tok/s)。
RTX 4090(前世代フラッグシップ):8B で 150 Tok/s、24GB VRAM。本格的な現場で最も一般的。
RTX 4070 Ti(ベストバリュー):8B で 80 Tok/s、12GB VRAM、600 ドル。チャット・コーディング補助向け実用的。
- GPU はメモリ帯域幅を通じて LLM インファレンス支配。CPU は 89 GB/s(DDR5)に対し、RTX 5090 は 1,792 GB/s。
- CUDA エコシステム(vLLM、llama.cpp、LM Studio)が GPU 利用を簡素化。
- 量子化なし 70B モデルは 40GB VRAM 必要。RTX 5090 のみ単一 GPU で対応。RTX 4090 は 70B を部分オフロード(品質低下)。
CPU のみ:予算重視だが実用的でない
CPU のみマシンは LLM インファレンスに適していません。メモリ帯域幅不足が原因です。
Intel i9 14900K / AMD Ryzen 9 7950X:8B モデルで 5–6 Tok/s。5–10 秒のレイテンシー = チャット実用的でない。
メモリ帯域幅:CPU RAM は 89 GB/s(DDR5)。GPU VRAM は 2,000+ GB/s(RTX 5090)。20–30× の差がスピードの差を説明します。
CPU インファレンスはバッチ処理(オフライン)ユースケースにのみ適しています。
- llama.cpp は CPU マルチスレッド活用。しかしボトルネックはメモリ帯域幅で、コア数では解決できません。
- GPU またはApple Silicon への投資が、CPU のみ システムより 30–40 倍価値があります(リアルタイム利用の場合)。
Apple Silicon:統合メモリの利点
Apple Silicon(M3/M4 シリーズ)は統合メモリを通じてユニークな価値を提供します。GPU と CPU が同じメモリプール共有 = データ転送オーバーヘッドなし。
M5 Max(96GB):8B モデルで 25 Tok/s。ポータブル開発向け。
M4 Max(128GB):8B で 35 Tok/s、70B で 8 Tok/s(オフロード、品質低下)。
Mac Studio M2 Ultra(192GB):8B で 60 Tok/s、70B で 35 Tok/s *ネイティブ*(オフロード不要)。市販ハードウェア唯一 70B ネイティブ実行。リサーチ・ファインチューニング向け最高。
- 統合メモリ = GPU ↔ CPU データ転送ペナルティなし。Nvidia GPU は高速でも、システム RAM へのオフロード時に 80% 品質低下。
- Mac Studio M2 Ultra の 192GB で同時に 4 個の 40GB モデル保持可能。
メモリ帯域幅:実際のボトルネック
LLM インファレンスはメモリ制約で、計算制約ではありません。高いメモリ帯域幅 = 高速トークン生成。
- インファレンス速度 ≈ メモリ帯域幅 ÷ モデルサイズ(ロード済み重み)。
- Apple Silicon 統合メモリは CPU ↔ GPU 転送オーバーヘッド排除。
- Mac Studio M2 Ultra は 70B+ モデルをネイティブ保持、オフロード不要。
- DDR5 RAM 89 GB/s = CPU インファレンス GPU より 30–40× 遅い理由。
| プラットフォーム | メモリ帯域幅 | 実効速度(8B) |
|---|---|---|
| RTX 5090(GDDR7) | 1,792 GB/s | 200 Tok/s |
| RTX 4090(GDDR6X) | 1,008 GB/s | 150 Tok/s |
| RTX 4070 Ti(GDDR6X) | 504 GB/s | 80 Tok/s |
| Mac Studio M2 Ultra(統合) | 800 GB/s | 60 Tok/s |
| MacBook Pro M4 Max(統合) | 546 GB/s | 35 Tok/s |
| MacBook Pro M5 Max(統合) | 400 GB/s | 25 Tok/s |
| DDR5-5600 RAM(CPU) | 89 GB/s | 5 Tok/s |
トークンあたりのコスト:3年償却
各プラットフォーム 3 年使用でのコスト計算。ハードウェア投資は頻繁な API 呼び出しより安い場合があります。
*Mac は既にシステム電力に含まれる
| ハードウェア | 初期コスト | 3年コスト | 合計 | Tok/s |
|---|---|---|---|---|
| RTX 4090 | 1,800 ドル | 2,400 ドル | 4,200 ドル | 150 |
| RTX 4070 Ti | 600 ドル | 1,200 ドル | 1,800 ドル | 80 |
| M5 Max Mac | 3,500 ドル | 0 ドル* | 3,500 ドル | 25 |
| OpenAI API | 0 ドル | 10,000+ ドル | 10,000+ ドル | 無制限 |
どのプラットフォームを選ぶか
- GPU を選ぶ:本格的な作業。70B モデル。複数モデル同時実行。RTX 4070 Ti (600 ドル) が最高バリュー。
- Apple Silicon を選ぶ:Mac ユーザー向け。M2 Ultra は唯一市販 70B ネイティブ実行。研究・ファインチューニング向け最高。
- CPU のみ:避けるべき。バッチ処理のみ実用的。リアルタイムチャット向けは GPU/Apple Silicon が必須。
よくある誤解
- 1「より多くの CPU コア = 高速」 — 誤り。ボトルネックはメモリ帯域幅。CPU コア追加は限定的。
- 2「70B モデルは RTX 4090 で実行可能」 — 部分的。オフロード時品質 80% 低下。Mac Studio M2 Ultra のみネイティブ可能。
- 3「Apple Silicon は GPU と同等」 — 誤り。M3/M4 は 8B には十分。70B はM2 Ultra のみ。
- 4「GPU は電気代が高い」 — RTX 4090 で月 200 ドル。API 費用より安い(月 500+ ドル)。
- 5「CPU インファレンスで llama.cpp は十分」 — 5 Tok/s は実用的でない。リアルタイム用途は不可。
- 6「量子化は常に品質低下」 — 誤り。Q5 は 95% 品質保持、スピード低下なし。
- 7「メモリ帯域幅は重要でない」 — 最も重要。GPU/CPU スピード差 30–40× の原因。
よくある質問
GPU か CPU か、ローカル LLM 実行にはどちらが良い?
GPU が圧倒的です。NVIDIA RTX 4090 は 7B モデルを 150 トークン/秒で実行。Intel i9 は同モデルを 3–5 トークン/秒で実行。CPU インファレンスは 5–10 秒レイテンシー、対話的チャット不可能。
Apple Silicon はローカル LLM 実行可能か?
はい。Apple M(M3、M4)シリーズは 7B モデルを 25–30 トークン/秒で実行(統合メモリ)。NVIDIA 離散 GPU より遅いが、x86 CPU のみシステムより大幅に高速。70B モデルは Apple Silicon メモリ制限で実行不可(M2 Ultra 除く)。
ローカル LLM に最低限必要な GPU VRAM は?
6GB VRAM は Q4 量子化で 7B モデル実行可能。8GB が 7B Q5 実用的最小値。16GB+ は 13B モデル必須。24GB は 30B 処理可能。
GPU はローカル LLM インファレンスで CPU より何倍高速か?
NVIDIA GPU は CPU より 30–100 倍高速。RTX 4090 は 7B モデル 150 トークン/秒生成。Intel i9 は 3–5 トークン/秒。CUDA 並列処理と専用テンソルコアが原因。
ローカル LLM のためだけに GPU 購入する価値あるか?
RTX 4070 Ti(600 ドル)は 3 年償却で OpenAI API 月 500+ ドル より安い(1 日 2 時間使用の場合)。80 トークン/秒でリアルタイムチャット、コーディング補助、ドキュメント要約可能。
複数 CPU コア使用して LLM インファレンス加速可能か?
わずか。llama.cpp はスレッド活用。ボトルネックはメモリ帯域幅(50–100 GB/s システム RAM 対 2,000+ GB/s GPU VRAM)。コア追加で解決不可 — GPU または Apple Silicon が必須。
メモリ帯域幅とは何か、LLM にはなぜ重要か?
LLM インファレンスはメモリ制約。トークン生成速度はモデル重みロード速度依存。RTX 5090 は 1,792 GB/s;DDR5 RAM は 89 GB/s。差が GPU を 30–40 倍高速化。
ローカル LLM に最高の Apple Silicon チップは?
Mac Studio M2 Ultra(192GB)は 70B モデル 35 Tok/s でネイティブ実行 — 唯一市販ハードウェア。MacBook Pro M4 Max(128GB)はポータブル 35 Tok/s(8B)。M5 Max(96GB)は 7–13B モデル向け。
Apple Silicon は 70B モデル実行可能か?
Mac Studio M2 Ultra 192GB メモリは Llama 3.3 70B を 35 Tok/s でネイティブ実行。唯一市販ハードウェア。小型 Mac はオフロード時(5–10× ペナルティ品質低下)部分実行。M2 Ultra のみ完全品質。
RTX 5090(2,000 ドル)はローカル LLM に価値があるか?
70B モデル頻繁実行の場合のみ。RTX 5090(200 Tok/s 8B)は RTX 4090 より 2.5 倍高速(1,800 ドル)。ベストバリュー:RTX 4070 Ti(600 ドル、80 Tok/s 8B)8–32B モデル向け;Mac Studio M2 Ultra(4,000 ドル)ネイティブ 70B 向け。
- NVIDIA CUDA Compute Capability — 公式 GPU 仕様 https://developer.nvidia.com/cuda-compute-capability
- Apple Metal for Machine Learning — 統合メモリ最適化 https://developer.apple.com/metal/
- vLLM テンソル並列化ドキュメント — マルチ GPU 推論 https://docs.vllm.ai/
- llama.cpp GitHub — オープンソース推論エンジン https://github.com/ggerganov/llama.cpp