PromptQuorumPromptQuorum
ホーム/ローカルLLM/GPU vs CPU vs Apple Silicon でのローカルLLM:パフォーマンス分析
ハードウェア・パフォーマンス

GPU vs CPU vs Apple Silicon でのローカルLLM:パフォーマンス分析

·11分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

RTX 5090 が速度で支配(8B モデルで 200 Tok/s)。しかし Mac Studio M2 Ultra は Llama 3.3 70B をネイティブに 35 Tok/s で実行 — 市販ハードウェアでは唯一。メモリ帯域幅が GPU と CPU の 30–40× 速度差を説明します。

RTX 5090 は Llama 3.2 8B で 200 Tok/s と速度を支配していますが、Mac Studio M2 Ultra(192GB 統合メモリ)は Llama 3.3 70B をネイティブに 35 Tok/s で実行します。これは市販 GPU では不可能です。CPU インファレンスは 5 Tok/s で、リアルタイム利用には実用的ではありません。本ガイドは3つのアーキテクチャをメモリ帯域幅、コスト、ユースケース観点で比較しています(2026年4月)。

スライドデッキ: GPU vs CPU vs Apple Silicon でのローカルLLM:パフォーマンス分析

以下のスライドデックは:NVIDIA GPU vs Apple Silicon vs CPU パフォーマンス(150 Tok/s vs 25 Tok/s vs 5 Tok/s)、トークンあたりコスト分析、各プラットフォーム選択判断、ハードウェア選択よくある誤解をカバーしています。PDF を GPU vs CPU ハードウェア比較リファレンスカードとしてダウンロードしてください。

以下のスライドを閲覧するか、PDFとしてダウンロードしてください。 リファレンスカードをダウンロード(PDF)

重要なポイント

  • GPU(NVIDIA RTX 5090):8B モデルで 200 トークン/秒。最高性能、2,000 ドル。
  • GPU(NVIDIA RTX 4090):8B モデルで 150 トークン/秒。ベストバリュー:RTX 4070 Ti は 80 Tok/s で 600 ドル。
  • Apple Silicon M2 Ultra:8B で 60 Tok/s、70B で 35 Tok/s *ネイティブ*(オフロード不要)。唯一の市販ハードウェア 70B モデル無損失実行可能。
  • CPU(Intel i9):5–6 トークン/秒。リアルタイムチャット用途では実用的でない(5–10秒レイテンシー)。
  • 本格的な作業向け:GPU が速度で勝利(メモリ帯域幅で 30–40× 高速)。Apple M2 Ultra は大規模モデル向け(ネイティブ 70B 実行)。

パフォーマンス比較:速度とスループット

*RAM へのオフロード — 品質大幅低下

ハードウェアLlama 3.2 8BLlama 3.3 70BQwen2.5 32Bコスト
RTX 5090(GPU、32GB)200 Tok/s50 Tok/s70 Tok/s2,000 ドル
RTX 4090(GPU、24GB)150 Tok/s10 Tok/s*50 Tok/s1,800 ドル
RTX 4070 Ti(GPU、12GB)80 Tok/s不可能25 Tok/s600 ドル
Mac Studio M2 Ultra(192GB)60 Tok/s35 Tok/s45 Tok/s4,000 ドル
MacBook Pro M4 Max(128GB)35 Tok/s8 Tok/s*22 Tok/s4,000 ドル
MacBook Pro M5 Max(96GB)25 Tok/s5 Tok/s*15 Tok/s3,500 ドル
Intel i9 14900K(CPU のみ)5 Tok/s1 Tok/s2 Tok/s600 ドル
AMD Ryzen 9 7950X(CPU のみ)6 Tok/s1 Tok/s2 Tok/s650 ドル
8Bモデルでの速度比較:RTX 5090は200 Tok/s(CPUの5 Tok/sより40倍高速)。Mac Studio M2 Ultraは唯一、Llama 3.3 70Bをネイティブ実行できる消費者向けハードウェア(35 Tok/s)。
8Bモデルでの速度比較:RTX 5090は200 Tok/s(CPUの5 Tok/sより40倍高速)。Mac Studio M2 Ultraは唯一、Llama 3.3 70Bをネイティブ実行できる消費者向けハードウェア(35 Tok/s)。

NVIDIA GPU:パフォーマンスの王者

NVIDIA GPU は専用 CUDA コア、テンソルコア、高バンド幅メモリで LLM インファレンスで圧倒的に高速です。

RTX 5090(2025年フラッグシップ):8B モデルで 200 Tok/s、32GB VRAM、1,792 GB/s メモリ帯域幅。単一 GPU で 70B モデル実行可能(50 Tok/s)。

RTX 4090(前世代フラッグシップ):8B で 150 Tok/s、24GB VRAM。本格的な現場で最も一般的。

RTX 4070 Ti(ベストバリュー):8B で 80 Tok/s、12GB VRAM、600 ドル。チャット・コーディング補助向け実用的。

  • GPU はメモリ帯域幅を通じて LLM インファレンス支配。CPU は 89 GB/s(DDR5)に対し、RTX 5090 は 1,792 GB/s。
  • CUDA エコシステム(vLLM、llama.cpp、LM Studio)が GPU 利用を簡素化。
  • 量子化なし 70B モデルは 40GB VRAM 必要。RTX 5090 のみ単一 GPU で対応。RTX 4090 は 70B を部分オフロード(品質低下)。

CPU のみ:予算重視だが実用的でない

CPU のみマシンは LLM インファレンスに適していません。メモリ帯域幅不足が原因です。

Intel i9 14900K / AMD Ryzen 9 7950X:8B モデルで 5–6 Tok/s。5–10 秒のレイテンシー = チャット実用的でない。

メモリ帯域幅:CPU RAM は 89 GB/s(DDR5)。GPU VRAM は 2,000+ GB/s(RTX 5090)。20–30× の差がスピードの差を説明します。

CPU インファレンスはバッチ処理(オフライン)ユースケースにのみ適しています。

  • llama.cpp は CPU マルチスレッド活用。しかしボトルネックはメモリ帯域幅で、コア数では解決できません。
  • GPU またはApple Silicon への投資が、CPU のみ システムより 30–40 倍価値があります(リアルタイム利用の場合)。

Apple Silicon:統合メモリの利点

Apple Silicon(M3/M4 シリーズ)は統合メモリを通じてユニークな価値を提供します。GPU と CPU が同じメモリプール共有 = データ転送オーバーヘッドなし。

M5 Max(96GB):8B モデルで 25 Tok/s。ポータブル開発向け。

M4 Max(128GB):8B で 35 Tok/s、70B で 8 Tok/s(オフロード、品質低下)。

Mac Studio M2 Ultra(192GB):8B で 60 Tok/s、70B で 35 Tok/s *ネイティブ*(オフロード不要)。市販ハードウェア唯一 70B ネイティブ実行。リサーチ・ファインチューニング向け最高。

  • 統合メモリ = GPU ↔ CPU データ転送ペナルティなし。Nvidia GPU は高速でも、システム RAM へのオフロード時に 80% 品質低下。
  • Mac Studio M2 Ultra の 192GB で同時に 4 個の 40GB モデル保持可能。

メモリ帯域幅:実際のボトルネック

LLM インファレンスはメモリ制約で、計算制約ではありません。高いメモリ帯域幅 = 高速トークン生成。

  • インファレンス速度 ≈ メモリ帯域幅 ÷ モデルサイズ(ロード済み重み)。
  • Apple Silicon 統合メモリは CPU ↔ GPU 転送オーバーヘッド排除。
  • Mac Studio M2 Ultra は 70B+ モデルをネイティブ保持、オフロード不要。
  • DDR5 RAM 89 GB/s = CPU インファレンス GPU より 30–40× 遅い理由。
プラットフォームメモリ帯域幅実効速度(8B)
RTX 5090(GDDR7)1,792 GB/s200 Tok/s
RTX 4090(GDDR6X)1,008 GB/s150 Tok/s
RTX 4070 Ti(GDDR6X)504 GB/s80 Tok/s
Mac Studio M2 Ultra(統合)800 GB/s60 Tok/s
MacBook Pro M4 Max(統合)546 GB/s35 Tok/s
MacBook Pro M5 Max(統合)400 GB/s25 Tok/s
DDR5-5600 RAM(CPU)89 GB/s5 Tok/s

トークンあたりのコスト:3年償却

各プラットフォーム 3 年使用でのコスト計算。ハードウェア投資は頻繁な API 呼び出しより安い場合があります。

*Mac は既にシステム電力に含まれる

ハードウェア初期コスト3年コスト合計Tok/s
RTX 40901,800 ドル2,400 ドル4,200 ドル150
RTX 4070 Ti600 ドル1,200 ドル1,800 ドル80
M5 Max Mac3,500 ドル0 ドル*3,500 ドル25
OpenAI API0 ドル10,000+ ドル10,000+ ドル無制限

どのプラットフォームを選ぶか

  • GPU を選ぶ:本格的な作業。70B モデル。複数モデル同時実行。RTX 4070 Ti (600 ドル) が最高バリュー。
  • Apple Silicon を選ぶ:Mac ユーザー向け。M2 Ultra は唯一市販 70B ネイティブ実行。研究・ファインチューニング向け最高。
  • CPU のみ:避けるべき。バッチ処理のみ実用的。リアルタイムチャット向けは GPU/Apple Silicon が必須。

よくある誤解

  1. 1
    「より多くの CPU コア = 高速」 — 誤り。ボトルネックはメモリ帯域幅。CPU コア追加は限定的。
  2. 2
    「70B モデルは RTX 4090 で実行可能」 — 部分的。オフロード時品質 80% 低下。Mac Studio M2 Ultra のみネイティブ可能。
  3. 3
    「Apple Silicon は GPU と同等」 — 誤り。M3/M4 は 8B には十分。70B はM2 Ultra のみ。
  4. 4
    「GPU は電気代が高い」 — RTX 4090 で月 200 ドル。API 費用より安い(月 500+ ドル)。
  5. 5
    「CPU インファレンスで llama.cpp は十分」 — 5 Tok/s は実用的でない。リアルタイム用途は不可。
  6. 6
    「量子化は常に品質低下」 — 誤り。Q5 は 95% 品質保持、スピード低下なし。
  7. 7
    「メモリ帯域幅は重要でない」 — 最も重要。GPU/CPU スピード差 30–40× の原因。

よくある質問

GPU か CPU か、ローカル LLM 実行にはどちらが良い?

GPU が圧倒的です。NVIDIA RTX 4090 は 7B モデルを 150 トークン/秒で実行。Intel i9 は同モデルを 3–5 トークン/秒で実行。CPU インファレンスは 5–10 秒レイテンシー、対話的チャット不可能。

Apple Silicon はローカル LLM 実行可能か?

はい。Apple M(M3、M4)シリーズは 7B モデルを 25–30 トークン/秒で実行(統合メモリ)。NVIDIA 離散 GPU より遅いが、x86 CPU のみシステムより大幅に高速。70B モデルは Apple Silicon メモリ制限で実行不可(M2 Ultra 除く)。

ローカル LLM に最低限必要な GPU VRAM は?

6GB VRAM は Q4 量子化で 7B モデル実行可能。8GB が 7B Q5 実用的最小値。16GB+ は 13B モデル必須。24GB は 30B 処理可能。

GPU はローカル LLM インファレンスで CPU より何倍高速か?

NVIDIA GPU は CPU より 30–100 倍高速。RTX 4090 は 7B モデル 150 トークン/秒生成。Intel i9 は 3–5 トークン/秒。CUDA 並列処理と専用テンソルコアが原因。

ローカル LLM のためだけに GPU 購入する価値あるか?

RTX 4070 Ti(600 ドル)は 3 年償却で OpenAI API 月 500+ ドル より安い(1 日 2 時間使用の場合)。80 トークン/秒でリアルタイムチャット、コーディング補助、ドキュメント要約可能。

複数 CPU コア使用して LLM インファレンス加速可能か?

わずか。llama.cpp はスレッド活用。ボトルネックはメモリ帯域幅(50–100 GB/s システム RAM 対 2,000+ GB/s GPU VRAM)。コア追加で解決不可 — GPU または Apple Silicon が必須。

メモリ帯域幅とは何か、LLM にはなぜ重要か?

LLM インファレンスはメモリ制約。トークン生成速度はモデル重みロード速度依存。RTX 5090 は 1,792 GB/s;DDR5 RAM は 89 GB/s。差が GPU を 30–40 倍高速化。

ローカル LLM に最高の Apple Silicon チップは?

Mac Studio M2 Ultra(192GB)は 70B モデル 35 Tok/s でネイティブ実行 — 唯一市販ハードウェア。MacBook Pro M4 Max(128GB)はポータブル 35 Tok/s(8B)。M5 Max(96GB)は 7–13B モデル向け。

Apple Silicon は 70B モデル実行可能か?

Mac Studio M2 Ultra 192GB メモリは Llama 3.3 70B を 35 Tok/s でネイティブ実行。唯一市販ハードウェア。小型 Mac はオフロード時(5–10× ペナルティ品質低下)部分実行。M2 Ultra のみ完全品質。

RTX 5090(2,000 ドル)はローカル LLM に価値があるか?

70B モデル頻繁実行の場合のみ。RTX 5090(200 Tok/s 8B)は RTX 4090 より 2.5 倍高速(1,800 ドル)。ベストバリュー:RTX 4070 Ti(600 ドル、80 Tok/s 8B)8–32B モデル向け;Mac Studio M2 Ultra(4,000 ドル)ネイティブ 70B 向け。

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

PromptQuorumで、ローカルLLMを25以上のクラウドモデルと同時に比較しましょう。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る

GPU vs CPU vs Apple Silicon 2026: CUDA, Metal & Speicherbandbreite