重要なポイント
2026年5月現在、Q4_K_Mの70Bモデルは約40 GBの圧縮済み重みに相当します — RTX 4090の1.7倍、RTX 3090の1.6倍です。これが70Bをローカルで動かす最も難しい理由です:コンシューマーGPU(最大24 GB)とワークステーション級ハードウェアの境界を越えています。3つの選択肢があり、それぞれ異なるトレードオフがあります。
128 GB統合メモリ搭載のApple M5 Maxが最もスムーズなシングルマシン選択肢です — CPUとGPUメモリ間のPCIe転送ボトルネックがなく、macOSが自動的にメモリ割り当てを管理します。デュアルRTX 3090も動作しますが、ワークステーション級のデスクトップと慎重なドライバー設定が必要です。
| ハードウェア | 合計VRAM | 速度 |
|---|---|---|
| デュアルRTX 3090 | 48 GB | ~8トークン/秒 |
| RTX 3090 + CPUオフロード | 24 GB + 32 GB RAM | ~3トークン/秒 |
| Apple M5 Max 128 GB | 128 GB統合 | ~15トークン/秒 |
| RunPod H100(クラウド) | 80 GB | ~50トークン/秒 |
2026年5月現在、70B推論のクラウドGPUレンタルはRunPodとLambda Labsで1時間あたり$0.50–$1.50です。デュアルRTX 3090のセットアップには$1,500–$2,500のハードウェアコストがかかり、クラウドコストに対して1,500–3,000時間の使用後でのみ元が取れます。
70Bモデルを週5時間未満しか使わないチームや個人にとって、クラウドレンタルは安価で保守も容易です。ローカル70Bが正当化されるのは、プライバシーに敏感なユースケース(データが自分のハードウェアから出ない)や、クラウドコストが急速に積み上がる高頻度の推論です。コンシューマーGPUで動くより小さなモデルについては、VRAMティアガイドを参照してください。
70Bデプロイ戦略の詳細については、24 GB VRAMで70Bモデルを動かす方法を参照してください。