70BモデルにはどれくらいのVRAMが必要ですか?
Quantization & VRAM
重要なポイント
- ✓Q4_K_Mの70Bモデルには約40 GBのVRAMが必要です
- ✓コンシューマー向けハードウェア:デュアルRTX 3090(48 GB)またはApple M5 Max(128 GB統合メモリ)
- ✓週5時間未満の使用であれば、$0.50–$1.50/時のクラウドGPUレンタルの方がハードウェア購入より安価です
70Bモデルを動かすハードウェアの選択肢
2026年5月現在、Q4_K_Mの70Bモデルは約40 GBの圧縮済み重みに相当します — RTX 4090の1.7倍、RTX 3090の1.6倍です。これが70Bをローカルで動かす最も難しい理由です:コンシューマーGPU(最大24 GB)とワークステーション級ハードウェアの境界を越えています。3つの選択肢があり、それぞれ異なるトレードオフがあります。
128 GB統合メモリ搭載のApple M5 Maxが最もスムーズなシングルマシン選択肢です — CPUとGPUメモリ間のPCIe転送ボトルネックがなく、macOSが自動的にメモリ割り当てを管理します。デュアルRTX 3090も動作しますが、ワークステーション級のデスクトップと慎重なドライバー設定が必要です。
| ハードウェア | 合計VRAM | 速度 |
|---|---|---|
| デュアルRTX 3090 | 48 GB | ~8トークン/秒 |
| RTX 3090 + CPUオフロード | 24 GB + 32 GB RAM | ~3トークン/秒 |
| Apple M5 Max 128 GB | 128 GB統合 | ~15トークン/秒 |
| RunPod H100(クラウド) | 80 GB | ~50トークン/秒 |
クラウドの方がローカルより合理的な場合
2026年5月現在、70B推論のクラウドGPUレンタルはRunPodとLambda Labsで1時間あたり$0.50–$1.50です。デュアルRTX 3090のセットアップには$1,500–$2,500のハードウェアコストがかかり、クラウドコストに対して1,500–3,000時間の使用後でのみ元が取れます。
70Bモデルを週5時間未満しか使わないチームや個人にとって、クラウドレンタルは安価で保守も容易です。ローカル70Bが正当化されるのは、プライバシーに敏感なユースケース(データが自分のハードウェアから出ない)や、クラウドコストが急速に積み上がる高頻度の推論です。コンシューマーGPUで動くより小さなモデルについては、VRAMティアガイドを参照してください。
70Bデプロイ戦略の詳細については、24 GB VRAMで70Bモデルを動かす方法を参照してください。
関連ガイド
- ▸ローカルLLMに必要なVRAM量は? — 全モデルサイズのVRAM早見表
- ▸70Bモデルをローカルで動かす最安の方法 — ハードウェア予算超過時のコスト選択肢
- ▸ローカルLLMハードウェアガイド2026 — 70B対応構成の完全ガイド
- ▸ベストローカルLLM 2026 — ハードウェアコストに見合う70Bモデル
70BモデルのVRAMに関するよくある質問
RTX 3090 1枚で70Bモデルを動かせますか?▾
部分的には可能です。RTX 3090 1枚(24 GB)はCPUオフロードで70Bを動かせますが、速度は約3トークン/秒に落ちます — インタラクティブな使用には遅すぎます。70Bの完全GPU推論には合計40+ GBのVRAMが必要です。
MacBookで70Bモデルを動かせますか?▾
128 GB統合メモリを搭載したM3 Max、M4 Max、M4 Ultra、またはM5 Maxのみ可能です。32 GB RAMのMacBookではQ4で70Bを動かせません。より小さなモデルの代替についてはRAMサイジングガイドをご覧ください。
70Bモデルをローカルで動かす安価な方法はありますか?▾
はい — Q2_K量化を使うと70Bモデルを約21 GB VRAMに抑えられますが、品質は大幅に低下します。代替として、Q5の34Bモデルは70B品質の80–90%をVRAM必要量の半分で実現します。
70BのVRAM必要量は13Bと比べてどうですか?▾
13BモデルのQ4は約9 GB VRAMが必要で、70Bの約40 GBとは大きな差があります。チャット、コーディング、要約など多くのタスクでは、Q5の13–14Bモデルでその差を埋められます。モデルサイズ別のVRAM必要量を参照してください。