PromptQuorumPromptQuorum

70BモデルにはどれくらいのVRAMが必要ですか?

Quantization & VRAM

重要なポイント

  • Q4_K_Mの70Bモデルには約40 GBのVRAMが必要です
  • コンシューマー向けハードウェア:デュアルRTX 3090(48 GB)またはApple M5 Max(128 GB統合メモリ)
  • 週5時間未満の使用であれば、$0.50–$1.50/時のクラウドGPUレンタルの方がハードウェア購入より安価です

70Bモデルを動かすハードウェアの選択肢

2026年5月現在、Q4_K_Mの70Bモデルは約40 GBの圧縮済み重みに相当します — RTX 4090の1.7倍、RTX 3090の1.6倍です。これが70Bをローカルで動かす最も難しい理由です:コンシューマーGPU(最大24 GB)とワークステーション級ハードウェアの境界を越えています。3つの選択肢があり、それぞれ異なるトレードオフがあります。

128 GB統合メモリ搭載のApple M5 Maxが最もスムーズなシングルマシン選択肢です — CPUとGPUメモリ間のPCIe転送ボトルネックがなく、macOSが自動的にメモリ割り当てを管理します。デュアルRTX 3090も動作しますが、ワークステーション級のデスクトップと慎重なドライバー設定が必要です。

ハードウェア合計VRAM速度
デュアルRTX 309048 GB~8トークン/秒
RTX 3090 + CPUオフロード24 GB + 32 GB RAM~3トークン/秒
Apple M5 Max 128 GB128 GB統合~15トークン/秒
RunPod H100(クラウド)80 GB~50トークン/秒

クラウドの方がローカルより合理的な場合

2026年5月現在、70B推論のクラウドGPUレンタルはRunPodとLambda Labsで1時間あたり$0.50–$1.50です。デュアルRTX 3090のセットアップには$1,500–$2,500のハードウェアコストがかかり、クラウドコストに対して1,500–3,000時間の使用後でのみ元が取れます。

70Bモデルを週5時間未満しか使わないチームや個人にとって、クラウドレンタルは安価で保守も容易です。ローカル70Bが正当化されるのは、プライバシーに敏感なユースケース(データが自分のハードウェアから出ない)や、クラウドコストが急速に積み上がる高頻度の推論です。コンシューマーGPUで動くより小さなモデルについては、VRAMティアガイドを参照してください。

70Bデプロイ戦略の詳細については、24 GB VRAMで70Bモデルを動かす方法を参照してください。

70BモデルのVRAMに関するよくある質問

RTX 3090 1枚で70Bモデルを動かせますか?
部分的には可能です。RTX 3090 1枚(24 GB)はCPUオフロードで70Bを動かせますが、速度は約3トークン/秒に落ちます — インタラクティブな使用には遅すぎます。70Bの完全GPU推論には合計40+ GBのVRAMが必要です。
MacBookで70Bモデルを動かせますか?
128 GB統合メモリを搭載したM3 Max、M4 Max、M4 Ultra、またはM5 Maxのみ可能です。32 GB RAMのMacBookではQ4で70Bを動かせません。より小さなモデルの代替についてはRAMサイジングガイドをご覧ください。
70Bモデルをローカルで動かす安価な方法はありますか?
はい — Q2_K量化を使うと70Bモデルを約21 GB VRAMに抑えられますが、品質は大幅に低下します。代替として、Q5の34Bモデルは70B品質の80–90%をVRAM必要量の半分で実現します。
70BのVRAM必要量は13Bと比べてどうですか?
13BモデルのQ4は約9 GB VRAMが必要で、70Bの約40 GBとは大きな差があります。チャット、コーディング、要約など多くのタスクでは、Q5の13–14Bモデルでその差を埋められます。モデルサイズ別のVRAM必要量を参照してください。