70BモデルにはどれくらいのVRAMが必要ですか？

言語を選択:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Quantization & VRAM

重要なポイント

✓Q4_K_Mの70Bモデルには約40 GBのVRAMが必要です
✓コンシューマー向けハードウェア：デュアルRTX 3090（48 GB）またはApple M5 Max（128 GB統合メモリ）
✓週5時間未満の使用であれば、$0.50–$1.50/時のクラウドGPUレンタルの方がハードウェア購入より安価です

70Bモデルを動かすハードウェアの選択肢

2026年5月現在、Q4_K_Mの70Bモデルは約40 GBの圧縮済み重みに相当します — RTX 4090の1.7倍、RTX 3090の1.6倍です。これが70Bをローカルで動かす最も難しい理由です：コンシューマーGPU（最大24 GB）とワークステーション級ハードウェアの境界を越えています。3つの選択肢があり、それぞれ異なるトレードオフがあります。

128 GB統合メモリ搭載のApple M5 Maxが最もスムーズなシングルマシン選択肢です — CPUとGPUメモリ間のPCIe転送ボトルネックがなく、macOSが自動的にメモリ割り当てを管理します。デュアルRTX 3090も動作しますが、ワークステーション級のデスクトップと慎重なドライバー設定が必要です。

ハードウェア	合計VRAM	速度
デュアルRTX 3090	48 GB	~8トークン/秒
RTX 3090 + CPUオフロード	24 GB + 32 GB RAM	~3トークン/秒
Apple M5 Max 128 GB	128 GB統合	~15トークン/秒
RunPod H100（クラウド）	80 GB	~50トークン/秒

クラウドの方がローカルより合理的な場合

2026年5月現在、70B推論のクラウドGPUレンタルはRunPodとLambda Labsで1時間あたり$0.50–$1.50です。デュアルRTX 3090のセットアップには$1,500–$2,500のハードウェアコストがかかり、クラウドコストに対して1,500–3,000時間の使用後でのみ元が取れます。

70Bモデルを週5時間未満しか使わないチームや個人にとって、クラウドレンタルは安価で保守も容易です。ローカル70Bが正当化されるのは、プライバシーに敏感なユースケース（データが自分のハードウェアから出ない）や、クラウドコストが急速に積み上がる高頻度の推論です。コンシューマーGPUで動くより小さなモデルについては、VRAMティアガイドを参照してください。

70Bデプロイ戦略の詳細については、24 GB VRAMで70Bモデルを動かす方法を参照してください。

70BモデルのVRAMに関するよくある質問

RTX 3090 1枚で70Bモデルを動かせますか？▾

部分的には可能です。RTX 3090 1枚（24 GB）はCPUオフロードで70Bを動かせますが、速度は約3トークン/秒に落ちます — インタラクティブな使用には遅すぎます。70Bの完全GPU推論には合計40+ GBのVRAMが必要です。

MacBookで70Bモデルを動かせますか？▾

128 GB統合メモリを搭載したM3 Max、M4 Max、M4 Ultra、またはM5 Maxのみ可能です。32 GB RAMのMacBookではQ4で70Bを動かせません。より小さなモデルの代替についてはRAMサイジングガイドをご覧ください。

70Bモデルをローカルで動かす安価な方法はありますか？▾

はい — Q2_K量化を使うと70Bモデルを約21 GB VRAMに抑えられますが、品質は大幅に低下します。代替として、Q5の34Bモデルは70B品質の80–90%をVRAM必要量の半分で実現します。

70BのVRAM必要量は13Bと比べてどうですか？▾

13BモデルのQ4は約9 GB VRAMが必要で、70Bの約40 GBとは大きな差があります。チャット、コーディング、要約など多くのタスクでは、Q5の13–14Bモデルでその差を埋められます。モデルサイズ別のVRAM必要量を参照してください。

← プロンプト早わかりに戻る

70BモデルにはどれくらいのVRAMが必要ですか？

70Bモデルを動かすハードウェアの選択肢

クラウドの方がローカルより合理的な場合

関連ガイド

70BモデルのVRAMに関するよくある質問