Skip to main content
PromptQuorumPromptQuorum
ホーム/ローカルLLM/24GB VRAMで70Bモデルを実行: 高度なテクニック
Hardware & Performance

24GB VRAMで70Bモデルを実行: 高度なテクニック

·10分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

70Bモデル(通常40GB以上必要)を24GB VRAMで実行することは、積極的な量子化(Q2-Q3)とレイヤーオフロードで可能ですが、結果は遅い(〜3-5 tokens/秒)。

70Bモデル(通常40GB以上必要)を24GB VRAMで実行することは、積極的な量子化(Q2-Q3)とレイヤーオフロードで可能ですが、結果は遅い(〜3-5 tokens/秒)。2026年4月現在、リアルタイムチャットには非実用的ですが、バッチ処理または実験用途には実行可能です。

重要なポイント

  • Llama 3.3 70B Q4時 = 35GB(24GBには大きすぎる)。Q3 = 26GB(依然として大きい)。Q2 = 17GB(適切!)。
  • トレードオフ: Q2は著しい品質低下。〜70% のFP16品質。
  • 速度: システムRAMに20GBをオフロードして3-5 tokens/秒(超遅い)。
  • より良い選択肢: Q5で13Bモデルを使用、またはレイヤー分割用に2番目のGPUを購入。
  • 2026年4月現在、これは制約回避策であり、推奨されるアプローチではありません。

理論的なVRAM計算

様々な量子化レベルでのLlama 3.3 70B:

量子化モデルサイズ24GBに適合?
FP16(ベースライン)いいえ
Q8(8ビット)いいえ
Q5(5ビット)いいえ
Q4(4ビット)いいえ(オフロード時:おそらく)
Q3(3ビット)いいえ(辛うじて)
Q2(2ビット)はい

積極的な量子化:主要ツール

70Bを24GBに適合させるにはQ2またはQ3量子化を使用する必要があります。

  • Q3: 26GB(まだ2GB超過)。2GBをRAMにオフロード可能。Q2より若干品質が良い。
  • Q2: 17.5GB(適切!)。FP16比較で70%品質。著しい低下だが使用可能。

量子化済みモデルをダウンロード: `ollama pull llama3.1:70b-q2`(利用可能な場合)またはllama.cppなどの変換ツールを使用。

システムRAMへのオフロード

24GB GPUでQ4(35GB)を使用する場合、残りの11GBをシステムRAMにオフロード可能。 速度ペナルティは重大(10倍遅い)。

数時間待機可能なバッチ処理でのみ実用的。

実践的なセットアップ: 24GBで70Bを実行

ステップバイステップ:

  1. 1
    Q2量子化を使用: `ollama pull llama3.1:70b-q2`(利用可能な場合、それ以外はllama.cppで変換)
  2. 2
    VRAMを確認: `nvidia-smi`は〜18GB使用を表示すべき
  3. 3
    モデルを実行: `ollama run llama3.1:70b-q2`
  4. 4
    3-5 tokens/秒を予想(非常に遅い)
  5. 5
    バッチ/オフライン処理のみに使用、インタラクティブチャットには使用しない

現実的なパフォーマンス期待値

24GB VRAMで70Bを実行するのは遅い:

量子化速度レイテンシユースケース
Q2(24GB VRAM)5-8 tok/秒トークンあたり2-4秒バッチ処理のみ
Q3 + オフロード(24GB)3-5 tok/秒トークンあたり3-5秒極度に制限
Q4 + オフロード(24GB)1-3 tok/秒トークンあたり5-10秒深夜バッチのみ

制約付き70Bの代替案

VRAM制限で70Bと格闘する代わりに、以下を検討してください:

  • 13Bモデルを使用(Llama 3.3 13B Q5 = 8GB、非常に高速)
  • レイヤー分割用に2番目のRTX 4090を購入(2× 24GB = 48GB、100+ tokens/秒)
  • クラウドAPIを使用(重要なタスク用GPT-5.5、実験用ローカル)
  • より効率的なモデル待機(より小さい、同じ品質)

制約付き70Bでのよくある間違い

  • Q2がチャット用に使用可能だと予想。 そうではありません。品質低下はリアルタイムインタラクションには深刻すぎる。
  • 事前に実際の速度を測定しない。 大きなバッチジョブを実行する前に、小さいプロンプト(10トークン)でテストし、速度を確認。
  • オフロードが「無料」だと想定。 システムRAMはGPU VRAMより100倍遅い。オフロードは推論を非実用的にする。
  • 代替案を検討しない。 13Bモデルは劇的に高速で、品質でしばしば十分。

よくある質問

本当に単一のRTX 4090で70Bモデルを実行できますか?

はい、ただし重大な注意事項があります。Q2量子化(17.5GB)では、モデルは24GB VRAMに適合しますが、5-8 tokens/秒で実行され、〜70% のFP16品質があります。Q4(35GB)では、11GBをシステムRAMにオフロードする必要があり、速度は1-3 tokens/秒に低下します。どちらもリアルタイムチャットには適さず、オフラインバッチ処理のみ。

70Bを24GB VRAMに適合させるために必要な量子化は?

Q2量子化は24GBに適合(17.5GBモデルサイズ)。Q3(26GB)は2GBのRAMオフロードが必要。Q4(35GB)は11GBのオフロードが必要で推論は非常に遅い。Q5以上(44-70GB)は24GB GPUでのオフロードでさえ適合不可。Q2がVRAMで完全に実行される唯一の選択肢。

24GB VRAMで70Bモデルはどの程度遅いですか?

Q2(VRAM内完全): 5-8 tokens/秒。Q3(2GB RAMオフロード): 3-5 tokens/秒。Q4(11GB RAMオフロード): 1-3 tokens/秒。同じGPU上のQ5での13Bモデルと比較: 80-100 tokens/秒。制約付き70Bセットアップは適切にサイズされた小さいモデルより10-20倍遅い。

制約付き70Bより13Bモデルを使用する方が良いですか?

ほとんどのタスクではい。Q5量子化での13Bモデルはアップル4090で80-100 tokens/秒で実行され、強力な品質を提供します。Q2での70Bモデルは5-8 tokens/秒で品質が低下します。13BはQ2劣化による速度と実用品質の両方で勝利。特定の70B機能が必要で、バッチのみ使用を許容できる場合のみ70B-on-24GB使用。

ソース

  • llama.cpp量子化 -- github.com/ggerganov/llama.cpp/blob/master/gguf-py/gguf/quants.py
  • モデルカード: Llama 3.3 70B -- huggingface.co/meta-llama/Llama-3.1-70B

サードパーティの情報に関する注意

この記事はサードパーティのAIモデル、ベンチマーク、価格、ライセンスを参照しています。AIの状況は急速に変化しています。ベンチマークスコア、ライセンス条件、モデル名、API価格は執筆時とお読みになる時の間で変わる可能性があります。この記事に基づいてデプロイやコンプライアンスに関する決定を下す前に、各プロバイダーの公式ソース(ライセンスとベンチマークはHugging Faceのモデルカード、API価格はプロバイダーのウェブサイト、現在のGDPRとEU AI法のテキストはEUR-Lex)で最新の数値を確認してください。この記事は2026年5月時点で公開されている情報を反映しています。

ローカルLLM、独自のAPIキー、またはその両方でPromptQuorumを使用できます — バックエンドはあなたが選択します。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る