PromptQuorumPromptQuorum

AMD 5700X + RTX 3070 Ti に最適な LLM は?

クイック回答

RTX 3070 Ti(8 GB VRAM)では、Q4_K_M の Llama 3 8B と Mistral 7B が最適なローカル LLM です。どちらも VRAM を約 6 GB 使用し、約 25 tok/s で動作します。AMD Ryzen 7 5700X は CPU フォールバックとして高速なトークン化を担います。

  • Llama 3 8B Q4_K_M:~6 GB VRAM、RTX 3070 Ti で ~25 tok/s
  • Mistral 7B Q4_K_M:~6 GB VRAM、使用 VRAM あたりの推論品質が高い
  • RTX 3070 Ti の VRAM は 8 GB — Q4 の 13B モデルは収まらない場合あり

更新: 2026-05

Hardware-Specific

重要なポイント

  • RTX 3070 Ti は 8 GB GDDR6 VRAM と 608 GB/s のメモリ帯域幅を持ち、7B Q4 モデルで ~25 tok/s を実現
  • Llama 3 8B Q4_K_M は VRAM を ~6 GB 使用し、RTX 3070 Ti に 2 GB のヘッドルームを残す
  • Mistral 7B Q4_K_M も ~6 GB VRAM を使用し、同等の速度と強力な命令追従能力を提供
  • Q4 の 13B モデルは 8 GB VRAM を超えるため、Q3 以下の量子化が必要

RTX 3070 Ti の VRAM 制限がモデルの上限を決める

RTX 3070 Ti は 8 GB の GDDR6 VRAM と 608 GB/s のメモリ帯域幅を持ち、Q4_K_M 量子化の 7B モデルで毎秒約 25 トークンを生成します。 これにより 3070 Ti は 7B〜8B モデルの推論に最適なポジションに位置します。

Q4_K_M では、Llama 3 8B は約 6 GB の VRAM を使用し、コンテキストとオーバーヘッドのために 2 GB が空きます。同じ量子化の Mistral 7B も同様に 6 GB を使用します。どちらも CPU へのレイヤーオフロードなしで動作します。

13B モデルクラスが実質的な上限です。Llama 3 13B(Q4_K_M)は約 8.5〜9 GB の VRAM を必要とし、3070 Ti の 8 GB を超えます。Q3_K_M(~7 GB)に下げれば収まりますが、ネイティブ Q4 の 7B モデルと比べて出力品質が顕著に低下します。

モデルQ4_K_M での VRAMRTX 3070 Ti での速度
Llama 3 8B Q4_K_M~6 GB~25 tok/s
Mistral 7B Q4_K_M~6 GB~24 tok/s
Llama 3 13B Q4_K_M~9 GB収まらない

このセットアップにおける AMD 5700X の役割

AMD Ryzen 7 5700X は Zen 3 の 8 コア CPU で、GPU が生成処理を担う前にトークン化とプロンプト前処理を行います。7B モデルサイズではトークン化速度はボトルネックになりません — 5700X は GPU がトークンを生成するよりも速くこのステップを完了します。

このハードウェアで 13B モデルを実行する必要がある場合は、llama.cpp のレイヤーオフロードを使用してください。VRAM に収まるだけのレイヤーを保持し、残りをシステム RAM にスピルします。RAM 上のレイヤーの PCIe ボトルネックにより生成速度は 5〜8 tok/s に低下します。

GPU 選択ガイドの全詳細と帯域幅と推論速度の関係については、ローカル LLM 向け GPU ガイドをご覧ください。

AMD 5700X + RTX 3070 Ti 向け LLM に関するよくある質問

RTX 3070 Ti で 13B モデルを実行できますか?
Q4_K_M では無理です — 13B モデルは 8.5〜9 GB の VRAM が必要で、8 GB の制限を超えます。Q3_K_M(~7 GB)なら収まりますが品質が低下します。llama.cpp のレイヤーオフロードを使えば VRAM と RAM にモデルを分散させることもできますが、速度は低下します。
RTX 3070 Ti に最適な量子化レベルは?
Q4_K_M が 7B〜8B モデルに対して最良の品質と VRAM のバランスを提供します。6 GB に快適に収まり、KV キャッシュとコンテキスト用に 2 GB のヘッドルームを残します。Q5_K_M はわずかに品質が高くなりますが、~7 GB を使用します。
AMD 5700X は LLM 推論速度に影響しますか?
ほとんど影響しません。7B モデルサイズではトークン化は無視できます。ボトルネックは GPU のメモリ帯域幅です。5700X は有能な Zen 3 CPU ですが、GPU 加速推論における役割は前処理とオーケストレーションに限られます。
RTX 3070 Ti で Llama 3 8B を起動する Ollama コマンドは?
ollama pull llama3:8b でモデルをダウンロードし、ollama run llama3:8b で起動します。Ollama は CUDA 経由で NVIDIA GPU を自動検出し、モデル全体を VRAM に読み込みます。