Skip to main content
PromptQuorumPromptQuorum

AMD 5700X + RTX 3070 Ti に最適な LLM は?

クイック回答

RTX 3070 Ti(8 GB VRAM)では、Llama 3 8B Q4_K_M と Mistral Small Q5_K_M が最適なローカル LLM です。どちらも VRAM を約 6 GB 使用し、約 22–25 tok/s で動作します。AMD Ryzen 7 5700X は CPU フォールバックとして高速なトークン化を担います。

  • Llama 3 8B Q4_K_M:~6 GB VRAM、RTX 3070 Ti で ~25 tok/s
  • Mistral Small Q5_K_M:~6 GB VRAM、使用 VRAM あたりの推論品質が高い
  • RTX 3070 Ti の VRAM は 8 GB — Q4 の 13B モデルは収まらない場合あり

更新: 2026-05

Hardware-Specific

重要なポイント

  • RTX 3070 Ti は 8 GB GDDR6 VRAM と 608 GB/s のメモリ帯域幅を持ち、7B Q4 モデルで 約 25 tok/s を実現
  • Llama 3 8B Q4_K_M は VRAM を 約 6 GB 使用し、RTX 3070 Ti に 2 GB のヘッドルームを残す
  • Mistral Small Q4_K_M も 約 6 GB VRAM を使用し、同等の速度と強力な命令追従能力を提供
  • Q4 の 13B モデルは 8 GB VRAM を超えるため、Q3 以下の量子化が必要

このリグで良好に動作するもの

2026年5月時点で、RTX 3070 Ti(8 GB GDDR6X、608 GB/s 帯域幅)は Llama 3 8B Q4_K_M と Mistral Small Q5_K_M を VRAM 内で完全に実行します — 各モデル約 6 GB — 約 22–25 tok/s で動作します。 14B モデルクラスがハード上限です:約 10 GB 必要で、8 GB 制限を超えます。

14B モデルが必要な場合、3つのパスがあります:Q3_K_M はフットプリントを 約 7 GB に削減し、完全に VRAM に収まりますが、推論とコード タスクの出力品質が低下します。llama.cpp を介した部分的 CPU オフロード(VRAM と RAM 間のレイヤー分割)は 約 8 tok/s で実行可能です — 5700X の 8 個の Zen 3 コアは 4 コア CPU よりもこれをより適切に処理します。70B モデルを Q2_K で実行することは技術的には 約 1 tok/s で可能ですが、対話的使用には実用的ではありません。

14B コーディングモデルが完全な品質で目標である場合、12 GB VRAM 向けベストコーディング LLM ガイドを参照して、ハードウェアアップグレードパスを確認してください。

モデルセットアップ速度
Llama 3 8B Q4_K_M完全 VRAM約 25 tok/s
Mistral Small Q5_K_M完全 VRAM約 22 tok/s
Qwen 14B Q3_K_M完全 VRAM(タイト)約 14 tok/s(品質低下)
Qwen 14B Q4_K_M部分的 CPU オフロード約 8 tok/s
Llama 3 70B Q2_KCPU 集約的約 1 tok/s(遅い)

いつアップグレードするか、いつ留まるか

このリグは 7B–8B モデルを 20+ tok/s で実行します — 一般的なチャット、Python スクリプティング、TypeScript ツール、および単一ファイルコード レビューに十分です。 それがあなたのワークロードを説明する場合、アップグレードする差し迫った理由はありません。

品質またはスピードの低下なしで 14B コーディング モデルが必要な場合、アップグレード対象は GPU です — CPU ではありません。中古の RTX 3060 12 GB(通常 200–300 USD)または RTX 4070 ベース(12 GB)は Qwen 3 Coder 14B を Q4 で完全スループット時にロック解除します。5800X3D は最高の AM4 CPU アップグレードですが、その 3D V-Cache の利点はゲーミングおよび CPU バウンド科学ワークロードに固有です — LLM 推論は GPU メモリ帯域幅バウンドであり、5700X はこのリグではボトルネックではありません。

完全な GPU 選択ガイドおよびメモリ帯域幅が LLM 推論速度にどのようにマップするかについては、ローカル LLM 向けベスト GPU ガイドを参照してください。

AMD 5700X + RTX 3070 Ti 向け LLM に関するよくある質問

RTX 3070 Ti 8 GB で 14B モデルを実行できますか?
Q4_K_M ではできません — 14B モデルは約 10 GB が必要で、8 GB 制限を超えます。Q3_K_M(約 7 GB)は収まりますが、推論とコード タスクの出力品質が顕著に低下します。llama.cpp を介した部分的 CPU オフロードは 約 8 tok/s で可能です。
より良い LLM パフォーマンスのために GPU または CPU をアップグレードすべきですか?
GPU。LLM 推論速度は GPU メモリ帯域幅バウンドです;5700X はボトルネックではありません。12 GB GPU(RTX 3060 12 GB または RTX 4070 ベース)へのアップグレードは、14B モデルティアを完全 Q4 品質と速度でロック解除します。
部分的 CPU オフロードの場合、RAM 速度は重要ですか?
はい、二次要因として。DDR4-3600 対 DDR4-2133 は RAM 常駐レイヤーの CPU オフロード スループットを約 15% 向上させます。GPU は VRAM に適応するレイヤーの一次制約のままです。
LLM の場合、5800X3D は 5700X より価値がありますか?
いいえ。5800X3D の 3D V-Cache 利点はゲーミングと特定の CPU バウンド ワークロードに限定されます。LLM 推論は GPU メモリ帯域幅バウンドです。5700X はこのリグではボトルネックではありません — アップグレード予算を 12 GB GPU に投資してください。