AMD 5700X + RTX 3070 Ti に最適な LLM は？

言語を選択:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

クイック回答

RTX 3070 Ti（8 GB VRAM）では、Llama 3 8B Q4_K_M と Mistral Small Q5_K_M が最適なローカル LLM です。どちらも VRAM を約 6 GB 使用し、約 22–25 tok/s で動作します。AMD Ryzen 7 5700X は CPU フォールバックとして高速なトークン化を担います。

▸Llama 3 8B Q4_K_M：~6 GB VRAM、RTX 3070 Ti で ~25 tok/s
▸Mistral Small Q5_K_M：~6 GB VRAM、使用 VRAM あたりの推論品質が高い
▸RTX 3070 Ti の VRAM は 8 GB — Q4 の 13B モデルは収まらない場合あり

更新: 2026-05

Hardware-Specific

重要なポイント

✓RTX 3070 Ti は 8 GB GDDR6 VRAM と 608 GB/s のメモリ帯域幅を持ち、7B Q4 モデルで約 25 tok/s を実現
✓Llama 3 8B Q4_K_M は VRAM を約 6 GB 使用し、RTX 3070 Ti に 2 GB のヘッドルームを残す
✓Mistral Small Q4_K_M も約 6 GB VRAM を使用し、同等の速度と強力な命令追従能力を提供
✓Q4 の 13B モデルは 8 GB VRAM を超えるため、Q3 以下の量子化が必要

このリグで良好に動作するもの

2026年5月時点で、RTX 3070 Ti（8 GB GDDR6X、608 GB/s 帯域幅）は Llama 3 8B Q4_K_M と Mistral Small Q5_K_M を VRAM 内で完全に実行します — 各モデル約 6 GB — 約 22–25 tok/s で動作します。 14B モデルクラスがハード上限です：約 10 GB 必要で、8 GB 制限を超えます。

14B モデルが必要な場合、3つのパスがあります：Q3_K_M はフットプリントを約 7 GB に削減し、完全に VRAM に収まりますが、推論とコードタスクの出力品質が低下します。llama.cpp を介した部分的 CPU オフロード（VRAM と RAM 間のレイヤー分割）は約 8 tok/s で実行可能です — 5700X の 8 個の Zen 3 コアは 4 コア CPU よりもこれをより適切に処理します。70B モデルを Q2_K で実行することは技術的には約 1 tok/s で可能ですが、対話的使用には実用的ではありません。

14B コーディングモデルが完全な品質で目標である場合、12 GB VRAM 向けベストコーディング LLM ガイドを参照して、ハードウェアアップグレードパスを確認してください。

モデル	セットアップ	速度
Llama 3 8B Q4_K_M	完全 VRAM	約 25 tok/s
Mistral Small Q5_K_M	完全 VRAM	約 22 tok/s
Qwen 14B Q3_K_M	完全 VRAM（タイト）	約 14 tok/s（品質低下）
Qwen 14B Q4_K_M	部分的 CPU オフロード	約 8 tok/s
Llama 3 70B Q2_K	CPU 集約的	約 1 tok/s（遅い）

いつアップグレードするか、いつ留まるか

このリグは 7B–8B モデルを 20+ tok/s で実行します — 一般的なチャット、Python スクリプティング、TypeScript ツール、および単一ファイルコードレビューに十分です。それがあなたのワークロードを説明する場合、アップグレードする差し迫った理由はありません。

品質またはスピードの低下なしで 14B コーディングモデルが必要な場合、アップグレード対象は GPU です — CPU ではありません。中古の RTX 3060 12 GB（通常 200–300 USD）または RTX 4070 ベース（12 GB）は Qwen 3 Coder 14B を Q4 で完全スループット時にロック解除します。5800X3D は最高の AM4 CPU アップグレードですが、その 3D V-Cache の利点はゲーミングおよび CPU バウンド科学ワークロードに固有です — LLM 推論は GPU メモリ帯域幅バウンドであり、5700X はこのリグではボトルネックではありません。

完全な GPU 選択ガイドおよびメモリ帯域幅が LLM 推論速度にどのようにマップするかについては、ローカル LLM 向けベスト GPU ガイドを参照してください。

AMD 5700X + RTX 3070 Ti 向け LLM に関するよくある質問

RTX 3070 Ti 8 GB で 14B モデルを実行できますか？▾

Q4_K_M ではできません — 14B モデルは約 10 GB が必要で、8 GB 制限を超えます。Q3_K_M（約 7 GB）は収まりますが、推論とコードタスクの出力品質が顕著に低下します。llama.cpp を介した部分的 CPU オフロードは約 8 tok/s で可能です。

より良い LLM パフォーマンスのために GPU または CPU をアップグレードすべきですか？▾

GPU。LLM 推論速度は GPU メモリ帯域幅バウンドです；5700X はボトルネックではありません。12 GB GPU（RTX 3060 12 GB または RTX 4070 ベース）へのアップグレードは、14B モデルティアを完全 Q4 品質と速度でロック解除します。

部分的 CPU オフロードの場合、RAM 速度は重要ですか？▾

はい、二次要因として。DDR4-3600 対 DDR4-2133 は RAM 常駐レイヤーの CPU オフロードスループットを約 15% 向上させます。GPU は VRAM に適応するレイヤーの一次制約のままです。

LLM の場合、5800X3D は 5700X より価値がありますか？▾

いいえ。5800X3D の 3D V-Cache 利点はゲーミングと特定の CPU バウンドワークロードに限定されます。LLM 推論は GPU メモリ帯域幅バウンドです。5700X はこのリグではボトルネックではありません — アップグレード予算を 12 GB GPU に投資してください。

← プロンプト早わかりに戻る