クイック回答
RTX 3070 Ti(8 GB VRAM)では、Q4_K_M の Llama 3 8B と Mistral 7B が最適なローカル LLM です。どちらも VRAM を約 6 GB 使用し、約 25 tok/s で動作します。AMD Ryzen 7 5700X は CPU フォールバックとして高速なトークン化を担います。
更新: 2026-05
重要なポイント
RTX 3070 Ti は 8 GB の GDDR6 VRAM と 608 GB/s のメモリ帯域幅を持ち、Q4_K_M 量子化の 7B モデルで毎秒約 25 トークンを生成します。 これにより 3070 Ti は 7B〜8B モデルの推論に最適なポジションに位置します。
Q4_K_M では、Llama 3 8B は約 6 GB の VRAM を使用し、コンテキストとオーバーヘッドのために 2 GB が空きます。同じ量子化の Mistral 7B も同様に 6 GB を使用します。どちらも CPU へのレイヤーオフロードなしで動作します。
13B モデルクラスが実質的な上限です。Llama 3 13B(Q4_K_M)は約 8.5〜9 GB の VRAM を必要とし、3070 Ti の 8 GB を超えます。Q3_K_M(~7 GB)に下げれば収まりますが、ネイティブ Q4 の 7B モデルと比べて出力品質が顕著に低下します。
| モデル | Q4_K_M での VRAM | RTX 3070 Ti での速度 |
|---|---|---|
| Llama 3 8B Q4_K_M | ~6 GB | ~25 tok/s |
| Mistral 7B Q4_K_M | ~6 GB | ~24 tok/s |
| Llama 3 13B Q4_K_M | ~9 GB | 収まらない |
AMD Ryzen 7 5700X は Zen 3 の 8 コア CPU で、GPU が生成処理を担う前にトークン化とプロンプト前処理を行います。7B モデルサイズではトークン化速度はボトルネックになりません — 5700X は GPU がトークンを生成するよりも速くこのステップを完了します。
このハードウェアで 13B モデルを実行する必要がある場合は、llama.cpp のレイヤーオフロードを使用してください。VRAM に収まるだけのレイヤーを保持し、残りをシステム RAM にスピルします。RAM 上のレイヤーの PCIe ボトルネックにより生成速度は 5〜8 tok/s に低下します。
GPU 選択ガイドの全詳細と帯域幅と推論速度の関係については、ローカル LLM 向け GPU ガイドをご覧ください。
ollama pull llama3:8b でモデルをダウンロードし、ollama run llama3:8b で起動します。Ollama は CUDA 経由で NVIDIA GPU を自動検出し、モデル全体を VRAM に読み込みます。