PromptQuorumPromptQuorum

AMD 5700X + RTX 3070 Ti 最适合哪款 LLM?

快速回答

搭配 RTX 3070 Ti(8 GB VRAM),Q4_K_M 量化的 Llama 3 8B 和 Mistral 7B 是最佳本地 LLM。两者均使用约 6 GB VRAM,运行速度约 25 tok/s。AMD Ryzen 7 5700X 作为 CPU 后备负责快速 tokenization。

  • Llama 3 8B Q4_K_M:~6 GB VRAM,RTX 3070 Ti 上约 25 tok/s
  • Mistral 7B Q4_K_M:~6 GB VRAM,每 GB VRAM 推理能力出色
  • RTX 3070 Ti 有 8 GB VRAM——Q4 量化的 13B 模型可能超出限制

更新于: 2026-05

Hardware-Specific

关键要点

  • RTX 3070 Ti 有 8 GB GDDR6 VRAM 和 608 GB/s 内存带宽——7B Q4 模型预计约 25 tok/s
  • Llama 3 8B Q4_K_M 使用约 6 GB VRAM,在 RTX 3070 Ti 上留有 2 GB 余量
  • Mistral 7B Q4_K_M 同样使用约 6 GB VRAM,速度相近且指令遵循能力强
  • Q4 量化的 13B 模型超过 8 GB VRAM,需要 Q3 或更低量化才能运行

RTX 3070 Ti 的 VRAM 限制决定了模型上限

RTX 3070 Ti 拥有 8 GB GDDR6 VRAM 和 608 GB/s 内存带宽,在 Q4_K_M 量化的 7B 模型上可达每秒约 25 个 token。 这使 3070 Ti 处于 7B~8B 本地推理的最佳区间。

在 Q4_K_M 量化下,Llama 3 8B 使用约 6 GB VRAM,为上下文和运行时留出 2 GB 空间。相同量化的 Mistral 7B 也使用类似的 6 GB。两款模型均无需将层卸载到 CPU。

13B 模型是硬性上限。Llama 3 13B(Q4_K_M)需要约 8.5~9 GB VRAM,超过 3070 Ti 的 8 GB 限制。降至 Q3_K_M(~7 GB)可以放入,但输出质量相比原生 Q4 的 7B 模型会明显下降。

模型Q4_K_M 下的 VRAMRTX 3070 Ti 上的速度
Llama 3 8B Q4_K_M~6 GB~25 tok/s
Mistral 7B Q4_K_M~6 GB~24 tok/s
Llama 3 13B Q4_K_M~9 GB超出限制

AMD 5700X 在这套配置中的作用

AMD Ryzen 7 5700X 是一款 Zen 3 架构的 8 核 CPU,负责在 GPU 接手生成之前完成 tokenization 和 prompt 预处理。在 7B 模型规模下,tokenization 速度不是瓶颈——5700X 完成该步骤的速度比 GPU 生成 token 更快。

如果需要在此硬件上运行 13B 模型,可使用 llama.cpp 的层卸载功能:将尽量多的层保留在 VRAM 中,其余部分溢出到系统内存。由于 RAM 层的 PCIe 瓶颈,生成速度将降至 5~8 tok/s。

关于完整的 GPU 选购指南以及带宽与推理速度的对应关系,请参阅本地 LLM 最佳 GPU 指南

关于 AMD 5700X + RTX 3070 Ti LLM 的快速解答

能在 RTX 3070 Ti 上运行 13B 模型吗?
Q4_K_M 不行——13B 模型需要 8.5~9 GB VRAM,超出 8 GB 限制。降至 Q3_K_M(~7 GB)可以运行,但质量下降。也可以使用 llama.cpp 的层卸载将模型分散在 VRAM 和内存中,但速度会降低。
RTX 3070 Ti 最佳量化级别是什么?
Q4_K_M 为 7B~8B 模型提供最佳质量与 VRAM 的平衡。6 GB 可轻松容纳,留出 2 GB 用于 KV 缓存和上下文。Q5_K_M 质量略高,但需要约 7 GB。
AMD 5700X 会影响 LLM 推理速度吗?
影响很小。7B 模型规模下 tokenization 可忽略不计。瓶颈是 GPU 内存带宽。5700X 是一款出色的 Zen 3 CPU,但在 GPU 加速推理中其作用仅限于预处理和调度。
在 RTX 3070 Ti 上启动 Llama 3 8B 的 Ollama 命令是什么?
ollama pull llama3:8b 下载模型;ollama run llama3:8b 启动模型。Ollama 通过 CUDA 自动识别 NVIDIA GPU,并将完整模型加载到 VRAM 中。