快速回答
搭配 RTX 3070 Ti(8 GB VRAM),Q4_K_M 量化的 Llama 3 8B 和 Mistral 7B 是最佳本地 LLM。两者均使用约 6 GB VRAM,运行速度约 25 tok/s。AMD Ryzen 7 5700X 作为 CPU 后备负责快速 tokenization。
更新于: 2026-05
关键要点
RTX 3070 Ti 拥有 8 GB GDDR6 VRAM 和 608 GB/s 内存带宽,在 Q4_K_M 量化的 7B 模型上可达每秒约 25 个 token。 这使 3070 Ti 处于 7B~8B 本地推理的最佳区间。
在 Q4_K_M 量化下,Llama 3 8B 使用约 6 GB VRAM,为上下文和运行时留出 2 GB 空间。相同量化的 Mistral 7B 也使用类似的 6 GB。两款模型均无需将层卸载到 CPU。
13B 模型是硬性上限。Llama 3 13B(Q4_K_M)需要约 8.5~9 GB VRAM,超过 3070 Ti 的 8 GB 限制。降至 Q3_K_M(~7 GB)可以放入,但输出质量相比原生 Q4 的 7B 模型会明显下降。
| 模型 | Q4_K_M 下的 VRAM | RTX 3070 Ti 上的速度 |
|---|---|---|
| Llama 3 8B Q4_K_M | ~6 GB | ~25 tok/s |
| Mistral 7B Q4_K_M | ~6 GB | ~24 tok/s |
| Llama 3 13B Q4_K_M | ~9 GB | 超出限制 |
AMD Ryzen 7 5700X 是一款 Zen 3 架构的 8 核 CPU,负责在 GPU 接手生成之前完成 tokenization 和 prompt 预处理。在 7B 模型规模下,tokenization 速度不是瓶颈——5700X 完成该步骤的速度比 GPU 生成 token 更快。
如果需要在此硬件上运行 13B 模型,可使用 llama.cpp 的层卸载功能:将尽量多的层保留在 VRAM 中,其余部分溢出到系统内存。由于 RAM 层的 PCIe 瓶颈,生成速度将降至 5~8 tok/s。
关于完整的 GPU 选购指南以及带宽与推理速度的对应关系,请参阅本地 LLM 最佳 GPU 指南。
ollama pull llama3:8b 下载模型;ollama run llama3:8b 启动模型。Ollama 通过 CUDA 自动识别 NVIDIA GPU,并将完整模型加载到 VRAM 中。