AMD 5700X + RTX 3070 Ti 最适合哪款 LLM?
快速回答
搭配 RTX 3070 Ti(8 GB VRAM),Llama 3 8B Q4_K_M 和 Mistral Small Q5_K_M 是最佳本地 LLM。两者均使用约 6 GB VRAM,运行速度约 22–25 tok/s。AMD Ryzen 7 5700X 作为 CPU 后备负责快速 tokenization。
- ▸Llama 3 8B Q4_K_M:~6 GB VRAM,RTX 3070 Ti 上约 25 tok/s
- ▸Mistral Small Q5_K_M:~6 GB VRAM,每 GB VRAM 推理能力出色
- ▸RTX 3070 Ti 有 8 GB VRAM——Q4 量化的 13B 模型可能超出限制
更新于: 2026-05
关键要点
- ✓RTX 3070 Ti 有 8 GB GDDR6 VRAM 和 608 GB/s 内存带宽——7B Q4 模型预计约 25 tok/s
- ✓Llama 3 8B Q4_K_M 使用约 6 GB VRAM,在 RTX 3070 Ti 上留有 2 GB 余量
- ✓Mistral Small Q4_K_M 同样使用约 6 GB VRAM,速度相近且指令遵循能力强
- ✓Q4 量化的 13B 模型超过 8 GB VRAM,需要 Q3 或更低量化才能运行
这套配置能运行什么模型
截至 2026 年 5 月,RTX 3070 Ti(8 GB GDDR6X,608 GB/s 带宽)在 VRAM 内完整运行 Llama 3 8B Q4_K_M 和 Mistral Small Q5_K_M——各约 6 GB——速度约 22–25 tok/s。 14B 模型类是硬性上限:需要约 10 GB,超过 8 GB 限制。
如果需要 14B 模型,有三条路:Q3_K_M 将占用空间削减至约 7 GB,完整装入 VRAM,但在推理和代码任务上的输出质量会下降。通过 llama.cpp 进行部分 CPU 卸载(在 VRAM 和 RAM 间分割层)可在约 8 tok/s 下工作——5700X 的 8 个 Zen 3 核心比 4 核 CPU 能更好地处理这种情况。运行 70B 模型 Q2_K 技术上可在约 1 tok/s 下工作,但不适合交互式使用。
如果目标是以完整质量运行 14B 编码模型,请参阅12 GB VRAM 最佳编码 LLM 指南了解硬件升级路径。
| 模型 | 配置 | 速度 |
|---|---|---|
| Llama 3 8B Q4_K_M | 完整 VRAM | ~25 tok/s |
| Mistral Small Q5_K_M | 完整 VRAM | ~22 tok/s |
| Qwen 14B Q3_K_M | 完整 VRAM(紧凑) | ~14 tok/s(质量下降) |
| Qwen 14B Q4_K_M | 部分 CPU 卸载 | ~8 tok/s |
| Llama 3 70B Q2_K | CPU 集约型 | ~1 tok/s(很慢) |
何时升级或保持不变
这套配置以 20+ tok/s 运行 7B–8B 模型——足以胜任通用聊天、Python 脚本编写、TypeScript 工具编写和单文件代码审查。 如果这描述了你的工作负载,就没有迫切的升级理由。
如果你需要 14B 编码模型而不牺牲质量或速度,升级目标是 GPU——而非 CPU。二手 RTX 3060 12 GB(通常 200–300 美元)或 RTX 4070 基础版(12 GB)可以解锁 Qwen 3 Coder 14B Q4 全速运行。5800X3D 是最好的 AM4 CPU 升级,但其 3D V-Cache 优势仅限于游戏和 CPU 密集型科学工作负载——LLM 推理受 GPU 内存带宽限制,而 5700X 在这套配置中不是瓶颈。
关于完整 GPU 选购指南及带宽与 LLM 推理速度的对应关系,请参阅本地 LLM 最佳 GPU 指南。