关键要点
截至2026年5月,RTX 3060 12 GB是本地运行14B模型的最经济路径。其12 GB显存与RTX 4070 Ti(约$800)和RTX 4080(约$1,100)相当,但价格只是其零头。一张$280–$350的二手卡能提供与3倍价格显卡相同的模型容量。
以下五款模型均可通过Ollama直接运行,无需配置。速度数据基于桌面PC上默认2048 token上下文、无CPU卸载的测量值。
| 模型 | 显存占用 | 速度 |
|---|---|---|
| Llama 3 8B Q5_K_M | 7.0 GB | ~25 tok/s |
| Qwen 2.5 Coder 14B Q4_K_M | 10.0 GB | ~20 tok/s |
| Mistral 7B Q6_K | 6.5 GB | ~27 tok/s |
| Phi-4 Q5_K_M | 6.2 GB | ~28 tok/s |
| Qwen 14B Q4_K_M | 10.0 GB | ~18 tok/s |
对于通用用途,以4096 token上下文窗口运行Q5_K_M的Llama 3 8B。总计使用约8 GB显存,留有4 GB余量。
对于编程,Q4_K_M的Qwen 2.5 Coder 14B是明确的选择:它在HumanEval上超越Llama 3 8B,适合10 GB显存,无需微调即可处理Python、TypeScript和Go。
始终保持至少1.5–2 GB显存空闲。完整的GPU基准测试背景请参阅本地LLM最佳GPU。如果您的GPU显存小于12 GB,请参阅6 GB显存最佳模型。在您的RTX 3060上运行最佳通用选择:
ollama pull llama3:8b-instruct-q5_K_M
ollama run llama3:8b-instruct-q5_K_M--num-ctx 4096。ollama run 模型名,如果显存充足则完全加载到GPU。