快速回答
Qwen 2.5 Coder 14B Q4_K_M 是 RTX 3060 等12 GB VRAM 显卡的最佳编程模型。使用约10 GB VRAM,在符合此约束的模型中 HumanEval 得分最高。DeepSeek Coder 14B 是有力替代。
更新于: 2026-05
关键要点
Q4_K_M 量化的 Qwen 2.5 Coder 14B 使用约10 GB VRAM——在12 GB 显卡上留有2 GB 余量,足够操作系统和 Ollama 运行时使用。HumanEval 得78.4%,是截至2026年5月所有可本地部署的14B 及以下编程模型中的最高分。
Q4_K_M 下的 DeepSeek Coder 14B VRAM 占用几乎相同(约10 GB),HumanEval 得75.1%。差距不大,但 Qwen 2.5 Coder 在 Python 和 TypeScript 任务上持续领先,而这些占据了典型开发者工作负载的大部分。
两款模型在 RTX 3060 12 GB 和 RTX 3080 Ti 12 GB 上表现一致。RTX 3080 Ti 内存带宽略高(912 GB/s 对 360 GB/s),相同模型相同量化下约18 tok/s 对14 tok/s。
| 模型 | VRAM | HumanEval | 速度 (RTX 3060) | 速度 (RTX 3080 Ti) |
|---|---|---|---|---|
| Qwen 2.5 Coder 14B Q4_K_M | ~10 GB | 78.4% | ~14 tok/s | ~18 tok/s |
| DeepSeek Coder 14B Q4_K_M | ~10 GB | 75.1% | ~14 tok/s | ~18 tok/s |
| Qwen 2.5 Coder 7B Q4_K_M | ~5 GB | 72.1% | ~28 tok/s | ~38 tok/s |
4k 上下文时,两款14B 模型均使用约10 GB VRAM,运行舒适。8k 上下文时 VRAM 升至约11.5 GB——12 GB 显卡上只剩500 MB 余量。16k 上下文时,14B Q4_K_M 模型超出12 GB VRAM 并将部分卸载至 CPU,速度降至约3 tok/s。
实际编程使用中,4k 上下文足以应对大多数单文件补全和代码审查会话。长上下文需求(整个代码库、大规模重构)需要16 GB 或24 GB 显卡,或切换至只需约5 GB VRAM 的7B 变体,将完整的12 GB 显卡留给上下文使用。
如果经常处理大型文件且希望保留12 GB 显卡,可考虑 Qwen 2.5 Coder 7B Q4_K_M——RTX 3060 上约28 tok/s,HumanEval 得72.1%,且释放7 GB VRAM 用于上下文。14B 对比7B 权衡的更多细节请参阅最佳14B 编程模型对比。
ollama pull qwen2.5-coder:14b-instruct-q4_K_M。Ollama 会自动检测 NVIDIA GPU 并使用 CUDA。用 ollama ps 验证 GPU 使用情况——模型应显示在 GPU 上运行而非 CPU。如果回退到 CPU,请检查 CUDA 驱动是否为最新版本。