快速回答
Qwen 2.5 Coder 14B 是本地使用的最佳14B编程模型。Q4_K_M量化后仅需10 GB VRAM,在14B模型中 HumanEval 得分最高。DeepSeek Coder 14B 是 VRAM 需求相近的有力替代。
更新于: 2026-05
关键要点
截至2026年5月,Qwen 2.5 Coder 14B 在 Q4_K_M 量化下 HumanEval 得分78.4%——是 Ollama 或 llama.cpp 上所有可用14B模型中的最高分。该模型在超过5万亿条以代码为核心的 token 上进行了微调,这正是其在多步骤补全和测试用例生成上表现突出的原因。
DeepSeek Coder 14B 在相同的 Q4_K_M 条件下 HumanEval 得分75.1%。差距足够小,DeepSeek Coder 仍是合理选择——尤其是当你已有缓存或熟悉其输出风格时。
StarCoder2 15B 是开源专项代码工作的第三选择。在 The Stack v2 上训练,~10 GB VRAM Q4_K_M 下 HumanEval 得分约73%。其优势在于开源贡献任务、跨大型代码库的代码搜索以及结构化重构——在这些用例中其训练语料库相比通用指令调优模型提供优势。
| 模型 | HumanEval | VRAM (Q4_K_M) |
|---|---|---|
| Qwen 2.5 Coder 14B | 78.4% | ~10 GB |
| DeepSeek Coder 14B | 75.1% | ~10 GB |
| StarCoder2 15B | ~73% | ~10 GB |
Qwen 2.5 Coder 14B 和 DeepSeek Coder 14B 在 Q4_K_M 下均需约10 GB VRAM,在12 GB 显卡上只剩2 GB 余量。长上下文会话中余量非常紧张:8k 上下文时 VRAM 使用量升至约11.5 GB。如果工作流涉及大型文件,建议使用16 GB 以上的显卡。
对于4k token 以下的上下文窗口(单文件补全的常见场景),三款模型都能在 RTX 3060 12 GB 或 RTX 3080 Ti 12 GB 上稳定运行。Qwen 和 DeepSeek Coder 的速度约为14–18 tok/s;StarCoder2 15B 考虑到其 VRAM 消耗量相近,运行速度相似。当你的工作流集中于代码库级别搜索或开源贡献模式时,优先选择 StarCoder2。
有关不同尺寸和VRAM层级编程模型的全面对比,请参阅12 GB VRAM 最佳编程 LLM 指南。