¿Mejor LLM local para programar con 12 GB de VRAM?
Respuesta rápida
Qwen 2.5 Coder 14B Q4_K_M es el mejor modelo de programación para GPUs con 12 GB de VRAM como la RTX 3060. Usa ~10 GB de VRAM y obtiene la puntuación HumanEval más alta entre los modelos que caben en esta restricción. DeepSeek Coder 14B es una alternativa sólida.
- ▸Qwen 2.5 Coder 14B Q4_K_M: ~10 GB de VRAM, mejor benchmark de programación para este tamaño
- ▸DeepSeek Coder 14B Q4_K_M: VRAM similar, competitivo en completado de código
- ▸Ambos caben en RTX 3060 12 GB y RTX 3080 Ti 12 GB
Actualizado: 2026-05
Puntos clave
- ✓Qwen 2.5 Coder 14B Q4_K_M usa ~10 GB de VRAM y cabe en RTX 3060 12 GB o RTX 3080 Ti 12 GB con 2 GB de margen
- ✓En contexto corto (≤4k tokens), Qwen y DeepSeek Coder 14B corren a 14–18 tok/s en estas tarjetas de 12 GB
- ✓Las sesiones con más de 8k tokens suben el VRAM a ~11,5 GB — mantente por debajo de 8k para un funcionamiento cómodo en 12 GB
- ✓Qwen 2.5 Coder 14B obtiene 78,4 % en HumanEval; DeepSeek Coder 14B 75,1 % — ambos muy por encima de cualquier modelo de programación 7B
Qwen 2.5 Coder 14B es la elección correcta para 12 GB de VRAM
Qwen 2.5 Coder 14B en cuantización Q4_K_M usa aproximadamente 10 GB de VRAM — dejando 2 GB de margen en una tarjeta de 12 GB, suficiente para el sistema operativo y el runtime de Ollama. Alcanza 78,4 % en HumanEval, la puntuación más alta de cualquier modelo de programación de 14B o inferior disponible para despliegue local a mayo de 2026.
DeepSeek Coder 14B en Q4_K_M tiene un consumo de VRAM casi idéntico (~10 GB) y obtiene 75,1 % en HumanEval. La diferencia es pequeña, pero Qwen 2.5 Coder lidera de forma consistente en tareas de Python y TypeScript, que representan la mayoría de las cargas de trabajo habituales de los desarrolladores.
Ambos modelos funcionan de forma idéntica en RTX 3060 12 GB y RTX 3080 Ti 12 GB. La RTX 3080 Ti ofrece un ancho de banda de memoria ligeramente mayor (912 GB/s frente a 360 GB/s), lo que se traduce en aproximadamente 18 tok/s frente a 14 tok/s para el mismo modelo con la misma cuantización.
| Modelo | VRAM | HumanEval | Velocidad (RTX 3060) | Velocidad (RTX 3080 Ti) |
|---|---|---|---|---|
| Qwen 2.5 Coder 14B Q4_K_M | ~10 GB | 78,4 % | ~14 tok/s | ~18 tok/s |
| DeepSeek Coder 14B Q4_K_M | ~10 GB | 75,1 % | ~14 tok/s | ~18 tok/s |
| Qwen 2.5 Coder 7B Q4_K_M | ~5 GB | 72,1 % | ~28 tok/s | ~38 tok/s |
La longitud del contexto es la variable clave de VRAM
Con 4k de contexto, ambos modelos 14B usan ~10 GB de VRAM y funcionan cómodamente. Con 8k de contexto, el VRAM sube a aproximadamente 11,5 GB — dejando solo 500 MB de margen en una tarjeta de 12 GB. Con 16k de contexto, un modelo 14B Q4_K_M supera los 12 GB de VRAM y comenzará a descargar parcialmente hacia la CPU, reduciendo la velocidad a ~3 tok/s.
Para el uso práctico de programación, 4k de contexto es suficiente para la mayoría de los completados de archivo único y sesiones de revisión de código. Las necesidades de contexto largo (repositorios completos, refactorizaciones extensas) requieren una GPU de 16 GB o 24 GB, o cambiar a la variante 7B que usa ~5 GB de VRAM y deja toda la tarjeta de 12 GB libre para contexto.
Si trabajas frecuentemente con archivos grandes y quieres quedarte con una tarjeta de 12 GB, considera Qwen 2.5 Coder 7B Q4_K_M — corre a ~28 tok/s en RTX 3060, obtiene 72,1 % en HumanEval y deja 7 GB de VRAM libres para contexto. Consulta la comparativa de los mejores modelos de programación 14B para más detalles sobre el compromiso 14B vs 7B.
Respuestas rápidas sobre LLMs de programación para 12 GB de VRAM
¿Qué es mejor para 12 GB de VRAM: RTX 3060 o RTX 3080 Ti?▾
¿Puedo meter un modelo de 20B o 22B en 12 GB de VRAM?▾
¿Cómo instalo Qwen 2.5 Coder 14B en Ollama para mi RTX 3060?▾
ollama pull qwen2.5-coder:14b-instruct-q4_K_M. Ollama detecta automáticamente la GPU NVIDIA y usa CUDA. Verifica el uso de la GPU con ollama ps — el modelo debería aparecer ejecutándose en la GPU, no en la CPU. Si cae en CPU, comprueba que los controladores CUDA estén actualizados.