¿Mejores modelos Ollama para RTX 3060 12 GB?
Respuesta rápida
Con 12 GB de VRAM, el mejor modelo de uso general es Llama 3 8B en Q5_K_M, entregando 20–30 tokens por segundo con calidad equilibrada. Para programación, usa Qwen 2.5 Coder 14B en Q4_K_M. Ambos funcionan a 20–30 tok/s.
- ▸Llama 3 8B Q5_K_M: mejor uso general en RTX 3060
- ▸Qwen 2.5 Coder 14B Q4_K_M: mejor para programación
- ▸Mistral 7B Q6_K: alternativa rápida para chat
Actualizado: 2026-05
Puntos clave
- ✓Mejor uso general: Llama 3 8B en Q5_K_M — 7 GB VRAM, ~25 tok/s, excelente calidad para chat y código
- ✓Mejor para código: Qwen 2.5 Coder 14B en Q4_K_M — 10 GB VRAM, mejor puntuación HumanEval en la clase 14B
- ✓RTX 3060 12 GB es la única GPU de consumo bajo $400 con suficiente VRAM para ejecutar modelos 14B en Q4
Top 5 modelos Ollama para RTX 3060 12 GB
A mayo de 2026, la RTX 3060 12 GB es el camino más barato para ejecutar modelos 14B localmente. Sus 12 GB de VRAM igualan a la RTX 4070 Ti (~$800) y RTX 4080 (~$1.100) a una fracción del coste. Por $280–$350 de segunda mano, obtienes la misma capacidad de modelo que tarjetas 3 veces más caras — limitado solo por la velocidad bruta, no por lo que puedes cargar.
Los cinco modelos siguientes funcionan con Ollama sin configuración. Las cifras de velocidad son con contexto predeterminado de 2048 tokens en un PC de escritorio sin offloading a CPU.
| Modelo | VRAM usada | Velocidad |
|---|---|---|
| Llama 3 8B Q5_K_M | 7,0 GB | ~25 tok/s |
| Qwen 2.5 Coder 14B Q4_K_M | 10,0 GB | ~20 tok/s |
| Mistral 7B Q6_K | 6,5 GB | ~27 tok/s |
| Phi-4 Q5_K_M | 6,2 GB | ~28 tok/s |
| Qwen 14B Q4_K_M | 10,0 GB | ~18 tok/s |
Cómo obtener el mejor rendimiento en RTX 3060
Para uso general, ejecuta Llama 3 8B en Q5_K_M con una ventana de contexto de 4096 tokens. Esto usa ~8 GB de VRAM en total y deja 4 GB de margen — suficiente para evitar desbordamiento al cambiar entre modelos.
Para código, Qwen 2.5 Coder 14B en Q4_K_M es la elección clara: supera a Llama 3 8B en HumanEval, cabe en 10 GB de VRAM y maneja Python, TypeScript y Go sin ajuste fino.
Deja siempre al menos 1,5–2 GB de VRAM libres. Cargar dos modelos seguidos sin descargar el primero provoca desbordamiento de VRAM y fuerza un lento offloading a CPU. Para el contexto completo de benchmarks de GPU, consulta las mejores GPUs para LLMs locales. Si tu GPU tiene menos de 12 GB, consulta los mejores modelos para 6 GB de VRAM. Para ejecutar la mejor opción general en tu RTX 3060:
ollama pull llama3:8b-instruct-q5_K_M
ollama run llama3:8b-instruct-q5_K_M--num-ctx 4096 si necesitas una ventana de contexto más grande.Respuestas rápidas sobre modelos para RTX 3060
¿Puede la RTX 3060 ejecutar un modelo 70B?▾
¿Es buena la RTX 3060 12 GB para LLMs locales?▾
¿Qué cuantización usar en RTX 3060 12 GB?▾
¿Ollama usa automáticamente la GPU RTX 3060?▾
ollama run nombremodelo y carga completamente en la GPU si la VRAM es suficiente.