¿Mejores modelos Ollama para RTX 3060 12 GB?

Leer en:

Respuesta rápida

Con 12 GB de VRAM, el mejor modelo de uso general es Llama 3 8B en Q5_K_M, entregando 20–30 tokens por segundo con calidad equilibrada. Para programación, usa Qwen 2.5 Coder 14B en Q4_K_M. Ambos funcionan a 20–30 tok/s.

▸Llama 3 8B Q5_K_M: mejor uso general en RTX 3060
▸Qwen 2.5 Coder 14B Q4_K_M: mejor para programación
▸Mistral 7B Q6_K: alternativa rápida para chat

Actualizado: 2026-05

Quantization & VRAM

Puntos clave

✓Mejor uso general: Llama 3 8B en Q5_K_M — 7 GB VRAM, ~25 tok/s, excelente calidad para chat y código
✓Mejor para código: Qwen 2.5 Coder 14B en Q4_K_M — 10 GB VRAM, mejor puntuación HumanEval en la clase 14B
✓RTX 3060 12 GB es la única GPU de consumo bajo $400 con suficiente VRAM para ejecutar modelos 14B en Q4

Top 5 modelos Ollama para RTX 3060 12 GB

A mayo de 2026, la RTX 3060 12 GB es el camino más barato para ejecutar modelos 14B localmente. Sus 12 GB de VRAM igualan a la RTX 4070 Ti (~$800) y RTX 4080 (~$1.100) a una fracción del coste. Por $280–$350 de segunda mano, obtienes la misma capacidad de modelo que tarjetas 3 veces más caras — limitado solo por la velocidad bruta, no por lo que puedes cargar.

Los cinco modelos siguientes funcionan con Ollama sin configuración. Las cifras de velocidad son con contexto predeterminado de 2048 tokens en un PC de escritorio sin offloading a CPU.

Modelo	VRAM usada	Velocidad
Llama 3 8B Q5_K_M	7,0 GB	~25 tok/s
Qwen 2.5 Coder 14B Q4_K_M	10,0 GB	~20 tok/s
Mistral 7B Q6_K	6,5 GB	~27 tok/s
Phi-4 Q5_K_M	6,2 GB	~28 tok/s
Qwen 14B Q4_K_M	10,0 GB	~18 tok/s

Cómo obtener el mejor rendimiento en RTX 3060

Para uso general, ejecuta Llama 3 8B en Q5_K_M con una ventana de contexto de 4096 tokens. Esto usa ~8 GB de VRAM en total y deja 4 GB de margen — suficiente para evitar desbordamiento al cambiar entre modelos.

Para código, Qwen 2.5 Coder 14B en Q4_K_M es la elección clara: supera a Llama 3 8B en HumanEval, cabe en 10 GB de VRAM y maneja Python, TypeScript y Go sin ajuste fino.

Deja siempre al menos 1,5–2 GB de VRAM libres. Cargar dos modelos seguidos sin descargar el primero provoca desbordamiento de VRAM y fuerza un lento offloading a CPU. Para el contexto completo de benchmarks de GPU, consulta las mejores GPUs para LLMs locales. Si tu GPU tiene menos de 12 GB, consulta los mejores modelos para 6 GB de VRAM. Para ejecutar la mejor opción general en tu RTX 3060:

ollama pull llama3:8b-instruct-q5_K_M
ollama run llama3:8b-instruct-q5_K_M

Pull descarga ~7 GB en la primera ejecución. Las ejecuciones siguientes arrancan al instante desde la caché. Usa --num-ctx 4096 si necesitas una ventana de contexto más grande.

Respuestas rápidas sobre modelos para RTX 3060

¿Puede la RTX 3060 ejecutar un modelo 70B?▾

No. Un modelo 70B en Q4_K_M necesita aproximadamente 40 GB de VRAM. La RTX 3060 12 GB llega como máximo a ~14B modelos en Q4. Consulta cuánta VRAM necesita un modelo 70B para las opciones.

¿Es buena la RTX 3060 12 GB para LLMs locales?▾

Sí — es la mejor relación calidad-precio en este rango de VRAM. La capacidad de 12 GB permite modelos 14B en Q4, que las tarjetas de 8 GB no pueden ejecutar. El precio de segunda mano suele ser $280–$350.

¿Qué cuantización usar en RTX 3060 12 GB?▾

Q5_K_M para modelos 7–8B (mejor calidad dentro del presupuesto de 12 GB). Q4_K_M para modelos 13–14B (necesario para que quepan). Consulta qué significa Q4_K_M para el compromiso de calidad.

¿Ollama usa automáticamente la GPU RTX 3060?▾

Sí. Ollama detecta GPUs NVIDIA vía CUDA automáticamente en Windows y Linux. No se necesita configuración manual. Ejecuta ollama run nombremodelo y carga completamente en la GPU si la VRAM es suficiente.

← Volver a Prompt Bites