Key Takeaways
- RTX 3060 12GB ($200–250 usada): Ejecuta todos los modelos 7B y la mayoría de 13B en Q4. Más Llama 4 Scout (MoE) a ~10 GB — mejor calidad general.
- RTX 3060 6GB: Limitada a modelos 3B (Phi-4 Mini, Llama 3.2 3B). Insuficiente para 7B.
- Mejor modelo general en 12GB: Llama 4 Scout 17B (MoE) a ~10 GB VRAM, 12–16 tok/seg. Entrega calidad comparable a modelos densos de 30B.
- Mejor modelo de código en 12GB: Qwen3 8B a 16–20 tok/seg. Mejora sobre Qwen3.
- Mejor modelo de razonamiento en 12GB: DeepSeek-R1 7B a 10–12 tok/seg. Chain-of-thought.
- Descártalo si: quieres modelos de 70B o 13B en Q8 — necesitas 24GB (RTX 4090).
¿Qué puedes ejecutar en RTX 3060 12GB?
La RTX 3060 12GB es la mejor GPU económica para LLMs locales en 2026. 12GB de VRAM cabe con todos los modelos 7B en cuantización Q4/Q5, y la mayoría de los 13B en Q4. Para orientación detallada sobre los requisitos de VRAM según el tamaño del modelo, consulta la guía de requisitos de VRAM →. Aquí están los modelos exactos y las velocidades que puedes esperar:
| Modelo | Tamaño | Cuantización | VRAM usada | Velocidad | Ideal para |
|---|---|---|---|---|---|
| Llama 4 Scout 17B | 17B activo (109B MoE) | Q4_K_M | ~10 GB | 12–16 tok/seg | Mejor calidad general (MoE) |
| Llama 3.2 7B | 7B | Q4_K_M | ~7 GB | 15–20 tok/seg | Chat general, Q&A (legacy) |
| Mistral 7B v0.3 | 7B | Q4_K_M | ~7 GB | 18 tok/seg | Seguimiento de instrucciones |
| Qwen3 8B | 8B | Q4_K_M | ~7 GB | 16–20 tok/seg | Código (mejorado sobre Qwen2.5) |
| DeepSeek-R1 7B | 7B | Q4_K_M | ~7 GB | 10–12 tok/seg | Razonamiento, matemáticas |
| Gemma 4 9B | 9B | Q4_K_M | ~8 GB | 12–15 tok/seg | Visión, multimodal |
| Llama 3.2 13B | 13B | Q4_K_M | ~11 GB | 8–10 tok/seg | Chat de mayor calidad (solo Q4, ajustado) |
Llama 4 Scout es la mayor mejora para los propietarios de RTX 3060 12GB en 2026. Su arquitectura MoE significa que solo 17B parámetros están activos por token (de 109B en total), entregando calidad muy superior a los modelos densos 7B-8B con un uso de VRAM similar. `ollama pull llama4:scout`. Todas las velocidades medidas con Ollama en RTX 3060 12GB, 16GB de RAM del sistema, Ryzen 7 7700X. Cuantización Q4_K_M. Las velocidades varían ±15% según la longitud del prompt y la ventana de contexto.
¿Qué puedes ejecutar en RTX 3060 6GB?
La variante de 6GB está muy limitada. Solo los modelos de 3B caben cómodamente. Los modelos 7B en Q4 necesitan ~7GB — más de lo disponible. El offloading a CPU funciona pero reduce la velocidad un 50–70%.
- Phi-4 Mini 3.8B (Q4): ~3GB VRAM, 20–25 tok/seg. Mejor razonamiento en este tamaño. Potente para matemáticas y lógica.
- Llama 3.2 3B (Q4): ~2.5GB VRAM, 25–35 tok/seg. Opción más rápida. Buena para chat simple y preguntas y respuestas.
- Gemma 2 2B (Q4): ~1.7GB VRAM, 35–45 tok/seg. Modelo más ligero. Buena para probar configuraciones.
- 7B con offloading: Posible pero lento. Llama 7B con offload a CPU = ~5–8 tok/seg. Utilizable solo para trabajo por lotes no interactivo.
- Recomendación: Si tienes una tarjeta de 6GB, actualiza a 12GB usada ($200–250) antes de invertir tiempo en soluciones alternativas. La mejora en velocidad y calidad del modelo vale la pena.
RTX 3060 vs otras GPUs económicas
| GPU | VRAM | Precio (usada) | Velocidad 7B | Modelo máx. | Veredicto |
|---|---|---|---|---|---|
| RTX 3060 12GB ★ | 12 GB | $200–250 | 15–20 tok/seg | 13B (Q4) | Mejor relación calidad-precio |
| RTX 4060 Ti 8GB | 8 GB | $250–300 | 20–25 tok/seg | 7B (Q5 máx) | Más rápida pero menos VRAM |
| RTX A4000 | 16 GB | $180–230 | 12–15 tok/seg | 13B (Q5) | Mejor VRAM por dólar |
| RTX 4070 Super | 12 GB | $400–450 | 25–30 tok/seg | 13B (Q5) | Más rápida, pero 2× el precio |
| RX 6700 XT | 12 GB | $150–200 | 10–14 tok/seg | 13B (Q4) | La más barata, fricción con AMD |
RTX 3060 12GB gana en valor: 12GB de VRAM a $200–250 ejecuta todos los modelos 7B y la mayoría de los 13B. La RTX A4000 es una segunda opción cercana si encuentras una por menos de $230. Los precios pueden variar según tu país.
¿Cuánta VRAM necesitas para modelos 7B?
Los modelos 7B cuantizados a Q4 (4 bits) requieren 6-8GB de VRAM; Q5 (5 bits) requiere 8-10GB; Q8 (8 bits) requiere 14-16GB.
En la práctica: 8GB es el mínimo absoluto para una inferencia cómoda en modelos 7B a Q4 con margen para procesamiento por lotes.
Las tarjetas de 6GB (RTX 2060) funcionan técnicamente pero requieren una optimización agresiva y no dejan margen para lotes más grandes.
Si tienes menos de 8 GB de VRAM, aún puedes ejecutar LLMs locales eficazmente — **consulta los modelos optimizados para hardware de 4–8 GB**.
El costo de la GPU es un lado de la economía; el costo por token es el otro. La inferencia local elimina las tarifas de API por token, pero la longitud del prompt sigue afectando la latencia y el rendimiento. Para ver el panorama completo de costos — tokens, niveles de precios y estrategias de optimización — consulta tokens, costos y límites: la economía del prompting con IA.
Mejores modelos por caso de uso en RTX 3060
Elige tu modelo según lo que realmente necesitas, no según el número de parámetros. Estas son las mejores opciones para cada caso de uso en RTX 3060 12GB:
El hardware económico ejecuta modelos más pequeños — pero un buen prompting cierra la brecha de calidad. La guía de prompt engineering cubre técnicas como chain-of-thought y salidas estructuradas que ayudan a los modelos pequeños a rendir por encima de su tamaño. Una carga de trabajo concreta que encaja en el nivel RTX 3060 12 GB es la revisión automatizada de pull requests — consulta revisión de código con LLM local en CI/CD para ver el patrón de GitHub Actions que ejecuta Qwen3 8B contra PRs en exactamente este hardware.
- Chat / Preguntas y respuestas: `ollama run llama4:scout` — MoE, ~10 GB VRAM, mejor calidad en 12 GB. Para una opción más ligera: `ollama run llama3.2:3b` a 2.5 GB.
- Código: `ollama run qwen3:8b` — Rendimiento de código mejorado sobre Qwen3. 5 GB VRAM. 16–20 tok/seg.
- Razonamiento / Matemáticas: `ollama run deepseek-r1:7b` — Razonamiento chain-of-thought. 10–12 tok/seg. Más lento pero significativamente más preciso en problemas de varios pasos.
- Escritura / Creatividad: `ollama run mistral:7b` — Mejor seguimiento de instrucciones. 18 tok/seg. Salida limpia y estructurada. Ideal para borradores y reescrituras.
- Visión / Imágenes: `ollama run gemma4:9b` — Multimodal (acepta imágenes). 12–15 tok/seg. Usa ~8GB VRAM. Describe fotos, lee capturas de pantalla, analiza gráficos.
- Privacidad / Sin conexión: Cualquiera de los anteriores. Todos se ejecutan 100% localmente. Ningún dato sale de tu equipo. No requiere internet después de descargar el modelo.
Usada vs. nueva: ¿dónde comprar?
- Usada ($50-100 más barata): eBay, Facebook Marketplace, Craigslist, tiendas locales de reparación de computadoras. Mayor riesgo de tarjetas defectuosas o VRAM dañada. Prueba siempre antes de comprometerte.
- Nueva ($280-400): Newegg, Amazon, Best Buy, Microcenter. Garantía incluida. Sin sorpresas. Precios estables. Ideal para compradores que prefieren evitar riesgos.
- Tarjetas de minería (cripto, muy baratas): Riesgo extremo. La degradación de la VRAM es habitual. Compra solo si puedes hacer pruebas de estrés completas en el lugar.
Errores comunes con GPUs económicas
- Comprar una RTX 2060 de 4GB esperando una inferencia fluida de 7B — obtendrás errores de memoria constantemente.
- Combinar una GPU de $250 con una fuente de alimentación de $30 — la caída de voltaje arruina la estabilidad. Presupuesta al menos 650W con certificación 80+ Gold.
- Asumir que la RAM DDR5 y la CPU i9 aceleran la inferencia de LLMs — no lo hacen. El ancho de banda de la VRAM de la GPU es el único cuello de botella que importa para la velocidad de inferencia.
- No probar Llama 4 Scout en 12 GB de VRAM. Muchos propietarios de RTX 3060 asumen que están limitados a modelos densos de 7B-8B. Llama 4 Scout (MoE, 17B activo / 109B total) cabe a ~10 GB y entrega calidad comparable a modelos densos de 30B. Si tienes 12 GB de VRAM y no has probado Scout, estás aprovechando significativamente menos tu hardware.
- Comprar una tarjeta de 16 GB solo para modelos 13B. Con Llama 4 Scout disponible a ~10 GB, la actualización de 12→16 GB es menos necesaria que hace seis meses. Solo actualiza a 16 GB si necesitas específicamente Llama 3.1 70B, Mistral Small 3.1 u otros modelos densos de 20B+.
FAQ
¿Sigue valiendo la pena comprar una RTX 3060 12GB en 2026?
Sí. Tiene más de 4 años, pero 12GB de VRAM sigue siendo muy relevante. Ejecuta Llama 4 Scout 17B (MoE), Qwen3 8B y Mistral 7B sin problemas. La arquitectura MoE de Llama 4 Scout significa que 12 GB de VRAM ahora son suficientes para una calidad de modelo que antes requería 16+ GB.
¿Debería comprar RTX 5060 Ti o RTX 4060 Ti para LLMs locales?
RTX 5060 Ti. La generación más nueva (2026) ofrece un 10-15% mejor rendimiento. Si tienes restricciones de presupuesto, RTX 4060 Ti sigue siendo sólida. Evita la base 4060/5060 (8GB) y la 4070 (12GB) — mala relación calidad-precio.
¿Puedo usar una AMD RX 7900 XT o RX 7900 XTX en su lugar?
Sí, pero el soporte de drivers de AMD es más débil que NVIDIA + CUDA. La configuración de HIP/ROCm requiere más esfuerzo. RTX es más segura para principiantes.
¿12GB de VRAM es suficiente para modelos de 13B?
Por muy poco, a cuantización Q4. Q5 o Q8 provocarán errores OOM. Si quieres un 13B cómodo, apunta a 16GB.
¿Debería comprar una GPU empresarial usada como RTX A4000?
Sí, si está disponible. 16GB de VRAM, refrigeración de calidad profesional, normalmente a $180-230 usada. Ligeramente más lenta que la RTX 3060, pero el margen adicional de VRAM lo vale.
¿Cuántos vatios de fuente de alimentación debo comprar con una GPU de $250?
650W mínimo, con certificación 80+ Gold. Una GPU de $250 + CPU + placa base no supera los 400W de consumo, pero quieres margen para picos.
¿Puedo ejecutar Ollama con una GPU económica de $200?
Sí. Ollama es ligero. Una RTX 3060 de 4 años con Ollama ejecutará Llama 4 Scout a 12-16 tok/seg o Qwen3 8B a 16-20 tok/seg — completamente utilizable para chat interactivo y asistencia de código.
¿Puedo ejecutar Llama 4 Scout en una RTX 3060 12GB?
Sí. Llama 4 Scout usa arquitectura MoE — 17B parámetros activos de 109B en total. A Q4_K_M, usa ~10 GB de VRAM, encajando cómodamente en la memoria de la RTX 3060 12GB. Espera 12-16 tok/seg. Esta es la mejor actualización individual para los propietarios de RTX 3060 en 2026: `ollama pull llama4:scout`.
Lectura relacionada
- Mini PCs AMD Ryzen AI Max+ (2026) — Alternativa a las GPUs discretas: iGPU + NPU de 50 TOPS a $1.200–2.500.
- ¿Cuánta VRAM para LLMs locales?
- RTX 5090 vs RTX 4090
- GPUs usadas para LLMs locales
- Mejores GPUs para LLMs locales
- Calculadora de VRAM
- Laptop vs Desktop para LLMs locales — Comparación completa de plataformas: GPU de escritorio vs MacBook para LLMs locales.
- Prompt Engineering para LLMs locales — Optimiza prompts para modelos que se ejecutan en hardware económico.
- Prompting Chain-of-Thought — Mejora significativamente la calidad de salida de DeepSeek-R1.
- Mac Mini M5 como servidor de IA local — Alternativa económica a las builds de GPU: IA siempre activa a $599 de hardware + $35/año de electricidad.
- Apple Silicon M5 para LLMs locales — Guía completa de M5 Pro/Max: benchmarks, configuraciones de Mac, niveles de memoria y qué Mac comprar para inferencia local.
- Apple Silicon vs GPU NVIDIA para LLMs locales — Comparación completa de costo y rendimiento: cuándo un Mac supera a una GPU económica.
- Mejores modelos para Apple Silicon 2026 — Recomendaciones de modelos para niveles de memoria unificada de 16GB–128GB.
- Para precios de GPU en Japón, minoristas de Akihabara y opciones del mercado de segunda mano en Mercari y Yahoo Auctions, consulta nuestra <a href="/es/prompt-bites/best-gpu-local-llm-japan-price" class="text-primary hover:underline">guía de las mejores GPUs para LLMs locales en Japón</a>.
Fuentes
- Meta AI. (2025). "Llama 4 Model Card." — Arquitectura MoE de Scout, requisitos de VRAM
- Qwen Team. (2026). "Qwen3 Technical Report." — Especificaciones de Qwen3 8B
- Base de datos de GPUs TechPowerUp: especificaciones y consumo de energía de RTX 3060 / RTX 4060 Ti / RTX 4070 Super
- Matriz de capacidades CUDA de NVIDIA: ancho de banda de memoria de GPU y rendimiento teórico para cargas de trabajo de inferencia
- Requisitos de modelos de Ollama: recomendaciones de VRAM para niveles de cuantización de Llama 4 Scout, Qwen3 y Mistral 7B
- El cumplimiento normativo requiere flujos de trabajo auditables. Establece estándares de gobernanza para la calidad y revisión de prompts de IA: gobernanza de prompts en producción cubre políticas, control de versiones y procesos de aprobación.