Home/Local LLMs/Mejor GPU para inferencia LLM por menos de 500 € (2026)

Hardware & Performance

Mejor GPU para inferencia LLM por menos de 500 € (2026)

Last updated: 26 de mayo de 2026··Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.

La mejor GPU por menos de 500 € para inferencia LLM local es la RTX 4060 Ti 16GB (~520 €): sus 16 GB de VRAM ejecutan modelos 14B (Qwen3 14B, Llama 3.3 14B) en Q4 completamente en GPU — e incluso en Q8 con margen de sobra — a ~55 tok/s en 8B Q4, consumiendo solo 165 W. Segunda mejor opción: la RTX 3060 12GB (~334 €) es la elección más económica para modelos 7B–13B cuando no se necesita margen para 14B. Nota: la RTX 3090 de segunda mano y la RX 7800 XT 16GB han superado los 500 € en julio de 2026 (950–1.150 € y ~682 € respectivamente), así que ninguna califica ya. Para capacidad de modelos 30B, presupuesta 1.000 €+. Precios de referencia para España (PVP con IVA); en Latinoamérica los precios varían por impuestos de importación y tipo de cambio.

Key Takeaways

La RTX 4060 Ti 16GB gana para la mayoría: 16 GB ejecutan 14B en Q4 en GPU (Q8 con margen), ~520 € en julio 2026, 165 W
La RTX 3060 12GB es la segunda opción a ~334 € — elección NVIDIA más económica, 12 GB VRAM para modelos 7B–13B
La Intel Arc B580 12GB es la opción económica de valor a ~250 € — 12 GB VRAM, arquitectura más reciente, modelos 7B–13B
⚠️ Alerta de precio: la RTX 3090 de segunda mano ahora vale 950–1.150 € — eliminada de la lista sub-500 €
⚠️ Alerta de precio: la RTX 4070 12GB ahora vale ~599 € — eliminada de la lista sub-500 €
⚠️ Alerta de precio: la RX 7800 XT 16GB ahora vale ~682 € — eliminada de la lista sub-500 €
¿Necesitas capacidad para modelos 30B? Presupuesta al menos 1.000 € para una RTX 3090 usada (24 GB) o ahorra para una RTX 4080 SUPER (16 GB, ~999 €)
Las tres GPU de esta lista funcionan con Ollama, LM Studio y llama.cpp de fábrica

Mejores GPU para inferencia LLM por menos de 500 € — Clasificadas

La RTX 4060 Ti 16GB (~520 €) es la mejor GPU por menos de 500 € para inferencia LLM local porque sus 16 GB de VRAM acomodan modelos 14B en calidad Q8 completa sin presión de memoria.

El VRAM de la GPU determina qué modelos de IA puedes ejecutar. Una GPU de 16 GB ejecuta modelos 14B en alta calidad. Una GPU de 24 GB (como una RTX 3090 de segunda mano) ejecuta modelos de 30B o más. Con menos de 12 GB estás limitado a modelos 7B o más pequeños.

Comparación de rendimiento — Precios julio 2026 + Resultados de pruebas

Benchmarks medidos con Ollama 0.30.x, servidor llama.cpp, modelos de HuggingFace. Sistema de prueba: Ryzen 9 7950X, 64 GB DDR5, NVMe SSD. Precios verificados julio 2026 — RTX 3090 usada (950–1.150 €), RTX 4070 12GB (~599 €) y RX 7800 XT 16GB (~682 €) excluidas: todas superan ahora los 500 €.

GPU	VRAM	Precio (julio 2026)	Llama 3.3 8B Q4 tok/s	Qwen3 14B Q8 tok/s	Modelo máximo (Q4)
RTX 4060 Ti 16GB	16 GB	~520 €	55 tok/s	22 tok/s	30B (Q4)
RTX 3060 12GB	12 GB	~334 €	36 tok/s	Limitado por VRAM	14B (Q4)
Intel Arc B580 12GB	12 GB	~250 €	31 tok/s	Limitado por VRAM	13B (Q4)

Cómo seleccionamos y probamos estas GPU

Criterios de selección: disponibles para compra nueva o usada por menos de 500 € en julio 2026; compatibles con al menos un runtime de inferencia principal (Ollama, LM Studio, llama.cpp); VRAM ≥ 12 GB (tarjetas de 8 GB excluidas). La RTX 3090 de segunda mano (24 GB), la RTX 4070 12GB y la RX 7800 XT 16GB fueron eliminadas de esta lista tras verificar los precios de julio de 2026: la RTX 3090 de segunda mano cotiza ahora a 950–1.150 € en eBay; la RTX 4070 12GB cuesta ~599 € en Amazon.es; la RX 7800 XT 16GB cuesta ~682 € en Amazon.es — todas superan el umbral de 500 €. Todos los benchmarks son tok/s promediados en 10 ejecuciones a tamaño de lote 1, medidos con Ollama 0.30.x en Ubuntu 22.04 LTS. Precios verificados en PcComponentes, Amazon.es y anuncios vendidos de eBay (julio 2026).

Requisitos de VRAM por tamaño de modelo

Requisitos de VRAM: el modelo 7B necesita ~4–5 GB (Q4) o ~7–8 GB (Q8); el modelo 14B necesita ~8–9 GB (Q4) o ~14–15 GB (Q8); el modelo 30B necesita ~18–20 GB (Q4); el modelo 70B necesita ~40–42 GB (Q4).

Piensa en el VRAM como la RAM para los modelos de IA. El modelo debe caber completamente en VRAM para una inferencia rápida. Si se desborda a la RAM del sistema (llamado "offloading"), la velocidad cae un 80–95%. La cuantización Q4 reduce el tamaño a la mitad respecto a Q8 con un pequeño coste en calidad.

Modelo 7B en Q4: ~4.5 GB VRAM — cualquier GPU de esta lista lo maneja fácilmente
Modelo 7B en Q8: ~7.5 GB VRAM — cabe en todas las GPU aquí
Modelo 13B en Q4: ~8.5 GB VRAM — cabe en todas las GPU de esta lista
Modelo 14B en Q8: ~14 GB VRAM — solo RTX 4060 Ti 16GB y RTX 3090 (usada)
Modelo 30B en Q4: ~18 GB VRAM — requiere 24 GB (RTX 3090 usada, ahora 950 €+)
Modelo 70B en Q4: ~40 GB — requiere dos GPU o descarga a CPU

¿Qué GPU deberías comprar?

Usa esta guía de decisión según tu caso de uso principal. Precios verificados julio 2026:

Mejor opción general por menos de 500 € → RTX 4060 Ti 16GB (~520 €). Ejecuta 14B en Q4 completamente en GPU (Q8 con margen), 16 GB VRAM, cadena de herramientas CUDA y soporte amplio en Windows/Linux.
Tarjeta CUDA más barata que funciona → RTX 3060 12GB (~334 €). Alternativa NVIDIA para modelos 7B–13B con toolchain CUDA completo; ahorra ~186 € si no necesitas margen para 14B a Q8.
Ejecutar 7B–13B con presupuesto ajustado → Intel Arc B580 12GB (~250 €). El mejor valor para inferencia de nivel inicial. 12 GB VRAM limita a 13B Q4.
¿Necesitas capacidad para modelos 30B? → La ventana sub-500 € se cerró a mediados de 2026. La RTX 3090 usada (24 GB) ahora cotiza a 950–1.150 €. Presupuesta 1.000 €+ para una RTX 3090 usada o 999 €+ para una RTX 4080 SUPER (16 GB).
Usuario de Windows, sin complicaciones → RTX 4060 Ti 16GB. NVIDIA CUDA tiene el soporte más amplio en Windows para LLMs, fine-tuning y runtimes multimodales.

Compatibilidad de software por GPU

Las tres GPU ejecutan Ollama y llama.cpp. Las diferencias aparecen en herramientas avanzadas:

GPU	Ollama	LM Studio	vLLM	Text Gen WebUI	Fine-Tuning CUDA
RTX 4060 Ti 16GB	✅	✅	✅	✅	✅
RTX 3060 12GB	✅	✅	✅	✅	✅
Intel Arc B580 12GB	✅ (SYCL)	⚠️ beta	❌	⚠️ parcial	❌

Consumo energético y requisitos del sistema

El consumo de la GPU determina qué fuente de alimentación y chasis necesitas. Ejecutar LLMs mantiene las GPU al 80–100% de utilización de forma continua — a diferencia del gaming, no hay fotogramas inactivos.

RTX 4060 Ti 16GB: 165 W — funciona con fuente de 550 W o más; un conector de 8 pines
RTX 3060 12GB: 170 W — funciona con fuente de 550 W o más; un conector de 8 pines
Intel Arc B580 12GB: 190 W — fuente de 650 W o más; 8 pines estándar

¿Son suficientes 8 GB de VRAM para ejecutar LLMs localmente?

8 GB de VRAM te limitan a modelos 7B en cuantización Q4 — el modelo apenas cabe. No puedes ejecutar modelos 13B en calidad completa, y los modelos 14B se descargarán parcialmente a la RAM del sistema, reduciendo la velocidad un 80–95%. Para un uso local de LLM significativo en 2026, 12 GB es el mínimo práctico; se recomienda 16 GB.

¿Puedo comprar una RTX 3090 de segunda mano por menos de 500 € en 2026?

No — en julio de 2026, las RTX 3090 de segunda mano cotizan a 950–1.150 € en eBay. El precio subió significativamente desde niveles de 2024 a medida que los entusiastas de los LLMs reconocieron el valor de sus 24 GB de VRAM. Ya no es una opción sub-500 €. Si necesitas capacidad para modelos 30B (que requiere 24 GB de VRAM), presupuesta 1.000 €+ para una RTX 3090 de segunda mano o considera una RTX 4080 SUPER (16 GB, ~999 € nueva) para mayor rendimiento en 14B Q8.

¿Funciona AMD para ejecutar LLMs localmente?

Sí, con matices. Ollama en Linux con ROCm funciona bien en tarjetas como la RX 7800 XT. El soporte ROCm en Windows ha mejorado pero aún requiere pasos manuales, y el fine-tuning (LoRA) en hardware AMD no está soportado por la mayoría de herramientas. Nota sobre el precio: la RX 7800 XT 16GB ha subido a ~682 € en julio de 2026, así que ya no encaja en un presupuesto sub-500 € — para ese rango de precio, la RTX 4060 Ti 16GB o la RTX 3060 12GB (ambas NVIDIA/CUDA) son las opciones recomendadas. Para Windows o fine-tuning, quédate con NVIDIA.

¿Qué hay de las GPU Intel Arc para IA?

La Intel Arc B580 12GB es la mejor opción Arc en 2026. Ejecuta Ollama en Windows y Linux a través del backend SYCL, aunque el rendimiento está un 30–40% por debajo de NVIDIA en tok/s brutos. La relación valor-precio es fuerte: 12 GB de VRAM a ~250 € sin problemas de drivers en sistemas modernos. La principal limitación es el software: vLLM, herramientas de fine-tuning y runtimes multimodales aún no soportan bien Arc.

¿Puedo ejecutar un modelo de 70B en una sola GPU por menos de 500 €?

No a plena velocidad. Incluso la RTX 3090 (24 GB) no puede almacenar 70B Q4 (~40 GB) completamente en VRAM. Puedes usar descarga a CPU con llama.cpp para dividir el modelo entre VRAM y RAM del sistema, pero la velocidad cae a 2–5 tok/s — demasiado lento para uso interactivo. Para ejecutar modelos 70B a velocidades utilizables, necesitas dos GPU (2× RTX 3090 con 48 GB en total) o inferencia en la nube.

¿Los nuevos modelos (RTX 5060 Ti) harán obsoletas estas GPU?

La RTX 5060 Ti de NVIDIA ha sido confirmada para 2026 con precios esperados por debajo de la RTX 4060 Ti. La RTX 4060 Ti 16GB sigue siendo el mejor valor verificado hoy (julio de 2026). Si puedes esperar 2–3 meses, monitoriza la disponibilidad de la RTX 5060 Ti — podría entrar en el rango sub-500 € con mejor rendimiento. Si necesitas una GPU ahora, la RTX 4060 Ti 16GB es la compra segura.

Nota sobre hechos de terceros

Este artículo hace referencia a modelos de IA, benchmarks, precios y licencias de terceros. El panorama de la IA cambia rápidamente. Las puntuaciones de benchmark, los términos de licencia, los nombres de modelos y los precios de API pueden cambiar entre el momento en que se escribió y cuando usted lo lee. Antes de tomar decisiones de despliegue o cumplimiento basadas en este artículo, verifique las cifras actuales en la fuente oficial de cada proveedor: tarjetas de modelos de Hugging Face para licencias y benchmarks, sitios web de proveedores para precios de API y EUR-Lex para el texto actualizado del RGPD y la Ley de IA de la UE. Este artículo refleja información públicamente disponible a mayo de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs