Conclusiones clave
- La VRAM es la restricción determinante. Un modelo que no cabe en VRAM falla al cargar o se desborda hacia la RAM del sistema y se vuelve demasiado lento para uso interactivo. Elige el rango cuya VRAM encaje con tu modelo objetivo, luego optimiza la velocidad dentro de ese rango.
- Los precios se dispararon en 2026. Una escasez de memoria empujó los precios de GPU entre 1,5 y 2 veces por encima del precio de lista en todos los mercados — una RTX 5090 cuesta ~$3.949, no su precio de lanzamiento de $1.999. Trata cada precio aquí como un dato de mayo de 2026 y apóyate en el mercado de segunda mano.
- Elección de presupuesto: NVIDIA RTX 3060 12 GB ($150-250 de segunda mano, $350-680 nueva) — ejecuta cualquier modelo de 7B a 15-20 tok/s y la mayoría de los modelos de 13B en Q4. El mejor punto de entrada en términos de valor para LLMs locales en 2026.
- Elección de gama media: NVIDIA RTX 4060 Ti 16 GB (~$424 nueva, $290 de segunda mano) — 16 GB de VRAM resuelve los modelos de 14B con margen de contexto, y es la GPU más cercana a su precio de lista, por lo que la subida la afectó menos.
- Elección de gama alta: NVIDIA RTX 4080 Super 16 GB (~$1.100-1.200) — la tarjeta de 16 GB más rápida, y tras los movimientos de precios de 2026 cuesta aproximadamente lo mismo que la RTX 4070 Ti Super más lenta ($1.179).
- Elección entusiasta: NVIDIA RTX 4090 24 GB / RTX 5090 32 GB — la RTX 4090 ($2.480-2.755) ejecuta modelos de 33B; la RTX 5090 (~$3.949) es la única tarjeta de consumo individual que cabe un modelo de 70B en Q4 sin una configuración de doble GPU.
- AMD es viable pero con más fricción. La RX 6700 XT (12 GB) y la RX 7800 XT (16 GB) ofrecen VRAM competitiva por dólar, pero la configuración de ROCm añade horas de trabajo frente a NVIDIA CUDA.
- El consumo energético escala con el rango. Una RTX 3060 consume 170 W; una RTX 5090 consume 575 W y necesita una fuente de alimentación de 850-1000 W. Incluye la fuente de alimentación en el presupuesto junto con la tarjeta.
Datos rápidos
- Rango de presupuesto ($130-680): RTX 3060 12 GB o RX 6700 XT 12 GB — ejecuta modelos de 7B y la mayoría de los de 13B.
- Rango medio ($420-520): RTX 4060 Ti 16 GB o RX 7800 XT 16 GB — ejecuta modelos de 14B cómodamente.
- Rango alto ($1.100-1.200): RTX 4080 Super 16 GB o RTX 4070 Ti Super 16 GB — inferencia rápida de 14B, trabajo ligero de 22B.
- Rango entusiasta ($2.480+): RTX 4090 24 GB o RTX 5090 32 GB — modelos de 33B, y 70B en Q4 en la 5090.
- Regla general de VRAM en Q4_K_M: aproximadamente 0,6 GB por cada mil millones de parámetros, más 2-4 GB para contexto y herramientas.
- Rango de consumo energético: RTX 3060 170 W, RTX 4060 Ti 165 W, RTX 4070 Ti Super 285 W, RTX 4080 Super 320 W, RTX 4090 450 W, RTX 5090 575 W.
- Realidad de precios en 2026: una escasez de memoria empujó los precios entre 1,5 y 2 veces por encima del precio de lista; el mercado de segunda mano suele ofrecer mejor valor.
Elección del editor: RTX 4080 Super 16 GB
Para compradores que quieren una tarjeta duradera y pueden superar los $1.000, la NVIDIA RTX 4080 Super 16 GB es la elección que equilibra VRAM, velocidad y precio. Sus 16 GB de VRAM resuelven cualquier modelo de 14B con margen de contexto, es la tarjeta de 16 GB más rápida aquí a aproximadamente 120 tok/s, y a ~$1.100-1.200 cuesta aproximadamente lo mismo que la RTX 4070 Ti Super más lenta ($1.179) tras los movimientos de precios de 2026 — convirtiéndola en el claro valor del rango alto. Si tu presupuesto está fijo por debajo de $600, la RTX 4060 Ti 16 GB es la elección de valor — fue la menos afectada por la subida de 2026. Gasta más solo si específicamente necesitas modelos de 33B o 70B.
📌Note: Esta elección del editor refleja únicamente la relación precio-capacidad. PromptQuorum no está inscrito en ningún programa de afiliados y los enlaces de abajo no llevan etiquetas de afiliado — son simples enlaces de referencia que no generan comisión.
Cómo se comparan las ocho GPUs para LLMs locales en 2026
Las cifras de VRAM y consumo energético son especificaciones del fabricante. Las velocidades de inferencia para la RTX 3060, RTX 4080 Super, RTX 4090 y RTX 5090 son valores medidos de 7B Q4 de las pruebas de hardware de PromptQuorum; las cifras para la RTX 4060 Ti 16 GB, RX 7800 XT y RTX 4070 Ti Super son estimaciones a nivel de familia. Los precios son un dato de mayo de 2026 en EE. UU. — la escasez de memoria de 2026 los empujó entre 1,5 y 2 veces por encima del precio de lista, así que verifica antes de comprar.
📍 En una frase
Para LLMs locales, la VRAM de una GPU decide qué modelos puedes ejecutar y sus tokens por segundo deciden qué tan rápido responden — compra por lo primero, luego optimiza lo segundo.
💬 En términos simples
Piensa en la VRAM como el tamaño de un escritorio y en el modelo como lo que pones encima. Una GPU más rápida despeja el escritorio más rápido, pero si el modelo no cabe en el escritorio en absoluto, la velocidad nunca entra en juego. Primero elige el rango cuyo escritorio sea suficientemente grande.
| GPU | VRAM | Velocidad (7B Q4) | Consumo | Precio (mayo 2026) | Ideal para |
|---|---|---|---|---|---|
| RTX 3060 12 GB | 12 GB | 15-20 tok/s | 170 W | $350-680 nueva / $150-250 de segunda mano | Entrada de presupuesto — cualquier modelo de 7B |
| RX 6700 XT | 12 GB | 10-14 tok/s | 230 W | $130-200 de segunda mano (descontinuada nueva) | VRAM más barata, acepta configuración AMD |
| RTX 4060 Ti 16 GB | 16 GB | ~20-25 tok/s | 165 W | $424 nueva / $290 de segunda mano | Rango medio — modelos de 14B, bajo consumo |
| RX 7800 XT | 16 GB | ~18-24 tok/s (est.) | 263 W | ~$480-520 nueva | 16 GB en AMD, acepta configuración ROCm |
| RTX 4070 Ti Super | 16 GB | ~80-90 tok/s (est.) | 285 W | $1.179 nueva / $770 de segunda mano | Rápida en 14B, menor consumo energético |
| RTX 4080 Super | 16 GB | ~120 tok/s | 320 W | ~$1.100-1.200 nueva / ~$900 de segunda mano | Elección del editor — la 16 GB más rápida |
| RTX 4090 | 24 GB | ~150 tok/s | 450 W | $2.755 nueva / $2.480 de segunda mano | Modelos de 33B, doble GPU para 70B |
| RTX 5090 | 32 GB | ~160 tok/s | 575 W | $3.949 nueva / $3.999 de segunda mano | GPU única para 70B en Q4 |
¿Qué GPU deberías comprar?
Tu modelo objetivo más grande decide tu rango; tu presupuesto decide entre NVIDIA y AMD dentro de ese rango. Encuentra la fila que se corresponde con tu situación.
| Tu situación | Compra esto |
|---|---|
| Tengo menos de $400 y quiero ejecutar modelos de 7B | RTX 3060 12 GB (de segunda mano) |
| Quiero la tarjeta más barata que ejecute LLMs y acepto el trabajo de configuración | RX 6700 XT (de segunda mano) |
| Quiero ejecutar modelos de 14B con un presupuesto de energía ajustado | RTX 4060 Ti 16 GB |
| Quiero una tarjeta que ejecute 14B rápido y dure varios años | RTX 4070 Ti Super 16 GB |
| Quiero la tarjeta de 16 GB más rápida y el precio es secundario | RTX 4080 Super 16 GB |
| Necesito modelos de 33B o planeé una futura configuración de doble GPU con 70B | RTX 4090 24 GB |
| Necesito una sola tarjeta que ejecute modelos de 70B en Q4 | RTX 5090 32 GB |
| No estoy seguro y quiero la primera GPU más segura | RTX 3060 12 GB — actualiza más adelante si la superas |
Rango de presupuesto ($130-680): RTX 3060 12 GB y RX 6700 XT
El rango de presupuesto ejecuta cualquier modelo de 7B y la mayoría de los de 13B — y para la mayoría de los usuarios principiantes en LLMs locales, eso es toda la capacidad que necesitan. La RTX 3060 12 GB es la elección recomendada; la RX 6700 XT es la alternativa más barata si aceptas la fricción de configuración de AMD. El mercado de segunda mano importa más en este rango — los precios de nuevos han subido notablemente con la subida de 2026.
- RTX 3060 12 GB ($150-250 de segunda mano, $350-680 nueva): 12 GB de VRAM, 170 W, 15-20 tok/s en modelos de 7B en Q4. Ejecuta Mistral 7B, Qwen3 8B, DeepSeek-R1 7B y la mayoría de los modelos de 13B. La variante de 12 GB es la que hay que comprar — evita la variante de 6 GB, que se limita a modelos de 3B. Compra de segunda mano — el stock nuevo está descontinuado y tiene precio inflado.
- RX 6700 XT ($130-200 de segunda mano, descontinuada nueva): 12 GB de VRAM, 230 W, 10-14 tok/s en modelos de 7B. La forma más barata de entrar a los LLMs locales, pero más lenta que la RTX 3060 y dependiente de AMD ROCm, lo que añade tiempo de configuración.
- Por qué comprar en este rango: costo de entrada más bajo, bajo consumo energético en la RTX 3060, y suficiente VRAM para los modelos de 7B-13B que cubren chat general, asistencia de código y resumen.
- Por qué saltarse este rango: si ya sabes que quieres modelos de 14B o más grandes, el rango de presupuesto te frustrará en pocas semanas — empieza en el rango medio en su lugar.
💡Tip: Compra la RTX 3060 específicamente en su versión de 12 GB. La RTX 3060 de 6 GB se ve similar en los listados pero solo cabe modelos de 3B — la mitad del recuento de parámetros es la diferencia entre un asistente funcional y un juguete.
⚠️Warning: La RX 6700 XT es la tarjeta más barata aquí, pero presupuesta 3-5 horas para la configuración de ROCm en Linux. Si tu tiempo vale más que los $30-80 que ahorras frente a una RTX 3060 de segunda mano, compra la tarjeta NVIDIA.
Rango medio ($420-520): RTX 4060 Ti 16 GB y RX 7800 XT
El rango medio existe por una razón: 16 GB de VRAM resuelve los modelos de 14B que las tarjetas de 12 GB no pueden alojar con contexto utilizable. Si los modelos de clase 14B son tu objetivo, este es el rango más barato que los ejecuta correctamente — y la RTX 4060 Ti 16 GB destaca por mantenerse cerca de su precio de lista durante la subida de 2026.
- RTX 4060 Ti 16 GB ($424 nueva / $290 de segunda mano): 16 GB de VRAM, 165 W, aproximadamente 20-25 tok/s en modelos de 7B. Usa el mismo die de GPU que la RTX 4060 Ti de 8 GB, así que la velocidad por token es similar — la versión de 16 GB compra capacidad, no velocidad bruta. Sus 165 W de consumo son el más bajo de esta guía en relación a la capacidad, y es la GPU menos inflada por la subida.
- RX 7800 XT (~$480-520 nueva): 16 GB de VRAM, 263 W. No se midió individualmente para esta guía; espera velocidad en el rango de la RTX 4060 Ti, con la configuración de AMD ROCm como contrapartida.
- Por qué comprar en este rango: quieres modelos de 14B, quieres bajo consumo energético (RTX 4060 Ti) o quieres 16 GB al precio más bajo posible.
- Por qué saltarse este rango: si con los modelos de 7B es suficiente, el rango de presupuesto ahorra $200; si quieres inferencia rápida de 14B, el rango alto es significativamente más rápido.
📌Note: La RTX 4060 Ti 16 GB es una actualización de capacidad, no de velocidad, sobre la versión de 8 GB. Cómprala porque necesitas alojar modelos de 14B, no porque esperes más tokens por segundo.
Rango alto ($1.100-1.200): RTX 4080 Super y RTX 4070 Ti Super
El rango alto mantiene 16 GB de VRAM pero añade la velocidad que hace que los modelos de 7B-14B se sientan instantáneos y los de 22B sean utilizables. Ambas tarjetas alojan los mismos modelos que el rango medio — estás pagando por tokens por segundo, no por capacidad. La subida de 2026 amplió notablemente la brecha entre este rango y el medio.
- RTX 4080 Super 16 GB (~$1.100-1.200): 16 GB de VRAM, 320 W, aproximadamente 120 tok/s en modelos de 7B. La elección del editor — la tarjeta de 16 GB más rápida, y tras los movimientos de precios de 2026 cuesta aproximadamente lo mismo que la RTX 4070 Ti Super más lenta.
- RTX 4070 Ti Super 16 GB ($1.179 nueva / $770 de segunda mano): 16 GB de VRAM, 285 W. Ligeramente más lenta que la RTX 4080 Super a un precio nuevo casi idéntico — elígela por su menor consumo de 285 W, o cómprala de segunda mano a ~$770 para la tarjeta rápida de 16 GB más barata.
- Por qué comprar en este rango: ejecutas modelos de 14B constantemente y los quieres instantáneos, o haces trabajo ligero de 22B y quieres margen.
- Por qué saltarse este rango: si necesitas modelos de 33B o 70B, ninguna tarjeta de 16 GB los alojará — muévete al rango entusiasta en lugar de gastar de más aquí.
💡Tip: Dentro de este rango, elige por defecto la RTX 4080 Super — a un precio nuevo casi idéntico es significativamente más rápida que la RTX 4070 Ti Super. Elige la 4070 Ti Super solo para ahorrar ~35 W de consumo, o cómprala de segunda mano con descuento.
Rango entusiasta ($2.480+): RTX 4090 y RTX 5090
El rango entusiasta es el único que ejecuta modelos por encima de 22B — y la RTX 5090 32 GB es la única tarjeta de consumo individual que aloja un modelo de 70B en Q4. Compra aquí por capacidad de VRAM, no por velocidad; la velocidad es un efecto secundario. La subida de 2026 golpeó este rango con más fuerza, así que los precios cambian semana a semana.
- RTX 4090 24 GB ($2.755 nueva / $2.480 de segunda mano): 24 GB de VRAM, 450 W, aproximadamente 150 tok/s en modelos de 7B y 36 tok/s en un modelo de 70B Q4. Ejecuta modelos de 33B cómodamente. Ten en cuenta que la subida ha empujado los precios de segunda mano de la RTX 4090 cerca de una RTX 5090 nueva.
- RTX 5090 32 GB ($3.949 nueva / $3.999 de segunda mano): 32 GB de VRAM GDDR7, 575 W, aproximadamente 160 tok/s en 7B y 45 tok/s en 70B Q4. Los 32 GB de capacidad son el argumento central — es la única tarjeta de consumo que ejecuta un modelo de 70B en Q4 sin una segunda GPU. Los precios de segunda mano actualmente están por encima del precio nuevo debido a la reventa especulativa.
- Por qué comprar en este rango: necesitas modelos de 33B o 70B, ejecutas inferencia en lotes, o quieres una tarjeta que no necesite reemplazarse en años.
- Por qué saltarse este rango: para modelos de 7B-14B es excesivo — el rango alto ofrece respuestas instantáneas en esos tamaños por menos de la mitad del precio y el consumo energético.
⚠️Warning: La RTX 5090 consume 575 W por sí sola. Combínala con una fuente de alimentación de 850-1000 W — una unidad de 750 W fallará bajo carga. Incluye la actualización de la fuente de alimentación en la compra, no como idea posterior.
📌Note: Antes de la subida de 2026, dos RTX 4090 de segunda mano eran más baratas que una RTX 5090. Eso se ha invertido: a $2.480-2.755 cada una, un par de RTX 4090 ahora cuesta bastante más que una RTX 5090 individual. Para una nueva configuración de 70B, la RTX 5090 individual es ahora tanto más simple como más barata.
¿Cuánta VRAM necesitas?
En cuantización Q4_K_M, un modelo necesita aproximadamente 0,6 GB de VRAM por cada mil millones de parámetros, más 2-4 GB para contexto y sobrecarga de herramientas. Esa fórmula se corresponde directamente con los cuatro rangos.
- Modelos de 7B — 8-9 GB: caben en cualquier rango. Una tarjeta de 12 GB deja margen cómodo.
- Modelos de 13-14B — 11-13 GB: necesitan 16 GB en la práctica una vez contados el contexto y las herramientas. Rango medio y superior.
- Modelos de 22B — 14-16 GB: ajustado en una tarjeta de 16 GB; cómodo desde el rango alto en adelante.
- Modelos de 33B — 19-22 GB: necesitan una tarjeta de 24 GB. Territorio de la RTX 4090.
- Modelos de 70B — 39-42 GB en Q4: necesitan una RTX 5090 32 GB al límite, o una configuración de doble GPU. Una sola tarjeta de 24 GB no puede alojar un modelo de 70B en Q4.
💡Tip: La longitud del contexto es un costo oculto de VRAM — los prompts largos y las ventanas de contexto grandes consumen VRAM además de los pesos del modelo. Deja siempre 2-4 GB de margen. Para el método completo, consulta la guía de requisitos de VRAM enlazada en Lectura relacionada.
Por qué subieron los precios de GPU en 2026
Los precios de GPU subieron marcadamente en 2026 debido a una escasez de memoria, empujando las tarjetas de consumo entre 1,5 y 2 veces por encima de su precio de lista original. Esto cambia el cálculo de compra, así que planifica en torno a ello en lugar de los precios de lanzamiento.
📍 En una frase
Los precios de GPU en 2026 son entre 1,5 y 2 veces superiores al precio de lista debido a una escasez de chips de memoria, por lo que un comprador de LLMs locales debería favorecer el mercado de segunda mano y la tarjeta más pequeña que se adapte al modelo objetivo.
💬 En términos simples
Las tarjetas no mejoraron — la memoria dentro de ellas se volvió escasa y cara. Hasta que eso cambie, trata el precio de lista como un número histórico, compra de segunda mano cuando puedas y no pagues por más VRAM de la que tu modelo realmente necesita.
- La causa es la memoria, no las GPUs. Una escasez de suministro de GDDR y HBM elevó el costo de cada tarjeta con memoria rápida — y las GPUs capaces de LLMs son exactamente las tarjetas de alta VRAM más afectadas.
- La RTX 5090 es el ejemplo más claro: un precio de lanzamiento de $1.999, pero ~$3.949 en las tiendas para mayo de 2026 — casi el doble.
- Las tarjetas de gama baja aguantaron mejor. La RTX 4060 Ti 16 GB se mantiene cerca de su precio de lista de $399; la subida escala con la cantidad de memoria rápida que lleva una tarjeta.
- El mercado de segunda mano es ahora la opción de valor. Una RTX 3060 12 GB o RX 6700 XT de segunda mano evita gran parte de la subida — los precios de segunda mano subieron mucho menos que los nuevos.
- Decisión: si puedes esperar, observa si la escasez se mitiga; si no puedes, compra de segunda mano cuando sea posible y adquiere la tarjeta más pequeña que se adapte a tu modelo objetivo.
Diagrama de decisión: elige tu GPU en cuatro preguntas
Cuatro preguntas, en orden, llevan a la mayoría de los compradores a una tarjeta.
📍 En una frase
Elige una GPU para LLMs locales respondiendo primero al tamaño de modelo más grande, segundo al techo de presupuesto, tercero a NVIDIA frente a AMD, y por último al margen de la fuente de alimentación.
💬 En términos simples
Empieza con el modelo más grande que realmente quieres ejecutar y deja que eso establezca tu rango. Solo entonces mira el precio, la marca y si tu fuente de alimentación puede manejar la tarjeta. Hacerlo en el orden contrario es como la gente gasta de más o compra una tarjeta que no puede ejecutar su modelo.
- 1. ¿Cuál es el modelo más grande que quieres ejecutar? 7B: rango de presupuesto. 14B: rango medio. 22B: rango alto. 33B: RTX 4090. 70B: RTX 5090 o doble GPU.
- 2. ¿Cuál es tu techo de presupuesto absoluto? Por debajo de ~$250 (de segunda mano): RTX 3060 12 GB. Por debajo de $520: RTX 4060 Ti 16 GB. ~$1.100-1.200: RTX 4080 Super o 4070 Ti Super. $2.480+: RTX 4090 o RTX 5090.
- 3. ¿NVIDIA o AMD? Elige NVIDIA a menos que ya tengas hardware AMD o encuentres un descuento considerable en la RX 7800 XT — CUDA elimina horas de configuración de ROCm.
- 4. ¿Tu fuente de alimentación tiene margen? Las tarjetas por encima del rango medio necesitan 285-575 W; confirma tu fuente de alimentación y la refrigeración del chasis antes de comprar hardware de rango entusiasta.
Precios regionales y dónde comprar
Los precios de GPU varían por región — los precios en EE. UU. suelen ser los más bajos, los precios en la UE incluyen IVA, y la subida de 2026 ha afectado a todos los mercados. Los enlaces de abajo son simples enlaces de búsqueda de productos por región; no llevan etiquetas de afiliado y no generan comisión.
- España: Amazon.es y PcComponentes tienen el stock más amplio. Las tarjetas de segunda mano RTX 3060 y RTX 4090 se encuentran en Wallapop y Milanuncios.
- México: Amazon.com.mx y Mercado Libre son las referencias principales; los precios incluyen IVA y pueden variar por tipo de cambio.
- Argentina, Colombia y resto de Latinoamérica: Mercado Libre es el marketplace de referencia en toda la región; verifica siempre los precios actualizados ya que el tipo de cambio afecta significativamente el costo final.
- Comparador de precios: Idealo.es es el estándar para comparar precios de tarjetas nuevas en España — verifica ahí la fuente más barata actualmente.
- Disponibilidad: las tarjetas de gama alta (RTX 4090, RTX 5090) están intermitentemente agotadas en 2026; espera precios fluctuantes y verifica varios distribuidores.
⚠️Warning: Debido a la subida de 2026, cada cifra de precio en esta guía es un dato en rápido cambio de mayo de 2026. Abre siempre el listado actual del minorista antes de comprar — los precios han cambiado semana a semana.
Errores comunes al comprar una GPU para LLMs locales
- Comprar por tokens por segundo en lugar de VRAM. Una tarjeta más rápida que no puede alojar tu modelo es inútil. Confirma primero que el modelo cabe en VRAM con 2-4 GB de margen, luego compara la velocidad dentro de ese rango.
- Comprar la RTX 3060 de 6 GB en lugar de la versión de 12 GB. Comparten nombre pero no caso de uso — la tarjeta de 6 GB tiene un tope de modelos de 3B. Confirma siempre la variante de 12 GB en el listado.
- Asumir que la RTX 4060 Ti 16 GB es más rápida que la versión de 8 GB. No lo es — es el mismo die de GPU con más memoria. Cómprala por la capacidad (modelos de 14B), no por la velocidad.
- Anclarse al precio de lista en lugar del precio actual. La subida de 2026 significa que los precios de lanzamiento ya no reflejan la realidad. Haz el presupuesto con el precio en vivo del minorista, y prioriza el mercado de segunda mano donde escapa a la subida.
- Ignorar los requisitos de la fuente de alimentación. Una RTX 5090 consume 575 W y necesita una fuente de 850-1000 W. Una tarjeta que falla bajo carga es peor que una tarjeta más lenta que funciona establemente.
- Elegir AMD sin presupuestar el tiempo de configuración. La RX 6700 XT y la RX 7800 XT son buena relación calidad-precio, pero la configuración de ROCm cuesta horas. Pondera ese tiempo frente al dinero ahorrado frente a una tarjeta NVIDIA.
- Comprar en exceso para modelos de 7B. Si los modelos de 7B cubren tu caso de uso, una RTX 4090 es dinero y energía desperdiciados. Adapta el rango al modelo, no al presupuesto que por casualidad tienes.
Fuentes
- Especificaciones NVIDIA GeForce RTX Serie 40 — Cifras oficiales de capacidad de VRAM y consumo (TGP) para la RTX 4060 Ti, 4070 Ti Super, 4080 Super y 4090.
- Especificaciones NVIDIA GeForce RTX 5090 — Cifras oficiales de 32 GB de VRAM GDDR7 y 575 W de consumo para la RTX 5090.
- Best Value GPU — Rastreadores de precios RTX 5090 / 4090 / 4080 Super — Historial de precios nuevos y de segunda mano en EE. UU. usado para el dato de precios de mayo de 2026.
- Especificaciones AMD Radeon — Cifras oficiales de VRAM y consumo para la RX 7800 XT y RX 6700 XT.
- Mejores GPUs para LLMs locales 2026 — Pruebas de hardware de PromptQuorum: velocidades de inferencia medidas de 7B Q4 para la RTX 3060, 4080, 4090 y 5090.
FAQ
¿Cuál es la GPU más barata que puede ejecutar LLMs locales bien?
Una NVIDIA RTX 3060 12 GB de segunda mano a $150-250 es la GPU más barata que ejecuta LLMs locales bien. Sus 12 GB de VRAM aloja cualquier modelo de 7B y la mayoría de los de 13B en cuantización Q4, a 15-20 tokens por segundo. La RX 6700 XT más barata también funciona, pero es más lenta y requiere configuración de AMD ROCm. Compra de segunda mano — los precios nuevos casi se duplicaron con la subida de 2026.
¿Por qué los precios de GPU son tan altos en 2026?
Una escasez de chips de memoria impulsó la subida de precios de GPU de 2026. El suministro de GDDR y HBM se ajustó, elevando el costo de cada tarjeta gráfica con memoria rápida, y las tarjetas de alta VRAM capaces de LLMs fueron las más afectadas. Para mayo de 2026, la mayoría de las tarjetas se venden entre 1,5 y 2 veces por encima de su precio de lista original — una RTX 5090 se lanzó a $1.999 pero se vende cerca de $3.950. El mercado de segunda mano evitó la mayor parte del aumento.
¿Cuánta VRAM necesito para LLMs locales?
En cuantización Q4_K_M, planifica aproximadamente 0,6 GB de VRAM por cada mil millones de parámetros más 2-4 GB de sobrecarga. Eso significa 8-9 GB para modelos de 7B, 11-13 GB para 14B, 19-22 GB para 33B, y 39-42 GB para 70B. Una tarjeta de 12 GB cubre 7B cómodamente; el 70B necesita una RTX 5090 32 GB o una configuración de doble GPU.
¿La RTX 4060 Ti 16 GB es más rápida que la versión de 8 GB?
No. La RTX 4060 Ti de 16 GB y 8 GB usa el mismo die de GPU, así que la velocidad de inferencia por token es similar — aproximadamente 20-25 tokens por segundo en modelos de 7B. La versión de 16 GB compra capacidad, permitiéndote ejecutar modelos de 14B que no caben en 8 GB. Cómprala por VRAM, no por velocidad.
¿Debo comprar NVIDIA o AMD para LLMs locales?
Compra NVIDIA a menos que ya tengas hardware AMD o encuentres un descuento considerable. NVIDIA CUDA funciona de forma inmediata con Ollama, LM Studio y llama.cpp. Las tarjetas AMD como la RX 6700 XT y RX 7800 XT ofrecen VRAM competitiva por dólar, pero la configuración de ROCm suele costar varias horas en Linux.
¿Puede una sola GPU ejecutar un modelo de 70B?
Solo la RTX 5090 32 GB, y solo en cuantización Q4 donde un modelo de 70B necesita aproximadamente 39-42 GB — lo que implica cuantización agresiva o descarga parcial. Una RTX 4090 de 24 GB no puede alojar un modelo de 70B en Q4 por sí sola; la solución habitual es dos RTX 4090 para VRAM combinada, aunque la subida de precios de 2026 ha hecho ese par más caro que una sola RTX 5090.
¿Vale la pena la RTX 5090 frente a la RTX 4090 para LLMs locales?
Solo si específicamente necesitas ejecutar modelos de 70B en una sola tarjeta. La RTX 5090 tiene 32 GB de VRAM frente a los 24 GB de la RTX 4090, que es el factor decisivo. Para modelos de 7B-33B, la RTX 4090 aloja los mismos modelos; tras la subida de 2026 ambas tienen precios cercanos, así que los 8 GB extra y la velocidad ligeramente mayor de la 5090 la convierten en la mejor compra nueva si el presupuesto lo permite.
¿Qué fuente de alimentación necesito para estas GPUs?
Adapta la fuente de alimentación al rango: una unidad de 550 W es adecuada para la RTX 3060, 650-750 W para la RTX 4060 Ti y 4070 Ti Super, 850 W para la RTX 4090, y se necesitan 850-1000 W para la RTX 5090, que consume 575 W por sí sola. Las fuentes de alimentación sobredimensionadas hacia abajo provocan inestabilidad bajo carga.