Question 1

¿Cuánta VRAM necesitas para un LLM local?

Accepted Answer

4 GB de VRAM soporta Phi-4 Mini y Gemma 2B cómodamente con margen para expansión de contexto. 6 GB ejecuta Llama 3 8B en Q4. 12 GB aloja Qwen 14B Q4 eficientemente. Los modelos 70B en Q4 requieren 16+ GB.

Question 2

¿Qué es la cuantización Q4_K_M?

Accepted Answer

Q4_K_M significa cuantización de 4 bits con compresión k-quant (K) a calidad media (M). Es la mejor opción por defecto para la mayoría de modelos: mejor calidad que Q4_0, menor tamaño que Q8_0.

Question 3

Q4_K_M vs Q8_0: ¿cuál elegir?

Accepted Answer

Usa Q4_K_M con 8 GB de VRAM o menos. Usa Q8_0 con 12+ GB. Q4_K_M ofrece el 95% de la calidad de Q8_0 aproximadamente a la mitad del tamaño de archivo.

Question 4

¿Mejores modelos Ollama para RTX 3060 12 GB?

Accepted Answer

Con 12 GB de VRAM, el mejor modelo de uso general es Llama 3 8B en Q5_K_M, entregando 20–30 tokens por segundo con calidad equilibrada. Para programación, usa Qwen 3 Coder 14B en Q4_K_M. Ambos funcionan a 20–30 tok/s.

Question 5

¿Mejores modelos Ollama para 4 GB de VRAM?

Accepted Answer

4 GB de VRAM es ajustado pero utilizable con modelos pequeños como Phi-4 Mini Q4 (~3,2 GB), Gemma 2 2B (~1,5 GB) y SmolLM 1.7B (~1,0 GB). Llama 3 8B no cabe.

Question 6

¿Cuánta RAM necesita un modelo 7B?

Accepted Answer

Un modelo 7B en cuantización Q4 necesita 5–6 GB de VRAM o RAM para un rendimiento de inferencia eficiente. Regla: parámetros del modelo en miles de millones × 0,7 = GB aproximados en Q4. GPU ofrece ~25 tok/s; CPU ofrece ~5 tok/s con la misma memoria.

Question 7

¿Cuánta VRAM necesita un modelo 70B?

Accepted Answer

Un modelo 70B en Q4_K_M necesita aproximadamente 40 GB de VRAM. Opciones de consumo: dos RTX 3090 (48 GB en total), M5 Max con 128 GB de memoria unificada, o alquiler de GPU en la nube.

Question 8

¿Mejor LLM local para 6 GB de VRAM?

Accepted Answer

Con 6 GB de VRAM, Llama 3 8B Q4_K_M es la mejor opción con ~5,5 GB, con excelentes capacidades de chat y programación a ~20 tok/s. Phi-4 Q4_K_M y Mistral Small Q4_K_S son alternativas sólidas.

Question 9

¿Cuál es la versión más reciente de Ollama?

Accepted Answer

Comprueba ollama.com o la página de lanzamientos de GitHub de Ollama para la versión actual. En Linux, ejecuta el script de instalación para actualizar. En Mac/Windows, descarga el instalador más reciente.

Question 10

¿Los mejores modelos de Ollama ahora mismo?

Accepted Answer

A mayo de 2026, el mejor modelo general de Ollama es Llama 3 8B. Para código, Qwen 3 Coder 14B lidera. Para uso compacto, Phi-4 Mini es excelente. Esta página se actualiza mensualmente.

Question 11

¿Los mejores modelos de Ollama solo para CPU?

Accepted Answer

Sin GPU, Phi-4 Mini en Q4 ofrece el mejor equilibrio entre calidad y velocidad en CPU. Llama 3 8B Q4 funciona con 8 GB de RAM o más. Gemma 2B es la opción CPU más rápida.

Question 12

¿Se puede ejecutar Qwen 3 en Ollama?

Accepted Answer

Sí — Ollama admite todos los tamaños de modelos Qwen 3 desde 0.6B hasta 72B. Ejecuta cualquier tamaño con ollama run qwen3:8b. El modelo 8B necesita ~6 GB de VRAM en Q4.

Question 13

¿Qué modelos de Ollama son compatibles con visión?

Accepted Answer

Ollama admite varios modelos de visión: LLaVA, Gemma 3 multimodal y Qwen-VL. Ejecuta ollama run llava para empezar fácilmente. Todos aceptan imágenes a través de la API de Ollama.

Question 14

¿Qué modelos de Ollama admiten contexto de 128K?

Accepted Answer

Llama 3.3 8B admite contexto de 128K en Ollama. Qwen 3 14B alcanza 1M de tokens. Nota: ejecutar el contexto completo aumenta drásticamente la VRAM — una ventana de 128K necesita entre 3 y 4 veces más VRAM que la ventana predeterminada de 4K.

Question 15

Qwen Coder vs DeepSeek Coder: ¿Cuál es mejor?

Accepted Answer

Qwen 3 Coder gana en Python y TypeScript. DeepSeek Coder V2 tiene soporte más amplio de lenguajes. Ambos necesitan ~10 GB VRAM en 14B Q4. Para la mayoría de desarrolladores, Qwen 3 Coder es la mejor opción por defecto.

Question 16

¿Ollama vs LM Studio: cuál deberías elegir?

Accepted Answer

Si usas terminal y desarrollas con APIs, elige Ollama. Si prefieres una GUI y solo quieres chatear con modelos, usa LM Studio. Ambos son gratuitos y ejecutan modelos localmente.

Question 17

¿Jan vs LM Studio: cuál es mejor?

Accepted Answer

Jan es completamente código abierto con un sistema de extensiones. LM Studio tiene una interfaz más pulida y una librería de modelos integrada más grande. Para usuarios avanzados que quieren personalización, elige Jan. Para facilidad de uso, elige LM Studio.

Question 18

¿Las mejores apps de LLM local para Android?

Accepted Answer

Las mejores apps Android para ejecutar LLMs localmente son MLC Chat para configuración fácil con modelos preoptimizados, Pocketpal para carga flexible de GGUF, y Termux con Ollama para control total. Todas funcionan completamente sin conexión.

Question 19

¿Mejor frontend para Ollama?

Accepted Answer

Open WebUI es el mejor frontend para Ollama para la mayoría de usuarios, ofreciendo acceso gratuito a una interfaz rica en características con despliegue Docker y soporte RAG. Es gratuito, rico en características y se ejecuta como un contenedor Docker. SillyTavern es mejor para juego de rol. Jan agrega un gestor de modelos local.

Question 20

¿Qwen 14B vs Llama 3 8B: cuál funciona mejor en local?

Accepted Answer

Llama 3 8B cabe en 6 GB de VRAM y es más rápido. Qwen 3 14B necesita 10 GB o más, pero obtiene mejores resultados en benchmarks. Con 12 GB de VRAM, Qwen 14B gana en calidad.

Question 21

¿Cuál es el mejor modelo 14B para coding?

Accepted Answer

Qwen 3 Coder 14B es el mejor modelo de coding 14B para uso local, con 78.4% en HumanEval y 10 GB de VRAM en cuantización Q4_K_M. DeepSeek Coder 14B es una alternativa sólida con requisitos de VRAM similares.

Question 22

¿Cuál es el mejor mini PC para LLM local?

Accepted Answer

Tres mini PCs destacan para inferencia local de LLMs: Mac Mini M4 entrega ~18 tok/s con memoria unificada y sin cuello de botella de VRAM, Minisforum UM790 Pro escala a 64 GB DDR5 para modelos más grandes, y Beelink SER8 ofrece buena relación calidad-precio con ~8 tok/s y Ryzen 9 8845HS. Los tres ejecutan modelos Q4 de 7–13B sin GPU dedicada.

Question 23

¿Cuáles son los mejores modelos MoE para coding local?

Accepted Answer

Mixtral 8x22B y DeepSeek V2 son los mejores modelos MoE de coding para uso local, activando solo una fracción de los parámetros totales por token para ofrecer mejor calidad por VRAM que los modelos densos. Ambos necesitan al menos 16 GB de VRAM en Q4, con Mixtral en ~26 GB y DeepSeek V2 en ~16 GB.

Question 24

¿Mejor LLM local para programar con 12 GB de VRAM?

Accepted Answer

Qwen 3 Coder 14B Q4_K_M es el mejor modelo de programación para GPUs con 12 GB de VRAM como la RTX 3060. Usa ~10 GB de VRAM y obtiene la puntuación HumanEval más alta entre los modelos que caben en esta restricción. DeepSeek Coder 14B es una alternativa sólida.

Question 25

¿Mejor LLM para AMD 5700X + RTX 3070 Ti?

Accepted Answer

Con una RTX 3070 Ti (8 GB VRAM), Llama 3 8B Q4_K_M y Mistral Small Q5_K_M son los mejores LLMs locales. Ambos usan ~6 GB VRAM y corren a ~22–25 tok/s. El AMD Ryzen 7 5700X gestiona la tokenización rápida como fallback de CPU.

Question 26

¿Puedes ejecutar LLMs locales en una Radeon RX 6800M?

Accepted Answer

Sí. La Radeon RX 6800M tiene 12 GB de GDDR6 VRAM y puede ejecutar LLMs locales. En Linux, usa ROCm para aceleración GPU. En Windows, usa llama.cpp con Vulkan o CPU como respaldo. Llama 3 8B Q4_K_M corre a ~12 tok/s en Linux con ROCm.

Question 27

¿Puedes ejecutar RAG con 2 GB de RAM?

Accepted Answer

Sí — pero solo para conjuntos pequeños de documentos personales con Llama 3.2 1B (~750 MB), embeddings MiniLM-L6-v2 (~80 MB) y un vector store en memoria que suman ~1.3–1.5 GB en un dispositivo de 2 GB. Los modelos más grandes (7B+) y conjuntos de documentos más grandes (200+ páginas) necesitan 8 GB como mínimo.

Question 28

¿Qué LLM local es mejor para un laptop con 16 GB de RAM?

Accepted Answer

Para un laptop con 16 GB de RAM sin GPU dedicada, Qwen3 8B (Q4_K_M) es el mejor todoterreno: usa ~6 GB y corre a ~8–15 tok/s en un CPU moderno. Gemma 3 12B es el modelo más potente que aún cabe (más ajustado y lento); Phi-4-mini (~3.5 GB) es lo mejor para equipos más débiles; Llama 3.1 8B es una alternativa equilibrada, y Qwen3-Coder es la opción para programación. Los laptops Apple Silicon (serie M) son 3–4× más rápidos gracias a la Unified Memory. Con 32 GB de RAM puedes pasar a modelos 14B.

Question 29

¿Qué es el framework CO-STAR?

Accepted Answer

CO-STAR es una estructura de prompt de 6 partes para outputs consistentes de LLM: Context (contexto), Objective (objetivo), Style (estilo de escritura), Tone (tono emocional), Audience (audiencia), Response (formato de respuesta). Ayuda a producir outputs dirigidos y coherentes haciendo cada restricción explícita.

Question 30

¿Cuál es el mejor LLM ahora mismo?

Accepted Answer

Para tareas de programación en cloud, Claude Opus 4.8 logra 87.6% en SWE-Bench, mientras GPT-5.5 Instant lidera chat general con 52.5% menos alucinaciones. Cloud: Claude Opus 4.8 para código y documentos largos, GPT-5.5 Instant para chat general, Gemini 2.5 Pro para tareas multimodales. Local: Llama 4 Scout si tienes 24 GB VRAM; Qwen 3 14B para 12 GB VRAM.

Question 31

¿Es Qwen compatible con el RGPD?

Accepted Answer

Qwen ejecutado localmente en tu propio hardware es compatible con el RGPD, porque ningún dato de prompt abandona tu infraestructura y no ocurre ninguna transferencia a terceros países según el Artículo 44. La API de Qwen a través de Alibaba Cloud es diferente: requiere Cláusulas Contractuales Tipo y una Evaluación de Impacto de Transferencia, como cualquier proveedor cloud no europeo.

Question 32

¿Es seguro usar DeepSeek bajo el RGPD?

Accepted Answer

La API de DeepSeek presenta el mayor riesgo para el RGPD entre los principales LLMs, porque los servidores están sujetos a la ley china de acceso a datos (PIPL), no existe una decisión de adecuación de la UE para China, y los Términos de Servicio se reservan explícitamente el derecho a compartir datos con las autoridades chinas. Los modelos de código abierto de DeepSeek ejecutados localmente tienen un perfil de riesgo diferente y más bajo.

Question 33

¿Puede un LLM local ayudar con el cumplimiento del RGPD?

Accepted Answer

Sí — ejecutar un modelo de código abierto localmente elimina la transferencia de datos a terceros países del Artículo 44 que hace legalmente complejo el uso de IA en la nube bajo el RGPD, lo que significa que tus prompts y respuestas nunca salen de tu servidor. Modelos locales como Qwen 3 14B o Llama 4 Scout pueden manejar textos de RRHH, legal y médico completamente en las instalaciones.

Question 34

¿Cuál es la mejor GPU por menos de $300 para ejecutar LLMs locales?

Accepted Answer

La RTX 3060 12 GB usada a ~200–250 € (España) es la mejor GPU por menos de $300 para LLMs locales — 12 GB de VRAM ejecuta todos los modelos 7B y la mayoría de los 14B.

Question 35

¿Cuál es la mejor GPU por menos de $600 para LLMs locales?

Accepted Answer

RTX 4060 Ti 16 GB a ~$424 es el punto óptimo — 16 GB de VRAM maneja modelos 14B con cuantización Q5 con margen de sobra.

Question 36

¿Qué SSD ofrece la carga más rápida de modelos LLM local?

Accepted Answer

Samsung 990 Pro 2 TB a 7.450 MB/s carga un modelo 7B Q4 en menos de 2 segundos. La mejor relación precio-velocidad para almacenamiento de modelos de IA.

Question 37

¿Es el Mac Mini M4 bueno para ejecutar LLMs locales?

Accepted Answer

Sí — el Mac Mini M4 Pro con 24 GB de memoria unificada ejecuta Llama 3 8B a ~36 tok/s vía MLX. La mejor opción Apple en relación calidad-precio a $1,599.

Question 38

RunPod vs Vast.ai — ¿cuál es más barato para alquilar GPUs en la nube?

Accepted Answer

Vast.ai es más barato para instancias spot (RTX 4090 a ~$0.30-0.55/hr vs RunPod ~$0.69/hr). RunPod es más fiable con disponibilidad garantizada.

Question 39

¿Cuánto cuesta un GPU en la nube por hora en 2026?

Accepted Answer

RTX 4090: $0.15-0.44/h. A100 80 GB: $1.10-2.00/h. H100: $2.50-4.00/h. Más barato para inferencia: Vast.ai spot.

Question 40

¿Qué VPN debo usar para descargar modelos de IA grandes?

Accepted Answer

ProtonVPN (Suiza, plan gratuito) para privacidad auditada. Mullvad (5 €/mes fijo) para máximo anonimato. NordVPN para más de 9.300 servidores RAM-only en 110+ países. Surfshark (~1,90 €/mes) para el precio más bajo. ExpressVPN para las descargas más rápidas de archivos de modelos grandes.

Question 41

¿MLX vs Ollama vs llama.cpp: cuál motor de inferencia deberías usar?

Accepted Answer

En Apple Silicon, usa MLX — ejecuta ~65 tok/s versus ~35 tok/s para Ollama en un M5 Pro con un modelo 8B. En GPUs NVIDIA, usa Ollama por simplicidad o llama.cpp por control máximo. Ollama usa llama.cpp bajo el capó y agrega una capa API encima.

Question 42

¿Cómo conviertes un modelo de Ollama a formato MLX?

Accepted Answer

No puedes convertir directamente modelos de Ollama a MLX. En su lugar, descarga los pesos GGUF o SafeTensors originales de Hugging Face, luego convierte con mlx-lm convert. Para la mayoría de modelos populares (Llama 3, Qwen, Mistral), versiones MLX preconvertidas ya existen en Hugging Face bajo la organización mlx-community.

Question 43

¿Ollama soporta MLX en Apple Silicon?

Accepted Answer

No. Ollama usa llama.cpp con aceleración GPU Metal en Apple Silicon — no MLX. La aceleración Metal es rápida pero no tan optimizada como MLX nativo. Para inferencia a velocidad MLX, usa mlx-lm directamente o LM Studio, que soporta ambos backends.

Question 44

¿Cuál es el mejor nivel de cuantización para 6 GB de VRAM?

Accepted Answer

Q4_K_M es el punto óptimo — los modelos 7B/8B en Q4_K_M usan 4,7–4,9 GB, dejando 1,1 GB para la caché KV. Q5_K_M cabe pero requiere limitar el contexto a 2k tokens. Evita Q6_K y superiores en tarjetas de 6 GB.

Question 45

Mistral Small 24B vs Qwen 3 14B vs Llama 3.3 8B: ¿cuál debo ejecutar en local?

Accepted Answer

Elige según el VRAM: Llama 3.3 8B (4.9 GB), Qwen 3 14B (9.3 GB), Mistral Small 3.1 24B (14.4 GB). Qwen 14B gana con 12 GB de VRAM. Mistral Small 24B gana por encima de 16 GB en tareas de razonamiento.

Question 46

¿Funciona Strix Halo (Ryzen AI Max) con Ollama vía Vulkan?

Accepted Answer

Sí — Ryzen AI Max (Strix Halo, RDNA 3.5) ejecuta Ollama vía Vulkan en Linux. Con 96 GB de memoria unificada en el MAX 395, cabe Qwen 32B e incluso Llama 70B Q4_K_M — modelos que ninguna GPU de escritorio individual puede cargar.

Question 47

¿Cuál es el mejor modelo Qwen para programar?

Accepted Answer

Qwen3-Coder 32B es el mejor con 24 GB VRAM (HumanEval 91.5%). A 8 GB VRAM el 7B alcanza 79.7%. El 14B es el punto óptimo a 12 GB VRAM.

Question 48

¿Se puede ejecutar DeepSeek V3 en local?

Accepted Answer

No. DeepSeek V3 (671B MoE) necesita ~400 GB RAM en Q4_K_M — muy por encima de cualquier hardware de consumo. Alternativa práctica: DS-R1-Distill-Qwen-32B (20.5 GB VRAM, 94% MATH-500).

Question 49

¿Es mejor hacer prompts a LLMs locales en chino o en inglés?

Accepted Answer

Instrucciones en inglés + directiva "responde en chino" es la mejor configuración en todos los modelos. Los prompts en chino ahorran 30–50% de tokens en Qwen3. Los prompts en inglés producen mejores cadenas de razonamiento.

Question 50

¿Cuál es el mejor modelo para roleplay en chino en SillyTavern?

Accepted Answer

Qwen3-72B Q4_K_M es el mejor modelo local para roleplay en chino — entrenamiento nativo en chino, vocabulario rico y 128K de contexto. Yi-34B destaca en profundidad emocional de los personajes. Con 8 GB VRAM, Qwen3-7B funciona a 8–12 tok/s.

Question 51

¿Qué VPN funciona mejor para herramientas de desarrollo IA desde China en 2026?

Accepted Answer

NordVPN (servidores ofuscados) y ExpressVPN (protocolo Lightway) son los más fiables para HuggingFace, GitHub y Docker Hub. Surfshark como alternativa económica. Mullvad falla con frecuencia en el bypass del GFW.

Question 52

¿Cuáles son las mejores apps de LLM local para Android en Japón?

Accepted Answer

MLC Chat, PocketPal AI y Ollama vía Termux son las mejores opciones para usuarios de Android en Japón. Modelos japoneses como Rinna 3.6B y ELYZA-7B se ejecutan completamente en local y están disponibles en el Play Store japonés.

Question 53

¿Qué modelos LLM locales admiten mejor el japonés?

Accepted Answer

El mejor LLM local en japonés depende de tu tarea. Para conversación: Rinna 3.6B (funciona con 4 GB RAM). Para seguimiento de instrucciones: ELYZA-7B. Para programación con japonés: Qwen3-Coder. Todos corren vía Ollama.

Question 54

¿Puedes ejecutar un LLM local en un teléfono Xperia?

Accepted Answer

Sí — el Xperia 1 VI (12 GB RAM, Snapdragon 8 Gen 3) ejecuta Rinna 3.6B y Phi-4 Q4 a través de MLC Chat. El Xperia 5 V (8 GB) maneja modelos ligeros. El Xperia 10 VI (6 GB) está limitado a TinyLlama y Gemma 2B.

Question 55

¿Cuál es el mejor mini PC para LLMs locales disponible en Japón?

Accepted Answer

El mejor mini PC para LLMs locales en Japón es el Beelink SER7 (Ryzen 7 7840HS, 32 GB DDR5) a ~¥70.000 en Amazon.co.jp. Ollama funciona sin configuración; la iGPU AMD Radeon 780M es compatible con aceleración Vulkan.

Question 56

¿Cuál es la mejor GPU por precio para LLMs locales en Japón?

Accepted Answer

La RTX 3060 12 GB a ~280 € nueva (~185 € de segunda mano) es la mejor GPU por precio en Japón. 12 GB VRAM ejecuta cualquier modelo 7B a 20–25 tok/s sin configuración adicional.

Question 57

What are the current AI model knowledge cutoff dates?

Accepted Answer

Verified cutoffs: GPT-5.5 August 2025 (ChatGPT searches Bing by default; GPT-4o legacy Oct 2023); Claude Opus 4.8 January 2026 (reliable cutoff); Grok 4.3 November 2024 (searches X); Gemini 3.1 Pro January 2025 (native Google Search); DeepSeek-V3 July 2024; Gemma 3 27B August 2024; Phi-4 June 2024; Qwen2.5 December 2023. Several major models — including Mistral Large, Llama 4, and Qwen3 — have not publicly disclosed exact cutoff dates. Local LLMs have no web search and their cutoff is absolute. (DeepSeek has since released DeepSeek-V4 — Flash/Pro — as a newer open-weight generation; R1/V3 remain valid to run locally.)

Question 58

¿Cuánta VRAM necesita cada distill de DeepSeek-R1?

Accepted Answer

En Q4_K_M (predeterminado de Ollama): 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB. Q8_0 es unas 2× el tamaño de Q4_K_M y FP16 unas 4×, por lo que el 32B en FP16 necesita una configuración de clase 64 GB.

Question 59

¿Qué destilación DeepSeek-R1 debo ejecutar en mi GPU?

Accepted Answer

Localiza tu tarjeta: RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B o 32B, RTX 4090 → 32B, doble GPU/48 GB → 70B. Para el mejor modelo pequeño en 8 GB, ejecuta DeepSeek-R1-0528-Qwen3-8B. Cada uno se ejecuta con un solo comando Ollama en Q4_K_M.

Question 60

¿Cuál es la mejor GPU por menos de $1,000 para LLMs locales?

Accepted Answer

Una RTX 4090 24 GB usada (~$900-1,100) es la mejor GPU por menos de $1,000 para LLMs locales — 24 GB de VRAM ejecutan todos los modelos de 32B en Q4 y pueden ajustar un modelo de 70B con cuantización baja.

Question 61

¿Es mejor la RTX 4060 o la RTX 3060 12GB para LLMs locales?

Accepted Answer

La RTX 3060 12GB es mejor para LLMs locales que la RTX 4060 8GB estándar — sus 4 GB adicionales de VRAM caben modelos de 14B que no caben en absoluto en la 4060.

Question 62

¿Cuál es la mejor GPU Intel Arc para LLMs locales?

Accepted Answer

La Intel Arc B580 12GB (~$249) es la mejor GPU Intel Arc para LLMs locales — mismo nivel de 12 GB de VRAM que la RTX 3060 12GB a un precio más bajo, pero con más fricción de configuración.

Question 63

¿Qué configuración de GPU necesitas para ejecutar un modelo de 70B con una RTX 4090?

Accepted Answer

Una sola RTX 4090 no puede cargar completamente un modelo de 70B — necesita ~40 GB en Q4 frente a los 24 GB de la 4090. Dos RTX 4090 (48 GB combinados), una 4090 en Q2_K, o descarga a CPU son las tres opciones realistas.

Question 64

¿Las NPU de las Copilot+ PC aceleran las apps de chat de LLM local como Ollama?

Accepted Answer

No. Las NPU de las Copilot+ PC (Snapdragon X Elite, Intel Lunar Lake, Ryzen AI 300) no son usadas por Ollama ni llama.cpp a julio de 2026 — el chat de LLM local sigue corriendo en la CPU o la GPU integrada, no en la NPU.

Respuestas rápidas a preguntas sobre LLM locales

Nuevo este mes

ACuantización y VRAM

BOllama

CComparativas de herramientas

DComparativas de modelos

EHardware específico

FRespuestas rápidas

GIngeniería de prompts

HPrivacidad y cumplimiento normativo

VRAM	Mejor modelo (mayo de 2026)	Cuantización	Caso de uso
4 GB	Phi-4 Mini	Q4	Chat básico, tareas pequeñas
6 GB	Llama 3 8B	Q4_K_M	Chat y programación diarios
8 GB	Mistral 7B	Q5_K_M	Equilibrio entre calidad y velocidad
12 GB	Qwen 14B	Q4_K_M	Programación y razonamiento
16 GB	Qwen 32B	Q4_K_M	Tareas complejas de varios pasos
24 GB	Llama 70B	Q4_K_M (parcial)	Calidad casi de producción
48+ GB	Llama 70B	Q5_K_M o superior	Modelos de precisión completa