Key Takeaways
- Mac mini M4 Pro (64 GB): $2,299. Silencioso, compacto, 70B a 10–15 tok/s. El mini PC más compacto con capacidad para 70B.
- Framework Desktop (128 GB): $1,999. El mini PC 70B más rápido a 20+ tok/s. Diseñado específicamente para LLMs locales.
- ASUS PN51 + RTX 5060 Ti: $900. Mejor valor x86 tradicional. 7B a 25 tok/s, 13B a 15 tok/s.
- Intel NUC 13 + eGPU: $1,300. Calidad de construcción premium, el eGPU Thunderbolt pierde 15–25% de ancho de banda.
- Mini-ITX personalizado (Lian Li A4): $1,000–1,400. El más flexible, el más difícil de armar.
- Evitar: Mini PCs solo con GPU integrada (1–2 tok/s en 7B), cases ATX completos (no encajan), RTX 4090 (demasiado grande para cualquier case SFF).
¿Qué hace a un mini PC adecuado para LLMs locales?
Un mini PC viable necesita un slot PCIe x16, fuente SFX de 450W+, refrigeración activa y SSD de 1TB+. La mayoría de los mini PCs de consumo carecen de un slot para GPU discreta — siempre verifica antes de comprar.
- Slot PCIe x16 (longitud completa): Para instalar una GPU discreta. Algunos mini PCs usan docks USB-C externos — la pérdida de ancho de banda del eGPU es del 15–25% frente al PCIe interno.
- Presupuesto de energía: Mínimo fuente SFX de 450W. RTX 5060 Ti (165W) + CPU (65W) + placa (50W) = 280W de carga, picos a 420W+.
- Refrigeración: Se requieren ventiladores de case activos. La refrigeración pasiva funciona para 3B en reposo; la inferencia sostenida de 7B necesita flujo de aire forzado.
- Almacenamiento: SSD de 1TB mínimo. Un modelo 7B en Q4_K_M usa ~4 GB en disco; una biblioteca de 5 modelos ocupa 25 GB.
Mac Mini M4 Pro: la opción Apple Silicon
El Mac mini M4 Pro con 64 GB de memoria unificada ejecuta Llama 3.3 70B a 10–15 tok/s por $2,299 — el mini PC más compacto con capacidad para 70B a partir de abril de 2026. La arquitectura de memoria unificada significa que los 64 GB completos son accesibles tanto para la CPU como para la GPU (Metal). Sin restricciones de VRAM ni cuello de botella PCIe. El Neural Engine de Apple Silicon no se usa para la inferencia LLM — la GPU Metal gestiona todo el trabajo.
- Ventajas: Silencioso (sin ruido de ventilador en inferencia), 13×13×3,8 cm, consumo de 30W, macOS + Linux vía Asahi, aceleración GPU Metal de Ollama funciona de inmediato.
- Desventajas: La RAM no se puede actualizar. El M4 Pro Max no está disponible en formato mini (solo Mac Studio). El 70B a 10–15 tok/s es más lento que una RTX 4090 (60–80 tok/s), pero cabe en un case de 3,8 cm de alto.
- Comando: `ollama run llama3.3:70b-instruct-q4_K_M` — funciona de forma nativa en Apple Silicon vía Metal.
- **Para una comparación enfocada en M5 Pro y M5 Max (Mac Studio, MacBook Pro), consulta nuestra guía de LLMs locales con Apple Silicon M5 →.**
| Configuración Mac mini | 7B Q4 tok/s | 70B Q4 tok/s | Precio |
|---|---|---|---|
| M4 (16 GB) | 40–50 | No cabe | $599 |
| M4 Pro (24 GB) | 50–65 | No cabe | $1,399 |
| M4 Pro (48 GB) | 55–70 | 7–10 | $1,999 |
| M4 Pro (64 GB) | 60–80 | 10–15 | $2,299 |
Framework Desktop: AMD Ryzen AI Max 395+
El Framework Desktop con AMD Ryzen AI Max 395+ y 128 GB de memoria unificada LPDDR5X ejecuta Llama 3.3 70B a 20+ tok/s por $1,999 — lanzado a finales de 2025 y diseñado específicamente para cargas de trabajo de LLMs locales. El Framework Desktop utiliza la APU Strix Halo con 128 GB de memoria unificada accesible tanto para la CPU como para la GPU integrada Radeon 8060S. Comercializado explícitamente para IA local — una primera vez en hardware PC convencional.
- CPU: AMD Ryzen AI Max 395+ (16 núcleos Zen 5)
- GPU: Radeon 8060S (40 CU RDNA 3.5)
- Memoria: 128 GB LPDDR5X unificada (sin VRAM separada)
- Factor de forma: estilo Mini-ITX de 4,5 L
- Energía: 120W sostenido, 200W en pico
- Ventajas: El 70B a 20+ tok/s es 1,5–2× más rápido que el Mac mini M4 Pro a precio similar. Totalmente actualizable (placa base, almacenamiento). Diseño Linux-first. Firmware de código abierto.
- Desventajas: Se requiere configurar ROCm para Ollama (no tan llave en mano como Metal en Mac). Ruido de ventilador de 40–50 dB bajo carga sostenida. Lanzado a finales de 2025 — la madurez de los drivers sigue mejorando.
| Modelo | tok/s |
|---|---|
| Llama 3.1 8B Q4 | 45–60 |
| Llama 3.3 70B Q4 | 20–25 |
| DeepSeek-R1 70B Q4 | 18–22 |
| Qwen2.5 72B Q4 | 22–26 |
¿Qué plataforma de mini PC ofrece el mejor valor?
El ASUS PN51 con Ryzen 5 y RTX 5060 Ti ofrece el mejor valor x86 tradicional a $900 — rendimiento LLM idéntico al de una torre completa a la mitad del precio.
- Intel NUC 13 Pro (Core i7): CPU compacta y actualizable de 65W. GPU vía dock eGPU Thunderbolt 3. $600 base + $450 RTX 5060 Ti + $250 dock = $1,300. Mejor calidad de construcción.
- ASUS PN51 o PN52 (barebone Mini-ITX): Agregar Ryzen 5 ($150) + 32 GB RAM ($80) + SSD 1TB ($70) + RTX 5060 Ti ($450) = $900. Mejor valor.
- Giada F350 o Zotac ZBOX Sphere (pre-ensamblado): Solo GPU integrada. Adecuado para 3B–7B a velocidades de CPU. No recomendado para inferencia con GPU discreta.
- Build Mini-ITX personalizado (Lian Li A4, Dan A4-H2O): El más flexible, el más difícil de armar. $1,000–1,400 según la GPU elegida.
¿Qué GPU cabe en un case de mini PC?
La RTX 5060 Ti de 16 GB se convirtió en la opción ideal para Mini-ITX a finales de 2025 — cabe en todos los cases a 217mm, ejecuta 13B en Q4 con margen de VRAM, por menos de $500. La RTX 5070 funciona en la mayoría de los cases pero mide — algunas variantes superan los 220mm.
| GPU | VRAM | Modelo máximo | Cabe en Mini-ITX | Precio (2026) |
|---|---|---|---|---|
| RTX 5060 Ti | 16 GB | 13B Q4 | Sí (217mm) | $450–500 |
| RTX 5070 | 12 GB | 13B Q4 | Verificar variante (225mm) | $550–650 |
| RTX 4060 Ti | 8 GB | 7B Q4 | Sí (216mm) | $280–320 |
| RTX 4070 | 12 GB | 13B Q4 | Verificar variante (límite 220mm) | $400–500 |
| RTX A4000 | 16 GB | 13B (cómodo) | Verificar variante | $250–350 usado |
¿Cómo gestionar la refrigeración en un case de mini PC compacto?
Espera 60–70°C en la GPU y 50–60 dB de ruido de ventilador con carga completa de inferencia LLM. El undervolting reduce las temperaturas 5–10°C sin pérdida de velocidad medible.
- Temperaturas: GPU 60–70°C, CPU 55–65°C bajo inferencia sostenida. No es peligroso pero los ventiladores se aceleran.
- Ruido: RTX 5060 Ti a plena carga = 50–60 dB (nivel de aspiradora). Aceptable en oficina, molesto en espacios silenciosos.
- Undervolting: Reducir el voltaje del núcleo 50mV vía MSI Afterburner (Windows) o CoreCtrl (Linux). Reduce temperaturas 5–10°C, pérdida de velocidad del 0–2%.
- Operación silenciosa: Reemplaza los ventiladores de la GPU con variantes Noctua o BeQuiet! ($50–80). Reduce el ruido 10–15 dB.
¿Cuáles son los límites de los mini PCs para LLMs locales?
Los builds Mini-ITX tradicionales tienen un máximo de 13B (12–16 GB de VRAM). Las opciones Apple Silicon y AMD Ryzen AI Max eliminan esta restricción con memoria unificada de hasta 128 GB.
- VRAM máxima Mini-ITX tradicional: 8–16 GB (solo una GPU discreta). No cabe una RTX 4090 (doble slot, 280mm+ de largo).
- Tamaño máximo de modelo (tradicional): 13B cómodamente. El 70B requiere descarga en CPU y una penalización de velocidad de 3–5×.
- Ruta de actualización: Limitada. El cambio de GPU puede requerir modificación del case. La RAM generalmente es actualizable.
- Multi-GPU: Imposible en Mini-ITX. No hay espacio para una segunda tarjeta discreta.
- Longevidad: Los cases de mini PC están diseñados para cargas de trabajo de oficina, no para inferencia 24/7. Limpia los filtros de polvo anualmente.
- El hardware del mini PC limita el tamaño del modelo, pero el tamaño del modelo no es el único límite. Incluso los modelos más grandes tienen limitaciones fundamentales — alucinaciones, fallos de razonamiento y brechas de conocimiento. Consulta lo que los LLMs no pueden hacer para el panorama completo.
Contexto regional: residencia de datos con mini PCs
Los mini PCs que ejecutan LLMs locales mantienen todos los datos en las instalaciones — ningún dato sale del dispositivo, cumpliendo por defecto con los requisitos de residencia de datos del GDPR, la APPI y la DSL de China.
- UE / GDPR: La inferencia local elimina los acuerdos de procesamiento de datos (Artículo 28 del GDPR). Los datos profesionales sensibles (legales, médicos, financieros) permanecen dentro de la UE sin la carga contractual de las SCC.
- Japón / APPI: La Ley de Protección de Información Personal (APPI) requiere consentimiento explícito para la transferencia transfronteriza de datos. La inferencia local elimina completamente este requisito.
- China / Ley de Seguridad de Datos: La Ley de Seguridad de Datos de 2021 restringe el envío de ciertas categorías de datos al exterior. Un mini PC que ejecuta Qwen2.5 localmente cumple estos requisitos sin enrutamiento en la nube.
Errores comunes con mini PCs para inferencia LLM local
El error más común es comprar un mini PC de consumo con GPU integrada — las GPUs integradas son 10× más lentas que las tarjetas discretas para inferencia LLM.
- Comprar un mini PC pre-ensamblado con GPU integrada para inferencia 7B. Las GPUs integradas producen 1–2 tok/s frente a 25 tok/s de la RTX 5060 Ti.
- Elegir un dock eGPU TB3 esperando la velocidad completa de una GPU discreta. El eGPU pierde 15–25% de ancho de banda PCIe — espera 12 tok/s en lugar de 15 en 7B.
- Asumir que cualquier case de mini PC admite una fuente ATX de tamaño completo. El Mini-ITX requiere fuentes en formato SFX o TFX.
- Saltarse el dimensionamiento de RAM — con solo 8 GB de RAM libre, la carga del modelo 7B provoca thrashing de swap y ralentizaciones de 5–10×.
- No medir la longitud de la GPU antes de pedirla — las variantes de RTX 5070 van de 210mm a 242mm; verifica el límite de slot de tu case específico.
Preguntas frecuentes: mini PCs para LLMs locales
¿Puedo ejecutar modelos 13B sin problemas en un mini PC?
Sí, con cuantización Q4 con RTX 5060 Ti (16 GB) o RTX 4070 (12 GB). La RTX 4060 Ti (8 GB) es demasiado ajustada para 13B cómodo — el margen de VRAM cae por debajo de 1 GB.
¿Es útil el Intel NUC con una RTX 5060 Ti externa en dock para LLMs locales?
Sí. El eGPU TB3 pierde 15–20% de ancho de banda, así que espera 12 tok/s en lugar de 15 en 7B. Sigue siendo funcional y excelente para espacios pequeños donde una torre completa es poco práctica.
¿Qué tan ruidoso es un mini PC ejecutando LLMs?
La RTX 5060 Ti a plena carga alcanza 50–60 dB. El undervolting o reemplazar los ventiladores de la GPU con variantes Noctua reduce el ruido a 40–45 dB — aceptable para la mayoría de las oficinas.
¿Puedo instalar una RTX 4090 en un mini PC?
No. La RTX 4090 es de doble slot y mide 280mm+. Los cases SFF personalizados (Lian Li A4, Dan A4-H2O) tienen un máximo de 220mm de longitud de GPU.
¿Es mejor un mini PC que una laptop para LLMs locales?
Para uso estacionario, sí. El mini PC ofrece mejor gestión térmica (60–70°C sostenido) y ancho de banda PCIe completo. La laptop limita a ~10 tok/s bajo carga sostenida. El mini PC gana para uso en escritorio.
¿Cuál es el costo total de un mini PC para inferencia 7B?
Build ASUS PN51: $900. Intel NUC 13 + dock eGPU RTX 5060 Ti: $1,300. Ambos ejecutan 7B a 20–25 tok/s; el PN51 ofrece mejor valor. Los precios pueden variar según tu país.
¿Necesita un mini PC una solución de refrigeración dedicada para LLMs?
Sí para inferencia sostenida. Los ventiladores de case Mini-ITX estándar (1×80mm) son insuficientes para la RTX 5060 Ti a plena carga. Agrega un ventilador lateral de 92mm o reemplaza los ventiladores de la GPU con variantes Noctua ($50–80).
¿Qué CPU de mini PC es mejor para inferencia LLM local?
La CPU es secundaria frente a la GPU para la generación de tokens. Ryzen 7 7700X o Intel Core i7-14700K son suficientes. Prioriza el presupuesto de VRAM de la GPU sobre la velocidad de la CPU para inferencia de 7B–13B.
¿Puede un Mac mini M4 Pro ejecutar Llama 3.3 70B?
Sí — la configuración de 64 GB de memoria unificada ($2,299) ejecuta Llama 3.3 70B en Q4_K_M a 10–15 tok/s. La variante de 48 GB ($1,999) también carga el 70B pero con memoria más ajustada (7–10 tok/s). Las configuraciones más pequeñas (16 GB, 24 GB) no pueden cargar el 70B. Para 70B en Apple Silicon por menos de $2,500, el M4 Pro de 64 GB es la única opción de mini PC — las configuraciones M4 Max más grandes requieren Mac Studio.
¿Es el Framework Desktop mejor que el Mac mini M4 Pro para LLMs locales?
Para velocidad bruta en 70B, sí: el Framework Desktop a $1,999 alcanza 20+ tok/s en 70B frente al Mac mini M4 Pro ($2,299) a 10–15 tok/s. Para facilidad de configuración, el Mac mini gana — Ollama funciona con Metal de forma inmediata. Framework requiere configurar ROCm. Elige Framework para velocidad y actualizabilidad, Mac mini para operación silenciosa y experiencia macOS llave en mano.