Strix Halo (Ryzen AI Max) + Ollama Vulkan: configuración y rendimiento
Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.
Respuesta rápida
Sí — Ryzen AI Max (Strix Halo, RDNA 3.5) ejecuta Ollama vía Vulkan en Linux. Con 96 GB de memoria unificada en el MAX 395, cabe Qwen 32B e incluso Llama 70B Q4_K_M — modelos que ninguna GPU de escritorio individual puede cargar.
- ▸Linux: Ollama detecta automáticamente Strix Halo Vulkan; configura OLLAMA_FLASH_ATTENTION=1 para sesiones de contexto largo
- ▸Ryzen AI Max 395 (96 GB): cabe Llama 70B Q4_K_M (~41 GB) y Qwen 32B Q4_K_M (~19 GB) simultáneamente en memoria
- ▸La ruta Vulkan de Windows para Strix Halo es experimental; Linux es la plataforma estable para Ollama con aceleración GPU
Actualizado: 2026-05
Puntos clave
- ✓Ryzen AI Max 395 (Strix Halo, 40 CU RDNA 3.5, 96 GB LPDDR5X) usa el backend Vulkan en Ollama en Linux — la ruta GPU correcta cuando el soporte ROCm iGPU no está disponible
- ✓El pool de 96 GB de memoria unificada es la ventaja clave: cabe Llama 70B Q4_K_M (~41 GB) — un modelo que requiere múltiples GPU de escritorio en otras configuraciones
- ✓Velocidad en Ryzen AI Max 395: Llama 3.1 8B ~22 tok/s, Qwen 2.5 14B ~13 tok/s, Qwen 2.5 32B ~7 tok/s vía Vulkan
- ✓El soporte de Windows para Strix Halo en Ollama está madurando; Linux vía Vulkan es la ruta estable a mediados de 2026
Cómo ejecutar Ollama con Vulkan en Strix Halo
En Linux, instalar el binario estándar de Ollama es suficiente — usa llama.cpp con el backend Vulkan, que soporta RDNA 3.5 (gfx1150) de forma nativa. No se requiere instalación adicional de ROCm para la ruta Vulkan. Ejecuta `curl -fsSL https://ollama.com/install.sh | sh` como de costumbre.
Tras la instalación, configura el flag de flash attention para mayor eficiencia de memoria en sesiones largas: `OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`. Esto reduce el uso de memoria del KV-cache y es especialmente importante al ejecutar modelos de 32B o más que se acercan al pool completo de 96 GB.
Para verificar que Ollama está usando la GPU (y no la CPU), ejecuta `ollama ps` mientras un modelo está activo. La salida muestra "GPU" en la columna PROCESSOR y un valor VRAM distinto de cero. Si ves "CPU", el backend Vulkan no se inicializó — comprueba que el paquete `vulkan-icd-loader` esté instalado en tu distribución Linux.
| Modelo | VRAM en Q4_K_M | Velocidad (MAX 395 Vulkan) | ¿Cabe en 96 GB? |
|---|---|---|---|
| Llama 3.1 8B | 4.9 GB | ~22 tok/s | ✓ |
| Qwen 2.5 14B | 9.3 GB | ~13 tok/s | ✓ |
| Qwen 2.5 32B | 19.4 GB | ~7 tok/s | ✓ |
| Llama 3.3 70B | ~41 GB | ~3 tok/s | ✓ |
| Qwen 2.5 72B | ~43 GB | ~3 tok/s | ✓ |
Strix Halo vs RTX 4090: la memoria gana, la velocidad pierde
El Ryzen AI Max 395 intercambia velocidad de GPU por capacidad de memoria. Una RTX 4090 ejecuta Llama 3.1 8B a ~45 tok/s frente a ~22 tok/s en Strix Halo Vulkan. Para modelos de 7B y 14B, la RTX 4090 es más rápida. Pero la RTX 4090 está limitada a 24 GB de VRAM — Strix Halo MAX 395 tiene 96 GB, lo que permite tamaños de modelo imposibles en cualquier GPU de escritorio.
El caso de uso práctico para Strix Halo es ejecutar modelos de 32B–70B localmente sin APIs en la nube. Qwen 2.5 32B en Q4_K_M (~19 GB) corre a ~7 tok/s — lento para chat interactivo, pero válido para resúmenes en lote, procesamiento de documentos o trabajos de fine-tuning nocturnos. Llama 3.3 70B en Q4_K_M (~41 GB) es alcanzable a ~3 tok/s, adecuado para consultas individuales de alta calidad.
En Windows, Ollama para Strix Halo vuelve por defecto a la inferencia por CPU a mediados de 2026, ya que el soporte ROCm iGPU para gfx1150 aún no está completo en la versión oficial de Ollama para Windows. La ruta Vulkan requiere compilar llama.cpp desde el código fuente con `-DGGML_VULKAN=ON`. Se recomienda Linux para inferencia Strix Halo con aceleración GPU hasta que la ruta ROCm de Windows madure.
Para comparar con otro hardware APU Apple Silicon, consulta el bite Mac Mini M4 para LLMs locales, que cubre el enfoque alternativo de memoria unificada en macOS.
Lecturas relacionadas
- ▸Mac Mini M4 para LLMs locales — alternativa Apple de memoria unificada a Strix Halo
- ▸Mejor mini PC para LLM local — comparativa de mini PCs con opciones AMD y Apple
- ▸Mejores GPU económicas para LLMs locales — opciones de GPU discreta para builds Linux de escritorio