Strix Halo (Ryzen AI Max) + Ollama Vulkan: configuración y rendimiento

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.

Respuesta rápida

Sí — Ryzen AI Max (Strix Halo, RDNA 3.5) ejecuta Ollama vía Vulkan en Linux. Con 96 GB de memoria unificada en el MAX 395, cabe Qwen 32B e incluso Llama 70B Q4_K_M — modelos que ninguna GPU de escritorio individual puede cargar.

▸Linux: Ollama detecta automáticamente Strix Halo Vulkan; configura OLLAMA_FLASH_ATTENTION=1 para sesiones de contexto largo
▸Ryzen AI Max 395 (96 GB): cabe Llama 70B Q4_K_M (~41 GB) y Qwen 32B Q4_K_M (~19 GB) simultáneamente en memoria
▸La ruta Vulkan de Windows para Strix Halo es experimental; Linux es la plataforma estable para Ollama con aceleración GPU

Actualizado: 1 de julio de 2026

Hardware-Specific

Puntos clave

✓Ryzen AI Max 395 (Strix Halo, 40 CU RDNA 3.5, 96 GB LPDDR5X) usa el backend Vulkan en Ollama en Linux — la ruta GPU correcta cuando el soporte ROCm iGPU no está disponible
✓El pool de 96 GB de memoria unificada es la ventaja clave: cabe Llama 70B Q4_K_M (~41 GB) — un modelo que requiere múltiples GPU de escritorio en otras configuraciones
✓Velocidad en Ryzen AI Max 395: Llama 3.3 8B ~22 tok/s, Qwen 3 14B ~13 tok/s, Qwen 3 32B ~7 tok/s vía Vulkan
✓El soporte de Windows para Strix Halo en Ollama está madurando; Linux vía Vulkan es la ruta estable a mediados de 2026

Cómo ejecutar Ollama con Vulkan en Strix Halo

En Linux, instalar el binario estándar de Ollama es suficiente — usa llama.cpp con el backend Vulkan, que soporta RDNA 3.5 (gfx1150) de forma nativa. No se requiere instalación adicional de ROCm para la ruta Vulkan. Ejecuta `curl -fsSL https://ollama.com/install.sh | sh` como de costumbre.

Tras la instalación, configura el flag de flash attention para mayor eficiencia de memoria en sesiones largas: `OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`. Esto reduce el uso de memoria del KV-cache y es especialmente importante al ejecutar modelos de 32B o más que se acercan al pool completo de 96 GB.

Para verificar que Ollama está usando la GPU (y no la CPU), ejecuta `ollama ps` mientras un modelo está activo. La salida muestra "GPU" en la columna PROCESSOR y un valor VRAM distinto de cero. Si ves "CPU", el backend Vulkan no se inicializó — comprueba que el paquete `vulkan-icd-loader` esté instalado en tu distribución Linux.

Modelo	VRAM en Q4_K_M	Velocidad (MAX 395 Vulkan)	¿Cabe en 96 GB?
Llama 3.3 8B	4.9 GB	~22 tok/s	✓
Qwen 3 14B	9.3 GB	~13 tok/s	✓
Qwen 3 32B	19.4 GB	~7 tok/s	✓
Llama 3.3 70B	~41 GB	~3 tok/s	✓
Qwen 3 72B	~43 GB	~3 tok/s	✓

Ver precio del Minisforum AI370-G en Amazonenlace de producto · divulgadoVer precio del ASUS ROG NUC en Amazonenlace de producto · divulgado

Strix Halo vs RTX 4090: la memoria gana, la velocidad pierde

El Ryzen AI Max 395 intercambia velocidad de GPU por capacidad de memoria. Una RTX 4090 ejecuta Llama 3.3 8B a ~45 tok/s frente a ~22 tok/s en Strix Halo Vulkan. Para modelos de 7B y 14B, la RTX 4090 es más rápida. Pero la RTX 4090 está limitada a 24 GB de VRAM — Strix Halo MAX 395 tiene 96 GB, lo que permite tamaños de modelo imposibles en cualquier GPU de escritorio.

El caso de uso práctico para Strix Halo es ejecutar modelos de 32B–70B localmente sin APIs en la nube. Qwen 3 32B en Q4_K_M (~19 GB) corre a ~7 tok/s — lento para chat interactivo, pero válido para resúmenes en lote, procesamiento de documentos o trabajos de fine-tuning nocturnos. Llama 3.3 70B en Q4_K_M (~41 GB) es alcanzable a ~3 tok/s, adecuado para consultas individuales de alta calidad.

En Windows, Ollama para Strix Halo vuelve por defecto a la inferencia por CPU a mediados de 2026, ya que el soporte ROCm iGPU para gfx1150 aún no está completo en la versión oficial de Ollama para Windows. La ruta Vulkan requiere compilar llama.cpp desde el código fuente con `-DGGML_VULKAN=ON`. Se recomienda Linux para inferencia Strix Halo con aceleración GPU hasta que la ruta ROCm de Windows madure.

Para comparar con otro hardware APU Apple Silicon, consulta el bite Mac Mini M4 para LLMs locales, que cubre el enfoque alternativo de memoria unificada en macOS.

Lecturas relacionadas

▸Mac Mini M4 para LLMs locales — alternativa Apple de memoria unificada a Strix Halo
▸Mejor mini PC para LLM local — comparativa de mini PCs con opciones AMD y Apple
▸Mejores GPU económicas para LLMs locales — opciones de GPU discreta para builds Linux de escritorio

Respuestas rápidas sobre Strix Halo y Ollama Vulkan

¿AMD Strix Halo soporta ROCm en Ollama?▾

No completamente a mediados de 2026. El soporte ROCm para gfx1150 (RDNA 3.5) está en desarrollo pero aún no es estable en las versiones oficiales de Ollama. El backend Vulkan es la ruta de aceleración GPU actualmente fiable en Linux. Consulta la página de releases de Ollama en GitHub para actualizaciones sobre el soporte ROCm iGPU.

¿Puedo usar Ollama con Strix Halo Vulkan en Windows?▾

De forma experimental, sí. La versión oficial de Ollama para Windows no expone el backend Vulkan por defecto para Strix Halo — vuelve a la CPU. Puedes compilar llama.cpp desde el código fuente con -DGGML_VULKAN=ON en Windows para habilitarlo, pero esto requiere un proceso de compilación manual. Linux es la plataforma recomendada para inferencia Strix Halo Vulkan.

¿Cuál es el modelo más grande que cabe en Ryzen AI Max 395?▾

Con 96 GB de memoria unificada, el Ryzen AI Max 395 carga Llama 3.3 70B en Q4_K_M (~41 GB) o Qwen 3 72B en Q4_K_M (~43 GB), cada uno con memoria disponible. Para modelos muy grandes, Qwen 3 72B en Q5_K_M (~55 GB) también cabe, aunque la velocidad baja a aproximadamente 2 tok/s. Los modelos que requieren más de 90 GB (p. ej., 70B en Q8_0) superan el pool disponible.

¿Qué ventana de contexto maneja Strix Halo en Ollama — hay un límite de 64K?▾

No hay un límite fijo de 64K tokens; el techo es tu memoria unificada. En un Ryzen AI Max 395 de 96 GB, un modelo 30B en Q4_K_M ejecuta cómodamente un contexto de 64K–96K (aproximadamente 36–45 GB en total para los pesos más el KV-cache). Define el tamaño con el parámetro num_ctx de Ollama (o la variable de entorno OLLAMA_CONTEXT_LENGTH) y mantén OLLAMA_FLASH_ATTENTION=1 para reducir la memoria del KV-cache. Puedes subir a 128K–200K, pero pasa a estar limitado por la memoria (~50–70 GB) y el procesamiento del prompt se ralentiza en el backend Vulkan/RADV — un build ROCm optimizado es aproximadamente 3× más rápido en contexto muy largo (alrededor de 51 frente a 17 tok/s de procesamiento de prompt más allá de ~130K).

¿Cómo se compara Strix Halo con Mac Studio M4 Ultra para Ollama?▾

Mac Studio M4 Ultra tiene 192 GB de memoria unificada y usa aceleración Metal vía llama.cpp — significativamente más rápido que Strix Halo Vulkan por token (~12 tok/s en 70B Q4_K_M frente a ~3 tok/s en Strix Halo). Para calidad y velocidad de inferencia en modelos grandes, M4 Ultra gana. Strix Halo solo es competitivo en el rango de 8B–32B y funciona con un flujo de trabajo Linux estándar.

← Volver a Prompts en breve