Strix Halo (Ryzen AI Max) + Ollama Vulkan : configuration et performances
Réponse rapide
Oui — Ryzen AI Max (Strix Halo, RDNA 3.5) fait tourner Ollama via Vulkan sous Linux. Avec 96 Go de mémoire unifiée sur le MAX 395, il charge Qwen 32B et même Llama 70B Q4_K_M — des modèles qu'aucun GPU de bureau ne peut contenir.
- ▸Linux : Ollama détecte automatiquement Strix Halo Vulkan ; définissez OLLAMA_FLASH_ATTENTION=1 pour les sessions de long contexte
- ▸Ryzen AI Max 395 (96 Go) : charge Llama 70B Q4_K_M (~41 Go) et Qwen 32B Q4_K_M (~19 Go) simultanément
- ▸Le chemin Vulkan Windows pour Strix Halo est expérimental ; Linux est la plateforme stable pour Ollama accéléré GPU
Mis à jour : 2026-05
Hardware-Specific
Points clés
- ✓Ryzen AI Max 395 (Strix Halo, 40 CU RDNA 3.5, 96 Go LPDDR5X) utilise le backend Vulkan dans Ollama sous Linux — le chemin GPU correct quand la prise en charge ROCm iGPU n'est pas disponible
- ✓Le pool de 96 Go de mémoire unifiée est l'avantage clé : il accueille Llama 70B Q4_K_M (~41 Go) — un modèle qui nécessite plusieurs GPU de bureau dans d'autres configurations
- ✓Vitesse sur Ryzen AI Max 395 : Llama 3.1 8B ~22 tok/s, Qwen 2.5 14B ~13 tok/s, Qwen 2.5 32B ~7 tok/s via Vulkan
- ✓La prise en charge Windows pour Strix Halo dans Ollama est en cours de maturation ; Linux via Vulkan est le chemin stable à mi-2026
Comment faire tourner Ollama avec Vulkan sur Strix Halo
Sous Linux, l'installation du binaire Ollama standard suffit — il utilise llama.cpp avec le backend Vulkan, qui prend en charge RDNA 3.5 (gfx1150) nativement. Aucune installation ROCm supplémentaire n'est requise pour le chemin Vulkan. Exécutez `curl -fsSL https://ollama.com/install.sh | sh` comme d'habitude.
Après l'installation, définissez le flag flash attention pour une meilleure efficacité mémoire sur les longues sessions : `OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`. Cela réduit l'utilisation mémoire du KV-cache et est particulièrement important lors de l'exécution de modèles 32B+ qui approchent du pool complet de 96 Go.
Pour vérifier qu'Ollama utilise le GPU (et non le CPU), exécutez `ollama ps` pendant qu'un modèle est actif. La sortie affiche "GPU" dans la colonne PROCESSOR et une valeur VRAM non nulle. Si vous voyez "CPU", le backend Vulkan n'a pas été initialisé — vérifiez que le paquet `vulkan-icd-loader` est installé sur votre distribution Linux.
| Modèle | VRAM à Q4_K_M | Vitesse (MAX 395 Vulkan) | Entre dans 96 Go ? |
|---|
| Llama 3.1 8B | 4,9 Go | ~22 tok/s | ✓ |
| Qwen 2.5 14B | 9,3 Go | ~13 tok/s | ✓ |
| Qwen 2.5 32B | 19,4 Go | ~7 tok/s | ✓ |
| Llama 3.3 70B | ~41 Go | ~3 tok/s | ✓ |
| Qwen 2.5 72B | ~43 Go | ~3 tok/s | ✓ |
Strix Halo vs RTX 4090 : la mémoire gagne, la vitesse perd
Le Ryzen AI Max 395 échange la vitesse GPU contre la capacité mémoire. Une RTX 4090 fait tourner Llama 3.1 8B à ~45 tok/s contre ~22 tok/s sur Strix Halo Vulkan. Pour les modèles 7B et 14B, la RTX 4090 est plus rapide. Mais la RTX 4090 est limitée à 24 Go de VRAM — Strix Halo MAX 395 dispose de 96 Go, permettant des tailles de modèles tout simplement impossibles sur un GPU de bureau.
Le cas d'usage pratique pour Strix Halo est l'exécution locale de modèles 32B–70B sans API cloud. Qwen 2.5 32B à Q4_K_M (~19 Go) tourne à ~7 tok/s — lent pour le chat interactif, mais convenable pour la synthèse par lots, le traitement de documents, ou les tâches de fine-tuning nocturnes. Llama 3.3 70B à Q4_K_M (~41 Go) est atteignable à ~3 tok/s, adapté aux requêtes uniques de haute qualité.
Sous Windows, Ollama pour Strix Halo revient par défaut à l'inférence CPU à mi-2026, la prise en charge ROCm iGPU pour gfx1150 n'étant pas encore complète dans la version officielle Ollama Windows. Le chemin Vulkan nécessite de compiler llama.cpp depuis les sources avec `-DGGML_VULKAN=ON`. Linux est recommandé pour l'inférence Strix Halo accélérée GPU jusqu'à ce que le chemin ROCm Windows soit finalisé.
Pour une comparaison avec d'autres matériels APU Apple Silicon, consultez le bite Mac Mini M4 pour les LLMs locaux, qui couvre l'approche alternative de mémoire unifiée sur macOS.
Réponses rapides sur Strix Halo et Ollama Vulkan
AMD Strix Halo prend-il en charge ROCm dans Ollama ?▾
Pas complètement à mi-2026. La prise en charge ROCm pour gfx1150 (RDNA 3.5) est en cours mais pas encore stable dans les versions officielles d'Ollama. Le backend Vulkan est le chemin d'accélération GPU actuellement fiable sous Linux. Consultez la page des releases GitHub d'Ollama pour les mises à jour sur la prise en charge ROCm iGPU.
Puis-je utiliser Ollama avec Strix Halo Vulkan sous Windows ?▾
De manière expérimentale, oui. La version officielle Windows d'Ollama n'expose pas le backend Vulkan par défaut pour Strix Halo — elle revient au CPU. Vous pouvez compiler llama.cpp depuis les sources avec -DGGML_VULKAN=ON sous Windows pour l'activer, mais cela nécessite un processus de compilation manuel. Linux est la plateforme recommandée pour l'inférence Strix Halo Vulkan.
Quel est le plus grand modèle qui tient sur Ryzen AI Max 395 ?▾
Avec 96 Go de mémoire unifiée, le Ryzen AI Max 395 accueille Llama 3.3 70B à Q4_K_M (~41 Go) ou Qwen 2.5 72B à Q4_K_M (~43 Go), chacun avec de la mémoire disponible. Pour les très grands modèles, Qwen 2.5 72B à Q5_K_M (~55 Go) tient également, bien que la vitesse chute à environ 2 tok/s. Les modèles nécessitant plus de 90 Go (ex. 70B à Q8_0) dépassent le pool disponible.
Comment Strix Halo se compare-t-il au Mac Studio M4 Ultra pour Ollama ?▾
Mac Studio M4 Ultra dispose de 192 Go de mémoire unifiée et utilise l'accélération Metal via llama.cpp — significativement plus rapide que Strix Halo Vulkan en tokens par seconde (~12 tok/s sur 70B Q4_K_M vs ~3 tok/s sur Strix Halo). Pour la qualité et la vitesse d'inférence sur les grands modèles, M4 Ultra l'emporte. Strix Halo est compétitif uniquement dans la gamme 8B–32B et fonctionne avec un workflow Linux standard.