Strix Halo (Ryzen AI Max) + Ollama Vulkan : configuration et performances

Lire en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Cette page contient des liens de référence vers des produits tiers. PromptQuorum n'est inscrit à aucun programme d'affiliation — ce sont de simples liens qui ne génèrent aucune commission. Cliquer sur les liens et vos prochaines étapes relèvent entièrement de votre responsabilité. Ces liens ne représentent aucune approbation ou vérification par PromptQuorum.

Réponse rapide

Oui — Ryzen AI Max (Strix Halo, RDNA 3.5) fait tourner Ollama via Vulkan sous Linux. Avec 96 Go de mémoire unifiée sur le MAX 395, il charge Qwen 32B et même Llama 70B Q4_K_M — des modèles qu'aucun GPU de bureau ne peut contenir.

▸Linux : Ollama détecte automatiquement Strix Halo Vulkan ; définissez OLLAMA_FLASH_ATTENTION=1 pour les sessions de long contexte
▸Ryzen AI Max 395 (96 Go) : charge Llama 70B Q4_K_M (~41 Go) et Qwen 32B Q4_K_M (~19 Go) simultanément
▸Contexte : pas de plafond strict à 64K — num_ctx le définit ; 64K–96K sont confortables sur un modèle 30B, 128K+ est limité par la mémoire et plus lent sur Vulkan
▸Le chemin Vulkan Windows pour Strix Halo est expérimental ; Linux est la plateforme stable pour Ollama accéléré GPU

Mis à jour : 2026-07

Hardware-Specific

Points clés

✓Ryzen AI Max 395 (Strix Halo, 40 CU RDNA 3.5, 96 Go LPDDR5X) utilise le backend Vulkan dans Ollama sous Linux — le chemin GPU correct quand la prise en charge ROCm iGPU n'est pas disponible
✓Le pool de 96 Go de mémoire unifiée est l'avantage clé : il accueille Llama 70B Q4_K_M (~41 Go) — un modèle qui nécessite plusieurs GPU de bureau dans d'autres configurations
✓Vitesse sur Ryzen AI Max 395 : Llama 3.3 8B ~22 tok/s, Qwen 3 14B ~13 tok/s, Qwen 3 32B ~7 tok/s via Vulkan
✓La prise en charge Windows pour Strix Halo dans Ollama est en cours de maturation ; Linux via Vulkan est le chemin stable à mi-2026

Comment faire tourner Ollama avec Vulkan sur Strix Halo

Sous Linux, l'installation du binaire Ollama standard suffit — il utilise llama.cpp avec le backend Vulkan, qui prend en charge RDNA 3.5 (gfx1150) nativement. Aucune installation ROCm supplémentaire n'est requise pour le chemin Vulkan. Exécutez `curl -fsSL https://ollama.com/install.sh | sh` comme d'habitude.

Après l'installation, définissez le flag flash attention pour une meilleure efficacité mémoire sur les longues sessions : `OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`. Cela réduit l'utilisation mémoire du KV-cache et est particulièrement important lors de l'exécution de modèles 32B+ qui approchent du pool complet de 96 Go.

Pour vérifier qu'Ollama utilise le GPU (et non le CPU), exécutez `ollama ps` pendant qu'un modèle est actif. La sortie affiche "GPU" dans la colonne PROCESSOR et une valeur VRAM non nulle. Si vous voyez "CPU", le backend Vulkan n'a pas été initialisé — vérifiez que le paquet `vulkan-icd-loader` est installé sur votre distribution Linux.

Modèle	VRAM à Q4_K_M	Vitesse (MAX 395 Vulkan)	Entre dans 96 Go ?
Llama 3.3 8B	4,9 Go	~22 tok/s	✓
Qwen 3 14B	9,3 Go	~13 tok/s	✓
Qwen 3 32B	19,4 Go	~7 tok/s	✓
Llama 3.3 70B	~41 Go	~3 tok/s	✓
Qwen 3 72B	~43 Go	~3 tok/s	✓

Vérifier le prix du Minisforum AI370-G sur Amazon.frlien produit · divulguéRyzen AI Max 395 mini PC sur LDLClien produit · divulgué

Strix Halo vs RTX 4090 : la mémoire gagne, la vitesse perd

Le Ryzen AI Max 395 échange la vitesse GPU contre la capacité mémoire. Une RTX 4090 fait tourner Llama 3.3 8B à ~45 tok/s contre ~22 tok/s sur Strix Halo Vulkan. Pour les modèles 7B et 14B, la RTX 4090 est plus rapide. Mais la RTX 4090 est limitée à 24 Go de VRAM — Strix Halo MAX 395 dispose de 96 Go, permettant des tailles de modèles tout simplement impossibles sur un GPU de bureau.

Le cas d'usage pratique pour Strix Halo est l'exécution locale de modèles 32B–70B sans API cloud. Qwen 3 32B à Q4_K_M (~19 Go) tourne à ~7 tok/s — lent pour le chat interactif, mais convenable pour la synthèse par lots, le traitement de documents, ou les tâches de fine-tuning nocturnes. Llama 3.3 70B à Q4_K_M (~41 Go) est atteignable à ~3 tok/s, adapté aux requêtes uniques de haute qualité.

Sous Windows, Ollama pour Strix Halo revient par défaut à l'inférence CPU à mi-2026, la prise en charge ROCm iGPU pour gfx1150 n'étant pas encore complète dans la version officielle Ollama Windows. Le chemin Vulkan nécessite de compiler llama.cpp depuis les sources avec `-DGGML_VULKAN=ON`. Linux est recommandé pour l'inférence Strix Halo accélérée GPU jusqu'à ce que le chemin ROCm Windows soit finalisé.

Pour une comparaison avec d'autres matériels APU Apple Silicon, consultez le bite Mac Mini M4 pour les LLMs locaux, qui couvre l'approche alternative de mémoire unifiée sur macOS.

Lectures complémentaires

▸Mac Mini M4 pour les LLMs locaux — alternative Apple à mémoire unifiée pour Strix Halo
▸Meilleur mini PC pour LLM local — comparatif mini PC avec options AMD et Apple
▸Meilleures GPU budget pour LLMs locaux — options GPU discrètes pour PC Linux

Réponses rapides sur Strix Halo et Ollama Vulkan

AMD Strix Halo prend-il en charge ROCm dans Ollama ?▾

Pas complètement à mi-2026. La prise en charge ROCm pour gfx1150 (RDNA 3.5) est en cours mais pas encore stable dans les versions officielles d'Ollama. Le backend Vulkan est le chemin d'accélération GPU actuellement fiable sous Linux. Consultez la page des releases GitHub d'Ollama pour les mises à jour sur la prise en charge ROCm iGPU.

Puis-je utiliser Ollama avec Strix Halo Vulkan sous Windows ?▾

De manière expérimentale, oui. La version officielle Windows d'Ollama n'expose pas le backend Vulkan par défaut pour Strix Halo — elle revient au CPU. Vous pouvez compiler llama.cpp depuis les sources avec -DGGML_VULKAN=ON sous Windows pour l'activer, mais cela nécessite un processus de compilation manuel. Linux est la plateforme recommandée pour l'inférence Strix Halo Vulkan.

Quel est le plus grand modèle qui tient sur Ryzen AI Max 395 ?▾

Avec 96 Go de mémoire unifiée, le Ryzen AI Max 395 accueille Llama 3.3 70B à Q4_K_M (~41 Go) ou Qwen 3 72B à Q4_K_M (~43 Go), chacun avec de la mémoire disponible. Pour les très grands modèles, Qwen 3 72B à Q5_K_M (~55 Go) tient également, bien que la vitesse chute à environ 2 tok/s. Les modèles nécessitant plus de 90 Go (ex. 70B à Q8_0) dépassent le pool disponible.

Quelle fenêtre de contexte Strix Halo gère-t-il dans Ollama — y a-t-il une limite de 64K ?▾

Il n'y a pas de limite stricte de 64K tokens ; le plafond est votre mémoire unifiée. Sur un Ryzen AI Max 395 de 96 Go, un modèle 30B en Q4_K_M fait tourner confortablement un contexte de 64K–96K (environ 36–45 Go au total pour les poids plus le KV-cache). Définissez la taille avec le paramètre num_ctx d'Ollama (ou la variable d'environnement OLLAMA_CONTEXT_LENGTH) et gardez OLLAMA_FLASH_ATTENTION=1 pour réduire la mémoire du KV-cache. Vous pouvez monter à 128K–200K, mais cela devient limité par la mémoire (~50–70 Go) et le traitement du prompt ralentit sur le backend Vulkan/RADV — un build ROCm optimisé est environ 3× plus rapide sur un contexte très long (environ 51 contre 17 tok/s de traitement du prompt au-delà de ~130K).

Comment Strix Halo se compare-t-il au Mac Studio M4 Ultra pour Ollama ?▾

Mac Studio M4 Ultra dispose de 192 Go de mémoire unifiée et utilise l'accélération Metal via llama.cpp — significativement plus rapide que Strix Halo Vulkan en tokens par seconde (~12 tok/s sur 70B Q4_K_M vs ~3 tok/s sur Strix Halo). Pour la qualité et la vitesse d'inférence sur les grands modèles, M4 Ultra l'emporte. Strix Halo est compétitif uniquement dans la gamme 8B–32B et fonctionne avec un workflow Linux standard.

← Retour aux Prompts en bref