Schnelle Antwort
Ja — Ryzen AI Max (Strix Halo, RDNA 3.5) betreibt Ollama über Vulkan unter Linux. Mit 96 GB Unified Memory beim MAX 395 passt Qwen 32B und sogar Llama 70B Q4_K_M — Modelle, die keine einzelne Desktop-GPU aufnehmen kann.
Aktualisiert: 2026-05
Wichtigste Punkte
Unter Linux reicht die Installation des Standard-Ollama-Binärprogramms aus — es verwendet llama.cpp mit dem Vulkan-Backend, das RDNA 3.5 (gfx1150) von Haus aus unterstützt. Für den Vulkan-Pfad ist keine zusätzliche ROCm-Installation erforderlich. Führen Sie wie gewohnt `curl -fsSL https://ollama.com/install.sh | sh` aus.
Setzen Sie nach der Installation das Flash-Attention-Flag für bessere Speichereffizienz bei langen Sitzungen: `OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`. Dies reduziert den KV-Cache-Speicherverbrauch und ist besonders wichtig beim Ausführen von 32B+-Modellen, die an den vollen 96-GB-Pool heranreichen.
Um zu überprüfen, ob Ollama die GPU (und nicht die CPU) verwendet, führen Sie `ollama ps` aus, während ein Modell aktiv ist. Die Ausgabe zeigt "GPU" in der Spalte PROCESSOR und einen von null verschiedenen VRAM-Wert. Wenn Sie "CPU" sehen, wurde das Vulkan-Backend nicht initialisiert — überprüfen Sie, ob das Paket `vulkan-icd-loader` auf Ihrer Linux-Distribution installiert ist.
| Modell | VRAM bei Q4_K_M | Geschwindigkeit (MAX 395 Vulkan) | Passt in 96 GB? |
|---|---|---|---|
| Llama 3.1 8B | 4,9 GB | ~22 tok/s | ✓ |
| Qwen 2.5 14B | 9,3 GB | ~13 tok/s | ✓ |
| Qwen 2.5 32B | 19,4 GB | ~7 tok/s | ✓ |
| Llama 3.3 70B | ~41 GB | ~3 tok/s | ✓ |
| Qwen 2.5 72B | ~43 GB | ~3 tok/s | ✓ |
Der Ryzen AI Max 395 tauscht GPU-Geschwindigkeit gegen Speicherkapazität. Eine RTX 4090 führt Llama 3.1 8B mit ~45 tok/s aus, gegenüber ~22 tok/s auf Strix Halo Vulkan. Für 7B- und 14B-Modelle ist die RTX 4090 schneller. Aber die RTX 4090 ist auf 24 GB VRAM begrenzt — Strix Halo MAX 395 hält 96 GB, was Modellgrößen ermöglicht, die auf einer Desktop-GPU schlicht unmöglich sind.
Der praktische Anwendungsfall für Strix Halo ist das lokale Ausführen von 32B–70B-Modellen ohne Cloud-APIs. Qwen 2.5 32B bei Q4_K_M (~19 GB) läuft mit ~7 tok/s — langsam für interaktiven Chat, aber geeignet für Batch-Zusammenfassungen, Dokumentenverarbeitung oder nächtliche Fine-Tuning-Jobs. Llama 3.3 70B bei Q4_K_M (~41 GB) ist mit ~3 tok/s erreichbar und eignet sich für hochwertige Einzelabfragen.
Unter Windows fällt Ollama für Strix Halo Stand Mitte 2026 standardmäßig auf CPU-Inferenz zurück, da die ROCm-iGPU-Unterstützung für gfx1150 im offiziellen Ollama-Windows-Build noch nicht abgeschlossen ist. Der Vulkan-Pfad erfordert das Kompilieren von llama.cpp aus dem Quellcode mit `-DGGML_VULKAN=ON`. Linux wird für GPU-beschleunigte Strix-Halo-Inferenz empfohlen, bis der Windows-ROCm-Pfad ausgereift ist.
Einen Vergleich mit anderer Apple-Silicon-APU-Hardware finden Sie im Mac Mini M4 für lokale LLMs-Bite, der den alternativen Unified-Memory-Ansatz unter macOS behandelt.