Strix Halo (Ryzen AI Max) + Ollama Vulkan: Einrichtung und Performance

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Diese Seite enthält Verweislinks zu Produkten von Drittanbietern. PromptQuorum ist an keinem Partnerprogramm beteiligt — es sind reine Referenzlinks, die keine Provision erzielen. Das Anklicken von Links und Ihre nächsten Schritte liegen in Ihrer eigenen Verantwortung. Diese Links stellen keine Billigung oder Verifizierung durch PromptQuorum dar.

Schnelle Antwort

Ja — Ryzen AI Max (Strix Halo, RDNA 3.5) betreibt Ollama über Vulkan unter Linux. Mit 96 GB Unified Memory beim MAX 395 passt Qwen 32B und sogar Llama 70B Q4_K_M — Modelle, die keine einzelne Desktop-GPU aufnehmen kann.

▸Linux: Ollama erkennt Strix Halo Vulkan automatisch; OLLAMA_FLASH_ATTENTION=1 für lange Kontextsitzungen setzen
▸Ryzen AI Max 395 (96 GB): Llama 70B Q4_K_M (~41 GB) und Qwen 32B Q4_K_M (~19 GB) gleichzeitig im Speicher
▸Kontext: kein hartes 64K-Limit — num_ctx legt ihn fest; 64K–96K sind komfortabel bei einem 30B-Modell, 128K+ ist speicherbegrenzt und langsamer auf Vulkan
▸Windows-Vulkan-Pfad für Strix Halo ist experimentell; Linux ist die stabile Plattform für GPU-beschleunigtes Ollama

Aktualisiert: 2026-07

Hardware-Specific

Wichtigste Punkte

✓Ryzen AI Max 395 (Strix Halo, 40 RDNA 3.5 CUs, 96 GB LPDDR5X) verwendet das Vulkan-Backend in Ollama unter Linux — der korrekte GPU-Pfad, wenn ROCm-iGPU-Unterstützung nicht verfügbar ist
✓Der 96 GB große Unified-Memory-Pool ist der entscheidende Vorteil: Er nimmt Llama 70B Q4_K_M (~41 GB) auf — ein Modell, das in anderen Setups mehrere Desktop-GPUs erfordert
✓Geschwindigkeit auf Ryzen AI Max 395: Llama 3.3 8B ~22 tok/s, Qwen 3 14B ~13 tok/s, Qwen 3 32B ~7 tok/s via Vulkan
✓Die Windows-Unterstützung für Strix Halo in Ollama reift; Linux via Vulkan ist der stabile Pfad Stand Mitte 2026

Ollama mit Vulkan auf Strix Halo einrichten

Unter Linux reicht die Installation des Standard-Ollama-Binärprogramms aus — es verwendet llama.cpp mit dem Vulkan-Backend, das RDNA 3.5 (gfx1150) von Haus aus unterstützt. Für den Vulkan-Pfad ist keine zusätzliche ROCm-Installation erforderlich. Führen Sie wie gewohnt `curl -fsSL https://ollama.com/install.sh | sh` aus.

Setzen Sie nach der Installation das Flash-Attention-Flag für bessere Speichereffizienz bei langen Sitzungen: `OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`. Dies reduziert den KV-Cache-Speicherverbrauch und ist besonders wichtig beim Ausführen von 32B+-Modellen, die an den vollen 96-GB-Pool heranreichen.

Um zu überprüfen, ob Ollama die GPU (und nicht die CPU) verwendet, führen Sie `ollama ps` aus, während ein Modell aktiv ist. Die Ausgabe zeigt "GPU" in der Spalte PROCESSOR und einen von null verschiedenen VRAM-Wert. Wenn Sie "CPU" sehen, wurde das Vulkan-Backend nicht initialisiert — überprüfen Sie, ob das Paket `vulkan-icd-loader` auf Ihrer Linux-Distribution installiert ist.

Modell	VRAM bei Q4_K_M	Geschwindigkeit (MAX 395 Vulkan)	Passt in 96 GB?
Llama 3.3 8B	4,9 GB	~22 tok/s	✓
Qwen 3 14B	9,3 GB	~13 tok/s	✓
Qwen 3 32B	19,4 GB	~7 tok/s	✓
Llama 3.3 70B	~41 GB	~3 tok/s	✓
Qwen 3 72B	~43 GB	~3 tok/s	✓

Minisforum AI370-G Preis bei Amazon.de prüfenProduktlink · offengelegtRyzen AI Max 395 Mini-PC bei Mindfactory.deProduktlink · offengelegt

Strix Halo vs. RTX 4090: Speicher gewinnt, Geschwindigkeit verliert

Der Ryzen AI Max 395 tauscht GPU-Geschwindigkeit gegen Speicherkapazität. Eine RTX 4090 führt Llama 3.3 8B mit ~45 tok/s aus, gegenüber ~22 tok/s auf Strix Halo Vulkan. Für 7B- und 14B-Modelle ist die RTX 4090 schneller. Aber die RTX 4090 ist auf 24 GB VRAM begrenzt — Strix Halo MAX 395 hält 96 GB, was Modellgrößen ermöglicht, die auf einer Desktop-GPU schlicht unmöglich sind.

Der praktische Anwendungsfall für Strix Halo ist das lokale Ausführen von 32B–70B-Modellen ohne Cloud-APIs. Qwen 3 32B bei Q4_K_M (~19 GB) läuft mit ~7 tok/s — langsam für interaktiven Chat, aber geeignet für Batch-Zusammenfassungen, Dokumentenverarbeitung oder nächtliche Fine-Tuning-Jobs. Llama 3.3 70B bei Q4_K_M (~41 GB) ist mit ~3 tok/s erreichbar und eignet sich für hochwertige Einzelabfragen.

Unter Windows fällt Ollama für Strix Halo Stand Mitte 2026 standardmäßig auf CPU-Inferenz zurück, da die ROCm-iGPU-Unterstützung für gfx1150 im offiziellen Ollama-Windows-Build noch nicht abgeschlossen ist. Der Vulkan-Pfad erfordert das Kompilieren von llama.cpp aus dem Quellcode mit `-DGGML_VULKAN=ON`. Linux wird für GPU-beschleunigte Strix-Halo-Inferenz empfohlen, bis der Windows-ROCm-Pfad ausgereift ist.

Einen Vergleich mit anderer Apple-Silicon-APU-Hardware finden Sie im Mac Mini M4 für lokale LLMs-Bite, der den alternativen Unified-Memory-Ansatz unter macOS behandelt.

Weiterführende Artikel

▸Mac Mini M4 für lokale LLMs — Apple-Unified-Memory-Alternative zu Strix Halo
▸Bester Mini-PC für lokale LLMs — Mini-PC-Vergleich mit AMD- und Apple-Optionen
▸Beste Budget-GPUs für lokale LLMs — diskrete GPU-Optionen für Linux-Desktop-Builds

Schnelle Antworten zu Strix Halo und Ollama Vulkan

Unterstützt AMD Strix Halo ROCm in Ollama?▾

Stand Mitte 2026 nicht vollständig. Die ROCm-Unterstützung für gfx1150 (RDNA 3.5) befindet sich in Entwicklung, ist in den offiziellen Ollama-Builds jedoch noch nicht stabil. Das Vulkan-Backend ist der derzeit zuverlässige GPU-Beschleunigungspfad unter Linux. Überprüfen Sie die Ollama-GitHub-Releases-Seite auf Updates zur ROCm-iGPU-Unterstützung.

Kann ich Ollama mit Strix Halo Vulkan unter Windows verwenden?▾

Experimentell ja. Der offizielle Ollama-Windows-Build macht das Vulkan-Backend für Strix Halo standardmäßig nicht zugänglich — er fällt auf die CPU zurück. Sie können llama.cpp aus dem Quellcode mit -DGGML_VULKAN=ON unter Windows kompilieren, um es zu aktivieren, aber dies erfordert einen manuellen Build-Prozess. Linux ist die empfohlene Plattform für Strix-Halo-Vulkan-Inferenz.

Was ist das größte Modell, das auf Ryzen AI Max 395 passt?▾

Mit 96 GB Unified Memory nimmt der Ryzen AI Max 395 Llama 3.3 70B bei Q4_K_M (~41 GB) oder Qwen 3 72B bei Q4_K_M (~43 GB) auf, jeweils noch mit Speicherreserve. Für sehr große Modelle passt Qwen 3 72B bei Q5_K_M (~55 GB) ebenfalls, obwohl die Geschwindigkeit auf etwa 2 tok/s sinkt. Modelle, die über 90 GB benötigen (z. B. 70B bei Q8_0), überschreiten den verfügbaren Pool.

Welches Kontextfenster schafft Strix Halo in Ollama — gibt es ein 64K-Limit?▾

Es gibt kein hartes 64K-Token-Limit; die Obergrenze ist Ihr Unified Memory. Auf einem 96-GB-Ryzen AI Max 395 betreibt ein 30B-Modell bei Q4_K_M bequem einen Kontext von 64K–96K (etwa 36–45 GB gesamt für Gewichte plus KV-Cache). Legen Sie die Größe mit Ollamas num_ctx-Parameter (oder der Umgebungsvariable OLLAMA_CONTEXT_LENGTH) fest und behalten Sie OLLAMA_FLASH_ATTENTION=1 bei, um den KV-Cache-Speicher zu reduzieren. Sie können auf 128K–200K gehen, aber es wird speicherbegrenzt (~50–70 GB) und die Prompt-Verarbeitung verlangsamt sich auf dem Vulkan/RADV-Backend — ein optimierter ROCm-Build ist bei sehr langem Kontext etwa 3× schneller (rund 51 vs. 17 tok/s Prompt-Verarbeitung jenseits von ~130K).

Wie schneidet Strix Halo im Vergleich zu Mac Studio M4 Ultra für Ollama ab?▾

Mac Studio M4 Ultra verfügt über 192 GB Unified Memory und verwendet Metal-Beschleunigung via llama.cpp — deutlich schneller als Strix Halo Vulkan auf Token-Basis (~12 tok/s bei 70B Q4_K_M vs. ~3 tok/s auf Strix Halo). Für Inferenzqualität und -geschwindigkeit bei großen Modellen gewinnt M4 Ultra. Strix Halo ist nur im 8B–32B-Bereich wettbewerbsfähig und läuft auf einem Standard-Linux-Workflow.

← Zurück zu Prompt-Häppchen