Skip to main content
PromptQuorumPromptQuorum

Können Sie lokale LLMs auf einer Radeon RX 6800M ausführen?

Schnelle Antwort

Ja. Die Radeon RX 6800M hat 12 GB GDDR6 VRAM und kann lokale LLMs ausführen. Unter Linux verwenden Sie ROCm für GPU-Beschleunigung. Unter Windows nutzen Sie llama.cpp mit Vulkan oder CPU-Fallback. Llama 3 8B Q4_K_M läuft auf Linux mit ROCm bei ~12 tok/s.

  • Linux + ROCm: vollständige GPU-Beschleunigung, ~12 tok/s auf Llama 3 8B Q4
  • Windows: llama.cpp mit Vulkan-Backend für partielles GPU-Offloading
  • 12 GB VRAM unterstützt Modelle bis 14B bei Q4_K_M

Aktualisiert: 2026-05

Hardware-Specific

Wichtigste Punkte

  • Die Radeon RX 6800M ist ein mobiler RDNA-2-Chip mit 12 GB GDDR6 VRAM — NICHT die Desktop-RX-6800, die einen anderen GPU-Chip mit unterschiedlichem ROCm-Support verwendet
  • Vulkan-Backend (Ollama oder llama.cpp) ist der zuverlässigste Cross-Platform-Pfad; Linux + ROCm liefert höhere Geschwindigkeit (~12 tok/s), wenn es funktioniert
  • Vulkan-Geschwindigkeiten sind 30–40% langsamer als CUDA auf vergleichbaren NVIDIA-Karten — erwarten Sie ~14 tok/s auf Llama 3 8B vs. ~25 tok/s auf einer 12-GB-NVIDIA-Karte
  • Immer mit Stromversorgung arbeiten: AMD-mobile GPUs drosseln bei Batteriebetrieb und LLM-Inferenz ist 40–50% langsamer

Was die Radeon RX 6800M tatsächlich ausführen kann

Die Radeon RX 6800M ist ein mobiler RDNA-2-Chip mit 12 GB GDDR6 VRAM — dies ist nicht die Desktop-RX-6800, die einen anderen GPU-Chip mit unterschiedlichem ROCm-Support verwendet. Mit 12 GB passt die 6800M zu Modellen bis 14B bei Q4_K_M ohne Layer-Offloading und entspricht der Kapazität einer Desktop-RTX-3060 mit 12 GB.

ROCm-Support für mobile RDNA-2-Chips ist historisch inkonsistent gewesen — überprüfen Sie vor der Verwendung die offizielle AMD ROCm GPU-Unterstützungsmatrix. Unter Linux, wo ROCm funktioniert, erkennt Ollama die 6800M automatisch und Llama 3 8B Q4_K_M erreicht ungefähr 12 tok/s. Das Vulkan-Backend in Ollama oder llama.cpp läuft auf Windows und Linux ohne ROCm-Abhängigkeit und ist der zuverlässigste Cross-Platform-Pfad.

Vulkan-Geschwindigkeiten sind 30–40% niedriger als CUDA auf vergleichbarer NVIDIA-Hardware: das gleiche Modell, das auf einer RTX 3060 mit 12 GB bei ~25 tok/s läuft, erreicht via Vulkan auf der 6800M ~14 tok/s. Für einen Vergleich mit einem CUDA-System mit 8 GB VRAM, siehe die AMD 5700X + RTX 3070 Ti Rig-Vergleich.

ModellVRAM Q4Getestete Geschwindigkeit
Llama 3 8B Q4_K_M~5 GB~14 tok/s (Vulkan)
Mistral Small Q5_K_M~6 GB~13 tok/s (Vulkan)
Phi-4 14B Q4~9 GB~10 tok/s (Vulkan)
Qwen 3 14B Q4_K_M~9 GB~9 tok/s (Vulkan)

Einrichten von lokalen LLMs auf der 6800M

Unter Linux installieren Sie Ollama — es enthält standardmäßig Vulkan-Support und erkennt die 6800M automatisch. Wenn ROCm auf Ihrem spezifischen Chip funktioniert (überprüfen Sie die AMD ROCm GPU-Unterstützungsmatrix), verwendet Ollama es automatisch und liefert ungefähr 12 tok/s auf Llama 3 8B Q4_K_M statt der Vulkan-Baseline.

Unter Windows ist natives ROCm für die 6800M nicht zuverlässig verfügbar. Verwenden Sie Ollama mit Vulkan-Support oder laden Sie ein vorkompiliertes Vulkan-Binary von llama.cpp herunter und laden Sie Ihr GGUF mit -ngl 33, um Layer auf die GPU auszulagern. WSL2 mit GPU-Passthrough ist eine weitere Option, um Linux-exklusive ROCm-Vorteile ohne Dual-Boot zu nutzen.

Immer mit Stromversorgung arbeiten — AMD-mobile GPUs drosseln aggressiv bei Batteriebetrieb und die LLM-Inferenz-Geschwindigkeit sinkt 40–50% ohne Strom. Für den vollständigen GPU-Vergleich zwischen NVIDIA und AMD, siehe den Leitfaden zu den besten GPUs für lokale LLMs.

Testen Sie Ihr Setup: Führen Sie ollama run llama3:8b aus und überprüfen Sie die GPU-Nutzung mit rocm-smi (bei ROCm) oder überprüfen Sie ollama ps. Wenn das Modell auf CPU zurückfällt, bestätigen Sie die GPU-Erkennung mit ollama info.

Verwandte Leitfäden

Schnelle Antworten zu Radeon 6800M und lokalen LLMs

Unterstützt die Radeon 6800M ROCm offiziell?
ROCm-Support für mobile RDNA-2-Chips ist historisch inkonsistent gewesen. Desktop-RDNA-2-Karten (RX 6800, RX 6900 XT) sind offiziell in der AMD ROCm GPU-Unterstützungsmatrix aufgeführt; die mobile 6800M ist ein anderer Chip. Überprüfen Sie AMDs ROCm-Kompatibilitätsseite für den aktuellen Status, bevor Sie sich auf ROCm-Beschleunigung verlassen.
Ist die 6800M schneller als RTX 3070 Mobile für LLMs?
Die 12 GB VRAM der 6800M versus 8 GB bei den meisten RTX 3070 Mobile-Konfigurationen ist wichtiger für Modellpassform als für Rohgeschwindigkeit. Bei gleicher Modellgröße profitiert die RTX 3070 Mobile von besserer CUDA-Treiberintegration unter Windows. Unter Linux mit ROCm auf der 6800M schließt sich die Geschwindigkeitslücke.
Kann ich Apple-Silicon-artige Unified-Memory-Tricks auf AMD-Mobile nutzen?
Nein. Die 6800M verwendet separaten GDDR6-VRAM getrennt vom Systemspeicher — es gibt kein Memory-Pooling-Äquivalent zu Apples M-Series-Unified-Memory-Architektur. Alle 12 GB sind GPU-nur; der Systemspeicher ist nicht als zusätzliches VRAM adressierbar.
Wie heiß wird die 6800M bei kontinuierlicher LLM-Inferenz?
Erwarten Sie 80–90°C unter kontinuierlicher Inferenzlast, ähnlich wie bei einer Gaming-Sitzung. Thermische Drosselung über ~100°C reduziert die Inferenzgeschwindigkeit. Verwenden Sie Radeon Software (Windows) oder CoreCtrl (Linux), um ein Undervolting-Profil einzustellen und ensure gute Belüftung.