Können Sie lokale LLMs auf einer Radeon RX 6800M ausführen?
Schnelle Antwort
Ja. Die Radeon RX 6800M hat 12 GB GDDR6 VRAM und kann lokale LLMs ausführen. Unter Linux verwenden Sie ROCm für GPU-Beschleunigung. Unter Windows nutzen Sie llama.cpp mit Vulkan oder CPU-Fallback. Llama 3 8B Q4_K_M läuft auf Linux mit ROCm bei ~12 tok/s.
- ▸Linux + ROCm: vollständige GPU-Beschleunigung, ~12 tok/s auf Llama 3 8B Q4
- ▸Windows: llama.cpp mit Vulkan-Backend für partielles GPU-Offloading
- ▸12 GB VRAM unterstützt Modelle bis 14B bei Q4_K_M
Aktualisiert: 2026-05
Wichtigste Punkte
- ✓Die Radeon RX 6800M ist ein mobiler RDNA-2-Chip mit 12 GB GDDR6 VRAM — NICHT die Desktop-RX-6800, die einen anderen GPU-Chip mit unterschiedlichem ROCm-Support verwendet
- ✓Vulkan-Backend (Ollama oder llama.cpp) ist der zuverlässigste Cross-Platform-Pfad; Linux + ROCm liefert höhere Geschwindigkeit (~12 tok/s), wenn es funktioniert
- ✓Vulkan-Geschwindigkeiten sind 30–40% langsamer als CUDA auf vergleichbaren NVIDIA-Karten — erwarten Sie ~14 tok/s auf Llama 3 8B vs. ~25 tok/s auf einer 12-GB-NVIDIA-Karte
- ✓Immer mit Stromversorgung arbeiten: AMD-mobile GPUs drosseln bei Batteriebetrieb und LLM-Inferenz ist 40–50% langsamer
Was die Radeon RX 6800M tatsächlich ausführen kann
Die Radeon RX 6800M ist ein mobiler RDNA-2-Chip mit 12 GB GDDR6 VRAM — dies ist nicht die Desktop-RX-6800, die einen anderen GPU-Chip mit unterschiedlichem ROCm-Support verwendet. Mit 12 GB passt die 6800M zu Modellen bis 14B bei Q4_K_M ohne Layer-Offloading und entspricht der Kapazität einer Desktop-RTX-3060 mit 12 GB.
ROCm-Support für mobile RDNA-2-Chips ist historisch inkonsistent gewesen — überprüfen Sie vor der Verwendung die offizielle AMD ROCm GPU-Unterstützungsmatrix. Unter Linux, wo ROCm funktioniert, erkennt Ollama die 6800M automatisch und Llama 3 8B Q4_K_M erreicht ungefähr 12 tok/s. Das Vulkan-Backend in Ollama oder llama.cpp läuft auf Windows und Linux ohne ROCm-Abhängigkeit und ist der zuverlässigste Cross-Platform-Pfad.
Vulkan-Geschwindigkeiten sind 30–40% niedriger als CUDA auf vergleichbarer NVIDIA-Hardware: das gleiche Modell, das auf einer RTX 3060 mit 12 GB bei ~25 tok/s läuft, erreicht via Vulkan auf der 6800M ~14 tok/s. Für einen Vergleich mit einem CUDA-System mit 8 GB VRAM, siehe die AMD 5700X + RTX 3070 Ti Rig-Vergleich.
| Modell | VRAM Q4 | Getestete Geschwindigkeit |
|---|---|---|
| Llama 3 8B Q4_K_M | ~5 GB | ~14 tok/s (Vulkan) |
| Mistral Small Q5_K_M | ~6 GB | ~13 tok/s (Vulkan) |
| Phi-4 14B Q4 | ~9 GB | ~10 tok/s (Vulkan) |
| Qwen 3 14B Q4_K_M | ~9 GB | ~9 tok/s (Vulkan) |
Einrichten von lokalen LLMs auf der 6800M
Unter Linux installieren Sie Ollama — es enthält standardmäßig Vulkan-Support und erkennt die 6800M automatisch. Wenn ROCm auf Ihrem spezifischen Chip funktioniert (überprüfen Sie die AMD ROCm GPU-Unterstützungsmatrix), verwendet Ollama es automatisch und liefert ungefähr 12 tok/s auf Llama 3 8B Q4_K_M statt der Vulkan-Baseline.
Unter Windows ist natives ROCm für die 6800M nicht zuverlässig verfügbar. Verwenden Sie Ollama mit Vulkan-Support oder laden Sie ein vorkompiliertes Vulkan-Binary von llama.cpp herunter und laden Sie Ihr GGUF mit -ngl 33, um Layer auf die GPU auszulagern. WSL2 mit GPU-Passthrough ist eine weitere Option, um Linux-exklusive ROCm-Vorteile ohne Dual-Boot zu nutzen.
Immer mit Stromversorgung arbeiten — AMD-mobile GPUs drosseln aggressiv bei Batteriebetrieb und die LLM-Inferenz-Geschwindigkeit sinkt 40–50% ohne Strom. Für den vollständigen GPU-Vergleich zwischen NVIDIA und AMD, siehe den Leitfaden zu den besten GPUs für lokale LLMs.
ollama run llama3:8b aus und überprüfen Sie die GPU-Nutzung mit rocm-smi (bei ROCm) oder überprüfen Sie ollama ps. Wenn das Modell auf CPU zurückfällt, bestätigen Sie die GPU-Erkennung mit ollama info.Verwandte Leitfäden
- ▸Strix Halo + Ollama + Vulkan: Leistungshandbuch -- Strix Halo Ollama Vulkan setup