Schnelle Antwort
Ja. Die Radeon RX 6800M hat 12 GB GDDR6 VRAM und kann lokale LLMs ausführen. Unter Linux verwenden Sie ROCm für GPU-Beschleunigung. Unter Windows nutzen Sie llama.cpp mit Vulkan oder CPU-Fallback. Llama 3 8B Q4_K_M läuft auf Linux mit ROCm bei ~12 tok/s.
Aktualisiert: 2026-05
Wichtigste Punkte
Die Radeon RX 6800M ist ein mobiler GPU mit 12 GB GDDR6 VRAM — genug, um Modelle bis 14B Parameter bei Q4_K_M-Quantisierung ohne Layer-Offloading auszuführen. Das ist der größte VRAM aller mobilen AMD-GPUs dieser Generation.
Software-Support ist die Haupteinschränkung. Unter Linux bietet ROCm vollständige OpenCL/HIP-GPU-Beschleunigung, und Ollama erkennt die 6800M automatisch. Führen Sie ollama pull llama3:8b und anschließend ollama run llama3:8b aus. Der gemessene Durchsatz auf Llama 3 8B Q4_K_M liegt bei ca. 12 tok/s.
Unter Windows unterstützt AMD ROCm die 6800M im Consumer-Treiber-Stack (Stand Mitte 2026) nicht. Die praktische Lösung ist llama.cpp, mit Vulkan kompiliert, das Compute-Layer auf die GPU auslagert und partielle Beschleunigung erreicht. Erwarten Sie 6–8 tok/s auf Llama 3 8B Q4_K_M via Vulkan.
| Plattform | Backend | Llama 3 8B Q4-Geschwindigkeit |
|---|---|---|
| Linux | ROCm (Ollama) | ~12 tok/s |
| Windows | Vulkan (llama.cpp) | ~6–8 tok/s |
| Windows/Linux | Nur CPU | ~3–5 tok/s |
12 GB VRAM ist ein deutlicher Vorteil gegenüber 8-GB-Karten. Sie können 13B-Modelle bei Q4_K_M (~8,5 GB VRAM) und sogar 14B-Modelle bei Q4 ausführen, ohne die Grenze zu erreichen. Das ermöglicht Modelle wie Mistral Nemo 12B, die exakt in 12 GB passen.
Für Coding-Aufgaben benötigt DeepSeek Coder 6,7B bei Q4_K_M nur ~5 GB VRAM und läuft unter Linux auf der 6800M nahe 20 tok/s. Das lässt erhebliche Kapazität für größere Kontextfenster. Mit 12 GB haben Sie auch Raum für längere Kontexte, ohne den KV-Cache verdrängen zu müssen.
Für einen Vergleich von 12-GB-VRAM-Karten bei NVIDIA und AMD und welche Modelle sie unterstützen, lesen Sie den Leitfaden zu den besten GPUs für lokale LLMs.
ollama pull llama3:8b und dann ollama run llama3:8b aus. Überprüfen Sie die GPU-Nutzung mit rocm-smi während das Modell läuft.-ngl 33, um Layer auf die GPU auszulagern.