Peut-on faire tourner des LLMs locaux sur une Radeon RX 6800M ?
Réponse rapide
Oui. La Radeon RX 6800M dispose de 12 Go de VRAM GDDR6 et peut faire tourner des LLMs locaux. Sur Linux, utilisez ROCm pour l'accélération GPU. Sur Windows, utilisez llama.cpp avec Vulkan ou en fallback CPU. Llama 3 8B Q4_K_M tourne à ~12 tok/s sur Linux avec ROCm.
- ▸Linux + ROCm : accélération GPU complète, ~12 tok/s sur Llama 3 8B Q4
- ▸Windows : llama.cpp avec backend Vulkan pour déchargement GPU partiel
- ▸12 Go de VRAM supporte les modèles jusqu'à 14B en Q4_K_M
Mis à jour : 2026-05
Points clés
- ✓La Radeon RX 6800M est une puce RDNA 2 mobile avec 12 Go de VRAM GDDR6 — ce n'est PAS la RX 6800 de bureau, qui utilise un chip GPU différent avec un support ROCm différent
- ✓Le backend Vulkan (Ollama ou llama.cpp) est le chemin inter-plateforme le plus fiable ; Linux + ROCm offre une vitesse plus élevée (~12 tok/s) quand cela fonctionne
- ✓Les vitesses Vulkan sont 30–40 % plus lentes que CUDA sur des cartes NVIDIA équivalentes — attendez-vous à ~14 tok/s sur Llama 3 8B vs ~25 tok/s sur une carte NVIDIA 12 Go
- ✓Toujours connecté à l'alimentation : les GPU AMD mobiles réduisent sa fréquence sur batterie et l'inférence LLM fonctionne 40–50 % plus lentement
Ce que la Radeon 6800M peut réellement faire tourner
La Radeon RX 6800M est une puce RDNA 2 mobile avec 12 Go de VRAM GDDR6 — ce n'est pas la RX 6800 de bureau, qui utilise un chip GPU différent avec un support ROCm différent. Avec 12 Go, la 6800M s'adapte à des modèles jusqu'à 14B en Q4_K_M sans déchargement de couches, ce qui correspond à la capacité d'une RTX 3060 de bureau 12 Go.
Le support ROCm pour les chips RDNA 2 mobiles a été historiquement incohérent — vérifiez la matrice officielle de support GPU AMD ROCm avant de vous y fier. Sur Linux où ROCm fonctionne, Ollama détecte automatiquement la 6800M et Llama 3 8B Q4_K_M atteint environ 12 tok/s. Le backend Vulkan dans Ollama ou llama.cpp s'exécute sur Windows et Linux sans dépendance ROCm et est le chemin inter-plateforme le plus fiable.
Les vitesses Vulkan sont 30–40 % inférieures à CUDA sur le matériel NVIDIA équivalent : le même modèle qui s'exécute à ~25 tok/s sur une RTX 3060 12 Go atteint ~14 tok/s sur la 6800M via Vulkan. Pour une comparaison avec un rig CUDA à 8 Go de VRAM, voir la comparaison du rig AMD 5700X + RTX 3070 Ti.
| Modèle | VRAM Q4 | Vitesse testée |
|---|---|---|
| Llama 3 8B Q4_K_M | ~5 Go | ~14 tok/s (Vulkan) |
| Mistral Small Q5_K_M | ~6 Go | ~13 tok/s (Vulkan) |
| Phi-4 14B Q4 | ~9 Go | ~10 tok/s (Vulkan) |
| Qwen 3 14B Q4_K_M | ~9 Go | ~9 tok/s (Vulkan) |
Configuration des LLMs locaux sur la 6800M
Sur Linux, installez Ollama — il inclut le support Vulkan par défaut et détecte automatiquement la 6800M. Si ROCm fonctionne sur votre chip spécifique (vérifiez la matrice de support GPU AMD ROCm), Ollama l'utilisera automatiquement et livrera environ 12 tok/s sur Llama 3 8B Q4_K_M au lieu de la baseline Vulkan.
Sur Windows, ROCm natif n'est pas disponible de manière fiable pour la 6800M. Utilisez Ollama avec son support Vulkan ou téléchargez un binaire Vulkan précompilé de llama.cpp et chargez votre GGUF avec -ngl 33 pour décharger les couches sur le GPU. WSL2 avec passage de GPU est une autre option pour accéder aux avantages Linux-only ROCm sans dual-boot.
Toujours connecté à l'alimentation — les GPU AMD mobiles réduisent sa fréquence agressivement sur batterie et la vitesse d'inférence LLM chute 40–50 % sans électricité. Pour la comparaison complète des GPU entre NVIDIA et AMD, voir le guide des meilleures GPU pour LLMs locaux.
ollama run llama3:8b et vérifiez l'utilisation du GPU avec rocm-smi (si ROCm) ou vérifiez ollama ps. Si le modèle revient au CPU, confirmez la détection GPU avec ollama info.Guides associés
- ▸Strix Halo + Ollama + Vulkan: Guide de performance -- Strix Halo Ollama Vulkan setup