Réponse rapide
Oui. La Radeon RX 6800M dispose de 12 Go de VRAM GDDR6 et peut faire tourner des LLMs locaux. Sur Linux, utilisez ROCm pour l'accélération GPU. Sur Windows, utilisez llama.cpp avec Vulkan ou en fallback CPU. Llama 3 8B Q4_K_M tourne à ~12 tok/s sur Linux avec ROCm.
Mis à jour : 2026-05
Points clés
La Radeon RX 6800M est un GPU mobile avec 12 Go de VRAM GDDR6 — suffisant pour faire tourner des modèles jusqu'à 14B paramètres en quantisation Q4_K_M sans déchargement de couches. C'est le plus grand pool VRAM de tous les GPU AMD mobiles de sa génération.
Le support logiciel est la contrainte principale. Sur Linux, ROCm fournit une accélération GPU OpenCL/HIP complète et Ollama détecte la 6800M automatiquement. Exécutez ollama pull llama3:8b puis ollama run llama3:8b. Le débit mesuré sur Llama 3 8B Q4_K_M est d'environ 12 tok/s.
Sur Windows, AMD ROCm ne supporte pas la 6800M dans sa pile de pilotes grand public (mi-2026). La solution pratique est llama.cpp compilé avec Vulkan, qui décharge les couches de calcul sur le GPU et atteint une accélération partielle. Attendez 6 à 8 tok/s sur Llama 3 8B Q4_K_M via Vulkan.
| Plateforme | Backend | Vitesse Llama 3 8B Q4 |
|---|---|---|
| Linux | ROCm (Ollama) | ~12 tok/s |
| Windows | Vulkan (llama.cpp) | ~6–8 tok/s |
| Windows/Linux | CPU uniquement | ~3–5 tok/s |
12 Go de VRAM représente une vraie amélioration par rapport aux cartes 8 Go. Vous pouvez faire tourner des modèles 13B en Q4_K_M (~8,5 Go) et même des modèles 14B en Q4 sans atteindre le plafond. Cela ouvre la voie à des modèles comme Mistral Nemo 12B qui tiennent exactement dans 12 Go.
Pour les tâches de codage, DeepSeek Coder 6,7B en Q4_K_M n'utilise que ~5 Go de VRAM et tourne près de 20 tok/s sur la 6800M sous Linux. Cela laisse une capacité substantielle pour des fenêtres de contexte plus larges. Avec 12 Go, vous avez aussi de la place pour des contextes plus longs sans éviction du cache KV.
Pour une comparaison des cartes 12 Go VRAM chez NVIDIA et AMD et les modèles qu'elles supportent, consultez le guide des meilleures GPU pour LLMs locaux.
ollama pull llama3:8b puis ollama run llama3:8b. Vérifiez l'utilisation GPU avec rocm-smi pendant l'exécution du modèle.-ngl 33 pour décharger les couches sur le GPU.