Peut-on faire tourner des LLMs locaux sur une Radeon RX 6800M ?

Lire en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Réponse rapide

Oui. La Radeon RX 6800M dispose de 12 Go de VRAM GDDR6 et peut faire tourner des LLMs locaux. Sur Linux, utilisez ROCm pour l'accélération GPU. Sur Windows, utilisez llama.cpp avec Vulkan ou en fallback CPU. Llama 3 8B Q4_K_M tourne à ~12 tok/s sur Linux avec ROCm.

▸Linux + ROCm : accélération GPU complète, ~12 tok/s sur Llama 3 8B Q4
▸Windows : llama.cpp avec backend Vulkan pour déchargement GPU partiel
▸12 Go de VRAM supporte les modèles jusqu'à 14B en Q4_K_M

Mis à jour : 2026-05

Hardware-Specific

Points clés

✓La Radeon RX 6800M est une puce RDNA 2 mobile avec 12 Go de VRAM GDDR6 — ce n'est PAS la RX 6800 de bureau, qui utilise un chip GPU différent avec un support ROCm différent
✓Le backend Vulkan (Ollama ou llama.cpp) est le chemin inter-plateforme le plus fiable ; Linux + ROCm offre une vitesse plus élevée (~12 tok/s) quand cela fonctionne
✓Les vitesses Vulkan sont 30–40 % plus lentes que CUDA sur des cartes NVIDIA équivalentes — attendez-vous à ~14 tok/s sur Llama 3 8B vs ~25 tok/s sur une carte NVIDIA 12 Go
✓Toujours connecté à l'alimentation : les GPU AMD mobiles réduisent sa fréquence sur batterie et l'inférence LLM fonctionne 40–50 % plus lentement

Ce que la Radeon 6800M peut réellement faire tourner

La Radeon RX 6800M est une puce RDNA 2 mobile avec 12 Go de VRAM GDDR6 — ce n'est pas la RX 6800 de bureau, qui utilise un chip GPU différent avec un support ROCm différent. Avec 12 Go, la 6800M s'adapte à des modèles jusqu'à 14B en Q4_K_M sans déchargement de couches, ce qui correspond à la capacité d'une RTX 3060 de bureau 12 Go.

Le support ROCm pour les chips RDNA 2 mobiles a été historiquement incohérent — vérifiez la matrice officielle de support GPU AMD ROCm avant de vous y fier. Sur Linux où ROCm fonctionne, Ollama détecte automatiquement la 6800M et Llama 3 8B Q4_K_M atteint environ 12 tok/s. Le backend Vulkan dans Ollama ou llama.cpp s'exécute sur Windows et Linux sans dépendance ROCm et est le chemin inter-plateforme le plus fiable.

Les vitesses Vulkan sont 30–40 % inférieures à CUDA sur le matériel NVIDIA équivalent : le même modèle qui s'exécute à ~25 tok/s sur une RTX 3060 12 Go atteint ~14 tok/s sur la 6800M via Vulkan. Pour une comparaison avec un rig CUDA à 8 Go de VRAM, voir la comparaison du rig AMD 5700X + RTX 3070 Ti.

Modèle	VRAM Q4	Vitesse testée
Llama 3 8B Q4_K_M	~5 Go	~14 tok/s (Vulkan)
Mistral Small Q5_K_M	~6 Go	~13 tok/s (Vulkan)
Phi-4 14B Q4	~9 Go	~10 tok/s (Vulkan)
Qwen 3 14B Q4_K_M	~9 Go	~9 tok/s (Vulkan)

Configuration des LLMs locaux sur la 6800M

Sur Linux, installez Ollama — il inclut le support Vulkan par défaut et détecte automatiquement la 6800M. Si ROCm fonctionne sur votre chip spécifique (vérifiez la matrice de support GPU AMD ROCm), Ollama l'utilisera automatiquement et livrera environ 12 tok/s sur Llama 3 8B Q4_K_M au lieu de la baseline Vulkan.

Sur Windows, ROCm natif n'est pas disponible de manière fiable pour la 6800M. Utilisez Ollama avec son support Vulkan ou téléchargez un binaire Vulkan précompilé de llama.cpp et chargez votre GGUF avec -ngl 33 pour décharger les couches sur le GPU. WSL2 avec passage de GPU est une autre option pour accéder aux avantages Linux-only ROCm sans dual-boot.

Toujours connecté à l'alimentation — les GPU AMD mobiles réduisent sa fréquence agressivement sur batterie et la vitesse d'inférence LLM chute 40–50 % sans électricité. Pour la comparaison complète des GPU entre NVIDIA et AMD, voir le guide des meilleures GPU pour LLMs locaux.

Testez votre installation : exécutez ollama run llama3:8b et vérifiez l'utilisation du GPU avec rocm-smi (si ROCm) ou vérifiez ollama ps. Si le modèle revient au CPU, confirmez la détection GPU avec ollama info.

Guides associés

▸Strix Halo + Ollama + Vulkan: Guide de performance -- Strix Halo Ollama Vulkan setup

Réponses rapides sur Radeon 6800M et LLMs locaux

La Radeon 6800M supporte-t-elle ROCm officiellement ?▾

Le support ROCm pour les chips RDNA 2 mobiles a été historiquement incohérent. Les cartes RDNA 2 de bureau (RX 6800, RX 6900 XT) sont officiellement listées dans la matrice de support GPU AMD ROCm ; la mobile 6800M est un chip différent. Consultez la page de compatibilité ROCm d'AMD pour le statut actuel avant de vous fier à l'accélération ROCm.

La 6800M est-elle plus rapide que RTX 3070 Mobile pour les LLMs ?▾

Les 12 Go de VRAM de la 6800M par rapport à 8 Go sur la plupart des configurations RTX 3070 Mobile importent davantage pour l'adaptation du modèle que pour la vitesse brute. À taille de modèle égale, la RTX 3070 Mobile bénéficie d'une meilleure intégration du driver CUDA sur Windows. Sur Linux avec ROCm fonctionnant sur la 6800M, l'écart de vitesse se réduit.

Puis-je utiliser des astuces de mémoire unifiée de style Apple Silicon sur AMD mobile ?▾

Non. La 6800M utilise du VRAM GDDR6 dédié séparé de la RAM système — il n'y a pas d'équivalent de pooling mémoire à l'architecture de mémoire unifiée de la série M d'Apple. Les 12 Go sont réservés au GPU ; la RAM système n'est pas adressable comme VRAM supplémentaire.

Quelle température atteint la 6800M lors d'une inférence LLM continue ?▾

Attendez-vous à 80–90°C sous charge d'inférence soutenue, similaire à une session de jeu. L'étranglement thermique au-dessus de ~100°C réduira la vitesse d'inférence. Utilisez Radeon Software (Windows) ou CoreCtrl (Linux) pour définir un profil d'abaissement de tension et assurer une bonne circulation d'air.

← Retour aux Prompts en bref