¿Puedes ejecutar LLMs locales en una Radeon RX 6800M?
Respuesta rápida
Sí. La Radeon RX 6800M tiene 12 GB de GDDR6 VRAM y puede ejecutar LLMs locales. En Linux, usa ROCm para aceleración GPU. En Windows, usa llama.cpp con Vulkan o CPU como respaldo. Llama 3 8B Q4_K_M corre a ~12 tok/s en Linux con ROCm.
- ▸Linux + ROCm: aceleración GPU completa, ~12 tok/s en Llama 3 8B Q4
- ▸Windows: usa llama.cpp con backend Vulkan para descarga parcial a GPU
- ▸12 GB VRAM soporta modelos de hasta 14B en Q4_K_M
Actualizado: 2026-05
Puntos clave
- ✓La Radeon RX 6800M es un chip móvil RDNA 2 con 12 GB GDDR6 VRAM — NO es la RX 6800 de escritorio, que usa un die de GPU diferente con distinta cobertura de soporte ROCm
- ✓El backend Vulkan (Ollama o llama.cpp) es el camino más confiable entre plataformas; Linux + ROCm ofrece mayor velocidad (~12 tok/s) cuando funciona
- ✓Las velocidades con Vulkan son 30–40% más lentas que CUDA en tarjetas NVIDIA equivalentes — espera ~14 tok/s en Llama 3 8B vs ~25 tok/s en una tarjeta NVIDIA de 12 GB
- ✓Siempre trabaja conectado a la corriente: las GPU AMD móviles reducen su frecuencia con batería y la inferencia LLM corre 40–50% más lento
Qué puede ejecutar realmente la Radeon 6800M
A mayo de 2026, la Radeon RX 6800M es un chip móvil RDNA 2 con 12 GB GDDR6 VRAM — no es la RX 6800 de escritorio, que usa un die de GPU diferente con distinta cobertura de soporte ROCm. Con 12 GB, la 6800M carga modelos de hasta 14B en Q4_K_M sin layer offloading, igualando la capacidad de una RTX 3060 de escritorio con 12 GB.
El soporte ROCm para chips RDNA 2 móviles ha sido históricamente inconsistente — verifica la matriz oficial de soporte de GPU de AMD ROCm antes de depender de él. En Linux donde ROCm funciona, Ollama detecta automáticamente la 6800M y Llama 3 8B Q4_K_M alcanza aproximadamente 12 tok/s. El backend Vulkan en Ollama o llama.cpp corre en Windows y Linux sin dependencia de ROCm y es el camino más confiable entre plataformas.
Las velocidades con Vulkan son 30–40% menores que CUDA en hardware NVIDIA equivalente: el mismo modelo que corre a ~25 tok/s en una RTX 3060 de 12 GB alcanza ~14 tok/s en la 6800M vía Vulkan. Para comparar con un equipo CUDA de 8 GB VRAM, consulta la comparación del equipo AMD 5700X + RTX 3070 Ti.
| Modelo | VRAM Q4 | Velocidad medida |
|---|---|---|
| Llama 3 8B Q4_K_M | ~5 GB | ~14 tok/s (Vulkan) |
| Mistral 7B Q5_K_M | ~6 GB | ~13 tok/s (Vulkan) |
| Phi-4 14B Q4 | ~9 GB | ~10 tok/s (Vulkan) |
| Qwen 2.5 14B Q4_K_M | ~9 GB | ~9 tok/s (Vulkan) |
Cómo configurar LLMs locales en la 6800M
En Linux, instala Ollama — incluye soporte Vulkan por defecto y detecta automáticamente la 6800M. Si ROCm funciona en tu chip específico (consulta la matriz de soporte de GPU AMD ROCm), Ollama lo usará automáticamente y entregará aproximadamente 12 tok/s en Llama 3 8B Q4_K_M en lugar de la línea base Vulkan.
En Windows, el ROCm nativo no está disponible de forma confiable para la 6800M. Usa Ollama con su soporte Vulkan o descarga un binario Vulkan precompilado de llama.cpp y carga tu GGUF con -ngl 33 para descargar capas a la GPU. WSL2 con GPU passthrough es otra opción para acceder a los beneficios exclusivos de ROCm en Linux sin dual-boot.
Siempre trabaja conectado a la corriente — las GPU AMD móviles reducen su frecuencia agresivamente con batería y la velocidad de inferencia LLM cae 40–50% sin alimentación. Para la comparación completa de GPU entre NVIDIA y AMD, consulta la guía de las mejores GPU para LLMs locales.
ollama run llama3:8b y verifica el uso de GPU con rocm-smi (si usas ROCm) o revisa ollama ps. Si el modelo cae a CPU, confirma la detección de GPU con ollama info.