クイック回答
はい。Radeon RX 6800M は 12 GB GDDR6 VRAM を持ち、ローカル LLM を実行できます。Linux では ROCm で GPU 加速、Windows では Vulkan バックエンドの llama.cpp か CPU フォールバックを使用します。Linux + ROCm での Llama 3 8B Q4_K_M は ~12 tok/s で動作します。
更新: 2026-05
重要なポイント
Radeon RX 6800M は 12 GB GDDR6 VRAM を持つモバイル GPU で、Q4_K_M 量子化でレイヤーオフロードなしに最大 14B パラメータのモデルを実行できます。 これは同世代のモバイル AMD GPU の中で最大の VRAM です。
ソフトウェアサポートが主な制約です。Linux では ROCm が完全な OpenCL/HIP GPU 加速を提供し、Ollama が 6800M を自動検出します。ollama pull llama3:8b を実行後 ollama run llama3:8b で起動します。Llama 3 8B Q4_K_M の実測スループットは約 12 tok/s です。
Windows では AMD ROCm が 2026 年中頃時点でコンシューマードライバースタック内で 6800M をサポートしていません。実用的な解決策は Vulkan でビルドした llama.cpp で、GPU に演算レイヤーをオフロードし部分的な加速を実現します。Vulkan 経由の Llama 3 8B Q4_K_M では 6〜8 tok/s を見込んでください。
| プラットフォーム | バックエンド | Llama 3 8B Q4 速度 |
|---|---|---|
| Linux | ROCm (Ollama) | ~12 tok/s |
| Windows | Vulkan (llama.cpp) | ~6–8 tok/s |
| Windows/Linux | CPU のみ | ~3–5 tok/s |
12 GB の VRAM は 8 GB カードと比べて大きなアドバンテージです。Q4_K_M の 13B モデル(~8.5 GB VRAM)や Q4 の 14B モデルも上限なしに実行できます。 これにより、ちょうど 12 GB に収まる Mistral Nemo 12B などのモデルも使用可能になります。
コーディングタスクでは、DeepSeek Coder 6.7B(Q4_K_M)がわずか ~5 GB VRAM を使用し、Linux の 6800M で 20 tok/s 近くで動作します。これにより大きなコンテキストウィンドウのための十分な容量が残ります。12 GB では KV キャッシュを退避させることなく長いコンテキストも扱えます。
NVIDIA と AMD の 12 GB VRAM カードの比較や対応モデルについては、ローカル LLM 向け GPU ガイドをご覧ください。
ollama pull llama3:8b を実行後 ollama run llama3:8b で起動します。モデル実行中に rocm-smi で GPU 使用を確認できます。-ngl 33 で GGUF モデルをロードしてレイヤーを GPU にオフロードします。