Radeon RX 6800M でローカル LLM を実行できますか?
クイック回答
はい。Radeon RX 6800M は 12 GB GDDR6 VRAM を持ち、ローカル LLM を実行できます。Linux では ROCm で GPU 加速、Windows では Vulkan バックエンドの llama.cpp か CPU フォールバックを使用します。Linux + ROCm での Llama 3 8B Q4_K_M は ~12 tok/s で動作します。
- ▸Linux + ROCm:完全な GPU 加速、Llama 3 8B Q4 で ~12 tok/s
- ▸Windows:Vulkan バックエンドの llama.cpp でパーシャル GPU オフロード
- ▸12 GB VRAM は Q4_K_M で 14B までのモデルをサポート
更新: 2026-05
重要なポイント
- ✓Radeon RX 6800M はモバイル RDNA 2 チップで 12 GB GDDR6 VRAM — これはデスクトップ RX 6800 ではなく、異なる GPU ダイで異なる ROCm サポート範囲を持つ
- ✓Vulkan バックエンド(Ollama または llama.cpp)は最も信頼できるクロスプラットフォームパス;Linux + ROCm は機能する場合より高速(~12 tok/s)
- ✓Vulkan 速度は同等の NVIDIA カードの CUDA より 30~40% 遅い — Llama 3 8B で ~14 tok/s を予想対 12 GB NVIDIA カードで ~25 tok/s
- ✓ 常に電源に接続する:AMD モバイル GPU はバッテリー時に周波数低下し LLM 推論は 40~50% 遅くなる
Radeon RX 6800M が実際に実行できること
Radeon RX 6800M はモバイル RDNA 2 チップで 12 GB GDDR6 VRAM — これはデスクトップ RX 6800 ではなく、異なる GPU ダイで異なる ROCm サポート範囲を持つ。 12 GB では 6800M は Q4_K_M で最高 14B のモデルをレイヤーオフロードなしで実行でき、デスクトップ RTX 3060 12 GB と同等の容量。
モバイル RDNA 2 チップの ROCm サポートは歴史的に一貫していない — 依存する前に AMD 公式 ROCm GPU サポートマトリックスを確認してください。ROCm が機能する Linux では Ollama が 6800M を自動検出し Llama 3 8B Q4_K_M は約 12 tok/s に達する。Ollama または llama.cpp の Vulkan バックエンドは Windows と Linux の両方で動作し ROCm 依存なしで最も信頼できるクロスプラットフォームパスです。
Vulkan 速度は同等の NVIDIA ハードウェア上の CUDA より 30~40% 低速:RTX 3060 12 GB で ~25 tok/s で動作する同じモデルは Vulkan で 6800M 上で ~14 tok/s に達する。8 GB VRAM の CUDA リグとの比較については AMD 5700X + RTX 3070 Ti リグ比較を参照。
| モデル | VRAM Q4 | テスト速度 |
|---|---|---|
| Llama 3 8B Q4_K_M | ~5 GB | ~14 tok/s (Vulkan) |
| Mistral Small Q5_K_M | ~6 GB | ~13 tok/s (Vulkan) |
| Phi-4 14B Q4 | ~9 GB | ~10 tok/s (Vulkan) |
| Qwen 3 14B Q4_K_M | ~9 GB | ~9 tok/s (Vulkan) |
6800M でのローカル LLM 設定
Linux では Ollama をインストール — デフォルトで Vulkan サポートが含まれ 6800M を自動検出します。 ROCm が特定のチップで動作している場合(AMD ROCm GPU サポートマトリックスを確認)、Ollama は自動的に使用し Vulkan ベースラインの代わりに Llama 3 8B Q4_K_M で約 12 tok/s を提供します。
Windows では 6800M に対してネイティブ ROCm は確実に利用可能ではない。Vulkan サポート付き Ollama を使用するか llama.cpp の事前ビルド済み Vulkan バイナリをダウンロードし -ngl 33 でレイヤーを GPU にオフロードするために GGUF をロードしてください。GPU パススルー付き WSL2 はデュアルブートなしで Linux 限定 ROCm の利点にアクセスするもう 1 つの選択肢。
常に電源に接続 — AMD モバイル GPU はバッテリー時に積極的に周波数低下し LLM 推論速度は 40~50% 低下。NVIDIA と AMD 間の完全 GPU 比較については ローカル LLM 向けベスト GPU ガイドを参照。
ollama run llama3:8b を実行し rocm-smi(ROCm の場合)で GPU 使用を確認するか ollama ps をチェック。モデルが CPU にフォールバックした場合 ollama info で GPU 検出を確認。関連ガイド
- ▸Strix Halo + Ollama + Vulkan: パフォーマンスガイド -- Strix Halo Ollama Vulkan setup