クイック回答
はい — Ryzen AI Max(Strix Halo、RDNA 3.5)はLinux上でVulkan経由でOllamaを動作させます。MAX 395の96 GBユニファイドメモリで、Qwen 32BとLlama 70B Q4_K_M(デスクトップGPU単体では不可能)を格納できます。
更新: 2026-05
重要なポイント
Linux上では、標準のOllamaバイナリをインストールするだけで十分です — RDNA 3.5(gfx1150)をすぐにサポートするVulkanバックエンドを使ったllama.cppを使用します。Vulkanパスに追加のROCmインストールは不要です。通常通り`curl -fsSL https://ollama.com/install.sh | sh`を実行してください。
インストール後、長いセッションでのメモリ効率を高めるためにflash attentionフラグを設定します:`OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`。これによりKVキャッシュのメモリ使用量が削減され、96 GBプール全体に近づく32B以上のモデルを実行する際に特に重要です。
OllamaがGPU(CPUではなく)を使用していることを確認するには、モデルが起動中に`ollama ps`を実行します。出力のPROCESSOR列に"GPU"と表示され、VRAMの値がゼロ以外であることを確認してください。"CPU"と表示される場合、Vulkanバックエンドが初期化されていません — お使いのLinuxディストリビューションに`vulkan-icd-loader`パッケージがインストールされているか確認してください。
| モデル | Q4_K_M時のVRAM | 速度(MAX 395 Vulkan) | 96 GBに収まるか? |
|---|---|---|---|
| Llama 3.1 8B | 4.9 GB | ~22 tok/s | ✓ |
| Qwen 2.5 14B | 9.3 GB | ~13 tok/s | ✓ |
| Qwen 2.5 32B | 19.4 GB | ~7 tok/s | ✓ |
| Llama 3.3 70B | ~41 GB | ~3 tok/s | ✓ |
| Qwen 2.5 72B | ~43 GB | ~3 tok/s | ✓ |
Ryzen AI Max 395はGPU速度をメモリ容量と交換します。RTX 4090はLlama 3.1 8Bを~45 tok/sで実行するのに対し、Strix Halo Vulkanでは~22 tok/sです。7Bおよび14BモデルではRTX 4090の方が高速です。しかしRTX 4090は24 GB VRAMに制限されており、Strix Halo MAX 395は96 GBを保有し、デスクトップGPUでは不可能なモデルサイズを実現します。
Strix Haloの実用的なユースケースは、クラウドAPIなしで32B〜70Bモデルをローカルで実行することです。Qwen 2.5 32B(Q4_K_M、~19 GB)は~7 tok/sで動作します — インタラクティブなチャットには遅いですが、バッチ要約、文書処理、または一晩のファインチューニング作業には十分です。Llama 3.3 70B(Q4_K_M、~41 GB)は~3 tok/sで実行可能で、高品質な単発クエリに適しています。
Windowsでは、gfx1150のROCm iGPUサポートが公式OllamaのWindowsビルドでまだ完成していないため、Strix Halo向けOllamaは2026年半ば時点でデフォルトのCPU推論にフォールバックします。VulkanパスはWindowsで`-DGGML_VULKAN=ON`を使ってllama.cppをソースからビルドする必要があります。WindowsのROCmパスが成熟するまでは、GPU加速Strix Halo推論にはLinuxを推奨します。
その他のApple Silicon APUハードウェアとの比較については、macOSでの代替ユニファイドメモリアプローチを扱うローカルLLM向けMac Mini M4のビットをご覧ください。