PromptQuorumPromptQuorum

Strix Halo(Ryzen AI Max)+ Ollama Vulkan:セットアップとパフォーマンス

クイック回答

はい — Ryzen AI Max(Strix Halo、RDNA 3.5)はLinux上でVulkan経由でOllamaを動作させます。MAX 395の96 GBユニファイドメモリで、Qwen 32BとLlama 70B Q4_K_M(デスクトップGPU単体では不可能)を格納できます。

  • Linux:OllamaはStrix Halo Vulkanを自動検出;長いコンテキストセッションにはOLLAMA_FLASH_ATTENTION=1を設定
  • Ryzen AI Max 395(96 GB):Llama 70B Q4_K_M(~41 GB)とQwen 32B Q4_K_M(~19 GB)を同時にメモリに格納可能
  • Windows向けStrix Halo Vulkanパスは実験的;GPU加速Ollamaの安定プラットフォームはLinux

更新: 2026-05

Hardware-Specific

重要なポイント

  • Ryzen AI Max 395(Strix Halo、40 RDNA 3.5 CU、96 GB LPDDR5X)はLinux上のOllamaでVulkanバックエンドを使用 — ROCm iGPUサポートが利用できない場合の正しいGPUパス
  • 96 GBユニファイドメモリプールが重要な優位点:Llama 70B Q4_K_M(~41 GB)を格納可能 — 他のセットアップでは複数の独立GPUが必要なモデル
  • Ryzen AI Max 395での速度:Llama 3.1 8B ~22 tok/s、Qwen 2.5 14B ~13 tok/s、Qwen 2.5 32B ~7 tok/s(Vulkan経由)
  • OllamaにおけるStrix HaloのWindowsサポートは成熟中;2026年半ば時点ではVulkan経由のLinuxが安定したパス

Strix HaloでOllama with Vulkanを実行する方法

Linux上では、標準のOllamaバイナリをインストールするだけで十分です — RDNA 3.5(gfx1150)をすぐにサポートするVulkanバックエンドを使ったllama.cppを使用します。Vulkanパスに追加のROCmインストールは不要です。通常通り`curl -fsSL https://ollama.com/install.sh | sh`を実行してください。

インストール後、長いセッションでのメモリ効率を高めるためにflash attentionフラグを設定します:`OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`。これによりKVキャッシュのメモリ使用量が削減され、96 GBプール全体に近づく32B以上のモデルを実行する際に特に重要です。

OllamaがGPU(CPUではなく)を使用していることを確認するには、モデルが起動中に`ollama ps`を実行します。出力のPROCESSOR列に"GPU"と表示され、VRAMの値がゼロ以外であることを確認してください。"CPU"と表示される場合、Vulkanバックエンドが初期化されていません — お使いのLinuxディストリビューションに`vulkan-icd-loader`パッケージがインストールされているか確認してください。

モデルQ4_K_M時のVRAM速度(MAX 395 Vulkan)96 GBに収まるか?
Llama 3.1 8B4.9 GB~22 tok/s
Qwen 2.5 14B9.3 GB~13 tok/s
Qwen 2.5 32B19.4 GB~7 tok/s
Llama 3.3 70B~41 GB~3 tok/s
Qwen 2.5 72B~43 GB~3 tok/s

Strix Halo対RTX 4090:メモリで勝り、速度で劣る

Ryzen AI Max 395はGPU速度をメモリ容量と交換します。RTX 4090はLlama 3.1 8Bを~45 tok/sで実行するのに対し、Strix Halo Vulkanでは~22 tok/sです。7Bおよび14BモデルではRTX 4090の方が高速です。しかしRTX 4090は24 GB VRAMに制限されており、Strix Halo MAX 395は96 GBを保有し、デスクトップGPUでは不可能なモデルサイズを実現します。

Strix Haloの実用的なユースケースは、クラウドAPIなしで32B〜70Bモデルをローカルで実行することです。Qwen 2.5 32B(Q4_K_M、~19 GB)は~7 tok/sで動作します — インタラクティブなチャットには遅いですが、バッチ要約、文書処理、または一晩のファインチューニング作業には十分です。Llama 3.3 70B(Q4_K_M、~41 GB)は~3 tok/sで実行可能で、高品質な単発クエリに適しています。

Windowsでは、gfx1150のROCm iGPUサポートが公式OllamaのWindowsビルドでまだ完成していないため、Strix Halo向けOllamaは2026年半ば時点でデフォルトのCPU推論にフォールバックします。VulkanパスはWindowsで`-DGGML_VULKAN=ON`を使ってllama.cppをソースからビルドする必要があります。WindowsのROCmパスが成熟するまでは、GPU加速Strix Halo推論にはLinuxを推奨します。

その他のApple Silicon APUハードウェアとの比較については、macOSでの代替ユニファイドメモリアプローチを扱うローカルLLM向けMac Mini M4のビットをご覧ください。

Strix HaloとOllama Vulkanに関するよくある質問

AMD Strix HaloはOllamaでROCmをサポートしていますか?
2026年半ば時点では完全にはサポートされていません。gfx1150(RDNA 3.5)のROCmサポートは進行中ですが、公式Ollamaビルドではまだ安定していません。VulkanバックエンドがLinux上で現在信頼できるGPU加速パスです。ROCm iGPUサポートの最新情報はOllama GitHubリリースページを確認してください。
WindowsでStrix Halo VulkanとOllamaを使用できますか?
実験的には可能です。公式OllamaのWindowsビルドはStrix HaloのVulkanバックエンドをデフォルトで公開しておらず、CPUにフォールバックします。Windowsで有効にするには-DGGML_VULKAN=ONを付けてllama.cppをソースからビルドできますが、手動ビルドプロセスが必要です。Strix Halo Vulkan推論にはLinuxが推奨プラットフォームです。
Ryzen AI Max 395に収まる最大のモデルは何ですか?
96 GBのユニファイドメモリで、Ryzen AI Max 395はLlama 3.3 70B(Q4_K_M、~41 GB)またはQwen 2.5 72B(Q4_K_M、~43 GB)を格納でき、それぞれメモリに余裕があります。非常に大きなモデルの場合、Qwen 2.5 72B(Q5_K_M、~55 GB)も収まりますが、速度は約2 tok/sに低下します。90 GB以上が必要なモデル(例:70B at Q8_0)は利用可能なプールを超えます。
OllamaにおいてStrix HaloとMac Studio M4 Ultraはどう比較されますか?
Mac Studio M4 Ultraは192 GBのユニファイドメモリを持ち、llama.cpp経由でMetal加速を使用します — トークン毎秒ベースでStrix Halo Vulkanより大幅に高速(70B Q4_K_Mで~12 tok/s対Strix Haloの~3 tok/s)。大型モデルの推論品質と速度ではM4 Ultraが優れています。Strix Haloは8B〜32Bの範囲でのみ競争力があり、標準的なLinuxワークフローで動作します。