Strix Halo（Ryzen AI Max）+ Ollama Vulkan：セットアップとパフォーマンス

言語を選択:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

このページには参考用の第三者製品へのリンクが含まれています。PromptQuorumはいかなるアフィリエイトプログラムにも参加しておらず、これらはコミッションを得ない単なる参照リンクです。リンクのクリックと次のステップはご自身の責任です。これらのリンクはPromptQuorumによる推奨や検証を表すものではありません。

クイック回答

はい — Ryzen AI Max（Strix Halo、RDNA 3.5）はLinux上でVulkan経由でOllamaを動作させます。MAX 395の96 GBユニファイドメモリで、Qwen 32BとLlama 70B Q4_K_M（デスクトップGPU単体では不可能）を格納できます。

▸Linux：OllamaはStrix Halo Vulkanを自動検出；長いコンテキストセッションにはOLLAMA_FLASH_ATTENTION=1を設定
▸Ryzen AI Max 395（96 GB）：Llama 70B Q4_K_M（~41 GB）とQwen 32B Q4_K_M（~19 GB）を同時にメモリに格納可能
▸コンテキスト：64Kの固定上限なし — num_ctxで設定；30Bモデルでは64K–96Kが快適、128K+はメモリ制約がありVulkanでは低速
▸Windows向けStrix Halo Vulkanパスは実験的；GPU加速Ollamaの安定プラットフォームはLinux

更新: 2026-07

Hardware-Specific

重要なポイント

✓Ryzen AI Max 395（Strix Halo、40 RDNA 3.5 CU、96 GB LPDDR5X）はLinux上のOllamaでVulkanバックエンドを使用 — ROCm iGPUサポートが利用できない場合の正しいGPUパス
✓96 GBユニファイドメモリプールが重要な優位点：Llama 70B Q4_K_M（~41 GB）を格納可能 — 他のセットアップでは複数の独立GPUが必要なモデル
✓Ryzen AI Max 395での速度：Llama 3.3 8B ~22 tok/s、Qwen 3 14B ~13 tok/s、Qwen 3 32B ~7 tok/s（Vulkan経由）
✓OllamaにおけるStrix HaloのWindowsサポートは成熟中；2026年半ば時点ではVulkan経由のLinuxが安定したパス

Strix HaloでOllama with Vulkanを実行する方法

Linux上では、標準のOllamaバイナリをインストールするだけで十分です — RDNA 3.5（gfx1150）をすぐにサポートするVulkanバックエンドを使ったllama.cppを使用します。Vulkanパスに追加のROCmインストールは不要です。通常通り`curl -fsSL https://ollama.com/install.sh | sh`を実行してください。

インストール後、長いセッションでのメモリ効率を高めるためにflash attentionフラグを設定します：`OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`。これによりKVキャッシュのメモリ使用量が削減され、96 GBプール全体に近づく32B以上のモデルを実行する際に特に重要です。

OllamaがGPU（CPUではなく）を使用していることを確認するには、モデルが起動中に`ollama ps`を実行します。出力のPROCESSOR列に"GPU"と表示され、VRAMの値がゼロ以外であることを確認してください。"CPU"と表示される場合、Vulkanバックエンドが初期化されていません — お使いのLinuxディストリビューションに`vulkan-icd-loader`パッケージがインストールされているか確認してください。

モデル	Q4_K_M時のVRAM	速度（MAX 395 Vulkan）	96 GBに収まるか？
Llama 3.3 8B	4.9 GB	~22 tok/s	✓
Qwen 3 14B	9.3 GB	~13 tok/s	✓
Qwen 3 32B	19.4 GB	~7 tok/s	✓
Llama 3.3 70B	~41 GB	~3 tok/s	✓
Qwen 3 72B	~43 GB	~3 tok/s	✓

Amazon.co.jpでMinisforum AI370-Gの価格を確認製品リンク · 開示済みドスパラでRyzen AI Max 395ミニPCを確認製品リンク · 開示済み

Strix Halo対RTX 4090：メモリで勝り、速度で劣る

Ryzen AI Max 395はGPU速度をメモリ容量と交換します。RTX 4090はLlama 3.3 8Bを~45 tok/sで実行するのに対し、Strix Halo Vulkanでは~22 tok/sです。7Bおよび14BモデルではRTX 4090の方が高速です。しかしRTX 4090は24 GB VRAMに制限されており、Strix Halo MAX 395は96 GBを保有し、デスクトップGPUでは不可能なモデルサイズを実現します。

Strix Haloの実用的なユースケースは、クラウドAPIなしで32B〜70Bモデルをローカルで実行することです。Qwen 3 32B（Q4_K_M、~19 GB）は~7 tok/sで動作します — インタラクティブなチャットには遅いですが、バッチ要約、文書処理、または一晩のファインチューニング作業には十分です。Llama 3.3 70B（Q4_K_M、~41 GB）は~3 tok/sで実行可能で、高品質な単発クエリに適しています。

Windowsでは、gfx1150のROCm iGPUサポートが公式OllamaのWindowsビルドでまだ完成していないため、Strix Halo向けOllamaは2026年半ば時点でデフォルトのCPU推論にフォールバックします。VulkanパスはWindowsで`-DGGML_VULKAN=ON`を使ってllama.cppをソースからビルドする必要があります。WindowsのROCmパスが成熟するまでは、GPU加速Strix Halo推論にはLinuxを推奨します。

その他のApple Silicon APUハードウェアとの比較については、macOSでの代替ユニファイドメモリアプローチを扱うローカルLLM向けMac Mini M4のビットをご覧ください。

▸ローカルLLM向けMac Mini M4 — Strix Haloに代わるAppleユニファイドメモリの選択肢
▸ローカルLLMに最適なミニPC — AMDとAppleオプションのミニPC比較
▸ローカルLLM向け予算GPUのベスト — Linuxデスクトップ向けの独立GPU選択肢

Strix HaloとOllama Vulkanに関するよくある質問

AMD Strix HaloはOllamaでROCmをサポートしていますか？▾

2026年半ば時点では完全にはサポートされていません。gfx1150（RDNA 3.5）のROCmサポートは進行中ですが、公式Ollamaビルドではまだ安定していません。VulkanバックエンドがLinux上で現在信頼できるGPU加速パスです。ROCm iGPUサポートの最新情報はOllama GitHubリリースページを確認してください。

WindowsでStrix Halo VulkanとOllamaを使用できますか？▾

実験的には可能です。公式OllamaのWindowsビルドはStrix HaloのVulkanバックエンドをデフォルトで公開しておらず、CPUにフォールバックします。Windowsで有効にするには-DGGML_VULKAN=ONを付けてllama.cppをソースからビルドできますが、手動ビルドプロセスが必要です。Strix Halo Vulkan推論にはLinuxが推奨プラットフォームです。

Ryzen AI Max 395に収まる最大のモデルは何ですか？▾

96 GBのユニファイドメモリで、Ryzen AI Max 395はLlama 3.3 70B（Q4_K_M、~41 GB）またはQwen 3 72B（Q4_K_M、~43 GB）を格納でき、それぞれメモリに余裕があります。非常に大きなモデルの場合、Qwen 3 72B（Q5_K_M、~55 GB）も収まりますが、速度は約2 tok/sに低下します。90 GB以上が必要なモデル（例：70B at Q8_0）は利用可能なプールを超えます。

Strix HaloはOllamaでどのくらいのコンテキストウィンドウを扱えますか — 64Kの制限はありますか？▾

64Kトークンの固定上限はなく、上限はユニファイドメモリです。96 GBのRyzen AI Max 395では、Q4_K_Mの30Bモデルが64K–96Kコンテキストを快適に実行します（重みとKVキャッシュで合計およそ36–45 GB）。サイズはOllamaのnum_ctxパラメータ（またはOLLAMA_CONTEXT_LENGTH環境変数）で設定し、KVキャッシュのメモリを削減するためにOLLAMA_FLASH_ATTENTION=1を維持してください。128K–200Kまで拡張できますが、メモリ制約（~50–70 GB）となり、Vulkan/RADVバックエンドではプロンプト処理が遅くなります — 最適化されたROCmビルドは非常に長いコンテキストで約3倍高速です（~130K超でプロンプト処理が約51対17 tok/s）。

OllamaにおいてStrix HaloとMac Studio M4 Ultraはどう比較されますか？▾

Mac Studio M4 Ultraは192 GBのユニファイドメモリを持ち、llama.cpp経由でMetal加速を使用します — トークン毎秒ベースでStrix Halo Vulkanより大幅に高速（70B Q4_K_Mで~12 tok/s対Strix Haloの~3 tok/s）。大型モデルの推論品質と速度ではM4 Ultraが優れています。Strix Haloは8B〜32Bの範囲でのみ競争力があり、標準的なLinuxワークフローで動作します。

← プロンプト早わかりに戻る

Strix Halo（Ryzen AI Max）+ Ollama Vulkan：セットアップとパフォーマンス

Strix HaloでOllama with Vulkanを実行する方法

Strix Halo対RTX 4090：メモリで勝り、速度で劣る

関連記事

Strix HaloとOllama Vulkanに関するよくある質問