PromptQuorumPromptQuorum

Strix Halo(Ryzen AI Max)+ Ollama Vulkan:配置与性能

快速回答

可以——Ryzen AI Max(Strix Halo,RDNA 3.5)在 Linux 上通过 Vulkan 运行 Ollama。MAX 395 的 96 GB 统一内存可容纳 Qwen 32B 甚至 Llama 70B Q4_K_M——这是任何单块桌面显卡都无法做到的。

  • Linux:Ollama 自动检测 Strix Halo Vulkan;长上下文会话请设置 OLLAMA_FLASH_ATTENTION=1
  • Ryzen AI Max 395(96 GB):可同时在内存中加载 Llama 70B Q4_K_M(~41 GB)和 Qwen 32B Q4_K_M(~19 GB)
  • Windows Strix Halo Vulkan 路径为实验性;Linux 是 GPU 加速 Ollama 的稳定平台

更新于: 2026-05

Hardware-Specific

关键要点

  • Ryzen AI Max 395(Strix Halo,40 个 RDNA 3.5 CU,96 GB LPDDR5X)在 Linux 上通过 Ollama 使用 Vulkan 后端——这是 ROCm iGPU 支持不可用时的正确 GPU 路径
  • 96 GB 统一内存池是关键优势:可容纳 Llama 70B Q4_K_M(~41 GB)——在其他配置中需要多块桌面 GPU 的模型
  • Ryzen AI Max 395 的速度:Llama 3.1 8B ~22 tok/s,Qwen 2.5 14B ~13 tok/s,Qwen 2.5 32B ~7 tok/s(通过 Vulkan)
  • Ollama 中 Strix Halo 的 Windows 支持正在成熟;截至 2026 年中,通过 Vulkan 的 Linux 是稳定路径

如何在 Strix Halo 上使用 Vulkan 运行 Ollama

在 Linux 上,安装标准 Ollama 二进制文件即可——它使用带有 Vulkan 后端的 llama.cpp,开箱即用支持 RDNA 3.5(gfx1150)。Vulkan 路径无需额外安装 ROCm。像往常一样运行 `curl -fsSL https://ollama.com/install.sh | sh`。

安装后,设置 flash attention 标志以提高长会话的内存效率:`OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`。这减少了 KV 缓存内存用量,在运行接近完整 96 GB 池的 32B 以上模型时尤为重要。

要验证 Ollama 是否在使用 GPU(而非 CPU),在模型运行时执行 `ollama ps`。输出应在 PROCESSOR 列显示"GPU",VRAM 值不为零。如果显示"CPU",表示 Vulkan 后端未初始化——检查您的 Linux 发行版是否安装了 `vulkan-icd-loader` 软件包。

模型Q4_K_M 时 VRAM速度(MAX 395 Vulkan)能否放入 96 GB?
Llama 3.1 8B4.9 GB~22 tok/s
Qwen 2.5 14B9.3 GB~13 tok/s
Qwen 2.5 32B19.4 GB~7 tok/s
Llama 3.3 70B~41 GB~3 tok/s
Qwen 2.5 72B~43 GB~3 tok/s

Strix Halo 对比 RTX 4090:内存胜,速度败

Ryzen AI Max 395 以 GPU 速度换取内存容量。RTX 4090 运行 Llama 3.1 8B 约 45 tok/s,而 Strix Halo Vulkan 约 22 tok/s。对于 7B 和 14B 模型,RTX 4090 更快。但 RTX 4090 受限于 24 GB VRAM——Strix Halo MAX 395 拥有 96 GB,可支持桌面 GPU 上根本无法运行的模型规模。

Strix Halo 的实际使用场景是在不依赖云 API 的情况下在本地运行 32B–70B 模型。Qwen 2.5 32B(Q4_K_M,~19 GB)以 ~7 tok/s 运行——对于交互式聊天较慢,但适用于批量摘要、文档处理或整夜微调任务。Llama 3.3 70B(Q4_K_M,~41 GB)可以 ~3 tok/s 运行,适合高质量单次查询。

在 Windows 上,由于 gfx1150 的 ROCm iGPU 支持在官方 Ollama Windows 版本中尚未完成,Strix Halo 的 Ollama 截至 2026 年中默认回退到 CPU 推理。Vulkan 路径需要在 Windows 上使用 `-DGGML_VULKAN=ON` 从源码编译 llama.cpp。建议在 Windows ROCm 路径成熟之前,使用 Linux 进行 GPU 加速的 Strix Halo 推理。

与其他 Apple Silicon APU 硬件的比较,请参阅用于本地 LLM 的 Mac Mini M4 文章,其中介绍了 macOS 上的替代统一内存方案。

关于 Strix Halo 和 Ollama Vulkan 的快速解答

AMD Strix Halo 在 Ollama 中支持 ROCm 吗?
截至 2026 年中尚不完全支持。gfx1150(RDNA 3.5)的 ROCm 支持正在进行中,但在官方 Ollama 版本中尚未稳定。Vulkan 后端是目前在 Linux 上可靠的 GPU 加速路径。请查看 Ollama GitHub 发布页面获取 ROCm iGPU 支持的更新。
我能在 Windows 上使用 Strix Halo Vulkan 运行 Ollama 吗?
实验性地可以。官方 Ollama Windows 版本默认不为 Strix Halo 开放 Vulkan 后端——它回退到 CPU。您可以在 Windows 上使用 -DGGML_VULKAN=ON 从源码编译 llama.cpp 来启用它,但这需要手动编译过程。Linux 是 Strix Halo Vulkan 推理的推荐平台。
Ryzen AI Max 395 能容纳的最大模型是什么?
拥有 96 GB 统一内存,Ryzen AI Max 395 可容纳 Llama 3.3 70B(Q4_K_M,~41 GB)或 Qwen 2.5 72B(Q4_K_M,~43 GB),各有剩余内存。对于非常大的模型,Qwen 2.5 72B(Q5_K_M,~55 GB)也可以放入,但速度降至约 2 tok/s。需要超过 90 GB 的模型(如 70B at Q8_0)超出可用池。
Strix Halo 与 Mac Studio M4 Ultra 在 Ollama 上如何比较?
Mac Studio M4 Ultra 拥有 192 GB 统一内存,通过 llama.cpp 使用 Metal 加速——每 token 速度显著快于 Strix Halo Vulkan(70B Q4_K_M 约 12 tok/s 对比 Strix Halo 的约 3 tok/s)。在大型模型推理质量和速度方面,M4 Ultra 占优。Strix Halo 仅在 8B–32B 范围内具有竞争力,并运行标准 Linux 工作流。