Strix Halo(Ryzen AI Max)+ Ollama Vulkan:配置与性能
快速回答
可以——Ryzen AI Max(Strix Halo,RDNA 3.5)在 Linux 上通过 Vulkan 运行 Ollama。MAX 395 的 96 GB 统一内存可容纳 Qwen 32B 甚至 Llama 70B Q4_K_M——这是任何单块桌面显卡都无法做到的。
- ▸Linux:Ollama 自动检测 Strix Halo Vulkan;长上下文会话请设置 OLLAMA_FLASH_ATTENTION=1
- ▸Ryzen AI Max 395(96 GB):可同时在内存中加载 Llama 70B Q4_K_M(~41 GB)和 Qwen 32B Q4_K_M(~19 GB)
- ▸Windows Strix Halo Vulkan 路径为实验性;Linux 是 GPU 加速 Ollama 的稳定平台
更新于: 2026-05
Hardware-Specific
关键要点
- ✓Ryzen AI Max 395(Strix Halo,40 个 RDNA 3.5 CU,96 GB LPDDR5X)在 Linux 上通过 Ollama 使用 Vulkan 后端——这是 ROCm iGPU 支持不可用时的正确 GPU 路径
- ✓96 GB 统一内存池是关键优势:可容纳 Llama 70B Q4_K_M(~41 GB)——在其他配置中需要多块桌面 GPU 的模型
- ✓Ryzen AI Max 395 的速度:Llama 3.1 8B ~22 tok/s,Qwen 2.5 14B ~13 tok/s,Qwen 2.5 32B ~7 tok/s(通过 Vulkan)
- ✓Ollama 中 Strix Halo 的 Windows 支持正在成熟;截至 2026 年中,通过 Vulkan 的 Linux 是稳定路径
如何在 Strix Halo 上使用 Vulkan 运行 Ollama
在 Linux 上,安装标准 Ollama 二进制文件即可——它使用带有 Vulkan 后端的 llama.cpp,开箱即用支持 RDNA 3.5(gfx1150)。Vulkan 路径无需额外安装 ROCm。像往常一样运行 `curl -fsSL https://ollama.com/install.sh | sh`。
安装后,设置 flash attention 标志以提高长会话的内存效率:`OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`。这减少了 KV 缓存内存用量,在运行接近完整 96 GB 池的 32B 以上模型时尤为重要。
要验证 Ollama 是否在使用 GPU(而非 CPU),在模型运行时执行 `ollama ps`。输出应在 PROCESSOR 列显示"GPU",VRAM 值不为零。如果显示"CPU",表示 Vulkan 后端未初始化——检查您的 Linux 发行版是否安装了 `vulkan-icd-loader` 软件包。
| 模型 | Q4_K_M 时 VRAM | 速度(MAX 395 Vulkan) | 能否放入 96 GB? |
|---|
| Llama 3.1 8B | 4.9 GB | ~22 tok/s | ✓ |
| Qwen 2.5 14B | 9.3 GB | ~13 tok/s | ✓ |
| Qwen 2.5 32B | 19.4 GB | ~7 tok/s | ✓ |
| Llama 3.3 70B | ~41 GB | ~3 tok/s | ✓ |
| Qwen 2.5 72B | ~43 GB | ~3 tok/s | ✓ |
Strix Halo 对比 RTX 4090:内存胜,速度败
Ryzen AI Max 395 以 GPU 速度换取内存容量。RTX 4090 运行 Llama 3.1 8B 约 45 tok/s,而 Strix Halo Vulkan 约 22 tok/s。对于 7B 和 14B 模型,RTX 4090 更快。但 RTX 4090 受限于 24 GB VRAM——Strix Halo MAX 395 拥有 96 GB,可支持桌面 GPU 上根本无法运行的模型规模。
Strix Halo 的实际使用场景是在不依赖云 API 的情况下在本地运行 32B–70B 模型。Qwen 2.5 32B(Q4_K_M,~19 GB)以 ~7 tok/s 运行——对于交互式聊天较慢,但适用于批量摘要、文档处理或整夜微调任务。Llama 3.3 70B(Q4_K_M,~41 GB)可以 ~3 tok/s 运行,适合高质量单次查询。
在 Windows 上,由于 gfx1150 的 ROCm iGPU 支持在官方 Ollama Windows 版本中尚未完成,Strix Halo 的 Ollama 截至 2026 年中默认回退到 CPU 推理。Vulkan 路径需要在 Windows 上使用 `-DGGML_VULKAN=ON` 从源码编译 llama.cpp。建议在 Windows ROCm 路径成熟之前,使用 Linux 进行 GPU 加速的 Strix Halo 推理。
与其他 Apple Silicon APU 硬件的比较,请参阅用于本地 LLM 的 Mac Mini M4 文章,其中介绍了 macOS 上的替代统一内存方案。
关于 Strix Halo 和 Ollama Vulkan 的快速解答
AMD Strix Halo 在 Ollama 中支持 ROCm 吗?▾
截至 2026 年中尚不完全支持。gfx1150(RDNA 3.5)的 ROCm 支持正在进行中,但在官方 Ollama 版本中尚未稳定。Vulkan 后端是目前在 Linux 上可靠的 GPU 加速路径。请查看 Ollama GitHub 发布页面获取 ROCm iGPU 支持的更新。
我能在 Windows 上使用 Strix Halo Vulkan 运行 Ollama 吗?▾
实验性地可以。官方 Ollama Windows 版本默认不为 Strix Halo 开放 Vulkan 后端——它回退到 CPU。您可以在 Windows 上使用 -DGGML_VULKAN=ON 从源码编译 llama.cpp 来启用它,但这需要手动编译过程。Linux 是 Strix Halo Vulkan 推理的推荐平台。
Ryzen AI Max 395 能容纳的最大模型是什么?▾
拥有 96 GB 统一内存,Ryzen AI Max 395 可容纳 Llama 3.3 70B(Q4_K_M,~41 GB)或 Qwen 2.5 72B(Q4_K_M,~43 GB),各有剩余内存。对于非常大的模型,Qwen 2.5 72B(Q5_K_M,~55 GB)也可以放入,但速度降至约 2 tok/s。需要超过 90 GB 的模型(如 70B at Q8_0)超出可用池。
Strix Halo 与 Mac Studio M4 Ultra 在 Ollama 上如何比较?▾
Mac Studio M4 Ultra 拥有 192 GB 统一内存,通过 llama.cpp 使用 Metal 加速——每 token 速度显著快于 Strix Halo Vulkan(70B Q4_K_M 约 12 tok/s 对比 Strix Halo 的约 3 tok/s)。在大型模型推理质量和速度方面,M4 Ultra 占优。Strix Halo 仅在 8B–32B 范围内具有竞争力,并运行标准 Linux 工作流。