Strix Halo（Ryzen AI Max）+ Ollama Vulkan：配置与性能

选择语言:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

本页包含指向第三方产品的参考链接。PromptQuorum 未加入任何联盟计划——这些是不产生佣金的普通链接。点击链接和后续步骤由您自行承担责任。这些链接不代表 PromptQuorum 的任何认可或验证。

快速回答

可以——Ryzen AI Max（Strix Halo，RDNA 3.5）在 Linux 上通过 Vulkan 运行 Ollama。MAX 395 的 96 GB 统一内存可容纳 Qwen 32B 甚至 Llama 70B Q4_K_M——这是任何单块桌面显卡都无法做到的。

▸Linux：Ollama 自动检测 Strix Halo Vulkan；长上下文会话请设置 OLLAMA_FLASH_ATTENTION=1
▸Ryzen AI Max 395（96 GB）：可同时在内存中加载 Llama 70B Q4_K_M（~41 GB）和 Qwen 32B Q4_K_M（~19 GB）
▸上下文：无 64K 硬性上限——由 num_ctx 设置；30B 模型 64K–96K 舒适，128K+ 受内存限制且在 Vulkan 上更慢
▸Windows Strix Halo Vulkan 路径为实验性；Linux 是 GPU 加速 Ollama 的稳定平台

更新于: 2026-07

Hardware-Specific

关键要点

✓Ryzen AI Max 395（Strix Halo，40 个 RDNA 3.5 CU，96 GB LPDDR5X）在 Linux 上通过 Ollama 使用 Vulkan 后端——这是 ROCm iGPU 支持不可用时的正确 GPU 路径
✓96 GB 统一内存池是关键优势：可容纳 Llama 70B Q4_K_M（~41 GB）——在其他配置中需要多块桌面 GPU 的模型
✓Ryzen AI Max 395 的速度：Llama 3.3 8B ~22 tok/s，Qwen 3 14B ~13 tok/s，Qwen 3 32B ~7 tok/s（通过 Vulkan）
✓Ollama 中 Strix Halo 的 Windows 支持正在成熟；截至 2026 年中，通过 Vulkan 的 Linux 是稳定路径

如何在 Strix Halo 上使用 Vulkan 运行 Ollama

在 Linux 上，安装标准 Ollama 二进制文件即可——它使用带有 Vulkan 后端的 llama.cpp，开箱即用支持 RDNA 3.5（gfx1150）。Vulkan 路径无需额外安装 ROCm。像往常一样运行 `curl -fsSL https://ollama.com/install.sh | sh`。

安装后，设置 flash attention 标志以提高长会话的内存效率：`OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`。这减少了 KV 缓存内存用量，在运行接近完整 96 GB 池的 32B 以上模型时尤为重要。

要验证 Ollama 是否在使用 GPU（而非 CPU），在模型运行时执行 `ollama ps`。输出应在 PROCESSOR 列显示"GPU"，VRAM 值不为零。如果显示"CPU"，表示 Vulkan 后端未初始化——检查您的 Linux 发行版是否安装了 `vulkan-icd-loader` 软件包。

模型	Q4_K_M 时 VRAM	速度（MAX 395 Vulkan）	能否放入 96 GB？
Llama 3.3 8B	4.9 GB	~22 tok/s	✓
Qwen 3 14B	9.3 GB	~13 tok/s	✓
Qwen 3 32B	19.4 GB	~7 tok/s	✓
Llama 3.3 70B	~41 GB	~3 tok/s	✓
Qwen 3 72B	~43 GB	~3 tok/s	✓

在京东查看 Minisforum AI370-G 价格产品链接 · 已披露在京东搜索 Ryzen AI Max 395 迷你电脑产品链接 · 已披露

Strix Halo 对比 RTX 4090：内存胜，速度败

Ryzen AI Max 395 以 GPU 速度换取内存容量。RTX 4090 运行 Llama 3.3 8B 约 45 tok/s，而 Strix Halo Vulkan 约 22 tok/s。对于 7B 和 14B 模型，RTX 4090 更快。但 RTX 4090 受限于 24 GB VRAM——Strix Halo MAX 395 拥有 96 GB，可支持桌面 GPU 上根本无法运行的模型规模。

Strix Halo 的实际使用场景是在不依赖云 API 的情况下在本地运行 32B–70B 模型。Qwen 3 32B（Q4_K_M，~19 GB）以 ~7 tok/s 运行——对于交互式聊天较慢，但适用于批量摘要、文档处理或整夜微调任务。Llama 3.3 70B（Q4_K_M，~41 GB）可以 ~3 tok/s 运行，适合高质量单次查询。

在 Windows 上，由于 gfx1150 的 ROCm iGPU 支持在官方 Ollama Windows 版本中尚未完成，Strix Halo 的 Ollama 截至 2026 年中默认回退到 CPU 推理。Vulkan 路径需要在 Windows 上使用 `-DGGML_VULKAN=ON` 从源码编译 llama.cpp。建议在 Windows ROCm 路径成熟之前，使用 Linux 进行 GPU 加速的 Strix Halo 推理。

与其他 Apple Silicon APU 硬件的比较，请参阅用于本地 LLM 的 Mac Mini M4 文章，其中介绍了 macOS 上的替代统一内存方案。

关于 Strix Halo 和 Ollama Vulkan 的快速解答

AMD Strix Halo 在 Ollama 中支持 ROCm 吗？▾

截至 2026 年中尚不完全支持。gfx1150（RDNA 3.5）的 ROCm 支持正在进行中，但在官方 Ollama 版本中尚未稳定。Vulkan 后端是目前在 Linux 上可靠的 GPU 加速路径。请查看 Ollama GitHub 发布页面获取 ROCm iGPU 支持的更新。

我能在 Windows 上使用 Strix Halo Vulkan 运行 Ollama 吗？▾

实验性地可以。官方 Ollama Windows 版本默认不为 Strix Halo 开放 Vulkan 后端——它回退到 CPU。您可以在 Windows 上使用 -DGGML_VULKAN=ON 从源码编译 llama.cpp 来启用它，但这需要手动编译过程。Linux 是 Strix Halo Vulkan 推理的推荐平台。

Ryzen AI Max 395 能容纳的最大模型是什么？▾

拥有 96 GB 统一内存，Ryzen AI Max 395 可容纳 Llama 3.3 70B（Q4_K_M，~41 GB）或 Qwen 3 72B（Q4_K_M，~43 GB），各有剩余内存。对于非常大的模型，Qwen 3 72B（Q5_K_M，~55 GB）也可以放入，但速度降至约 2 tok/s。需要超过 90 GB 的模型（如 70B at Q8_0）超出可用池。

Strix Halo 在 Ollama 中能处理多大的上下文窗口——有 64K 限制吗？▾

没有 64K token 的硬性上限；上限取决于您的统一内存。在 96 GB 的 Ryzen AI Max 395 上，Q4_K_M 的 30B 模型可舒适运行 64K–96K 上下文（权重加 KV 缓存合计约 36–45 GB）。用 Ollama 的 num_ctx 参数（或 OLLAMA_CONTEXT_LENGTH 环境变量）设置大小，并保持 OLLAMA_FLASH_ATTENTION=1 以减少 KV 缓存内存。您可以推至 128K–200K，但会变为受内存限制（~50–70 GB），且提示处理在 Vulkan/RADV 后端上变慢——经过调优的 ROCm 构建在超长上下文下约快 3 倍（超过 ~130K 时提示处理约 51 对比 17 tok/s）。

Strix Halo 与 Mac Studio M4 Ultra 在 Ollama 上如何比较？▾

Mac Studio M4 Ultra 拥有 192 GB 统一内存，通过 llama.cpp 使用 Metal 加速——每 token 速度显著快于 Strix Halo Vulkan（70B Q4_K_M 约 12 tok/s 对比 Strix Halo 的约 3 tok/s）。在大型模型推理质量和速度方面，M4 Ultra 占优。Strix Halo 仅在 8B–32B 范围内具有竞争力，并运行标准 Linux 工作流。

← 返回提示词速答

Strix Halo（Ryzen AI Max）+ Ollama Vulkan：配置与性能

如何在 Strix Halo 上使用 Vulkan 运行 Ollama

Strix Halo 对比 RTX 4090：内存胜，速度败

相关阅读

关于 Strix Halo 和 Ollama Vulkan 的快速解答