PromptQuorumPromptQuorum

本地 LLM 最佳迷你电脑是什么?

快速回答

三款迷你电脑在本地 LLM 推理中表现突出:Mac Mini M4(最快,~18 tok/s)、Minisforum UM790 Pro(最大内存,64 GB DDR5)和 Beelink SER8(最佳性价比,Ryzen 9 8845HS CPU)。三者均可无独立 GPU 运行 7–13B Q4 模型。

  • Mac Mini M4:LLM 速度最快,Llama 3 8B 约 18 tok/s,节能
  • Minisforum UM790 Pro:AMD Radeon 780M iGPU,最高 64 GB 统一内存
  • Beelink SER8:Ryzen 9 8845HS,~8 tok/s,经济实惠替代

更新于: 2026-05

Model Comparisons

关键要点

  • Mac Mini M4 起价约 599 USD,使用 Apple Metal 进行 GPU 加速,7B Q4 模型负载下约 30 W 可达 ~18 tok/s
  • Minisforum UM790 Pro(AMD Ryzen 9 7940HS)支持最高 64 GB DDR5 内存,Linux 下通过 ROCm 7B 模型约 8 tok/s
  • Apple Silicon 的统一内存架构是关键优势——M4 的内存由 CPU 和 GPU 共享,无 VRAM 瓶颈
  • Beelink SER8(Ryzen 9 8845HS)是经济选择:与 UM790 Pro 相同的 ~8 tok/s,但基于 CPU 推理、电耗更低、无需 Linux ROCm 设置

Mac Mini M4 在速度和效率上领先

Mac Mini M4 在 7B Q4 模型上达到每秒约 18 个 token,负载下消耗约 30 W,起价约 599 USD——使其成为本地 LLM 推理中最快的迷你电脑。 M4 芯片采用统一内存架构,意味着相同的物理内存在 CPU 和 GPU 之间共享,无需内存复制开销。对于优先考虑速度的用户,M4 是最佳选择。

Minisforum UM790 Pro 是扩展方案:AMD Ryzen 9 7940HS 搭配 Radeon 780M iGPU,支持高达 64 GB DDR5 统一内存配置,Linux 和 ROCm 下 ~8 tok/s。Beelink SER8(Ryzen 9 8845HS)与 UM790 Pro 吞吐量相当但采用仅 CPU 推理——无需独立 GPU——使其成为希望避免 ROCm 配置的 Windows/Linux 用户的经济实惠之选。

下表比较了三款迷你电脑的 CPU/GPU、最佳内存配置和测量的 LLM 速度。

迷你电脑CPU/GPU最佳配置LLM 速度(7B Q4)
Mac Mini M4Apple M416 GB 统一内存~18 tok/s
Minisforum UM790 ProRyzen 9 7940HS64 GB DDR5~8 tok/s
Beelink SER8Ryzen 9 8845HS64 GB DDR5~8 tok/s

统一内存是 LLM 性能的关键差异化因素

配备独立 GPU 插槽的标准迷你电脑不适合 LLM 推理,因为 GPU VRAM 在出厂时固定——通常为 4–8 GB——无法扩展。Mac Mini M4 和 UM790 Pro 通过统一内存的基于 GPU 推理来解决此问题。Beelink SER8 采用不同方法:其 Ryzen 9 8845HS 使用仅 CPU 推理,速度更慢但无需 GPU 设置。

配备 16 GB 统一内存的 Mac Mini M4 在纯推理速度上超越配备 32 GB DDR5 的 UM790 Pro,因为 Apple 的内存带宽(~68 GB/s)和 Metal GPU 加速比 Radeon 780M iGPU 更高效。UM790 Pro 的优势是可扩展到 64 GB,允许运行 16 GB 放不下的 13B 和 30B Q4 等更大模型。

有关本地 LLM 硬件选择的完整指南,请参阅涵盖本地 LLM 配置软件方面的 最佳 Ollama 前端概览

关于本地 LLM 迷你电脑的快速解答

Mac Mini M4 可以在本地运行 13B 模型吗?
可以,16 GB 版本在 Q4 量化下模型可以放入,还有约 1 GB 余量。32 GB Mac Mini M4 Pro 可以舒适地运行 13B 和 30B Q4 模型。基础版 16 GB M4 上 13B Q4 的推理速度降至约 10 tok/s。
Minisforum UM790 Pro 需要 ROCm 才能进行 GPU 加速吗?
需要。在 Linux 上,Ollama 和 llama.cpp 通过 ROCm 支持 Radeon 780M iGPU。在 Windows 上,Ollama 使用 DirectML 进行 AMD iGPU 加速,通常性能低于 Linux 上的 ROCm。要在 UM790 Pro 上获得最快推理,请使用带 ROCm 的 Linux。
Mac Mini M4 用 7B 模型编程够用吗?
够用。7B Q4 模型约 18 tok/s 的速度,Mac Mini M4 生成 token 的速度足够用于交互式代码补全。200 个 token 的补全响应延迟约为 11 秒——适合非实时编码辅助。
UM790 Pro 以全速运行的最大模型大小是多少?
在 Linux 和 ROCm 下将 64 GB DDR5 配置为统一内存,UM790 Pro 可以约 3–4 tok/s 的速度运行 30B Q4 模型(~18 GB)。13B Q4 模型(~8 GB)以约 6 tok/s 运行。软件配置请参阅 Ollama 前端指南
何时应该选择 Beelink SER8 而不是 Mac Mini M4 或 UM790 Pro?
满足以下条件时选择 Beelink SER8:(1) 希望避免 Linux 上的 GPU 驱动程序和 ROCm;(2) 优先考虑预算而非速度(比两者都便宜);(3) 使用 Windows 且不想使用 DirectML;(4) 偶尔在 ~8 tok/s 进行推理且偏好 CPU 推理的简便性。它不会在速度上击败 Mac Mini M4,也不会在可扩展性上击败 UM790 Pro,但是最简单的纯 CPU 选项。