本地 LLM 最佳迷你电脑是什么？

选择语言:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

快速回答

三款迷你电脑在本地 LLM 推理中表现突出：Mac Mini M4（最快，~18 tok/s）、Minisforum UM790 Pro（最大内存，64 GB DDR5）和 Beelink SER8（最佳性价比，Ryzen 9 8845HS CPU）。三者均可无独立 GPU 运行 7–13B Q4 模型。

▸Mac Mini M4：LLM 速度最快，Llama 3 8B 约 18 tok/s，节能
▸Minisforum UM790 Pro：AMD Radeon 780M iGPU，最高 64 GB 统一内存
▸Beelink SER8：Ryzen 9 8845HS，~8 tok/s，经济实惠替代

更新于: 2026-05

Model Comparisons

关键要点

✓Mac Mini M4 起价约 599 USD，使用 Apple Metal 进行 GPU 加速，7B Q4 模型负载下约 30 W 可达 ~18 tok/s
✓Minisforum UM790 Pro（AMD Ryzen 9 7940HS）支持最高 64 GB DDR5 内存，Linux 下通过 ROCm 7B 模型约 8 tok/s
✓Apple Silicon 的统一内存架构是关键优势——M4 的内存由 CPU 和 GPU 共享，无 VRAM 瓶颈
✓Beelink SER8（Ryzen 9 8845HS）是经济选择：与 UM790 Pro 相同的 ~8 tok/s，但基于 CPU 推理、电耗更低、无需 Linux ROCm 设置

Mac Mini M4 在速度和效率上领先

Mac Mini M4 在 7B Q4 模型上达到每秒约 18 个 token，负载下消耗约 30 W，起价约 599 USD——使其成为本地 LLM 推理中最快的迷你电脑。 M4 芯片采用统一内存架构，意味着相同的物理内存在 CPU 和 GPU 之间共享，无需内存复制开销。对于优先考虑速度的用户，M4 是最佳选择。

Minisforum UM790 Pro 是扩展方案：AMD Ryzen 9 7940HS 搭配 Radeon 780M iGPU，支持高达 64 GB DDR5 统一内存配置，Linux 和 ROCm 下 ~8 tok/s。Beelink SER8（Ryzen 9 8845HS）与 UM790 Pro 吞吐量相当但采用仅 CPU 推理——无需独立 GPU——使其成为希望避免 ROCm 配置的 Windows/Linux 用户的经济实惠之选。

下表比较了三款迷你电脑的 CPU/GPU、最佳内存配置和测量的 LLM 速度。

迷你电脑	CPU/GPU	最佳配置	LLM 速度（7B Q4）
Mac Mini M4	Apple M4	16 GB 统一内存	~18 tok/s
Minisforum UM790 Pro	Ryzen 9 7940HS	64 GB DDR5	~8 tok/s
Beelink SER8	Ryzen 9 8845HS	64 GB DDR5	~8 tok/s

统一内存是 LLM 性能的关键差异化因素

配备独立 GPU 插槽的标准迷你电脑不适合 LLM 推理，因为 GPU VRAM 在出厂时固定——通常为 4–8 GB——无法扩展。Mac Mini M4 和 UM790 Pro 通过统一内存的基于 GPU 推理来解决此问题。Beelink SER8 采用不同方法：其 Ryzen 9 8845HS 使用仅 CPU 推理，速度更慢但无需 GPU 设置。

配备 16 GB 统一内存的 Mac Mini M4 在纯推理速度上超越配备 32 GB DDR5 的 UM790 Pro，因为 Apple 的内存带宽（~68 GB/s）和 Metal GPU 加速比 Radeon 780M iGPU 更高效。UM790 Pro 的优势是可扩展到 64 GB，允许运行 16 GB 放不下的 13B 和 30B Q4 等更大模型。

有关本地 LLM 硬件选择的完整指南，请参阅涵盖本地 LLM 配置软件方面的最佳 Ollama 前端概览。

如需带Amazon.co.jp链接和日元价格的日本专用迷你电脑推荐，请参阅我们的日本本地LLM迷你电脑指南。

关于本地 LLM 迷你电脑的快速解答

Mac Mini M4 可以在本地运行 13B 模型吗？▾

可以，16 GB 版本在 Q4 量化下模型可以放入，还有约 1 GB 余量。32 GB Mac Mini M4 Pro 可以舒适地运行 13B 和 30B Q4 模型。基础版 16 GB M4 上 13B Q4 的推理速度降至约 10 tok/s。

Minisforum UM790 Pro 需要 ROCm 才能进行 GPU 加速吗？▾

需要。在 Linux 上，Ollama 和 llama.cpp 通过 ROCm 支持 Radeon 780M iGPU。在 Windows 上，Ollama 使用 DirectML 进行 AMD iGPU 加速，通常性能低于 Linux 上的 ROCm。要在 UM790 Pro 上获得最快推理，请使用带 ROCm 的 Linux。

Mac Mini M4 用 7B 模型编程够用吗？▾

够用。7B Q4 模型约 18 tok/s 的速度，Mac Mini M4 生成 token 的速度足够用于交互式代码补全。200 个 token 的补全响应延迟约为 11 秒——适合非实时编码辅助。

UM790 Pro 以全速运行的最大模型大小是多少？▾

在 Linux 和 ROCm 下将 64 GB DDR5 配置为统一内存，UM790 Pro 可以约 3–4 tok/s 的速度运行 30B Q4 模型（~18 GB）。13B Q4 模型（~8 GB）以约 6 tok/s 运行。软件配置请参阅 Ollama 前端指南。

何时应该选择 Beelink SER8 而不是 Mac Mini M4 或 UM790 Pro？▾

满足以下条件时选择 Beelink SER8：(1) 希望避免 Linux 上的 GPU 驱动程序和 ROCm；(2) 优先考虑预算而非速度（比两者都便宜）；(3) 使用 Windows 且不想使用 DirectML；(4) 偶尔在 ~8 tok/s 进行推理且偏好 CPU 推理的简便性。它不会在速度上击败 Mac Mini M4，也不会在可扩展性上击败 UM790 Pro，但是最简单的纯 CPU 选项。

← 返回提示词速答

本地 LLM 最佳迷你电脑是什么？

Mac Mini M4 在速度和效率上领先

统一内存是 LLM 性能的关键差异化因素

相关指南

关于本地 LLM 迷你电脑的快速解答