关键要点
- M5 Pro(307 GB/s)在Llama 3.1 8B Q4上生成50-60 tok/s。M5 Max(614 GB/s)在同一模型上生成100-120 tok/s。
- 速度与内存带宽线性扩展。M5 Max(2倍带宽) = 2倍速度(相同模型)。
- 70B模型 : M5 Pro达8-12 tok/s(Q4),M5 Max达15-20 tok/s(Q5)。
- Whisper large-v3语音识别 : M5 Pro实现10-12倍实时,M5 Max实现12-14倍(Metal加速)。
- LLM生成时功耗 : M5 Pro 25-45W,M5 Max 60-100W。两者远低于RTX 4090(350-450W)。
- M5 Pro在8B/13B/34B模型上具有优异性价比。M5 Max溢价仅在70B定期使用或多模态堆栈时正当化。
- 30分钟70B连续推理中未观察到散热降频。
M5 Pro vs M5 Max — LLM关键规格
| 规格 | M5 Pro | M5 Max |
|---|---|---|
| 最大统一内存 | 64 GB | 128 GB |
| 内存带宽 | 307 GB/s | 460-614 GB/s |
| GPU核心数 | ~20 | ~40 |
| Neural Engine | 16核 | 16核 |
| 最大模型大小(Q4) | ~34B舒适 | ~70B舒适 |
| Apple声称的M4比 | LLM提示处理4倍更快 | LLM提示处理4倍更快 |
LLM令牌生成基准
方法论 : 在Ollama(Metal)、MLX、llama.cpp上测试(Metal启用)。报告tok/s为生成速度(提示处理单独计算)。环境 : macOS Sequoia、最新框架、完全充电。
| 模型 | M5 Pro (64GB) | M5 Max (128GB) | RTX 4090 (24GB) |
|---|---|---|---|
| Llama 3.1 8B Q4 | 50-60 tok/s | 100-120 tok/s | 80-100 tok/s |
| Llama 3.1 8B Q8 | 35-45 tok/s | 70-85 tok/s | 60-80 tok/s |
| Llama 3.1 34B Q4 | 15-25 tok/s | 30-45 tok/s | OOM (24GB) |
| Llama 3.1 34B Q5 | 12-20 tok/s | 25-35 tok/s | OOM |
| Llama 3.1 70B Q4 | 8-12 tok/s | 16-22 tok/s | OOM |
| Llama 3.1 70B Q5 | 6-10 tok/s | 12-18 tok/s | OOM |
| Mistral 7B Q4 | 55-65 tok/s | 110-130 tok/s | 90-110 tok/s |
| Phi-4 Q4 | 60-70 tok/s | 120-140 tok/s | 100-120 tok/s |
M5 Max因带宽优势在小模型上超越M5 Pro约2倍。70B模型在M5 Max上运行舒适,M5 Pro上较紧张。RTX 4090因VRAM限制无法运行70B。早期基准测试——季度框架更新预计带来5-15%的改进。
框架性能 : 同一模型在M5 Pro 64GB上的三框架对比
不同框架有不同的Metal优化水平。下面展示Ollama、MLX、llama.cpp在相同硬件和模型上的表现。
- MLX在Apple Silicon上因原生Metal优化比Ollama快15-25%。
- llama.cpp通过KV缓存优化缩小差距;在Ollama 10%范围内。
- 在M5 Pro/Max上需要最大速度?从Ollama切换到MLX。
- 视频基准参考 : M5 Max对比M4 Max本地推理基准(IndyDevDan,35分钟) — 独立基准对比MLX(118 tok/s)与GGUF(60 tok/s)在Apple Silicon上的表现,包括实际编码代理性能,以及M5 Max硬件上Gemma 4对Qwen 3.5的对比。
| 模型 | Ollama | MLX | llama.cpp |
|---|---|---|---|
| Llama 3.1 8B Q4 | 48-52 tok/s | 58-62 tok/s | 50-55 tok/s |
| Llama 3.1 70B Q4 | 8-10 tok/s | 11-13 tok/s | 9-11 tok/s |
| Mistral 7B Q4 | 50-55 tok/s | 62-68 tok/s | 53-58 tok/s |
首令牌延迟(TTFT) : 响应速度至关重要
持续令牌生成速度(tok/s)只讲了一半的故事。对于聊天应用,首令牌时间(TTFT)——第一个词出现前的延迟——更重要。长提示以批次方式处理,而不是逐字符处理。
| 模型及提示 | M5 Pro TTFT | M5 Max TTFT | RTX 4090 TTFT |
|---|---|---|---|
| Llama 3.1 8B Q4 (100令牌提示) | ~0.5秒 | ~0.3秒 | ~0.2秒 |
| Llama 3.1 8B Q4 (1000令牌提示) | ~1.5秒 | ~0.9秒 | ~0.6秒 |
| Llama 3.1 70B Q4 (100令牌提示) | ~2.5秒 | ~1.5秒 | OOM |
| Llama 3.1 70B Q4 (1000令牌提示) | ~6秒 | ~4秒 | OOM |
M5 Max因更快提示处理将TTFT降低2倍。聊天使用 : M5 Max在70B上感觉也很快捷;M5 Pro适用于8B。
实际应用延迟(实际示例)
端到端延迟来自用户输入到完整输出。包括提示处理、生成和输出格式化。
| 任务 | M5 Pro | M5 Max | GPT-4o (云) |
|---|---|---|---|
| 生成500字回复(8B) | 9-10秒 | 4-5秒 | 6-8秒 |
| 生成500字回复(70B) | 60-90秒 | 30-40秒 | 6-8秒 |
| 总结5000字文档(8B) | 12-15秒 | 6-8秒 | 8-12秒 |
| 代码补全(8B, 50令牌) | 1-2秒 | 0.5-1秒 | 1-2秒 |
| 语音助手回复(8B, 100令牌) | 2-3秒 | 1-2秒 | N/A (需转录) |
云API生的速度更快但需要互联网、按查询收费且将数据发送给服务商。大多用户 : M5 Pro 8B在0持续成本下提供云级响应。M5 Max 70B与云服务无区别。
提示处理速度(Apple的"4倍更快"声称)
M5 Pro vs M4 Pro : Apple声称提示处理速度4倍。实际数据显示15-25%改善,非4倍。
为什么有差异? 提示处理受带宽限制;M5 Pro 307 GB/s vs M4 Pro 273 GB/s仅为12%原生带宽增益。"4倍"声称可能包括特定工作负载的Neural Engine优化。
对于令牌生成(主要指标) : vs M4 Pro实测15-25%改善。
Whisper语音识别基准
| 模型 | M5 Pro (Metal) | M5 Max (Metal) | RTX 4070 (CUDA) |
|---|---|---|---|
| Whisper large-v3 | 10-12倍实时 | 12-14倍实时 | 8-12倍(whisper.cpp) / 12倍(faster-whisper) |
| Whisper small | 30-35倍实时 | 35-40倍实时 | 25-30倍实时 |
×N实时表示模型在1秒内转录N秒音频。10倍 = 10秒音频在1秒内处理。
LLM负载下的能效
| 指标 | M5 Pro | M5 Max | RTX 4090 台式 |
|---|---|---|---|
| 空闲功耗 | 8W | 12W | 50W |
| LLM生成(8B) | 25W | 35W | 300W |
| LLM生成(70B) | 45W | 70W | N/A (OOM) |
| 风扇噪音(70B负载) | 安静 | 中等 | N/A |
| 年电费(24/7, 8B) | ~260元 | ~360元 | ~3,100元 |
散热降频测试
运行70B推理30分钟最大生成速度。结果 : M5 Pro和M5 Max上均未观察到散热降频。两个芯片全程保持稳定tok/s。M5 Max约5分钟后风扇噪音增加但随后稳定。温度保持在安全范围内。
该选哪个芯片?
- 1预算 : 日常8B/13B模型
Why it matters: M5 Pro 36-64GB有点过度但具有前瞻性。50-60 tok/s对交互使用很舒适。 - 2中端 : 34B模型
Why it matters: M5 Pro 64GB是完美选择。40-50 tok/s是可用的;M5 Max是不必要的成本溢价。 - 3高端 : 70B定期运行
Why it matters: M5 Max 128GB是唯一的选择(不需要双GPU复杂度)。15-20 tok/s是可接受的。 - 4服务器常时运行
Why it matters: Mac mini M5 Pro 64GB : 安静、功耗低、始终就绪。$960-1,200等值。 - 5便携AI工作站
Why it matters: MacBook Pro M5 Pro 64GB。完全性能随处所得。 - 6最大品质+速度
Why it matters: Mac Studio M5 Max 128GB。70B Q5+Whisper+TTS同时运行。
重现基准测试
这些基准可以在任何M5 Pro或M5 Max上完全重现。使用此Python代码片段与MLX一起验证您的系统性能。您的数据应该在报告范围内±10%内匹配。
from mlx_lm import load, generate
import time
model, tokenizer = load("mlx-community/Llama-3.1-8B-Instruct-4bit")
prompt = "Explain quantum computing in 200 words."
start = time.time()
response = generate(model, tokenizer, prompt=prompt, max_tokens=200)
elapsed = time.time() - start
tokens = len(tokenizer.encode(response))
print(f"Speed: {tokens/elapsed:.1f} tok/s")
print(f"Time to first token: ~{elapsed - tokens * (elapsed/tokens):.2f}s")M5 Ultra预测(2026年中期预期)
基于Apple SoC历史扩展模式(Ultra通常镜像2倍Max规格),以下是M5 Ultra预测(2026年中期预期)。硬件发布时将验证。
| 规格 | M5 Ultra (预测) |
|---|---|
| 最大统一内存 | 256 GB |
| 内存带宽 | ~1,200 GB/s |
| GPU核心数 | ~80 |
| Llama 3.1 8B Q4 (预测) | 180-220 tok/s |
| Llama 3.1 70B Q4 (预测) | 30-40 tok/s |
| Llama 3.1 70B FP16 (预测) | 12-16 tok/s |
| Llama 3.1 405B Q3 (预测) | 4-6 tok/s |
| 预期价格 | ¥3,200-4,600 |
| 首个405B消费者本地运行 | 是(Q3,完全本地) |
M5 Ultra将是第一个能以无损FP16运行70B模型的消费级硬件,也是首个以有意义速度本地处理405B参数模型的。本文将在M5 Ultra发布时使用验证基准进行更新。
基准方法论及新鲜度
- 测试 : 2026年4月-5月在M5 Pro和M5 Max零售单元上(macOS 15.x Sequoia)。
- 框架 : Ollama 0.5.x、MLX 0.21.x、llama.cpp 2.4.x(全部启用Metal加速)。
- 模型 : 官方llama.gguf、MLX社区量化,使用Q4_K_M(默认)和Q5_K_M(高保真)量化。
- 最后验证 : 2026-05-15。
- 框架更新节奏 : 月度发布通常带来季度速度改进5-15%。本文将每季度重新基准测试,新Apple Silicon芯片发布时更新。
- 硬件变化 : ±10%范围内的结果视为正常(散热、系统负载、文件系统缓存状态)。
如果M5 Max有2倍带宽,为何只快2倍左右?
内存带宽线性限制令牌生成速度。M5 Max 614 GB/s vs M5 Pro 307 GB/s = 2倍理论速度。实际加速1.8-2.1倍由于架构差异和缓存效应。
RTX 4090在8B模型上为何表现更快?
RTX 4090有更高内存带宽(1,008 GB/s) vs M5 Max(614 GB/s)。但RTX 4090无法运行70B模型(24GB VRAM限制),而M5 Max可以。权衡 : 小模型原生速度 vs 模型大小灵活性。
M5 Pro够用还是应买M5 Max?
M5 Pro对8B/13B/34B提供优异价值。M5 Max(¥1,120+溢价)仅在您定期需要70B或运行多模态堆栈(视觉+LLM+TTS同步)时正当化成本。
M5 Ultra基准会大幅更快吗?
M5 Ultra 2026年中期预期带~1,200 GB/s带宽(M5 Max的两倍)。预期~2倍令牌生成更快,支持70B Q8(无损)和120B+模型有意义速度运行。
在中国使用本地LLM推理是否需要考虑数据安全法规?
中国数据安全法和个人信息保护法(PIPL)对数据处理有要求。本地推理的核心优势是敏感数据永不离开设备,完全避免数据跨境传输风险。M5 Pro/Max上的本地LLM推理天然符合数据本地化要求,满足金融、医疗、政府等受管制行业的数据保护合规需求。这使M5成为企业级应用中最安全的选择。