快速回答
Mixtral 8x7B 和 DeepSeek V2 是本地使用的顶级 MoE 编程模型。MoE 模型每个 token 只激活一部分参数,相比总参数量相近的稠密模型,每 GB VRAM 能获得更高质量。两者 Q4 量化都需要至少 16 GB VRAM。
更新于: 2026-05
关键要点
Mixture of Experts(MoE)模型将每个 token 只路由通过称为"专家"的专门层子集,因此推理成本随活跃参数而非总参数扩展。 Mixtral 8x7B 有 467 亿总参数,但每次前向传播只有约 129 亿处于活跃状态——计算成本相当于 13B 稠密模型。
这意味着 Mixtral 8x7B 相对于每 token 推理成本而言,输出质量远超预期。但所有专家权重必须在启动时加载到 VRAM 中。Q4_K_M 下,Mixtral 8x7B 约需 26 GB VRAM——需要 24 GB 单卡(需略微降低量化)或双 GPU 配置。
DeepSeek V2 采用针对编程任务优化的类似 MoE 架构,Q4 下约需 16 GB VRAM。其编程基准测试成绩与活跃参数量多出 2~3 倍的模型相当。
| 模型 | 总参数 | 每 token 活跃参数 | Q4 下的 VRAM |
|---|---|---|---|
| Mixtral 8x7B | 46.7B | ~12.9B | ~26 GB |
| DeepSeek V2 | 236B | ~21B | ~16 GB |
Mixtral 8x7B 可通过 Ollama 的 ollama pull mixtral:8x7b 命令获取,会自动下载 Q4_K_M GGUF。 Ollama 处理跨可用 VRAM 的层分配,若 VRAM 不足会部分卸载至 CPU 内存,但这会显著降低速度。
如果只有 16 GB VRAM,DeepSeek V2 Q4 是更好的 MoE 选择。它完全适配 16 GB 显卡,在 RTX 4080 或同等设备上编程吞吐量约 15~20 tok/s。低于 16 GB VRAM 时请切换至稠密模型——大量 CPU 卸载时 MoE 的优势会消失。
常见误解:MoE 模型必须在启动时将全部专家权重加载到 VRAM 中,而不仅仅是活跃子集。VRAM 成本反映的是总参数,而非活跃参数。对于单一语言编程任务(如纯 Python 工作),Qwen 2.5 Coder 14B 等稠密模型通常优于 Mixtral 8x7B,因为其权重完全专门化于代码,而不是分散在多个通用专家中。
关于各 VRAM 层级最佳编程模型的完整对比(包括稠密模型替代方案),请参阅本地编程最佳 LLM 指南。
ollama pull mixtral:8x7b 下载 Q4_K_M 量化 GGUF;ollama run mixtral:8x7b 启动模型。Ollama 自动分配 VRAM,不足时卸载到 CPU 内存。