关键要点
截至2026年5月,模型的显存需求遵循一个简单公式:参数量(十亿为单位)× 0.7 = Q4量化下的近似GB数。7B模型的权重需要约4.9 GB,另加0.5–1 GB的上下文开销。这就是为什么6 GB是7–8B档位的最低要求,以及12 GB能够为14B档位留有余量的原因。
请将下表作为快速决策参考。「速度」列假设Ollama在台式机GPU上以默认上下文(2048令牌)运行。
始终在模型声明需求基础上保留1–2 GB的空闲显存。操作系统、浏览器标签页和Ollama运行时即使在未加载模型时也会消耗500 MB–1 GB。运行5.5 GB模型的6 GB显卡只剩500 MB余量——一旦将--num-ctx增加到2048令牌以上就会出现内存不足错误。有关安全余量的6 GB档位建议,请参阅6 GB显存最佳本地LLM。
| 显存 | Q4_K_M最佳模型 | 速度 |
|---|---|---|
| 4 GB | Phi-4 Mini Q4 | ~25 tok/s |
| 6 GB | Llama 3 8B Q4_K_M | ~20 tok/s |
| 8 GB | Mistral 7B Q5_K_M | ~18 tok/s |
| 12 GB | Qwen 14B Q4_K_M | ~15 tok/s |
| 16+ GB | Qwen 32B Q4或Llama 70B部分运行 | ~8 tok/s |
当模型超出显存时,您有三个选择:降低量化等级(用Q4_K_M代替Q5)、使用--num-ctx 2048缩小上下文窗口,或让Ollama将层卸载到系统RAM。
CPU卸载可以运行但速度较慢——每个移至RAM的层都会增加延迟。对于交互式使用,请保持在GPU显存限制内。将上下文从4096缩减到2048令牌,7B模型约可节省2 GB显存。
有关模型大小的完整分类以及显存估算的计算方法,请参阅本地LLM完整显存指南。关于7B档位的详情,请参阅7B模型所需RAM量。
--num-ctx 2048。这可以在不修改模型文件的情况下,将7B模型的显存使用减少最多2 GB。