关键要点
截至2026年5月,4 GB显存下您只能使用Q4量化的30亿参数或更少的模型。这排除了所有主流本地模型——Llama 3 8B、Mistral 7B、Qwen 14B。三款现代小型模型表现出色:Phi-4 Mini在指令执行上与GPT-3.5相当,Gemma 2 2B处理快速聊天,SmolLM 1.7B可在集成显卡上运行。
Phi-4 Mini是该层级的首选。尽管体积小,它能以约25 tok/s处理通用问答、轻度编程和文档摘要。Gemma 2 2B在单轮聊天中更快。SmolLM 1.7B是Phi-4 Mini也让显存太接近上限时的备选方案。
| 模型 | 显存 | 适用场景 |
|---|---|---|
| Phi-4 Mini Q4 | 3.2 GB | 4 GB下最高质量 |
| Gemma 2 2B Q4 | 1.5 GB | 快速单轮聊天 |
| SmolLM 1.7B Q4 | 1.0 GB | 最小显存占用 |
以下模型经常被问到,但在所有量化级别下都需要超过4 GB显存:
升级到6 GB可解锁Llama 3 8B和Mistral 7B——两款最流行的本地模型。参阅6 GB显存最佳本地LLM。完整硬件比较请参阅低端PC最快本地LLM。