关键要点
- 小规模规模的最佳推理: Phi-4 Mini 3.8B -- 68% MMLU,70% HumanEval,运行于4 GB RAM。
- CPU上最快: Gemma 2 2B -- 任何现代笔记本电脑CPU上40-60令牌/秒,1.7 GB RAM。
- 最好的小规模编码模型: Qwen2.5 3B -- 〜2 GB RAM下65% HumanEval。
- 最好的通用3B模型: Llama 3.2 3B -- 最多社区支持,128K上下文,2.5 GB RAM。
- 截至2026年4月,2B以下的模型无法生成适合专业任务的输出质量。对于实际工作,使用3B或更大的模型。
什么是"小型"本地LLM,何时应该使用它?
小型本地LLM通常定义为参数少于40亿的模型。 在Q4_K_M量化下,这些模型需要1.5-3 GB的RAM,完全在具有4-8 GB总内存的入门级笔记本电脑的约束范围内。
截至2026年4月,小型模型适合:快速摘要、简单问答、代码片段解释、短文本翻译和分类任务。不适合多步推理、复杂代码生成或长篇一致的文档编写。
3B模型和7B模型之间的质量差距很大,大致相当于GPT-3.5 Mini和GPT-3.5 Turbo之间的差距。对于拥有8 GB RAM的用户,如果机器有余量,Q4_K_M的7B模型几乎总是更好的选择。有关7B建议,请参阅最佳初学者本地LLM模型。
Phi-4 Mini 3.8B -- Sub-4B类中最佳推理性能
Microsoft Phi-4 Mini在MMLU上达到68%,在HumanEval上达到70%,这些得分超过了许多2025年之前发布的7B模型。 之所以可能,是因为Phi-4 Mini在专注于推理和问题解决的精选合成数据集上进行了训练,而不是广泛的网络文本。
截至2026年4月,Phi-4 Mini是需要推理(数学、逻辑、分步解释)或在4-6 GB RAM硬件上进行编码协助的用户的推荐选择。
| Spec | Value |
|---|---|
| MMLU | 68% |
| HumanEval | 70% |
| RAM (Q4_K_M) | ~2.5 GB |
| 上下文 | 128K令牌 |
| CPU速度 | 30-50令牌/秒 |
| Ollama命令 | ollama run phi4-mini |
Gemma 2 2B -- CPU上最快的小型本地LLM
Google Gemma 2 2B在现代笔记本电脑CPU上生成40-60令牌/秒,是该质量层级内最快的模型。 其1.7 GB RAM占用空间在4 GB机器上为OS和其他应用程序留下充足的内存。
在推理任务上的质量低于Phi-4 Mini或Llama 3.2 3B。8K上下文窗口(相对于Phi-4 Mini和Llama 3.2的128K)对于较长的文档是实际限制。当响应速度比输出深度更重要时,Gemma 2 2B是正确的选择。
| Spec | Value |
|---|---|
| MMLU | 52% |
| RAM (Q4_K_M) | ~1.7 GB |
| 上下文 | 8K令牌 |
| CPU速度 | 40-60令牌/秒 |
| Ollama命令 | ollama run gemma2:2b |
Qwen2.5 3B -- 编码任务的最佳小型模型
Qwen2.5 3B在HumanEval上得分65%,比Llama 3.2 3B高5个百分点,使其成为3B规模编码任务的最佳选择。它支持JSON模式和函数调用,并原生处理29种语言。
对于英文的非编码任务,Llama 3.2 3B和Phi-4 Mini会产生更自然的散文。特别是在编码或多语言输出是主要用例时,选择Qwen2.5 3B。
| Spec | Value |
|---|---|
| MMLU | 62% |
| HumanEval | 65% |
| RAM (Q4_K_M) | ~2 GB |
| 上下文 | 128K令牌 |
| CPU速度 | 25-40令牌/秒 |
| Ollama命令 | ollama run qwen2.5:3b |
Llama 3.2 3B -- 最好的通用小型模型
Meta Llama 3 .2 3B是最广泛记录的、社区支持最多的3B模型。它在MMLU上得分58%,在HumanEval上得分60%,在两者上都略低于Phi-4 Mini,但拥有最广泛的工具支持、最多可用的微调和最大的社区指南集合。
128K上下文窗口与更大的Llama 3.x模型相同,适合总结中等长度的文档。作为第一个小型模型,Llama 3.2 3B因其可预测的行为和广泛的文档记录而仍然是最安全的选择。
| Spec | Value |
|---|---|
| MMLU | 58% |
| RAM (Q4_K_M) | ~2.5 GB |
| 上下文 | 128K令牌 |
| CPU速度 | 25-45令牌/秒 |
| Ollama命令 | ollama run llama3.2:3b |
Llama 3.2 1B -- 任何有用输出的绝对最小值
Llama 3.2 1B仅需1.3 GB RAM,在CPU上生成60-90令牌/秒,是最快的本地运行模型。输出质量是边界的:它处理非常简单的分类和关键词提取,但在连贯的多句响应上苦恼。截至2026年4月,仅在RAM是真正约束(可用3 GB以下)或测试工具集成时使用Llama 3.2 1B。
完整比较:4B以下最好的小型本地LLM
| 模型 | MMLU | HumanEval | RAM | 上下文 | 最适合 |
|---|---|---|---|---|---|
| Phi-4 Mini 3.8B | 68% | 70% | 2.5 GB | 128K | 推理、编码 |
| Qwen2.5 3B | 62% | 65% | 2 GB | 128K | 编码、多语言 |
| Llama 3.2 3B | 58% | 60% | 2.5 GB | 128K | 通用、首个模型 |
| Gemma 2 2B | 52% | 38% | 1.7 GB | 8K | 速度、非常低RAM |
| Llama 3.2 1B | 32% | 28% | 1.3 GB | 128K | 绝对最小RAM |
按地区的小型本地LLM
中国(数据安全法): Qwen2.5 3B(阿里巴巴,Apache 2.0)是中文小型模型部署的自然选择。原生中文标记化以相当的参数数与Llama相比,处理普通话文本的效率提高30-40%。对于IoT和中国《数据安全法》(数据安全法)下的边缘部署:`ollama run qwen2.5:3b`在配备4 GB RAM的任何Linux设备上运行,并在设备上处理所有文本,不进行外部API调用。本地Ollama部署保持所有文本处理在设备上,符合《数据安全法》对数据驻留和非跨境传输的要求。
日本: 对于小型模型层的日文任务,此比较中唯一的原生日文标记化是Qwen2.5 3B。Llama 3.2 3B处理日文但标记效率较低。对于RAM约束下的日文摘要或翻译:`ollama run qwen2.5:3b`。小型模型的速度优势对日本企业使用特别相关:CPU上25-40令牌/秒为标准办公硬件上的聊天界面提供适当的实时响应。
其他地区: 对于英文用例,Phi-4 Mini 3.8B在基于CPU的系统上提供最佳推理质量。当成本优化和速度很重要时,Gemma 2 2B以最小的内存提供可扩展的推理基础。
运行小型本地LLM时的常见错误
- 使用Q8_0量化而不是Q4_K_M: Q8_0需要Q4_K_M的几乎两倍RAM,质量改进最少。Llama 3.2 3B模型在Q8_0下需要~3.8 GB RAM对比Q4_K_M下的~2.5 GB。在4 GB机器上,Q8_0可能触发交换使用并使推理速度降低3-5倍。对于Sub-4B模型,始终使用Q4_K_M作为默认值。
- 运行基础模型而不是指令变体: 基础模型(例如`llama3.2:3b-text`)是预先微调的检查点,经训练用于预测文本中的下一个令牌。它们不遵循指令。当您问基础模型"2+2是什么?"时,它可能将句子作为测验完成而不是回答"4"。始终使用指令变体:`llama3.2:3b`(Ollama对命名模型默认为指令)。
- 期望从3B模型获得7B模型质量: 68% MMLU(Phi-4 Mini)的3B模型在一般任务上的表现与2023年代的GPT-3.5 Mini相似。复杂推理链、长篇写作和细微代码生成将产生明显低于7B模型的质量。如果输出质量不足,升级到7B模型----RAM差异约为2 GB(2.5 GB → 4.5 GB)。
相关阅读
- 最佳初学者本地LLM模型 -- 当8 GB RAM可用且质量需要从3B升级时的7B推荐
- 运行您的第一个本地LLM -- 使用Ollama在10分钟内拉取和运行此页面上任何模型的分步指南
- 笔记本电脑上的本地LLM -- 在RAM约束下进行持续推理的热管理和电池管理
- LLM量化解释 -- 为什么Q4_K_M是默认值以及何时为极端RAM约束考虑Q3_K_M
- 最佳本地编码LLM -- 当Qwen2.5 3B不足以完成复杂任务时的7B+规模编码特定模型
- 本地LLM设置故障排除 -- 修复RAM约束机器上常见的OOM错误、缓慢推理和模型加载失败
关于小型本地LLM模型的常见问题
生成有用输出的最小本地LLM是什么?
截至2026年4月,有用输出的实际最小值是Q4_K_M量化下的3B模型。2B以下参数的模型生成连贯的单句但在多步骤指令和复杂推理上苦恼。对于摘要和简单问答等任务,Gemma 2 2B是可用的。对于更复杂的任务,从3B模型开始。
我可以在电话上运行3B模型吗?
可以----Llama 3.2 1B和3B专为设备上移动部署而设计。Meta为iOS(通过MLC LLM)和Android提供优化的构建。在现代手机上的推理为1B模型生成15-30令牌/秒。LM Studio和Ollama目前不在iOS或Android上运行----移动需要单独的框架。
小型模型适合摘要吗?
是的----摘要是小型模型最强的用例之一。Gemma 2 2B和Llama 3.2 3B可靠地生成高达〜4,000字的文本的准确摘要。对于较长的文档,使用具有大上下文窗口的模型,如Phi-4 Mini或Llama 3.2 3B(均128K令牌)。
2B模型在相同硬件上比7B模型快多少倍?
在CPU上大约快2-3倍。Gemma 2 2B在同一笔记本电脑CPU上生成40-60令牌/秒对Mistral 7B的10-20令牌/秒。在GPU上,速度优势缩小。速度差在仅CPU的机器上最明显。
小型模型支持函数调用吗?
有些支持。Qwen2.5 3B支持函数调用和JSON模式。Llama 3.2 3B有基本的工具使用支持。Gemma 2 2B不支持函数调用。在构建依赖于结构化输出的管道之前检查模型文档。
英文以外的语言最好的小型模型是什么?
Qwen2.5 3B原生支持29种语言,包括中文、日文、韩文和阿拉伯文。Gemma 2 2B和Phi-4 Mini主要是英文优化的。对于小型模型规模的非英文任务,Qwen2.5 3B是明确的选择。有关完整的语言比较,请参阅Qwen vs Llama vs Mistral 多语言比较。
日常任务中Phi-4 Mini和Llama 3.2 3B之间的区别是什么?
Phi-4 Mini以几乎相同的RAM(每个2.5 GB)在推理、数学和编码上超过Llama 3.2 3B(68%对58% MMLU,70%对60% HumanEval)。对于日常任务----问答、摘要、简单解释----质量差距明显但不引人注目。Llama 3.2 3B拥有更广泛的社区支持和更多可用的微调。为结构化推理选择Phi-4 Mini;为通用聊天和兼容性选择Llama 3.2 3B。
我可以同时运行两个小型模型吗?
可以,如果总RAM允许的话。两个3B模型在Q4_K_M下组合使用〜5 GB----在具有精益OS的8 GB机器上可行。Ollama默认按进程一次加载一个模型。在不同的端口(OLLAMA_HOST=:11434和OLLAMA_HOST=:11435)上运行两个Ollama实例以并行提供两个模型。这对于A/B测试输出很有用。
小型模型适合RAG(检索增强生成)吗?
对于简单RAG是的。Llama 3.2 3B和Phi-4 Mini可以可靠地回答检索到的文档块上的问题。对于需要多跳推理的大型知识库上的RAG,7B+模型执行更加一致。GPT4All的LocalDocs功能为文档问答使用3B模型,对个人文档集合效果很好。
Phi-4 Mini在编码上比Llama 3.2 3B更好吗?
是的。Phi-4 Mini在此规模达到60%对70% HumanEval得分,与Llama 3.2 3B相比有意义的10点差距。对于4-6 GB RAM机器上的编码协助,Phi-4 Mini是推荐选择。对于多语言编码(非Python),65% HumanEval的Qwen2.5 3B与Phi-4 Mini竞争,同时也支持函数调用。
来源
- Hugging Face Open LLM排行榜 -- open-llm-leaderboard.hf.space(MMLU和HumanEval得分)
- Microsoft Phi-4技术报告 -- microsoft.com/en-us/research/publication/phi-4-technical-report/
- Meta Llama 3.2模型卡 -- huggingface.co/meta-llama/Llama-3.2-3B-Instruct
- Google Gemma 2技术报告 -- storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf