关键要点
- 消费级硬件综合最佳:Qwen 3.6 27B(77.2% SWE-bench、Q4下可装入24GB)。均衡全能:qwen3:30b。
- 最多下载:Llama 3.2 3B(教程向)和Llama系列。
- 最强推理:DeepSeek-R1(思维链)和gpt-oss:20b(推理可调、~o3-mini水平)。
- 最强编程:Kimi K2.6(前沿MoE)、Qwen 3.6 27B(最优密度)、Devstral Small 24B(最优智能体)、qwen3-coder:30b(补全)。
- 小型/16GB最强:gpt-oss:20b。视觉/多模态最强:Gemma 4(E4B及以上)。长上下文(10M)/ 大型多模态最强:Llama 4 Scout(~55GB)。
- 2026年6月Ollama库:4,500+模型。全部通过`ollama pull <名称>`可用。
Ollama新增功能 — 2026年6月更新
当前Ollama版本:v0.30.8(2026年6月12日发布)。这是最新稳定版本,可通过ollama.com/download获取。使用`curl https://ollama.ai/install.sh | sh`更新(macOS:`brew upgrade ollama`),然后用`ollama --version`确认。
v0.30系列的变化(2026年5月-6月): Ollama v0.30通过llama.cpp扩展了GGUF模型兼容性,将硬件支持扩展到Apple Silicon之外;MLX引擎于2026年6月11日升级,实现迄今最快的Apple Silicon推理——以更少内存输出更高质量。截至v0.30.8的版本新增Gemma 4 QAT权重(6月5日)、Hermes Desktop(6月7日)、改进的prompt/KV-cache复用以及Windows配置路径修复。完整说明:github.com/ollama/ollama/releases。
本月新增最新模型(2026年6月):
- MiniMax M3(MiniMax、2026年6月1日)— 最新开放权重旗舰:首个同时兼具前沿编码(SWE-Bench Pro 59.0)、1M token上下文窗口和原生图像/视频输入的模型。正在向Ollama库推出——用`ollama pull minimax-m3`确认可用性。
- NVIDIA Nemotron 3 Ultra(NVIDIA、2026年6月4日)— 专为高吞吐推理和长时运行的代理工作流构建。NVIDIA Open Model License。拉取:`ollama pull nemotron3-ultra`
- DeepSeek V4 Pro(DeepSeek、2026年4月23日)— 算法编码专家,93.5% LiveCodeBench,MIT许可。轻量硬件可选预算版DeepSeek V4 Flash。拉取:`ollama pull deepseek-v4-pro`
- Kimi K2.6(Moonshot AI、2026年4月20日)— 前沿编码模型,SWE-Bench Pro 58.6,SWE-bench Verified 80.2%。MoE架构(32B活跃/1T总数)。Modified MIT许可。
- Qwen 3.6 27B(Alibaba、2026年4月16日)— 消费级硬件综合最佳,77.2% SWE-bench,Apache 2.0,Q4下可装入24GB。另有Qwen3.6-35B-A3B(MoE,73.4 SWE-bench)。
- GLM-5.1(Z.ai、2026年4月7日)— 744B / 40B活跃MoE,MIT许可,SWE-Bench Pro 58.4。结构化代码生成领导者。
- gpt-oss(OpenAI、2026年)— 开放权重MoE:gpt-oss:20b(21B总数 / 3.6B活跃,16GB可运行,~o3-mini水平,推理可调)和gpt-oss:120b(80GB)。
- Gemma 4(Google、2026年4月2日)— 多模态尺寸 E2B / E4B / E12B(26B MoE)/ E27B(31B密集),全部支持视觉和工具调用。2026年6月5日新增QAT权重。E4B在~6GB显存下运行。
# 更新Ollama到最新版本(v0.30.8)
curl https://ollama.ai/install.sh | sh
# 或Mac:brew upgrade ollama
# 检查当前版本
ollama --version # 输出:ollama version 0.30.8
# 拉取2026年6月最新模型
ollama pull minimax-m3
ollama pull deepseek-v4-pro
ollama pull kimi-k2.6最受欢迎的模型(2026年6月)
Llama 3.2 3B 仍为总下载量最高,主要作为初安装测试模型。在消费级硬件品质方面,Qwen 3.6 27B(77.2% SWE-bench、Q4下可装入24GB)现为综合最佳选择。
Qwen3和Qwen 3.6 是Ollama库中增长最快的模型家族,Qwen3和新的Qwen 3.6密集变体正在快速取代Qwen3。DeepSeek-R1在发布后出现大幅增长,并保持推理任务的高下载量。
Meta Llama 4 于2026年4月推出Scout(17B活跃、109B总数、MoE)和Maverick(17B活跃、400B总数)变体。Llama 4 Scout现已稳定在Ollama库中(`ollama pull llama4:scout`)。Llama 4采用Mixture-of-Experts(MoE)架构,每个token仅17B参数活跃,但因109B总参数,Scout在Q4下需~55GB显存(24GB仅限1.78位,~20 tok/s)。Scout的亮点是10M token上下文窗口和多模态输入,而非消费级硬件适配性。Ollama生态在2026年4月显著扩展。Kimi K2.6(Moonshot AI、Modified MIT许可、32B活跃/1T总数MoE)取得SWE-Bench Pro 58.6,与GPT-5.5持平。Qwen 3.6 27B达到77.2% SWE-bench,成为消费级硬件综合最佳(Q4下可装入24GB)。OpenAI的开放权重gpt-oss:20b(21B总数/3.6B活跃MoE)在16GB下以~o3-mini水平运行,推理可调。当前版本Ollama v0.30.8(2026年6月12日)通过llama.cpp扩展GGUF硬件支持,并升级Apple Silicon MLX引擎。Ollama库现参考4,500+模型,其中MiniMax M3、NVIDIA Nemotron 3 Ultra和DeepSeek V4 Pro为本月最新新增。
按用途分类
模型的输出质量在很大程度上取决于你的提示方式。关于适用于所有本地模型的结构化技术——包括思维链、Few-Shot示例和输出格式化——请参阅Prompt工程指南。对于推理任务,Chain-of-Thought提示显著改善DeepSeek-R1和Qwen3输出质量。了解每个模型所需的VRAM,见VRAM需求指南 →。对于Gemma 4代理工作流,见Tree-of-Thought和ReAct。一旦把这份榜单中的工具调用模型接入具备文件访问和数据库查询能力的多步循环,就可以参阅使用 MCP 的本地 AI 代理,了解这套开源编排方案。
- 通用聊天(初学者):`ollama run llama3.2:3b` -- 文档最多,最佳入门模型。
- 通用聊天(最佳选择):`ollama run qwen3.6:27b` -- 77.2% SWE-bench,消费级硬件综合最佳,Q4下可装入24GB。均衡全能:`ollama run qwen3:30b`。8GB机器保持`ollama run llama3.2:3b`。
- 长上下文 / 多模态:`ollama run llama4:scout` -- 10M token上下文 + 多模态,MoE(17B活跃/109B总数)。Q4下需~55GB显存(24GB仅限1.78位,~20 tok/s)。
- 小型/16GB最强:`ollama run gpt-oss:20b` -- 21B总数 / 3.6B活跃MoE,~o3-mini水平,推理可调。更大:`ollama run gpt-oss:120b`(80GB)。
- 编程(7B):`ollama run qwen3:8b` -- 76% HumanEval,改进自Qwen3,多语言。
- 编程(最优代理、24B):`ollama run devstral-small:24b` -- 最优代理编程(多文件编辑、调试)。16GB RAM。Mistral AI出品。
- 编程(最优密集、27B):`ollama run qwen3.6:27b` -- 77.2% SWE-bench。最优密集编程模型。22GB显存。
- 编程(前沿MoE):`ollama run kimi-k2.6` -- SWE-Bench Pro 58.6(与GPT-5.5持平),顶级。MoE(32B活跃/1T总数)。Modified MIT许可。
- 代理和工具调用:`ollama run gemma4:e4b` -- 2026年4月2日发布。内置工具调用+视觉支持。推荐本地代理、函数调用、结构化输出。6GB RAM。
- 推理和数学:`ollama run deepseek-r1:7b` -- Chain-of-Thought模型,7B最高本地数学性能。
- 多语言:`ollama run qwen3:7b` -- 29+本地语言,最强非英文支持,76% HumanEval。
- 图像理解:`ollama run gemma4:e4b` -- 视觉+工具调用(2026年6月)。或`ollama run llama3.2-vision:11b`专用视觉。
- 快速轻量:`ollama run gemma2:2b` -- 最快CPU推理,1.7GB RAM。
- 高质量(16GB显存):`ollama run mistral-small3.1` -- 70B品质14GB显存。
- 家庭自动化 / 唤醒词AI:`ollama run phi4-mini` — Phi-4 Mini(3.8B,约3 GB VRAM)在无独显的迷你PC上以20–25 tok/sec处理Home Assistant语音命令。参阅Home Assistant + Ollama集成指南 →。
DeepSeek-R1:2026年推理最强的模型
DeepSeek-R1 7B在推理任务中表现最强。 采用Chain-of-Thought(思维链)架构,让模型在生成答案前进行"思考"。
关键数据:MATH 52%(7B模型中最高)、AIME 19.5%、AlphaCode 65%。适合数学推导、代码审查、复杂逻辑。
生成速度:M1 Pro上15-25 tokens/秒(与Llama 3.3相同)。但总延迟较高(思考过程生成需要额外时间)。中等查询约8-12秒。
安装命令:
ollama run deepseek-r1:7b视觉和多模态模型对比
2026年4月,以下开源视觉模型可在Ollama中本地运行:
| 模型 | RAM要求 | 图像支持 | Ollama命令 |
|---|---|---|---|
| Llama 3.2 Vision 11B | 11 GB | 是(JPEG、PNG、GIF) | ollama run llama3.2-vision:11b |
| Gemma 3 9B | 9.5 GB | 是(Gemma 3全系多模态) | ollama run gemma3:9b |
| Qwen2-VL 7B | 7.5 GB | 是(视频帧、多页PDF) | ollama run qwen2-vl:7b |
| Phi-4 Vision 14B | 14 GB | 是(高分辨率输入) | ollama run phi4:14b |
Ollama完整Top 10模型排行(2026年4月)
根据Ollama官方下载统计和HumanEval、MMLU基准:
| 排名 | 模型 | 最适用于 | RAM要求 | HumanEval |
|---|---|---|---|---|
| 1 | Llama 3.3 8B | 通用、初学者入门 | 6.5 GB | 76% |
| 2 | Qwen3 7B | 代码和中文 | 6.5 GB | 90% |
| 3 | Mistral Small | 多语言和欧洲市场 | 6.5 GB | 85% |
| 4 | Llama 3.3 70B | 企业级和复杂任务 | 44 GB | 92% |
| 5 | DeepSeek-R1 7B | 推理和问题求解 | 6.5 GB | 88% |
| 6 | Gemma 3 9B | 视觉和多模态 | 9.5 GB | 84% |
| 7 | Llama 3.2 Vision 11B | 图像理解和分析 | 11 GB | 80% |
| 8 | Phi-3.5 Mini 3.8B | 移动和物联网 | 3 GB | 76% |
| 9 | Qwen3 32B | 高质量和复杂推理 | 20 GB | 92% |
| 10 | Mistral Small 3.1 | 实时应用和低延迟 | 5 GB | 83% |
如何浏览和选择Ollama模型
使用Ollama模型有两种方式。切换已安装模型: 在Ollama Mac应用中,点击聊天输入框底部的模型下拉按钮(显示当前模型名,如"gemma3:1b")切换本地已安装的模型。查找并下载新模型: 访问ollama.com/library按类别浏览4500+模型,然后使用下方CLI命令下载安装。
ollama pull llama3.1:8b
ollama run llama3.2常见误区
中国企业使用本地LLM如何符合数据安全法?
根据《中华人民共和国数据安全法》(2021年),敏感数据(用户、金融、医疗)在中国境内处理。本地推理完全满足此要求:数据不离开企业系统。推荐使用Qwen3系列(阿里开发,针对中文优化)或Llama 3.3。关键:选择与您数据分类相符的模型。
亚太地区跨境数据如何处理?
东南亚、日本、澳大利亚等地有跨境数据限制(PDPA、APPI、Privacy Act)。本地LLM优势:推理完全本地化,无跨境传输。ASEAN成员国建议使用本地部署+地理位置锁定。中国企业对APAC客户:Qwen3或Llama可在本地数据中心运行,满足所有地域要求。
金融、医疗、法律企业如何部署?
这些高监管行业要求:数据主权、完整审计、合规认证。本地LLM方案:(1)Llama 3.3/70B:标准金融基准检验;(2)Qwen3:中文医疗文档理解;(3)Mistral:法律条款分析。部署步骤:孤立网络、受限访问、日志记录、定期审计。Ollama与标准企业IT(Kubernetes、Docker)兼容。
下一步
- 最佳本地编程LLM — 专为编程优化的最佳Ollama模型 →
- 仅CPU运行LLM指南 — 没有GPU?从这里开始 →
- 本地LLM硬件指南2026 — 不确定你的电脑能否运行这些模型? →
常见问题
本地LLM需要多少RAM?
7B模型:6.5-8GB。13B模型:11-14GB。70B模型:42-48GB(Q4_K_M量子化)。3B模型:2-3GB。运行前用 `ollama show [model-name]` 检查确切要求。
Ollama模型可以离线运行吗?
可以。首次下载后,推理完全本地进行。无网络需求。Ollama定期检查更新但不自动应用。
哪个模型对中文支持最好?
Qwen3 7B。使用CulturaX中文微调和Wikipedia中文语料。Llama 3.3中文可接受,但Qwen精度更高。Mistral Small主要针对法文和西班牙文。
Ollama模型真的完全免费吗?
是的。所有Ollama模型遵循开源许可(Apache 2.0、Meta Llama Community、DeepSeek)。无订阅、无API费用。下载、本地安装和无限使用完全免费。
DeepSeek-R1的速度真的那么快?
生成速度:M1 Pro 15-25 tokens/秒(与Llama 3.3相同)。总延迟更高因为思维链生成需要额外处理。中等查询约8-12秒。实时应用选Llama 3.3或Mistral。
为什么不直接用ChatGPT Plus而用本地Ollama?
隐私:对话不发送给OpenAI。成本:无月费,GPU一次性购买。离线:完全无网络需求。自定义:完全控制系统提示、行为和参数。
Ollama模型支持图像处理吗?
支持。Llama 3.2 Vision、Qwen2-VL、Gemma 3都是多模态。图像本地上传无云传输。支持JPEG、PNG、GIF。
如何更新Ollama模型?
重新运行 `ollama pull [model-name]`。仅下载差分(去重)。删除旧版本:`ollama rm [model-name]:tag`。
GDPR对Ollama有影响吗?
有。GDPR个人数据安全强制。本地推理满足内置保护要求。无云传输=主权、防护、合规性。注意:使用云模型时需确认处理合同。
日本企业如何利用Ollama?
优势:数据主权(避免云锁定)、符合IT标准(IPA/METI AI Governance 2024)、标准硬件可扩展、无API费用。Qwen3 7B在标准企业GPU上运行。Llama 3.3 8B适合企业工具、客户自动化和文档处理验证。
相关阅读
- 如何安装Ollama:完整指南
- Ollama vs LM Studio:完整对比
- 本地LLM硬件指南2026
- LLM量子化完全指南:Q4_K_M vs IQ3_M
- Prompt Engineering框架:RTF框架
- AI代码审查指南
- 本地LLM模型更新2026 -- 包含Ollama可用日期的所有主要开权重发布完整时间线。
参考来源
- Ollama官方库----所有支持的模型和下载命令
- OpenCompass 2026基准----MMLU、HumanEval、MATH排名
- DeepSeek-R1研究论文----推理模型技术细节
- Qwen3技术报告----中文优化和性能数据