Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/Ollama 2026年6月更新:v0.30.8 + Top 10开源模型
最佳模型

Ollama 2026年6月更新:v0.30.8 + Top 10开源模型

·阅读约9分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

2026年6月更新。当前Ollama版本为v0.30.8(2026年6月12日发布),通过llama.cpp扩展GGUF硬件支持,并升级了Apple Silicon MLX引擎。本月库中最新模型为MiniMax M3(6月1日,开放权重,1M token上下文+原生视觉)、NVIDIA Nemotron 3 Ultra(6月4日)和DeepSeek V4 Pro,与Kimi K2.6、Qwen 3.6、GLM-5.1、gpt-oss和Gemma 4并列。总下载量最高仍为Llama系列(Llama 4 Scout、Llama 3.x);消费级硬件综合最佳为Qwen 3.6 27B(77.2% SWE-bench)。

演示文稿: Ollama 2026年6月更新:v0.30.8 + Top 10开源模型

下面的幻灯片涵盖:按下载次数排名的 Top 10 Ollama 模型、性能对比(60-74% HumanEval)、按用途分类的最佳模型(聊天、编码、推理、视觉)、DeepSeek-R1 链式思维推理及确切的拉取命令。将 PDF 下载为您的 Ollama 模型选择参考卡。

浏览以下幻灯片或下载PDF以供离线参考。 下载参考卡(PDF)

关键要点

  • 消费级硬件综合最佳:Qwen 3.6 27B(77.2% SWE-bench、Q4下可装入24GB)。均衡全能:qwen3:30b。
  • 最多下载:Llama 3.2 3B(教程向)和Llama系列。
  • 最强推理:DeepSeek-R1(思维链)和gpt-oss:20b(推理可调、~o3-mini水平)。
  • 最强编程:Kimi K2.6(前沿MoE)、Qwen 3.6 27B(最优密度)、Devstral Small 24B(最优智能体)、qwen3-coder:30b(补全)。
  • 小型/16GB最强:gpt-oss:20b。视觉/多模态最强:Gemma 4(E4B及以上)。长上下文(10M)/ 大型多模态最强:Llama 4 Scout(~55GB)。
  • 2026年6月Ollama库:4,500+模型。全部通过`ollama pull <名称>`可用。

Ollama新增功能 — 2026年6月更新

当前Ollama版本:v0.30.8(2026年6月12日发布)。这是最新稳定版本,可通过ollama.com/download获取。使用`curl https://ollama.ai/install.sh | sh`更新(macOS:`brew upgrade ollama`),然后用`ollama --version`确认。

v0.30系列的变化(2026年5月-6月): Ollama v0.30通过llama.cpp扩展了GGUF模型兼容性,将硬件支持扩展到Apple Silicon之外;MLX引擎于2026年6月11日升级,实现迄今最快的Apple Silicon推理——以更少内存输出更高质量。截至v0.30.8的版本新增Gemma 4 QAT权重(6月5日)、Hermes Desktop(6月7日)、改进的prompt/KV-cache复用以及Windows配置路径修复。完整说明:github.com/ollama/ollama/releases。

本月新增最新模型(2026年6月):

  • MiniMax M3(MiniMax、2026年6月1日)— 最新开放权重旗舰:首个同时兼具前沿编码(SWE-Bench Pro 59.0)、1M token上下文窗口和原生图像/视频输入的模型。正在向Ollama库推出——用`ollama pull minimax-m3`确认可用性。
  • NVIDIA Nemotron 3 Ultra(NVIDIA、2026年6月4日)— 专为高吞吐推理和长时运行的代理工作流构建。NVIDIA Open Model License。拉取:`ollama pull nemotron3-ultra`
  • DeepSeek V4 Pro(DeepSeek、2026年4月23日)— 算法编码专家,93.5% LiveCodeBench,MIT许可。轻量硬件可选预算版DeepSeek V4 Flash。拉取:`ollama pull deepseek-v4-pro`
  • Kimi K2.6(Moonshot AI、2026年4月20日)— 前沿编码模型,SWE-Bench Pro 58.6,SWE-bench Verified 80.2%。MoE架构(32B活跃/1T总数)。Modified MIT许可。
  • Qwen 3.6 27B(Alibaba、2026年4月16日)— 消费级硬件综合最佳,77.2% SWE-bench,Apache 2.0,Q4下可装入24GB。另有Qwen3.6-35B-A3B(MoE,73.4 SWE-bench)。
  • GLM-5.1(Z.ai、2026年4月7日)— 744B / 40B活跃MoE,MIT许可,SWE-Bench Pro 58.4。结构化代码生成领导者。
  • gpt-oss(OpenAI、2026年)— 开放权重MoE:gpt-oss:20b(21B总数 / 3.6B活跃,16GB可运行,~o3-mini水平,推理可调)和gpt-oss:120b(80GB)。
  • Gemma 4(Google、2026年4月2日)— 多模态尺寸 E2B / E4B / E12B(26B MoE)/ E27B(31B密集),全部支持视觉和工具调用。2026年6月5日新增QAT权重。E4B在~6GB显存下运行。
bash
# 更新Ollama到最新版本(v0.30.8)
curl https://ollama.ai/install.sh | sh

# 或Mac:brew upgrade ollama

# 检查当前版本
ollama --version  # 输出:ollama version 0.30.8

# 拉取2026年6月最新模型
ollama pull minimax-m3
ollama pull deepseek-v4-pro
ollama pull kimi-k2.6

最受欢迎的模型(2026年6月)

Llama 3.2 3B 仍为总下载量最高,主要作为初安装测试模型。在消费级硬件品质方面,Qwen 3.6 27B(77.2% SWE-bench、Q4下可装入24GB)现为综合最佳选择。

Qwen3和Qwen 3.6 是Ollama库中增长最快的模型家族,Qwen3和新的Qwen 3.6密集变体正在快速取代Qwen3。DeepSeek-R1在发布后出现大幅增长,并保持推理任务的高下载量。

Meta Llama 4 于2026年4月推出Scout(17B活跃、109B总数、MoE)和Maverick(17B活跃、400B总数)变体。Llama 4 Scout现已稳定在Ollama库中(`ollama pull llama4:scout`)。Llama 4采用Mixture-of-Experts(MoE)架构,每个token仅17B参数活跃,但因109B总参数,Scout在Q4下需~55GB显存(24GB仅限1.78位,~20 tok/s)。Scout的亮点是10M token上下文窗口和多模态输入,而非消费级硬件适配性。Ollama生态在2026年4月显著扩展。Kimi K2.6(Moonshot AI、Modified MIT许可、32B活跃/1T总数MoE)取得SWE-Bench Pro 58.6,与GPT-5.5持平。Qwen 3.6 27B达到77.2% SWE-bench,成为消费级硬件综合最佳(Q4下可装入24GB)。OpenAI的开放权重gpt-oss:20b(21B总数/3.6B活跃MoE)在16GB下以~o3-mini水平运行,推理可调。当前版本Ollama v0.30.8(2026年6月12日)通过llama.cpp扩展GGUF硬件支持,并升级Apple Silicon MLX引擎。Ollama库现参考4,500+模型,其中MiniMax M3、NVIDIA Nemotron 3 Ultra和DeepSeek V4 Pro为本月最新新增。

按用途分类

模型的输出质量在很大程度上取决于你的提示方式。关于适用于所有本地模型的结构化技术——包括思维链、Few-Shot示例和输出格式化——请参阅Prompt工程指南。对于推理任务,Chain-of-Thought提示显著改善DeepSeek-R1和Qwen3输出质量。了解每个模型所需的VRAM,见VRAM需求指南 →。对于Gemma 4代理工作流,见Tree-of-Thought和ReAct。一旦把这份榜单中的工具调用模型接入具备文件访问和数据库查询能力的多步循环,就可以参阅使用 MCP 的本地 AI 代理,了解这套开源编排方案。

  • 通用聊天(初学者):`ollama run llama3.2:3b` -- 文档最多,最佳入门模型。
  • 通用聊天(最佳选择):`ollama run qwen3.6:27b` -- 77.2% SWE-bench,消费级硬件综合最佳,Q4下可装入24GB。均衡全能:`ollama run qwen3:30b`。8GB机器保持`ollama run llama3.2:3b`。
  • 长上下文 / 多模态:`ollama run llama4:scout` -- 10M token上下文 + 多模态,MoE(17B活跃/109B总数)。Q4下需~55GB显存(24GB仅限1.78位,~20 tok/s)。
  • 小型/16GB最强:`ollama run gpt-oss:20b` -- 21B总数 / 3.6B活跃MoE,~o3-mini水平,推理可调。更大:`ollama run gpt-oss:120b`(80GB)。
  • 编程(7B):`ollama run qwen3:8b` -- 76% HumanEval,改进自Qwen3,多语言。
  • 编程(最优代理、24B):`ollama run devstral-small:24b` -- 最优代理编程(多文件编辑、调试)。16GB RAM。Mistral AI出品。
  • 编程(最优密集、27B):`ollama run qwen3.6:27b` -- 77.2% SWE-bench。最优密集编程模型。22GB显存。
  • 编程(前沿MoE):`ollama run kimi-k2.6` -- SWE-Bench Pro 58.6(与GPT-5.5持平),顶级。MoE(32B活跃/1T总数)。Modified MIT许可。
  • 代理和工具调用:`ollama run gemma4:e4b` -- 2026年4月2日发布。内置工具调用+视觉支持。推荐本地代理、函数调用、结构化输出。6GB RAM。
  • 推理和数学:`ollama run deepseek-r1:7b` -- Chain-of-Thought模型,7B最高本地数学性能。
  • 多语言:`ollama run qwen3:7b` -- 29+本地语言,最强非英文支持,76% HumanEval。
  • 图像理解:`ollama run gemma4:e4b` -- 视觉+工具调用(2026年6月)。或`ollama run llama3.2-vision:11b`专用视觉。
  • 快速轻量:`ollama run gemma2:2b` -- 最快CPU推理,1.7GB RAM。
  • 高质量(16GB显存):`ollama run mistral-small3.1` -- 70B品质14GB显存。
  • 家庭自动化 / 唤醒词AI:`ollama run phi4-mini` — Phi-4 Mini(3.8B,约3 GB VRAM)在无独显的迷你PC上以20–25 tok/sec处理Home Assistant语音命令。参阅Home Assistant + Ollama集成指南 →
按用途选择Ollama:2026年6月。聊天llama4:scout,编码qwen3.6:27b,推理deepseek-r1:7b。
按用途选择Ollama:2026年6月。聊天llama4:scout,编码qwen3.6:27b,推理deepseek-r1:7b。

DeepSeek-R1:2026年推理最强的模型

DeepSeek-R1 7B在推理任务中表现最强。 采用Chain-of-Thought(思维链)架构,让模型在生成答案前进行"思考"。

关键数据:MATH 52%(7B模型中最高)、AIME 19.5%、AlphaCode 65%。适合数学推导、代码审查、复杂逻辑。

生成速度:M1 Pro上15-25 tokens/秒(与Llama 3.3相同)。但总延迟较高(思考过程生成需要额外时间)。中等查询约8-12秒。

安装命令

bash
ollama run deepseek-r1:7b
DeepSeek-R1 7B vs Mistral Small: MATH 52% vs 28%。链式思维推理模型 -- 较慢,精度显著提升。
DeepSeek-R1 7B vs Mistral Small: MATH 52% vs 28%。链式思维推理模型 -- 较慢,精度显著提升。

视觉和多模态模型对比

2026年4月,以下开源视觉模型可在Ollama中本地运行:

模型RAM要求图像支持Ollama命令
Llama 3.2 Vision 11B11 GB是(JPEG、PNG、GIF)ollama run llama3.2-vision:11b
Gemma 3 9B9.5 GB是(Gemma 3全系多模态)ollama run gemma3:9b
Qwen2-VL 7B7.5 GB是(视频帧、多页PDF)ollama run qwen2-vl:7b
Phi-4 Vision 14B14 GB是(高分辨率输入)ollama run phi4:14b
4个Ollama视觉模型: llama3.2-vision:11b (8 GB)、gemma3:9b (6 GB)、minicpm-v (5.5 GB)。全部本地运行。
4个Ollama视觉模型: llama3.2-vision:11b (8 GB)、gemma3:9b (6 GB)、minicpm-v (5.5 GB)。全部本地运行。

Ollama完整Top 10模型排行(2026年4月)

根据Ollama官方下载统计和HumanEval、MMLU基准:

排名模型最适用于RAM要求HumanEval
1Llama 3.3 8B通用、初学者入门6.5 GB76%
2Qwen3 7B代码和中文6.5 GB90%
3Mistral Small多语言和欧洲市场6.5 GB85%
4Llama 3.3 70B企业级和复杂任务44 GB92%
5DeepSeek-R1 7B推理和问题求解6.5 GB88%
6Gemma 3 9B视觉和多模态9.5 GB84%
7Llama 3.2 Vision 11B图像理解和分析11 GB80%
8Phi-3.5 Mini 3.8B移动和物联网3 GB76%
9Qwen3 32B高质量和复杂推理20 GB92%
10Mistral Small 3.1实时应用和低延迟5 GB83%
按下载量排名前10的Ollama模型:RAM从1.7 GB (gemma2:2b)到14 GB (mistral-small3.1)。HumanEval 39-74%。
按下载量排名前10的Ollama模型:RAM从1.7 GB (gemma2:2b)到14 GB (mistral-small3.1)。HumanEval 39-74%。

如何浏览和选择Ollama模型

使用Ollama模型有两种方式。切换已安装模型: 在Ollama Mac应用中,点击聊天输入框底部的模型下拉按钮(显示当前模型名,如"gemma3:1b")切换本地已安装的模型。查找并下载新模型: 访问ollama.com/library按类别浏览4500+模型,然后使用下方CLI命令下载安装。

bash
ollama pull llama3.1:8b
ollama run llama3.2

常见误区

中国企业使用本地LLM如何符合数据安全法?

根据《中华人民共和国数据安全法》(2021年),敏感数据(用户、金融、医疗)在中国境内处理。本地推理完全满足此要求:数据不离开企业系统。推荐使用Qwen3系列(阿里开发,针对中文优化)或Llama 3.3。关键:选择与您数据分类相符的模型。

亚太地区跨境数据如何处理?

东南亚、日本、澳大利亚等地有跨境数据限制(PDPA、APPI、Privacy Act)。本地LLM优势:推理完全本地化,无跨境传输。ASEAN成员国建议使用本地部署+地理位置锁定。中国企业对APAC客户:Qwen3或Llama可在本地数据中心运行,满足所有地域要求。

金融、医疗、法律企业如何部署?

这些高监管行业要求:数据主权、完整审计、合规认证。本地LLM方案:(1)Llama 3.3/70B:标准金融基准检验;(2)Qwen3:中文医疗文档理解;(3)Mistral:法律条款分析。部署步骤:孤立网络、受限访问、日志记录、定期审计。Ollama与标准企业IT(Kubernetes、Docker)兼容。

下一步

常见问题

本地LLM需要多少RAM?

7B模型:6.5-8GB。13B模型:11-14GB。70B模型:42-48GB(Q4_K_M量子化)。3B模型:2-3GB。运行前用 `ollama show [model-name]` 检查确切要求。

Ollama模型可以离线运行吗?

可以。首次下载后,推理完全本地进行。无网络需求。Ollama定期检查更新但不自动应用。

哪个模型对中文支持最好?

Qwen3 7B。使用CulturaX中文微调和Wikipedia中文语料。Llama 3.3中文可接受,但Qwen精度更高。Mistral Small主要针对法文和西班牙文。

Ollama模型真的完全免费吗?

是的。所有Ollama模型遵循开源许可(Apache 2.0、Meta Llama Community、DeepSeek)。无订阅、无API费用。下载、本地安装和无限使用完全免费。

DeepSeek-R1的速度真的那么快?

生成速度:M1 Pro 15-25 tokens/秒(与Llama 3.3相同)。总延迟更高因为思维链生成需要额外处理。中等查询约8-12秒。实时应用选Llama 3.3或Mistral。

为什么不直接用ChatGPT Plus而用本地Ollama?

隐私:对话不发送给OpenAI。成本:无月费,GPU一次性购买。离线:完全无网络需求。自定义:完全控制系统提示、行为和参数。

Ollama模型支持图像处理吗?

支持。Llama 3.2 Vision、Qwen2-VL、Gemma 3都是多模态。图像本地上传无云传输。支持JPEG、PNG、GIF。

如何更新Ollama模型?

重新运行 `ollama pull [model-name]`。仅下载差分(去重)。删除旧版本:`ollama rm [model-name]:tag`。

GDPR对Ollama有影响吗?

有。GDPR个人数据安全强制。本地推理满足内置保护要求。无云传输=主权、防护、合规性。注意:使用云模型时需确认处理合同。

日本企业如何利用Ollama?

优势:数据主权(避免云锁定)、符合IT标准(IPA/METI AI Governance 2024)、标准硬件可扩展、无API费用。Qwen3 7B在标准企业GPU上运行。Llama 3.3 8B适合企业工具、客户自动化和文档处理验证。

参考来源

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM