PromptQuorumPromptQuorum

可以在Ollama上运行Qwen 3吗?

快速回答

可以——Ollama支持从0.6B到72B的所有Qwen 3模型规格。用单条命令运行任意规格:ollama run qwen3:8b。8B模型在Q4下需要约6 GB VRAM。

  • ollama run qwen3:0.6b — 仅需1 GB VRAM
  • ollama run qwen3:8b — 需要约6 GB VRAM
  • ollama run qwen3:72b — 需要约40 GB VRAM

更新于: 2026-05

Ollama

关键要点

  • Ollama支持所有Qwen 3规格:0.6B、1.5B、3B、7B、14B、32B和72B
  • 用<code>ollama run qwen3:8b</code>拉取任意规格——将标签替换为目标规格
  • 7B模型在Q4下需要约6 GB VRAM,在中端GPU上运行约20 tok/s
  • Qwen 3通过标准Ollama API原生支持工具调用——无需自定义Modelfile

可以——以下是可用的规格

截至2026年5月,Ollama支持从0.6B到72B的所有主要Qwen 3模型规格。用单条命令拉取任意规格:ollama run qwen3:8b。将8b替换为0.6b1.5b3b14b32b72b

每个规格提供多种量化版本。Q4_K_M是默认的推荐起点——它提供最佳的质量与文件大小比。如果VRAM充足,7B和14B还提供Q8_0版本。

所有Qwen 3规格均通过标准Ollama API原生支持工具调用。无需自定义Modelfile或特殊提示词模板。

ollama run qwen3:8b

选择哪个Qwen 3规格

选择Qwen 3规格完全取决于可用VRAM。对于使用中端GPU(6–8 GB VRAM)的大多数用户,Q4_K_M的7B模型是实用之选——需要约6 GB,运行约20 tok/s。

Q4的14B模型是推荐的代码层级:代码生成性能优于7B,且可稳定运行在10–12 GB VRAM中。Qwen 3代码性能与其他本地模型的完整对比,请参阅2026年本地运行Qwen指南

VRAMQwen 3规格适用场景
< 4 GB0.6B / 1.5B边缘设备、测试、纯CPU
4–6 GB3B入门级GPU或低内存CPU
6–12 GB7B / 14B通用使用和代码生成
12–24 GB14B / 32B高质量代码和推理
40+ GB72B接近前沿的本地质量

Ollama上运行Qwen 3的常见问题

如何在Ollama上安装Qwen 3?
在终端运行ollama run qwen3:8b。Ollama在首次运行时自动下载模型。将8b替换为目标规格:0.6b、1.5b、3b、14b、32b或72b。
Qwen 3在代码任务上比Llama 3更好吗?
代码任务:是的,Qwen 3 14B在HumanEval基准上优于Llama 3 8B。8B层级的通用对话:Llama 3 8B仍具竞争力。跨任务的当前最佳Ollama选择,请参阅当前最佳Ollama模型
Qwen 3在Ollama上支持工具调用吗?
支持。Qwen 3通过标准Ollama API原生支持函数和工具调用。无需自定义Modelfile或特殊配置——适用于任何支持Ollama工具使用格式的客户端。
可以在消费级硬件上运行Qwen 3 72B吗?
理论上可以,但在Q4下需要约40 GB VRAM——即双GPU配置(两块RTX 3090)或64 GB以上统一内存的Apple M-series Mac。大多数消费级配置的上限是32B。