快速回答
可以——Ollama支持从0.6B到72B的所有Qwen 3模型规格。用单条命令运行任意规格:ollama run qwen3:8b。8B模型在Q4下需要约6 GB VRAM。
更新于: 2026-05
关键要点
截至2026年5月,Ollama支持从0.6B到72B的所有主要Qwen 3模型规格。用单条命令拉取任意规格:ollama run qwen3:8b。将8b替换为0.6b、1.5b、3b、14b、32b或72b。
每个规格提供多种量化版本。Q4_K_M是默认的推荐起点——它提供最佳的质量与文件大小比。如果VRAM充足,7B和14B还提供Q8_0版本。
所有Qwen 3规格均通过标准Ollama API原生支持工具调用。无需自定义Modelfile或特殊提示词模板。
ollama run qwen3:8b选择Qwen 3规格完全取决于可用VRAM。对于使用中端GPU(6–8 GB VRAM)的大多数用户,Q4_K_M的7B模型是实用之选——需要约6 GB,运行约20 tok/s。
Q4的14B模型是推荐的代码层级:代码生成性能优于7B,且可稳定运行在10–12 GB VRAM中。Qwen 3代码性能与其他本地模型的完整对比,请参阅2026年本地运行Qwen指南。
| VRAM | Qwen 3规格 | 适用场景 |
|---|---|---|
| < 4 GB | 0.6B / 1.5B | 边缘设备、测试、纯CPU |
| 4–6 GB | 3B | 入门级GPU或低内存CPU |
| 6–12 GB | 7B / 14B | 通用使用和代码生成 |
| 12–24 GB | 14B / 32B | 高质量代码和推理 |
| 40+ GB | 72B | 接近前沿的本地质量 |
ollama run qwen3:8b。Ollama在首次运行时自动下载模型。将8b替换为目标规格:0.6b、1.5b、3b、14b、32b或72b。