Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/2026年如何在本地运行Qwen 3:Ollama + LM Studio完整设置指南
Getting Started

2026年如何在本地运行Qwen 3:Ollama + LM Studio完整设置指南

·阅读约10分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

在任何配备16 GB显存或32 GB以上统一内存Apple Silicon的机器上运行`ollama pull qwen3.6:27b`。GUI访问推荐使用LM Studio。两者均可完全离线运行Qwen 3.6 27B。重要:将`num_ctx`设置为32768或更高——Ollama默认的2048 token会截断大多数实际任务。

Qwen 3.6 27B通过Ollama或LM Studio在单个消费级GPU(16 GB显存)上运行,零API成本。设置耗时不到10分钟。本指南涵盖模型选择、硬件要求、Ollama CLI安装、LM Studio GUI设置、关键的num_ctx修复、功耗与TCO分析,以及连接到PromptQuorum实现多模型调度。

关键要点

  • 两种方式:Ollama(CLI,无头,API就绪)或LM Studio(GUI,无需CLI)。两者均可在本地运行Qwen 3.6 27B,零token成本。
  • 关键修复:Ollama默认`num_ctx 2048`。在Modelfile中设置`num_ctx 32768`。
  • 硬件:最低16 GB显存(RTX 4080)。48 GB统一内存的Apple Silicon M4 Pro或M5 Max(128 GB)是推荐的本地推理选项。
  • 数据隐私:本地运行后,任何数据都不会离开您的机器。无需与第三方签署数据处理协议。
  • PromptQuorum集成:在PromptQuorum本地调度设置中配置`OLLAMA_BASE_URL=http://localhost:11434/v1`和`LOCAL_LLM_MODEL=qwen3.6:27b`——与Anthropic API配置相互独立。

2026年为何在本地运行Qwen

2026年在本地运行Qwen 3意味着:对一个HumanEval得分达92.1%的模型,每个token的成本为零——在代码任务上与Claude Sonnet 4.6相当甚至超越。硬件摊销后,每条请求完全免费。对于每天生成1000万个token的五人开发团队,本地推理相比Claude Sonnet 4.6 API定价每月节省约$900。

GDPR合规是第二个驱动因素。GDPR第44条限制向第三国转移数据。当您在欧盟硬件上本地运行Qwen时,您的提示词、代码和客户数据永远不会离开您的基础设施。无需与美国或中国提供商签署数据处理协议,无需进行Schrems II风险评估,也无需对AI层进行数据保护影响评估。

第三个原因是延迟。RTX 4090上的本地推理每秒生成35+个token——对于短提示词与API响应时间相当,对于长补全则无需网络往返开销。

📍 简单一句话

在本地运行Qwen 3.6 27B:硬件购置后每token成本为零,所有数据保留在本地基础设施,RTX 4090上实现每秒35+个token。

💬 简单来说

本地LLM意味着AI模型在您自己的计算机上运行。下载模型文件(Qwen 3.6 27B约17 GB),您输入的每条提示词都在本地机器上处理——没有任何内容发送到外部服务器。

选择您的Qwen模型

Qwen 3提供多种规模。根据您的显存和所需质量进行选择。所有规模均可在Hugging Face(Qwen)获取,也可通过Ollama使用显式标签下载。

型号VRAM令牌/秒(RTX 4090)推荐用途
Qwen 3.6 27B Q4_K_M16 GB~35生产级代码生成、复杂任务
Qwen 3.6 27B Q8_028 GB~20最高质量、双GPU
Qwen 3 14B Q4_K_M9 GB~608–12 GB显存、通用任务
Qwen 3 7B Q4_K_M5 GB~80低显存、快速补全
Qwen 3 72B Q4_K_M42 GB最高质量、Apple Silicon 96 GB+

Q4_K_M是大多数用户的推荐量化方式——最佳的质量与体积比。Q8_0以更高的显存成本提供更高质量。始终使用显式标签(qwen3.6:27b,而非qwen3)以确保下载的是27B模型。

硬件要求

  • 最低配置(Qwen 3.6 27B):16 GB显存的GPU——RTX 4080、RTX 4070 Ti Super或RTX 3090
  • 推荐GPU:RTX 4090(24 GB显存)——以35令牌/秒运行Q4_K_M,余留8 GB缓冲
  • Apple Silicon M3/M4(现行):48 GB统一内存的M3 Max或M4 Pro——静音、节能,通过MLX实现40+令牌/秒
  • Mac Mini M4 Pro(48 GB):约€1,599,紧凑型设计,欧盟办公室部署的最佳TCO
  • Apple Silicon M5 Pro(64 GB):下一代,307 GB/s内存带宽——预计以50+令牌/秒运行Qwen 3.6 27B。Apple宣称LLM提示词处理速度比M4快4倍。
  • Apple Silicon M5 Max(128 GB):460–614 GB/s内存带宽——可轻松运行Qwen 3 72B Q4_K_M并留有余量。预计2026年中期在Mac Studio上推出;现行Mac Mini搭载M4 Pro。
  • 内存:GPU推理旁边至少32 GB系统内存;完整开发环境建议64 GB
  • 存储:Qwen 3.6 27B Q4_K_M需要20 GB可用磁盘空间(GGUF文件约17 GB)

📌Note: Apple Silicon统一内存在CPU和GPU之间共享。48 GB统一内存的Mac可以在为操作系统和其他应用程序留有余量的情况下运行Qwen 3.6 27B Q4_K_M。这使其成为单台紧凑设备中最实用的本地推理选项。

💡Tip: M5 Max(128 GB)是第一款Qwen 3 72B以生产速度运行的Apple Silicon配置。如果您需要处理超长上下文或欧盟受监管工作负载的最高质量,Mac Studio M5 Max是单设备推荐。

使用Ollama设置

Ollama是在本地运行Qwen 3最快的方式。它管理模型下载,在localhost:11434提供OpenAI兼容API,并自动处理量化。从ollama.com安装。

  1. 1
    安装Ollama
    Why it matters: Ollama管理模型下载、GGUF格式,并提供OpenAI兼容的本地API。
  2. 2
    使用显式标签拉取Qwen 3.6 27B
    Why it matters: 明确使用qwen3.6:27b。不带标签的`qwen3`默认下载8B模型——不是本指南目标的27B模型。
  3. 3
    创建包含正确上下文长度的Modelfile
    Why it matters: 默认的num_ctx 2048 token对于实际代码任务太小。32768 token可处理大多数文件和对话。
  4. 4
    构建自定义模型并运行
    Why it matters: 创建具有扩展上下文窗口的Qwen 3.6 27B实例。使用测试提示词验证。
  5. 5
    测试API端点
    Why it matters: Ollama在localhost:11434/v1暴露OpenAI兼容API。使用此端点连接LLM客户端、IDE和PromptQuorum。
bash
# Step 1 — Install Ollama
# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows — download from https://ollama.com/download

# Step 2 — Pull Qwen 3.6 27B (explicit tag required)
ollama pull qwen3.6:27b
# Downloads Qwen 3.6 27B Q4_K_M (~17 GB)
# Note: 'ollama pull qwen3' without a tag downloads the 8B model

# Step 3 — Create Modelfile with correct num_ctx
cat > Modelfile <<'EOF'
FROM qwen3.6:27b
PARAMETER num_ctx 32768
PARAMETER temperature 0.7
EOF

# Step 4 — Build and run
ollama create qwen3-32k -f Modelfile
ollama run qwen3-32k

# Expected output (Qwen working correctly):
# >>> Write a Python function to reverse a string.
# def reverse_string(s: str) -> str:
#     return s[::-1]
#
# This function takes a string s as input and returns the reversed
# string using Python slice notation with step -1.

# Step 5 — Test API
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-32k",
    "messages": [{"role": "user", "content": "Write a Python function to reverse a string."}]
  }'

⚠️Warning: 不要跳过步骤3。Ollama默认的num_ctx为2048 token——约1500个词。大多数代码任务(读取文件、解释函数、编写测试)需要8000–32000 token的上下文。没有这个修复,Qwen会静默截断您的提示词并产生降级输出。

使用LM Studio设置

LM Studio为运行本地LLM提供GUI界面,无需CLI命令。这是非技术用户或Windows设置的推荐路径。从lmstudio.ai下载。

  1. 1
    下载并安装LM Studio
    Why it matters: 免费的跨平台本地LLM推理GUI。无需CLI。
  2. 2
    搜索并下载Qwen 3 27B
    Why it matters: LM Studio的模型浏览器搜索Hugging Face。搜索"Qwen 3 27B"并选择16 GB显存的Q4_K_M GGUF变体。
  3. 3
    在LM Studio设置中配置上下文长度
    Why it matters: 与Ollama相同的num_ctx问题——在加载前将模型参数中的上下文长度更改为32768。
  4. 4
    启动本地服务器
    Why it matters: LM Studio的"启动服务器"在localhost:1234创建OpenAI兼容API。在客户端和PromptQuorum中使用此URL。
json
// LM Studio local server config (exported JSON)
{
  "model": "qwen3.6-27b-q4_k_m",
  "server": {
    "host": "localhost",
    "port": 1234,
    "cors": true
  },
  "inference": {
    "context_length": 32768,
    "temperature": 0.7,
    "gpu_layers": -1
  }
}

连接到PromptQuorum

PromptQuorum将提示词路由到多个LLM。要将本地Qwen实例用作调度目标,配置PromptQuorum的本地LLM端点指向您的Ollama服务器。

这是Ollama端点(OpenAI兼容)——与Claude所用的Anthropic API配置不同。两者可同时激活,PromptQuorum根据任务类型和数据敏感性进行路由。

bash
# PromptQuorum dispatch config — local Qwen via Ollama
# Set in your .env or PromptQuorum settings panel

OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_LLM_MODEL=qwen3.6:27b

# Example routing rules (PromptQuorum dispatch):
# - task_type: code       → model: qwen3.6:27b  (local Ollama, GDPR-safe)
# - task_type: analysis   → model: claude-sonnet-4-6 (Anthropic API, separate config)
# - task_type: private    → model: qwen3.6:27b  (local Ollama, no cloud egress)

故障排除

  • 模型响应在句子中间被截断:num_ctx太低。用`PARAMETER num_ctx 32768`重建Modelfile,并用`ollama create`重新创建模型。
  • CUDA内存不足错误:模型不适合您的显存。切换到Qwen 3 14B Q4_K_M(约9 GB显存)或尝试27B的Q3_K_S量化。
  • Ollama API返回404:确认模型名称完全匹配。运行`ollama list`查看可用模型。使用显示的确切名称(例如`qwen3-32k`)。
  • 生成缓慢(<5令牌/秒):GPU层未完全卸载。运行`ollama run qwen3-32k`并检查`num_gpu_layers`已最大化。确保没有其他GPU密集型进程在运行。
  • LM Studio显示"加载模型失败":显存不足。将Q4_K_M上下文长度减少到16384或切换到Qwen 3 14B。
  • PromptQuorum返回认证错误:在PromptQuorum的本地LLM设置中设置`OLLAMA_BASE_URL=http://localhost:11434/v1`。如果表单需要密钥,输入任意非空字符串——Ollama不需要API密钥认证。
  • Ollama使用CPU而非GPU:NVIDIA:确认已安装CUDA驱动(`nvidia-smi`应显示GPU)。Mac:Ollama自动使用Metal——无需配置。如果Metal未激活,从ollama.com重新安装Ollama。
  • 模型下载停滞或失败:大型模型(Qwen 3.6 27B约17 GB)在慢速连接上可能超时。再次运行`ollama pull qwen3.6:27b`——Ollama从中断处继续。或者,直接从Hugging Face下载GGUF,并在Modelfile的FROM子句中使用本地路径运行`ollama create`。

💡Tip: 运行`ollama ps`查看当前加载到显存中的模型及每个模型消耗的内存。切换到更大模型前使用`ollama stop qwen3-32k`卸载模型。

功耗与TCO

硬件成本是一次性投资。电费是持续成本。正确的硬件选择取决于您的电价、使用时长和地区——欧盟电费在德国平均约€0.35/kWh(2026年),而美国约$0.13/kWh。

RTX 4090系统在推理负载下消耗约450 W。每天运行8小时按德国电价计算:0.45 kW × 8小时 × €0.35 × 250个工作日 = 每年€315电费。整套系统硬件约€2,000–2,500。

Mac Studio中的Apple Silicon M5 Max在LLM推理负载下消耗约40–50 W。相同场景:0.05 kW × 8小时 × €0.35 × 250天 = 每年€35电费。128 GB Mac Studio M5 Max硬件约€3,000–4,000。

与单个开发者每天使用1000万token的Claude Sonnet 4.6 API相比:1000万token × $3/100万 × 250天 = 每年$7,500

选项硬件电费/年(欧洲)API成本/年(每日1000万tok)回本周期
Claude Sonnet 4.6 API$7,500
RTX 4090系统 + 本地Qwen€2,200€315$0约4个月(对比Claude)
Mac Mini M4 Pro(48 GB)€1,599€25$0约3个月(对比Claude)
Mac Studio M5 Max(128 GB)约€3,500€35$0约6个月(对比Claude)

Important: 对于欧盟团队,Mac Mini M4 Pro(48 GB)提供最佳TCO:最低的综合硬件和电费成本、设计上的GDPR合规,以及适合办公环境的静音运行。Mac Studio M5 Max是需要Qwen 3 72B质量的团队的升级路径。

常见问题

在本地运行Qwen 3的最低硬件要求是什么?

Q4_K_M量化的Qwen 3.6 27B:16 GB显存(RTX 4080或RTX 3090)。Apple Silicon:36 GB统一内存的M3 Pro或48 GB的M3 Max。较小的Qwen 3 14B:9 GB显存(RTX 3080或RTX 4070)。Qwen 3 7B可在5 GB显存(GTX 1080或更好)上运行。

为什么Ollama会截断我的提示词?

Ollama默认使用num_ctx 2048 token(约1500个词)。这对大多数实际代码任务来说太小了。您必须在Modelfile中将num_ctx设置为至少32768。创建包含`PARAMETER num_ctx 32768`的Modelfile,然后运行`ollama create qwen3-32k -f Modelfile`以构建具有正确上下文窗口的模型实例。

在本地运行Qwen是否符合GDPR?

是的——本地推理是GDPR兼容架构(不向第三方发送推理数据)。当Qwen在您的硬件上运行时,没有数据传输给任何第三方。GDPR第44条关于国际数据传输的限制不适用,因为没有数据传输。您的内部数据处理协议适用,但AI层不需要SCC或充分性决定。

Qwen 3可以仅在CPU上运行吗?

可以,通过llama.cpp或Ollama在没有GPU的系统上运行。CPU推理速度明显较慢——Qwen 3.6 27B在现代CPU上通常为1–5令牌/秒。生产使用需要GPU或Apple Silicon。对于没有专用GPU的笔记本电脑上的偶尔使用或测试,CPU推理有效但对实时对话不实用。

如何将Qwen更新到最新版本?

再次运行`ollama pull qwen3.6:27b`。Ollama检查是否有更新版本并仅下载更改的层。您不需要重新创建Modelfile——模型标签(qwen3.6:27b)始终指向最新的27B版本。在LM Studio中,检查模型库中的更新,如果有更新的GGUF版本可用则重新下载。

Qwen已在本地运行。现在探索最好的UI界面。

2026年最佳本地LLM前端 →

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

加入PromptQuorum候补名单 →

加入PromptQuorum等待列表 →

← 返回本地LLM