关键要点
- 两种方式:Ollama(CLI,无头,API就绪)或LM Studio(GUI,无需CLI)。两者均可在本地运行Qwen 3.6 27B,零token成本。
- 关键修复:Ollama默认`num_ctx 2048`。在Modelfile中设置`num_ctx 32768`。
- 硬件:最低16 GB显存(RTX 4080)。48 GB统一内存的Apple Silicon M4 Pro或M5 Max(128 GB)是推荐的本地推理选项。
- 数据隐私:本地运行后,任何数据都不会离开您的机器。无需与第三方签署数据处理协议。
- PromptQuorum集成:在PromptQuorum本地调度设置中配置`OLLAMA_BASE_URL=http://localhost:11434/v1`和`LOCAL_LLM_MODEL=qwen3:27b`——与Anthropic API配置相互独立。
2026年为何在本地运行Qwen
2026年在本地运行Qwen 3意味着:对一个HumanEval得分达92.1%的模型,每个token的成本为零——在代码任务上与Claude Sonnet 4.6相当甚至超越。硬件摊销后,每条请求完全免费。对于每天生成1000万个token的五人开发团队,本地推理相比Claude Sonnet 4.6 API定价每月节省约$900。
GDPR合规是第二个驱动因素。GDPR第44条限制向第三国转移数据。当您在欧盟硬件上本地运行Qwen时,您的提示词、代码和客户数据永远不会离开您的基础设施。无需与美国或中国提供商签署数据处理协议,无需进行Schrems II风险评估,也无需对AI层进行数据保护影响评估。
第三个原因是延迟。RTX 4090上的本地推理每秒生成35+个token——对于短提示词与API响应时间相当,对于长补全则无需网络往返开销。
📍 简单一句话
在本地运行Qwen 3.6 27B:硬件购置后每token成本为零,所有数据保留在本地基础设施,RTX 4090上实现每秒35+个token。
💬 简单来说
本地LLM意味着AI模型在您自己的计算机上运行。下载模型文件(Qwen 3.6 27B约17 GB),您输入的每条提示词都在本地机器上处理——没有任何内容发送到外部服务器。
选择您的Qwen模型
Qwen 3提供多种规模。根据您的显存和所需质量进行选择。所有规模均可在Hugging Face(Qwen)获取,也可通过Ollama使用显式标签下载。
| 型号 | VRAM | 令牌/秒(RTX 4090) | 推荐用途 |
|---|---|---|---|
| Qwen 3.6 27B Q4_K_M | 16 GB | ~35 | 生产级代码生成、复杂任务 |
| Qwen 3.6 27B Q8_0 | 28 GB | ~20 | 最高质量、双GPU |
| Qwen 3 14B Q4_K_M | 9 GB | ~60 | 8–12 GB显存、通用任务 |
| Qwen 3 7B Q4_K_M | 5 GB | ~80 | 低显存、快速补全 |
| Qwen 3 72B Q4_K_M | 42 GB | — | 最高质量、Apple Silicon 96 GB+ |
Q4_K_M是大多数用户的推荐量化方式——最佳的质量与体积比。Q8_0以更高的显存成本提供更高质量。始终使用显式标签(qwen3:27b,而非qwen3)以确保下载的是27B模型。
硬件要求
- 最低配置(Qwen 3.6 27B):16 GB显存的GPU——RTX 4080、RTX 4070 Ti Super或RTX 3090
- 推荐GPU:RTX 4090(24 GB显存)——以35令牌/秒运行Q4_K_M,余留8 GB缓冲
- Apple Silicon M3/M4(现行):48 GB统一内存的M3 Max或M4 Pro——静音、节能,通过MLX实现40+令牌/秒
- Mac Mini M4 Pro(48 GB):约€1,599,紧凑型设计,欧盟办公室部署的最佳TCO
- Apple Silicon M5 Pro(64 GB):下一代,307 GB/s内存带宽——预计以50+令牌/秒运行Qwen 3.6 27B。Apple宣称LLM提示词处理速度比M4快4倍。
- Apple Silicon M5 Max(128 GB):460–614 GB/s内存带宽——可轻松运行Qwen 3 72B Q4_K_M并留有余量。预计2026年中期在Mac Studio上推出;现行Mac Mini搭载M4 Pro。
- 内存:GPU推理旁边至少32 GB系统内存;完整开发环境建议64 GB
- 存储:Qwen 3.6 27B Q4_K_M需要20 GB可用磁盘空间(GGUF文件约17 GB)
📌Note: Apple Silicon统一内存在CPU和GPU之间共享。48 GB统一内存的Mac可以在为操作系统和其他应用程序留有余量的情况下运行Qwen 3.6 27B Q4_K_M。这使其成为单台紧凑设备中最实用的本地推理选项。
💡Tip: M5 Max(128 GB)是第一款Qwen 3 72B以生产速度运行的Apple Silicon配置。如果您需要处理超长上下文或欧盟受监管工作负载的最高质量,Mac Studio M5 Max是单设备推荐。
使用Ollama设置
Ollama是在本地运行Qwen 3最快的方式。它管理模型下载,在localhost:11434提供OpenAI兼容API,并自动处理量化。从ollama.com安装。
- 1安装Ollama
Why it matters: Ollama管理模型下载、GGUF格式,并提供OpenAI兼容的本地API。 - 2使用显式标签拉取Qwen 3.6 27B
Why it matters: 明确使用qwen3:27b。不带标签的`qwen3`默认下载8B模型——不是本指南目标的27B模型。 - 3创建包含正确上下文长度的Modelfile
Why it matters: 默认的num_ctx 2048 token对于实际代码任务太小。32768 token可处理大多数文件和对话。 - 4构建自定义模型并运行
Why it matters: 创建具有扩展上下文窗口的Qwen 3.6 27B实例。使用测试提示词验证。 - 5测试API端点
Why it matters: Ollama在localhost:11434/v1暴露OpenAI兼容API。使用此端点连接LLM客户端、IDE和PromptQuorum。
# Step 1 — Install Ollama
# macOS
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows — download from https://ollama.com/download
# Step 2 — Pull Qwen 3.6 27B (explicit tag required)
ollama pull qwen3:27b
# Downloads Qwen 3.6 27B Q4_K_M (~17 GB)
# Note: 'ollama pull qwen3' without a tag downloads the 8B model
# Step 3 — Create Modelfile with correct num_ctx
cat > Modelfile <<'EOF'
FROM qwen3:27b
PARAMETER num_ctx 32768
PARAMETER temperature 0.7
EOF
# Step 4 — Build and run
ollama create qwen3-32k -f Modelfile
ollama run qwen3-32k
# Expected output (Qwen working correctly):
# >>> Write a Python function to reverse a string.
# def reverse_string(s: str) -> str:
# return s[::-1]
#
# This function takes a string s as input and returns the reversed
# string using Python slice notation with step -1.
# Step 5 — Test API
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32k",
"messages": [{"role": "user", "content": "Write a Python function to reverse a string."}]
}'⚠️Warning: 不要跳过步骤3。Ollama默认的num_ctx为2048 token——约1500个词。大多数代码任务(读取文件、解释函数、编写测试)需要8000–32000 token的上下文。没有这个修复,Qwen会静默截断您的提示词并产生降级输出。
使用LM Studio设置
LM Studio为运行本地LLM提供GUI界面,无需CLI命令。这是非技术用户或Windows设置的推荐路径。从lmstudio.ai下载。
- 1下载并安装LM Studio
Why it matters: 免费的跨平台本地LLM推理GUI。无需CLI。 - 2搜索并下载Qwen 3 27B
Why it matters: LM Studio的模型浏览器搜索Hugging Face。搜索"Qwen 3 27B"并选择16 GB显存的Q4_K_M GGUF变体。 - 3在LM Studio设置中配置上下文长度
Why it matters: 与Ollama相同的num_ctx问题——在加载前将模型参数中的上下文长度更改为32768。 - 4启动本地服务器
Why it matters: LM Studio的"启动服务器"在localhost:1234创建OpenAI兼容API。在客户端和PromptQuorum中使用此URL。
// LM Studio local server config (exported JSON)
{
"model": "qwen3-27b-q4_k_m",
"server": {
"host": "localhost",
"port": 1234,
"cors": true
},
"inference": {
"context_length": 32768,
"temperature": 0.7,
"gpu_layers": -1
}
}连接到PromptQuorum
PromptQuorum将提示词路由到多个LLM。要将本地Qwen实例用作调度目标,配置PromptQuorum的本地LLM端点指向您的Ollama服务器。
这是Ollama端点(OpenAI兼容)——与Claude所用的Anthropic API配置不同。两者可同时激活,PromptQuorum根据任务类型和数据敏感性进行路由。
📍 简单一句话
在本地调度设置中将OLLAMA_BASE_URL设为http://localhost:11434/v1、LOCAL_LLM_MODEL设为qwen3:27b,即可将PromptQuorum连接到本地Qwen。
# PromptQuorum dispatch config — local Qwen via Ollama
# Set in your .env or PromptQuorum settings panel
OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_LLM_MODEL=qwen3:27b
# Example routing rules (PromptQuorum dispatch):
# - task_type: code → model: qwen3:27b (local Ollama, GDPR-safe)
# - task_type: analysis → model: claude-sonnet-4-6 (Anthropic API, separate config)
# - task_type: private → model: qwen3:27b (local Ollama, no cloud egress)故障排除
- 模型响应在句子中间被截断:num_ctx太低。用`PARAMETER num_ctx 32768`重建Modelfile,并用`ollama create`重新创建模型。
- CUDA内存不足错误:模型不适合您的显存。切换到Qwen 3 14B Q4_K_M(约9 GB显存)或尝试27B的Q3_K_S量化。
- Ollama API返回404:确认模型名称完全匹配。运行`ollama list`查看可用模型。使用显示的确切名称(例如`qwen3-32k`)。
- 生成缓慢(<5令牌/秒):GPU层未完全卸载。运行`ollama run qwen3-32k`并检查`num_gpu_layers`已最大化。确保没有其他GPU密集型进程在运行。
- LM Studio显示"加载模型失败":显存不足。将Q4_K_M上下文长度减少到16384或切换到Qwen 3 14B。
- PromptQuorum返回认证错误:在PromptQuorum的本地LLM设置中设置`OLLAMA_BASE_URL=http://localhost:11434/v1`。如果表单需要密钥,输入任意非空字符串——Ollama不需要API密钥认证。
- Ollama使用CPU而非GPU:NVIDIA:确认已安装CUDA驱动(`nvidia-smi`应显示GPU)。Mac:Ollama自动使用Metal——无需配置。如果Metal未激活,从ollama.com重新安装Ollama。
- 模型下载停滞或失败:大型模型(Qwen 3.6 27B约17 GB)在慢速连接上可能超时。再次运行`ollama pull qwen3:27b`——Ollama从中断处继续。或者,直接从Hugging Face下载GGUF,并在Modelfile的FROM子句中使用本地路径运行`ollama create`。
💡Tip: 运行`ollama ps`查看当前加载到显存中的模型及每个模型消耗的内存。切换到更大模型前使用`ollama stop qwen3-32k`卸载模型。
功耗与TCO
硬件成本是一次性投资。电费是持续成本。正确的硬件选择取决于您的电价、使用时长和地区——欧盟电费在德国平均约€0.35/kWh(2026年),而美国约$0.13/kWh。
RTX 4090系统在推理负载下消耗约450 W。每天运行8小时按德国电价计算:0.45 kW × 8小时 × €0.35 × 250个工作日 = 每年€315电费。整套系统硬件约€2,000–2,500。
Mac Studio中的Apple Silicon M5 Max在LLM推理负载下消耗约40–50 W。相同场景:0.05 kW × 8小时 × €0.35 × 250天 = 每年€35电费。128 GB Mac Studio M5 Max硬件约€3,000–4,000。
与单个开发者每天使用1000万token的Claude Sonnet 4.6 API相比:1000万token × $3/100万 × 250天 = 每年$7,500。
| 选项 | 硬件 | 电费/年(欧洲) | API成本/年(每日1000万tok) | 回本周期 |
|---|---|---|---|---|
| Claude Sonnet 4.6 API | — | — | $7,500 | — |
| RTX 4090系统 + 本地Qwen | €2,200 | €315 | $0 | 约4个月(对比Claude) |
| Mac Mini M4 Pro(48 GB) | €1,599 | €25 | $0 | 约3个月(对比Claude) |
| Mac Studio M5 Max(128 GB) | 约€3,500 | €35 | $0 | 约6个月(对比Claude) |
•Important: 对于欧盟团队,Mac Mini M4 Pro(48 GB)提供最佳TCO:最低的综合硬件和电费成本、设计上的GDPR合规,以及适合办公环境的静音运行。Mac Studio M5 Max是需要Qwen 3 72B质量的团队的升级路径。
常见问题
在本地运行Qwen 3的最低硬件要求是什么?
Q4_K_M量化的Qwen 3.6 27B:16 GB显存(RTX 4080或RTX 3090)。Apple Silicon:36 GB统一内存的M3 Pro或48 GB的M3 Max。较小的Qwen 3 14B:9 GB显存(RTX 3080或RTX 4070)。Qwen 3 7B可在5 GB显存(GTX 1080或更好)上运行。
为什么Ollama会截断我的提示词?
Ollama默认使用num_ctx 2048 token(约1500个词)。这对大多数实际代码任务来说太小了。您必须在Modelfile中将num_ctx设置为至少32768。创建包含`PARAMETER num_ctx 32768`的Modelfile,然后运行`ollama create qwen3-32k -f Modelfile`以构建具有正确上下文窗口的模型实例。
在本地运行Qwen是否符合GDPR?
是的——本地推理是最符合GDPR的AI架构。当Qwen在您的硬件上运行时,没有数据传输给任何第三方。GDPR第44条关于国际数据传输的限制不适用,因为没有数据传输。您的内部数据处理协议适用,但AI层不需要SCC或充分性决定。
Qwen 3可以仅在CPU上运行吗?
可以,通过llama.cpp或Ollama在没有GPU的系统上运行。CPU推理速度明显较慢——Qwen 3.6 27B在现代CPU上通常为1–5令牌/秒。生产使用需要GPU或Apple Silicon。对于没有专用GPU的笔记本电脑上的偶尔使用或测试,CPU推理有效但对实时对话不实用。
如何将Qwen更新到最新版本?
再次运行`ollama pull qwen3:27b`。Ollama检查是否有更新版本并仅下载更改的层。您不需要重新创建Modelfile——模型标签(qwen3:27b)始终指向最新的27B版本。在LM Studio中,检查模型库中的更新,如果有更新的GGUF版本可用则重新下载。