PromptQuorumPromptQuorum
主页/本地LLM/2026年如何在本地运行Qwen 3:Ollama + LM Studio完整设置指南
Getting Started

2026年如何在本地运行Qwen 3:Ollama + LM Studio完整设置指南

·阅读约10分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

在任何配备16 GB显存或32 GB以上统一内存Apple Silicon的机器上运行`ollama pull qwen3:27b`。GUI访问推荐使用LM Studio。两者均可完全离线运行Qwen 3.6 27B。重要:将`num_ctx`设置为32768或更高——Ollama默认的2048 token会截断大多数实际任务。

Qwen 3.6 27B通过Ollama或LM Studio在单个消费级GPU(16 GB显存)上运行,零API成本。设置耗时不到10分钟。本指南涵盖模型选择、硬件要求、Ollama CLI安装、LM Studio GUI设置、关键的num_ctx修复、功耗与TCO分析,以及连接到PromptQuorum实现多模型调度。

关键要点

  • 两种方式:Ollama(CLI,无头,API就绪)或LM Studio(GUI,无需CLI)。两者均可在本地运行Qwen 3.6 27B,零token成本。
  • 关键修复:Ollama默认`num_ctx 2048`。在Modelfile中设置`num_ctx 32768`。
  • 硬件:最低16 GB显存(RTX 4080)。48 GB统一内存的Apple Silicon M4 Pro或M5 Max(128 GB)是推荐的本地推理选项。
  • 数据隐私:本地运行后,任何数据都不会离开您的机器。无需与第三方签署数据处理协议。
  • PromptQuorum集成:在PromptQuorum本地调度设置中配置`OLLAMA_BASE_URL=http://localhost:11434/v1`和`LOCAL_LLM_MODEL=qwen3:27b`——与Anthropic API配置相互独立。

2026年为何在本地运行Qwen

2026年在本地运行Qwen 3意味着:对一个HumanEval得分达92.1%的模型,每个token的成本为零——在代码任务上与Claude Sonnet 4.6相当甚至超越。硬件摊销后,每条请求完全免费。对于每天生成1000万个token的五人开发团队,本地推理相比Claude Sonnet 4.6 API定价每月节省约$900。

GDPR合规是第二个驱动因素。GDPR第44条限制向第三国转移数据。当您在欧盟硬件上本地运行Qwen时,您的提示词、代码和客户数据永远不会离开您的基础设施。无需与美国或中国提供商签署数据处理协议,无需进行Schrems II风险评估,也无需对AI层进行数据保护影响评估。

第三个原因是延迟。RTX 4090上的本地推理每秒生成35+个token——对于短提示词与API响应时间相当,对于长补全则无需网络往返开销。

📍 简单一句话

在本地运行Qwen 3.6 27B:硬件购置后每token成本为零,所有数据保留在本地基础设施,RTX 4090上实现每秒35+个token。

💬 简单来说

本地LLM意味着AI模型在您自己的计算机上运行。下载模型文件(Qwen 3.6 27B约17 GB),您输入的每条提示词都在本地机器上处理——没有任何内容发送到外部服务器。

选择您的Qwen模型

Qwen 3提供多种规模。根据您的显存和所需质量进行选择。所有规模均可在Hugging Face(Qwen)获取,也可通过Ollama使用显式标签下载。

型号VRAM令牌/秒(RTX 4090)推荐用途
Qwen 3.6 27B Q4_K_M16 GB~35生产级代码生成、复杂任务
Qwen 3.6 27B Q8_028 GB~20最高质量、双GPU
Qwen 3 14B Q4_K_M9 GB~608–12 GB显存、通用任务
Qwen 3 7B Q4_K_M5 GB~80低显存、快速补全
Qwen 3 72B Q4_K_M42 GB最高质量、Apple Silicon 96 GB+

Q4_K_M是大多数用户的推荐量化方式——最佳的质量与体积比。Q8_0以更高的显存成本提供更高质量。始终使用显式标签(qwen3:27b,而非qwen3)以确保下载的是27B模型。

硬件要求

  • 最低配置(Qwen 3.6 27B):16 GB显存的GPU——RTX 4080、RTX 4070 Ti Super或RTX 3090
  • 推荐GPU:RTX 4090(24 GB显存)——以35令牌/秒运行Q4_K_M,余留8 GB缓冲
  • Apple Silicon M3/M4(现行):48 GB统一内存的M3 Max或M4 Pro——静音、节能,通过MLX实现40+令牌/秒
  • Mac Mini M4 Pro(48 GB):约€1,599,紧凑型设计,欧盟办公室部署的最佳TCO
  • Apple Silicon M5 Pro(64 GB):下一代,307 GB/s内存带宽——预计以50+令牌/秒运行Qwen 3.6 27B。Apple宣称LLM提示词处理速度比M4快4倍。
  • Apple Silicon M5 Max(128 GB):460–614 GB/s内存带宽——可轻松运行Qwen 3 72B Q4_K_M并留有余量。预计2026年中期在Mac Studio上推出;现行Mac Mini搭载M4 Pro。
  • 内存:GPU推理旁边至少32 GB系统内存;完整开发环境建议64 GB
  • 存储:Qwen 3.6 27B Q4_K_M需要20 GB可用磁盘空间(GGUF文件约17 GB)

📌Note: Apple Silicon统一内存在CPU和GPU之间共享。48 GB统一内存的Mac可以在为操作系统和其他应用程序留有余量的情况下运行Qwen 3.6 27B Q4_K_M。这使其成为单台紧凑设备中最实用的本地推理选项。

💡Tip: M5 Max(128 GB)是第一款Qwen 3 72B以生产速度运行的Apple Silicon配置。如果您需要处理超长上下文或欧盟受监管工作负载的最高质量,Mac Studio M5 Max是单设备推荐。

使用Ollama设置

Ollama是在本地运行Qwen 3最快的方式。它管理模型下载,在localhost:11434提供OpenAI兼容API,并自动处理量化。从ollama.com安装。

  1. 1
    安装Ollama
    Why it matters: Ollama管理模型下载、GGUF格式,并提供OpenAI兼容的本地API。
  2. 2
    使用显式标签拉取Qwen 3.6 27B
    Why it matters: 明确使用qwen3:27b。不带标签的`qwen3`默认下载8B模型——不是本指南目标的27B模型。
  3. 3
    创建包含正确上下文长度的Modelfile
    Why it matters: 默认的num_ctx 2048 token对于实际代码任务太小。32768 token可处理大多数文件和对话。
  4. 4
    构建自定义模型并运行
    Why it matters: 创建具有扩展上下文窗口的Qwen 3.6 27B实例。使用测试提示词验证。
  5. 5
    测试API端点
    Why it matters: Ollama在localhost:11434/v1暴露OpenAI兼容API。使用此端点连接LLM客户端、IDE和PromptQuorum。
bash
# Step 1 — Install Ollama
# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows — download from https://ollama.com/download

# Step 2 — Pull Qwen 3.6 27B (explicit tag required)
ollama pull qwen3:27b
# Downloads Qwen 3.6 27B Q4_K_M (~17 GB)
# Note: 'ollama pull qwen3' without a tag downloads the 8B model

# Step 3 — Create Modelfile with correct num_ctx
cat > Modelfile <<'EOF'
FROM qwen3:27b
PARAMETER num_ctx 32768
PARAMETER temperature 0.7
EOF

# Step 4 — Build and run
ollama create qwen3-32k -f Modelfile
ollama run qwen3-32k

# Expected output (Qwen working correctly):
# >>> Write a Python function to reverse a string.
# def reverse_string(s: str) -> str:
#     return s[::-1]
#
# This function takes a string s as input and returns the reversed
# string using Python slice notation with step -1.

# Step 5 — Test API
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-32k",
    "messages": [{"role": "user", "content": "Write a Python function to reverse a string."}]
  }'

⚠️Warning: 不要跳过步骤3。Ollama默认的num_ctx为2048 token——约1500个词。大多数代码任务(读取文件、解释函数、编写测试)需要8000–32000 token的上下文。没有这个修复,Qwen会静默截断您的提示词并产生降级输出。

使用LM Studio设置

LM Studio为运行本地LLM提供GUI界面,无需CLI命令。这是非技术用户或Windows设置的推荐路径。从lmstudio.ai下载。

  1. 1
    下载并安装LM Studio
    Why it matters: 免费的跨平台本地LLM推理GUI。无需CLI。
  2. 2
    搜索并下载Qwen 3 27B
    Why it matters: LM Studio的模型浏览器搜索Hugging Face。搜索"Qwen 3 27B"并选择16 GB显存的Q4_K_M GGUF变体。
  3. 3
    在LM Studio设置中配置上下文长度
    Why it matters: 与Ollama相同的num_ctx问题——在加载前将模型参数中的上下文长度更改为32768。
  4. 4
    启动本地服务器
    Why it matters: LM Studio的"启动服务器"在localhost:1234创建OpenAI兼容API。在客户端和PromptQuorum中使用此URL。
json
// LM Studio local server config (exported JSON)
{
  "model": "qwen3-27b-q4_k_m",
  "server": {
    "host": "localhost",
    "port": 1234,
    "cors": true
  },
  "inference": {
    "context_length": 32768,
    "temperature": 0.7,
    "gpu_layers": -1
  }
}

连接到PromptQuorum

PromptQuorum将提示词路由到多个LLM。要将本地Qwen实例用作调度目标,配置PromptQuorum的本地LLM端点指向您的Ollama服务器。

这是Ollama端点(OpenAI兼容)——与Claude所用的Anthropic API配置不同。两者可同时激活,PromptQuorum根据任务类型和数据敏感性进行路由。

bash
# PromptQuorum dispatch config — local Qwen via Ollama
# Set in your .env or PromptQuorum settings panel

OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_LLM_MODEL=qwen3:27b

# Example routing rules (PromptQuorum dispatch):
# - task_type: code       → model: qwen3:27b  (local Ollama, GDPR-safe)
# - task_type: analysis   → model: claude-sonnet-4-6 (Anthropic API, separate config)
# - task_type: private    → model: qwen3:27b  (local Ollama, no cloud egress)

故障排除

  • 模型响应在句子中间被截断:num_ctx太低。用`PARAMETER num_ctx 32768`重建Modelfile,并用`ollama create`重新创建模型。
  • CUDA内存不足错误:模型不适合您的显存。切换到Qwen 3 14B Q4_K_M(约9 GB显存)或尝试27B的Q3_K_S量化。
  • Ollama API返回404:确认模型名称完全匹配。运行`ollama list`查看可用模型。使用显示的确切名称(例如`qwen3-32k`)。
  • 生成缓慢(<5令牌/秒):GPU层未完全卸载。运行`ollama run qwen3-32k`并检查`num_gpu_layers`已最大化。确保没有其他GPU密集型进程在运行。
  • LM Studio显示"加载模型失败":显存不足。将Q4_K_M上下文长度减少到16384或切换到Qwen 3 14B。
  • PromptQuorum返回认证错误:在PromptQuorum的本地LLM设置中设置`OLLAMA_BASE_URL=http://localhost:11434/v1`。如果表单需要密钥,输入任意非空字符串——Ollama不需要API密钥认证。
  • Ollama使用CPU而非GPU:NVIDIA:确认已安装CUDA驱动(`nvidia-smi`应显示GPU)。Mac:Ollama自动使用Metal——无需配置。如果Metal未激活,从ollama.com重新安装Ollama。
  • 模型下载停滞或失败:大型模型(Qwen 3.6 27B约17 GB)在慢速连接上可能超时。再次运行`ollama pull qwen3:27b`——Ollama从中断处继续。或者,直接从Hugging Face下载GGUF,并在Modelfile的FROM子句中使用本地路径运行`ollama create`。

💡Tip: 运行`ollama ps`查看当前加载到显存中的模型及每个模型消耗的内存。切换到更大模型前使用`ollama stop qwen3-32k`卸载模型。

功耗与TCO

硬件成本是一次性投资。电费是持续成本。正确的硬件选择取决于您的电价、使用时长和地区——欧盟电费在德国平均约€0.35/kWh(2026年),而美国约$0.13/kWh。

RTX 4090系统在推理负载下消耗约450 W。每天运行8小时按德国电价计算:0.45 kW × 8小时 × €0.35 × 250个工作日 = 每年€315电费。整套系统硬件约€2,000–2,500。

Mac Studio中的Apple Silicon M5 Max在LLM推理负载下消耗约40–50 W。相同场景:0.05 kW × 8小时 × €0.35 × 250天 = 每年€35电费。128 GB Mac Studio M5 Max硬件约€3,000–4,000。

与单个开发者每天使用1000万token的Claude Sonnet 4.6 API相比:1000万token × $3/100万 × 250天 = 每年$7,500

选项硬件电费/年(欧洲)API成本/年(每日1000万tok)回本周期
Claude Sonnet 4.6 API$7,500
RTX 4090系统 + 本地Qwen€2,200€315$0约4个月(对比Claude)
Mac Mini M4 Pro(48 GB)€1,599€25$0约3个月(对比Claude)
Mac Studio M5 Max(128 GB)约€3,500€35$0约6个月(对比Claude)

Important: 对于欧盟团队,Mac Mini M4 Pro(48 GB)提供最佳TCO:最低的综合硬件和电费成本、设计上的GDPR合规,以及适合办公环境的静音运行。Mac Studio M5 Max是需要Qwen 3 72B质量的团队的升级路径。

常见问题

在本地运行Qwen 3的最低硬件要求是什么?

Q4_K_M量化的Qwen 3.6 27B:16 GB显存(RTX 4080或RTX 3090)。Apple Silicon:36 GB统一内存的M3 Pro或48 GB的M3 Max。较小的Qwen 3 14B:9 GB显存(RTX 3080或RTX 4070)。Qwen 3 7B可在5 GB显存(GTX 1080或更好)上运行。

为什么Ollama会截断我的提示词?

Ollama默认使用num_ctx 2048 token(约1500个词)。这对大多数实际代码任务来说太小了。您必须在Modelfile中将num_ctx设置为至少32768。创建包含`PARAMETER num_ctx 32768`的Modelfile,然后运行`ollama create qwen3-32k -f Modelfile`以构建具有正确上下文窗口的模型实例。

在本地运行Qwen是否符合GDPR?

是的——本地推理是最符合GDPR的AI架构。当Qwen在您的硬件上运行时,没有数据传输给任何第三方。GDPR第44条关于国际数据传输的限制不适用,因为没有数据传输。您的内部数据处理协议适用,但AI层不需要SCC或充分性决定。

Qwen 3可以仅在CPU上运行吗?

可以,通过llama.cpp或Ollama在没有GPU的系统上运行。CPU推理速度明显较慢——Qwen 3.6 27B在现代CPU上通常为1–5令牌/秒。生产使用需要GPU或Apple Silicon。对于没有专用GPU的笔记本电脑上的偶尔使用或测试,CPU推理有效但对实时对话不实用。

如何将Qwen更新到最新版本?

再次运行`ollama pull qwen3:27b`。Ollama检查是否有更新版本并仅下载更改的层。您不需要重新创建Modelfile——模型标签(qwen3:27b)始终指向最新的27B版本。在LM Studio中,检查模型库中的更新,如果有更新的GGUF版本可用则重新下载。

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

加入PromptQuorum候补名单 →

加入PromptQuorum等待列表 →

← 返回本地LLM

本地运行Qwen 3:2026年完整配置指南 | PromptQuorum