Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/VS Code和Cursor中的本地LLM:设置和最佳实践
Tools & Interfaces

VS Code和Cursor中的本地LLM:设置和最佳实践

·阅读约10分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

VS Code和Cursor(AI优先的代码编辑器)都可以通过Continue.dev扩展(VS Code)或直接集成(Cursor)使用本地LLM进行代码补全和建议。截至2026年4月,本地代码补全对于7B-13B模型很实用,需要8-16 GB RAM。本指南涵盖设置、最佳模型和性能调整。

关键要点

  • VS Code使用Continue.dev扩展连接到本地模型(Ollama、LM Studio、vLLM)。
  • Cursor是一个VS Code分支,具有内置的本地模型支持。无需扩展。
  • 最佳代码本地模型:Qwen3-Coder 7B、Llama Code 13B或Mistral Small。
  • 使用7B模型在消费者GPU上预期2-5秒补全延迟。
  • 截至2026年4月,本地代码补全对个人使用很实用,但对团队还不是生产级。

如何在VS Code中设置Continue.dev?

Continue.dev是VS Code扩展,用于本地和云代码补全。

json
# 1. 从VS Code市场安装Continue
# 搜索"Continue"并单击安装

# 2. 确保Ollama正在运行
ollama serve

# 3. 打开Continue设置(Ctrl+Shift+P → Continue:打开设置)
# config.json将打开

# 4. 为您的本地模型配置:
# 用以下内容替换默认设置:
{
  "models": [{
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b",
    "apiBase": "http://localhost:11434"
  }],
  "tabAutocompleteModel": {
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

# 5. 开始键入代码并按Tab获得补全
# 或Ctrl+Shift+\ 手动触发补全

如何在Cursor中使用本地模型?

Cursor是针对AI辅助编程优化的VS Code分支。 它具有通过Ollama的本地模型的内置支持。

bash
# 1. 从cursor.sh下载Cursor
# 2. 确保Ollama正在运行
ollama serve

# 3. 打开Cursor设置(Cmd/Ctrl + ,)
# 4. 搜索"Model"并设置:
#    - Model Provider: "Ollama"
#    - Model: "qwen2.5-coder:7b" (或您的选择)
#    - API Base: "http://localhost:11434"

# 5. 键入代码并按Tab进行内联补全
# 6. Ctrl+K进行多行补全

哪些模型最适合代码?

⚠️ 显存规则:始终拥有比模型需求多2-3 GB的空闲显存。Q4时的7B模型(4.7 GB)在VS Code或Cursor中运行时需要总计8 GB显存。

模型HumanEval显存速度最佳用途
Qwen3-Coder 7B72%4.7 GB快速最佳平衡、最快
Llama Code 7B69%4.7 GB快速通用编码
Mistral Small61%4.5 GB非常快轻量、EU服务器
Llama Code 13B74%8.5 GB中等16GB机器质量更好
DeepSeek-Coder 6.7B68%4 GB快速轻量替代品

您应该期望什么样的延迟和显存?

补全延迟(到第一个token的时间)对IDE体验至关重要。 截至2026年4月,以下是典型数字:

⚠️ 延迟现实检查:本地补全比云慢2-10倍。将本地用于私人工作;将云(Copilot、Claude)用于时间敏感编码。

💡 性能调优:将`contextLength`从2048减少到1024个token以将延迟减半。权衡:建议的代码上下文行更少。

硬件模型延迟吞吐量
RTX 4090 GPUQwen3-Coder 7B0.3-0.5秒150个token/秒
RTX 4070 GPUQwen3-Coder 7B0.8-1.5秒80个token/秒
M3 MacBook ProQwen3-Coder 7B2-3秒20个token/秒
8核CPU仅Qwen3-Coder 7B5-10秒3个token/秒

性能数据说明:使用Qwen3-Coder 7B Q4_K_M格式、批大小 = 1、新鲜系统(无后台任务)测量的延迟和吞吐量。您的实际性能取决于OS、显存可用性、量化格式和并发负载。

如何配置代码补全以获得最佳性能?

使用这些设置微调体验:

⚠️ 警告:在具有13B模型的8GB机器上,补全可能需要5-10秒,使IDE感觉无响应。对于流畅性能,使用7B模型。

💡 专业提示:将`debounceWaitMs`增加到400-500毫秒以减少闪烁并避免显示不完整建议。

json
# config.json高级设置
{
  "tabAutocompleteModel": {
    "contextLength": 2048,     # 发送多少代码上下文
    "maxTokens": 50            # 每次补全最大token
  },
  "completionOptions": {
    "maxContextTokens": 1024,
    "maxSuggestionsCount": 5,
    "debounceWaitMs": 200      # 显示前等待(毫秒)
  },
  # 对于更快的推理,使用较小的上下文:
  "models": [{
    "contextLength": 1024      # 较小的上下文 = 更快
  }]
}

# 8GB机器的最佳速度:
# - 使用7B模型(不是13B)
# - 将maxTokens设置为30
# - 将debounceWaitMs设置为500(较少闪烁)

设置本地代码补全时有哪些常见错误?

  • 不调整去抖延迟:如果补全感觉"迟缓",增加debounceWaitMs(例如400毫秒)以避免显示不完整建议。
  • 使用对您的显存来说过大的模型:13B模型+编辑器开销可使用12+ GB。在8GB机器上,使用7B模型。
  • 期望云级代码质量:GPT-5.5在代码方面比任何7B模型好得多。本地补全达到云质量的70-80%。
  • 在CPU上运行推理:CPU补全不实用(5-10秒延迟)。显存对有用补全是必需的。

常见问题:本地代码补全

本地代码补全比云更快吗?

不。云补全(GitHub Copilot)由于优化的服务器而更快。本地补全具有更高延迟但零成本和零隐私风险。

我可以在其他IDE(PyCharm、Neovim)中使用本地补全吗?

可以,但设置有所不同。PyCharm有Ollama插件。对于Neovim,使用cmp-ollama(补全插件)。始终检查IDE社区以了解集成。

我可以在Continue或Cursor中使用云模型吗?

可以。配置Continue以使用OpenAI、Claude或Gemini。您也可以混合(本地快速,云复杂代码)。

本地代码补全在离线工作吗?

可以。如果您已在Ollama中提取模型,补全完全离线工作。

相关阅读

源代码

  • Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
  • Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
  • Alibaba Qwen Team. (2025). "Qwen3-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen3-Coder variants.
  • DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM