PromptQuorumPromptQuorum
主页/本地LLM/VS Code和Cursor中的本地LLM:设置和最佳实践
Tools & Interfaces

VS Code和Cursor中的本地LLM:设置和最佳实践

·阅读约10分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

VS Code和Cursor(AI优先的代码编辑器)都可以通过Continue.dev扩展(VS Code)或直接集成(Cursor)使用本地LLM进行代码补全和建议。截至2026年4月,本地代码补全对于7B-13B模型很实用,需要8-16 GB RAM。本指南涵盖设置、最佳模型和性能调整。

关键要点

  • VS Code使用Continue.dev扩展连接到本地模型(Ollama、LM Studio、vLLM)。
  • Cursor是一个VS Code分支,具有内置的本地模型支持。无需扩展。
  • 最佳代码本地模型:Qwen2.5-Coder 7B、Llama Code 13B或Mistral 7B。
  • 使用7B模型在消费者GPU上预期2-5秒补全延迟。
  • 截至2026年4月,本地代码补全对个人使用很实用,但对团队还不是生产级。

如何在VS Code中设置Continue.dev?

Continue.dev是VS Code扩展,用于本地和云代码补全。

json
# 1. 从VS Code市场安装Continue
# 搜索"Continue"并单击安装

# 2. 确保Ollama正在运行
ollama serve

# 3. 打开Continue设置(Ctrl+Shift+P → Continue:打开设置)
# config.json将打开

# 4. 为您的本地模型配置:
# 用以下内容替换默认设置:
{
  "models": [{
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b",
    "apiBase": "http://localhost:11434"
  }],
  "tabAutocompleteModel": {
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

# 5. 开始键入代码并按Tab获得补全
# 或Ctrl+Shift+\ 手动触发补全

如何在Cursor中使用本地模型?

Cursor是针对AI辅助编程优化的VS Code分支。 它具有通过Ollama的本地模型的内置支持。

bash
# 1. 从cursor.sh下载Cursor
# 2. 确保Ollama正在运行
ollama serve

# 3. 打开Cursor设置(Cmd/Ctrl + ,)
# 4. 搜索"Model"并设置:
#    - Model Provider: "Ollama"
#    - Model: "qwen2.5-coder:7b" (或您的选择)
#    - API Base: "http://localhost:11434"

# 5. 键入代码并按Tab进行内联补全
# 6. Ctrl+K进行多行补全

哪些模型最适合代码?

⚠️ 显存规则:始终拥有比模型需求多2-3 GB的空闲显存。Q4时的7B模型(4.7 GB)在VS Code或Cursor中运行时需要总计8 GB显存。

模型HumanEval显存速度最佳用途
Qwen2.5-Coder 7B72%4.7 GB快速最佳平衡、最快
Llama Code 7B69%4.7 GB快速通用编码
Mistral 7B61%4.5 GB非常快轻量、EU服务器
Llama Code 13B74%8.5 GB中等16GB机器质量更好
DeepSeek-Coder 6.7B68%4 GB快速轻量替代品

您应该期望什么样的延迟和显存?

补全延迟(到第一个token的时间)对IDE体验至关重要。 截至2026年4月,以下是典型数字:

⚠️ 延迟现实检查:本地补全比云慢2-10倍。将本地用于私人工作;将云(Copilot、Claude)用于时间敏感编码。

💡 性能调优:将`contextLength`从2048减少到1024个token以将延迟减半。权衡:建议的代码上下文行更少。

硬件模型延迟吞吐量
RTX 4090 GPUQwen2.5-Coder 7B0.3-0.5秒150个token/秒
RTX 4070 GPUQwen2.5-Coder 7B0.8-1.5秒80个token/秒
M3 MacBook ProQwen2.5-Coder 7B2-3秒20个token/秒
8核CPU仅Qwen2.5-Coder 7B5-10秒3个token/秒

性能数据说明:使用Qwen2.5-Coder 7B Q4_K_M格式、批大小 = 1、新鲜系统(无后台任务)测量的延迟和吞吐量。您的实际性能取决于OS、显存可用性、量化格式和并发负载。

如何配置代码补全以获得最佳性能?

使用这些设置微调体验:

⚠️ 警告:在具有13B模型的8GB机器上,补全可能需要5-10秒,使IDE感觉无响应。对于流畅性能,使用7B模型。

💡 专业提示:将`debounceWaitMs`增加到400-500毫秒以减少闪烁并避免显示不完整建议。

json
# config.json高级设置
{
  "tabAutocompleteModel": {
    "contextLength": 2048,     # 发送多少代码上下文
    "maxTokens": 50            # 每次补全最大token
  },
  "completionOptions": {
    "maxContextTokens": 1024,
    "maxSuggestionsCount": 5,
    "debounceWaitMs": 200      # 显示前等待(毫秒)
  },
  # 对于更快的推理,使用较小的上下文:
  "models": [{
    "contextLength": 1024      # 较小的上下文 = 更快
  }]
}

# 8GB机器的最佳速度:
# - 使用7B模型(不是13B)
# - 将maxTokens设置为30
# - 将debounceWaitMs设置为500(较少闪烁)

设置本地代码补全时有哪些常见错误?

  • 不调整去抖延迟:如果补全感觉"迟缓",增加debounceWaitMs(例如400毫秒)以避免显示不完整建议。
  • 使用对您的显存来说过大的模型:13B模型+编辑器开销可使用12+ GB。在8GB机器上,使用7B模型。
  • 期望云级代码质量:GPT-4o在代码方面比任何7B模型好得多。本地补全达到云质量的70-80%。
  • 在CPU上运行推理:CPU补全不实用(5-10秒延迟)。显存对有用补全是必需的。

常见问题:本地代码补全

本地代码补全比云更快吗?

不。云补全(GitHub Copilot)由于优化的服务器而更快。本地补全具有更高延迟但零成本和零隐私风险。

我可以在其他IDE(PyCharm、Neovim)中使用本地补全吗?

可以,但设置有所不同。PyCharm有Ollama插件。对于Neovim,使用cmp-ollama(补全插件)。始终检查IDE社区以了解集成。

我可以在Continue或Cursor中使用云模型吗?

可以。配置Continue以使用OpenAI、Claude或Gemini。您也可以混合(本地快速,云复杂代码)。

本地代码补全在离线工作吗?

可以。如果您已在Ollama中提取模型,补全完全离线工作。

相关阅读

源代码

  • Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
  • Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
  • Alibaba Qwen Team. (2025). "Qwen2.5-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen2.5-Coder variants.
  • DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

使用PromptQuorum将您的本地LLM与25+个云模型同时进行比较。

加入PromptQuorum等待列表 →

← 返回本地LLM

VS Code和Cursor中使用本地大模型实现代码补全的完整教程 2026 | PromptQuorum