Home/Local LLMs/VS Code와 Cursor에서 로컬 LLM 사용하기: 설정 및 모범 사례

Tools & Interfaces

VS Code와 Cursor에서 로컬 LLM 사용하기: 설정 및 모범 사례

Last updated: April 2026·10분 분량·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

언어 선택:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

VS Code와 Cursor(AI 중심 코드 편집기)는 모두 Continue.dev 확장(VS Code) 또는 직접 통합(Cursor)을 통해 로컬 LLM을 코드 자동 완성 및 제안에 활용할 수 있습니다.

VS Code와 Cursor(AI 중심 코드 편집기)는 모두 Continue.dev 확장(VS Code) 또는 직접 통합(Cursor)을 통해 로컬 LLM을 코드 자동 완성 및 제안에 활용할 수 있습니다. 2026년 4월 기준, 7B~13B 모델에서 로컬 코드 자동 완성이 실용적이며 8~16GB RAM이 필요합니다. 이 가이드는 설정 방법, 최적 모델, 성능 튜닝을 다룹니다.

Key Takeaways

VS Code는 Continue.dev 확장을 사용하여 로컬 모델(Ollama, LM Studio, vLLM)에 연결합니다.
Cursor는 VS Code 포크로 로컬 모델 지원이 내장되어 있습니다. 별도 확장이 필요하지 않습니다.
코드용 최적 로컬 모델: Qwen3-Coder 7B, Llama Code 13B 또는 Mistral Small.
7B 모델 기준 소비자 GPU에서 2~5초의 자동 완성 지연을 예상하십시오.
2026년 4월 기준, 로컬 코드 자동 완성은 개인 사용에는 실용적이나 팀 프로덕션 환경에는 아직 적합하지 않습니다.

VS Code에서 Continue.dev를 설정하는 방법은 무엇입니까?

Continue.dev는 로컬 및 클라우드 코드 자동 완성을 위한 VS Code 확장입니다.

json

# 1. Install Continue from VS Code marketplace
# Search "Continue" and click Install

# 2. Make sure Ollama is running
ollama serve

# 3. Open Continue settings (Ctrl+Shift+P → Continue: Open Settings)
# config.json opens

# 4. Configure for your local model:
# Replace the default settings with:
{
  "models": [{
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b",
    "apiBase": "http://localhost:11434"
  }],
  "tabAutocompleteModel": {
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

# 5. Start typing code and press Tab for completions
# Or Ctrl+Shift+\ to manually trigger completions

Cursor에서 로컬 모델을 사용하는 방법은 무엇입니까?

Cursor는 AI 지원 코딩에 최적화된 VS Code 포크입니다. Ollama를 통한 로컬 모델 지원이 내장되어 있습니다.

bash

# 1. Download Cursor from cursor.sh
# 2. Make sure Ollama is running
ollama serve

# 3. Open Cursor Settings (Cmd/Ctrl + ,)
# 4. Search "Model" and set:
#    - Model Provider: "Ollama"
#    - Model: "qwen2.5-coder:7b" (or your choice)
#    - API Base: "http://localhost:11434"

# 5. Type code and press Tab for inline completions
# 6. Ctrl+K for multi-line completions

코드용으로 가장 적합한 모델은 무엇입니까?

Model	HumanEval	VRAM	Speed	Best For
Qwen3-Coder 7B	72%	4.7 GB	빠름	최상의 균형, 가장 빠름
Llama Code 7B	69%	4.7 GB	빠름	일반 코딩
Mistral Small	61%	4.5 GB	매우 빠름	경량, EU 서버
Llama Code 13B	74%	8.5 GB	보통	16GB 머신에서 더 높은 품질
DeepSeek-Coder 6.7B	68%	4 GB	빠름	경량 대안

예상 지연 시간과 VRAM은 얼마입니까?

자동 완성 지연 시간(첫 번째 토큰까지의 시간)은 IDE 경험에 매우 중요합니다. 2026년 4월 기준 대표적인 수치는 다음과 같습니다:

Hardware	Model	Latency	Throughput
RTX 4090 GPU	Qwen3-Coder 7B	0.3~0.5초	150 토큰/초
RTX 4070 GPU	Qwen3-Coder 7B	0.8~1.5초	80 토큰/초
M3 MacBook Pro	Qwen3-Coder 7B	2~3초	20 토큰/초
8코어 CPU만 사용	Qwen3-Coder 7B	5~10초	3 토큰/초

코드 자동 완성을 위한 고급 설정

다음 설정으로 경험을 세밀하게 조정하십시오:

json

# config.json advanced settings
{
  "tabAutocompleteModel": {
    "contextLength": 2048,     # How much code context to send
    "maxTokens": 50            # Max tokens per completion
  },
  "completionOptions": {
    "maxContextTokens": 1024,
    "maxSuggestionsCount": 5,
    "debounceWaitMs": 200      # Wait before showing completions (ms)
  },
  # For faster inference, use smaller context:
  "models": [{
    "contextLength": 1024      # Smaller context = faster
  }]
}

# For best speed on 8GB machines:
# - Use 7B model (not 13B)
# - Set maxTokens to 30
# - Set debounceWaitMs to 500 (less flickering)

로컬 코드 자동 완성의 자주 발생하는 실수

디바운스 지연 시간 미조정. 자동 완성이 "느리게" 느껴진다면 debounceWaitMs를 늘리십시오(예: 400ms). 불완전한 제안이 나타나는 것을 방지할 수 있습니다.
VRAM에 비해 너무 큰 모델 사용. 13B 모델과 편집기 오버헤드를 합치면 12GB 이상이 필요할 수 있습니다. 8GB 머신에서는 7B 모델을 사용하십시오.
클라우드 수준의 코드 품질 기대. GPT-5.5는 7B 모델보다 코드 품질이 현저히 높습니다. 로컬 자동 완성은 클라우드 품질의 70~80% 수준입니다.
CPU에서 추론 실행. CPU 자동 완성은 비실용적입니다(5~10초 지연). 실용적인 자동 완성을 위해서는 GPU가 필요합니다.

로컬 코드 자동 완성에 관한 자주 묻는 질문

로컬 코드 자동 완성이 클라우드보다 빠릅니까?

그렇지 않습니다. 클라우드 자동 완성(GitHub Copilot)은 최적화된 서버 덕분에 더 빠릅니다. 로컬 자동 완성은 지연 시간이 더 길지만 비용이 없고 개인 정보 보호 위험도 없습니다.

다른 IDE(PyCharm, Neovim)에서도 로컬 자동 완성을 사용할 수 있습니까?

가능합니다. 단, 설정 방법이 다릅니다. PyCharm에는 Ollama 플러그인이 있습니다. Neovim의 경우 cmp-ollama(자동 완성 플러그인)를 사용하십시오. 각 IDE 커뮤니티에서 통합 방법을 확인하십시오.

Continue나 Cursor에서 클라우드 모델을 사용할 수 있습니까?

가능합니다. Continue를 OpenAI, Claude 또는 Gemini와 함께 사용하도록 설정할 수 있습니다. 빠른 작업에는 로컬, 복잡한 코드에는 클라우드를 혼합하여 사용할 수도 있습니다.

로컬 코드 자동 완성은 오프라인에서 작동합니까?

예. Ollama에서 모델을 이미 pull한 경우 자동 완성은 완전히 오프라인으로 동작합니다.

출처

Continue.dev -- continue.dev
Cursor Editor -- cursor.sh
Continue GitHub -- github.com/continuedev/continue
Qwen3-Coder -- github.com/QwenLM/Qwen3-Coder
IDE 통합은 절반에 불과합니다. 코드 생성을 위한 효과적인 프롬프트 작성은 일반 대화와 다른 마인드셋이 필요합니다. 개발자를 위한 프롬프트 엔지니어링을 알아보십시오: best prompt engineering IDEs에서 도구와 기법을 비교합니다.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider’s official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs