Key Takeaways
- VS Code๋ Continue.dev ํ์ฅ์ ์ฌ์ฉํ์ฌ ๋ก์ปฌ ๋ชจ๋ธ(Ollama, LM Studio, vLLM)์ ์ฐ๊ฒฐํฉ๋๋ค.
- Cursor๋ VS Code ํฌํฌ๋ก ๋ก์ปฌ ๋ชจ๋ธ ์ง์์ด ๋ด์ฅ๋์ด ์์ต๋๋ค. ๋ณ๋ ํ์ฅ์ด ํ์ํ์ง ์์ต๋๋ค.
- ์ฝ๋์ฉ ์ต์ ๋ก์ปฌ ๋ชจ๋ธ: Qwen3-Coder 7B, Llama Code 13B ๋๋ Mistral Small.
- 7B ๋ชจ๋ธ ๊ธฐ์ค ์๋น์ GPU์์ 2~5์ด์ ์๋ ์์ฑ ์ง์ฐ์ ์์ํ์ญ์์ค.
- 2026๋ 4์ ๊ธฐ์ค, ๋ก์ปฌ ์ฝ๋ ์๋ ์์ฑ์ ๊ฐ์ธ ์ฌ์ฉ์๋ ์ค์ฉ์ ์ด๋ ํ ํ๋ก๋์ ํ๊ฒฝ์๋ ์์ง ์ ํฉํ์ง ์์ต๋๋ค.
VS Code์์ Continue.dev๋ฅผ ์ค์ ํ๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ ๋๊น?
Continue.dev๋ ๋ก์ปฌ ๋ฐ ํด๋ผ์ฐ๋ ์ฝ๋ ์๋ ์์ฑ์ ์ํ VS Code ํ์ฅ์ ๋๋ค.
# 1. Install Continue from VS Code marketplace
# Search "Continue" and click Install
# 2. Make sure Ollama is running
ollama serve
# 3. Open Continue settings (Ctrl+Shift+P โ Continue: Open Settings)
# config.json opens
# 4. Configure for your local model:
# Replace the default settings with:
{
"models": [{
"title": "Ollama",
"provider": "ollama",
"model": "qwen2.5-coder:7b",
"apiBase": "http://localhost:11434"
}],
"tabAutocompleteModel": {
"title": "Ollama",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
}
}
# 5. Start typing code and press Tab for completions
# Or Ctrl+Shift+\ to manually trigger completionsCursor์์ ๋ก์ปฌ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ ๋๊น?
Cursor๋ AI ์ง์ ์ฝ๋ฉ์ ์ต์ ํ๋ VS Code ํฌํฌ์ ๋๋ค. Ollama๋ฅผ ํตํ ๋ก์ปฌ ๋ชจ๋ธ ์ง์์ด ๋ด์ฅ๋์ด ์์ต๋๋ค.
# 1. Download Cursor from cursor.sh
# 2. Make sure Ollama is running
ollama serve
# 3. Open Cursor Settings (Cmd/Ctrl + ,)
# 4. Search "Model" and set:
# - Model Provider: "Ollama"
# - Model: "qwen2.5-coder:7b" (or your choice)
# - API Base: "http://localhost:11434"
# 5. Type code and press Tab for inline completions
# 6. Ctrl+K for multi-line completions์ฝ๋์ฉ์ผ๋ก ๊ฐ์ฅ ์ ํฉํ ๋ชจ๋ธ์ ๋ฌด์์ ๋๊น?
| Model | HumanEval | VRAM | Speed | Best For |
|---|---|---|---|---|
| Qwen3-Coder 7B | 72% | 4.7 GB | ๋น ๋ฆ | ์ต์์ ๊ท ํ, ๊ฐ์ฅ ๋น ๋ฆ |
| Llama Code 7B | 69% | 4.7 GB | ๋น ๋ฆ | ์ผ๋ฐ ์ฝ๋ฉ |
| Mistral Small | 61% | 4.5 GB | ๋งค์ฐ ๋น ๋ฆ | ๊ฒฝ๋, EU ์๋ฒ |
| Llama Code 13B | 74% | 8.5 GB | ๋ณดํต | 16GB ๋จธ์ ์์ ๋ ๋์ ํ์ง |
| DeepSeek-Coder 6.7B | 68% | 4 GB | ๋น ๋ฆ | ๊ฒฝ๋ ๋์ |
์์ ์ง์ฐ ์๊ฐ๊ณผ VRAM์ ์ผ๋ง์ ๋๊น?
์๋ ์์ฑ ์ง์ฐ ์๊ฐ(์ฒซ ๋ฒ์งธ ํ ํฐ๊น์ง์ ์๊ฐ)์ IDE ๊ฒฝํ์ ๋งค์ฐ ์ค์ํฉ๋๋ค. 2026๋ 4์ ๊ธฐ์ค ๋ํ์ ์ธ ์์น๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
| Hardware | Model | Latency | Throughput |
|---|---|---|---|
| RTX 4090 GPU | Qwen3-Coder 7B | 0.3~0.5์ด | 150 ํ ํฐ/์ด |
| RTX 4070 GPU | Qwen3-Coder 7B | 0.8~1.5์ด | 80 ํ ํฐ/์ด |
| M3 MacBook Pro | Qwen3-Coder 7B | 2~3์ด | 20 ํ ํฐ/์ด |
| 8์ฝ์ด CPU๋ง ์ฌ์ฉ | Qwen3-Coder 7B | 5~10์ด | 3 ํ ํฐ/์ด |
์ฝ๋ ์๋ ์์ฑ์ ์ํ ๊ณ ๊ธ ์ค์
๋ค์ ์ค์ ์ผ๋ก ๊ฒฝํ์ ์ธ๋ฐํ๊ฒ ์กฐ์ ํ์ญ์์ค:
# config.json advanced settings
{
"tabAutocompleteModel": {
"contextLength": 2048, # How much code context to send
"maxTokens": 50 # Max tokens per completion
},
"completionOptions": {
"maxContextTokens": 1024,
"maxSuggestionsCount": 5,
"debounceWaitMs": 200 # Wait before showing completions (ms)
},
# For faster inference, use smaller context:
"models": [{
"contextLength": 1024 # Smaller context = faster
}]
}
# For best speed on 8GB machines:
# - Use 7B model (not 13B)
# - Set maxTokens to 30
# - Set debounceWaitMs to 500 (less flickering)๋ก์ปฌ ์ฝ๋ ์๋ ์์ฑ์ ์์ฃผ ๋ฐ์ํ๋ ์ค์
- ๋๋ฐ์ด์ค ์ง์ฐ ์๊ฐ ๋ฏธ์กฐ์ . ์๋ ์์ฑ์ด "๋๋ฆฌ๊ฒ" ๋๊ปด์ง๋ค๋ฉด debounceWaitMs๋ฅผ ๋๋ฆฌ์ญ์์ค(์: 400ms). ๋ถ์์ ํ ์ ์์ด ๋ํ๋๋ ๊ฒ์ ๋ฐฉ์งํ ์ ์์ต๋๋ค.
- VRAM์ ๋นํด ๋๋ฌด ํฐ ๋ชจ๋ธ ์ฌ์ฉ. 13B ๋ชจ๋ธ๊ณผ ํธ์ง๊ธฐ ์ค๋ฒํค๋๋ฅผ ํฉ์น๋ฉด 12GB ์ด์์ด ํ์ํ ์ ์์ต๋๋ค. 8GB ๋จธ์ ์์๋ 7B ๋ชจ๋ธ์ ์ฌ์ฉํ์ญ์์ค.
- ํด๋ผ์ฐ๋ ์์ค์ ์ฝ๋ ํ์ง ๊ธฐ๋. GPT-5.5๋ 7B ๋ชจ๋ธ๋ณด๋ค ์ฝ๋ ํ์ง์ด ํ์ ํ ๋์ต๋๋ค. ๋ก์ปฌ ์๋ ์์ฑ์ ํด๋ผ์ฐ๋ ํ์ง์ 70~80% ์์ค์ ๋๋ค.
- CPU์์ ์ถ๋ก ์คํ. CPU ์๋ ์์ฑ์ ๋น์ค์ฉ์ ์ ๋๋ค(5~10์ด ์ง์ฐ). ์ค์ฉ์ ์ธ ์๋ ์์ฑ์ ์ํด์๋ GPU๊ฐ ํ์ํฉ๋๋ค.
๋ก์ปฌ ์ฝ๋ ์๋ ์์ฑ์ ๊ดํ ์์ฃผ ๋ฌป๋ ์ง๋ฌธ
๋ก์ปฌ ์ฝ๋ ์๋ ์์ฑ์ด ํด๋ผ์ฐ๋๋ณด๋ค ๋น ๋ฆ ๋๊น?
๊ทธ๋ ์ง ์์ต๋๋ค. ํด๋ผ์ฐ๋ ์๋ ์์ฑ(GitHub Copilot)์ ์ต์ ํ๋ ์๋ฒ ๋๋ถ์ ๋ ๋น ๋ฆ ๋๋ค. ๋ก์ปฌ ์๋ ์์ฑ์ ์ง์ฐ ์๊ฐ์ด ๋ ๊ธธ์ง๋ง ๋น์ฉ์ด ์๊ณ ๊ฐ์ธ ์ ๋ณด ๋ณดํธ ์ํ๋ ์์ต๋๋ค.
๋ค๋ฅธ IDE(PyCharm, Neovim)์์๋ ๋ก์ปฌ ์๋ ์์ฑ์ ์ฌ์ฉํ ์ ์์ต๋๊น?
๊ฐ๋ฅํฉ๋๋ค. ๋จ, ์ค์ ๋ฐฉ๋ฒ์ด ๋ค๋ฆ ๋๋ค. PyCharm์๋ Ollama ํ๋ฌ๊ทธ์ธ์ด ์์ต๋๋ค. Neovim์ ๊ฒฝ์ฐ cmp-ollama(์๋ ์์ฑ ํ๋ฌ๊ทธ์ธ)๋ฅผ ์ฌ์ฉํ์ญ์์ค. ๊ฐ IDE ์ปค๋ฎค๋ํฐ์์ ํตํฉ ๋ฐฉ๋ฒ์ ํ์ธํ์ญ์์ค.
Continue๋ Cursor์์ ํด๋ผ์ฐ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ์์ต๋๊น?
๊ฐ๋ฅํฉ๋๋ค. Continue๋ฅผ OpenAI, Claude ๋๋ Gemini์ ํจ๊ป ์ฌ์ฉํ๋๋ก ์ค์ ํ ์ ์์ต๋๋ค. ๋น ๋ฅธ ์์ ์๋ ๋ก์ปฌ, ๋ณต์กํ ์ฝ๋์๋ ํด๋ผ์ฐ๋๋ฅผ ํผํฉํ์ฌ ์ฌ์ฉํ ์๋ ์์ต๋๋ค.
๋ก์ปฌ ์ฝ๋ ์๋ ์์ฑ์ ์คํ๋ผ์ธ์์ ์๋ํฉ๋๊น?
์. Ollama์์ ๋ชจ๋ธ์ ์ด๋ฏธ pullํ ๊ฒฝ์ฐ ์๋ ์์ฑ์ ์์ ํ ์คํ๋ผ์ธ์ผ๋ก ๋์ํฉ๋๋ค.
์ถ์ฒ
- Continue.dev -- continue.dev
- Cursor Editor -- cursor.sh
- Continue GitHub -- github.com/continuedev/continue
- Qwen3-Coder -- github.com/QwenLM/Qwen3-Coder
- IDE ํตํฉ์ ์ ๋ฐ์ ๋ถ๊ณผํฉ๋๋ค. ์ฝ๋ ์์ฑ์ ์ํ ํจ๊ณผ์ ์ธ ํ๋กฌํํธ ์์ฑ์ ์ผ๋ฐ ๋ํ์ ๋ค๋ฅธ ๋ง์ธ๋์ ์ด ํ์ํฉ๋๋ค. ๊ฐ๋ฐ์๋ฅผ ์ํ ํ๋กฌํํธ ์์ง๋์ด๋ง์ ์์๋ณด์ญ์์ค: best prompt engineering IDEs์์ ๋๊ตฌ์ ๊ธฐ๋ฒ์ ๋น๊ตํฉ๋๋ค.