重要なポイント
- VS CodeはContinue.dev拡張機能を使用してローカルモデル(Ollama、LM Studio、vLLM)に接続します。
- Cursorはビルトインのローカルモデルサポート付きのVS Codeフォークです。拡張機能は不要です。
- コードの最高のローカルモデル:Qwen2.5-Coder 7B、Llama Code 13B、またはMistral 7B。
- 7Bモデルを使用したコンシューマーGPUで2〜5秒の補完レイテンシを予想してください。
- 2026年4月現在、ローカルコード補完は個人使用に実用的ですが、チーム向けはまだ本番レベルではありません。
VS CodeでContinue.devをセットアップするにはどうすればよいですか?
Continue.devはローカルおよびクラウドコード補完用のVS Code拡張機能です。
# 1. VS Code Marketplaceからcontinueをインストール
# 「Continue」を検索してインストールをクリック
# 2. Ollamaが実行されていることを確認
ollama serve
# 3. Continue設定を開く(Ctrl+Shift+P → Continue:設定を開く)
# config.jsonが開きます
# 4. ローカルモデルのために設定:
# デフォルト設定を以下で置き換え:
{
"models": [{
"title": "Ollama",
"provider": "ollama",
"model": "qwen2.5-coder:7b",
"apiBase": "http://localhost:11434"
}],
"tabAutocompleteModel": {
"title": "Ollama",
"provider": "ollama",
"model": "qwen2.5-coder:7b"
}
}
# 5. コード入力を開始し、Tabキーで補完
# または Ctrl+Shift+\ 補完を手動トリガーCursorでローカルモデルを使用するにはどうすればよいですか?
CursorはAIアシスト型コーディング向けに最適化されたVS Codeフォークです。 Ollamaを介したローカルモデルのビルトインサポートを備えています。
# 1. cursor.shからCursorダウンロード
# 2. Ollamaが実行されていることを確認
ollama serve
# 3. Cursor設定を開く(Cmd/Ctrl + ,)
# 4. 「Model」を検索して設定:
# - Model Provider: "Ollama"
# - Model: "qwen2.5-coder:7b" (または選択)
# - API Base: "http://localhost:11434"
# 5. コード入力し、インライン補完にTab
# 6. 複数行補完にCtrl+Kコードに最適なモデルはどれですか?
⚠️ VRAM規則:モデルが必要とするVRAMより2〜3 GB多い空きVRAMを常に持つ。Q4のときの7Bモデル(4.7 GB)はVS CodeまたはCursorで実行するときに合計8 GBのVRAMを必要とします。
| モデル | HumanEval | VRAM | 速度 | 最適: |
|---|---|---|---|---|
| Qwen2.5-Coder 7B | 72% | 4.7 GB | 速い | 最高のバランス、最速 |
| Llama Code 7B | 69% | 4.7 GB | 速い | 一般的なコーディング |
| Mistral 7B | 61% | 4.5 GB | 非常に速い | 軽量、EUサーバー |
| Llama Code 13B | 74% | 8.5 GB | 中程度 | 16GBマシンで品質向上 |
| DeepSeek-Coder 6.7B | 68% | 4 GB | 速い | 軽量代替案 |
どのレイテンシとVRAMを期待すべきですか?
補完レイテンシ(最初のトークンまでの時間)はIDE体験に不可欠です。 2026年4月現在、ここに典型的な数値があります:
⚠️ レイテンシ現実チェック:ローカル補完はクラウドより2〜10倍遅い。プライベート作業にはローカルを使用し、時間に敏感なコーディングにはクラウド(Copilot、Claude)を使用。
💡 パフォーマンスチューニング:`contextLength`を2048から1024トークンに減らしてレイテンシを半分にします。トレード:提案のコンテキストコード行が少なくなる。
| ハードウェア | モデル | レイテンシ | スループット |
|---|---|---|---|
| RTX 4090 GPU | Qwen2.5-Coder 7B | 0.3-0.5秒 | 150トークン/秒 |
| RTX 4070 GPU | Qwen2.5-Coder 7B | 0.8-1.5秒 | 80トークン/秒 |
| M3 MacBook Pro | Qwen2.5-Coder 7B | 2-3秒 | 20トークン/秒 |
| 8コアCPUのみ | Qwen2.5-Coder 7B | 5-10秒 | 3トークン/秒 |
パフォーマンスデータに関する注記:Qwen2.5-Coder 7B Q4_K_Mフォーマット、バッチサイズ = 1、新規システム(バックグラウンドタスクなし)で測定されたレイテンシとスループット。実際のパフォーマンスはOS、VRAM可用性、量子化形式、および同時負荷に依存します。
パフォーマンスのためにコード補完を設定するにはどうすればよいですか?
これらの設定で体験を微調整:
⚠️ 警告:8GBマシンの13Bモデルでは、補完に5〜10秒かかり、IDEが反応しなくなる可能性があります。スムーズなパフォーマンスのために7Bモデルを使用。
💡 プロのヒント:`debounceWaitMs`を400〜500 msに増やしてちらつきを減らし、不完全な提案を避ける。
# config.json高度な設定
{
"tabAutocompleteModel": {
"contextLength": 2048, # 送信するコードコンテキスト
"maxTokens": 50 # 補完あたりの最大トークン
},
"completionOptions": {
"maxContextTokens": 1024,
"maxSuggestionsCount": 5,
"debounceWaitMs": 200 # 表示前待機(ms)
},
# より高速な推論のために小さいコンテキスト:
"models": [{
"contextLength": 1024 # 小さいコンテキスト = 高速
}]
}
# 8GBマシンの最高速度:
# - 7Bモデル使用(13Bでなく)
# - maxTokensを30に設定
# - debounceWaitMsを500に設定(ちらつき少なく)ローカルコード補完セットアップで何が一般的な間違いですか?
- Debounceレイテンシを調整しない:補完が「遅い」と感じたら、debounceWaitMsを増やす(例えば400 ms)して不完全な提案を表示しない。
- VRAMに対して大きすぎるモデルを使用:13Bモデル+エディタオーバーヘッドは12+ GB使用できる。8GBマシンでは7Bモデルを使用。
- クラウドレベルのコード品質を期待:GPT-4oはどの7Bモデルよりもコードで大幅に優れている。ローカル補完はクラウド品質の70〜80%。
- CPUで推論を実行:CPU補完は非実用的(5〜10秒レイテンシ)。GPUは有用な補完に必要。
FAQ:ローカルコード補完
ローカルコード補完はクラウドより速いですか?
いいえ。クラウド補完(GitHub Copilot)は最適化されたサーバーで速いです。ローカル補完はレイテンシが高いですがゼロコストとゼロプライバシーリスク。
他のIDE(PyCharm、Neovim)でローカル補完を使用できますか?
はい、しかしセットアップは異なる。PyCharmはOllamaプラグインを持つ。Neovimの場合、cmp-ollama(補完プラグイン)を使用。常にIDE コミュニティ統合をチェック。
ContinueまたはCursorでクラウドモデルを使用できますか?
はい。ContinueをOpenAI、Claude、またはGeminiで使用するように設定。また混合できます(高速ローカル、複雑コード用クラウド)。
ローカルコード補完はオフラインで機能しますか?
はい。Ollamaでモデルを取得した場合、補完は完全にオフライン機能。
関連情報
- ローカルLLM開発スタック -- IDE統合を超えたAPIサーバーと本番モニタリングを含む完全スタック。
- Ollama をインストール -- コード補完用 Ollama セットアップ。
- コーディング用の最高のローカル LLM -- 詳細なコーディングモデルベンチマーク。
- How to Install LM Studio -- どのツールを使用するか。
- ローカル LLM OpenAI 互換 API -- コード補完 API。
ソース
- Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
- Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
- Alibaba Qwen Team. (2025). "Qwen2.5-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen2.5-Coder variants.
- DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.