VS CodeとCursor（AI-firstコードエディタ）の両方は、Continue.dev拡張機能（VS Code）または直接統合（Cursor）を介して、ローカルLLMをコード補完と提案に使用できます。2026年4月現在、ローカルコード補完は7B〜13Bモデルに実用的で、8〜16 GBのRAMが必要です。このガイドではセットアップ、最適なモデル、パフォーマンスチューニングをカバーしています。

重要なポイント

VS CodeはContinue.dev拡張機能を使用してローカルモデル（Ollama、LM Studio、vLLM）に接続します。
Cursorはビルトインのローカルモデルサポート付きのVS Codeフォークです。拡張機能は不要です。
コードの最高のローカルモデル：Qwen2.5-Coder 7B、Llama Code 13B、またはMistral 7B。
7Bモデルを使用したコンシューマーGPUで2〜5秒の補完レイテンシを予想してください。
2026年4月現在、ローカルコード補完は個人使用に実用的ですが、チーム向けはまだ本番レベルではありません。

VS CodeでContinue.devをセットアップするにはどうすればよいですか？

Continue.devはローカルおよびクラウドコード補完用のVS Code拡張機能です。

json

# 1. VS Code Marketplaceからcontinueをインストール
# 「Continue」を検索してインストールをクリック

# 2. Ollamaが実行されていることを確認
ollama serve

# 3. Continue設定を開く（Ctrl+Shift+P → Continue：設定を開く）
# config.jsonが開きます

# 4. ローカルモデルのために設定：
# デフォルト設定を以下で置き換え：
{
  "models": [{
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b",
    "apiBase": "http://localhost:11434"
  }],
  "tabAutocompleteModel": {
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

# 5. コード入力を開始し、Tabキーで補完
# または Ctrl+Shift+\ 補完を手動トリガー

Cursorでローカルモデルを使用するにはどうすればよいですか？

CursorはAIアシスト型コーディング向けに最適化されたVS Codeフォークです。 Ollamaを介したローカルモデルのビルトインサポートを備えています。

bash

# 1. cursor.shからCursorダウンロード
# 2. Ollamaが実行されていることを確認
ollama serve

# 3. Cursor設定を開く（Cmd/Ctrl + ,）
# 4. 「Model」を検索して設定：
#    - Model Provider: "Ollama"
#    - Model: "qwen2.5-coder:7b" （または選択）
#    - API Base: "http://localhost:11434"

# 5. コード入力し、インライン補完にTab
# 6. 複数行補完にCtrl+K

コードに最適なモデルはどれですか？

⚠️ VRAM規則：モデルが必要とするVRAMより2〜3 GB多い空きVRAMを常に持つ。Q4のときの7Bモデル（4.7 GB）はVS CodeまたはCursorで実行するときに合計8 GBのVRAMを必要とします。

モデル	HumanEval	VRAM	速度	最適：
Qwen2.5-Coder 7B	72%	4.7 GB	速い	最高のバランス、最速
Llama Code 7B	69%	4.7 GB	速い	一般的なコーディング
Mistral 7B	61%	4.5 GB	非常に速い	軽量、EUサーバー
Llama Code 13B	74%	8.5 GB	中程度	16GBマシンで品質向上
DeepSeek-Coder 6.7B	68%	4 GB	速い	軽量代替案

どのレイテンシとVRAMを期待すべきですか？

補完レイテンシ（最初のトークンまでの時間）はIDE体験に不可欠です。 2026年4月現在、ここに典型的な数値があります：

⚠️ レイテンシ現実チェック：ローカル補完はクラウドより2〜10倍遅い。プライベート作業にはローカルを使用し、時間に敏感なコーディングにはクラウド（Copilot、Claude）を使用。

💡 パフォーマンスチューニング：`contextLength`を2048から1024トークンに減らしてレイテンシを半分にします。トレード：提案のコンテキストコード行が少なくなる。

ハードウェア	モデル	レイテンシ	スループット
RTX 4090 GPU	Qwen2.5-Coder 7B	0.3-0.5秒	150トークン/秒
RTX 4070 GPU	Qwen2.5-Coder 7B	0.8-1.5秒	80トークン/秒
M3 MacBook Pro	Qwen2.5-Coder 7B	2-3秒	20トークン/秒
8コアCPUのみ	Qwen2.5-Coder 7B	5-10秒	3トークン/秒

パフォーマンスデータに関する注記：Qwen2.5-Coder 7B Q4_K_Mフォーマット、バッチサイズ = 1、新規システム（バックグラウンドタスクなし）で測定されたレイテンシとスループット。実際のパフォーマンスはOS、VRAM可用性、量子化形式、および同時負荷に依存します。

パフォーマンスのためにコード補完を設定するにはどうすればよいですか？

これらの設定で体験を微調整：

⚠️ 警告：8GBマシンの13Bモデルでは、補完に5〜10秒かかり、IDEが反応しなくなる可能性があります。スムーズなパフォーマンスのために7Bモデルを使用。

💡 プロのヒント：`debounceWaitMs`を400〜500 msに増やしてちらつきを減らし、不完全な提案を避ける。

json

# config.json高度な設定
{
  "tabAutocompleteModel": {
    "contextLength": 2048,     # 送信するコードコンテキスト
    "maxTokens": 50            # 補完あたりの最大トークン
  },
  "completionOptions": {
    "maxContextTokens": 1024,
    "maxSuggestionsCount": 5,
    "debounceWaitMs": 200      # 表示前待機（ms）
  },
  # より高速な推論のために小さいコンテキスト：
  "models": [{
    "contextLength": 1024      # 小さいコンテキスト = 高速
  }]
}

# 8GBマシンの最高速度：
# - 7Bモデル使用（13Bでなく）
# - maxTokensを30に設定
# - debounceWaitMsを500に設定（ちらつき少なく）

ローカルコード補完セットアップで何が一般的な間違いですか？

Debounceレイテンシを調整しない：補完が「遅い」と感じたら、debounceWaitMsを増やす（例えば400 ms）して不完全な提案を表示しない。
VRAMに対して大きすぎるモデルを使用：13Bモデル+エディタオーバーヘッドは12+ GB使用できる。8GBマシンでは7Bモデルを使用。
クラウドレベルのコード品質を期待：GPT-4oはどの7Bモデルよりもコードで大幅に優れている。ローカル補完はクラウド品質の70〜80%。
CPUで推論を実行：CPU補完は非実用的（5〜10秒レイテンシ）。GPUは有用な補完に必要。

FAQ：ローカルコード補完

ローカルコード補完はクラウドより速いですか？

いいえ。クラウド補完（GitHub Copilot）は最適化されたサーバーで速いです。ローカル補完はレイテンシが高いですがゼロコストとゼロプライバシーリスク。

他のIDE（PyCharm、Neovim）でローカル補完を使用できますか？

はい、しかしセットアップは異なる。PyCharmはOllamaプラグインを持つ。Neovimの場合、cmp-ollama（補完プラグイン）を使用。常にIDE コミュニティ統合をチェック。

ContinueまたはCursorでクラウドモデルを使用できますか？

はい。ContinueをOpenAI、Claude、またはGeminiで使用するように設定。また混合できます（高速ローカル、複雑コード用クラウド）。

ローカルコード補完はオフラインで機能しますか？

はい。Ollamaでモデルを取得した場合、補完は完全にオフライン機能。

ソース

Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
Alibaba Qwen Team. (2025). "Qwen2.5-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen2.5-Coder variants.
DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.

VS CodeとCursorでローカルLLMを使用する：セットアップとベストプラクティス