PromptQuorumPromptQuorum
ホーム/ローカルLLM/VS CodeとCursorでローカルLLMを使用する:セットアップとベストプラクティス
Tools & Interfaces

VS CodeとCursorでローカルLLMを使用する:セットアップとベストプラクティス

·10分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

VS CodeとCursor(AI-firstコードエディタ)の両方は、Continue.dev拡張機能(VS Code)または直接統合(Cursor)を介して、ローカルLLMをコード補完と提案に使用できます。2026年4月現在、ローカルコード補完は7B〜13Bモデルに実用的で、8〜16 GBのRAMが必要です。このガイドではセットアップ、最適なモデル、パフォーマンスチューニングをカバーしています。

重要なポイント

  • VS CodeはContinue.dev拡張機能を使用してローカルモデル(Ollama、LM Studio、vLLM)に接続します。
  • Cursorはビルトインのローカルモデルサポート付きのVS Codeフォークです。拡張機能は不要です。
  • コードの最高のローカルモデル:Qwen2.5-Coder 7B、Llama Code 13B、またはMistral 7B。
  • 7Bモデルを使用したコンシューマーGPUで2〜5秒の補完レイテンシを予想してください。
  • 2026年4月現在、ローカルコード補完は個人使用に実用的ですが、チーム向けはまだ本番レベルではありません。

VS CodeでContinue.devをセットアップするにはどうすればよいですか?

Continue.devはローカルおよびクラウドコード補完用のVS Code拡張機能です。

json
# 1. VS Code Marketplaceからcontinueをインストール
# 「Continue」を検索してインストールをクリック

# 2. Ollamaが実行されていることを確認
ollama serve

# 3. Continue設定を開く(Ctrl+Shift+P → Continue:設定を開く)
# config.jsonが開きます

# 4. ローカルモデルのために設定:
# デフォルト設定を以下で置き換え:
{
  "models": [{
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b",
    "apiBase": "http://localhost:11434"
  }],
  "tabAutocompleteModel": {
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

# 5. コード入力を開始し、Tabキーで補完
# または Ctrl+Shift+\ 補完を手動トリガー

Cursorでローカルモデルを使用するにはどうすればよいですか?

CursorはAIアシスト型コーディング向けに最適化されたVS Codeフォークです。 Ollamaを介したローカルモデルのビルトインサポートを備えています。

bash
# 1. cursor.shからCursorダウンロード
# 2. Ollamaが実行されていることを確認
ollama serve

# 3. Cursor設定を開く(Cmd/Ctrl + ,)
# 4. 「Model」を検索して設定:
#    - Model Provider: "Ollama"
#    - Model: "qwen2.5-coder:7b" (または選択)
#    - API Base: "http://localhost:11434"

# 5. コード入力し、インライン補完にTab
# 6. 複数行補完にCtrl+K

コードに最適なモデルはどれですか?

⚠️ VRAM規則:モデルが必要とするVRAMより2〜3 GB多い空きVRAMを常に持つ。Q4のときの7Bモデル(4.7 GB)はVS CodeまたはCursorで実行するときに合計8 GBのVRAMを必要とします。

モデルHumanEvalVRAM速度最適:
Qwen2.5-Coder 7B72%4.7 GB速い最高のバランス、最速
Llama Code 7B69%4.7 GB速い一般的なコーディング
Mistral 7B61%4.5 GB非常に速い軽量、EUサーバー
Llama Code 13B74%8.5 GB中程度16GBマシンで品質向上
DeepSeek-Coder 6.7B68%4 GB速い軽量代替案

どのレイテンシとVRAMを期待すべきですか?

補完レイテンシ(最初のトークンまでの時間)はIDE体験に不可欠です。 2026年4月現在、ここに典型的な数値があります:

⚠️ レイテンシ現実チェック:ローカル補完はクラウドより2〜10倍遅い。プライベート作業にはローカルを使用し、時間に敏感なコーディングにはクラウド(Copilot、Claude)を使用。

💡 パフォーマンスチューニング:`contextLength`を2048から1024トークンに減らしてレイテンシを半分にします。トレード:提案のコンテキストコード行が少なくなる。

ハードウェアモデルレイテンシスループット
RTX 4090 GPUQwen2.5-Coder 7B0.3-0.5秒150トークン/秒
RTX 4070 GPUQwen2.5-Coder 7B0.8-1.5秒80トークン/秒
M3 MacBook ProQwen2.5-Coder 7B2-3秒20トークン/秒
8コアCPUのみQwen2.5-Coder 7B5-10秒3トークン/秒

パフォーマンスデータに関する注記:Qwen2.5-Coder 7B Q4_K_Mフォーマット、バッチサイズ = 1、新規システム(バックグラウンドタスクなし)で測定されたレイテンシとスループット。実際のパフォーマンスはOS、VRAM可用性、量子化形式、および同時負荷に依存します。

パフォーマンスのためにコード補完を設定するにはどうすればよいですか?

これらの設定で体験を微調整:

⚠️ 警告:8GBマシンの13Bモデルでは、補完に5〜10秒かかり、IDEが反応しなくなる可能性があります。スムーズなパフォーマンスのために7Bモデルを使用。

💡 プロのヒント:`debounceWaitMs`を400〜500 msに増やしてちらつきを減らし、不完全な提案を避ける。

json
# config.json高度な設定
{
  "tabAutocompleteModel": {
    "contextLength": 2048,     # 送信するコードコンテキスト
    "maxTokens": 50            # 補完あたりの最大トークン
  },
  "completionOptions": {
    "maxContextTokens": 1024,
    "maxSuggestionsCount": 5,
    "debounceWaitMs": 200      # 表示前待機(ms)
  },
  # より高速な推論のために小さいコンテキスト:
  "models": [{
    "contextLength": 1024      # 小さいコンテキスト = 高速
  }]
}

# 8GBマシンの最高速度:
# - 7Bモデル使用(13Bでなく)
# - maxTokensを30に設定
# - debounceWaitMsを500に設定(ちらつき少なく)

ローカルコード補完セットアップで何が一般的な間違いですか?

  • Debounceレイテンシを調整しない:補完が「遅い」と感じたら、debounceWaitMsを増やす(例えば400 ms)して不完全な提案を表示しない。
  • VRAMに対して大きすぎるモデルを使用:13Bモデル+エディタオーバーヘッドは12+ GB使用できる。8GBマシンでは7Bモデルを使用。
  • クラウドレベルのコード品質を期待:GPT-4oはどの7Bモデルよりもコードで大幅に優れている。ローカル補完はクラウド品質の70〜80%。
  • CPUで推論を実行:CPU補完は非実用的(5〜10秒レイテンシ)。GPUは有用な補完に必要。

FAQ:ローカルコード補完

ローカルコード補完はクラウドより速いですか?

いいえ。クラウド補完(GitHub Copilot)は最適化されたサーバーで速いです。ローカル補完はレイテンシが高いですがゼロコストとゼロプライバシーリスク。

他のIDE(PyCharm、Neovim)でローカル補完を使用できますか?

はい、しかしセットアップは異なる。PyCharmはOllamaプラグインを持つ。Neovimの場合、cmp-ollama(補完プラグイン)を使用。常にIDE コミュニティ統合をチェック。

ContinueまたはCursorでクラウドモデルを使用できますか?

はい。ContinueをOpenAI、Claude、またはGeminiで使用するように設定。また混合できます(高速ローカル、複雑コード用クラウド)。

ローカルコード補完はオフラインで機能しますか?

はい。Ollamaでモデルを取得した場合、補完は完全にオフライン機能。

関連情報

ソース

  • Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
  • Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
  • Alibaba Qwen Team. (2025). "Qwen2.5-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen2.5-Coder variants.
  • DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

PromptQuorumで、ローカルLLMを25以上のクラウドモデルと同時に比較しましょう。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る

VS CodeとCursorでローカルLLMコード補完ガイド:セットアップ 2026 | PromptQuorum