Skip to main content
PromptQuorumPromptQuorum
ホーム/ローカルLLM/VS CodeとCursorでローカルLLMを使用する:セットアップとベストプラクティス
Tools & Interfaces

VS CodeとCursorでローカルLLMを使用する:セットアップとベストプラクティス

·10分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

VS CodeとCursor(AI-firstコードエディタ)の両方は、Continue.dev拡張機能(VS Code)または直接統合(Cursor)を介して、ローカルLLMをコード補完と提案に使用できます。2026年4月現在、ローカルコード補完は7B〜13Bモデルに実用的で、8〜16 GBのRAMが必要です。このガイドではセットアップ、最適なモデル、パフォーマンスチューニングをカバーしています。

重要なポイント

  • VS CodeはContinue.dev拡張機能を使用してローカルモデル(Ollama、LM Studio、vLLM)に接続します。
  • Cursorはビルトインのローカルモデルサポート付きのVS Codeフォークです。拡張機能は不要です。
  • コードの最高のローカルモデル:Qwen3-Coder 7B、Llama Code 13B、またはMistral Small。
  • 7Bモデルを使用したコンシューマーGPUで2〜5秒の補完レイテンシを予想してください。
  • 2026年4月現在、ローカルコード補完は個人使用に実用的ですが、チーム向けはまだ本番レベルではありません。

VS CodeでContinue.devをセットアップするにはどうすればよいですか?

Continue.devはローカルおよびクラウドコード補完用のVS Code拡張機能です。

json
# 1. VS Code Marketplaceからcontinueをインストール
# 「Continue」を検索してインストールをクリック

# 2. Ollamaが実行されていることを確認
ollama serve

# 3. Continue設定を開く(Ctrl+Shift+P → Continue:設定を開く)
# config.jsonが開きます

# 4. ローカルモデルのために設定:
# デフォルト設定を以下で置き換え:
{
  "models": [{
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b",
    "apiBase": "http://localhost:11434"
  }],
  "tabAutocompleteModel": {
    "title": "Ollama",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b"
  }
}

# 5. コード入力を開始し、Tabキーで補完
# または Ctrl+Shift+\ 補完を手動トリガー

Cursorでローカルモデルを使用するにはどうすればよいですか?

CursorはAIアシスト型コーディング向けに最適化されたVS Codeフォークです。 Ollamaを介したローカルモデルのビルトインサポートを備えています。

bash
# 1. cursor.shからCursorダウンロード
# 2. Ollamaが実行されていることを確認
ollama serve

# 3. Cursor設定を開く(Cmd/Ctrl + ,)
# 4. 「Model」を検索して設定:
#    - Model Provider: "Ollama"
#    - Model: "qwen2.5-coder:7b" (または選択)
#    - API Base: "http://localhost:11434"

# 5. コード入力し、インライン補完にTab
# 6. 複数行補完にCtrl+K

コードに最適なモデルはどれですか?

⚠️ VRAM規則:モデルが必要とするVRAMより2〜3 GB多い空きVRAMを常に持つ。Q4のときの7Bモデル(4.7 GB)はVS CodeまたはCursorで実行するときに合計8 GBのVRAMを必要とします。

モデルHumanEvalVRAM速度最適:
Qwen3-Coder 7B72%4.7 GB速い最高のバランス、最速
Llama Code 7B69%4.7 GB速い一般的なコーディング
Mistral Small61%4.5 GB非常に速い軽量、EUサーバー
Llama Code 13B74%8.5 GB中程度16GBマシンで品質向上
DeepSeek-Coder 6.7B68%4 GB速い軽量代替案

どのレイテンシとVRAMを期待すべきですか?

補完レイテンシ(最初のトークンまでの時間)はIDE体験に不可欠です。 2026年4月現在、ここに典型的な数値があります:

⚠️ レイテンシ現実チェック:ローカル補完はクラウドより2〜10倍遅い。プライベート作業にはローカルを使用し、時間に敏感なコーディングにはクラウド(Copilot、Claude)を使用。

💡 パフォーマンスチューニング:`contextLength`を2048から1024トークンに減らしてレイテンシを半分にします。トレード:提案のコンテキストコード行が少なくなる。

ハードウェアモデルレイテンシスループット
RTX 4090 GPUQwen3-Coder 7B0.3-0.5秒150トークン/秒
RTX 4070 GPUQwen3-Coder 7B0.8-1.5秒80トークン/秒
M3 MacBook ProQwen3-Coder 7B2-3秒20トークン/秒
8コアCPUのみQwen3-Coder 7B5-10秒3トークン/秒

パフォーマンスデータに関する注記:Qwen3-Coder 7B Q4_K_Mフォーマット、バッチサイズ = 1、新規システム(バックグラウンドタスクなし)で測定されたレイテンシとスループット。実際のパフォーマンスはOS、VRAM可用性、量子化形式、および同時負荷に依存します。

パフォーマンスのためにコード補完を設定するにはどうすればよいですか?

これらの設定で体験を微調整:

⚠️ 警告:8GBマシンの13Bモデルでは、補完に5〜10秒かかり、IDEが反応しなくなる可能性があります。スムーズなパフォーマンスのために7Bモデルを使用。

💡 プロのヒント:`debounceWaitMs`を400〜500 msに増やしてちらつきを減らし、不完全な提案を避ける。

json
# config.json高度な設定
{
  "tabAutocompleteModel": {
    "contextLength": 2048,     # 送信するコードコンテキスト
    "maxTokens": 50            # 補完あたりの最大トークン
  },
  "completionOptions": {
    "maxContextTokens": 1024,
    "maxSuggestionsCount": 5,
    "debounceWaitMs": 200      # 表示前待機(ms)
  },
  # より高速な推論のために小さいコンテキスト:
  "models": [{
    "contextLength": 1024      # 小さいコンテキスト = 高速
  }]
}

# 8GBマシンの最高速度:
# - 7Bモデル使用(13Bでなく)
# - maxTokensを30に設定
# - debounceWaitMsを500に設定(ちらつき少なく)

ローカルコード補完セットアップで何が一般的な間違いですか?

  • Debounceレイテンシを調整しない:補完が「遅い」と感じたら、debounceWaitMsを増やす(例えば400 ms)して不完全な提案を表示しない。
  • VRAMに対して大きすぎるモデルを使用:13Bモデル+エディタオーバーヘッドは12+ GB使用できる。8GBマシンでは7Bモデルを使用。
  • クラウドレベルのコード品質を期待:GPT-5.5はどの7Bモデルよりもコードで大幅に優れている。ローカル補完はクラウド品質の70〜80%。
  • CPUで推論を実行:CPU補完は非実用的(5〜10秒レイテンシ)。GPUは有用な補完に必要。

FAQ:ローカルコード補完

ローカルコード補完はクラウドより速いですか?

いいえ。クラウド補完(GitHub Copilot)は最適化されたサーバーで速いです。ローカル補完はレイテンシが高いですがゼロコストとゼロプライバシーリスク。

他のIDE(PyCharm、Neovim)でローカル補完を使用できますか?

はい、しかしセットアップは異なる。PyCharmはOllamaプラグインを持つ。Neovimの場合、cmp-ollama(補完プラグイン)を使用。常にIDE コミュニティ統合をチェック。

ContinueまたはCursorでクラウドモデルを使用できますか?

はい。ContinueをOpenAI、Claude、またはGeminiで使用するように設定。また混合できます(高速ローカル、複雑コード用クラウド)。

ローカルコード補完はオフラインで機能しますか?

はい。Ollamaでモデルを取得した場合、補完は完全にオフライン機能。

日本人開発者のためのローカルLLMコード補完:Cursor vs Continue.dev

GSCデータによると「cursor ローカルllm」というクエリは8.7% CTRを記録しており、日本の開発者コミュニティがこのトピックを積極的に検索しています。ZennとQiitaには日本語の詳細セットアップ記事が多数あり、Continue.devとOllamaの組み合わせが特に人気です。

VS Code自体は日本語UIに完全対応(Japanese Language Packプラグイン)。Cursor IDEも日本語UIをサポートしています。ローカルLLMとの組み合わせで、日本語コメント・日本語変数名を含むコードへの補完精度が高まります。

  • Zenn/Qiitaの日本語セットアップ記事: 「Continue.dev Ollama 設定」「Cursor ローカル LLM」などで検索すると実践的な記事が多数ヒット。Zenn(zenn.dev)は技術記事品質が高く、GitHub連携で更新管理されている点が特徴。
  • 日本語コード用推奨モデル: Qwen3-Coder-7B(日本語コメント・文書化に強い)、DeepSeek Coder V2(英語中心だが日本語コンテキストも理解)。日本語変数名やコメントを含むプロジェクトではQwen3-Coderが優位。
  • Continue.dev 日本語設定: `~/.continue/config.json`のシステムプロンプトに「日本語でコメントを生成してください」と追加すると日本語コード補完の品質が向上。
  • Apple Silicon優位性(日本市場): 日本はMacBook M系列の普及率が高い。MLX経由でのコード補完はOllama比で1.5-2倍速い(M2 Pro基準)。ただしContinue.devとの直接MLX統合は未対応 — Ollama経由が現実的。
  • 日本語コミュニティ・Discordサーバー: 「AI開発者JP」「Ollama日本語ユーザー会」などのDiscordサーバーでローカルLLMセットアップの日本語サポートが得られる。

関連情報

ソース

  • Continue.dev Team. (2026). "Continue Documentation." https://docs.continue.dev/ -- Official setup guide, config.json reference, and local model integration instructions.
  • Cursor. (2026). "Cursor Documentation." https://docs.cursor.com/ -- Local model configuration, Ollama integration, and inference setup guide.
  • Alibaba Qwen Team. (2025). "Qwen3-Coder Technical Report." arXiv:2409.12186. https://arxiv.org/abs/2409.12186 -- HumanEval and code generation benchmarks for Qwen3-Coder variants.
  • DeepSeek-AI. (2024). "DeepSeek-Coder Technical Paper." arXiv:2401.14196. https://arxiv.org/abs/2401.14196 -- Benchmark data and capability analysis for DeepSeek-Coder family.

サードパーティの情報に関する注意

この記事はサードパーティのAIモデル、ベンチマーク、価格、ライセンスを参照しています。AIの状況は急速に変化しています。ベンチマークスコア、ライセンス条件、モデル名、API価格は執筆時とお読みになる時の間で変わる可能性があります。この記事に基づいてデプロイやコンプライアンスに関する決定を下す前に、各プロバイダーの公式ソース(ライセンスとベンチマークはHugging Faceのモデルカード、API価格はプロバイダーのウェブサイト、現在のGDPRとEU AI法のテキストはEUR-Lex)で最新の数値を確認してください。この記事は2026年5月時点で公開されている情報を反映しています。

ローカルLLM、独自のAPIキー、またはその両方でPromptQuorumを使用できます — バックエンドはあなたが選択します。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る