重要なポイント
- 2つの方法:Ollama(CLI、ヘッドレス、API対応)またはLM Studio(GUI、CLI不要)。どちらもQwen 3.6 27Bをローカルで実行できます。
- 重要な修正:Ollamaのデフォルトは`num_ctx 2048`です。Modelfileにて`num_ctx 32768`を設定してください。
- ハードウェア:最低16 GB VRAM(RTX 4080)。Apple Silicon M4 Pro(48 GB)またはM5 Max(128 GB)が推奨のローカル推論オプションです。
- GDPR/個人情報保護:ローカルで実行すると、データが一切外部サーバーに送信されません。SCCや第三者とのデータ処理契約は不要です。
- PromptQuorum統合:PromptQuorumのローカルディスパッチ設定で`OLLAMA_BASE_URL=http://localhost:11434/v1`と`LOCAL_LLM_MODEL=qwen3:27b`を設定します — Anthropic API設定とは別です。
2026年にQwenをローカルで実行する理由
2026年にQwen 3をローカルで実行するということは、HumanEvalで92.1%を達成するモデルに対してトークンあたり0円を支払うことを意味します — コーディングタスクではClaude Sonnet 4.6と同等以上の性能です。ハードウェアが償却された後は、すべてのプロンプトが無料です。1日あたり1,000万トークンを生成する5人の開発チームにとって、ローカル推論はClaude Sonnet 4.6 APIと比較して月額約12万円の節約になります。
GDPRおよび個人情報保護法への準拠が2番目の理由です。GDPRの第44条は第三国へのデータ移転を制限しています。EU内のハードウェアでQwenをローカルに実行すれば、プロンプト、コード、顧客データはインフラ内から一切出ません。米国や中国のプロバイダーとのデータ処理契約、Schrems IIリスク評価、AIレイヤーのデータ保護影響評価は不要です。経済産業省(METI)の「AIガバナンス2.0」でも、機密性の高いデータを扱うシステムにおけるデータ処理の透明性確保が推奨されています。
3番目の理由はレイテンシです。RTX 4090でのローカル推論は35トークン/秒以上を生成します — 短いプロンプトではAPIレスポンス時間と同等で、長い補完ではネットワーク往復のオーバーヘッドがありません。
📍 一文で説明
Qwen 3.6 27Bをローカルで実行すると、ハードウェア取得後はトークンあたりのコストが0円になり、すべてのデータが手元のインフラに保持され、RTX 4090で35トークン/秒以上を実現します。
💬 簡潔に説明
ローカルLLMとは、AIモデルが自分のコンピューター上で動作することを意味します。モデルファイル(Qwen 3.6 27Bの場合約17 GB)をダウンロードすると、入力したプロンプトはすべて自分のマシン上で処理されます — 外部サーバーには何も送信されません。
Qwenモデルの選択
Qwen 3は複数のサイズで提供されています。VRAMと必要な品質に基づいて選択してください。すべてのサイズはHugging Face(Qwen)およびOllamaで明示的なタグを使って利用できます。
| モデル | VRAM | トークン/秒(RTX 4090) | 推奨用途 |
|---|---|---|---|
| Qwen 3.6 27B Q4_K_M | 16 GB | ~35 | 本番コーディング、複雑なタスク |
| Qwen 3.6 27B Q8_0 | 28 GB | ~20 | 最高品質、デュアルGPU |
| Qwen 3 14B Q4_K_M | 9 GB | ~60 | 8〜12 GB VRAM、汎用タスク |
| Qwen 3 7B Q4_K_M | 5 GB | ~80 | 低VRAM、高速補完 |
| Qwen 3 72B Q4_K_M | 42 GB | — | 最高品質、Apple Silicon 96 GB+ |
Q4_K_Mはほとんどのユーザーにとってはおすすめの量子化です — 品質とサイズの最良のバランスを提供します。Q8_0はより高いVRAMコストでより高い品質を提供します。必ず明示的なタグ(qwen3:27b、qwen3ではなく)を使用して27Bモデルをダウンロードしてください。
ハードウェア要件
- 最小構成(Qwen 3.6 27B):16 GB VRAMのGPU — RTX 4080、RTX 4070 Ti Super、またはRTX 3090
- 推奨GPU:RTX 4090(24 GB VRAM)— Q4_K_MをQ4_K_Mで35トークン/秒、8 GBの余裕あり
- Apple Silicon M3/M4(現行):48 GB統合メモリ搭載のM3 MaxまたはM4 Pro — 静音、省電力、MLX経由で40トークン/秒以上
- Mac Mini M4 Pro(48 GB):¥228,800(Apple Japan)、コンパクトなフォームファクター、オフィス展開に最適なTCO
- Apple Silicon M5 Pro(64 GB):次世代、307 GB/sのメモリ帯域幅 — Qwen 3.6 27Bを推定50トークン/秒以上で実行。AppleはM4比4倍高速なLLMプロンプト処理を公表。
- Apple Silicon M5 Max(128 GB):460〜614 GB/sのメモリ帯域幅 — Qwen 3 72B Q4_K_Mを余裕を持って実行。2026年中頃のMac Studioに搭載予定;現行Mac MiniはM4 Pro搭載。
- RAM:GPU推論に加えて最低32 GBのシステムRAM;完全な開発環境では64 GB推奨
- ストレージ:Qwen 3.6 27B Q4_K_M用に20 GBの空きディスク容量(GGUFファイル約17 GB)
📌Note: Apple Siliconの統合メモリはCPUとGPUで共有されます。48 GBの統合メモリを搭載したMacは、OSや他のアプリケーション用の余裕を持ちながらQwen 3.6 27B Q4_K_Mを実行できます。これにより、単一のコンパクトなデバイスとして最も実用的なローカル推論オプションとなります。
💡Tip: M5 Max(128 GB)はQwen 3 72Bが本番速度で動作する初のApple Silicon構成です。非常に長いコンテキストを扱う場合や、規制の厳しいワークロードで最高品質が必要な場合、Mac Studio M5 Maxが単一デバイスの推奨構成です。
Ollamaでのセットアップ
OllamaはQwen 3をローカルで実行する最速の方法です。モデルのダウンロードを管理し、localhost:11434でOpenAI互換APIを提供し、量子化を自動処理します。ollama.comからインストールしてください。
- 1Ollamaをインストールする
Why it matters: Ollamaはモデルのダウンロード、GGUFフォーマット、OpenAI互換のローカルAPIを管理します。 - 2明示的なタグでQwen 3.6 27Bを取得する
Why it matters: qwen3:27bを明示的に使用してください。タグなしの`qwen3`はデフォルトで8Bモデルをダウンロードします — このガイドで対象としている27Bモデルではありません。 - 3正しいコンテキスト長でModelfileを作成する
Why it matters: デフォルトのnum_ctx 2048トークンは実際のコーディングタスクには小さすぎます。32768トークンでほとんどのファイルと会話を処理できます。 - 4カスタムモデルをビルドして実行する
Why it matters: 拡張されたコンテキストウィンドウを持つQwen 3.6 27Bインスタンスを作成します。テストプロンプトで確認してください。 - 5APIエンドポイントをテストする
Why it matters: OllamaはlocalHost:11434/v1でOpenAI互換APIを公開します。このエンドポイントを使用してLLMクライアント、IDE、PromptQuorumを接続します。
# Step 1 — Install Ollama
# macOS
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows — download from https://ollama.com/download
# Step 2 — Pull Qwen 3.6 27B (explicit tag required)
ollama pull qwen3:27b
# Downloads Qwen 3.6 27B Q4_K_M (~17 GB)
# Note: 'ollama pull qwen3' without a tag downloads the 8B model
# Step 3 — Create Modelfile with correct num_ctx
cat > Modelfile <<'EOF'
FROM qwen3:27b
PARAMETER num_ctx 32768
PARAMETER temperature 0.7
EOF
# Step 4 — Build and run
ollama create qwen3-32k -f Modelfile
ollama run qwen3-32k
# Expected output (Qwen working correctly):
# >>> Write a Python function to reverse a string.
# def reverse_string(s: str) -> str:
# return s[::-1]
#
# This function takes a string s as input and returns the reversed
# string using Python slice notation with step -1.
# Step 5 — Test API
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3-32k",
"messages": [{"role": "user", "content": "Write a Python function to reverse a string."}]
}'⚠️Warning: ステップ3をスキップしないでください。Ollamaのデフォルトnum_ctxは2048トークン — 約1500語です。ほとんどのコーディングタスク(ファイルの読み込み、関数の説明、テストの作成)には8000〜32000トークンのコンテキストが必要です。この修正なしでは、Qwenはプロンプトを黙って切り捨て、品質の低い出力を生成します。
LM Studioでのセットアップ
LM StudioはCLIコマンドなしでローカルLLMを実行するGUIを提供します。非技術系ユーザーやWindowsセットアップに推奨されるパスです。lmstudio.aiからダウンロードしてください。
- 1LM Studioをダウンロードしてインストールする
Why it matters: ローカルLLM推論用の無料クロスプラットフォームGUI。CLIは不要です。 - 2Qwen 3 27Bを検索してダウンロードする
Why it matters: LM StudioのモデルブラウザはHugging Faceを検索します。「Qwen 3 27B」を検索し、16 GB VRAM用のQ4_K_M GGUFバリアントを選択してください。 - 3LM Studio設定でコンテキスト長を設定する
Why it matters: Ollamaと同じnum_ctxの問題 — モデルを読み込む前にモデルパラメーターでコンテキスト長を32768に変更してください。 - 4ローカルサーバーを起動する
Why it matters: LM Studioの「サーバーを起動」でlocalhost:1234にOpenAI互換APIが作成されます。このURLをクライアントとPromptQuorumで使用してください。
// LM Studio local server config (exported JSON)
{
"model": "qwen3-27b-q4_k_m",
"server": {
"host": "localhost",
"port": 1234,
"cors": true
},
"inference": {
"context_length": 32768,
"temperature": 0.7,
"gpu_layers": -1
}
}PromptQuorumへの接続
PromptQuorumは複数のLLMにプロンプトをルーティングします。ローカルQwenインスタンスをディスパッチターゲットとして使用するには、PromptQuorumのローカルLLMエンドポイントをOllamaサーバーに向けるよう設定します。
これはOllamaエンドポイント(OpenAI互換)であり、Claude用のAnthropic API設定とは別です。両方を同時にアクティブにでき、PromptQuorumはタスクの種類とデータの機密性に基づいてルーティングします。
📍 一文で説明
ローカルディスパッチ設定でOLLAMA_BASE_URLをhttp://localhost:11434/v1に、LOCAL_LLM_MODELをqwen3:27bに設定することで、PromptQuorumをローカルQwenに接続できます。
# PromptQuorum dispatch config — local Qwen via Ollama
# Set in your .env or PromptQuorum settings panel
OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_LLM_MODEL=qwen3:27b
# Example routing rules (PromptQuorum dispatch):
# - task_type: code → model: qwen3:27b (local Ollama, GDPR-safe)
# - task_type: analysis → model: claude-sonnet-4-6 (Anthropic API, separate config)
# - task_type: private → model: qwen3:27b (local Ollama, no cloud egress)トラブルシューティング
- モデルの応答が途中で切れる:num_ctxが低すぎます。`PARAMETER num_ctx 32768`でModelfileを再作成し、`ollama create`でモデルを再ビルドしてください。
- CUDAメモリ不足エラー:モデルがVRAMに収まりません。Qwen 3 14B Q4_K_M(〜9 GB VRAM)に切り替えるか、27BのQ3_K_S量子化を試してください。
- Ollama APIが404を返す:モデル名が正確に一致しているか確認してください。`ollama list`を実行して利用可能なモデルを確認し、表示された正確な名前を使用してください(例:`qwen3-32k`)。
- 生成が遅い(5トークン/秒未満):GPUレイヤーが完全にオフロードされていません。`ollama run qwen3-32k`を実行し、`num_gpu_layers`が最大化されているか確認してください。他のGPU負荷の高いプロセスが実行されていないことを確認してください。
- LM Studioが「モデルの読み込みに失敗」と表示:VRAMが不足しています。Q4_K_Mのコンテキスト長を16384に削減するか、Qwen 3 14Bに切り替えてください。
- PromptQuorumが認証エラーを返す:PromptQuorumのローカルLLM設定で`OLLAMA_BASE_URL=http://localhost:11434/v1`を設定してください。フォームがキーを要求する場合、任意の空でない文字列を入力してください — OllamaはAPIキー認証を必要としません。
- OllamaがGPUの代わりにCPUを使用する:NVIDIAの場合:CUDAドライバーがインストールされているか確認してください(`nvidia-smi`でGPUが表示されるはず)。Macの場合:OllamaはMetalを自動的に使用します — 設定は不要です。Metalが有効でない場合、ollama.comからOllamaを再インストールしてください。
- モデルのダウンロードが停止または失敗する:大きなモデル(Qwen 3.6 27B 〜17 GB)は遅い接続でタイムアウトする場合があります。`ollama pull qwen3:27b`を再実行してください — Ollamaは中断した場所から再開します。または、Hugging Faceから直接GGUFをダウンロードし、ModelfileのFROM句でローカルパスを使用して`ollama create`を実行してください。
💡Tip: `ollama ps`を実行して、現在VRAMに読み込まれているモデルとそれぞれのメモリ消費量を確認してください。より大きなモデルに切り替える前に`ollama stop qwen3-32k`でモデルをアンロードしてください。
電力消費とTCO
ハードウェアコストは一度きりの投資です。電気代が継続的なコストです。適切なハードウェアの選択は、電気代、使用時間、および場所によって異なります — 日本では2026年に電気代は平均約40円/kWh(家庭用電力)です。
RTX 4090システムは推論負荷下で約450 Wを消費します。1日8時間、日本の電気料金で稼働した場合:0.45 kW × 8時間 × 40円 × 250営業日 = 年間36,000円の電気代。ハードウェアは完全なシステムで約35万円です。
Mac StudioのApple Silicon M5 MaxはLLM推論負荷下で約40〜50 Wを消費します。同じシナリオ:0.05 kW × 8時間 × 40円 × 250日 = 年間4,000円の電気代。ハードウェアは128 GB搭載Mac Studio M5 Maxで約60万円(発売予定)です。
Claude Sonnet 4.6 APIを1日1,000万トークン使用する開発者1人との比較:1,000万トークン × $3/100万 × 250日 = 年間7,500ドル(Anthropicへの支払いはUSD建て)。
| オプション | ハードウェア | 電気代/年(日本) | API費用/年(1日1000万tok) | 回収期間 |
|---|---|---|---|---|
| Claude Sonnet 4.6 API | — | — | $7,500 | — |
| RTX 4090システム + ローカルQwen | 〜¥350,000 | ¥36,000 | ¥0 | 〜4ヶ月(Claude比) |
| Mac Mini M4 Pro(48 GB) | ¥228,800 | ¥2,900 | ¥0 | 〜3ヶ月(Claude比) |
| Mac Studio M5 Max(128 GB) | 〜¥600,000 | ¥4,000 | ¥0 | 〜6ヶ月(Claude比) |
•Important: 日本市場では、Mac Mini M4 Pro(48 GB)が最良のTCOを提供します:最低限のハードウェアと電気代の組み合わせ、設計上のプライバシー準拠、静音オフィス環境での稼働。Qwen 3 72Bの品質が必要なチームにはMac Studio M5 Maxがアップグレードパスです。
よくある質問
Qwen 3をローカルで実行するための最小ハードウェアは?
Q4_K_M量子化のQwen 3.6 27Bの場合:16 GB VRAM(RTX 4080またはRTX 3090)。Apple Siliconの場合:36 GB統合メモリのM3 Proまたは48 GBのM3 Max。小さいQwen 3 14Bの場合:9 GB VRAM(RTX 3080またはRTX 4070)。Qwen 3 7Bは5 GB VRAM(GTX 1080以上)で動作します。
なぜOllamaがプロンプトを切り捨てるのですか?
Ollamaはデフォルトでnum_ctx 2048トークン(約1500語)を使用します。これはほとんどの実際のコーディングタスクには小さすぎます。Modelfileでnum_ctxを少なくとも32768に設定する必要があります。`PARAMETER num_ctx 32768`でModelfileを作成し、`ollama create qwen3-32k -f Modelfile`を実行して正しいコンテキストウィンドウを持つモデルインスタンスを作成してください。
Qwenをローカルで実行することはGDPRに準拠していますか?
はい — ローカル推論は最もGDPRに準拠したAIアーキテクチャです。QwenがハードウェアP上で実行される場合、データは第三者に転送されません。データ転送がないため、GDPR第44条の国際データ転送制限は適用されません。内部のデータ処理契約は適用されますが、AIレイヤーにはSCCや十分性認定は必要ありません。
Qwen 3はCPUのみで実行できますか?
はい、GPUなしのシステムでllama.cppまたはOllamaを使用して実行できます。CPU推論は大幅に遅くなります — Qwen 3.6 27Bの場合、現代のCPUで通常1〜5トークン/秒です。本番用途にはGPUまたはApple Siliconが必要です。専用GPUのないラップトップでの時々の使用やテストにはCPU推論は機能しますが、リアルタイムの会話には実用的ではありません。
Qwenを最新バージョンに更新するには?
`ollama pull qwen3:27b`を再実行してください。Ollamaは新しいバージョンが利用可能かどうかを確認し、変更されたレイヤーのみをダウンロードします。Modelfileを再作成する必要はありません — モデルタグ(qwen3:27b)は常に最新の27Bリリースを指します。LM Studioではモデルライブラリのアップデートを確認し、新しいGGUFバージョンが利用可能であれば再ダウンロードしてください。