Skip to main content
PromptQuorumPromptQuorum
ホーム/ローカルLLM/Qwenローカルデプロイガイド2026:Qwen2.5・Coder・VLを全ハードウェア階層で動かす
Qwen Models

Qwenローカルデプロイガイド2026:Qwen2.5・Coder・VLを全ハードウェア階層で動かす

·14分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

Qwen2.5 7Bをローカルで動かすには、Ollamaをインストールして`ollama pull qwen2.5:7b`を実行するだけです。VRAM 5.5GB、RTX 3060で57トークン/秒が得られます。 コーディング用途にはQwen2.5-Coderを、中国語・日本語ドキュメントOCRにはQwen2-VLを使用してください。

Qwen2.5 7BはOllamaを使えばVRAM 5.5GBで動作します。コマンドは1つだけ、設定不要です。Qwen2.5-Coder 32BはHumanEvalで92.7%を達成し、Qwen2-VL 7Bは中国語・日本語のドキュメントOCRで最も優れたローカルビジョンモデルです。このガイドでは、Qwenモデルファミリー全体を解説します。各ハードウェア階層に最適なモデルの選び方、OllamaとLM Studioのセットアップ、量子化の推奨設定、ベンチマークデータ、そしてコンシューマーハードウェアでのDeepSeek・Llamaとの比較を網羅しています。

スライドデッキ: Qwenローカルデプロイガイド2026:Qwen2.5・Coder・VLを全ハードウェア階層で動かす

下記スライドデッキの内容:Qwen2.5モデルファミリー全体像(7B〜72B)、ハードウェア階層別VRAM要件、Qwen2.5-Coder 32Bのベンチマークデータ、Qwen vs DeepSeek vs Llamaの意思決定チャート。Qwenデプロイ参照カードとしてダウンロード可能。

以下のスライドを閲覧するか、PDFとしてダウンロードしてください。 リファレンスカードをダウンロード(PDF)

重要なポイント

  • Qwen2.5 7BはVRAM 5.5GBで動作 — `ollama pull qwen2.5:7b`の1コマンドで起動。RTX 3060で57トークン/秒。
  • 3つのサブファミリー:Qwen2.5(汎用)、Qwen2.5-Coder(コーディング、32BでHumanEval 92.7%)、Qwen2-VL(ビジョン、ローカルCJK OCR最強)。
  • Denseアーキテクチャ = コンシューマー向け:DeepSeekの236B MoE(約130GB RAM必要)と違い、Qwen2.5 72BはVRAM 46GBで2枚のRTX 3090に収まります。
  • ネイティブ多言語対応:中国語・日本語・韓国語・アラビア語・ドイツ語・フランス語など29言語でLlama 3.3を上回る性能。
  • Q4_K_Mが最適な量子化:FP16比でVRAMを約55%削減し、品質低下は1%未満。
  • ハードウェア判断基準:VRAM 12GB → 14Bモデル;24GB → 32B;48GB+(デュアルGPUまたはApple Silicon 64GB)→ 72B。

📍 一文で説明

Qwen2.5には3つのローカルデプロイ用サブファミリーがあります:汎用(7B〜72B)、コーディング(Coder 7B〜32B)、ビジョン(VL 7B〜72B)。すべてOllamaまたはLM Studioで実行可能。

💬 簡潔に説明

モデルをローカルで動かすとは、AIがクラウドサーバーではなく自分のコンピュータ上で動作することを意味します。データが外部に出ず、ハードウェア購入後はトークンごとのコストもかかりません。

Qwen2.5モデルファミリー概要

Qwen2.5ファミリーは汎用推論・コーディング・ビジョンの3用途をカバーし、7Bから72Bまでの複数サイズで提供されています。すべてAlibaba QwenチームがHugging FaceにApache 2.0ライセンスで公開しているオープンウェイトモデルです。

まずサブファミリーを選び、次にVRAMに合ったサイズを選択します。複数サブファミリーの組み合わせも一般的です:コード補完にQwen2.5-Coder 14B、文書要約にQwen2.5 7B、という使い方が典型例です。

サブファミリー利用可能なサイズ主な用途Ollamaタグプレフィックス
Qwen2.57B, 14B, 32B, 72B汎用推論、中国語/多言語タスク、RAGqwen2.5:
Qwen2.5-Coder7B, 14B, 32Bコード生成、デバッグ、HumanEval、SWE-benchqwen2.5-coder:
Qwen2-VL2B, 7B, 72BドキュメントOCR、画像Q&A、CJKテキスト抽出qwen2-vl:

Qwen3(2026年Q1リリース)はThinkingモードモデルを追加していますが、2026年5月時点ではQwen2.5と比べてGGUFビルドとOllamaカバレッジが少ない状況です。このガイドはハードウェア互換性が最も広いQwen2.5に焦点を当てています。

モデルサイズ別ハードウェア要件

まずVRAM階層を選び、次にそこに収まる最大のQwen2.5モデルを選択します。 以下の数値はすべてQ4_K_M量子化を基準としています。

モデルVRAM最低GPUApple Silicon速度(RTX 3060)
Qwen2.5 7B Q4_K_M5.5GBRTX 3060 6GB、RTX 4060M1/M2 8GB約57トークン/秒
Qwen2.5-Coder 7B Q4_K_M5.5GBRTX 3060 6GB、RTX 4060M1/M2 8GB約55トークン/秒
Qwen2-VL 7B Q4_K_M6.2GBRTX 3060 8GB、RTX 4060M1/M2 16GB
Qwen2.5 14B Q4_K_M9.5GBRTX 4070 12GBM2 Pro 16GB
Qwen2.5-Coder 14B Q4_K_M9.5GBRTX 4070 12GBM2 Pro 16GB
Qwen2.5 32B Q4_K_M20.5GBRTX 3090 24GBM3 Max 48GB
Qwen2.5-Coder 32B Q4_K_M20.5GBRTX 3090 24GBM3 Max 48GB
Qwen2.5 72B Q4_K_M46GB2× RTX 3090(48GB)M2 Ultra 64GB

VRAMの数値はOllamaライブラリのQ4_K_M GGUFファイルを基準としています。4KコンテキストのKVキャッシュとして1〜2GB追加が必要です。GPUのVRAMがモデルに必要な量より少ない場合、Ollamaは自動的にシステムRAMにレイヤーをオフロードしますが、速度が大幅に低下します。

Qwen2.5 モデルサイズ別VRAM要件(Q4_K_M)— PromptQuorum 2026
Qwen2.5 モデルサイズ別VRAM要件(Q4_K_M)— PromptQuorum 2026

Ollamaでのセットアップ

Ollamaは任意のQwen2.5モデルをローカルで実行する最速の方法です。 モデルのダウンロード、GGUF量子化の管理、`localhost:11434`へのローカルAPI提供をすべて自動で行います。ollama.comからインストールしてください。Ollamaを初めて使う場合は、まずOllamaのインストール方法をご覧ください。

  1. 1
    Ollamaをインストール
    Why it matters: macOS、Linux(ワンライナーインストール)、Windowsで利用可能。GPUドライバーの設定は不要 — OllamaはCUDA、ROCm、Metalを自動検出します。
  2. 2
    明示的なサイズタグでモデルを取得
    Why it matters: 必ずサイズを指定してください:`qwen2.5:7b`、`qwen2.5:14b`、`qwen2.5:32b`。タグなしの`qwen2.5`はデフォルトで7Bに解決されますが、Ollamaのバージョン間で変わる可能性があります。
  3. 3
    モデルを実行
    Why it matters: `ollama run qwen2.5:7b`でインタラクティブチャットが開きます。プロンプトを入力してEnterキーを押します。終了は`/bye`。
  4. 4
    必要に応じてコンテキストウィンドウを設定
    Why it matters: Qwen2.5はOllamaでデフォルト32Kコンテキストをサポートします。128Kコンテキストを使う場合:`ollama run qwen2.5:7b --num-ctx 131072`。追加VRAMが必要になります。
  5. 5
    APIエンドポイントをテスト
    Why it matters: OllamaはOpenAI互換APIを提供します。PromptQuorum、Continue.dev、Open WebUIなどのアプリが`http://localhost:11434/v1`に直接接続できます。
bash
# Ollamaのインストール(Linux)
curl -fsSL https://ollama.com/install.sh | sh

# macOS: ollama.comから.dmgをダウンロード、または:
brew install ollama

# モデルの取得 — 明示的なタグを使用
ollama pull qwen2.5:7b           # 汎用7B(約5.5GB)
ollama pull qwen2.5:14b          # 汎用14B(約9.5GB)
ollama pull qwen2.5:32b          # 汎用32B(約20.5GB)
ollama pull qwen2.5-coder:32b    # コーディング32B(約20.5GB)
ollama pull qwen2-vl:7b          # ビジョン7B(約6.2GB)

# インタラクティブ実行
ollama run qwen2.5:7b

# OpenAI互換APIのテスト
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"こんにちは"}]}'

LM Studioでのセットアップ

LM StudioはターミナルコマンドなしでQwen2.5を利用できるGUIです。 lmstudio.aiからダウンロード、またはLM Studioのインストール方法を参照。macOS・Windows・Linuxで動作します。

  1. 1
    モデルブラウザを開く
    Why it matters: 「Qwen2.5」または「Qwen Coder」で検索。Q4_K_Mでフィルタリングすると推奨品質/サイズ比のビルドが表示されます。
  2. 2
    GGUFビルドをダウンロード
    Why it matters: Q4_K_Mバリアントを選択。LM Studioはダウンロード前にファイルサイズを表示します。
  3. 3
    モデルをロードしてチャット開始
    Why it matters: 左サイドバーでモデルをクリックしてメモリにロード。GPUレイヤーの割り当ては自動です。
  4. 4
    ローカルサーバーを起動
    Why it matters: 「サーバー起動」で`localhost:1234`にOpenAI互換エンドポイントが公開されます。

量子化:どのフォーマットを選ぶか

Q4_K_MはコンシューマーハードウェアでのQwen2.5に最適なデフォルトです。 FP16比でVRAMを約55〜60%削減し、MMLUとHumanEvalのベンチマーク劣化は1%未満です。

📍 一文で説明

Q4_K_MはほとんどのユーザーにとってQwen2.5に最適な量子化です:FP16比でVRAMを55%削減し、品質低下は1%未満。

💬 簡潔に説明

量子化とはモデルの数値を16ビットから4ビットに圧縮することで、ファイルサイズとVRAM使用量を約半分にします。TIFFから高品質JPEGへの変換のようなもの — ファイルは小さくなりますが、ほとんどの用途では同じ結果が得られます。

  • Q4_K_M(推奨):7Bで約5.5GB。最良の品質/GB比。まずこれを試してください。
  • Q8_0:7Bで約8.5GB。ほぼFP16品質。VRAMに余裕があり最大精度が必要な場合に使用。
  • Q5_K_M:7Bで約6.5GB。Q4_K_Mからのわずかな改善 — タスクでQ4_K_Mの品質が明らかに不足している場合のみ選択。
  • Q2_K:7Bで約3GB。最小ファイルサイズだが、中国語出力品質が著しく低下 — Qwen2.5で中国語を使う場合は避けること。
  • IQ4_XS:7Bで約4.8GB。Q4_K_Mより品質が高くやや小さい新しいimatrix量子化 — 最近のllama.cppリリースとLM Studio 0.3+で利用可能。

コンシューマーハードウェアでのベンチマーク性能

RTX 4090でのQwen2.5 32B Q4_K_Mは28トークン/秒 — リアルタイムのコーディング支援に十分な速度です。以下のスコアはOllamaでテストしたQ4_K_M GGUFビルドの値です。

モデル(Q4_K_M)MMLUMathHumanEval速度(RTX 3060 12GB)
Qwen2.5 7B74.2%58.8%57.3%57トークン/秒
Qwen2.5 14B79.9%69.8%64.6%
Qwen2.5 32B83.3%79.5%71.3%
Qwen2.5 72B86.1%83.1%73.2%
Qwen2.5-Coder 7B75.6%55トークン/秒
Qwen2.5-Coder 14B85.2%
Qwen2.5-Coder 32B92.7%
Qwen2.5ベンチマークスコア(Q4_K_M)— PromptQuorum 2026
Qwen2.5ベンチマークスコア(Q4_K_M)— PromptQuorum 2026

Qwen vs DeepSeek vs Llama:何をローカルで動かすか

Qwen2.5は中国語タスクとVRAM効率で優位。DeepSeek-V2.5は大規模推論で強いがコンシューマーハードウェアでは非現実的。Llama 3.3 70BはMetaのオープンモデルを好む場合のシングルGPU最良選択肢です。

VRAM階層最良Qwen最良競合判定
6GBQwen2.5 7BLlama 3.2 3B(収まるが3Bのみ)Qwen2.5 7Bが優位 — 同VRAM、より大きなモデル
12GBQwen2.5-Coder 14BLlama 3.3 8B InstructコーディングにはQwen2.5-Coder 14B;汎用チャットにはLlama 3.3 8B
24GBQwen2.5-Coder 32BLlama 3.3 70B(オフロード)コードにはQwen2.5-Coder 32B;品質>速度ならLlama 3.3 70B
48GB+Qwen2.5 72BDeepSeek-V2.5 236B MoEDeepSeekは約130GB RAM必要;Qwen2.5 72Bが48GBの現実的な選択

日本企業でのデータ主権と規制対応

Qwen2.5をローカルで運用すると、データが社外のサーバーに送信されません — クラウドAPIと異なり、推論時に外部ネットワーク通信が発生しないためです。これは経済産業省(METI)の「AI事業者ガイドライン(2024年)」が求めるデータガバナンスの観点で有利な構成です。

日本語はQwen2.5の29言語ネイティブサポートに含まれており、医療・法律・金融などの日本語専門文書でも高精度なテキスト処理が可能です。Qwen2-VL 7Bは日本語ドキュメントのOCRにおいて、LLaVAやLlama 3.2 Visionを上回る精度を示しています。

アジア太平洋地域の規制環境 — 日本の個人情報保護法(PIPA改正版)では、個人データの安全管理措置として「技術的安全管理措置」が義務付けられています。ローカルLLMは、個人データをオンプレミスで処理することで、この要件に対応しやすい構成です。中国・韓国・シンガポール・オーストラリアでも同様に、機密データのローカル処理がクロスボーダーデータ転送リスクを排除します。完全オフライン構成のガイドは完全オフラインでAIを動かすをご覧ください。

📍 一文で説明

Qwen2.5はダウンロード後に完全オフラインで動作し、データが社外に出ないためMETIのAIガバナンスガイドラインへの対応が容易です。

💬 簡潔に説明

ローカルで動かすと、プロンプトや文書がコンピュータから出ません。クラウドAPIコールもなく、外部サーバーもなく、第三者がアクセスできるデータもありません。

予算別ハードウェア推奨

RTX 3060 12GBはQwen2.5 7BとQwen2.5-Coder 7Bのエントリー向け最良選択肢で、約¥40,000〜48,000(中古ならさらに安価)です。 14Bモデルには約¥68,000〜78,000のRTX 4070 12GBが35%高速化を実現します。

  • エントリー(Qwen2.5 7B):NVIDIA RTX 4060 8GBまたはRTX 3060 12GB。7Bモデルを50〜57トークン/秒で処理。RTX 3060 12GBは中古で安く入手でき、VRAMに余裕があります。
  • ミドルレンジ(Qwen2.5 14B):RTX 4070 12GBまたはRTX 4070 Super 12GB。4070 SuperはQwen2.5-Coder 14Bを38〜42トークン/秒で処理し、2〜3GBのVRAMコンテキスト余裕があります。
  • ハイエンド(Qwen2.5 32B):RTX 4090 24GBまたはRTX 3090 24GB。4090はQwen2.5-Coder 32Bを27〜28トークン/秒で処理 — リアルタイムコーディング速度。3090は中古で大幅に安く、推論スループットは4090の15%以内です。
  • Apple Silicon(全サイズ):Mac mini M4 Pro 48GBはQwen2.5 32Bの最良コストパフォーマンス(約22トークン/秒)、低騒音・低消費電力。
  • 常時稼働Mini PC:MINISFORUM UM890 Proや同等のAMD Ryzen AI PC。CPU+iGPUでQwen2.5 7Bを約8〜12トークン/秒で処理 — 遅いが35W以下で24/7稼働可能。

よくあるミス

  • タグなしで`ollama pull qwen2.5`を実行する。 明示的なサイズタグ(`:7b`、`:14b`など)なしでは、OllamaはOllamaのアップデートで変わりうるデフォルトサイズに解決します。常に明示的なタグを使用:`ollama pull qwen2.5:14b`。
  • コンテキストウィンドウサイズを無視する。 Qwen2.5は128Kコンテキストをサポートしますが、Ollamaは`num_ctx`をデフォルト2Kに設定します。長い文書を処理する際は`--num-ctx 8192`(またはそれ以上)を追加してください。
  • 中国語用途にQ2_K量子化を選ぶ。 2ビット精度では、Qwen2.5の中国語出力品質が著しく低下します。中国語作業には最低でもQ4_K_Mを使用してください。
  • VRAMが不足した状態で32Bモデルを実行する。 GPUが16GBでモデルが20.5GB必要な場合、Ollamaはシステムメモリにレイヤーをオフロードします。3〜5トークン/秒でインタラクティブ使用には不向きです。
  • コーディングに間違ったサブファミリーを使う。 Qwen2.5 7B(汎用)はHumanEvalで57.3%。Qwen2.5-Coder 7Bは同ベンチマークで75.6% — 相対的に32%の改善。コーディングには必ず同サイズのCoder バリアントを使用してください。

よくある質問

Qwen2.5 7Bをローカルで動かすのに必要なVRAMは?

Qwen2.5 7B Q4_K_MにはVRAM 5.5GBが必要です。RTX 3060 6GB、RTX 4060、またはApple M系8GBユニファイドメモリで動作します。

コーディング用途に最適なQwenモデルは?

Qwen2.5-Coder 32B — HumanEval 92.7%、GPU 24GB必要。VRAM 12GB以下ならQwen2.5-Coder 14B(85.2%、9.5GB VRAM)。

QwenとDeepSeekのローカルデプロイ比較は?

Qwen2.5はコンシューマーハードウェアに収まるDenseアーキテクチャ。DeepSeek-V2.5は236B MoEで約130GB RAM必要 — コンシューマーGPUでは非現実的。

MacでQwenを動かせますか?

はい。M2 Pro 32GBはQwen2.5 14Bを約32トークン/秒で実行。M3 Max 64GBはQwen2.5 32Bを約22トークン/秒で処理。

Qwen2.5のOllamaコマンドは?

`ollama pull qwen2.5:7b`(7B)、`:14b`(14B)、`:32b`(32B)、`qwen2.5-coder:32b`(コーディング版)。常に明示的なサイズタグを使用。

中国語タスクにQwenは適していますか?

はい。Qwen2.5は大規模な中国語コーパスで学習され、簡体字・繁体字・日本語・韓国語を含む29言語をネイティブサポートしています。

Qwen2.5に推奨する量子化は?

Q4_K_Mがデフォルト推奨 — FP16比でVRAM約55%削減、品質低下1%未満。Q8_0は品質重視、Q2_Kは中国語には不適。

Qwen2-VLは日本語・中国語OCRに使えますか?

はい。Qwen2-VL 7BはCJK OCRで最強のローカルビジョンモデル。`ollama pull qwen2-vl:7b`でVRAM約6GBで動作、最大4096×4096ピクセルに対応。

METI AIガイドラインへの対応は?

ローカルデプロイでデータが社外に出ないため、METI「AI事業者ガイドライン2024」のデータガバナンス要件に対応しやすい構成です。

Apple M系チップでQwen2.5 72Bを動かせますか?

M2 Ultra 192GBまたはM3 Ultra 192GBで動作します。Q4_K_Mで約46GBのメモリが必要です。

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Qwen2.5・DeepSeek・Llamaを1つのインターフェースからディスパッチ →

PromptQuorumを無料で試す

← ローカルLLMに戻る

Qwenローカルデプロイ2026:Qwen2.5・Coder・VLセットアップ完全ガイド | PromptQuorum