重要なポイント
- Qwen2.5 7BはVRAM 5.5GBで動作 — `ollama pull qwen2.5:7b`の1コマンドで起動。RTX 3060で57トークン/秒。
- 3つのサブファミリー:Qwen2.5(汎用)、Qwen2.5-Coder(コーディング、32BでHumanEval 92.7%)、Qwen2-VL(ビジョン、ローカルCJK OCR最強)。
- Denseアーキテクチャ = コンシューマー向け:DeepSeekの236B MoE(約130GB RAM必要)と違い、Qwen2.5 72BはVRAM 46GBで2枚のRTX 3090に収まります。
- ネイティブ多言語対応:中国語・日本語・韓国語・アラビア語・ドイツ語・フランス語など29言語でLlama 3.3を上回る性能。
- Q4_K_Mが最適な量子化:FP16比でVRAMを約55%削減し、品質低下は1%未満。
- ハードウェア判断基準:VRAM 12GB → 14Bモデル;24GB → 32B;48GB+(デュアルGPUまたはApple Silicon 64GB)→ 72B。
📍 一文で説明
Qwen2.5には3つのローカルデプロイ用サブファミリーがあります:汎用(7B〜72B)、コーディング(Coder 7B〜32B)、ビジョン(VL 7B〜72B)。すべてOllamaまたはLM Studioで実行可能。
💬 簡潔に説明
モデルをローカルで動かすとは、AIがクラウドサーバーではなく自分のコンピュータ上で動作することを意味します。データが外部に出ず、ハードウェア購入後はトークンごとのコストもかかりません。
Qwen2.5モデルファミリー概要
Qwen2.5ファミリーは汎用推論・コーディング・ビジョンの3用途をカバーし、7Bから72Bまでの複数サイズで提供されています。すべてAlibaba QwenチームがHugging FaceにApache 2.0ライセンスで公開しているオープンウェイトモデルです。
まずサブファミリーを選び、次にVRAMに合ったサイズを選択します。複数サブファミリーの組み合わせも一般的です:コード補完にQwen2.5-Coder 14B、文書要約にQwen2.5 7B、という使い方が典型例です。
| サブファミリー | 利用可能なサイズ | 主な用途 | Ollamaタグプレフィックス |
|---|---|---|---|
| Qwen2.5 | 7B, 14B, 32B, 72B | 汎用推論、中国語/多言語タスク、RAG | qwen2.5: |
| Qwen2.5-Coder | 7B, 14B, 32B | コード生成、デバッグ、HumanEval、SWE-bench | qwen2.5-coder: |
| Qwen2-VL | 2B, 7B, 72B | ドキュメントOCR、画像Q&A、CJKテキスト抽出 | qwen2-vl: |
Qwen3(2026年Q1リリース)はThinkingモードモデルを追加していますが、2026年5月時点ではQwen2.5と比べてGGUFビルドとOllamaカバレッジが少ない状況です。このガイドはハードウェア互換性が最も広いQwen2.5に焦点を当てています。
モデルサイズ別ハードウェア要件
まずVRAM階層を選び、次にそこに収まる最大のQwen2.5モデルを選択します。 以下の数値はすべてQ4_K_M量子化を基準としています。
| モデル | VRAM | 最低GPU | Apple Silicon | 速度(RTX 3060) |
|---|---|---|---|---|
| Qwen2.5 7B Q4_K_M | 5.5GB | RTX 3060 6GB、RTX 4060 | M1/M2 8GB | 約57トークン/秒 |
| Qwen2.5-Coder 7B Q4_K_M | 5.5GB | RTX 3060 6GB、RTX 4060 | M1/M2 8GB | 約55トークン/秒 |
| Qwen2-VL 7B Q4_K_M | 6.2GB | RTX 3060 8GB、RTX 4060 | M1/M2 16GB | — |
| Qwen2.5 14B Q4_K_M | 9.5GB | RTX 4070 12GB | M2 Pro 16GB | — |
| Qwen2.5-Coder 14B Q4_K_M | 9.5GB | RTX 4070 12GB | M2 Pro 16GB | — |
| Qwen2.5 32B Q4_K_M | 20.5GB | RTX 3090 24GB | M3 Max 48GB | — |
| Qwen2.5-Coder 32B Q4_K_M | 20.5GB | RTX 3090 24GB | M3 Max 48GB | — |
| Qwen2.5 72B Q4_K_M | 46GB | 2× RTX 3090(48GB) | M2 Ultra 64GB | — |
VRAMの数値はOllamaライブラリのQ4_K_M GGUFファイルを基準としています。4KコンテキストのKVキャッシュとして1〜2GB追加が必要です。GPUのVRAMがモデルに必要な量より少ない場合、Ollamaは自動的にシステムRAMにレイヤーをオフロードしますが、速度が大幅に低下します。
Ollamaでのセットアップ
Ollamaは任意のQwen2.5モデルをローカルで実行する最速の方法です。 モデルのダウンロード、GGUF量子化の管理、`localhost:11434`へのローカルAPI提供をすべて自動で行います。ollama.comからインストールしてください。Ollamaを初めて使う場合は、まずOllamaのインストール方法をご覧ください。
- 1Ollamaをインストール
Why it matters: macOS、Linux(ワンライナーインストール)、Windowsで利用可能。GPUドライバーの設定は不要 — OllamaはCUDA、ROCm、Metalを自動検出します。 - 2明示的なサイズタグでモデルを取得
Why it matters: 必ずサイズを指定してください:`qwen2.5:7b`、`qwen2.5:14b`、`qwen2.5:32b`。タグなしの`qwen2.5`はデフォルトで7Bに解決されますが、Ollamaのバージョン間で変わる可能性があります。 - 3モデルを実行
Why it matters: `ollama run qwen2.5:7b`でインタラクティブチャットが開きます。プロンプトを入力してEnterキーを押します。終了は`/bye`。 - 4必要に応じてコンテキストウィンドウを設定
Why it matters: Qwen2.5はOllamaでデフォルト32Kコンテキストをサポートします。128Kコンテキストを使う場合:`ollama run qwen2.5:7b --num-ctx 131072`。追加VRAMが必要になります。 - 5APIエンドポイントをテスト
Why it matters: OllamaはOpenAI互換APIを提供します。PromptQuorum、Continue.dev、Open WebUIなどのアプリが`http://localhost:11434/v1`に直接接続できます。
# Ollamaのインストール(Linux)
curl -fsSL https://ollama.com/install.sh | sh
# macOS: ollama.comから.dmgをダウンロード、または:
brew install ollama
# モデルの取得 — 明示的なタグを使用
ollama pull qwen2.5:7b # 汎用7B(約5.5GB)
ollama pull qwen2.5:14b # 汎用14B(約9.5GB)
ollama pull qwen2.5:32b # 汎用32B(約20.5GB)
ollama pull qwen2.5-coder:32b # コーディング32B(約20.5GB)
ollama pull qwen2-vl:7b # ビジョン7B(約6.2GB)
# インタラクティブ実行
ollama run qwen2.5:7b
# OpenAI互換APIのテスト
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"こんにちは"}]}'LM Studioでのセットアップ
LM StudioはターミナルコマンドなしでQwen2.5を利用できるGUIです。 lmstudio.aiからダウンロード、またはLM Studioのインストール方法を参照。macOS・Windows・Linuxで動作します。
- 1モデルブラウザを開く
Why it matters: 「Qwen2.5」または「Qwen Coder」で検索。Q4_K_Mでフィルタリングすると推奨品質/サイズ比のビルドが表示されます。 - 2GGUFビルドをダウンロード
Why it matters: Q4_K_Mバリアントを選択。LM Studioはダウンロード前にファイルサイズを表示します。 - 3モデルをロードしてチャット開始
Why it matters: 左サイドバーでモデルをクリックしてメモリにロード。GPUレイヤーの割り当ては自動です。 - 4ローカルサーバーを起動
Why it matters: 「サーバー起動」で`localhost:1234`にOpenAI互換エンドポイントが公開されます。
量子化:どのフォーマットを選ぶか
Q4_K_MはコンシューマーハードウェアでのQwen2.5に最適なデフォルトです。 FP16比でVRAMを約55〜60%削減し、MMLUとHumanEvalのベンチマーク劣化は1%未満です。
📍 一文で説明
Q4_K_MはほとんどのユーザーにとってQwen2.5に最適な量子化です:FP16比でVRAMを55%削減し、品質低下は1%未満。
💬 簡潔に説明
量子化とはモデルの数値を16ビットから4ビットに圧縮することで、ファイルサイズとVRAM使用量を約半分にします。TIFFから高品質JPEGへの変換のようなもの — ファイルは小さくなりますが、ほとんどの用途では同じ結果が得られます。
- Q4_K_M(推奨):7Bで約5.5GB。最良の品質/GB比。まずこれを試してください。
- Q8_0:7Bで約8.5GB。ほぼFP16品質。VRAMに余裕があり最大精度が必要な場合に使用。
- Q5_K_M:7Bで約6.5GB。Q4_K_Mからのわずかな改善 — タスクでQ4_K_Mの品質が明らかに不足している場合のみ選択。
- Q2_K:7Bで約3GB。最小ファイルサイズだが、中国語出力品質が著しく低下 — Qwen2.5で中国語を使う場合は避けること。
- IQ4_XS:7Bで約4.8GB。Q4_K_Mより品質が高くやや小さい新しいimatrix量子化 — 最近のllama.cppリリースとLM Studio 0.3+で利用可能。
コンシューマーハードウェアでのベンチマーク性能
RTX 4090でのQwen2.5 32B Q4_K_Mは28トークン/秒 — リアルタイムのコーディング支援に十分な速度です。以下のスコアはOllamaでテストしたQ4_K_M GGUFビルドの値です。
| モデル(Q4_K_M) | MMLU | Math | HumanEval | 速度(RTX 3060 12GB) |
|---|---|---|---|---|
| Qwen2.5 7B | 74.2% | 58.8% | 57.3% | 57トークン/秒 |
| Qwen2.5 14B | 79.9% | 69.8% | 64.6% | — |
| Qwen2.5 32B | 83.3% | 79.5% | 71.3% | — |
| Qwen2.5 72B | 86.1% | 83.1% | 73.2% | — |
| Qwen2.5-Coder 7B | — | — | 75.6% | 55トークン/秒 |
| Qwen2.5-Coder 14B | — | — | 85.2% | — |
| Qwen2.5-Coder 32B | — | — | 92.7% | — |
Qwen vs DeepSeek vs Llama:何をローカルで動かすか
Qwen2.5は中国語タスクとVRAM効率で優位。DeepSeek-V2.5は大規模推論で強いがコンシューマーハードウェアでは非現実的。Llama 3.3 70BはMetaのオープンモデルを好む場合のシングルGPU最良選択肢です。
| VRAM階層 | 最良Qwen | 最良競合 | 判定 |
|---|---|---|---|
| 6GB | Qwen2.5 7B | Llama 3.2 3B(収まるが3Bのみ) | Qwen2.5 7Bが優位 — 同VRAM、より大きなモデル |
| 12GB | Qwen2.5-Coder 14B | Llama 3.3 8B Instruct | コーディングにはQwen2.5-Coder 14B;汎用チャットにはLlama 3.3 8B |
| 24GB | Qwen2.5-Coder 32B | Llama 3.3 70B(オフロード) | コードにはQwen2.5-Coder 32B;品質>速度ならLlama 3.3 70B |
| 48GB+ | Qwen2.5 72B | DeepSeek-V2.5 236B MoE | DeepSeekは約130GB RAM必要;Qwen2.5 72Bが48GBの現実的な選択 |
日本企業でのデータ主権と規制対応
Qwen2.5をローカルで運用すると、データが社外のサーバーに送信されません — クラウドAPIと異なり、推論時に外部ネットワーク通信が発生しないためです。これは経済産業省(METI)の「AI事業者ガイドライン(2024年)」が求めるデータガバナンスの観点で有利な構成です。
日本語はQwen2.5の29言語ネイティブサポートに含まれており、医療・法律・金融などの日本語専門文書でも高精度なテキスト処理が可能です。Qwen2-VL 7Bは日本語ドキュメントのOCRにおいて、LLaVAやLlama 3.2 Visionを上回る精度を示しています。
アジア太平洋地域の規制環境 — 日本の個人情報保護法(PIPA改正版)では、個人データの安全管理措置として「技術的安全管理措置」が義務付けられています。ローカルLLMは、個人データをオンプレミスで処理することで、この要件に対応しやすい構成です。中国・韓国・シンガポール・オーストラリアでも同様に、機密データのローカル処理がクロスボーダーデータ転送リスクを排除します。完全オフライン構成のガイドは完全オフラインでAIを動かすをご覧ください。
📍 一文で説明
Qwen2.5はダウンロード後に完全オフラインで動作し、データが社外に出ないためMETIのAIガバナンスガイドラインへの対応が容易です。
💬 簡潔に説明
ローカルで動かすと、プロンプトや文書がコンピュータから出ません。クラウドAPIコールもなく、外部サーバーもなく、第三者がアクセスできるデータもありません。
予算別ハードウェア推奨
RTX 3060 12GBはQwen2.5 7BとQwen2.5-Coder 7Bのエントリー向け最良選択肢で、約¥40,000〜48,000(中古ならさらに安価)です。 14Bモデルには約¥68,000〜78,000のRTX 4070 12GBが35%高速化を実現します。
- エントリー(Qwen2.5 7B):NVIDIA RTX 4060 8GBまたはRTX 3060 12GB。7Bモデルを50〜57トークン/秒で処理。RTX 3060 12GBは中古で安く入手でき、VRAMに余裕があります。
- ミドルレンジ(Qwen2.5 14B):RTX 4070 12GBまたはRTX 4070 Super 12GB。4070 SuperはQwen2.5-Coder 14Bを38〜42トークン/秒で処理し、2〜3GBのVRAMコンテキスト余裕があります。
- ハイエンド(Qwen2.5 32B):RTX 4090 24GBまたはRTX 3090 24GB。4090はQwen2.5-Coder 32Bを27〜28トークン/秒で処理 — リアルタイムコーディング速度。3090は中古で大幅に安く、推論スループットは4090の15%以内です。
- Apple Silicon(全サイズ):Mac mini M4 Pro 48GBはQwen2.5 32Bの最良コストパフォーマンス(約22トークン/秒)、低騒音・低消費電力。
- 常時稼働Mini PC:MINISFORUM UM890 Proや同等のAMD Ryzen AI PC。CPU+iGPUでQwen2.5 7Bを約8〜12トークン/秒で処理 — 遅いが35W以下で24/7稼働可能。
よくあるミス
- タグなしで`ollama pull qwen2.5`を実行する。 明示的なサイズタグ(`:7b`、`:14b`など)なしでは、OllamaはOllamaのアップデートで変わりうるデフォルトサイズに解決します。常に明示的なタグを使用:`ollama pull qwen2.5:14b`。
- コンテキストウィンドウサイズを無視する。 Qwen2.5は128Kコンテキストをサポートしますが、Ollamaは`num_ctx`をデフォルト2Kに設定します。長い文書を処理する際は`--num-ctx 8192`(またはそれ以上)を追加してください。
- 中国語用途にQ2_K量子化を選ぶ。 2ビット精度では、Qwen2.5の中国語出力品質が著しく低下します。中国語作業には最低でもQ4_K_Mを使用してください。
- VRAMが不足した状態で32Bモデルを実行する。 GPUが16GBでモデルが20.5GB必要な場合、Ollamaはシステムメモリにレイヤーをオフロードします。3〜5トークン/秒でインタラクティブ使用には不向きです。
- コーディングに間違ったサブファミリーを使う。 Qwen2.5 7B(汎用)はHumanEvalで57.3%。Qwen2.5-Coder 7Bは同ベンチマークで75.6% — 相対的に32%の改善。コーディングには必ず同サイズのCoder バリアントを使用してください。
よくある質問
Qwen2.5 7Bをローカルで動かすのに必要なVRAMは?
Qwen2.5 7B Q4_K_MにはVRAM 5.5GBが必要です。RTX 3060 6GB、RTX 4060、またはApple M系8GBユニファイドメモリで動作します。
コーディング用途に最適なQwenモデルは?
Qwen2.5-Coder 32B — HumanEval 92.7%、GPU 24GB必要。VRAM 12GB以下ならQwen2.5-Coder 14B(85.2%、9.5GB VRAM)。
QwenとDeepSeekのローカルデプロイ比較は?
Qwen2.5はコンシューマーハードウェアに収まるDenseアーキテクチャ。DeepSeek-V2.5は236B MoEで約130GB RAM必要 — コンシューマーGPUでは非現実的。
MacでQwenを動かせますか?
はい。M2 Pro 32GBはQwen2.5 14Bを約32トークン/秒で実行。M3 Max 64GBはQwen2.5 32Bを約22トークン/秒で処理。
Qwen2.5のOllamaコマンドは?
`ollama pull qwen2.5:7b`(7B)、`:14b`(14B)、`:32b`(32B)、`qwen2.5-coder:32b`(コーディング版)。常に明示的なサイズタグを使用。
中国語タスクにQwenは適していますか?
はい。Qwen2.5は大規模な中国語コーパスで学習され、簡体字・繁体字・日本語・韓国語を含む29言語をネイティブサポートしています。
Qwen2.5に推奨する量子化は?
Q4_K_Mがデフォルト推奨 — FP16比でVRAM約55%削減、品質低下1%未満。Q8_0は品質重視、Q2_Kは中国語には不適。
Qwen2-VLは日本語・中国語OCRに使えますか?
はい。Qwen2-VL 7BはCJK OCRで最強のローカルビジョンモデル。`ollama pull qwen2-vl:7b`でVRAM約6GBで動作、最大4096×4096ピクセルに対応。
METI AIガイドラインへの対応は?
ローカルデプロイでデータが社外に出ないため、METI「AI事業者ガイドライン2024」のデータガバナンス要件に対応しやすい構成です。
Apple M系チップでQwen2.5 72Bを動かせますか?
M2 Ultra 192GBまたはM3 Ultra 192GBで動作します。Q4_K_Mで約46GBのメモリが必要です。