Mistral Small 24B・Qwen 3 14B・Llama 3.3 8B：ローカルでどれを動かすべきか？

言語を選択:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

クイック回答

VRAMで選択してください：Llama 3.3 8B（4.9 GB）、Qwen 3 14B（9.3 GB）、Mistral Small 3.1 24B（14.4 GB）。12 GB VRAMではQwen 14Bが最適。16 GB以上では推論タスクでMistral Small 24Bが優位。

▸Llama 3.3 8B Q4_K_M：4.9 GB VRAM、RTX 4090で~45 tok/s、MMLU 66.6% — 6〜8 GB カードに最適
▸Qwen 3 14B Q4_K_M：9.3 GB VRAM、~28 tok/s、MMLU 74.8% — 12 GB カードのベストチョイス
▸Mistral Small 3.1 24B Q4_K_M：14.4 GB VRAM、~20 tok/s、MMLU ~81% — 16 GB+ カードのみ対応

更新: 2026-05

Model Comparisons

重要なポイント

✓Llama 3.3 8B Q4_K_Mは4.9 GB VRAMを使用しRTX 4090上で~45 tok/sで動作 — このグループで6 GBカードに対応できる唯一のモデル
✓Qwen 3 14B Q4_K_Mは9.3 GBを使用しMMLU 74.8%を記録 — RTX 3060 12 GBやRTX 4060 Ti 16 GBなど12 GBカードの最適解
✓Mistral Small 3.1 24B Q4_K_Mは14.4 GBを使用しMMLU ~81%を達成 — 16 GBカード（RTX 4080、RTX 3090、RTX 4090）のみで実行可能
✓12 GBでのコーディング：Qwen 3 Coder 14B。16 GB+での多言語推論：Mistral Small 3.1 24B。10 GB未満：Llama 3.3 8B。

VRAM要件：どのカードがどのモデルを動かせるか

この3モデルの選択は主にVRAMの問題です。Q4_K_M量子化で：Llama 3.3 8Bは4.9 GB、Qwen 3 14Bは9.3 GB、Mistral Small 3.1 24Bは14.4 GBを使用します。これは3つのGPUティアに直接対応します：6〜8 GBカード（Llama 3.3 8Bのみ）、10〜12 GBカード（Qwen 3 14B）、16 GB以上のカード（Mistral Small 24B）。

RTX 4090でのQ4_K_M速度：Llama 3.3 8Bは約45 tok/s、Qwen 3 14Bは~28 tok/s、Mistral Small 3.1 24Bは~20 tok/sで動作します。RTX 3060 12 GBではLlama 3.3 8BとQwen 3 14Bのみ収まります — Mistral Small 24BはCPU RAMへのスピルを避けるため最低でも16 GBカードが必要です。

ベンチマークの差は意味があります：Mistral Small 24BのMMLU 81%はLlama 3.3 8Bより14ポイント、Qwen 3 14Bより6ポイント高いです。複雑な多段階推論や指示遵守タスクでは、この差は実際に体感できます。

モデル	VRAM (Q4_K_M)	速度 (RTX 4090)	MMLU	最低GPU
Llama 3.3 8B	4.9 GB	~45 tok/s	66.6%	RTX 3060 6 GB
Qwen 3 14B	9.3 GB	~28 tok/s	74.8%	RTX 3060 12 GB
Mistral Small 3.1 24B	14.4 GB	~20 tok/s	~81%	RTX 4080 16 GB

品質対VRAM：各モデルが勝つ場面

Llama 3.3 8BはVRAM効率で勝ります。 Q4_K_Mで4.9 GBと、4kトークンのコンテキストウィンドウ用の余裕を持って6 GBカードに収まる唯一のモデルです。MMLUで66.6%を記録し、素早いインタラクティブな応答（RTX 4090で~45 tok/s）を提供します。制限されたハードウェアでのチャット、クイックコーディングクエリ、日常使用に最適です。

Qwen 3 14Bは12 GB VRAMで勝ります。 MMLU 74.8%で推論とコーディングにおいてLlama 3.3 8Bを大きく上回り、最も一般的なプロシューマーGPUティア内に収まります。Qwen Coder 14Bバリアント（同サイズ、コード最適化）はHumanEvalで約78%を記録します。主にコーディングに使用し12 GBカードをお持ちの場合、Qwen 3 14Bが答えです。

Mistral Small 3.1 24BはVRAMが許す場合に品質で勝ります。 MMLU 81%と優れた多言語性能により、16 GBカードのトップ選択肢となります。14Bクラスのモデルより信頼性高く、長文推論、構造化出力タスク、複雑な指示セットを処理します。RTX 4090 24 GBではQ5_K_Mでさらに高い品質が得られます。

14Bクラスの直接比較については、コーディングベンチマーク詳細を含むQwen 14B対Llama 8Bの比較をご覧ください。

よくある質問：Mistral Small 24B vs Qwen 14B vs Llama 8B

Mistral Small 24BはRTX 3060 12 GBで動作しますか？▾

いいえ。Mistral Small 3.1 24B Q4_K_Mは14.4 GB VRAMが必要でRTX 3060 12 GBを超えます。Q2_Kに下げると約7.6 GBになりますが、品質が著しく低下します。RTX 3060 12 GBにはQwen 3 14B Q4_K_M（9.3 GB）が適切な選択です — コンテキスト用に2.7 GBの余裕があります。

Mistral Small 24BはコーディングでQwen 3 14Bより優れていますか？▾

一般的なコーディングでは、Mistral Small 24Bはサイズが大きい分わずかに優位です。ただし、Qwen 3 Coder 14B（コード最適化Qwenバリアント）はHumanEvalでMistral Small 24Bと競争力があり、12 GB VRAMに収まります。16 GBカードで推論とコーディングの両方が必要な場合はMistral Small 24Bが勝ちます。12 GBではQwen Coder 14Bがより良いトレードオフです。

RTX 4080のような16 GB GPUではどのモデルを使うべきですか？▾

Mistral Small 3.1 24B Q4_K_Mは14.4 GBで1.6 GBの余裕を持って収まります — 2kコンテキストウィンドウに十分です。推論ベンチマークでQwen 3 14Bを上回ります。代替として、Qwen 3 32B Q3_K_Mが約13.5 GBに収まり、コーディングタスクでMistral Small 24Bと競合しながらより多くのパラメータを提供します。

Llama 3.3 8BとLlama 3.2の違いは何ですか？▾

Llama 3.2 8Bはリリースされていません — 3.2シリーズは1B、3B、マルチモーダル11B/90Bバリアントのみを導入しました。Llama 3.3 8Bは標準的な8B Llamaリファレンスモデルのままです。6〜8 GB VRAMでのテキストのみの使用には、Llama 3.3 8Bがこのサイズクラスで現在推奨される選択肢です。

← プロンプト早わかりに戻る