PromptQuorumPromptQuorum

Mistral Small 24B・Qwen 2.5 14B・Llama 3.1 8B:ローカルでどれを動かすべきか?

クイック回答

VRAMで選択してください:Llama 3.1 8B(4.9 GB)、Qwen 2.5 14B(9.3 GB)、Mistral Small 3.1 24B(14.4 GB)。12 GB VRAMではQwen 14Bが最適。16 GB以上では推論タスクでMistral Small 24Bが優位。

  • Llama 3.1 8B Q4_K_M:4.9 GB VRAM、RTX 4090で~45 tok/s、MMLU 66.6% — 6〜8 GB カードに最適
  • Qwen 2.5 14B Q4_K_M:9.3 GB VRAM、~28 tok/s、MMLU 74.8% — 12 GB カードのベストチョイス
  • Mistral Small 3.1 24B Q4_K_M:14.4 GB VRAM、~20 tok/s、MMLU ~81% — 16 GB+ カードのみ対応

更新: 2026-05

Model Comparisons

重要なポイント

  • Llama 3.1 8B Q4_K_Mは4.9 GB VRAMを使用しRTX 4090上で~45 tok/sで動作 — このグループで6 GBカードに対応できる唯一のモデル
  • Qwen 2.5 14B Q4_K_Mは9.3 GBを使用しMMLU 74.8%を記録 — RTX 3060 12 GBやRTX 4060 Ti 16 GBなど12 GBカードの最適解
  • Mistral Small 3.1 24B Q4_K_Mは14.4 GBを使用しMMLU ~81%を達成 — 16 GBカード(RTX 4080、RTX 3090、RTX 4090)のみで実行可能
  • 12 GBでのコーディング:Qwen 2.5 Coder 14B。16 GB+での多言語推論:Mistral Small 3.1 24B。10 GB未満:Llama 3.1 8B。

VRAM要件:どのカードがどのモデルを動かせるか

この3モデルの選択は主にVRAMの問題です。Q4_K_M量子化で:Llama 3.1 8Bは4.9 GB、Qwen 2.5 14Bは9.3 GB、Mistral Small 3.1 24Bは14.4 GBを使用します。これは3つのGPUティアに直接対応します:6〜8 GBカード(Llama 3.1 8Bのみ)、10〜12 GBカード(Qwen 2.5 14B)、16 GB以上のカード(Mistral Small 24B)。

RTX 4090でのQ4_K_M速度:Llama 3.1 8Bは約45 tok/s、Qwen 2.5 14Bは~28 tok/s、Mistral Small 3.1 24Bは~20 tok/sで動作します。RTX 3060 12 GBではLlama 3.1 8BとQwen 2.5 14Bのみ収まります — Mistral Small 24BはCPU RAMへのスピルを避けるため最低でも16 GBカードが必要です。

ベンチマークの差は意味があります:Mistral Small 24BのMMLU 81%はLlama 3.1 8Bより14ポイント、Qwen 2.5 14Bより6ポイント高いです。複雑な多段階推論や指示遵守タスクでは、この差は実際に体感できます。

モデルVRAM (Q4_K_M)速度 (RTX 4090)MMLU最低GPU
Llama 3.1 8B4.9 GB~45 tok/s66.6%RTX 3060 6 GB
Qwen 2.5 14B9.3 GB~28 tok/s74.8%RTX 3060 12 GB
Mistral Small 3.1 24B14.4 GB~20 tok/s~81%RTX 4080 16 GB

品質対VRAM:各モデルが勝つ場面

Llama 3.1 8BはVRAM効率で勝ります。 Q4_K_Mで4.9 GBと、4kトークンのコンテキストウィンドウ用の余裕を持って6 GBカードに収まる唯一のモデルです。MMLUで66.6%を記録し、素早いインタラクティブな応答(RTX 4090で~45 tok/s)を提供します。制限されたハードウェアでのチャット、クイックコーディングクエリ、日常使用に最適です。

Qwen 2.5 14Bは12 GB VRAMで勝ります。 MMLU 74.8%で推論とコーディングにおいてLlama 3.1 8Bを大きく上回り、最も一般的なプロシューマーGPUティア内に収まります。Qwen Coder 14Bバリアント(同サイズ、コード最適化)はHumanEvalで約78%を記録します。主にコーディングに使用し12 GBカードをお持ちの場合、Qwen 2.5 14Bが答えです。

Mistral Small 3.1 24BはVRAMが許す場合に品質で勝ります。 MMLU 81%と優れた多言語性能により、16 GBカードのトップ選択肢となります。14Bクラスのモデルより信頼性高く、長文推論、構造化出力タスク、複雑な指示セットを処理します。RTX 4090 24 GBではQ5_K_Mでさらに高い品質が得られます。

14Bクラスの直接比較については、コーディングベンチマーク詳細を含むQwen 14B対Llama 8Bの比較をご覧ください。

よくある質問:Mistral Small 24B vs Qwen 14B vs Llama 8B

Mistral Small 24BはRTX 3060 12 GBで動作しますか?
いいえ。Mistral Small 3.1 24B Q4_K_Mは14.4 GB VRAMが必要でRTX 3060 12 GBを超えます。Q2_Kに下げると約7.6 GBになりますが、品質が著しく低下します。RTX 3060 12 GBにはQwen 2.5 14B Q4_K_M(9.3 GB)が適切な選択です — コンテキスト用に2.7 GBの余裕があります。
Mistral Small 24BはコーディングでQwen 2.5 14Bより優れていますか?
一般的なコーディングでは、Mistral Small 24Bはサイズが大きい分わずかに優位です。ただし、Qwen 2.5 Coder 14B(コード最適化Qwenバリアント)はHumanEvalでMistral Small 24Bと競争力があり、12 GB VRAMに収まります。16 GBカードで推論とコーディングの両方が必要な場合はMistral Small 24Bが勝ちます。12 GBではQwen Coder 14Bがより良いトレードオフです。
RTX 4080のような16 GB GPUではどのモデルを使うべきですか?
Mistral Small 3.1 24B Q4_K_Mは14.4 GBで1.6 GBの余裕を持って収まります — 2kコンテキストウィンドウに十分です。推論ベンチマークでQwen 2.5 14Bを上回ります。代替として、Qwen 2.5 32B Q3_K_Mが約13.5 GBに収まり、コーディングタスクでMistral Small 24Bと競合しながらより多くのパラメータを提供します。
Llama 3.1 8BとLlama 3.2の違いは何ですか?
Llama 3.2 8Bはリリースされていません — 3.2シリーズは1B、3B、マルチモーダル11B/90Bバリアントのみを導入しました。Llama 3.1 8Bは標準的な8B Llamaリファレンスモデルのままです。6〜8 GB VRAMでのテキストのみの使用には、Llama 3.1 8Bがこのサイズクラスで現在推奨される選択肢です。