PromptQuorumPromptQuorum

Ollamaで128Kコンテキストに対応するモデルは?

クイック回答

Llama 3.1 8BはOllamaで128Kコンテキストに対応。Qwen 2.5 14Bは1Mトークンに到達。注意:フルコンテキストの実行はVRAMを大幅に増加させます——128Kウィンドウはデフォルトの4Kウィンドウの3〜4倍のVRAMが必要です。

  • Llama 3.1 8B:128Kコンテキスト、フルコンテキスト時約16 GB VRAM
  • Qwen 2.5 14B:最大1Mトークン、フルコンテキスト時24+ GB VRAM
  • 通常使用時はVRAMを節約するため--num-ctx 4096を設定

更新: 2026-05

Ollama

重要なポイント

  • ほとんどの7B Ollamaモデルは128Kコンテキストを宣伝しているが、32Kトークン以上では品質が低下する
  • Llama 3.1 8BとQwen 2.5 14Bは128Kフルコンテキストで安定した品質を提供する2つのモデル
  • 128Kコンテキストウィンドウはデフォルトと比較してVRAM使用量をほぼ3倍にする可能性がある——7B Q4モデルはデフォルトの約5.5 GBに対し128Kで約15 GBが必要
  • 日常的なタスクには<code>--num-ctx 4096</code>を設定し、必要な時だけコンテキストを拡張する

実際に128Kに到達するモデル

2026年5月時点で、ほとんどのOllamaモデルは128Kコンテキストを宣伝していますが、その長さで有用な出力品質を実現するものは少数です。問題は「ロスト・イン・ザ・ミドル」効果:標準的な文書長で訓練されたモデルは、長いコンテキストの深い部分にある情報に注目するのが困難です。

Ollamaで128Kフルコンテキストの品質を安定して維持するモデルは2つ:Llama 3.1 8B(128Kでネイティブ訓練)とQwen 2.5 14B(最大1Mトークン、ただしVRAM制約により128Kが実用的なコンシューマー上限)。他の7Bモデルの大部分は、32Kトークン以上では出力品質が著しく低下します。

20,000語以上の文書を扱うタスクにはLlama 3.1 8Bから始めてください。最高の長文コンテキスト品質が必要で12+ GB VRAMがある場合は、Qwen 2.5 14Bが優れた選択肢です。

長いコンテキストのVRAMコスト

コンテキストウィンドウを拡張するとVRAM使用量が大幅に増加します。KV-Cache(コンテキスト内のすべてのトークンのアテンション状態を保存)は、128Kコンテキストではモデルの重みと同量のVRAMを使用することがあります。

下の表はQ4_K_Mの7BモデルにおけるKV-CacheのVRAMスケーリングを示します。これらの数値はGrouped Query Attention(GQA)を使用するモデルを想定しています——GQAを使用しないモデルはKV-Cacheの使用量が大幅に多くなります。

日常的なタスクでVRAMを節約するには、Ollamaの起動時に--num-ctx 4096を設定してください。特定のタスクで必要な場合にのみ32Kや128Kに拡張します。モデル選択やRAM分割を含む長文コンテキストLLMの完全ガイドは、長文コンテキストローカルLLMガイドをご覧ください。

コンテキスト長KV-Cache (7B)合計VRAM (7B Q4)
4K(デフォルト)~0.5 GB~5.5 GB
16K~1.5 GB~6.5 GB
32K~3 GB~8 GB
128K~10 GB~15 GB

長文コンテキストモデルに関するよくある質問

Ollamaで128Kコンテキストを有効にするには?
実行コマンドに--num-ctx 131072を追加します:ollama run llama3.1:8b --num-ctx 131072。このフラグがない場合、モデルの最大能力に関係なく、Ollamaはデフォルトで2048〜4096トークンを使用します。
長いコンテキストはなぜVRAMを大量に消費するのですか?
KV-Cacheはコンテキスト内のすべてのトークンのアテンション状態を保存します。128Kトークンでは、このキャッシュはモデルの重みと同じ大きさになることがあります。7B Q4モデルは重みに約5.5 GBが必要ですが、128Kコンテキストでは約10 GBのKV-Cacheが必要です。
128Kコンテキストはコーディングに役立ちますか?
はい、大規模なコードベースを扱う際に有効です。リポジトリ全体や複数ファイルをコンテキストに収めることで、リファクタリングやファイル横断的な推論タスクが大幅に改善されます。128Kでのコーディングには、Qwen 2.5 14Bが推奨モデルです。
長文ドキュメント分析に最適なモデルは?
Q4_K_MのQwen 2.5 14BはOllamaでの長文ドキュメントにおける第一選択肢です——フルコンテキスト長での品質を7B代替より優れた形で維持します。長文ドキュメントと並行して画像理解も必要な場合は、Ollamaビジョンモデルをご覧ください。