クイック回答
Llama 3.1 8BはOllamaで128Kコンテキストに対応。Qwen 2.5 14Bは1Mトークンに到達。注意:フルコンテキストの実行はVRAMを大幅に増加させます——128Kウィンドウはデフォルトの4Kウィンドウの3〜4倍のVRAMが必要です。
更新: 2026-05
重要なポイント
2026年5月時点で、ほとんどのOllamaモデルは128Kコンテキストを宣伝していますが、その長さで有用な出力品質を実現するものは少数です。問題は「ロスト・イン・ザ・ミドル」効果:標準的な文書長で訓練されたモデルは、長いコンテキストの深い部分にある情報に注目するのが困難です。
Ollamaで128Kフルコンテキストの品質を安定して維持するモデルは2つ:Llama 3.1 8B(128Kでネイティブ訓練)とQwen 2.5 14B(最大1Mトークン、ただしVRAM制約により128Kが実用的なコンシューマー上限)。他の7Bモデルの大部分は、32Kトークン以上では出力品質が著しく低下します。
20,000語以上の文書を扱うタスクにはLlama 3.1 8Bから始めてください。最高の長文コンテキスト品質が必要で12+ GB VRAMがある場合は、Qwen 2.5 14Bが優れた選択肢です。
コンテキストウィンドウを拡張するとVRAM使用量が大幅に増加します。KV-Cache(コンテキスト内のすべてのトークンのアテンション状態を保存)は、128Kコンテキストではモデルの重みと同量のVRAMを使用することがあります。
下の表はQ4_K_Mの7BモデルにおけるKV-CacheのVRAMスケーリングを示します。これらの数値はGrouped Query Attention(GQA)を使用するモデルを想定しています——GQAを使用しないモデルはKV-Cacheの使用量が大幅に多くなります。
日常的なタスクでVRAMを節約するには、Ollamaの起動時に--num-ctx 4096を設定してください。特定のタスクで必要な場合にのみ32Kや128Kに拡張します。モデル選択やRAM分割を含む長文コンテキストLLMの完全ガイドは、長文コンテキストローカルLLMガイドをご覧ください。
| コンテキスト長 | KV-Cache (7B) | 合計VRAM (7B Q4) |
|---|---|---|
| 4K(デフォルト) | ~0.5 GB | ~5.5 GB |
| 16K | ~1.5 GB | ~6.5 GB |
| 32K | ~3 GB | ~8 GB |
| 128K | ~10 GB | ~15 GB |
--num-ctx 131072を追加します:ollama run llama3.1:8b --num-ctx 131072。このフラグがない場合、モデルの最大能力に関係なく、Ollamaはデフォルトで2048〜4096トークンを使用します。