快速回答
Llama 3.1 8B在Ollama上支持128K上下文。Qwen 2.5 14B可达1M个token。注意:运行完整上下文会大幅增加VRAM——128K窗口比默认4K窗口需要多3–4倍VRAM。
更新于: 2026-05
关键要点
截至2026年5月,大多数Ollama模型宣称支持128K上下文,但在该长度下能提供有效输出质量的模型很少。问题在于"中间遗失"效应:在标准文档长度上训练的模型,难以关注到长上下文深处的信息。
在Ollama上能在128K完整上下文下稳定保持质量的模型有两个:Llama 3.1 8B(原生在128K下训练)和Qwen 2.5 14B(最多1M token,但VRAM限制使128K成为消费级实用上限)。对于大多数其他7B模型,输出质量在超过32K token后会明显下降。
如果您的任务涉及超过20,000字的文档,从Llama 3.1 8B开始。如果需要最强的长上下文质量且有12+ GB VRAM,Qwen 2.5 14B是更好的选择。
扩展上下文窗口会显著增加VRAM使用量。KV-Cache存储上下文中所有token的注意力状态,在128K上下文下可能占用与模型权重相当的VRAM。
下表显示Q4_K_M的7B模型KV-Cache VRAM的扩展情况。这些数值假设模型使用分组查询注意力(GQA)——不使用GQA的模型会消耗更多KV-Cache。
日常任务中节省VRAM,请在运行Ollama时设置--num-ctx 4096。仅在特定任务需要时扩展至32K或128K。长上下文本地LLM的完整指南(包括模型选择和RAM分割),请参阅长上下文本地LLM指南。
| 上下文长度 | KV-Cache (7B) | 总VRAM (7B Q4) |
|---|---|---|
| 4K(默认) | ~0.5 GB | ~5.5 GB |
| 16K | ~1.5 GB | ~6.5 GB |
| 32K | ~3 GB | ~8 GB |
| 128K | ~10 GB | ~15 GB |
--num-ctx 131072:ollama run llama3.1:8b --num-ctx 131072。不使用该参数时,无论模型最大能力如何,Ollama默认使用2048–4096个token。