Ollama上哪些模型支持128K上下文?
快速回答
Llama 3.3 8B在Ollama上支持128K上下文。Qwen 3 14B可达1M个token。注意:运行完整上下文会大幅增加VRAM——128K窗口比默认4K窗口需要多3–4倍VRAM。
- ▸Llama 3.3 8B:128K上下文,完整上下文约需16 GB VRAM
- ▸Qwen 3 14B:最多1M token,完整上下文需24+ GB VRAM
- ▸日常使用设置--num-ctx 4096以节省VRAM
更新于: 2026-05
Ollama
关键要点
- ✓大多数7B Ollama模型宣称支持128K上下文,但超过32K token后质量明显下降
- ✓Llama 3.3 8B和Qwen 3 14B是能在完整128K下稳定输出高质量结果的两个模型
- ✓128K上下文窗口可能使VRAM用量增至近3倍——7B Q4模型在128K下需约15 GB,默认只需约5.5 GB
- ✓日常任务设置<code>--num-ctx 4096</code>;仅在需要时扩展上下文
真正能达到128K的模型
截至2026年5月,大多数Ollama模型宣称支持128K上下文,但在该长度下能提供有效输出质量的模型很少。问题在于"中间遗失"效应:在标准文档长度上训练的模型,难以关注到长上下文深处的信息。
在Ollama上能在128K完整上下文下稳定保持质量的模型有两个:Llama 3.3 8B(原生在128K下训练)和Qwen 3 14B(最多1M token,但VRAM限制使128K成为消费级实用上限)。对于大多数其他7B模型,输出质量在超过32K token后会明显下降。
如果您的任务涉及超过20,000字的文档,从Llama 3.3 8B开始。如果需要最强的长上下文质量且有12+ GB VRAM,Qwen 3 14B是更好的选择。
长上下文的VRAM成本
扩展上下文窗口会显著增加VRAM使用量。KV-Cache存储上下文中所有token的注意力状态,在128K上下文下可能占用与模型权重相当的VRAM。
下表显示Q4_K_M的7B模型KV-Cache VRAM的扩展情况。这些数值假设模型使用分组查询注意力(GQA)——不使用GQA的模型会消耗更多KV-Cache。
日常任务中节省VRAM,请在运行Ollama时设置--num-ctx 4096。仅在特定任务需要时扩展至32K或128K。长上下文本地LLM的完整指南(包括模型选择和RAM分割),请参阅长上下文本地LLM指南。
| 上下文长度 | KV-Cache (7B) | 总VRAM (7B Q4) |
|---|---|---|
| 4K(默认) | ~0.5 GB | ~5.5 GB |
| 16K | ~1.5 GB | ~6.5 GB |
| 32K | ~3 GB | ~8 GB |
| 128K | ~10 GB | ~15 GB |
长上下文模型常见问题
如何在Ollama中启用128K上下文?▾
在运行命令中添加
--num-ctx 131072:ollama run llama3.1:8b --num-ctx 131072。不使用该参数时,无论模型最大能力如何,Ollama默认使用2048–4096个token。为什么长上下文需要这么多VRAM?▾
KV-Cache存储上下文中每个token的注意力状态。在128K token时,该缓存可能与模型权重本身一样大。7B Q4模型需要约5.5 GB存储权重,但在128K上下文下需要约10 GB的KV-Cache。
128K上下文对代码开发有用吗?▾
是的,在处理大型代码库时非常有用。将整个代码仓库或多个文件纳入上下文,可以显著改善重构和跨文件推理任务。128K代码开发推荐使用Qwen 3 14B。
长文档分析最适合哪个模型?▾
Q4_K_M的Qwen 3 14B是Ollama上长文档的首选——它在完整上下文长度下的质量维持能力优于7B替代品。如果还需要在长文档旁进行图像理解,请参阅Ollama视觉模型。