Ollama上哪些模型支持128K上下文？

选择语言:

快速回答

Llama 3.3 8B在Ollama上支持128K上下文。Qwen 3 14B可达1M个token。注意：运行完整上下文会大幅增加VRAM——128K窗口比默认4K窗口需要多3–4倍VRAM。

更新于: 2026-05

Ollama

关键要点

真正能达到128K的模型

截至2026年5月，大多数Ollama模型宣称支持128K上下文，但在该长度下能提供有效输出质量的模型很少。问题在于"中间遗失"效应：在标准文档长度上训练的模型，难以关注到长上下文深处的信息。

在Ollama上能在128K完整上下文下稳定保持质量的模型有两个：Llama 3.3 8B（原生在128K下训练）和Qwen 3 14B（最多1M token，但VRAM限制使128K成为消费级实用上限）。对于大多数其他7B模型，输出质量在超过32K token后会明显下降。

如果您的任务涉及超过20,000字的文档，从Llama 3.3 8B开始。如果需要最强的长上下文质量且有12+ GB VRAM，Qwen 3 14B是更好的选择。

扩展上下文窗口会显著增加VRAM使用量。KV-Cache存储上下文中所有token的注意力状态，在128K上下文下可能占用与模型权重相当的VRAM。

下表显示Q4_K_M的7B模型KV-Cache VRAM的扩展情况。这些数值假设模型使用分组查询注意力（GQA）——不使用GQA的模型会消耗更多KV-Cache。

日常任务中节省VRAM，请在运行Ollama时设置--num-ctx 4096。仅在特定任务需要时扩展至32K或128K。长上下文本地LLM的完整指南（包括模型选择和RAM分割），请参阅长上下文本地LLM指南。

如何在Ollama中启用128K上下文？▾

在运行命令中添加--num-ctx 131072：ollama run llama3.1:8b --num-ctx 131072。不使用该参数时，无论模型最大能力如何，Ollama默认使用2048–4096个token。

为什么长上下文需要这么多VRAM？▾

KV-Cache存储上下文中每个token的注意力状态。在128K token时，该缓存可能与模型权重本身一样大。7B Q4模型需要约5.5 GB存储权重，但在128K上下文下需要约10 GB的KV-Cache。

128K上下文对代码开发有用吗？▾

是的，在处理大型代码库时非常有用。将整个代码仓库或多个文件纳入上下文，可以显著改善重构和跨文件推理任务。128K代码开发推荐使用Qwen 3 14B。

长文档分析最适合哪个模型？▾

Q4_K_M的Qwen 3 14B是Ollama上长文档的首选——它在完整上下文长度下的质量维持能力优于7B替代品。如果还需要在长文档旁进行图像理解，请参阅Ollama视觉模型。