PromptQuorumPromptQuorum

Ollama上哪些模型支持128K上下文?

快速回答

Llama 3.1 8B在Ollama上支持128K上下文。Qwen 2.5 14B可达1M个token。注意:运行完整上下文会大幅增加VRAM——128K窗口比默认4K窗口需要多3–4倍VRAM。

  • Llama 3.1 8B:128K上下文,完整上下文约需16 GB VRAM
  • Qwen 2.5 14B:最多1M token,完整上下文需24+ GB VRAM
  • 日常使用设置--num-ctx 4096以节省VRAM

更新于: 2026-05

Ollama

关键要点

  • 大多数7B Ollama模型宣称支持128K上下文,但超过32K token后质量明显下降
  • Llama 3.1 8B和Qwen 2.5 14B是能在完整128K下稳定输出高质量结果的两个模型
  • 128K上下文窗口可能使VRAM用量增至近3倍——7B Q4模型在128K下需约15 GB,默认只需约5.5 GB
  • 日常任务设置<code>--num-ctx 4096</code>;仅在需要时扩展上下文

真正能达到128K的模型

截至2026年5月,大多数Ollama模型宣称支持128K上下文,但在该长度下能提供有效输出质量的模型很少。问题在于"中间遗失"效应:在标准文档长度上训练的模型,难以关注到长上下文深处的信息。

在Ollama上能在128K完整上下文下稳定保持质量的模型有两个:Llama 3.1 8B(原生在128K下训练)和Qwen 2.5 14B(最多1M token,但VRAM限制使128K成为消费级实用上限)。对于大多数其他7B模型,输出质量在超过32K token后会明显下降。

如果您的任务涉及超过20,000字的文档,从Llama 3.1 8B开始。如果需要最强的长上下文质量且有12+ GB VRAM,Qwen 2.5 14B是更好的选择。

长上下文的VRAM成本

扩展上下文窗口会显著增加VRAM使用量。KV-Cache存储上下文中所有token的注意力状态,在128K上下文下可能占用与模型权重相当的VRAM。

下表显示Q4_K_M的7B模型KV-Cache VRAM的扩展情况。这些数值假设模型使用分组查询注意力(GQA)——不使用GQA的模型会消耗更多KV-Cache。

日常任务中节省VRAM,请在运行Ollama时设置--num-ctx 4096。仅在特定任务需要时扩展至32K或128K。长上下文本地LLM的完整指南(包括模型选择和RAM分割),请参阅长上下文本地LLM指南

上下文长度KV-Cache (7B)总VRAM (7B Q4)
4K(默认)~0.5 GB~5.5 GB
16K~1.5 GB~6.5 GB
32K~3 GB~8 GB
128K~10 GB~15 GB

长上下文模型常见问题

如何在Ollama中启用128K上下文?
在运行命令中添加--num-ctx 131072ollama run llama3.1:8b --num-ctx 131072。不使用该参数时,无论模型最大能力如何,Ollama默认使用2048–4096个token。
为什么长上下文需要这么多VRAM?
KV-Cache存储上下文中每个token的注意力状态。在128K token时,该缓存可能与模型权重本身一样大。7B Q4模型需要约5.5 GB存储权重,但在128K上下文下需要约10 GB的KV-Cache。
128K上下文对代码开发有用吗?
是的,在处理大型代码库时非常有用。将整个代码仓库或多个文件纳入上下文,可以显著改善重构和跨文件推理任务。128K代码开发推荐使用Qwen 2.5 14B。
长文档分析最适合哪个模型?
Q4_K_M的Qwen 2.5 14B是Ollama上长文档的首选——它在完整上下文长度下的质量维持能力优于7B替代品。如果还需要在长文档旁进行图像理解,请参阅Ollama视觉模型