什么是温度和Top-P?
温度是一个旋钮,使模型的输出更加随机(更高)或更具确定性(更低)。 在温度0.0下,模型总是选择最有可能的下一个单词——每次运行都会产生相同的输出。在温度1.0+时,模型会考虑更多风险较高的替代方案,产生令人惊讶和多样化的文本。
Top-P(核抽样)控制模型在每一步考虑多少个可能的单词选项。 与其说"有多随机",不如说"有多少合理的选择"。在Top-P 0.1时,模型仅考虑顶部选项直到达到10%的累积概率——狭隘且安全。在Top-P 0.9时,它考虑了更广泛的可能单词集——更宽松和多样化。
简而言之:温度控制"有多冒险",Top-P控制"要考虑多少选项"。两者都影响输出的多样性,但方式不同。
关键要点
- 温度直接控制随机性: 0.0–0.3用于确定性,0.4–0.7用于均衡,0.8+用于创意。
- Top-P控制单词选项的范围: 低会缩小选择,高会扩大选择。
- 大多数用户应该调整一个参数,保持另一个为默认值。 同时调整两个会使不知道哪个设置有效。
- 提示设计总比滑块设置更重要。 先修复模糊的说明,然后在必要时调整参数。
- 不同的用例需要不同的设置: 代码需要低温度,头脑风暴从较高值中获益。
它们如何改变AI行为
温度效果:
| 温度范围 | 行为 | 最适用于 |
|---|---|---|
| 低(0.0–0.3) | 聚焦、重复、高度稳定 | 每次需要完全相同答案的任务;循环风险 |
| 中等(0.4–0.7) | 平衡的稳定性和多样化 | 大多数常见任务;推荐起点 |
| 高(0.8–1.0+) | 创意的、多样的、令人惊讶的 | 头脑风暴和变体;幻觉风险 |
Top-P效果: 低(0.1–0.3)创建非常狭隘的选项集和高度保守的输出。中等(0.5–0.7)平衡多样性和稳定性。高(0.8–1.0)扩展选项集并鼓励创意,类似于高温度。重要: 许多提供商链接或限制这些设置。OpenAI的GPT模型在明确设置温度时经常忽略Top-P。Claude允许您独立控制两者。始终检查您提供商的文档——相同的数字在所有模型中的含义不同。
温度与Top-P:需要两者吗?
两种设置都控制随机性,但大多数用户应该仅调整一个并将另一个保持为合理的默认值。 同时改变两者会使不知道哪个设置产生了您想要的效果。根据调整数千个提示的经验:保持Top-P为默认值(例如0.9–1.0)并仅调整温度,除非特定的模型建议否则。
| 策略 | 温度 | Top-P | 何时使用 |
|---|---|---|---|
| 确定性模式 | 0.0–0.2 | 1.0(默认) | 代码、数据提取、任务关键输出 |
| 平衡默认 | 0.5–0.7 | 0.9–1.0 | 大多数常见任务、摘要、解释 |
| 创意/头脑风暴 | 0.8–1.0 | 0.9–1.0 | 想法生成、市场营销文案、变体、讲故事 |
| 高稳定性生产 | 0.0–0.3 | 0.95 | 医疗保健、财务、法律、安全关键 |
按用例推荐的设置
- 编码、重构、错误修复: 温度0.1–0.3,Top-P 0.95。语法必须正确,创意会干扰。较低的设置可防止幻觉函数名称或逻辑错误。
- 摘要和解释: 温度0.4–0.6,Top-P 0.9。您需要清晰度和一致性,但措辞的某些差异是可以的。低温度会使摘要显得机械化。
- 头脑风暴想法、市场营销文案、创意变体: 温度0.7–1.0,Top-P 1.0。较高的设置鼓励出乎意料的组合和新的措辞。您需要过滤更多输出,但您会得到更野性的想法。
- 数据提取和结构化输出: 温度0.0–0.2,Top-P 0.95。格式必须完全正确。更高的随机性会导致解析错误和缺失字段。
- 长篇写作(论文、博客文章): 温度0.6–0.8,Top-P 0.9–1.0。从这里开始并根据反馈调整。如果输出看起来通用,增加温度;如果偏离或幻觉,降低它。
- 基于事实的问答(无基础): 温度0.3–0.5,Top-P 0.9。适度的设置可以减少幻觉,同时保持回答自然。
提示和参数如何协同工作
提示设计总比滑块设置更重要。 温度0.2的模糊指令仍会产生不良答案——只是一个一致的不良答案。具有完美设置的清晰、结构良好的提示会产生比设置更好的结果。有关提示结构的基础,请参阅基础:什么是提示工程?。
正确的工作流是:(1)首先使用清晰的任务、上下文、约束和输出格式设计提示(参见基础:每个提示需要的5个基本构件)。(2)在您的目标温度/Top-P处测试。(3)仅在提示坚实后需要更多或更少变化时调整滑块。
相同的提示在不同温度下会产生非常不同的风格。在温度0.2下,输出是安全且直接的。在温度0.8下,输出是创意且富有诗意的。两者都不是"更好的"——这取决于您的品牌声音和使用案例。对于大多数任务,首先修复提示会消除完全修改温度的需要。
示例提示
为生产力应用编写简短的、有冲击力的产品标语。保持在10个单词以内。
在温度0.2:
"用更少的时间做更多的事。"
在温度0.8:
"从混乱到清晰:时刻化为动力的地方。"
更高的创造力何时变成风险
更高的温度和Top-P会增加幻觉、离题和风格漂移——尤其是对于事实型任务。 对于以下情况要保守(温度0.0–0.5):进入生产的代码(幻觉API破坏系统)、健康和医疗建议(错误的信息造成伤害)、财务和法律(准确性是强制性的)和安全关键的决定(错误有后果)。
对于基于事实的任务,考虑将较低的温度与技术:RAG解释:如何用真实数据支撑AI答案或显式源约束相结合,以进一步减少错误。另请参见基础:AI幻觉:为什么AI会编造东西,了解为什么更高的温度会放大虚构。
PromptQuorum如何帮助您调整温度和Top-P
通常,测试温度和Top-P设置意味着在多个模型上多次运行相同的提示,手动记录输出并比较——耗时且难以跟踪。PromptQuorum简化了此工作流。
多模型比较: 在一次分发中跨25+个模型(GPT-4o、Claude 4.6 Sonnet、Gemini 1.5 Pro、Mistral、本地Ollama模型)发送一个不同温度/Top-P设置的提示。立即看到哪个模型在较高温度下保持稳定,哪个在您的目标设置下提供最佳创意输出。
基于框架的结构: PromptQuorum的框架在您接触任何滑块之前,确保您的指令、格式和约束得到充分结构化。这从其他变量中隔离温度/Top-P的效果——您不是在混合不良提示和参数调整。
共识和评分: 使用幻觉风险、风格一致性和相关性评分的Quorum分析将所有输出并排查看。选择最适合您任务的创造力与可靠性权衡的模型+设置组合。
自动温度建议: PromptQuorum分析您的任务描述和提示结构,然后根据您的用例(编码、摘要、头脑风暴等)建议最佳温度范围。在应用和Chrome扩展程序中可用,PromptQuorum提议超出标准默认值的温度值,针对您的特定任务和使用的模型进行定制。无需猜测"我应该使用0.2还是0.7?",该工具根据任务分析建议具体值——帮助您跳过手动试错。
本地LLM工作流: 无需编写脚本即可在Ollama或LM Studio上测试不同的温度/Top-P组合,然后为您的工作流保存最佳预设。
快速启动配方
将这些用作您的任务的起点:
- 安全事实模式: 温度0.2,Top-P 0.95 | 最适用于问答、摘要、数据提取、事实型任务 | 输出:可靠、一致、最少幻觉
- 默认平衡模式: 温度0.5,Top-P 0.9 | 最适用于大多数常见任务、解释、常见写作 | 输出:自然、稳定但有一些变化
- 创意头脑风暴模式: 温度0.8,Top-P 1.0 | 最适用于想法生成、市场营销文案、讲故事、变体 | 输出:多样化、令人惊讶,需要过滤的许多选项
- 简短答案模式: 温度0.3,Top-P 0.95(与基础:更快的AI答案:如何为速度提示配对)| 最适用于直接答案、快速决定、简明输出 | 输出:快速、直接、最少详细信息
- 实验模式: 温度1.0,Top-P 1.0 | 最适用于探索模型行为、理解限制、研究 | 输出:不可预测,最大变化
温度和Top-P的常见错误
- 将两者都调到最大并期望可靠性。 高温度+高Top-P=最大随机性。只有在进行头脑风暴或实验时才这样做。
- 同时更改两个旋钮。 您不会知道哪个设置产生了效果。更改一个、观察,然后根据需要更改另一个。
- 尝试用滑块修复不良提示。 模糊的指令在任何温度下仍会产生不良输出。首先修复提示。
- 忘记模型对相同值的解释不同。 Claude上的温度0.7与GPT-4o上的0.7感觉不同。始终测试您的实际模型。
- 没有测试足够的运行。 温度0.5下的一个输出可能是离群值。运行至少3–5次以查看典型行为。
- 将温度设置为0并期望完美正确性。 低温度会降低随机性,但不会消除幻觉。幻觉来自训练数据差距,而不是随机抽样。
- 完全忽略,因为您的提供商忽略了它。 一些模型这样做;有些则不。检查文档以避免浪费时间调整禁用的旋钮。
我应该先调整温度还是Top-P?
温度。它有更明显的效果。保持Top-P为默认值(0.9–1.0),直到您感受到温度对您的任务的影响,然后仅在需要时微调Top-P。
为什么一个模型会忽略我的温度设置?
某些模型在某些配置中限制或禁用温度和Top-P(例如,如果温度设置为0.0,OpenAI会忽略Top-P)。检查您提供商的文档。使用PromptQuorum的多模型视图,您会立即看到这一点。
我可以将温度设置为0以获得保证的正确性吗?
不能。温度0.0意味着"总是选择最有可能的单词",这是确定性的但不总是正确的。幻觉是关于训练数据差距和任务歧义,而不是随机抽样。结合低温度与清晰的提示和基础以获得更好的可靠性。
为什么我在低温度下仍然看到幻觉?
当模型的训练数据有差距或任务有歧义时,幻觉就会发生——不仅仅是由于随机抽样。低温设置关于其幻觉是一致的,但不会消除它们。使用RAG或显式源约束来减少它们。
GPT-4o、Claude 4.6 Sonnet和Gemini 1.5 Pro之间的推荐设置是否不同?
略有不同。全部三个在温度0.5–0.7下表现合理,但对较高温度的容限不同。GPT-4o可以走得更高而不变成不连贯;Claude 4.6 Sonnet非常稳定;Gemini 1.5 Pro更多实验性。测试您的实际模型。
公平地比较设置需要多少次运行?
至少每个设置3–5次以查看典型行为。如果您在输出变异高的较高温度下工作,则更多。PromptQuorum的多运行功能会自动为所有模型处理此。
OpenAI,2024。"API参考:温度和Top_P参数" – 关于参数范围和效果的官方文档
Holtzman等,2020。"神经文本退化的奇异案例" – 关于核抽样(Top-P)及其对文本质量影响的研究
Anthropic,2024。"Claude:如何使用提示" – 有关温度和参数调整的Claude特定指导