温度和Top-P控制AI模型在选择单词时的冒险程度或保守程度。通过调整这些设置，您可以在创造力和可靠性之间权衡——更高的值产生令人惊讶的多样化输出；较低的值产生安全的、可预测的输出。

什么是温度和Top-P？

温度是一个旋钮，使模型的输出更加随机（更高）或更具确定性（更低）。 在温度0.0下，模型总是选择最有可能的下一个单词——每次运行都会产生相同的输出。在温度1.0+时，模型会考虑更多风险较高的替代方案，产生令人惊讶和多样化的文本。

Top-P（核抽样）控制模型在每一步考虑多少个可能的单词选项。 与其说"有多随机"，不如说"有多少合理的选择"。在Top-P 0.1时，模型仅考虑顶部选项直到达到10%的累积概率——狭隘且安全。在Top-P 0.9时，它考虑了更广泛的可能单词集——更宽松和多样化。

简而言之：温度控制"有多冒险"，Top-P控制"要考虑多少选项"。两者都影响输出的多样性，但方式不同。

🔍 适用于本地模型

温度和Top-P设置在所有本地LLM工具中可用。相同的参数，相同的效果。

它们如何改变AI行为

温度效果：

温度范围	行为	最适用于
低（0.0–0.3）	聚焦、重复、高度稳定	每次需要完全相同答案的任务；循环风险
中等（0.4–0.7）	平衡的稳定性和多样化	大多数常见任务；推荐起点
高（0.8–1.0+）	创意的、多样的、令人惊讶的	头脑风暴和变体；幻觉风险

Top-P效果： 低（0.1–0.3）创建非常狭隘的选项集和高度保守的输出。中等（0.5–0.7）平衡多样性和稳定性。高（0.8–1.0）扩展选项集并鼓励创意，类似于高温度。重要： 许多提供商链接或限制这些设置。OpenAI的GPT模型在明确设置温度时经常忽略Top-P。Claude允许您独立控制两者。始终检查您提供商的文档——相同的数字在所有模型中的含义不同。

温度与Top-P：需要两者吗？

两种设置都控制随机性，但大多数用户应该仅调整一个并将另一个保持为合理的默认值。 同时改变两者会使不知道哪个设置产生了您想要的效果。根据调整数千个提示的经验：保持Top-P为默认值（例如0.9–1.0）并仅调整温度，除非特定的模型建议否则。

策略	温度	Top-P	何时使用
确定性模式	0.0–0.2	1.0（默认）	代码、数据提取、任务关键输出
平衡默认	0.5–0.7	0.9–1.0	大多数常见任务、摘要、解释
创意/头脑风暴	0.8–1.0	0.9–1.0	想法生成、市场营销文案、变体、讲故事
高稳定性生产	0.0–0.3	0.95	医疗保健、财务、法律、安全关键

按用例推荐的设置

编码、重构、错误修复： 温度0.1–0.3，Top-P 0.95。语法必须正确，创意会干扰。较低的设置可防止幻觉函数名称或逻辑错误。
摘要和解释： 温度0.4–0.6，Top-P 0.9。您需要清晰度和一致性，但措辞的某些差异是可以的。低温度会使摘要显得机械化。
头脑风暴想法、市场营销文案、创意变体： 温度0.7–1.0，Top-P 1.0。较高的设置鼓励出乎意料的组合和新的措辞。您需要过滤更多输出，但您会得到更野性的想法。
数据提取和结构化输出： 温度0.0–0.2，Top-P 0.95。格式必须完全正确。更高的随机性会导致解析错误和缺失字段。
长篇写作（论文、博客文章）： 温度0.6–0.8，Top-P 0.9–1.0。从这里开始并根据反馈调整。如果输出看起来通用，增加温度；如果偏离或幻觉，降低它。
基于事实的问答（无基础）： 温度0.3–0.5，Top-P 0.9。适度的设置可以减少幻觉，同时保持回答自然。

提示和参数如何协同工作

提示设计总比滑块设置更重要。 温度0.2的模糊指令仍会产生不良答案——只是一个一致的不良答案。具有完美设置的清晰、结构良好的提示会产生比设置更好的结果。有关提示结构的基础，请参阅基础：什么是提示工程？。

正确的工作流是：（1）首先使用清晰的任务、上下文、约束和输出格式设计提示（参见基础：每个提示需要的5个基本构件）。（2）在您的目标温度/Top-P处测试。（3）仅在提示坚实后需要更多或更少变化时调整滑块。

相同的提示在不同温度下会产生非常不同的风格。在温度0.2下，输出是安全且直接的。在温度0.8下，输出是创意且富有诗意的。两者都不是"更好的"——这取决于您的品牌声音和使用案例。对于大多数任务，首先修复提示会消除完全修改温度的需要。

示例提示

为生产力应用编写简短的、有冲击力的产品标语。保持在10个单词以内。

在温度0.2：

"用更少的时间做更多的事。"

在温度0.8：

"从混乱到清晰：时刻化为动力的地方。"

更高的创造力何时变成风险

更高的温度和Top-P会增加幻觉、离题和风格漂移——尤其是对于事实型任务。 对于以下情况要保守（温度0.0–0.5）：进入生产的代码（幻觉API破坏系统）、健康和医疗建议（错误的信息造成伤害）、财务和法律（准确性是强制性的）和安全关键的决定（错误有后果）。

对于基于事实的任务，考虑将较低的温度与技术：RAG解释：如何用真实数据支撑AI答案或显式源约束相结合，以进一步减少错误。另请参见基础：AI幻觉：为什么AI会编造东西，了解为什么更高的温度会放大虚构。

PromptQuorum如何帮助您调整温度和Top-P

通常，测试温度和Top-P设置意味着在多个模型上多次运行相同的提示，手动记录输出并比较——耗时且难以跟踪。PromptQuorum简化了此工作流。

多模型比较： 在一次分发中跨25+个模型（GPT-4o、Claude Opus 4.7、Gemini 1.5 Pro、Mistral、本地Ollama模型）发送一个不同温度/Top-P设置的提示。立即看到哪个模型在较高温度下保持稳定，哪个在您的目标设置下提供最佳创意输出。

基于框架的结构： PromptQuorum的框架在您接触任何滑块之前，确保您的指令、格式和约束得到充分结构化。这从其他变量中隔离温度/Top-P的效果——您不是在混合不良提示和参数调整。

共识和评分： 使用幻觉风险、风格一致性和相关性评分的Quorum分析将所有输出并排查看。选择最适合您任务的创造力与可靠性权衡的模型+设置组合。

自动温度建议： PromptQuorum分析您的任务描述和提示结构，然后根据您的用例（编码、摘要、头脑风暴等）建议最佳温度范围。在应用和Chrome扩展程序中可用，PromptQuorum提议超出标准默认值的温度值，针对您的特定任务和使用的模型进行定制。无需猜测"我应该使用0.2还是0.7？"，该工具根据任务分析建议具体值——帮助您跳过手动试错。

本地LLM工作流： 无需编写脚本即可在Ollama或LM Studio上测试不同的温度/Top-P组合，然后为您的工作流保存最佳预设。

快速启动配方

将这些用作您的任务的起点：

安全事实模式： 温度0.2，Top-P 0.95 | 最适用于问答、摘要、数据提取、事实型任务 | 输出：可靠、一致、最少幻觉
默认平衡模式： 温度0.5，Top-P 0.9 | 最适用于大多数常见任务、解释、常见写作 | 输出：自然、稳定但有一些变化
创意头脑风暴模式： 温度0.8，Top-P 1.0 | 最适用于想法生成、市场营销文案、讲故事、变体 | 输出：多样化、令人惊讶，需要过滤的许多选项
简短答案模式： 温度0.3，Top-P 0.95（与基础：更快的AI答案：如何为速度提示配对）| 最适用于直接答案、快速决定、简明输出 | 输出：快速、直接、最少详细信息
实验模式： 温度1.0，Top-P 1.0 | 最适用于探索模型行为、理解限制、研究 | 输出：不可预测，最大变化

温度和Top-P的常见错误

将两者都调到最大并期望可靠性。 高温度+高Top-P=最大随机性。只有在进行头脑风暴或实验时才这样做。
同时更改两个旋钮。 您不会知道哪个设置产生了效果。更改一个、观察，然后根据需要更改另一个。
尝试用滑块修复不良提示。 模糊的指令在任何温度下仍会产生不良输出。首先修复提示。
忘记模型对相同值的解释不同。 Claude上的温度0.7与GPT-4o上的0.7感觉不同。始终测试您的实际模型。
没有测试足够的运行。 温度0.5下的一个输出可能是离群值。运行至少3–5次以查看典型行为。
将温度设置为0并期望完美正确性。 低温度会降低随机性，但不会消除幻觉。幻觉来自训练数据差距，而不是随机抽样。
完全忽略，因为您的提供商忽略了它。 一些模型这样做；有些则不。检查文档以避免浪费时间调整禁用的旋钮。

我应该先调整温度还是Top-P？

温度。它有更明显的效果。保持Top-P为默认值（0.9–1.0），直到您感受到温度对您的任务的影响，然后仅在需要时微调Top-P。

为什么一个模型会忽略我的温度设置？

某些模型在某些配置中限制或禁用温度和Top-P（例如，如果温度设置为0.0，OpenAI会忽略Top-P）。检查您提供商的文档。使用PromptQuorum的多模型视图，您会立即看到这一点。

我可以将温度设置为0以获得保证的正确性吗？

不能。温度0.0意味着"总是选择最有可能的单词"，这是确定性的但不总是正确的。幻觉是关于训练数据差距和任务歧义，而不是随机抽样。结合低温度与清晰的提示和基础以获得更好的可靠性。

为什么我在低温度下仍然看到幻觉？

当模型的训练数据有差距或任务有歧义时，幻觉就会发生——不仅仅是由于随机抽样。低温设置关于其幻觉是一致的，但不会消除它们。使用RAG或显式源约束来减少它们。

GPT-4o、Claude Opus 4.7和Gemini 1.5 Pro之间的推荐设置是否不同？

略有不同。全部三个在温度0.5–0.7下表现合理，但对较高温度的容限不同。GPT-4o可以走得更高而不变成不连贯；Claude Opus 4.7非常稳定；Gemini 1.5 Pro更多实验性。测试您的实际模型。

公平地比较设置需要多少次运行？

至少每个设置3–5次以查看典型行为。如果您在输出变异高的较高温度下工作，则更多。PromptQuorum的多运行功能会自动为所有模型处理此。

什么是提示工程？ – 为什么提示结构比参数更重要

每个提示需要的5个基本构件 – 如何在调整参数之前结构化提示

AI幻觉：为什么AI会编造东西 – 为什么低温度不能消除幻觉

OpenAI，2024。"API参考：温度和Top_P参数" – 关于参数范围和效果的官方文档

Holtzman等，2020。"神经文本退化的奇异案例" – 关于核抽样（Top-P）及其对文本质量影响的研究

Anthropic，2024。"Claude：如何使用提示" – 有关温度和参数调整的Claude特定指导

温度和Top-P：控制AI创造力

视觉摘要: 温度和Top-P：控制AI创造力