自洽一致性提示（Self-Consistency）让模型对同一个问题生成5-20条独立的推理路径，然后投票选择出现最频繁的答案。 这个简单的技巧将数学、逻辑和复杂分析的准确率从56%提升到74%，比单次Chain-of-Thought推理提高18个百分点。

自洽一致性是什么

定义：同一个提示词用不同的采样参数运行多次，让模型生成不同的推理链，最后用多数投票选择最终答案。

关键论文：Wang et al.（2023）ICLR。Princeton和Google DeepMind团队。arXiv:2211.11559

核心思想：单次推理可能出错（计算错误、逻辑跳跃）。但如果同一个问题用5种不同方式思考，最多数的答案更可信。这就是统计学中的"多个独立估计值的共识比单一估计更可靠"。

简单比喻：人在做复杂决策时，通常会从多个角度思考同一问题。自洽一致性让AI也这样做。

与Chain-of-Thought的关系：CoT让模型展示推理过程。自洽一致性在CoT基础上加一层：多次CoT后投票决策。

🔍 知道吗

人类专业人士（医生、律师、工程师）在重要决策前常会寻求第二意见，或从不同角度重新审视问题。自洽一致性把这个专业实践编码到了AI中。

为什么有效

多样性：温度(Temperature) 0.7-1.0会产生随机但合理的多个推理路径。温度为0则所有输出相同，无法投票。

错误相消：5条路径中，某条计算错误的概率比5条都错误的概率高得多。投票自动过滤掉偶发错误。

模型自不确定性表现：如果5条路径都给出相同答案，模型对这个答案很有信心。如果答案分散，说明问题的难度超过了模型能力。

统计鲁棒性：从统计学角度，n个独立估计的平均或众数，比单一估计的方差小得多。自洽一致性利用这个原理。

实现机制：

1. 设置Temperature = 0.8

2. 同样提示词运行5-10次

3. 每次输出一条完整的推理链

4. 从每条链提取最终答案

5. 统计答案频率，最多的那个就是最终答案

实际数字展示

基准测试：GSM8K（小学数学应用题8500道）

结果对比：

• Chain-of-Thought（单次）：56%

• 自洽一致性（8次投票）：74%

• 提升幅度：+18个百分点（相对提升32%）

其他基准的表现：

• SVAMP数学题：83%→90%

• AQuA复合推理：35%→55%

采样数对精度的影响（GSM8K）：

• 1次（基线）：56%

• 3次：70%

• 5次：72%

• 8次：74%

• 16次：75%

• 32次：75.3%（增长停滞）

关键观察：5-8次采样获得90%的收益。超过10次后，边际收益快速递减。在实际应用中，8次采样是成本和精度的最优平衡。

如何实现

步骤1：准备基础提示词

输入示例：

"请逐步解答以下数学问题：问题"

步骤2：配置采样参数

• Temperature: 0.7-0.9（必须！不能是0）

• 采样次数: 5-8次（首次推荐）

• Max tokens: 根据问题复杂度调整

步骤3：多次运行

• 使用同一提示词连续调用API 8次

• 每次使用不同的seed或rely on Temperature的随机性

• 记录所有输出

步骤4：提取答案

• 从每个输出中提取最终答案

• 格式统一（如都转为小写、都转为数字）

• 示例：8次输出的答案为 42, 42, 43, 42, 42, 42, 41, 42

步骤5：投票决策

• 统计频率：42出现6次，43出现1次，41出现1次

• 选择最多：42

• 置信度 = 最多频数/总数 = 6/8 = 75%

对比：CoT vs 自洽一致性 vs 多模型投票

三种推理精度提升方案的对比：

维度	Chain-of-Thought	自洽一致性	多模型投票
工作原理	同一模型、单次运行，显示推理过程	同一模型、多次运行，投票选择答案	多个不同模型、各运行一次、投票决策
采样数/模型数	1次	5-10次	3-5个模型
GSM8K精度	56%	74%（+18点）	71%（+15点）
Token消耗	基线	5-10倍	3-5倍（取决于模型定价）
延迟(Latency)	最低	高（串行运行多次）	中等（可并行）
最适用场景	所有需要推理的任务（基础方法）	确定答案、高价值决策（数学、诊断）	捕捉模型偏见、综合多视角（研究、内容审核）
成本效率	最优	低（大量token消耗）	中等

何时使用

✅ 自洽一致性有效的场景：

• 数学计算（方程式、概率、统计）

• 逻辑推理（谜题、符号推理）

• 医学诊断（症状→诊断）

• 法律分析（合同解读、案例适用）

• 代码审计（bug查找、安全漏洞）

• 企业政策判定（合规性、流程决策）

❌ 自洽一致性不适用的场景：

• 创意写作（无唯一"正确答案"）

• 文本分类（情感分析等概率任务）

• 机器翻译（多个等价答案）

• 开放式问答（多视角都有效）

决策流程：

Q1: 这个任务有确定的答案吗？

是→ 继续Q2

否→ 不使用自洽一致性

Q2: 现有的单次推理精度是否 < 85%？

是→ 可考虑自洽一致性

否→ 单次已足够

Q3: 公司是否容许5-10倍的token成本？

是→ 实施自洽一致性

否→ 考虑多模型投票

🔍 建议

金融机构风控、医疗诊断辅助、法律合规审查这三个场景，自洽一致性的ROI最高。一次错误的风控决策可能损失千万级人民币，相比之下8倍token成本微不足道。

常见实现错误

错误1：Temperature设为0运行多次

问题：Temperature=0是确定性的。8次采样会得到8份相同输出。投票没有意义。

修正：Temperature必须0.7-1.0

错误2：采样次数过多

问题：20-50次采样消耗成本指数增加，但精度改善停滞（见GSM8K数据）

修正：从5次开始。精度不够再考虑8次。超过10次通常不划算

错误3：答案格式不统一

问题：一条链输出"答案是42"，另一条输出"42"，第三条"四十二"。投票失效。

修正：预处理答案。数字统一为阿拉伯数字，文本统一为小写。用正则表达式提取最终答案。

错误4：投票逻辑不清

问题：8次采样中4个答案是A，3个是B，1个是C。该选A还是B都未定？

修正：事先约定投票规则（简单多数？75%阈值？）。记录置信度和异议。

错误5：忽视置信度信息

问题：8次里只有4个相同答案（50%）的结果，和8个都相同（100%）的结果，一样处理。

修正：始终报告"答案X，置信度Y%"。低于60%的置信度要标记为"需人工审核"

⚠️ 警告

自洽一致性提升的是统计平均精度，不是绝对保证。如果问题本身模型理解错误（如误读题意），8次采样也会全部错误。金融、医疗等高风险场景必须配合专家复核。不能完全依赖自动投票。

在PromptQuorum中使用

PromptQuorum原生支持自洽一致性工作流：

1. 选择模型：Claude Opus 4.7、GPT-4o、Gemini 3.1 Pro

2. 设置采样数：5、8、10对比实验

3. 配置Temperature：0.7-0.9

4. 运行多采样：系统自动运行N次并收集输出

5. 自动投票：系统统计答案频率，给出最终结果和置信度

额外优势：

• 跨模型对比：不仅单模型多采样，还能看3个模型的一致性

• 可视化仪表板：看采样分布、置信度趋势

• 批量测试：对测试集自动投票，生成精度报告

实战例子：金融风控

• 输入：交易特征数据

• 提示词：请判断这笔交易是否存在欺诈风险

• PromptQuorum设置：Claude + GPT + Gemini，各8采样

• 输出：

- 是否欺诈？投票结果 (可能：6/24票)

- 置信度：25%（偏低，需人工复核）

- 模型分歧：Claude和GPT倾向"欺诈"，Gemini倾向"正常"

- 建议：人工审核此笔交易

快速开始

第1步：找一个有明确答案的问题

• 数学题、逻辑谜题或医学案例都可以

• 必须有标准答案可对比

第2步：基线测试

• 用单次CoT运行，记录准确率

• 示例：测试10道题，CoT答对5道（50%）

第3步：配置自洽一致性

• Temperature: 0.8

• 采样次数: 5

第4步：运行5次采样

• 同一题目5次输出

• 记录所有答案

第5步：投票

• 统计答案频率

• 取最多票答案

第6步：精度对比

• 单次CoT vs 5采样投票

• 计算提升百分点

第7步：优化（可选）

• 如果精度还不够，试试8采样

• 如果成本受限，试试3采样

推荐首选模型：Claude Opus 4.7（推理强）或 GPT-4o（多样性好）

参考文献

Wang et al. (2023). "Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023. arXiv:2211.11559

Wei et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903

Cobbe et al. (2021). "Training Verifiers to Solve Math Word Problems." OpenAI. arXiv:2110.14168

Uesato et al. (2022). "Solving Mixed-Modal Jailbreak Prompts by Decomposition." DeepMind.

Anthropic (2026). "Extended Thinking in Claude." Claude API Documentation.

OpenAI (2026). "Reasoning in o3 and GPT-4o." OpenAI API Documentation.

常见问题

什么是自洽一致性提示？

自洽一致性提示是一种技术，其中您为同一问题生成多个独立答案——每个都有自己的推理路径——然后选择出现最频繁的答案。您不是相信单一AI回应，而是相信许多人的共识。它由Wang et al.在2023年引入，并显著改善了数学、逻辑和多步推理任务的准确性。

自洽一致性需要多少个样本？

对于大多数任务，5-10个样本提供最佳的准确性与成本比率。原始论文显示精度从1到5个样本迅速改善，然后在20个以上出现收益递减。从20个到40个样本在GSM8K上只增加了2个百分点。从5个开始；仅在高风险决策中增加到10-20个。

自洽一致性在简单任务上有效吗？

没有显著效果。对于事实查询、简单分类或短文本编写，单一答案几乎总是足够且便宜得多。自洽一致性只对模型单次精度低于~90%的任务有价值——通常是数学、逻辑谜题、多步分析和复杂推理。

自洽一致性应该使用多少温度？

将温度设置为0.7-1.0。该技术需要多样化的推理路径——如果温度为0（确定性），每个样本都会产生相同的输出，投票就没有意义了。更高的温度会产生使多数投票更有信息量的变异。

自洽一致性成本增加多少？

大约每个任务多耗费5-20倍token，因为您生成5-20个完整的响应而不是一个。对于成本0.01美元的响应，10个样本的自洽一致性成本为0.10美元。这对关键决策（财务分析、医学推理、法律解释）是合理的，但对日常任务浪费。

自洽一致性与"最佳N"采样相同吗？

相似但不相同。最佳N生成N个响应并选择最好的（通常由质量评分器）。自洽一致性生成N个推理路径并选择最常见的答案——投票是关于结论而不是质量。自洽一致性不需要质量评分器；它使用一致性作为信号。

我可以将自洽一致性与链式思维提示结合使用吗？

可以——这是原始的、最有效的组合。您的每个N个样本都使用链式思维推理，产生完整的推理踪迹加上最终答案。然后您对所有N条踪迹的最终答案进行投票。推理路径可能不同，但如果大多数达到相同的结论，那么该结论是稳健的。

PromptQuorum与自洽一致性的关系如何？

PromptQuorum在不同模型之间而不是在一个模型内应用相同的共识原则。您不是让同一模型回答10次，而是让5个不同的模型各回答一次并比较答案。他们同意的地方，信心很高。他们不同意的地方，需要验证。这捕捉了单模型自洽一致性无法检测的模型特定偏见。

自洽一致性提示：生成多个答案，投票选择最佳答案