Home/Blog/AI共识评分：如何跨多个模型检测幻觉

AI可靠性

AI共识评分：如何跨多个模型检测幻觉

当五个AI模型独立认同某个事实时，答案的可靠性远高于单个模型单独回答。这就是AI共识评分的原理。

发布于 2026年3月16日•11分钟阅读•By Hans Kuepper · PromptQuorum

什么是AI共识评分？

AI共识评分是一种通过测量多个独立语言模型之间的一致性来评估AI生成信息可靠性的方法。当您将相同的提示词发送给五个或更多AI模型，并分析它们的回答在哪里收敛和发散时，您会获得关于哪些主张可能准确、哪些可能被幻觉的统计信号。

共识评分基于每个声明有多少模型独立同意，为每个声明分配一个置信度级别。高共识=高可靠性。低共识=进一步调查。

为什么单个模型的答案不能用于高风险决策

每个主要语言模型都会产生幻觉。GPT-4o、Claude、Gemini——它们都用听起来自信的语言捏造事实。模型之间的区别不是是否产生幻觉，而是哪些事实出错，以及何时出错。

•幻觉率从有据可查的领域的3-7%变化到利基主题的20-30%
•在相同互联网数据上训练的模型共享一些幻觉模式——但每个模型也有独特的失败模式
•GPT-4o幻觉的声明不太可能以完全相同的方式被Claude独立幻觉

共识评分如何运作

共识评分分四个阶段运作：

•阶段1——分发：同时向多个AI模型发送相同的优化提示词
•阶段2——收集：不加过滤地收集所有回答
•阶段3——提取：将每个回答分解为单独的、可独立验证的声明
•阶段4——评分：对于每个提取的声明，计算有多少模型独立陈述了它

共识置信度级别

PromptQuorum将共识分数映射到五个置信度级别：

级别	一致性	解读	行动
完全共识	5/5模型	近乎确定的事实声明	以高置信度接受
强共识	4/5模型	高度可靠，细微变化	接受，记录分歧模型
多数共识	3/5模型	可能准确，存在一些不确定性	带验证说明接受
弱共识	2/5模型	有争议或模糊的声明	独立验证后使用
无共识	1/5模型	潜在的幻觉	标记进行人工核实

通过跨模型分析检测幻觉

AI模型独立产生幻觉。每个模型都有自己的训练数据分布和独特的失败模式。一个特定的错误声明不太可能被五个不同的模型独立生成。

•数字幻觉（错误日期、统计数据）最容易检测——模型在捏造数字上差异显著
•专有名词幻觉在多个模型对归属意见不一致时被发现
•关系幻觉（错误的因果声明）在模型相互矛盾时浮现

真实示例：共识评分实战

假设您问五个模型："2024年OpenAI的市值是多少？"

四个模型同意800亿美元（2024年10月融资轮）。一个模型表示1570亿美元。共识评分立即发现差异——该模型混淆了后续融资轮的估值。

PromptQuorum中的13种Quorum分析类型

PromptQuorum通过13种不同的分析类型实现共识评分：

•共识摘要——提取所有模型同意的声明
•加权合并——综合按置信度分数加权的最优回答
•原子事实提取——将回答分解为单独的可验证声明
•重叠映射——识别出现在最多回答中的内容
•矛盾检测——标记模型直接矛盾的点
•置信度评分——基于跨模型一致性为每个声明分配分数
•完整性检查——识别某些模型中存在但其他模型中缺失的信息
•幻觉检测——标记仅出现在一两个模型中的声明
•冗余消除——删除重复信息
•最佳答案选择——识别最完整、最准确的模型回答
•多模型集成——结合每个模型最强元素的混合回答
•争议标记——标记模型持续不同意的主题
•回答排名——从最可靠到最不可靠排列回答

共识评分最重要的时机

•研究和事实核查——一个幻觉统计数据可能使整个论点失效
•医疗和法律信息——准确性不可妥协
•近期事件——模型对其知识截止日期附近的事件数据较少
•技术规格——版本号和API端点频繁变化
•数字声明——日期、数字和百分比是最常见的幻觉载体

关键要点

•AI共识评分通过比较独立模型的一致性来衡量可靠性
•没有任何单一AI模型能消除幻觉——跨模型验证是唯一可扩展的可靠性层
•5/5模型的声明几乎可以确定；1/5模型的声明可能是幻觉
•幻觉检测之所以有效，是因为模型独立产生幻觉
•PromptQuorum通过13种Quorum分析类型实现共识评分

Ready to optimize your prompts?

← Back to Blog

AI共识评分：如何跨多个模型检测幻觉 | PromptQuorum Blog