PromptQuorumPromptQuorum
Home/Blog/AI共识评分:如何跨多个模型检测幻觉
AI可靠性

AI共识评分:如何跨多个模型检测幻觉

当五个AI模型独立认同某个事实时,答案的可靠性远高于单个模型单独回答。这就是AI共识评分的原理。

11分钟阅读By Hans Kuepper · PromptQuorum

什么是AI共识评分?

AI共识评分是一种通过测量多个独立语言模型之间的一致性来评估AI生成信息可靠性的方法。当您将相同的提示词发送给五个或更多AI模型,并分析它们的回答在哪里收敛和发散时,您会获得关于哪些主张可能准确、哪些可能被幻觉的统计信号。

共识评分基于每个声明有多少模型独立同意,为每个声明分配一个置信度级别。高共识=高可靠性。低共识=进一步调查。

为什么单个模型的答案不能用于高风险决策

每个主要语言模型都会产生幻觉。GPT-4o、Claude、Gemini——它们都用听起来自信的语言捏造事实。模型之间的区别不是是否产生幻觉,而是哪些事实出错,以及何时出错。

  • 幻觉率从有据可查的领域的3-7%变化到利基主题的20-30%
  • 在相同互联网数据上训练的模型共享一些幻觉模式——但每个模型也有独特的失败模式
  • GPT-4o幻觉的声明不太可能以完全相同的方式被Claude独立幻觉

共识评分如何运作

共识评分分四个阶段运作:

  • 阶段1——分发:同时向多个AI模型发送相同的优化提示词
  • 阶段2——收集:不加过滤地收集所有回答
  • 阶段3——提取:将每个回答分解为单独的、可独立验证的声明
  • 阶段4——评分:对于每个提取的声明,计算有多少模型独立陈述了它

共识置信度级别

PromptQuorum将共识分数映射到五个置信度级别:

级别一致性解读行动
完全共识5/5模型近乎确定的事实声明以高置信度接受
强共识4/5模型高度可靠,细微变化接受,记录分歧模型
多数共识3/5模型可能准确,存在一些不确定性带验证说明接受
弱共识2/5模型有争议或模糊的声明独立验证后使用
无共识1/5模型潜在的幻觉标记进行人工核实

通过跨模型分析检测幻觉

AI模型独立产生幻觉。每个模型都有自己的训练数据分布和独特的失败模式。一个特定的错误声明不太可能被五个不同的模型独立生成。

  • 数字幻觉(错误日期、统计数据)最容易检测——模型在捏造数字上差异显著
  • 专有名词幻觉在多个模型对归属意见不一致时被发现
  • 关系幻觉(错误的因果声明)在模型相互矛盾时浮现

真实示例:共识评分实战

假设您问五个模型:"2024年OpenAI的市值是多少?"

四个模型同意800亿美元(2024年10月融资轮)。一个模型表示1570亿美元。共识评分立即发现差异——该模型混淆了后续融资轮的估值。

PromptQuorum中的13种Quorum分析类型

PromptQuorum通过13种不同的分析类型实现共识评分:

  • 共识摘要——提取所有模型同意的声明
  • 加权合并——综合按置信度分数加权的最优回答
  • 原子事实提取——将回答分解为单独的可验证声明
  • 重叠映射——识别出现在最多回答中的内容
  • 矛盾检测——标记模型直接矛盾的点
  • 置信度评分——基于跨模型一致性为每个声明分配分数
  • 完整性检查——识别某些模型中存在但其他模型中缺失的信息
  • 幻觉检测——标记仅出现在一两个模型中的声明
  • 冗余消除——删除重复信息
  • 最佳答案选择——识别最完整、最准确的模型回答
  • 多模型集成——结合每个模型最强元素的混合回答
  • 争议标记——标记模型持续不同意的主题
  • 回答排名——从最可靠到最不可靠排列回答

共识评分最重要的时机

  • 研究和事实核查——一个幻觉统计数据可能使整个论点失效
  • 医疗和法律信息——准确性不可妥协
  • 近期事件——模型对其知识截止日期附近的事件数据较少
  • 技术规格——版本号和API端点频繁变化
  • 数字声明——日期、数字和百分比是最常见的幻觉载体

关键要点

  • AI共识评分通过比较独立模型的一致性来衡量可靠性
  • 没有任何单一AI模型能消除幻觉——跨模型验证是唯一可扩展的可靠性层
  • 5/5模型的声明几乎可以确定;1/5模型的声明可能是幻觉
  • 幻觉检测之所以有效,是因为模型独立产生幻觉
  • PromptQuorum通过13种Quorum分析类型实现共识评分

Ready to optimize your prompts?

← Back to Blog

AI共识评分:如何跨多个模型检测幻觉 | PromptQuorum Blog