AI可靠性
AI共识评分:如何跨多个模型检测幻觉
当五个AI模型独立认同某个事实时,答案的可靠性远高于单个模型单独回答。这就是AI共识评分的原理。
什么是AI共识评分?
AI共识评分是一种通过测量多个独立语言模型之间的一致性来评估AI生成信息可靠性的方法。当您将相同的提示词发送给五个或更多AI模型,并分析它们的回答在哪里收敛和发散时,您会获得关于哪些主张可能准确、哪些可能被幻觉的统计信号。
共识评分基于每个声明有多少模型独立同意,为每个声明分配一个置信度级别。高共识=高可靠性。低共识=进一步调查。
为什么单个模型的答案不能用于高风险决策
每个主要语言模型都会产生幻觉。GPT-4o、Claude、Gemini——它们都用听起来自信的语言捏造事实。模型之间的区别不是是否产生幻觉,而是哪些事实出错,以及何时出错。
- •幻觉率从有据可查的领域的3-7%变化到利基主题的20-30%
- •在相同互联网数据上训练的模型共享一些幻觉模式——但每个模型也有独特的失败模式
- •GPT-4o幻觉的声明不太可能以完全相同的方式被Claude独立幻觉
共识评分如何运作
共识评分分四个阶段运作:
- •阶段1——分发:同时向多个AI模型发送相同的优化提示词
- •阶段2——收集:不加过滤地收集所有回答
- •阶段3——提取:将每个回答分解为单独的、可独立验证的声明
- •阶段4——评分:对于每个提取的声明,计算有多少模型独立陈述了它
共识置信度级别
PromptQuorum将共识分数映射到五个置信度级别:
| 级别 | 一致性 | 解读 | 行动 |
|---|---|---|---|
| 完全共识 | 5/5模型 | 近乎确定的事实声明 | 以高置信度接受 |
| 强共识 | 4/5模型 | 高度可靠,细微变化 | 接受,记录分歧模型 |
| 多数共识 | 3/5模型 | 可能准确,存在一些不确定性 | 带验证说明接受 |
| 弱共识 | 2/5模型 | 有争议或模糊的声明 | 独立验证后使用 |
| 无共识 | 1/5模型 | 潜在的幻觉 | 标记进行人工核实 |
通过跨模型分析检测幻觉
AI模型独立产生幻觉。每个模型都有自己的训练数据分布和独特的失败模式。一个特定的错误声明不太可能被五个不同的模型独立生成。
- •数字幻觉(错误日期、统计数据)最容易检测——模型在捏造数字上差异显著
- •专有名词幻觉在多个模型对归属意见不一致时被发现
- •关系幻觉(错误的因果声明)在模型相互矛盾时浮现
真实示例:共识评分实战
假设您问五个模型:"2024年OpenAI的市值是多少?"
四个模型同意800亿美元(2024年10月融资轮)。一个模型表示1570亿美元。共识评分立即发现差异——该模型混淆了后续融资轮的估值。
PromptQuorum中的13种Quorum分析类型
PromptQuorum通过13种不同的分析类型实现共识评分:
- •共识摘要——提取所有模型同意的声明
- •加权合并——综合按置信度分数加权的最优回答
- •原子事实提取——将回答分解为单独的可验证声明
- •重叠映射——识别出现在最多回答中的内容
- •矛盾检测——标记模型直接矛盾的点
- •置信度评分——基于跨模型一致性为每个声明分配分数
- •完整性检查——识别某些模型中存在但其他模型中缺失的信息
- •幻觉检测——标记仅出现在一两个模型中的声明
- •冗余消除——删除重复信息
- •最佳答案选择——识别最完整、最准确的模型回答
- •多模型集成——结合每个模型最强元素的混合回答
- •争议标记——标记模型持续不同意的主题
- •回答排名——从最可靠到最不可靠排列回答
共识评分最重要的时机
- •研究和事实核查——一个幻觉统计数据可能使整个论点失效
- •医疗和法律信息——准确性不可妥协
- •近期事件——模型对其知识截止日期附近的事件数据较少
- •技术规格——版本号和API端点频繁变化
- •数字声明——日期、数字和百分比是最常见的幻觉载体
关键要点
- •AI共识评分通过比较独立模型的一致性来衡量可靠性
- •没有任何单一AI模型能消除幻觉——跨模型验证是唯一可扩展的可靠性层
- •5/5模型的声明几乎可以确定;1/5模型的声明可能是幻觉
- •幻觉检测之所以有效,是因为模型独立产生幻觉
- •PromptQuorum通过13种Quorum分析类型实现共识评分