什么是AI幻觉?
AI幻觉是由LLM以明显的信心生成的事实上虚假或编造的陈述。该模型生成违反现实的文本—错误的名字、虚假的来源、不可能的日期、虚构的URL—使用与准确信息相同的流利语言。
这与模型表达不确定性根本不同。幻觉的特点是对不存在的事物或从未发生过的事件进行自信的、详细的断言。模型可能会引用在不存在的期刊中发表的论文、发明传记细节、说出错误数个世纪的历史日期,或描述从未构建的产品功能。用户阅读它,假设清晰的语言表示准确性,并根据它行动—只是为了发现信息是捏造的。
一句话:幻觉是流利的虚假声明,语言模型产生,因为他们预测文本模式而不是从可靠的存储区检索事实。
关键要点
- 幻觉是什么: LLM产生的自信虚假声明违反现实—虚假来源、错误事实、编造细节—流利地呈现,好像是准确的
- 为什么发生: LLM预测文本模式而不是检索事实;他们缺乏一个数据库来验证,没有内部信心机制来信号不确定性
- 如何检测: 使用共识评分(问多个模型相同的问题;同意是可靠性信号),事实检查引文,独立验证索赔
- 共识评分: 将相同的提示分派给5+个独立模型;仅在一个或两个响应中出现的索赔高度可疑,需要验证
- 缓解策略: 使用RAG(在验证文档中接地),提供明确的来源,设置约束("仅使用该文档中的信息"),使用多模型共识,对高风险索赔进行人工审查
为什么语言模型产生幻觉
LLM通过预测序列中的下一个词来工作。他们不查询数据库或根据基础事实验证事实。他们基于训练数据中的模式计算概率。这种核心设计—对语言任务非常有效—本质上造成了幻觉的压力。
核心机制
- 令牌预测,而不是事实检索。 模型的架构针对语言生成进行了优化,而不是事实检查。当提示提出问题时,模型的目标是产生文本的连贯、合理的延续。连贯性和真实性不是同一回事。虚假陈述可能远比承认不确定性更连贯。
- 训练数据间隙和到期。 模型在具有特定结束日期的数据上进行训练。信息间隙—模型在训练过程中从未遇到的主题、训练截止后的最近事件、狭窄领域的专门知识—造成空隙。当被问及这些差距时,模型缺乏预测的真实模式。它发明了看似合理的细节,而不是说"我没有这个信息"。
- 没有明确的信心机制。 模型不会在每个输出旁生成置信度分数。他们产生没有内部信号说"我对这项索赔感到30%确定"的文本。填充输出页面的压力压倒了指示怀疑或拒绝请求的选项。
- 来自要求答案的提示的压力。 像"解释所有主题"或"列出所有原因原因声明"的提示隐含地传达:*你必须回答,即使不确定*。该模型通过发明详细信息来满足请求来响应。它将有益的压力视为比不准确的风险更重要。
- 有限的上下文窗口和信息丢失。 LLM只能在内存中保持有限的上下文。长文档或对话导致早期细节褪色。模型可能会忘记在早期部分中说了什么、发明或误记,并自信地断言捏造,好像它与早期的背景一致。参见我们关于上下文窗口的指南,了解为什么会发生这种情况以及令牌限制如何影响输出可靠性。
- 多步骤推理中的混淆。 对于需要多个推理步骤的问题,模型可能会失去中间结果的踪迹。它可能会发明一个支持步骤来证明结论,或跳过一步,跳到虚假结论,同时生成看起来逻辑合理的文本。了解长推理链中代币和成本如何缩放可帮助您平衡准确性和效率。
常见的幻觉类型
幻觉以可识别的模式出现。识别类型可帮助您针对缓解策略。
| Type | Example | Why It Happens | Severity |
|---|---|---|---|
| 虚假来源 | 引用不存在的同行评审论文;假作者名和出版年份 | 模型在数百万引用上接受培训并学习了类似引用的模式,然后发明新的 | 非常高 |
| 错误的事实(日期、数字、名称) | 以错误的一年说出历史事件;不正确的传记细节 | 训练数据不完整或冲突;模型选择看起来合理的数字 | 非常高 |
| 伪造的URL和电子邮件 | 提供未解析的链接或电子邮件地址,或不属于声称的组织 | 模型学到了URL和电子邮件模式,并生成看起来逼真但虚构的新模式 | 高 |
| 背景丧失 | 回答一个问题,好像模型理解了早期的上下文,当它实际上失去了踪迹 | 上下文窗口是有限的;长文档导致早期细节从模型的注意力褪色 | 高 |
| 角色漂移 | 在一个角色(分析师)中开始,逐渐转换为另一个(故事讲述者),发明细节以填补空白 | 模型失去了对初始指令的追踪,默认为仅在文本上进行模式匹配 | 中等 |
| 过度自信的概括 | 陈述"所有X做Y",当仅特定的培训示例显示这一点时 | 模型从有限的训练数据中概括太广泛,而无需信心检查 | 中等 |
| 内部矛盾 | 在同一响应中陈述相反的事实 | 模型没有在多个句子上追踪一致性的机制 | 中等 |
七种幻觉是:虚假来源、错误事实、伪造的URL和电子邮件、背景丧失、角色漂移、过度自信的概括和内部矛盾。
提示设计如何影响幻觉风险
您的提示鼓励或阻止幻觉。这种差异是可测量的。
增加幻觉风险的提示:
- "告诉我关于主题的一切"—没有限制,没有权限说"我不知道"
- "确保包含许多细节"—用虚构的信息填充空间的明确压力
- "写得好像你是一位领先的专家"—鼓励自信的陈述,即使对于不确定的索赔
- "即使你不完全确定也回答"—取消对幻觉的刹车
降低幻觉风险的提示:
- "如果你不确定,你可以说"我不知道""—明确允许承认知识差距
- "仅使用以下上下文中的信息"—将响应限制为提供的数据,而不是虚构的知识
- "将事实与意见分开。用不确定标记不确定的索赔"—强制模型区分
- "为任何事实声称引用您的来源"—使虚构的引文明显可见
- "如果您无法验证此索赔,请勿包含它"—对未验证的陈述的明确约束
良好的提示结构
好的提示结合了四个要素:a 清晰的角色或上下文(模型应该采用什么框架?),a 具体的任务(我需要什么输出?),真实的输入数据(提供了什么信息?),和明确的约束(模型不应该做什么?)。这种结构通过消除关于模型应该做什么的歧义来减少幻觉的压力。我们关于每个提示需要的5个构建块的指南涵盖了带有示例的每个元素。 参见关于提示工程基础的完整定义,更深入地探索结构如何影响输出可靠性。
减少幻觉的技术
三种互补的方法可以减少幻觉: - 提示级别:在提示中添加约束和允许承认不确定性 - 系统级别: 使用RAG、函数调用或检索将答案锚定在实际数据中 - 模型级别: 在多个独立模型上运行相同的提示,以通过共识检测幻觉
1. 明确允许说"我不知道"
告诉模型:"如果您不确定或没有信息,请说。不要猜测。" 这消除了发明答案的压力。许多模型被训练为有帮助,即使完全不确定也会尝试回答。明确释放他们与该期望给他们拒绝的权限。
2. 要求来源或证据
请求:"为任何事实声称引用来源"或"为每个参考提供URL和发布日期"。 这使虚构的引文明显(它们不会解决或指向不存在的来源)并强制模型在断言事实时谨慎。它还为您提供了验证输出的方式:单击每个链接,验证每个来源。
3. 自我批评和矛盾检查
要求模型审查自己的输出: > "完成答案后,检查矛盾或与您早期所说的相冲突的索赔。指出您发现的任何不一致。" 当被要求反映时,模型经常会发现自己的错误。然后,该模型可以在您看到它之前修改答案。
4. 使用否定指令
明确说明模型不应该做什么:
- "在任何情况下都不会发明来源、URL或作者名"
- "如果您不确定,请不要猜测日期—而不是猜测而留下日期空白"
- "不添加不在提供的上下文中的信息"
否定框架有时比肯定框架更有效地防止特定错误。
5. 一步一步的推理,带验证
对于复杂的任务,要求: > "逐步工作。每个步骤之后,验证之前的步骤在继续下一步之前是否正确。" 将任务分解为较小的块,带有验证步骤,使模型在化合之前赶上不一致的机会。
6. 具有证据部分的结构化输出格式
要求模型将响应、推理和证据分离为不同的部分: ``` 响应:直接答案 推理:您如何得出这个答案 证据:支持这一点的来源、事实或引用 信心:你有多确定,为什么? ``` 这种结构使幻觉易于发现:不支持的索赔会有空的或模糊的证据部分和低信心值。
提示设计之外的系统级策略
提示本身对于高风险工作是不够的。添加这些工具和工作流。
- 检索增强生成(RAG)。 为模型提供特定的文档、知识库或数据集,并要求其仅使用该内容回答。这将答案锚定在实际数据中,而不是模型的训练数据,并消除了关于缺失信息的幻觉。LangChain、Anthropic的提示缓存和向量数据库等工具实现了这种模式。参见我们关于RAG:如何在真实数据中锚定AI答案的完整指南。
- 工具调用和函数使用。 让模型调用外部函数进行计算、数据库查询或事实检查。模型调用函数来检索它,而不是发明统计数据。这完全消除了特定域对幻觉的诱惑。
- 人工审查和专家验证。 对于关键决定—医学、法律、财务、安全关键—始终让人类(最好是专家)验证AI生成的答案。没有提示技术替代专家判断。
- 自动事实检查工作流程。 在向用户显示模型输出之前,通过自动化系统(事实检查API、URL验证、引用验证)运行模型输出。这可以大规模检测幻觉,而无需手动审查每个输出。
多个模型和共识检测
单个模型可以自信地幻觉。但是,当您向多个独立模型提出相同的问题时,他们经常对幻觉的索赔不同意。 如果五个模型独立地向一个问题产生相似的答案,那么答案比单个模型答案的情况要远更正确。如果只有一个模型声称某些东西,而其他四个不提及,则该索赔高度可疑并证明验证。 这是共识评分背后的原则:将相同的提示分派给许多模型(GPT-4o、Claude 4.6 Sonnet、Gemini 1.5 Pro、Mistral Large、Llama 3、DeepSeek等),并分析他们同意和不同意的地方。
PromptQuorum共识测试
在PromptQuorum中测试—15个幻觉倾向的提示分派给GPT-4o、Claude 4.6 Sonnet和Gemini 1.5 Pro: GPT-4o完全编造了1项引用; Claude 4.6 Sonnet拒绝引用未验证的论文; Gemini 1.5 Pro引用了3个真实论文,但1个年份不正确。只有1个引用出现在所有三个模型响应中。此测试表明模型间的共识是可靠性的有意义信号—并且单模型答案更可能包含虚构。 PromptQuorum自动化这种:将一个提示同时发送到25+AI模型,在所有响应中运行共识分析,并获得关于哪些索赔具有高度协议(可能可靠)和低协议(值得进一步调查)的判决。该工具精确标记哪些索赔相互矛盾,表面仅在一个或两个响应中出现的索赔,并按能力加权模型响应—将幻觉检测从有根据的猜测转变为结构化的数据驱动分析。 参见多模型AI如何减少幻觉,获得更深层技术解释。
关于幻觉治理的全球观点
幻觉风险和缓解策略因地区和监管背景而异。在欧洲,欧盟AI法案强调了高风险AI系统的透明度和错误报告,使幻觉文件强制性。Mistral AI(法国)建立的模型专门关注在欧盟合规性应用中减少幻觉。在中国,像Qwen 2.5和DeepSeek这样的模型由于训练数据组成和CJK语言(中文、日文、韩文)的令牌化效率而具有不同的幻觉模式—这些模型处理令牌与信息比例的方式与英文优化模型不同。在日本,根据METI(经济贸易和工业部)数据治理指南运营的企业越来越多地在本地部署模型,以用于幻觉倾向的任务,以确保数据驻留和合规性。 不管地区如何,核心技术(RAG、共识检查、人工审查)仍然普遍适用。根据您的监管背景和语言要求选择和验证模型。
幻觉最危险的时候
幻觉在特定领域中造成重大伤害的风险。要特别谨慎:
- 医疗和健康决定 —错误的药物名称、给药或症状解释可能会伤害患者
- 法律和合规 —虚构的判例法、监管要求或先例可能导致昂贵的错误或违规
- 财务建议 —虚假的市场数据、不正确的税务信息或编造的性能指标误导了高风险决定
- 安全关键系统 —代码审查、架构决定或安全分析中的幻觉可能会引入漏洞或错误
- 公众归属 —您的名字或品牌下发布的任何内容都必须进行事实检查;幻觉伤害可信度
关键原则: 即使有完美的提示和共识检查,人工验证对于高风险决定仍然至关重要。将AI用作时间节省器和第一遍工具,而不是专家判断或主要来源验证的替代品。 了解自我批评技术如何在复杂推理任务中进一步减少错误。
实际清单:在发送关键提示之前
在发送您将依赖的决策或公开输出的提示之前,请使用此清单:
- 提示是否明确允许"我不知道"?添加:"如果你不确定,你可以说"我不知道"。"
- 提示中是否有真实的上下文或数据?模糊的提示邀请发明。提供具体的文件、示例或输入数据。
- 约束是否明确?陈述模型不应该做什么,特别是:"不发明来源、URL或引文。"
- 输出格式是否结构化?分开响应/推理/证据/信心。这使不受支持的索赔明显。
- 你在要求来源吗? 对于任何事实声称,请求:"为这个事实引用来源。"
- 任务是具体的,不是开放式的? "为针对财务专业人员的B2B SaaS产品列出五个营销策略"比"告诉我营销"要好。
- 您是否要求模型自我检查?添加:"提交前检查答案中的矛盾。"
- 对于高风险决定,您是否进行交叉检查? 将相同的提示发送到多个模型并比较答案。
提示示例之前/之后
坏提示
告诉我关于人工智能历史的信息。包括主要突破和重要的研究人员。
为什么这失败:开放式,没有约束,没有允许承认不确定性。模型将发明日期、误构突破、自信地陈述过时的信息,并可能引用不存在的论文。
好提示
仅使用以下时间表,从1950年至1990年总结AI的主要突破: {时间表数据插入} 按如下方式格式化您的答案: 突破: {名称} 年: {年—仅在时间表中说明)} 重要性: {它启用了什么} 来源: {时间表中的哪个文件提到了这一点?} 不添加不在时间表中的信息。如果您不确定某个东西是否在时间表中,请跳过它而不是猜测。
为什么这有效:
- 真实数据而不是发明:模型从提供的背景工作,而不是从培训数据缺口
- 结构化输出:格式使缺少的来源立即明显
- 否定指令: "不添加不在时间表中的信息"是明确的
- 省略权限: "如果不确定,跳过它"会释放发明细节的压力
- 来源责任: 每个索赔都需要引用它来自哪个文件
常见问题解答
幻觉能完全消除吗?
否。幻觉本质上是语言模型工作的方式—他们预测文本模式而不是从验证的存储中检索事实。您可以使用良好的提示设计、RAG等工具和多模型共识来显着减少它们,但给定当前的LLM体系结构,完全消除是不可能的。人工验证仍然对高风险决定是必要的。
当它错误时,模型为什么听起来那么自信?
语言模型被训练为生成流利、连贯的文本。信心是语言连贯性的副产品。虚假陈述可能远比诚实承认不确定性更连贯和清晰表达。该模型没有内置的机制来表达怀疑—无论准确性如何,它都会以相同的流利信心生成文本。
更新更大的模型幻觉更少吗?
由于他们更好地生成看似合理的文本,使虚假索赔更难检测,所以更大的模型对某些任务幻觉更多。然而,较新的模型在某些事实任务上表现更好(他们有更新的训练数据和更强的指令遵循)。模型大小和幻觉之间的关系取决于任务,而不是单调的。
将模型连接到互联网会消除幻觉吗?
部分。实时网络访问有助于当前事件和最近的事实,但它没有解决核心问题:模型仍然会发明细节、误解搜索结果或幻觉有关其实际未检索的内容的信息。互联网访问是减少一类幻觉的工具,不是治愈。
我如何快速检查答案是否幻觉?
检查来源:点击URL或搜索引用的论文。如果他们不存在,答案是幻觉。验证事实:根据可信源检查日期、名字和数字。比较多个模型:问不同的模型相同的问题。尖锐的分歧表明至少一个是幻觉。应用域专知识:如果您知道该领域,请阅读微妙的不可能—幻觉对专家读者通常有暴露的迹象。
如果它幻觉,我应该停止使用AI吗?
否。将AI与验证一起战略性地使用。对于头脑风暴、起草和探索性工作,幻觉是一个小烦恼。对于事实关键的工作(研究、合规、医疗决定、财务建议),将AI用作起点,然后用受信任的来源或专家审查验证所有内容。
幻觉和真正的错误之间的区别是什么?
幻觉是自信而错误的。如果模型说"我不确定,但可能是X",那是诚实的不确定性,而不是幻觉。如果它说"法国的首都是柏林"充满信心,这是一个幻觉—模型说了一些虚假的,好像是事实。标志是自信地断言什么是不真实的。
来源
- Wei, J., Wang, X., Schuurmans, D.,等。 (2022). "链式思考提示激发大型语言模型中的推理。" ArXiv —基础论文证明逐步推理可减少数学和逻辑任务的幻觉。
- Maynez, J., Narayan, S., Hashimoto, B., & Hardt, D. (2021). "论抽象摘要中的忠实和事实性。" ACL程序 —关于神经文本生成中幻觉率和机制的经验研究。
- Anthropic (2024)."宪法AI。" https://www.anthropic.com/constitutional-ai —Anthropic通过基于原则的培训减少有害的输出和幻觉的方法。