大型语言模型自信地产生错误信息。这些错误（称为幻觉）的范围从虚假引文到以完全权威性呈现的捏造事实。理解为什么会发生幻觉、如何检测和减少幻觉对于在实际工作中使用LLM的任何人都是必不可少的。

什么是AI幻觉？

AI幻觉是由LLM以明显的信心生成的事实上虚假或编造的陈述。该模型生成违反现实的文本—错误的名字、虚假的来源、不可能的日期、虚构的URL—使用与准确信息相同的流利语言。

这与模型表达不确定性根本不同。幻觉的特点是对不存在的事物或从未发生过的事件进行自信的、详细的断言。模型可能会引用在不存在的期刊中发表的论文、发明传记细节、说出错误数个世纪的历史日期，或描述从未构建的产品功能。用户阅读它，假设清晰的语言表示准确性，并根据它行动—只是为了发现信息是捏造的。

一句话：幻觉是流利的虚假声明，语言模型产生，因为他们预测文本模式而不是从可靠的存储区检索事实。

为什么语言模型产生幻觉

LLM通过预测序列中的下一个词来工作。他们不查询数据库或根据基础事实验证事实。他们基于训练数据中的模式计算概率。这种核心设计—对语言任务非常有效—本质上造成了幻觉的压力。

核心机制

令牌预测，而不是事实检索。 模型的架构针对语言生成进行了优化，而不是事实检查。当提示提出问题时，模型的目标是产生文本的连贯、合理的延续。连贯性和真实性不是同一回事。虚假陈述可能远比承认不确定性更连贯。
训练数据间隙和到期。 模型在具有特定结束日期的数据上进行训练。信息间隙—模型在训练过程中从未遇到的主题、训练截止后的最近事件、狭窄领域的专门知识—造成空隙。当被问及这些差距时，模型缺乏预测的真实模式。它发明了看似合理的细节，而不是说"我没有这个信息"。
没有明确的信心机制。 模型不会在每个输出旁生成置信度分数。他们产生没有内部信号说"我对这项索赔感到30%确定"的文本。填充输出页面的压力压倒了指示怀疑或拒绝请求的选项。
来自要求答案的提示的压力。 像"解释所有主题"或"列出所有原因原因声明"的提示隐含地传达：*你必须回答，即使不确定*。该模型通过发明详细信息来满足请求来响应。它将有益的压力视为比不准确的风险更重要。
有限的上下文窗口和信息丢失。 LLM只能在内存中保持有限的上下文。长文档或对话导致早期细节褪色。模型可能会忘记在早期部分中说了什么、发明或误记，并自信地断言捏造，好像它与早期的背景一致。参见我们关于上下文窗口的指南，了解为什么会发生这种情况以及令牌限制如何影响输出可靠性。
多步骤推理中的混淆。 对于需要多个推理步骤的问题，模型可能会失去中间结果的踪迹。它可能会发明一个支持步骤来证明结论，或跳过一步，跳到虚假结论，同时生成看起来逻辑合理的文本。了解长推理链中代币和成本如何缩放可帮助您平衡准确性和效率。

常见的幻觉类型

幻觉以可识别的模式出现。识别类型可帮助您针对缓解策略。

Type	Example	Why It Happens	Severity
虚假来源	引用不存在的同行评审论文;假作者名和出版年份	模型在数百万引用上接受培训并学习了类似引用的模式，然后发明新的	非常高
错误的事实（日期、数字、名称）	以错误的一年说出历史事件;不正确的传记细节	训练数据不完整或冲突;模型选择看起来合理的数字	非常高
伪造的URL和电子邮件	提供未解析的链接或电子邮件地址，或不属于声称的组织	模型学到了URL和电子邮件模式，并生成看起来逼真但虚构的新模式	高
背景丧失	回答一个问题，好像模型理解了早期的上下文，当它实际上失去了踪迹	上下文窗口是有限的;长文档导致早期细节从模型的注意力褪色	高
角色漂移	在一个角色（分析师）中开始，逐渐转换为另一个（故事讲述者），发明细节以填补空白	模型失去了对初始指令的追踪，默认为仅在文本上进行模式匹配	中等
过度自信的概括	陈述"所有X做Y"，当仅特定的培训示例显示这一点时	模型从有限的训练数据中概括太广泛，而无需信心检查	中等
内部矛盾	在同一响应中陈述相反的事实	模型没有在多个句子上追踪一致性的机制	中等

七种幻觉是：虚假来源、错误事实、伪造的URL和电子邮件、背景丧失、角色漂移、过度自信的概括和内部矛盾。

提示设计如何影响幻觉风险

您的提示鼓励或阻止幻觉。这种差异是可测量的。

增加幻觉风险的提示：

"告诉我关于主题的一切"—没有限制，没有权限说"我不知道"
"确保包含许多细节"—用虚构的信息填充空间的明确压力
"写得好像你是一位领先的专家"—鼓励自信的陈述，即使对于不确定的索赔
"即使你不完全确定也回答"—取消对幻觉的刹车

降低幻觉风险的提示：

"如果你不确定，你可以说"我不知道""—明确允许承认知识差距
"仅使用以下上下文中的信息"—将响应限制为提供的数据，而不是虚构的知识
"将事实与意见分开。用不确定标记不确定的索赔"—强制模型区分
"为任何事实声称引用您的来源"—使虚构的引文明显可见
"如果您无法验证此索赔，请勿包含它"—对未验证的陈述的明确约束

良好的提示结构

好的提示结合了四个要素：a 清晰的角色或上下文（模型应该采用什么框架？），a 具体的任务（我需要什么输出？），真实的输入数据（提供了什么信息？），和明确的约束（模型不应该做什么？）。这种结构通过消除关于模型应该做什么的歧义来减少幻觉的压力。我们关于每个提示需要的5个构建块的指南涵盖了带有示例的每个元素。参见关于提示工程基础的完整定义，更深入地探索结构如何影响输出可靠性。

减少幻觉的技术

三种互补的方法可以减少幻觉： - 提示级别：在提示中添加约束和允许承认不确定性 - 系统级别： 使用RAG、函数调用或检索将答案锚定在实际数据中 - 模型级别： 在多个独立模型上运行相同的提示，以通过共识检测幻觉

1. 明确允许说"我不知道"

告诉模型："如果您不确定或没有信息，请说。不要猜测。" 这消除了发明答案的压力。许多模型被训练为有帮助，即使完全不确定也会尝试回答。明确释放他们与该期望给他们拒绝的权限。

2. 要求来源或证据

请求："为任何事实声称引用来源"或"为每个参考提供URL和发布日期"。这使虚构的引文明显（它们不会解决或指向不存在的来源）并强制模型在断言事实时谨慎。它还为您提供了验证输出的方式：单击每个链接，验证每个来源。

3. 自我批评和矛盾检查

要求模型审查自己的输出： > "完成答案后，检查矛盾或与您早期所说的相冲突的索赔。指出您发现的任何不一致。" 当被要求反映时，模型经常会发现自己的错误。然后，该模型可以在您看到它之前修改答案。

4. 使用否定指令

明确说明模型不应该做什么：

"在任何情况下都不会发明来源、URL或作者名"
"如果您不确定，请不要猜测日期—而不是猜测而留下日期空白"
"不添加不在提供的上下文中的信息"

否定框架有时比肯定框架更有效地防止特定错误。

5. 一步一步的推理，带验证

对于复杂的任务，要求： > "逐步工作。每个步骤之后，验证之前的步骤在继续下一步之前是否正确。" 将任务分解为较小的块，带有验证步骤，使模型在化合之前赶上不一致的机会。

6. 具有证据部分的结构化输出格式

要求模型将响应、推理和证据分离为不同的部分： ``` 响应：直接答案推理：您如何得出这个答案证据：支持这一点的来源、事实或引用信心：你有多确定，为什么？ ``` 这种结构使幻觉易于发现：不支持的索赔会有空的或模糊的证据部分和低信心值。

提示设计之外的系统级策略

提示本身对于高风险工作是不够的。添加这些工具和工作流。

检索增强生成（RAG）。 为模型提供特定的文档、知识库或数据集，并要求其仅使用该内容回答。这将答案锚定在实际数据中，而不是模型的训练数据，并消除了关于缺失信息的幻觉。LangChain、Anthropic的提示缓存和向量数据库等工具实现了这种模式。参见我们关于RAG：如何在真实数据中锚定AI答案的完整指南。
工具调用和函数使用。 让模型调用外部函数进行计算、数据库查询或事实检查。模型调用函数来检索它，而不是发明统计数据。这完全消除了特定域对幻觉的诱惑。
人工审查和专家验证。 对于关键决定—医学、法律、财务、安全关键—始终让人类（最好是专家）验证AI生成的答案。没有提示技术替代专家判断。
自动事实检查工作流程。 在向用户显示模型输出之前，通过自动化系统（事实检查API、URL验证、引用验证）运行模型输出。这可以大规模检测幻觉，而无需手动审查每个输出。

多个模型和共识检测

单个模型可以自信地幻觉。但是，当您向多个独立模型提出相同的问题时，他们经常对幻觉的索赔不同意。如果五个模型独立地向一个问题产生相似的答案，那么答案比单个模型答案的情况要远更正确。如果只有一个模型声称某些东西，而其他四个不提及，则该索赔高度可疑并证明验证。这是共识评分背后的原则：将相同的提示分派给许多模型（GPT-4o、Claude Opus 4.7、Gemini 1.5 Pro、Mistral Large、Llama 3、DeepSeek等），并分析他们同意和不同意的地方。

PromptQuorum共识测试

在PromptQuorum中测试—15个幻觉倾向的提示分派给GPT-4o、Claude Opus 4.7和Gemini 1.5 Pro： GPT-4o完全编造了1项引用; Claude Opus 4.7拒绝引用未验证的论文; Gemini 1.5 Pro引用了3个真实论文，但1个年份不正确。只有1个引用出现在所有三个模型响应中。此测试表明模型间的共识是可靠性的有意义信号—并且单模型答案更可能包含虚构。 PromptQuorum自动化这种：将一个提示同时发送到25+AI模型，在所有响应中运行共识分析，并获得关于哪些索赔具有高度协议（可能可靠）和低协议（值得进一步调查）的判决。该工具精确标记哪些索赔相互矛盾，表面仅在一个或两个响应中出现的索赔，并按能力加权模型响应—将幻觉检测从有根据的猜测转变为结构化的数据驱动分析。参见多模型AI如何减少幻觉，获得更深层技术解释。

关于幻觉治理的全球观点

幻觉风险和缓解策略因地区和监管背景而异。在欧洲，欧盟AI法案强调了高风险AI系统的透明度和错误报告，使幻觉文件强制性。Mistral AI（法国）建立的模型专门关注在欧盟合规性应用中减少幻觉。在中国，像Qwen 2.5和DeepSeek这样的模型由于训练数据组成和CJK语言（中文、日文、韩文）的令牌化效率而具有不同的幻觉模式—这些模型处理令牌与信息比例的方式与英文优化模型不同。在日本，根据METI（经济贸易和工业部）数据治理指南运营的企业越来越多地在本地部署模型，以用于幻觉倾向的任务，以确保数据驻留和合规性。不管地区如何，核心技术（RAG、共识检查、人工审查）仍然普遍适用。根据您的监管背景和语言要求选择和验证模型。

幻觉最危险的时候

幻觉在特定领域中造成重大伤害的风险。要特别谨慎：

医疗和健康决定 —错误的药物名称、给药或症状解释可能会伤害患者
法律和合规 —虚构的判例法、监管要求或先例可能导致昂贵的错误或违规
财务建议 —虚假的市场数据、不正确的税务信息或编造的性能指标误导了高风险决定
安全关键系统 —代码审查、架构决定或安全分析中的幻觉可能会引入漏洞或错误
公众归属 —您的名字或品牌下发布的任何内容都必须进行事实检查;幻觉伤害可信度

关键原则： 即使有完美的提示和共识检查，人工验证对于高风险决定仍然至关重要。将AI用作时间节省器和第一遍工具，而不是专家判断或主要来源验证的替代品。了解自我批评技术如何在复杂推理任务中进一步减少错误。

实际清单：在发送关键提示之前

在发送您将依赖的决策或公开输出的提示之前，请使用此清单：

提示是否明确允许"我不知道"？添加："如果你不确定，你可以说"我不知道"。"
提示中是否有真实的上下文或数据？模糊的提示邀请发明。提供具体的文件、示例或输入数据。
约束是否明确？陈述模型不应该做什么，特别是："不发明来源、URL或引文。"
输出格式是否结构化？分开响应/推理/证据/信心。这使不受支持的索赔明显。
你在要求来源吗？ 对于任何事实声称，请求："为这个事实引用来源。"
任务是具体的，不是开放式的？ "为针对财务专业人员的B2B SaaS产品列出五个营销策略"比"告诉我营销"要好。
您是否要求模型自我检查？添加："提交前检查答案中的矛盾。"
对于高风险决定，您是否进行交叉检查？ 将相同的提示发送到多个模型并比较答案。

提示示例之前/之后

坏提示

为什么这失败：开放式，没有约束，没有允许承认不确定性。模型将发明日期、误构突破、自信地陈述过时的信息，并可能引用不存在的论文。

告诉我关于人工智能历史的信息。包括主要突破和重要的研究人员。

好提示

仅使用以下时间表，从1950年至1990年总结AI的主要突破： {时间表数据插入} 按如下方式格式化您的答案： 突破： {名称} 年： {年—仅在时间表中说明）} 重要性： {它启用了什么} 来源： {时间表中的哪个文件提到了这一点？} 不添加不在时间表中的信息。如果您不确定某个东西是否在时间表中，请跳过它而不是猜测。

为什么这有效：

真实数据而不是发明：模型从提供的背景工作，而不是从培训数据缺口
结构化输出：格式使缺少的来源立即明显
否定指令： "不添加不在时间表中的信息"是明确的
省略权限： "如果不确定，跳过它"会释放发明细节的压力
来源责任： 每个索赔都需要引用它来自哪个文件

常见问题解答

幻觉能完全消除吗？

否。幻觉本质上是语言模型工作的方式—他们预测文本模式而不是从验证的存储中检索事实。您可以使用良好的提示设计、RAG等工具和多模型共识来显着减少它们，但给定当前的LLM体系结构，完全消除是不可能的。人工验证仍然对高风险决定是必要的。

当它错误时，模型为什么听起来那么自信？

语言模型被训练为生成流利、连贯的文本。信心是语言连贯性的副产品。虚假陈述可能远比诚实承认不确定性更连贯和清晰表达。该模型没有内置的机制来表达怀疑—无论准确性如何，它都会以相同的流利信心生成文本。

更新更大的模型幻觉更少吗？

由于他们更好地生成看似合理的文本，使虚假索赔更难检测，所以更大的模型对某些任务幻觉更多。然而，较新的模型在某些事实任务上表现更好（他们有更新的训练数据和更强的指令遵循）。模型大小和幻觉之间的关系取决于任务，而不是单调的。

将模型连接到互联网会消除幻觉吗？

部分。实时网络访问有助于当前事件和最近的事实，但它没有解决核心问题：模型仍然会发明细节、误解搜索结果或幻觉有关其实际未检索的内容的信息。互联网访问是减少一类幻觉的工具，不是治愈。

我如何快速检查答案是否幻觉？

检查来源：点击URL或搜索引用的论文。如果他们不存在，答案是幻觉。验证事实：根据可信源检查日期、名字和数字。比较多个模型：问不同的模型相同的问题。尖锐的分歧表明至少一个是幻觉。应用域专知识：如果您知道该领域，请阅读微妙的不可能—幻觉对专家读者通常有暴露的迹象。

如果它幻觉，我应该停止使用AI吗？

否。将AI与验证一起战略性地使用。对于头脑风暴、起草和探索性工作，幻觉是一个小烦恼。对于事实关键的工作（研究、合规、医疗决定、财务建议），将AI用作起点，然后用受信任的来源或专家审查验证所有内容。

幻觉和真正的错误之间的区别是什么？

幻觉是自信而错误的。如果模型说"我不确定，但可能是X"，那是诚实的不确定性，而不是幻觉。如果它说"法国的首都是柏林"充满信心，这是一个幻觉—模型说了一些虚假的，好像是事实。标志是自信地断言什么是不真实的。

来源

Wei, J., Wang, X., Schuurmans, D.,等。 (2022). "链式思考提示激发大型语言模型中的推理。" ArXiv —基础论文证明逐步推理可减少数学和逻辑任务的幻觉。
Maynez, J., Narayan, S., Hashimoto, B., & Hardt, D. (2021). "论抽象摘要中的忠实和事实性。" ACL程序 —关于神经文本生成中幻觉率和机制的经验研究。
Anthropic (2024)."宪法AI。" https://www.anthropic.com/constitutional-ai —Anthropic通过基于原则的培训减少有害的输出和幻觉的方法。

AI幻觉：为什么AI会编造东西——以及如何停止它们

视觉摘要: AI幻觉：为什么AI会编造东西——以及如何停止它们