什么是提示词工程?
提示词工程是设计和构建文本输入——称为提示词——的实践,目的是从大型语言模型(LLM)中获得准确、有用且可重复的输出。 它适用于 GPT-4o、Claude、Gemini,以及通过 Ollama 或 LM Studio 在本地运行的模型。提示词工程与"随便问 AI 一个问题"的区别,就在于模糊请求与精确指令之间的差距——后者具有明确的目标、上下文和输出格式。
如今,提示词工程已发展为一门具有命名技术、可复用框架和可量化成果的结构化学科。它并非关于欺骗 AI 系统或寻找隐藏指令,而是为概率模型提供尽可能清晰的信号,告知其你需要什么。一个精心设计的提示词能在首次尝试时稳定产出可用的结果。
提示词工程的基础始于理解一件事:大型语言模型是模式补全引擎。它们根据你的输入内容之后最有可能跟随什么内容来生成输出。你对任务、上下文、约束和期望格式的描述越精确,模型需要猜测的就越少——结果也就越好。
关键要点
- 提示词工程 = 设计输入以从大型语言模型中获得可靠、准确的输出
- 适用于所有主流模型:GPT-4o、Claude、Gemini,以及通过 Ollama 或 LM Studio 运行的本地模型
- 关键要素:目标、上下文、示例、约束、输出格式和角色
- 提示词工程技术涵盖从零样本到思维链(Chain-of-Thought)再到 RAG(检索增强生成)
- 提示词工程框架(CRAFT、CO-STAR、SPECS 等)使提示词可重复使用且易于教授
- 这是在不更换模型的前提下提升 AI 输出质量的最快途径
为什么提示词工程很重要
同一个 AI 模型会因问题的表述方式不同而产生截然不同的输出。模糊的提示词返回模糊的答案。而一个具有清晰目标、相关上下文、明确约束和指定输出格式的结构化提示词,则能产出无需编辑即可直接使用的结果。
以下是持续运用提示词工程基础知识所带来的主要好处:
- 可靠性: 结构化提示词在多次运行和不同模型之间产生一致的输出——同一个提示词在周一和周五都同样有效
- 更高的输出质量: 明确的指令减少了模型的歧义,消除了对意图的猜测
- 效率: 精心构建的提示词消除了来回澄清的循环 → Faster AI Answers: How to Prompt for Speed
- 成本控制: 精确的提示词每次任务使用的词元更少,并减少重试次数 → Tokens, Costs & Limits: The Economics of AI Prompting
- 减少幻觉: 清晰的依据、来源约束和范围明确的问题能减少捏造的事实 → AI Hallucinations: Why AI Makes Things Up — and How to Stop Them
- 跨模型兼容性: 同一个结构良好的提示词可在 GPT-4o、Claude、Gemini 和本地大型语言模型上使用,降低供应商锁定风险
- 可复用性: 精心设计的提示词是可重复使用的资产。团队可以随时间共享、版本化并持续优化提示词
提示词的核心构建模块
每个有效的提示词都由以下七个要素中的若干组合构成。你很少需要同时使用全部七个——关键技能在于判断哪些要素适合特定任务。
2024年一项提示词技术综述(Schulhoff等人,《The Prompt Report》,arXiv:2406.06608)整理了在生产AI系统中使用的58种以上的独立技术——它们都是这七个构建块以不同组合方式应用的结构化变体。
有关每个要素在实际中的使用示例的深入解析,请参阅 The 5 Building Blocks Every Prompt Needs。
- 目标: 精确陈述任务或问题——你希望模型产出什么
- 上下文: 模型正确回答所需的背景信息——提问者是谁、输出用于什么场景、适用哪些约束
- 指令: 模型应遵循的具体步骤或规则——"按重要性排序"、"用第二人称写作"、"仅使用所提供的数据"
- 示例: 1–3 个展示你期望的精确格式或风格的示例输入/输出对(少样本提示)
- 约束: 对模型不应执行的事项的明确限制——禁止的话题、禁用的词语、长度上限、风格限制
- 输出格式: 答案应如何组织——项目符号列表、JSON 对象、Markdown 表格、编号步骤、纯段落
- 角色/人设: 为模型设定的特定专业方向或视角——"扮演一位资深数据分析师"或"你是一位简洁的技术写作者"
PromptQuorum 共识测试:提示结构的影响
PromptQuorum 将相同的非结构化提示("总结这段文本")发送到 GPT-4o、Claude 4.6 Sonnet 和 Gemini 1.5 Pro。结果在所有三个模型上的长度、细节和结构都有所不同。当使用上述五个构建块重新编写相同的任务时,所有三个模型都在第一次尝试时生成了一致的、格式正确的响应。
这种共识效应——结构化提示在不同模型间产生相同行为——是提示工程的核心洞察。五个构建块之所以有效,是因为它们利用了所有主要大语言模型相同的指令处理方式。
常见提示词工程技术
提示词工程技术是用于解决特定输出问题的命名模式。每种技术针对不同的失效模式——格式不一致、推理错误、准确度低或内容过长。当你遇到具体问题时,每次只应用一种技术进行修复。
- 零样本提示: 不提供任何示例直接向模型提问——适用于直接、明确的任务 → Zero-Shot vs. Few-Shot: Which Approach Gets Better Results?
- 少样本提示: 在请求前提供2–3个输入/输出示例,以固定格式、语气和风格
- 思维链(CoT): 要求模型在给出最终答案前逐步推理——减少逻辑、数学和多步骤问题上的错误 → Chain-of-Thought Prompting: Make AI Show Its Reasoning
- 角色提示: 为模型分配特定角色或专业身份,以改善语气和相关性 → Persona Prompting: Give Your AI a Role and Watch It Improve
- 约束提示: 明确定义模型不得执行的操作——防止最常见的失效模式 → Constrained Prompting: How to Set Rules the AI Must Follow
- 提示链: 将复杂任务分解为一系列较小的提示词序列,将每个输出作为下一个的输入 → Prompt Chaining: How to Break Big Tasks Into Winning Steps
- 负面提示: 指定输出中需排除的内容——消除不需要的格式、措辞或内容类型 → Negative Prompting: Tell the AI What NOT to Do
- 自我一致性: 多次运行相同的提示词并选择最常见的答案——减少高风险事实查询中的错误 → Self-Consistency Prompting: Let the AI Check Its Own Work
- 思维树(Tree-of-Thought)/ ReAct: 适用于需要探索多种方法后再做决定的问题的高级多路径推理 → Tree of Thought & ReAct: Advanced Reasoning for Hard Problems
- RAG(检索增强生成): 将检索到的文档或数据直接注入提示词上下文,使答案以真实来源为依据 → RAG Explained: How to Ground AI Answers in Real Data
- 结构化输出 / JSON 模式: 指示模型返回机器可读的输出——JSON、Markdown 表格或 CSV——以供下游处理 → Structured Output & JSON Mode: Get AI to Return Usable Data
提示词工程框架
提示词工程框架是一种命名模板,规定了应包含哪些构建模块以及排列顺序。 框架将提示词工程从一种即兴技能转变为可重复的流程。它们比从头构建提示词更易于教授、更易于在团队中共享,并且在时间紧迫时更快上手。
下表展示了五种广泛使用的提示词工程框架及其最适合的使用场景:
| 框架 | 最适合的场景 |
|---|---|
| Single-Line | 速度比精确度更重要的快速单行任务 |
| CRAFT | 具有明确声音风格的营销、文案和创意内容 |
| SPECS | 研究、分析和结构化事实输出 |
| CO-STAR | 需要完整上下文、明确受众和分步指令的复杂任务 |
| RISEN | 说明性写作、培训材料和教育内容 |
本站收录了十个已记录的框架——每个框架都有专属指南,涵盖使用时机、提示词结构方式和实际示例。请从 Which Prompt Framework Should You Use? 开始获取决策指引,然后分别探索 CRAFT Framework、CO-STAR Framework、SPECS Framework 和 RISEN Framework。
PromptQuorum 内置了9个框架和两个自定义框架插槽。你可以在应用内直接应用任意框架,将结构化提示词与原始提示词进行对比,并保存自己的模板——详见 Build Your Own Prompt Framework。
提示词工程在 AI 工作流中的位置
提示词工程并非孤立运作。每个提示词都存在于更广泛的技术环境中——你选择的模型、词元预算以及 AI 系统的架构,都会影响提示词所能实现的效果。
以下是与提示词工程相互影响的关键技术决策:
- 模型选择: GPT-4o、Claude 4.6 Sonnet 和 Gemini 1.5 Pro 对相同提示词的响应各有不同。为任务选择合适的模型是工程流程的一部分。Mistral AI(欧洲)和阿里云 Qwen(中国)遵循相同的提示工程原则,但由于指令跟随行为的差异,可能需要调整输出格式规范。相同的结构化提示在全球所有主要模型族中都有效 → GPT, Claude or Gemini? How to Pick the Right Model
- 系统提示词与用户提示词: 系统提示词为整个会话设置持久指令;用户提示词是每次请求的输入。正确划分这两者决定了大规模使用时的一致性 → System Prompt vs. User Prompt: What's the Difference?
- 上下文窗口: 每个模型都有输入+输出组合的最大词元限制。较长的提示词会减少模型回答的可用空间——随着窗口填满,模型开始忽略较早的内容 → Context Windows Explained: Why Your AI Forgets
- 词元限制与成本: 精确、简洁的提示词每次调用使用更少的词元,降低延迟,并保持在速率限制内——直接影响大规模使用时的成本 → Tokens, Costs & Limits: The Economics of AI Prompting
- 多模态提示: GPT-4o 和 Gemini 等现代大型语言模型支持图像和文本输入。提示词工程原则同样适用于图像输入 → Beyond Text: How to Prompt with Images
- 本地模型与云端模型: PromptQuorum 同时支持本地模型(Ollama、LM Studio、vLLM)和云 API(OpenAI、Anthropic、Google Gemini)通过单一界面——让您可以在提供者之间切换而无需重写提示,或同时比较多个模型上的相同提示。
提示词工程的局限性:能做什么和不能做什么
提示词工程能可靠改善的方面:
- 输出一致性——同一个结构化提示词在多次运行和团队成员之间产生相似的结果
- 减少幻觉——依据信息、来源约束和明确范围能减少捏造的事实。PromptQuorum 的 Quorum 功能对模型响应进行共识检查,通过比较不同模型如何响应相同的结构化提示来检测幻觉和矛盾。
- 格式控制——指定输出格式意味着结果到手即可使用,而不需要再次编辑
- 迭代速度——减少澄清往返次数,提升首次尝试成功率
- 跨模型可移植性——结构良好的提示词无需重写即可在 GPT-4o、Claude 和 Gemini 上使用
仍需要其他方案的方面:
- 私有或实时数据访问: 当模型需要无法放入提示词的文档、数据库或实时信息时——使用 RAG → RAG Explained: How to Ground AI Answers in Real Data
- 深度领域专业化: 当模型需要在所有会话中稳定采用特定词汇或风格时——使用微调,而非提示词
- 缺失的知识: 提示词工程无法赋予模型它未曾训练过的知识。如果基础模型不了解某个主题,任何提示词都无法教会它
- 系统化质量评估: 在数千次运行中大规模检查 AI 输出质量,需要评估流水线和超越手动提示的工具
提示词工程是提升 AI 输出质量最快、最易获取的手段——它不需要基础设施变更,也不需要重新训练。对于它无法解决的问题,它能清晰地指向正确的下一步工具。
如何开始学习提示词工程
以下六个步骤能帮助聪明的初学者通过本站内容,以最短的路径从零基础达到高效实践:
- 1阅读基础知识。 在编写复杂提示词之前,先了解大型语言模型如何处理文本、什么是词元、上下文窗口意味着什么,以及模型为什么会产生幻觉。Fundamentals 部分的专题文章涵盖了所有这些内容——从 The 5 Building Blocks Every Prompt Needs 和 From GPT-2 to Today: How Prompt Engineering Evolved 开始。
- 2从单行提示词开始。 用一句清晰的句子精确描述你的任务。在添加结构之前,先观察模型返回什么。这建立了一个基准——你需要知道裸提示词产生什么,才能改进它。
- 3将一个框架应用于真实任务。 为写作任务选择 CRAFT,为复杂指令选择 CO-STAR。框架会迫使你思考提示词所需的所有要素。Frameworks 部分配有示例详细介绍每个框架——从 Which Prompt Framework Should You Use? 开始。
- 4每次只添加一种技术。 在一个任务上尝试少样本示例,在另一个任务上添加约束,在推理问题上测试思维链(Chain-of-Thought)。隔离变化让你能看到究竟是哪种技术改善了输出。Techniques 部分深入介绍了每种技术。
- 5跨多个模型进行测试。 同一个提示词在 GPT-4o、Claude 和 Gemini 上产生的结果不同。使用 PromptQuorum 将一个提示词同时发送给多个模型,并排比较响应——这是找到特定任务最佳模型和表述方式的最快途径。
- 6为你的用例构建提示词库。 保存有效的提示词,持续优化。针对特定领域经过测试的提示词库是持久的资产。请参阅 Build a Prompt Library That Saves Hours 了解如何构建和维护的指南。
相关阅读
- 基础知识:AI 幻觉 — 为什么 AI 会虚构事实 — 理解大语言模型的核心局限
- 技术:思维链提示法 — 让 AI 展示其推理过程 — 改进准确性的逐步技术
- 框架:CO-STAR 框架 — 一个结构化模板,将基础知识按照已验证的顺序组织
FAQ:提示词工程基础
提示词工程对更新的 AI 模型仍然有用吗?
是的——而且更加有用。能力更强的模型更善于遵循精确指令,这意味着随着模型的改进,结构良好的提示词的回报也在增加。即使今天,即便是最强大的模型,在面对模糊输入时也会产出不一致或模糊的结果。结构化提示词仍然是首次尝试就获得专业级输出的最可靠方式。
学习提示词工程需要会编程吗?
不需要。提示词工程主要是一种语言和逻辑技能——能够精确陈述任务、预见失效模式,并明确指定你需要什么。在构建自动化流水线或解析结构化输出时,编程会有所帮助,但绝大多数提示词工程工作根本不需要任何编程。
提示词工程与传统编程有什么区别?
传统编程向计算机提供确定性指令,在相同输入下每次产生相同的输出。提示词工程向概率模型提供结构化引导,以提高产出有用结果的可能性——但无法保证。这门技能在于设计出尽管存在底层不确定性却能产生可靠结果的提示词。
提示词工程技术与框架有什么区别?
技术是应用于实现特定输出质量的具体模式——例如,思维链(Chain-of-Thought)提示能提高推理准确性。框架是组织提示词所有要素的结构化模板——例如,CO-STAR 定义了指定上下文、目标、风格、语气、受众和响应格式的顺序。框架帮助你构建提示词;技术帮助你改进模型对其的处理方式。
提示词工程在未来还会重要吗?
所有现有证据都指向肯定的答案。大型语言模型尚不能仅凭非结构化的自然语言稳定产出专业级输出。即使 AI 界面变得越来越对话化,好的提示词的底层原则——清晰的目标、相关的上下文、明确的约束、指定的输出格式——仍然是有用和无用 AI 响应之间的关键差异。
提示词工程与微调有什么区别?
提示词工程在不改变模型本身的情况下塑造现有模型的输出——它在推理时运作,不需要训练。微调通过在新数据集上训练来修改模型的权重,永久改变其默认行为。提示词工程更快、更便宜,不需要机器学习专业知识;微调在需要单凭提示词无法实现的深度、持续专业化时效果更好。
PromptQuorum 这样的工具与提示词工程有什么关系?
PromptQuorum 是一个围绕提示词工程原则构建的多模型 AI 调度工具。它内置9个提示词框架、一个 AI 驱动的提示词优化器,以及将一个提示词同时发送给多个模型——GPT-4o、Claude、Gemini 和本地模型——并排比较结果的功能。它使提示词工程可重复,并消除了手动跨模型测试的摩擦。
现在AI智能体已经存在,提示词工程还有意义吗?
有。AI智能体——自主规划和执行多步骤任务的系统——建立在提示词工程之上。每个智能体都有一个系统提示词,定义其角色、约束条件和可用工具。每次工具调用都由结构化指令触发。提示词工程是使智能体可控和可预测的基础。随着智能体日益普及,这一技能变得更加重要,而非更少。
用户提示词和系统提示词有什么区别?
系统提示词是应用于整个会话的持久指令集——在用户说任何话之前,它定义模型的角色、约束条件和默认行为。用户提示词是每次请求的输入——该交互的特定任务或问题。在大多数AI产品中,开发者编写系统提示词;最终用户编写用户提示词。两者都受益于提示词工程,但服务于不同的功能。
来源与扩展阅读
- Wei et al., 2022. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." arXiv:2201.11903
- Brown et al., 2020. "Language Models are Few-Shot Learners." arXiv:2005.14165
- Schulhoff et al., 2024. "The Prompt Report: A Systematic Survey of Prompting Techniques." arXiv:2406.06608