PromptQuorumPromptQuorum
主页/提示词工程/从GPT-2到今天:提示词工程的演变
基础知识

从GPT-2到今天:提示词工程的演变

·阅读约10分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

提示词工程的历史:从2020年的GPT-3和少样本提示到2026年的上下文设计。

提示词工程如何演变:简要概述

提示词工程从2020年前后围绕 GPT-3 的非正式试错式文本操作,发展为到2026年具有命名技术、框架和工具的结构化学科。 这一历程跨越五个阶段:早期少样本实验、将这门技能带入主流视野的 ChatGPT 时刻、结构化推理技术的发展、自动化提示词优化的兴起,以及当前向上下文设计的转变。

这门学科并非源自单一论文或公司。它生长于研究(少样本学习、思维链推理、RAG(检索增强生成))、在网上共享提示词集合的从业者社区,以及强大模型的突然公开可用(这使得高质量提示词立即带来回报)的交汇之处。到2026年,提示词工程不再是一项小众技巧——它已成为任何使用 AI 系统的人的基础技能。

关键要点

  • 2019–2020年:GPT-2 和早期 Transformer——提示词只是输入,还不是一门学科
  • 2020年:GPT-3 和 Brown 等人的论文将少样本提示作为范式转变引入
  • 2022年:思维链(Chain-of-Thought)推理提示将提示技巧转变为结构化技能
  • 2022年底:ChatGPT 将提示词工程带入主流视野和招聘职位描述
  • 2023年:GPT-4、多模态提示和框架将最佳实践正式化
  • 2024–2026年:上下文设计、自动化提示和开源大型语言模型重新定义了这一领域

提示词工程有名字之前(2020年以前)

在"提示词工程"这个术语出现之前,研究人员就已经在操控模型输入以获得更好的输出——只是他们当时没有这么称呼它。早期的 Transformer 模型,如 GPT-2(2019年,OpenAI)和 BERT(2018年,Google),通过精心选择的输入文本来使用,但这种实践被视为数据预处理的一部分,而非一门独立的技能。

2019年2月发布的 GPT-2 是一个拥有15亿参数的模型,能以出人意料的连贯方式补全文本。研究人员和早期从业者注意到,输入的措辞方式会显著改变补全质量——但围绕这一观察,当时尚无框架、无术语、无社区。提示词只是输入,还不是工程产物。

2020年:GPT-3 与少样本突破

提示词工程的现代历史实际上始于 GPT-3。 2020年5月,OpenAI 发布了 GPT-3(一个拥有1750亿参数的模型),并同时发表了 Brown 等人的里程碑论文《语言模型是少样本学习者》(Language Models are Few-Shot Learners)Brown et al., 2020 – Language Models are Few-Shot Learners。该论文证明,通过在提示词中直接包含几个所需任务的示例——无需对模型进行任何权重更新——下游任务的性能得到了显著提升。

这是提示词工程作为一门学科的种子。研究人员和开发者意识到,仅仅通过改变提示词的写法,同一个模型就可以变成翻译器、摘要生成器、代码生成器或问答系统。模型不需要重新训练——它需要更好的提示词。这一洞见重塑了提示词的含义:它不再只是输入,而是一件设计产物。

布朗等人报告称,few-shot性能随模型规模稳定提升:1750亿参数的GPT-3在所有测试基准上均大幅超越较小变体,确立了规模与基于提示词的学习直接相关的关系。这使提示词质量成为从业者——而不仅仅是研究人员——可以直接控制的变量。

有关 GPT-3 使之名声大噪的这项技术的实用指南,请参阅 Zero-Shot vs. Few-Shot: Which Approach Gets Better Results?

2021年至2022年初:从提示技巧到公认技能

在2021年至2022年初之间,提示词设计从研究论文走向了从业者社区。GitHub 上出现了整理好的提示词集合——"awesome-prompts"风格的列表,分享了哪些内容在编程辅助、摘要生成和创意写作方面有效。在 Twitter 和 Reddit 上共享的提示词集合成为社区资产。提示词工程指南(promptingguide.ai)Prompt Engineering Guide – promptingguide.ai 成为首批系统性整理技术的专属参考资源之一。

"提示词工程"这个术语在这一时期开始更频繁地出现在研究论文、博客文章和职位描述中。OpenAI 的 InstructGPT 论文(Ouyang 等人,2022年)介绍了经过 RLHF 微调的模型,这些模型对自然语言指令的响应更加可靠——使得提示词质量变得更加重要。到2022年中期,这显然已是一门可迁移的技能,而不仅仅是研究人员的好奇心。

2022年:思维链与推理提示

2022年思维链(CoT)提示的引入是这门学科短暂历史中最重要的技术发展。 Wei 等人(Google Brain)发表了《思维链提示在大型语言模型中激发推理》(Chain-of-Thought Prompting Elicits Reasoning in Large Language Models),证明要求模型在回答前逐步推理,能显著提升其在算术、常识推理和符号推理任务上的表现。在一项关键结果中,思维链提示将PaLM在GSM8K小学数学基准测试上的准确率从17.9%提升至58%——这一提升完全通过改变提示词结构实现,无需任何额外的模型训练。 这一含义深远:提示词的结构可以激活不同的推理行为——而不仅仅是不同的事实。

相关技术随之迅速跟进。Zhou 等人引入了由简到繁的提示(least-to-most prompting),将复杂问题分解为按顺序解决的一系列更简单的子问题。这些方法将提示词工程从格式化练习转变为从未经过明确推理训练的模型中激发结构化推理的工具。提示词已成为认知的脚手架。

有关完整技术指南,请参阅 Chain-of-Thought Prompting: Make AI Show Its ReasoningPrompt Chaining: How to Break Big Tasks Into Winning Steps

2022年底至2023年:ChatGPT 时刻与"提示词工程师"职位的出现

2022年11月30日 ChatGPT 的发布一夜之间改变了提示词工程的公众形象。 ChatGPT在上线后五天内达到100万用户——由OpenAI CEO山姆·奥特曼于2022年12月在Twitter上确认——并根据路透社引用的瑞银分析,于2023年1月达到1亿月活跃用户。 在短短几天内,数百万人开始尝试提示词,并发现他们的结果因措辞方式的不同而大相径庭。科技媒体将"提示词工程"作为一门值得学习的技能进行报道。牛津英语词典在2023年将"prompt"添加为与 AI 相关的动词,这个词本身在多个年度词汇评选中成为年度词汇的有力候选。

到2023年初,"提示词工程师"作为一个职位名称出现,据广泛引用的招聘信息显示,包括 Anthropic 在内的公司开出了175,000至335,000美元的薪资。这个角色引起了广泛媒体关注——彭博社、卫报和大西洋月刊都报道了提示词工程是否真的是一种职业。当时的共识是:这是一个过渡性角色,部分是人机界面设计,部分是主题专业知识,部分是质量保证。

"提示词工程"这一短语的普及有时被归因于不同的从业者和评论者。前 Salesforce 首席科学家 Richard Socher 在一些评论中被提及为早期帮助构建这一概念的人之一。维基百科上的提示词工程词条 Prompt Engineering – Wikipedia 对关于这一术语起源的各方说法提供了客观概述。

2023年:GPT-4、多模态提示与框架

2023年3月 GPT-4 的发布同时在两个方向扩展了提示词工程:更大的上下文窗口(后续版本最高支持128K词元)和多模态输入。从业者现在可以在提示词中包含图像和文本,将提示词工程延伸至视觉任务——描述图像、比较图表、标注图表。Google 的早期 Gemini 模型和 Anthropic 的多模态 Claude 版本在几个月内相继推出。

同年,提示词工程最佳实践得到正式化。OpenAI 发布了其官方提示词工程指南 OpenAI – Best Practices for Prompt Engineering。Google Cloud 发布了自己的提示词工程文档 Google Cloud – Prompt Engineering for AI Guide。独立作者将框架编纂成册——CRAFT、CO-STAR、SPECS、RISEN、TRACE——为从业者提供了可重复使用的提示词结构模板,减少了对试错的依赖。

这些框架标志着提示词工程从个人技能成熟为可教授、可共享实践。请参阅 Which Prompt Framework Should You Use? 了解如何在它们之间做出选择的指南,以及 Beyond Text: How to Prompt with Images 了解多模态维度。

2023至2024年:自动化提示词工程与 RAG

2023年一个引人注目的发展是研究表明大型语言模型优化提示词的能力与人类相当。Zhou 等人发表了《大型语言模型是人类级别的提示词工程师》(APE),证明一个被要求生成和评估提示词候选方案的大型语言模型,在基准任务上可以媲美甚至超越人类编写的提示词。斯坦福的 DSPy 框架(2023年)更进一步——允许开发者描述提示词应实现的目标,并让系统自动优化措辞。

与此同时,检索增强生成(RAG(检索增强生成))——最初由 Meta 的 Lewis 等人于2020年引入——成为生产 AI 系统中的核心模式。RAG 将检索到的文档直接注入提示词上下文,使模型输出以真实、最新的来源为依据,而无需提示词包含所有必要事实。这将提示词工程的重心从"如何让模型知道这个?"转移到"如何结构化上下文以使模型正确使用这个?"

请参阅 RAG Explained: How to Ground AI Answers in Real DataSelf-Consistency Prompting: Let the AI Check Its Own Work 了解这一时期关键技术的详细介绍。

2024至2025年:从提示词工程到上下文设计

到2024年,一种新的框架开始取代"写一个更好的提示词"这个简单概念。从业者和研究人员开始提及上下文工程——一种编排完整上下文窗口内容的实践:系统提示词、检索到的文档、工具输出、对话历史和用户输入,所有这些都经过精心组合以引导模型行为。提示词不再是独立的产物;它是一个设计上下文中的一层。

多项发展加速了这一转变。Meta 的 Llama 3 系列模型(2024年)使强大的开源大型语言模型可用于私有部署,将部分提示词工程从云端 API 转移到本地基础设施。上下文窗口增长到100万词元或更多(Gemini 1.5 Pro),使得将整个代码库、书籍或文档集合注入单个提示词成为可行。LangChain 和 AutoGen 等多智能体框架将提示变成了编排——一个提示词触发另一个模型,该模型触发一个工具,工具将上下文返回给下一个提示词。

请参阅 Prompt Engineering from 2020 to 2025 – AI SupremacyThe Evolution of Prompt Engineering to Context Design – 2026 了解关于这一转变的外部视角。

2026年及以后:提示词工程作为核心素养

截至2026年,研究和评论越来越多地将提示词工程描述为不是一个小众职位名称,而是使用 AI 工具的知识工作者的基础素养技能。《提示词工程作为21世纪新技能》Prompt engineering as a new 21st century skill – Frontiers 等学术论文将结构化提示与阅读、写作和计算并列,视为使用生成式 AI 系统的基础能力。

这个角色已分化为两个截然不同的轨道。第一个是系统和上下文设计——在生产 AI 系统中,提示词是涉及检索、智能体和评估流水线的更大架构的一部分。第二个是日常使用——能够编写清晰、结构化的提示词,在不了解底层架构的情况下产出有用的输出。两个轨道都受益于相同的核心原则:清晰的任务规范、适当的上下文、约束条件和输出格式。

尽管模型能力更强、自动化工具更多,但没有改变的是根本原则:输入越清晰、越结构化,输出就越可靠、越有用。技术、术语和工具已经成熟,但来自 GPT-3 时代的核心洞见在2026年依然成立。

时间轴:提示词工程的关键里程碑

下表总结了从2018年至2026年的关键里程碑——那些塑造了提示词工程如何演变为其当前形态的事件、论文和模型发布。

年份里程碑重要意义
2018–2019年BERT(Google)和 GPT-2(OpenAI)发布证明了 Transformer 模型可以被输入措辞所引导——但尚无正式学科
2020年GPT-3 及 Brown 等人的《语言模型是少样本学习者》确立了少样本提示作为一种范式:重写提示词无需重新训练即可改变模型行为
2022年(1月)InstructGPT / RLHF(Ouyang 等人,OpenAI)经过指令遵循训练的模型——使提示词质量的重要性大幅提升
2022年(5月)思维链(Chain-of-Thought)提示(Wei 等人,Google Brain)证明了提示结构可以激发逐步推理——将提示变成认知脚手架
2022年(11月)ChatGPT 发布将提示词工程带入主流视野;数百万人一夜间开始尝试
2023年(Q1)"提示词工程师"职位薪资达30万美元以上;牛津英语词典将 prompt 添加为动词将提示词工程定义为公认职业和命名技能
2023年(3月)GPT-4 发布;支持图像的多模态提示将提示词工程延伸至文本以外的视觉输入和大型上下文窗口
2023年框架正式化:CRAFT、CO-STAR、SPECS、RISEN;OpenAI 和 Google 发布官方指南将提示词工程从个人技巧转变为可教授、可共享的实践
2023–2024年APE 论文(Zhou 等人)和 DSPy 框架——AI 优化的提示词大型语言模型被证明可以像人类一样编写提示词;自动化提示词优化变得实际可行
2024年Llama 3 系列模型;上下文窗口超过100万词元(Gemini 1.5 Pro)开源大型语言模型支持私有部署;超大上下文窗口将重心转移至上下文工程
2025–2026年上下文设计和多智能体编排取代简单的提示词调整提示词成为组合上下文中的一层——需要系统级思维

历史如何塑造今日最佳实践

提示词工程每个演变阶段都在当前实践中留下了持久的印记。GPT-3 时代给我们带来了核心洞见:模型行为由输入结构塑造——而不仅仅是内容。思维链(Chain-of-Thought)时代给我们带来了明确的推理脚手架:逐步提示、提示链和思维树方法。框架时代给我们带来了可复用的模板,这些模板将最佳实践编码起来,无需每位从业者从零开始摸索发现。

RAG 和上下文设计时代让我们认识到,提示词并不孤立存在——它们与检索到的数据、系统指令和工具输出组合在一起,形成完整的上下文。而自动化提示时代提醒我们,良好提示的原则是可量化的:结构更好的提示词能产出更好的输出,这些改进可以被系统地评估和优化。

FAQ:提示词工程的演变

谁最先创造了"提示词工程"这个术语?

确切起源存在争议。该术语最早于2021年出现在研究语境中,并在2022年得到更广泛的使用。Richard Socher 在一些评论中被提及为早期帮助公开构建这一概念的人,尽管没有任何单一人物被认定为其发明者。维基百科上的提示词工程词条 Prompt Engineering – Wikipedia 对各方说法提供了客观概述。

为什么提示词工程在 ChatGPT 之后迅速爆红?

ChatGPT 是第一个数百万非研究人员可以立即免费使用、无需编写代码的通用 AI 模型。精心设计的提示词与模糊提示词之间的差距是可见的,且立即产生影响——更好的提示词产出可直接使用的更好输出。这个反馈循环被数百万人同时体验,将提示词工程从研究概念转变为大众技能。

研究论文如何影响了现实世界的提示技术?

对于 AI 研究而言,这种传播速度异常快速。思维链(Chain-of-Thought)提示(Wei 等人,2022年)在几个月内就从学术论文变成了广泛使用的从业者技术,部分原因是它不需要任何工具——只需改变你写提示词的方式。GPT-3 论文(Brown 等人,2020年)中的少样本提示,任何有 API 访问权限的人都可以立即采用。这些技术的易用性加速了它们的传播。

随着模型的改进,提示词工程会变得不那么重要吗?

不会——能力更强的模型对结构良好的提示词响应更好,而不是更差。随着模型更善于遵循精确指令,好的提示词所带来的收益也会增加。改变的是简单任务所需的提示词工程程度:与2021年相比,对话性问题现在需要的精心设计更少。但对于复杂的生产级输出,结构化提示仍然是最可靠的手段。

提示词工程与上下文工程有什么区别?

提示词工程通常指设计模型的文本输入以改善其输出。上下文工程是一个更广泛、更新近的概念,指编排模型上下文窗口中的所有内容:系统提示词、检索到的文档、对话历史、工具输出和用户输入——所有这些都经过精心组合。上下文工程将提示词视为设计系统中的一个组件,而非独立的产物。

自动化工具会取代理解提示词工程的必要性吗?

像 DSPy 这样的自动化工具可以在定义的目标内优化提示词措辞,但它们需要人类来指定目标是什么、适用哪些约束以及如何评估成功。理解提示词工程原则仍然是有效使用这些工具的必要条件——也是在它们产出错误结果时进行诊断的必要条件。自动化消除了一些手动迭代;它不能消除结构化思考的需要。

提示词工程在2026年已经过时了吗?

不。这一领域已经演变,但并未消失。随着模型能力的增强,工作重心从语法技巧转向上下文设计——结构化输入、管理检索和组合工具输出。"提示词工程师"这一职称在缩小,但这一技能已融入每个使用AI的角色:开发者、分析师、营销人员、研究者。McKinsey 2024 State of AI 发现,有效的AI采用仍与用户为模型构建任务的方式密切相关。

随着AI模型不断改进,我还需要学习提示词工程吗?

需要——但每一代的重点会有所转变。更好的模型减少了对复杂变通方法的需求,提高了清晰意图、结构化上下文和精选示例的价值。角色、上下文、格式、约束这些基础知识在每代模型中保持稳定。

提示词工程和微调有什么区别?

提示词工程在不修改模型权重的情况下改变与模型的交互方式。微调在新数据上重新训练模型,永久改变其行为。提示词工程更快、更便宜、可逆——可以在几分钟内迭代。微调更适合目标行为一致、高频或无法在提示词中可靠描述的情况。大多数团队从提示词工程开始,只有当提示词工程达到上限时才转向微调。

使用PromptQuorum将这些技术同时应用于25+个AI模型。

免费试用PromptQuorum →

← 返回提示词工程

从GPT-2到今天:提示词工程的演变 | PromptQuorum