L'ingénierie des prompts a évolué d'expériences informelles autour de GPT-3 en 2020 à une discipline structurée avec des techniques et frameworks nommés en 2026. Cette chronologie retrace les percées clés, les articles de recherche et les points tournants qui ont fait du prompting une compétence fondamentale.

Comment le prompt engineering a évolué : un bref aperçu

Le prompt engineering a évolué d'une manipulation de texte informelle par essais et erreurs autour de GPT-3 en 2020 vers une discipline structurée avec des techniques nommées, des frameworks et des outils d'ici 2026. L'arc couvre cinq phases : les premières expériences few-shot, le moment ChatGPT qui a amené la compétence dans la conscience du grand public, le développement de techniques de raisonnement structurées, l'essor de l'optimisation automatisée des prompts et le glissement actuel vers la conception de contexte.

La discipline n'a pas émergé d'un seul article ou d'une seule entreprise. Elle a grandi à partir du chevauchement entre la recherche (apprentissage few-shot, raisonnement par chaîne de pensée, RAG), les communautés de praticiens partageant des collections de prompts en ligne, et la disponibilité soudaine au grand public de modèles puissants qui rendait le bon prompting immédiatement gratifiant. En 2026, le prompt engineering n'est plus un truc de niche — c'est une compétence de base pour quiconque travaille avec des systèmes IA.

Avant que le prompt engineering ait un nom (avant 2020)

Avant que le terme « prompt engineering » existe, les chercheurs manipulaient déjà les entrées des modèles pour obtenir de meilleures sorties — ils ne l'appelaient juste pas ainsi. Les premiers modèles transformers comme GPT-2 (2019, OpenAI) et BERT (2018, Google) étaient utilisés via du texte d'entrée soigneusement choisi, mais la pratique était traitée comme faisant partie du prétraitement des données, pas comme une compétence à part entière.

GPT-2, sorti en février 2019, était un modèle à 1,5 milliard de paramètres capable de compléter du texte de manière étonnamment cohérente. Les chercheurs et les premiers praticiens ont remarqué que la formulation d'une entrée changeait radicalement la qualité de la complétion — mais il n'existait pas encore de framework, de terminologie ni de communauté construite autour de cette observation. Les prompts étaient des entrées, pas des artefacts d'ingénierie.

2020 : GPT-3 et la percée du few-shot

L'histoire moderne du prompt engineering commence effectivement avec GPT-3. En mai 2020, OpenAI a publié GPT-3, un modèle à 175 milliards de paramètres, accompagné de l'article phare de Brown et al., « Language Models are Few-Shot Learners » Brown et al., 2020 – Language Models are Few-Shot Learners. L'article démontrait qu'en incluant quelques exemples de la tâche souhaitée directement dans le prompt — sans aucune mise à jour des poids du modèle — les performances sur les tâches en aval s'amélioraient de façon spectaculaire.

C'était la graine du prompt engineering en tant que discipline. Les chercheurs et développeurs ont réalisé que le même modèle pouvait être transformé en traducteur, résumeur, générateur de code ou système de questions-réponses simplement en changeant la façon dont le prompt était rédigé. Le modèle n'avait pas besoin d'être ré-entraîné — il avait besoin d'un meilleur prompt. Cette prise de conscience a reformulé ce qu'était un prompt : pas seulement une entrée, mais un artefact de conception.

Brown et al. ont rapporté que les performances en few-shot augmentaient régulièrement avec la taille du modèle : le GPT-3 à 175 milliards de paramètres surpassait nettement les variantes plus petites sur tous les benchmarks testés, établissant que l'échelle et l'apprentissage basé sur les prompts étaient directement liés. La qualité du prompt est ainsi devenue une variable que les praticiens — pas seulement les chercheurs — pouvaient contrôler directement.

Voir Zero-Shot vs. Few-Shot: Which Approach Gets Better Results? pour un guide pratique de la technique que GPT-3 a rendue célèbre.

2021–début 2022 : Des astuces de prompt à une compétence reconnue

Entre 2021 et début 2022, la conception de prompts est passée des articles de recherche aux communautés de praticiens. Des dépôts GitHub avec des collections de prompts curatées sont apparus — des listes de style « awesome-prompts » partageant ce qui fonctionnait pour l'assistance au codage, la résumation et l'écriture créative. Des collections de prompts, partagées sur Twitter et Reddit, sont devenues des actifs communautaires. Le Prompt Engineering Guide (promptingguide.ai) Prompt Engineering Guide – promptingguide.ai est devenu l'une des premières références dédiées à cataloguer les techniques de manière systématique.

Le terme « prompt engineering » a commencé à apparaître plus fréquemment dans les articles de recherche, les billets de blog et les descriptions de postes durant cette période. L'article InstructGPT d'OpenAI (Ouyang et al., 2022) a introduit des modèles ajustés par RLHF qui répondaient beaucoup plus fiablement aux instructions en langage naturel — rendant la qualité des prompts encore plus déterminante. À mi-2022, il était clair que c'était une compétence transférable, pas seulement une curiosité de chercheur.

2022 : Chain-of-Thought et les prompts de raisonnement

L'introduction du prompting Chain-of-Thought (CoT) en 2022 a été le développement technique le plus significatif de la courte histoire de la discipline. Wei et al. (Google Brain) ont publié « Chain-of-Thought Prompting Elicits Reasoning in Large Language Models », démontrant que demander à un modèle de raisonner étape par étape avant de répondre améliorait considérablement les performances sur les tâches arithmétiques, de raisonnement de sens commun et de raisonnement symbolique. Dans un résultat clé, le chain-of-thought prompting a amélioré la précision de PaLM sur le benchmark de mathématiques scolaires GSM8K, passant de 17,9 % à 58 % — un gain obtenu uniquement en modifiant la structure du prompt, sans entraînement supplémentaire du modèle. L'implication était profonde : la structure du prompt pouvait activer un comportement de raisonnement différent — pas seulement des faits différents.

Des techniques connexes ont suivi rapidement. Zhou et al. ont introduit le prompting du moins au plus, qui décomposait les problèmes complexes en une séquence de sous-problèmes plus simples résolus dans l'ordre. Ces approches ont transformé le prompt engineering d'un exercice de formatage en un outil pour éliciter un raisonnement structuré de modèles qui n'avaient pas été explicitement entraînés à raisonner de cette façon. Le prompting était devenu un échafaudage pour la cognition.

Pour le guide complet des techniques, voir Chain-of-Thought Prompting: Make AI Show Its Reasoning et Prompt Chaining: How to Break Big Tasks Into Winning Steps.

Fin 2022–2023 : Le moment ChatGPT et le titre de « prompt engineer »

La sortie de ChatGPT le 30 novembre 2022 a changé du jour au lendemain le profil public du prompt engineering. ChatGPT a atteint un million d'utilisateurs dans les cinq premiers jours — confirmé par le PDG d'OpenAI Sam Altman sur Twitter en décembre 2022 — et 100 millions d'utilisateurs actifs mensuels en janvier 2023, selon une analyse UBS citée par Reuters. En quelques jours, des millions de personnes expérimentaient avec des prompts et découvraient que leurs résultats variaient énormément selon la façon dont elles formulaient leurs demandes. Les médias tech couvraient le « prompt engineering » comme une compétence valant la peine d'être apprise. L'Oxford English Dictionary a ajouté « prompt » comme verbe lié à l'IA en 2023, et le mot lui-même est devenu finaliste pour le mot de l'année dans plusieurs classements.

Début 2023, « prompt engineer » est apparu comme titre de poste avec des salaires annoncés de 175 000 à 335 000 dollars dans des entreprises incluant Anthropic, selon des offres d'emploi largement citées. Le rôle a attiré une attention médiatique significative — Bloomberg, The Guardian et The Atlantic ont tous couvert la question de savoir si le prompt engineering était une vraie carrière. Le consensus de l'époque : c'était un rôle transitoire, mi-conception d'interface homme-machine, mi-expertise du domaine, mi-assurance qualité.

La popularisation de l'expression « prompt engineering » est parfois attribuée à divers praticiens et commentateurs. Richard Socher, ancien scientifique en chef chez Salesforce, est mentionné dans certains commentaires comme ayant contribué à cadrer l'idée tôt. L'article Wikipédia sur le prompt engineering Prompt Engineering – Wikipedia donne un aperçu équilibré des revendications concurrentes sur les origines du terme.

2023 : GPT-4, le prompting multimodal et les frameworks

La sortie de GPT-4 en mars 2023 a étendu le prompt engineering dans deux directions simultanément : des fenêtres de contexte plus grandes (jusqu'à 128K tokens dans les versions ultérieures) et des entrées multimodales. Les praticiens pouvaient désormais inclure des images dans les prompts aux côtés du texte, ouvrant le prompt engineering aux tâches visuelles — décrire des images, comparer des diagrammes, annoter des graphiques. Les premiers modèles Gemini de Google et les versions multimodales de Claude d'Anthropic ont suivi dans les mois qui ont suivi.

La même année a vu la formalisation des meilleures pratiques de prompt engineering. OpenAI a publié son guide officiel de prompt engineering OpenAI – Best Practices for Prompt Engineering. Google Cloud a publié sa propre documentation de prompt engineering Google Cloud – Prompt Engineering for AI Guide. Des auteurs indépendants ont codifié des frameworks — CRAFT, CO-STAR, SPECS, RISEN, TRACE — qui ont donné aux praticiens des modèles reproductibles pour structurer les prompts, réduisant la dépendance aux essais et erreurs.

Ces frameworks représentaient la maturité du prompt engineering passant d'une compétence personnelle à une pratique enseignable et partageable. Voir Which Prompt Framework Should You Use? pour un guide de choix entre eux, et Beyond Text: How to Prompt with Images pour la dimension multimodale.

2023–2024 : Prompt engineering automatisé et RAG

Un développement frappant en 2023 était la recherche montrant que les LLM pouvaient optimiser les prompts aussi bien que les humains. Zhou et al. ont publié « Large Language Models Are Human-Level Prompt Engineers » (APE), démontrant qu'un LLM chargé de générer et d'évaluer des candidats prompts pouvait égaler ou dépasser les prompts écrits par des humains sur des tâches de référence. Le framework DSPy de Stanford (2023) est allé plus loin — permettant aux développeurs de décrire ce qu'un prompt devrait accomplir et laissant le système optimiser automatiquement la formulation.

Simultanément, la Retrieval-Augmented Generation (RAG) — introduite à l'origine par Lewis et al. chez Meta en 2020 — est devenue un schéma central dans les systèmes IA de production. Le RAG injectait des documents récupérés directement dans le contexte du prompt, ancrant les sorties du modèle dans des sources réelles et à jour plutôt que d'exiger que les prompts contiennent tous les faits nécessaires. Cela a déplacé l'emphase dans le prompt engineering de « comment faire en sorte que le modèle sache cela ? » à « comment structurer le contexte pour que le modèle l'utilise correctement ? »

Voir RAG Explained: How to Ground AI Answers in Real Data et Self-Consistency Prompting: Let the AI Check Its Own Work pour la couverture des techniques clés de cette période.

2024–2025 : Du prompt engineering à la conception de contexte

En 2024, un nouveau cadrage a commencé à déplacer la simple idée d'« écrire un meilleur prompt ». Les praticiens et chercheurs ont commencé à parler d'ingénierie de contexte — la pratique d'orchestrer ce qui entre dans la fenêtre de contexte complète : le prompt système, les documents récupérés, les sorties d'outils, l'historique de conversation et l'entrée utilisateur, tous composés délibérément pour guider le comportement du modèle. Le prompt n'était plus un artefact autonome ; c'était une couche dans un contexte conçu.

Plusieurs développements ont accéléré ce glissement. Les modèles de la classe Llama 3 de Meta (2024) ont rendu des LLM open source capables disponibles pour un déploiement privé, déplaçant une partie du prompt engineering des API cloud vers l'infrastructure locale. Les fenêtres de contexte ont grandi jusqu'à 1 million de tokens ou plus (Gemini 1.5 Pro), rendant pratique l'injection de bases de code entières, de livres ou de collections de documents dans un seul prompt. Les frameworks multi-agents comme LangChain et AutoGen ont transformé le prompting en orchestration — un prompt déclenche un autre modèle, qui déclenche un outil, qui renvoie le contexte au prompt suivant.

2026 et au-delà : Le prompt engineering comme compétence fondamentale

En 2026, la recherche et les commentaires décrivent de plus en plus le prompt engineering non pas comme un titre de poste de niche, mais comme une compétence de littératie fondamentale pour les travailleurs du savoir qui utilisent des outils IA. Des articles académiques comme « Prompt Engineering as a New 21st Century Skill » Prompt engineering as a new 21st century skill – Frontiers cadrent le prompting structuré aux côtés de la lecture, de l'écriture et du calcul comme compétence de base pour travailler avec des systèmes d'IA générative.

Le rôle s'est divisé en deux pistes distinctes. La première est la conception de systèmes et de contextes — l'ingénierie de systèmes IA de production où les prompts font partie d'une architecture plus large impliquant la récupération, les agents et les pipelines d'évaluation. La seconde est l'usage quotidien — la capacité d'écrire des prompts clairs et structurés qui produisent des sorties utiles sans connaître l'architecture sous-jacente. Les deux pistes bénéficient des mêmes principes fondamentaux : spécification claire de la tâche, contexte approprié, contraintes et format de sortie.

Ce qui n'a pas changé, malgré des modèles plus capables et des outils automatisés, c'est le principe fondamental : plus l'entrée est claire et structurée, plus la sortie est fiable et utile. Les techniques, la terminologie et les outils ont mûri, mais l'idée fondamentale de l'ère GPT-3 reste vraie en 2026.

Chronologie : Les jalons clés du prompt engineering

Le tableau ci-dessous résume les jalons clés de 2018 à 2026 — les événements, articles et sorties de modèles qui ont façonné la façon dont le prompt engineering a évolué vers sa forme actuelle.

Année	Jalon	Pourquoi c'est important
2018–2019	BERT (Google) et GPT-2 (OpenAI) publiés	A démontré que les modèles transformers pouvaient être guidés par la formulation des entrées — mais sans discipline formelle encore
2020	GPT-3 et Brown et al. « Language Models are Few-Shot Learners »	A établi le few-shot prompting comme paradigme : réécrire le prompt change le comportement du modèle sans ré-entraînement
2022 (janv.)	InstructGPT / RLHF (Ouyang et al., OpenAI)	Modèles entraînés à suivre des instructions — a rendu la qualité des prompts beaucoup plus déterminante
2022 (mai)	Prompting Chain-of-Thought (Wei et al., Google Brain)	A prouvé que la structure du prompt pouvait éliciter un raisonnement étape par étape — a transformé le prompting en échafaudage cognitif
2022 (nov.)	Lancement de ChatGPT	A amené le prompt engineering dans la conscience du grand public ; des millions ont commencé à expérimenter du jour au lendemain
2023 (T1)	Le titre « prompt engineer » atteint des offres de salaire à 300K$+ ; l'OED ajoute prompt comme verbe	A défini le prompt engineering comme une profession reconnue et une compétence nommée
2023 (mars)	Sortie de GPT-4 ; prompting multimodal avec images	A étendu le prompt engineering au-delà du texte vers les entrées visuelles et les grandes fenêtres de contexte
2023	Frameworks formalisés : CRAFT, CO-STAR, SPECS, RISEN ; guides officiels d'OpenAI et Google	A transformé le prompt engineering d'un art personnel en pratique enseignable et partageable
2023–2024	Article APE (Zhou et al.) et framework DSPy — prompts optimisés par IA	Les LLM se sont avérés capables d'écrire des prompts aussi bien que les humains ; l'optimisation automatisée des prompts est devenue pratique
2024	Modèles de la classe Llama 3 ; fenêtres de contexte dépassant 1M de tokens (Gemini 1.5 Pro)	LLM open source pour déploiement privé ; le contexte massif a déplacé l'attention vers l'ingénierie de contexte
2025–2026	La conception de contexte et l'orchestration multi-agents remplacent le simple ajustement de prompts	Le prompting devient une couche dans un contexte composé — une réflexion au niveau système est requise

Comment l'histoire façonne les meilleures pratiques actuelles

Chaque phase de l'évolution du prompt engineering a laissé un dépôt durable dans la pratique actuelle. L'ère GPT-3 nous a donné l'idée fondamentale que le comportement du modèle est façonné par la structure de l'entrée — pas seulement le contenu. L'ère Chain-of-Thought nous a donné des échafaudages de raisonnement explicites : prompting étape par étape, chaînage de prompts et approches tree-of-thought. L'ère des frameworks nous a donné des modèles réutilisables qui encodent les meilleures pratiques sans exiger que chaque praticien les découvre de zéro.

L'ère RAG et de la conception de contexte nous a donné la compréhension que les prompts n'existent pas en isolation — ils sont composés avec des données récupérées, des instructions système et des sorties d'outils pour former un contexte complet. Et l'ère du prompting automatisé nous a rappelé que les principes d'un bon prompting sont mesurables : les prompts mieux structurés produisent de meilleures sorties de façon qui peut être évaluée et optimisée systématiquement.

Techniques de raisonnement de 2022 → Chain-of-Thought Prompting: Make AI Show Its Reasoning et Tree of Thought & ReAct: Advanced Reasoning for Hard Problems
Développement de frameworks de 2023 → Which Prompt Framework Should You Use?
Croissance des fenêtres de contexte → Context Windows Explained: Why Your AI Forgets
Économie des tokens à travers les générations de modèles → Tokens, Costs & Limits: The Economics of AI Prompting
RAG comme complément au prompting pur → RAG Explained: How to Ground AI Answers in Real Data

FAQ : L'évolution du prompt engineering

Qui a inventé le terme « prompt engineering » en premier ?

L'origine exacte est débattue. Le terme est apparu dans des contextes de recherche dès 2021 et a été plus largement utilisé tout au long de 2022. Richard Socher est mentionné dans certains commentaires comme ayant contribué à cadrer le concept publiquement, bien qu'aucune personne ne soit créditée de l'avoir inventé. L'article Wikipédia sur le prompt engineering Prompt Engineering – Wikipedia donne un aperçu équilibré des revendications concurrentes.

Pourquoi le prompt engineering a-t-il explosé en popularité après ChatGPT ?

ChatGPT était le premier modèle IA polyvalent que des millions de non-chercheurs pouvaient utiliser immédiatement, gratuitement, sans écrire de code. L'écart entre un prompt bien conçu et un vague était visible et immédiatement conséquent — de meilleurs prompts produisaient des sorties sensiblement meilleures. Cette boucle de rétroaction, vécue simultanément par des millions de personnes, a transformé le prompt engineering d'un concept de recherche en une compétence de masse.

Comment les articles de recherche ont-ils influencé les techniques de prompting du monde réel ?

Le transfert a été inhabituellement rapide pour la recherche en IA. Le prompting Chain-of-Thought (Wei et al., 2022) est passé d'un article académique à une technique de praticien largement utilisée en quelques mois, en partie parce qu'il ne nécessitait aucun outillage — juste un changement dans la façon d'écrire le prompt. Le few-shot prompting tiré de l'article GPT-3 (Brown et al., 2020) était immédiatement adoptable par quiconque avait accès à l'API. L'accessibilité des techniques a accéléré leur diffusion.

Le prompt engineering devient-il moins important à mesure que les modèles s'améliorent ?

Non — les modèles plus capables répondent mieux aux prompts bien structurés, pas moins. Les gains d'un bon prompting augmentent à mesure que le modèle devient plus capable de suivre des instructions précises. Ce qui a changé, c'est le niveau de prompt engineering requis pour les tâches simples : les questions conversationnelles nécessitent désormais moins de travail qu'en 2021. Mais pour les sorties complexes de qualité production, le prompting structuré reste le levier le plus fiable disponible.

Quelle est la différence entre le prompt engineering et l'ingénierie de contexte ?

Le prompt engineering désigne généralement la conception de l'entrée textuelle d'un modèle pour améliorer sa sortie. L'ingénierie de contexte est un concept plus large et plus récent qui désigne l'orchestration de tout ce qui se trouve dans la fenêtre de contexte du modèle : le prompt système, les documents récupérés, l'historique de conversation, les sorties d'outils et l'entrée utilisateur — tous composés délibérément. L'ingénierie de contexte traite le prompt comme un composant dans un système conçu, pas comme un artefact autonome.

Les outils automatisés remplaceront-ils le besoin de comprendre le prompt engineering ?

Les outils automatisés comme DSPy peuvent optimiser la formulation des prompts dans des objectifs définis, mais ils nécessitent qu'un humain spécifie quel est l'objectif, quelles contraintes s'appliquent et comment évaluer le succès. Comprendre les principes du prompt engineering reste nécessaire pour utiliser ces outils efficacement — et pour diagnostiquer quand ils produisent le mauvais résultat. L'automatisation supprime une partie de l'itération manuelle ; elle ne supprime pas le besoin d'une réflexion structurée.

Le prompt engineering est-il mort en 2026 ?

Non. La discipline a évolué, elle n'a pas disparu. À mesure que les modèles deviennent plus capables, le travail passe des astuces syntaxiques vers la conception de contexte — structurer les entrées, gérer la récupération et composer les sorties d'outils. L'intitulé « Prompt Engineer » se rétrécit, mais la compétence est intégrée dans chaque rôle utilisant l'IA : développeur, analyste, marketeur, chercheur. McKinsey 2024 State of AI a constaté que l'adoption efficace de l'IA corrèle toujours fortement avec la façon dont les utilisateurs formulent les tâches pour le modèle.

Dois-je apprendre le prompt engineering si les modèles continuent de s'améliorer ?

Oui — mais le focus évolue à chaque génération. Les modèles plus performants réduisent le besoin de contournements élaborés et augmentent la valeur d'une intention claire, d'un contexte structuré et d'exemples bien choisis. Les fondamentaux — rôle, contexte, format, contraintes — restent stables d'une génération de modèles à l'autre.

Quelle est la différence entre le prompt engineering et le fine-tuning ?

Le prompt engineering modifie la façon dont on communique avec un modèle sans changer ses poids. Le fine-tuning réentraîne un modèle sur de nouvelles données pour modifier son comportement de façon permanente. Le prompt engineering est plus rapide, moins coûteux et réversible. Le fine-tuning convient mieux lorsque le comportement cible est constant, à fort volume ou impossible à décrire dans un prompt. La plupart des équipes commencent par le prompting et passent au fine-tuning uniquement lorsque le prompting atteint ses limites.

Comment l'ingénierie des prompts a évolué : De GPT-3 au Context Design