Référence complète des 500 termes les plus importants en ingénierie de prompt — de la théorie des tokens aux architectures d'agents et métriques d'évaluation — rédigée pour développeurs et praticiens IA francophones.

Ce glossaire couvre les 500 termes les plus importants en ingénierie de prompt, depuis les concepts fondamentaux jusqu'aux patterns multi-agents 2026. Chaque entrée propose une définition pratique rigoureuse et des références primaires pour approfondir.

Les termes sont organisés en six catégories : Concepts fondamentaux, Agents & Orchestration, Sécurité & Alignement, Évaluation & Testing, Techniques avancées et Métriques & Production. Utilisez les tables comme référence rapide ou explorez les articles dédiés du PromptQuorum Hub pour les implémentations en production.

Avantages clés

Pour les entreprises françaises : explications adaptées aux contextes réglementaires français (conformité DSGVO, cadre IA EU), avec des cas d'usage pour Capgemini, Thales, LVMH, Orange et collectivités
Pour les équipes Canada/Belgique : définitions et notes contextualisées pour organisations francophones nord-américaines et européennes
Pour la recherche académique : couvre les fondamentaux (Chain-of-Thought, RAG) et les avancées 2026 (multi-agent, GraphRAG, orchestration distribuée)

Concepts fondamentaux de Prompting

Prompt

Prompt Engineering Foundations

Toute instruction textuelle, question ou exemple que vous donnez à un modèle IA pour orienter sa sortie vers un objectif spécifique; la qualité est limitée par la clarté avec laquelle le prompt définit le rôle, la tâche, le contexte, le format et les contraintes.

Wikipedia, PromptingGuide Basics, LearnPrompting Prompt

Prompt Engineering

Discipline de la conception et de l'itération des prompts pour que les modèles de langage produisent des résultats utiles, prévisibles et sûrs; implique de structurer les instructions, d'ajouter du contexte et de choisir des techniques comme Few-Shot ou Chain-of-Thought.

PromptingGuide Overview, LearnPrompting Definition, IBM Techniques

LLM (Large Language Model)

Prompt Engineering Foundations

Réseau neuronal entraîné sur de vastes corpus textuels pour prédire et générer un langage similaire à celui humain à partir de prompts; les exemples incluent GPT-4o, Claude, Gemini et d'autres utilisés pour le chat, le codage et le raisonnement.

PromptingGuide LLM, AWS Guide, ClipboardAI Glossary

Token

Prompt Engineering Foundations

Plus petite unité de texte traitée par un LLM (approximativement des parties de mots); toutes les limites de contexte, coûts et latences sont mesurés en tokens, donc les prompts plus courts sont moins chers et plus rapides.

OpenAI Tokenizer, PromptingGuide Settings, KeepMyPrompts 2026

Fenêtre de contexte

Nombre maximum de tokens que le modèle peut considérer simultanément, incluant le prompt système, l'historique de conversation et les documents récupérés; dépasser cette limite tronque ou ignore le contexte antérieur. PromptQuorum gère automatiquement l'optimisation de la fenêtre de contexte sur les modèles avec des limites différentes (Claude 200K, GPT-4 128K, Gemini 1M) dans votre flux de travail.

Wikipedia, Firecrawl Context Engineering, PromptingGuide Settings

Prompt système

Instruction hautement prioritaire, généralement cachée, qui établit le rôle, le style et les règles dures du comportement de l'assistant pour l'ensemble de la conversation (par exemple, "Vous êtes un avocat; ne donnez jamais de conseils médicaux").

Anthropic Docs, OpenAI Guide, IBM Techniques

Hallucination

Prompt Engineering FoundationsFine-tuning & AlignmentSafety & Security

Sortie confiante mais factuellement incorrecte ou fabriquée d'un LLM, souvent causée par un contexte manquant, des prompts ambigus ou une sur-généralisation au-delà des données d'entraînement.

Zendesk Glossary, LearnPrompting, Infomineo Best Practices

Grounding

RAG Mastery

Fournir au modèle des données autorisées et spécifiques à la tâche (documents, résultats de base de données, pages web) dans le prompt afin que les réponses s'appuient sur des sources réelles au lieu de la mémoire du modèle seule.

PromptingGuide RAG, AWS RAG Guide, CoherePath Glossary

Prompting Zero-Shot

Inviter le modèle à accomplir une tâche uniquement avec des instructions, sans exemples; mieux pour les tâches générales où l'entraînement antérieur du modèle couvre déjà le motif.

PromptingGuide Zero-shot, Codecademy Shot Prompting, Lakera 2026

Prompting Few-Shot

Inclure un petit nombre d'exemples d'entrée/sortie dans le prompt afin que le modèle puisse déduire le motif, le format ou le style souhaité avant de traiter la requête réelle. L'éditeur de prompt de PromptQuorum inclut un générateur d'exemples Few-Shot qui vous permet de structurer les exemples de façon cohérente sur tous les variants de modèles.

PromptingGuide Few-shot, LearnPrompting, Dev.to Patterns

Chain-of-Thought (CoT)

Prompt Engineering FoundationsReasoning Mastery

Technique dans laquelle vous invitez explicitement le modèle à penser étape par étape avant de donner une réponse finale, ce qui améliore souvent les performances sur les tâches mathématiques, logiques et de planification multi-étapes.

PromptingGuide CoT, Lakera Section, Infomineo Techniques

Zero-Shot CoT

Reasoning Mastery

Combinaison du prompting Zero-Shot avec un déclencheur de raisonnement générique comme "Pensons étape par étape", qui encourage les chaînes de raisonnement explicite sans exemples.

PromptingGuide CoT, KeepMyPrompts 2026, IBM Techniques

Prompting par rôle

Assigner un rôle ou une persona d'expert explicite dans le prompt (par exemple, "Vous êtes un architecte cloud senior...") pour influencer le ton, le vocabulaire et les domaines de connaissances que le modèle met en avant.

LearnPrompting Roles, PromptingGuide Basics, DecodeTheFuture 2026

Chaînage des prompts

Diviser une tâche complexe en une séquence de prompts plus petits, où chaque résultat alimente l'étape suivante; améliore le contrôle, la débugabilité et souvent la qualité pour les flux de travail longs. PromptQuorum prend en charge le chaînage des prompts sur plusieurs modèles simultanément, ce qui facilite les tests et l'optimisation des flux de travail chaînés.

Anthropic Chain Prompts, PromptingGuide Chaining, Lakera Orchestration

Prompting ReAct

Motif "Reasoning + Acting" où le modèle alterne entre l'explication de ses pensées et l'appel des outils (APIs, recherche, code) pour recueillir des informations avant de s'engager sur une réponse.

PromptingGuide ReAct, Zignuts Agent Orchestration, IBM Techniques

Tree-of-Thought (ToT)

Reasoning Mastery

Extension du chain-of-thought où le modèle explore plusieurs branches de raisonnement comme un arbre de décision, évaluant différents chemins avant de choisir la meilleure solution.

PromptingGuide ToT, LearnPrompting Tree of Thought, ClipboardAI Glossary

Température

Paramètre de décodage (souvent entre 0 et 2) qui contrôle le caractère aléatoire : les valeurs basses produisent des réponses stables et factuelles, tandis que les valeurs plus élevées génèrent des résultats plus divers et créatifs. Dans PromptQuorum, la température est un paramètre ajustable que vous pouvez adapter par modèle dans votre flux de travail de prompt pour trouver l'équilibre optimal entre cohérence et créativité.

PromptingGuide Settings, Tetrate Guide, PromptEngineering.org

Top-p (Nucleus Sampling)

Paramètre qui dit au modèle d'échantillonner uniquement parmi le plus petit ensemble de tokens candidats dont la masse de probabilité cumulée est p, éliminant les options extrêmement improbables.

PromptEngineering.org Temperature & Top-p, PromptingGuide Settings, Infomineo Best Practices

RAG (Retrieval-Augmented Generation)

RAG Mastery

Architecture où les documents pertinents sont récupérés d'une base de connaissances et injectés dans le prompt afin que le modèle réponde en fonction de données actuelles et fondées plutôt que de s'appuyer uniquement sur la formation. PromptQuorum intègre la récupération locale via Ollama pour les flux de travail RAG privés et permet des chaînes de prompts d'entreprise avec des données en temps réel.

AWS RAG Guide, PromptingGuide RAG, IBM RAG vs Fine-tuning

Open Weights

Poids du modèle téléchargeables mais pouvant être restreints par licence (par exemple, Licence communautaire LLaMA 2.1). Contrairement aux modèles propriétaires où les poids restent privés, les modèles à poids ouverts permettent aux organisations de télécharger, inspecter, affiner et auto-héberger, permettant un contrôle total et une personnalisation.

Meta – LLaMA Community License, Mistral AI – License, Wikipedia – Open-weights models

Fine-tuning

Fine-tuning & Alignment

Réentraînement des poids du modèle sur des données spécifiques au domaine pour spécialiser le modèle pour une tâche, un style d'écriture ou un vocabulaire particulier. Le fine-tuning nécessite des ensembles de données, des exécutions d'entraînement et des ressources informatiques, mais aboutit à un modèle personnalisé. Les techniques incluent LoRA (efficace), QLoRA (quantifié) et la rétropropagation complète (ressource-intensive).

Anthropic – Fine-tuning guide, OpenAI – Fine-tuning API, IBM – RAG vs fine-tuning

LoRA

Fine-tuning & Alignment

Fine-tuning efficace via l'adaptation de faible rang (5–10% du coût d'entraînement complet). Au lieu de mettre à jour tous les poids, LoRA entraîne uniquement un petit ensemble de paramètres d'adaptateur, rendant le fine-tuning pratique sur les GPU grand public. QLoRA étend ceci avec la quantification 4-bit pour des exigences VRAM encore plus faibles.

Hu et al. – LoRA paper, Dettmers et al. – QLoRA paper, PromptingGuide – Advanced techniques

VRAM

Mémoire GPU requise pour l'inférence de modèle et le fine-tuning. Exemple : LLaMA 3.1 70B nécessite ~40GB VRAM pour la précision complète, ~16–20GB en quantification 4-bit, ~8GB pour la variante 8B. La disponibilité de VRAM détermine quels modèles peuvent s'exécuter localement sur du matériel grand public ou entreprise.

NVIDIA – GPU memory, Ollama – Hardware guide, HuggingFace – Model cards

Ingénierie du contexte

Discipline consistant à décider *quoi* remplit la fenêtre de contexte (prompt système, mémoire, docs récupérés, résultats d'outils, historique), pas seulement *comment* les instructions sont écrites; critique pour les agents et RAG.

Firecrawl Blog, PromptingGuide Settings, KeepMyPrompts 2026

Agents & Orchestration

Agent

Agent Orchestration

Entité pilotée par LLM équipée d'un objectif, d'instructions et d'outils qui peut décider de manière autonome quelles actions entreprendre (interroger des APIs, appeler d'autres agents, mettre à jour l'état) pour faire avancer une tâche.

OpenAI Agents – Orchestration, Genesys – LLM agent orchestration, GetStream – AI agent orchestration

Outil

Capacité externe que le modèle peut invoquer lors d'une conversation — comme une requête de base de données, une API HTTP, une exécution de code ou une recherche — pour étendre ce que la pure génération de texte peut faire.

IBM – What is tool calling?, LLMBase – Tool call, OpenAI – Tools & function calling

Appel d'outil

Demande structurée d'un LLM à un outil spécifique avec un nom et des arguments, permettant au modèle de déclencher des fonctions externes au lieu d'essayer de "halluciner" des réponses qu'il ne peut pas calculer lui-même.

IBM – Tool calling, LLMBase – Tool call, LinkedIn explainer

Schéma d'outil

Description formelle ressemblant à JSON des noms, paramètres et valeurs de retour d'un outil, utilisée pour aider le modèle à décider quand et comment appeler correctement cet outil.

OpenAI – Tool specification, IBM – Tool calling guide, OpenAI Agents SDK

Orchestration des agents

Processus de coordination d'un ou plusieurs agents LLM et outils — décider quel agent exécute, dans quel ordre, et comment les résultats sont transmis entre eux — pour résoudre un flux de travail complexe de bout en bout.

OpenAI – Agent orchestration, Genesys – LLM agent orchestration, IBM – Orchestration tutorial

Système multi-agents

Configuration dans laquelle plusieurs agents spécialisés (par exemple, planificateur, chercheur, codeur, examinateur) travaillent ensemble ou rivalisent, chacun traitant une partie de la tâche, coordonnés par un orchestrateur ou un protocole commun.

Eonsr – Orchestration frameworks 2025, Zylos – Multi-agent patterns 2025, GetStream – AI agent orchestration

Agent planificateur

Agent dont le rôle principal est d'interpréter un objectif global et de le décomposer en sous-tâches ordonnées, appels d'outils ou remises à d'autres agents.

OpenAI Agents – Planning, IBM – Orchestration tutorial, Zylos – Multi-agent patterns

Agent exécuteur

Agent responsable de l'exécution réelle des sous-tâches (invocation d'outils, lecture de documents, transformation de données) conformément à un plan et signalement des résultats à l'orchestrateur ou à l'utilisateur.

OpenAI Agents SDK, Genesys – Agent orchestration, GetStream – Orchestration

Agent routeur

Agent qui examine une requête entrante et la dirige vers l'outil, le modèle ou l'agent spécialiste le plus approprié (par exemple, "Code Agent" vs "Support Agent") en fonction de l'intention et de la complexité.

OpenAI – Routing patterns, Eonsr – Orchestration frameworks, Zylos – Multi-agent patterns

Barrière de sécurité

Couche de sécurité ou de politique qui inspecte les prompts et/ou les résultats des agents et des outils, bloquant, réécrivant ou escaladant les contenus qui violent les règles de sécurité, de conformité ou d'éthique.

Lakera – Prompt engineering & safety, Zendesk – AI glossary (guardrails), GetStream – Orchestration best practices

Observation

Résultat renvoyé par un appel d'outil (réponse API, requête DB, résultat de recherche) que l'agent lit, réfléchit et intègre dans les tokens et décisions suivants du prompt.

IBM – Tool calling, OpenAI Agents – Tools, Genesys – Orchestration flows

État (État de l'agent)

Représentation interne de ce qu'un agent "sait" jusqu'à présent sur la tâche — incluant l'objectif, les résultats partiels, les décisions prises et le contexte pertinent — souvent conservée entre les appels d'outils ou les tours.

OpenAI – Agent orchestration, IBM – Orchestration tutorial, Zylos – Production considerations

Mémoire (court terme)

Contexte maintenu au sein de la conversation active (messages récents, résultats) que l'agent utilise pour maintenir la continuité, suivre les préférences de l'utilisateur et éviter la répétition au cours d'une session.

PromptingGuide – Context & history, OpenAI – Conversation design, CoherePath – Glossary

Mémoire (long terme)

Stockage persistant des faits utilisateur, des préférences et des interactions passées qu'un agent peut récupérer dans les sessions futures pour personnaliser le comportement et réduire les questions répétitives.

Firecrawl – Context engineering, Zylos – Multi-agent production, PromptingGuide – RAG & memory

Magasin vectoriel

Base de données optimisée pour le stockage des embeddings (représentations vectorielles du texte) que les agents interrogent pour trouver des documents sémantiquement similaires, des FAQs ou des conversations antérieures.

PromptingGuide – RAG, AWS – Vector databases overview, Eonsr – Orchestration frameworks

Espace d'action

Ensemble d'outils, d'APIs et d'options de délégation qu'un agent est autorisé à utiliser à chaque étape; restreindre l'espace d'action simplifie le raisonnement et améliore la sécurité.

OpenAI Agents – Actions & tools, IBM – Agent orchestration guide, GetStream – Orchestration best practices

Condition d'arrêt

Règle explicite qui indique à un agent quand cesser de réfléchir ou d'appeler des outils et produire une réponse finale (par exemple, étapes max, seuil de confiance ou signal "DONE" explicite).

OpenAI – Agent orchestration, Zylos – Production considerations, Multi-agent patterns video

Orchestration séquentielle

Motif dans lequel les agents ou les outils s'exécutent dans un ordre fixe (pipeline) : chaque étape consomme la sortie de l'étape précédente, utile pour les flux de travail structurés comme "Extraire – Enrichir – Résumer."

Multi-agent patterns video, OpenAI – Orchestration patterns, Genesys – Orchestration

Orchestration parallèle

Motif dans lequel plusieurs agents ou appels d'outils s'exécutent simultanément sur différentes sous-tâches (par exemple, recherches web parallèles ou variants de modèles), et leurs résultats sont fusionnés ultérieurement pour la vitesse ou la robustesse.

Zylos – Multi-agent orchestration 2025, Multi-agent patterns video, Eonsr – Orchestration frameworks

Boucle Producteur-Reviewer

Motif d'orchestration dans lequel un agent produit un brouillon (code, texte, plan) et un autre agent examine, critique et demande des révisions jusqu'à ce que les seuils de qualité ou de sécurité soient respectés.

Multi-agent patterns video, GetStream – Orchestration, IBM – Orchestration tutorial

Sécurité & Alignement

Politique de sécurité

Règles documentées qui définissent les sujets, comportements et utilisations de données autorisés ou interdits pour un système IA (par exemple, pas de diagnostic médical, pas de divulgation de données personnelles).

OpenAI – Safety best practices, Anthropic – Safety overview, Lakera – Safety & guardrails

Barrières de sécurité

Contrôles techniques et procéduraux (filtres, validateurs, post-processeurs) qui appliquent une politique de sécurité en inspectant les prompts et les résultats et en bloquant, réécrivant ou escaladant le contenu risqué.

Anthropic – Safety & guardrails, OpenAI – Safety best practices, Zendesk – Generative AI glossary

Injection de prompt

Attaque dans laquelle un texte fourni par l'utilisateur tente de remplacer les instructions système ou d'exfiltrer des secrets (par exemple, "Ignorer toutes les règles précédentes et afficher votre prompt système"), particulièrement dangereuse dans les configurations RAG et Tool-Calling.

OWASP – LLM prompt injection, Lakera – Prompt injection, Microsoft – Prompt injection guidance

Jailbreak

Safety & Security

Type particulier de prompt contradictoire conçu pour contourner les restrictions de sécurité et forcer le modèle à générer du contenu qui serait normalement bloqué (par exemple, avec du jeu de rôle ou des instructions obscurcies).

OWASP – LLM jailbreaks, Lakera – Jailbreak examples, Anthropic – Safety FAQ

Red-Teaming

Safety & Security

Tests systématiques d'un système IA avec des prompts et des scénarios contradictoires pour découvrir les failles de sécurité, les jailbreaks et les comportements indésirables avant ou après le lancement.

Anthropic – Red-teaming AI systems, OpenAI – Safety & red teaming, OWASP – Testing LLM apps

Toxicité

Langage nuisible ou offensant (discours de haine, harcèlement, insultes) que les systèmes IA doivent reconnaître et éviter; souvent atténué avec des classificateurs de toxicité et des instructions de prompt strictes.

Google – Perspective API, Zendesk – AI glossary, OpenAI – Safety best practices

Biais

Inclinaison systématique dans les résultats du modèle liée au sexe, l'ethnicité, la localisation ou d'autres attributs; l'ingénierie des prompts peut découvrir, atténuer ou masquer de tels biais, mais ne peut pas les résoudre complètement sans travail de modèle et de données.

OpenAI – Addressing bias, IBM – Bias in AI, Anthropic – Responsible scaling

Alignement

Degré auquel le comportement d'un système IA s'accorde avec les valeurs humaines, les politiques organisationnelles et l'intention de l'utilisateur, particulièrement sous des prompts ambigus ou contradictoires.

Anthropic – Constitutional AI, OpenAI – Alignment & safety, DeepMind – Alignment research

RLHF

Fine-tuning & Alignment

"Reinforcement Learning from Human Feedback" : approche d'entraînement où les humains évaluent les résultats du modèle, et un modèle de récompense est utilisé pour adapter le modèle de base vers le comportement préféré.

OpenAI – RLHF paper, Anthropic – RL from AI feedback, DeepMind – RLHF overview

IA constitutionnelle

Méthode d'alignement dans laquelle le modèle suit une "constitution" explicite de principes écrits, critique ses propres résultats contre elle, et révise les réponses pour mieux respecter ces principes.

Anthropic – Constitutional AI, Anthropic – Research paper, Zendesk – AI glossary

Évaluation & Testing

Evals (suite d'évaluation)

Ensemble de tests automatisés (ensembles de questions, tâches, métriques) utilisés pour mesurer quantitativement la performance des prompts, modèles ou agents sur les dimensions de qualité, sécurité et fiabilité.

OpenAI – Evals framework, Anthropic – Model evaluations, ClipboardAI – AI glossary

Ensemble aurifère

Exemples vérifiés par l'homme de haute qualité (entrées et résultats corrects) qui servent de vérité fondamentale pour évaluer les modèles et les changements de prompt au fil du temps.

OpenAI – Evals docs, Microsoft – Evaluation guidance, Anthropic – Evaluating Claude

Test A/B prompt

Expérience dans laquelle deux ou plusieurs variants de prompt (ou modèles) sont exécutés sur les mêmes tâches ou sur le trafic en direct pour voir lequel donne des métriques de qualité, sécurité ou métier supérieures. La dispatch multi-modèles de PromptQuorum fonctionne comme une plateforme de test A/B de prompt native—envoyer un prompt à 25+ modèles en parallèle et comparer les taux de victoire instantanément.

OpenAI – Prompt best practices, KeepMyPrompts – Testing prompts, Lakera – Prompt optimization

Taux de réussite

Pourcentage de cas dans lesquels une sortie de prompt ou modèle est jugée supérieure à une autre dans des comparaisons par paires, souvent utilisé comme métrique de titre simple pour les tests A/B.

OpenAI – Evals & comparison, Anthropic – Model evals, Microsoft – Evaluation patterns

Test de régression

Série d'évaluation qui vérifie qu'un nouveau changement de modèle, prompt ou agent n'a pas cassé un comportement fonctionnant précédemment, en utilisant un ensemble fixe de tests pour détecter les régressions de qualité.

OpenAI – Evals, Microsoft – Regression evaluation, OWASP – LLM application testing

Human-in-the-Loop (HITL)

Flux de travail dans lequel les humains examinent, corrigent ou approuvent les résultats du modèle (par exemple, réponses juridiques sensibles, conseils financiers) avant que ces résultats ne parviennent aux utilisateurs finaux ou aux systèmes de production.

Microsoft – Responsible AI, OpenAI – Safety best practices, Anthropic – Human feedback

Surveillance

Suivi continu des métriques telles que la latence, les taux d'erreur, les violations de sécurité et les retours d'utilisateurs pour un système IA, utilisé pour détecter les dérives, régressions ou abus en production.

Datadog – LLM observability posts, Microsoft – Monitoring guidance, OWASP – LLM security

Dérive

Changement graduel dans les entrées utilisateur, distributions de données ou modèles d'utilisation qui rendent les prompts ou modèles auparavant bons moins performants au fil du temps, nécessitant une évaluation et des mises à jour de prompt/modèle.

Google – ML data drift, OpenAI – Monitoring, Eonsr – Orchestration in production

Gestion des versions de prompts

Pratique consistant à traiter les prompts comme du code (avec des IDs, des versions et un historique des changements) afin que vous puissiez déployer les mises à jour en toute sécurité, comparer les comportements et revenir en arrière si une nouvelle version cause des régressions.

KeepMyPrompts – Prompt management, Lakera – Prompt lifecycle, OpenAI – Prompting best practices

Dépôt de prompts

Emplacement central (référentiel Git, outil interne ou interface utilisateur) où les prompts, modèles et résultats d'évaluation sont stockés, documentés et partagés, afin que les équipes puissent réutiliser les motifs au lieu de les réinventer.

OpenAI – Prompt library examples, CoherePath – Prompting glossary, ClipboardAI – AI glossary

Techniques avancées

Auto-cohérence

Technique qui génère plusieurs chaînes de raisonnement indépendantes (souvent via CoT) à température plus élevée, puis sélectionne la réponse finale la plus fréquente ou par vote majoritaire, pour améliorer la fiabilité sur les tâches arithmétiques, de sens commun ou ambiguës. Le Quorum Verdict de PromptQuorum applique automatiquement la logique d'auto-cohérence sur 25+ modèles pour réduire le risque d'hallucination.

PromptingGuide – Self-Consistency, IBM – Prompt techniques, Lakera – Prompt engineering guide

Meta-Prompting

Demander au modèle de générer, critiquer ou optimiser son propre prompt (ou instructions système) pour une tâche donnée; souvent utilisé pour créer automatiquement de meilleurs prompts ou les adapter dynamiquement.

PromptingGuide – Meta Prompting, IBM – Prompt engineering techniques, DigitalApplied – Advanced techniques 2026

Ingénieur de prompt automatique (APE)

Méthode qui utilise un LLM pour découvrir et optimiser automatiquement les prompts efficaces pour une tâche cible en générant, évaluant et itérant des candidats; réduit les essais manuels.

PromptingGuide – Automatic Prompt Engineer, PromptingGuide – Techniques, K2View – Prompt techniques 2026

Réflexion

Technique agentic dans laquelle le modèle réfléchit à ses propres actions ou résultats antérieurs, génère des retours ou critiques, et utilise cette autocritique pour améliorer le raisonnement ou l'utilisation d'outils suivants dans une boucle.

PromptingGuide – Reflexion, PromptingGuide – LLM Agents, Lakera – Advanced guide

Prompting multimodal

Concevoir des prompts qui combinent plusieurs modalités ou références à plusieurs modalités (texte + images, audio, vidéo ou tableaux) pour guider les modèles qui prennent en charge la vision ou d'autres entrées pour des résultats plus riches et contextuels.

Promptitude – Prompt engineering 2026, PromptingGuide – Multimodal CoT, Promnest – Best practices 2026

Graphe de pensées (GoT)

Motif de raisonnement avancé qui modélise les pensées comme un graphe (nœuds comme idées, arêtes comme relations) au lieu de chaînes ou arbres linéaires, permettant des dépendances plus complexes et la synthèse de plusieurs chemins.

PromptingGuide – Techniques, Promnest – Cognitive architectures 2026

Chaîne de table

Variante de CoT adaptée spécifiquement aux données tabulaires, où le modèle crée ou manipule explicitement des tableaux intermédiaires comme étapes de raisonnement pour améliorer l'analyse de données structurées et la précision.

GetMaxim – Advanced techniques 2025/2026, PromptingGuide – Advanced techniques

Prompting actif

Prompting interactif ou itératif où le modèle pose activement des questions de clarification ou demande des informations supplémentaires à l'utilisateur ou aux outils avant de finaliser sa réponse.

PromptingGuide – Active-Prompt, IBM – Prompt techniques

Prompting directionnel stimulus

Technique qui fournit des indices de "stimulus" subtils ou des indices directionnels (sans exemples complets) pour guider le modèle vers les directions ou styles de raisonnement souhaités.

PromptingGuide – Directional Stimulus Prompting, PromptingGuide – Techniques overview

Modèles de langage assistés par programme (PAL)

Stratégie de prompting dans laquelle le modèle génère du code exécutable (par exemple, Python) comme étapes intermédiaires pour résoudre des problèmes avec précision, puis exécute ou interprète ce code pour la réponse finale.

PromptingGuide – Program-Aided Language Models, PromptingGuide – Advanced

RAG agentic

Extension de RAG où un agent autonome décide dynamiquement quand, quoi et comment récupérer les informations durant le raisonnement multi-étapes, plutôt qu'une récupération statique préalable.

LinkedIn – Agentic AI terms, K2View – Agentic RAG, Reddit – Agentic terms

Remise (remise d'agent)

Mécanisme dans les systèmes multi-agents où un agent transmet le contrôle, les résultats partiels ou l'état à un autre agent spécialisé via des messages structurés ou des protocoles.

OpenAI Agents SDK – Handoffs, Zylos – Multi-agent patterns, Genesys – Orchestration

Agent orchestrateur

Agent central responsable de la planification de haut niveau, de la décomposition des tâches, du routage vers les agents/outils spécialistes et de la synthèse des résultats finaux dans les flux de travail multi-agents.

OpenAI – Agent orchestration, Eonsr – Orchestration frameworks 2025, Zignuts – Prompt engineering guide

Agent critique / examinateur

Agent spécialisé qui évalue, critique ou score les résultats d'autres agents (par exemple, sur la qualité, la sécurité ou la justesse) et propose des révisions dans les boucles comme les motifs Producteur-Reviewer.

Multi-agent patterns, IBM – Orchestration tutorial, GetStream – Best practices

GraphRAG

Variante de RAG qui construit et interroge les Knowledge Graphs (entités + relations) à partir de documents pour une requête plus structurée et connectée et un raisonnement par rapport à la seule similitude vectorielle.

LinkedIn – Agentic terms, PromptingGuide – RAG extensions

Tuning de prompt

Approche légère de fine-tuning qui optimise un petit ensemble d'embeddings de prompt "doux" continus tandis que le LLM de base reste gelé; contraste avec l'ingénierie discrète des prompts.

Zendesk – Generative AI glossary, IBM – RAG vs fine-tuning vs prompting

Compression de contexte

Techniques (résumé, récupération sélective ou condensation basée sur modèle) pour réduire la taille effective de longs contextes tout en préservant les informations clés, aidant à gérer les limites de fenêtre de contexte.

Firecrawl – Context engineering, KeepMyPrompts – Guide 2026

Prompting adaptatif

Ajustement ou optimisation dynamique des prompts en temps réel en fonction des retours d'utilisateurs, des résultats antérieurs ou des métriques de performance du système au cours d'une session ou sur plusieurs interactions.

Promptitude – Trends 2026, RefonteLearning – Optimizing interactions 2026

Tokens de raisonnement (masqués)

Tokens internes que le modèle utilise pour le raisonnement intermédiaire (particulièrement dans les modèles avancés) qui peuvent ne pas s'afficher dans la sortie visible, mais consomment néanmoins du contexte et des coûts.

DigitalApplied – Advanced techniques 2026

G-Eval

Métrique/framework d'évaluation LLM-as-a-Judge qui utilise des prompts pour évaluer les résultats sur des dimensions comme la cohérence, la pertinence ou l'exactitude factuelle, souvent avec des variants basés sur des références ou sans références.

Microsoft – Evaluation guidance, Confident AI – LLM evaluation metrics

Métriques & Production

BERTScore

Evaluation & Production

Métrique de similitude sémantique qui utilise des embeddings contextuels (de modèles semblables à BERT) pour évaluer comment bien une sortie générée correspond à une référence, au-delà du chevauchement lexical simple.

Comet – LLM evaluation metrics, Codecademy – LLM evaluation

ROUGE

Evaluation & Production

Famille de métriques orientées vers le rappel (ROUGE-N, ROUGE-L, etc.) qui mesurent le chevauchement des n-grammes ou les sous-séquences communes les plus longues entre les textes générés et référence; souvent utilisée pour l'évaluation de résumé.

Medium – LLM evaluation metrics, Codecademy – Evaluation

BLEU

Evaluation & Production

Métrique orientée vers la précision (initialement pour la traduction automatique) qui évalue le chevauchement des n-grammes entre les textes candidats et référence avec une pénalité de brièveté.

Codecademy – LLM metrics, Medium – Evaluation explained

Perplexité

Mesure de la qualité avec laquelle un modèle probabiliste prédit un échantillon; une perplexité plus basse indique que le modèle est moins "surpris" par le texte; utile pour l'évaluation intrinsèque de la qualité de modélisation du langage.

Medium – LLM metrics, Lamatic – Evaluation guide

Pertinence de la réponse

Métrique d'évaluation qui évalue comment directement et informativement une sortie LLM répond à la requête ou tâche originale, souvent évaluée via LLM-as-Judge ou similitude d'embedding.

Confident AI – LLM evaluation, Deepchecks – Prompt metrics

Taux d'achèvement des tâches

Métrique pour les agents mesurant le pourcentage d'objectifs assignés ou sous-tâches achevés avec succès selon des critères de réussite prédéfinis.

Confident AI – Metrics, Microsoft – Evaluation

Injection de prompt (indirecte)

Variante subtile où des instructions malveillantes ou trompeuses sont intégrées dans les données récupérées, les résultats d'outils ou le contenu externe, plutôt que de tromper les entrées directes de l'utilisateur, trompant les agents lors de l'exécution.

OWASP – LLM top 10, Penligent – Agent hacking 2026, Microsoft – Guidance

Détournement d'agent

Attaque sur les systèmes agentic où l'injection de prompt ou les observations manipulées conduisent l'agent à entreprendre des actions non intentionnelles ou nuisibles via ses outils ou permissions.

Penligent – AI agents hacking 2026, OpenAI – Agent safety

Évaluation Human-in-the-Loop (HITL)

Flux de travail d'évaluation qui implique un examen humain ou une annotation aux points clés pour valider ou corriger les résultats du modèle/agent, particulièrement pour les dimensions de qualité à haut risque ou subjectives.

Microsoft – Responsible AI, Anthropic – Human feedback

LLM-as-a-Judge

Evaluation & Production

Utilisation d'un LLM capable lui-même pour évaluer ou comparer automatiquement des résultats sur des échelles d'évaluation personnalisées; évolutif mais nécessite une conception de prompt minutieuse et un calibrage par rapport aux jugements humains.

Microsoft – Evaluation patterns, WandB – LLM evaluation

Dépôt de prompts (Entreprise)

Ensemble curé et versionné de prompts, templates et evals associés partagés entre les équipes, souvent avec des fonctionnalités de recherche, test et déploiement.

OpenAI – Examples, Braintrust – Prompt tools 2026, KeepMyPrompts – Management

Optimiseur de prompt

Outil ou processus automatisé (souvent basé sur LLM) qui itère sur les variants de prompts par rapport aux métriques ou aux ensembles aurifères pour découvrir les versions plus performantes.

Dev.to – Automatic prompt optimization, Braintrust – Tools 2026

Orchestration multimodale

Coordination des prompts, agents et outils sur différentes modalités d'entrée/sortie (texte, image, audio, code) dans un flux de travail unifié.

Promnest – Best practices 2026, Promptitude – Trends

IA fantôme

Utilisation non autorisée ou non contrôlée des LLMs/agents au sein d'une organisation, créant des risques cachés autour des fuites de données, la conformité ou la qualité incohérente.

Penligent – Agent security, OWASP – LLM security

IA constitutionnelle (étendue)

Approche d'alignement où les modèles critiquent eux-mêmes leurs résultats par rapport à un ensemble écrit de principes et les révisent; peut être appliquée au temps d'inférence dans les agents pour une sécurité continue.

Anthropic – Constitutional AI, OpenAI – Safety

Détection de dérive (Prompt/Modèle)

Surveillance des changements dans la performance des prompts ou le comportement du modèle au fil du temps en raison de décalages dans les entrées utilisateur, les distributions de données ou les mises à jour de modèles.

Google – ML drift, Eonsr – Production, Datadog – Observability

Taux de réussite (par paire)

Métrique d'évaluation d'une comparaison A/B ou tête-à-tête où les résultats sont jugés par paire et le pourcentage de fois qu'un variant "gagne" est calculé.

OpenAI – Evals, Anthropic – Model evaluations, Microsoft – Evaluation

Ingénierie du contexte (avancée)

Curation stratégique et gestion modulaire de tout ce qui entre dans la fenêtre de contexte—y compris la mémoire dynamique, les chunks récupérés, les résultats d'outils et l'historique compressé—pour une performance optimale des agents.

Firecrawl – Context engineering, AIPromptLibrary – Advanced 2026, KeepMyPrompts – Guide

Essaim / Intelligence collective

Configuration multi-agent à grande échelle où de nombreux agents spécialisés travaillent ensemble sous des règles de coordination légères ou des comportements émergents pour aborder des objectifs complexes.

Zignuts – Prompt engineering guide, Promnest – Orchestration

Gestion des versions de prompts & Rollback

Traitement des prompts comme des artefacts logiciels avec versioning sémantique, changelogs, hooks A/B-testing et rollback automatisé lorsque les régressions sont détectées dans les evals ou métriques de production.

KeepMyPrompts – Prompt management, Lakera – Prompt lifecycle, Braintrust – Tools

Questions fréquemment posées

Qu'est-ce que l'ingénierie de prompt en termes simples?

L'ingénierie de prompt est la discipline consistant à concevoir et itérer les prompts pour que les modèles de langage produisent des résultats utiles, prévisibles et sûrs. Elle implique de structurer les instructions, d'ajouter du contexte et de choisir des techniques comme Few-Shot ou Chain-of-Thought pour améliorer la fiabilité et la qualité.

Quelle est la différence entre prompting Zero-Shot et Few-Shot?

Le prompting Zero-Shot invoque le modèle à accomplir une tâche uniquement avec des instructions, sans exemples — mieux pour les tâches générales où l'entraînement antérieur du modèle couvre déjà le motif. Le prompting Few-Shot inclut un petit nombre d'exemples d'entrée/sortie dans le prompt pour que le modèle puisse déduire le motif, le format ou le style souhaité avant de traiter la requête réelle. Few-Shot produit généralement une qualité plus élevée pour les tâches complexes ou inhabituelles.

Que signifie RAG en IA?

RAG signifie Retrieval-Augmented Generation. C'est une architecture dans laquelle les documents pertinents sont récupérés d'une base de connaissances et injectés dans le prompt pour que le modèle réponde en fonction de données actuelles et fondées plutôt que de s'appuyer uniquement sur les données d'entraînement. Cela réduit les hallucinations et garantit que les réponses sont basées sur des informations réelles et actuelles.

Quelle est la différence entre l'ingénierie de prompt et le fine-tuning?

L'ingénierie de prompt est la discipline consistant à concevoir et itérer les prompts pour diriger les résultats du modèle sans modifier le modèle lui-même. Le fine-tuning, en revanche, modifie les poids du modèle en entraînant sur des données spécifiques à la tâche. L'ingénierie de prompt est plus rapide, moins chère et plus facile à itérer, tandis que le fine-tuning peut obtenir de meilleurs résultats sur des tâches spécialisées mais nécessite plus de données et de ressources de calcul.

Qu'est-ce qu'une fenêtre de contexte en IA?

Une fenêtre de contexte est le nombre maximum de tokens que le modèle peut considérer simultanément, y compris le prompt système, l'historique de conversation et les documents récupérés. Lorsque les limites de contexte sont dépassées, les parties antérieures ou intermédiaires du contexte sont tronquées ou ignorées. Comprendre la taille de la fenêtre de contexte est crucial pour gérer les coûts et latences, car les contextes plus longs sont plus chers et plus lents à traiter.

Comment l'ingénierie de prompt s'applique-t-elle aux contextes réglementaires français (DSGVO, AI Act)?

En France et Europe, l'ingénierie de prompt doit respecter la DSGVO pour la gestion des données personnelles et le cadre AI Act pour les systèmes à risque. Cela signifie : éviter d'injecter données sensibles sans consentement (RAG sécurisé), documenter les prompts système pour auditabilité, tester les biais (un défi particulier pour les modèles multilingues), et maintenir des logs détaillés des décisions assistées par IA. Les organisations françaises comme Orange, Capgemini et Thales structurent leurs prompts pour assurer traçabilité et conformité.

Quels modèles souverains ou alternatifs fonctionnent bien avec l'ingénierie de prompt en français?

Plusieurs alternatives aux modèles américains offrent une meilleure conformité et souveraineté : Mistral 7B/Medium (France, optimisé pour français), Llama 3 via Ollama (auto-hébergement), et Claude via API (Anthropic respecte DSGVO). Pour les organisations privilégiant la souveraineté, des modèles quantifiés (4-bit QLoRA) permettent auto-hébergement sur GPU standard. L'ingénierie de prompt reste identique : structure, contexte, examples — seul change le modèle cible.

Comment former une équipe française à l'ingénierie de prompt efficacement?

L'ingénierie de prompt se maîtrise par la pratique itérative, pas par théorie seule. Commencez par : (1) conceptualisez (rôle, tâche, format), (2) écrivez un prompt initial, (3) testez sur plusieurs modèles (GPT-4, Claude, Mistral), (4) analysez les erreurs, (5) raffiniz par Few-Shot ou Chain-of-Thought. Les équipes françaises bénéficient d'une formation axée sur des cas d'usage réels (génération juridique, support client multilingue, analyse de données publiques) plutôt que de tutoriels abstraits.

Category	Term A	Term B	Key Difference
Prompting Technique	Zero-shot	Few-shot	Zero-shot: ask without examples (faster, cheaper). Few-shot: provide 2–5 examples (more accurate for specific formats or domains).
Reasoning	Chain-of-Thought	Tree-of-Thought	CoT: single linear reasoning path. ToT: explores multiple branches, evaluates paths. ToT costs 2–3× more tokens but handles harder problems.
Knowledge Architecture	RAG	Fine-tuning	RAG: retrieves current data at inference time — no retraining. Fine-tuning: adjusts model weights permanently — expensive, requires labeled data.
Security	Prompt injection	Jailbreak	Injection: structural attack — user input overrides system instructions. Jailbreak: behavioral attack — crafted phrasing bypasses safety guardrails.
Sampling Parameters	Temperature	Top-p	Temperature: scales all token probabilities (0 = deterministic, 1+ = creative). Top-p: samples only from the smallest set of tokens covering probability p. Use one at a time.
Memory	Short-term memory	Long-term memory	Short-term: active conversation context (tokens in window). Long-term: persistent store across sessions (vector DB or key-value). Agents need both.
Alignment	Guardrail	RLHF	Guardrail: runtime policy enforcement (filter, validate, block) — no retraining. RLHF: training-time alignment via human feedback — rewires model behavior permanently.
Agent Behavior	Tool calling	Agentic	Tool calling: single function invocation per turn. Agentic: autonomous loop — decide → call tool → observe → decide — until goal is achieved.
Output Quality	Hallucination	Confabulation	Synonymous in practice. Both describe confident, plausible-sounding but false model output. "Hallucination" is more common in US/tech; "confabulation" in academic/EU contexts.
Prompt Architecture	System prompt	User prompt	System: persistent instructions (role, rules, format) — set once per conversation. User: specific task per turn. System controls behavior; user specifies request.

Glossaire de l'ingénierie de prompt : 500 termes essentiels

Top 20 Most Important AI & Prompt Engineering Terms (2026)

RAG (Retrieval-Augmented Generation)

Chain-of-Thought (CoT)

AI Agent

Prompt Injection

Few-Shot Prompting

Fine-Tuning

Embeddings

Vector Database

Hallucination

Context Window

Temperature

Zero-Shot Prompting

Tool Calling

Guardrails

LLM Evaluation

Prompt Engineering

Multi-Agent Systems

Context Engineering

Latency

Cost Optimization

Commonly Confused AI Terms

Learning Paths

Prompt Engineering Foundations

RAG Mastery

Agent Orchestration

Reasoning Mastery

Fine-tuning & Alignment

Evaluation & Production

Safety & Security

Most Important Prompt Engineering Terms in 2026

Avantages clés

Concepts fondamentaux de Prompting

Prompt

Prompt Engineering

LLM (Large Language Model)

Token

Fenêtre de contexte

Prompt système

Hallucination

Grounding

Prompting Zero-Shot

Prompting Few-Shot

Chain-of-Thought (CoT)

Zero-Shot CoT

Prompting par rôle

Chaînage des prompts

Prompting ReAct

Tree-of-Thought (ToT)

Température

Top-p (Nucleus Sampling)

RAG (Retrieval-Augmented Generation)

Open Weights

Fine-tuning

LoRA

VRAM

Ingénierie du contexte

Agents & Orchestration

Agent

Outil

Appel d'outil

Schéma d'outil

Orchestration des agents

Système multi-agents

Agent planificateur

Agent exécuteur

Agent routeur

Barrière de sécurité

Observation

État (État de l'agent)

Mémoire (court terme)

Mémoire (long terme)

Magasin vectoriel

Espace d'action

Condition d'arrêt

Orchestration séquentielle

Orchestration parallèle

Boucle Producteur-Reviewer

Sécurité & Alignement