Qu'est-ce que l'ingénierie des prompts?
L'ingénierie des prompts est l'optimisation du texte de prompts pour obtenir de meilleures réponses LLM. Vous ne changez pas le modèle ni n'ajoutez de données externes. Vous changez le prompt lui-même: clarté des instructions, exemples, format de sortie, ton, raisonnement étape par étape. Exemples: "Réponds au format JSON" (format), "Voici 3 exemples" (few-shot), "Pense étape par étape" (structure de raisonnement). L'ingénierie des prompts fonctionne parce que les LLMs sont sensibles à la phrasing – la même question phrasing différemment produit des réponses de qualité différente.
Qu'est-ce que RAG?
RAG (Retrieval-Augmented Generation) récupère les documents pertinents d'une base de connaissances externe, puis les alimente dans le prompt LLM. Le LLM génère ensuite une réponse basée sur le prompt et le contexte récupéré. Exemple: l'utilisateur demande "Quelle est notre politique de retour?" → RAG récupère les documents de politique → le LLM génère une réponse basée sur ces documents. RAG résout le problème "hallucination sur les faits": au lieu de que le LLM devine, il référence un document.
Comparaison côte à côte
Voici une comparaison directe:
| Aspect | Ingénierie des prompts | RAG |
|---|---|---|
| Ce qu'il fait | Optimise le texte des prompts | Récupère + génère |
| Données externes requises | Non | Oui (base de connaissances) |
| Coût par demande | $0,001-0,01 | $0,005-0,05 |
| Latence | ~200ms | ~1-3s |
| Risque d'hallucination | Élevé (si LLM manque connaissances) | Faible (ancré dans docs) |
| Infrastructure nécessaire | Aucune | Vector DB, modèle embedding, récupération |
| Meilleur pour | Raisonnement, créativité, Q&A général | Nécessitant connaissances, basé sur faits, données propriétaires |
Ingénierie des prompts: forces & limites
Forces: (1) Aucune infrastructure externe – seulement prompt et LLM. (2) Coût faible – appel API unique, tokens minimaux. (3) Rapide – ~200ms de bout en bout. (4) Bon pour le raisonnement – les LLMs sont forts en logique et créativité. (5) Flexible – peut ajouter des exemples, instructions étape par étape, format de sortie à la volée. Limites: (1) Hallucination sur les faits – si le LLM ne connaît pas un fait, il l'invente. (2) Knowledge cutoff – données d'entraînement jusqu'à une certaine date. (3) Fenêtre de contexte limitée – ne peut pas référencer des millions de documents. (4) Pas de personnalisation – ne peut pas s'adapter aux données spécifiques à l'utilisateur sans réentraînement.
RAG: forces & limites
Forces: (1) Élimine les hallucinations – les réponses sont ancrées dans les documents récupérés. (2) Connaissances en temps réel – la récupération peut obtenir des données actuelles, des rapports financiers, des e-mails. (3) Personnalisation – peut récupérer les documents spécifiques à l'utilisateur. (4) Conformité – vous contrôlez les données auxquelles le modèle accède. (5) Explicabilité – vous pouvez montrer quels documents ont été cités. Limites: (1) La qualité de récupération compte – mauvaise récupération → mauvaises réponses. (2) Coût plus élevé – récupération + embedding + prompts plus longs = augmentation de coûts de 2-5x. (3) Latence plus élevée – ajoute 500ms-2s pour la récupération. (4) Complexité d'infrastructure – nécessite vector DB, modèle embedding, logique de récupération. (5) Peut toujours halluciner – si les docs récupérés sont incomplets ou conflictuels.
Compromis de coûts & latence
Coûts: L'ingénierie des prompts a seulement les coûts des tokens LLM ($0,001-0,01 par demande). RAG ajoute: (1) API Embedding ($0,0001-0,001 par 1K tokens), (2) Stockage Vector DB ($0,01-0,10 par requête), (3) Prompts plus longs (plus de tokens dans la fenêtre de contexte). Total RAG: $0,005-0,05 par demande (2-5x plus). Pour 1M requêtes/mois: PE coûte $1.000-10.000. RAG coûte $5.000-50.000. Latence: L'ingénierie des prompts est ~200ms (appel LLM unique). RAG est ~1-3s: (1) Embedding de requête: 100-300ms, (2) Recherche Vector DB: 10-100ms, (3) Récupération document: 100-500ms, (4) Génération LLM: 500-2000ms. Compromis: RAG est plus lent mais plus précis sur les tâches avec connaissances.
Cadre décisionnel
Posez 3 questions: 1. Le LLM possède-t-il déjà les connaissances? Si la tâche est du raisonnement général (math, logique, écriture créative, codage), le LLM possède probablement suffisamment. Utilisez l'ingénierie des prompts. Si la tâche nécessite: documents d'entreprise, données en temps réel, expertise spécialisée, infos propriétaires – le LLM ne l'a pas. Utilisez RAG. 2. Quelle est votre tolérance coûts/latence? Si vous avez besoin de <500ms et coût minimal (ex: API public haut volume), utilisez l'ingénierie des prompts. Si vous pouvez vous permettre 1-3s et augmentation coûts 2-5x, utilisez RAG. 3. Quelle importance pour la précision des faits? Si l'hallucination est inacceptable (légal, financier, médical), utilisez RAG. Si l'hallucination est tolérable (brainstorming, créativité), utilisez l'ingénierie des prompts. Arbre de décision: - Tâche avec connaissances + précision critique? → RAG - Raisonnement général? → Ingénierie des prompts - Les deux? → RAG + Ingénierie des prompts (récupérer contexte, puis optimiser présentation)
Erreurs courantes
- Utiliser RAG pour les tâches où l'ingénierie des prompts suffit – ajoute coûts et latence inutiles. Exemple: demander à GPT-4o "Quelle est la capitale de la France?" ne nécessite pas RAG.
- Utiliser l'ingénierie des prompts pour les tâches avec connaissances – mène à l'hallucination. Exemple: demander à un LLM de citer vos politiques sans les fournir via RAG.
- Construire RAG sans investir dans la qualité de récupération – un système est seulement aussi bon que son indexation et son classement. Mauvaise récupération → mauvaises réponses.
- Penser que RAG élimine complètement les hallucinations – RAG réduit mais n'élimine pas. Si récupération trouve des docs incomplets ou conflictuels, le LLM peut encore errer.
- Ne pas mesurer la latence de bout en bout – la latence RAG inclut récupération + embedding + LLM. La latence totale compte pour l'UX, pas seulement le temps de réponse LLM.
- Utiliser RAG sans plan de secours – si récupération échoue ou ne trouve rien, le LLM reçoit contexte minimal. Ayez un plan (réponse par défaut, recherche plus large).
Pouvez-vous les combiner?
Oui – et vous devriez. L'approche optimale pour les applications nécessitant connaissances est: (1) RAG (récupérer documents pertinents), (2) Ingénierie des prompts (optimiser comment le contexte est présenté au LLM). Exemple: Récupérer docs support → Ingénierie des prompts du format contexte → LLM génère réponse. Cela combine la précision de RAG avec la clarté de l'ingénierie des prompts. La plupart des systèmes production utilisent les deux.
Lectures connexes
- Qu'est-ce que l'ingénierie des prompts? Guide pour débutants
- Meilleurs outils d'ingénierie des prompts 2026: Classés par cas d'usage
- Architecture RAG: Construire des systèmes Retrieval-Augmented Generation
- Fine-Tuning vs Ingénierie des prompts: Quand utiliser chacun
- Comment construire une bibliothèque de prompts pour les équipes
- Hallucination dans les LLMs: Causes et solutions
FAQ
Qu'est-ce que l'ingénierie des prompts?
C'est l'optimisation du texte des prompts envoyé à un LLM. Inclut instructions, exemples, format. Pas de données externes.
Qu'est-ce que RAG?
RAG récupère les documents pertinents d'une base de connaissances, puis les alimente au LLM. La réponse est ancrée dans ces documents.
Quand utiliser l'ingénierie des prompts?
Pour raisonnement, créativité, connaissances générales. Rapide, bon marché, pas d'infrastructure.
Quand utiliser RAG?
Pour tâches nécessitant connaissances: documents, données temps réel, domaine spécialisé. Essentiel quand hallucination inacceptable.
Quelle différence de coût?
PE: $0,001-0,01/req. RAG: $0,005-0,05/req (2-5x plus haut).
Lequel est plus rapide?
PE: ~200ms. RAG: ~1-3s (récupération, embedding, LLM).
Puis-je les combiner?
Oui. Récupérer contexte avec RAG, puis optimiser avec ingénierie des prompts. Approche la plus puissante.
Lequel est plus précis?
RAG précis pour les faits (ancrés). PE suffisant pour raisonnement et créativité.
Si récupération RAG échoue?
Si base de connaissances n'a pas docs pertinents, LLM reçoit contexte minimal et peut halluciner.
Devrais-je faire fine-tuning?
Fine-tuning enseigne comportement. Pour connaissances, RAG moins cher et rapide. RAG pour faits, fine-tune pour style.