Faits clés
- 1Taux de succès du prompt engineering : 80-90 % des cas réels (support client, résumé, classification, extraction).
- 2Coût par 1M jetons (GPT-4o) : prompt engineering 13 €, inférence fine-tunée 26-52 €.
- 3Données requises pour fine-tuning : minimum 100 exemples, idéalement 500+ pour des résultats stables.
- 4Temps jusqu'au résultat : prompt engineering 2 heures (10 itérations), fine-tuning 7 jours (collecte de données incluse).
- 5Disponibilité modèle : prompt engineering fonctionne sur GPT-4o, Claude, Gemini, Llama, modèles locaux. Fine-tuning varie.
- 6Coût d'annulation : modifier un prompt = 0 €. Migrer d'un modèle fine-tuné = réécrire tout le système.
Pourquoi cette décision compte
📍 In One Sentence
Le prompt engineering est votre premier choix (gratuit, instantané) ; le fine-tuning est votre recours quand celui-ci échoue (coûteux, définitif).
💬 In Plain Terms
Écrire une meilleure instruction à une IA coûte zéro et prend quelques minutes. Entraîner l'IA coûte des centaines ou milliers d'euros et prend plusieurs jours. Essayez d'abord l'option bon marché.
Vous avez deux chemins pour améliorer les résultats : reformuler votre demande (prompt engineering) ou modifier le modèle lui-même (fine-tuning). Le mauvais choix gaspille temps et argent. Ce guide indique quelle approche privilégier.
Qu'est-ce que le prompt engineering ?
Le prompt engineering consiste à écrire des instructions claires et détaillées à un modèle IA. Au lieu de « résume ceci », vous écrivez : « Résume le texte suivant en 2-3 phrases. Concentre-toi sur la décision principale et qui l'a prise. Évite le jargon technique. »
Chaque prompt est une expérience. Vous essayez, observez le résultat, affinez la formulation et réessayez. Le prompt engineering est gratuit car vous ne cherchez pas à entraîner le modèle—vous lui parlez simplement mieux.
- Gratuit : pas de coûts d'entraînement, seulement l'inférence
- Instantané : quelques minutes à quelques heures, pas des jours
- Réversible : mauvais prompt ? Supprimez-le et essayez un nouveau
- Testable : comparez 10 versions en une heure
- Portable : le même prompt fonctionne souvent sur différents modèles
- Agnostique : les techniques fonctionnent sur GPT-4o, Claude, Gemini et modèles locaux
Qu'est-ce que le fine-tuning ?
Le fine-tuning signifie réentraîner le modèle sur vos propres données. Vous fournissez des centaines ou milliers d'exemples entrée-sortie, et le modèle apprend. Les poids du modèle changent définitivement.
Le fine-tuning ne devient nécessaire que si le prompt engineering échoue systématiquement (affectant 10%+ des cas). Raisons courantes : terminologie spécialisée, formatage strict ou patterns de raisonnement que le modèle n'a jamais vus.
- Coûteux : 500-5000+ € par entraînement
- Lent : des jours ou semaines
- Permanent : change les poids—très difficile à défaire
- Demande beaucoup de données : 100-10000+ exemples étiquetés
- Inférence chère : l'utilisation du modèle coûte aussi plus cher
- Verrouillé à une version : chaque version de modèle nécessite un fine-tuning séparé
🔍 Fine-Tuning n'est pas RAG
Retrieval-Augmented Generation (RAG) et le fine-tuning résolvent des problèmes différents. RAG insère du contexte pertinent dans le prompt—c'est une technique de prompt engineering. Le fine-tuning réentraîne le modèle. Utilisez RAG d'abord. Fine-tunez seulement si RAG et prompt engineering échouent tous deux.
Comparaison directe
| Critère | Prompt Engineering | Fine-tuning |
|---|---|---|
| Coût | 0 € (inférence) | 500-5000+ € |
| Vitesse | Heures | Jours à semaines |
| Réversibilité | Supprimer et recommencer | Permanent |
| Données | 3-10 exemples | 100-10000+ exemples |
| Expertise | Tout le monde | Compétences ML requises |
| Portabilité | GPT, Claude, Gemini, locaux | Modèle/version spécifique |
| Couverture | 80-90% des cas | 10-20% restants |
| Maintenance | Ajuster prompt | Réentraîner par version |
| Tests | 10 versions/heure | 10 versions/10 jours |
| Inférence | Prix standard | Prix personnalisés (+ cher) |
Diagramme de décision : Quand utiliser chaque approche
Suivez ce diagramme pour décider si vous devez utiliser le prompt engineering ou le fine-tuning.
- 1Commencez par une problématique claire. Exemple : « Résume les avis clients en exactement 2 phrases. »
- 2Écrivez 10-20 prompts d'exemple et testez-les sur 10 cas avec le modèle de base. Si 8/10 réussissent, arrêtez. Vous avez terminé.
- 3Si moins de 8/10 réussissent, améliorez le prompt. Ajoutez du contexte, des exemples, des contraintes et un format de sortie. Testez à nouveau sur 10 cas.
- 4Après 3-5 itérations de prompt : si le taux de succès reste < 80%, envisagez le fine-tuning.
- 5Si fine-tuning : collectez 100-500 exemples étiquetés (paires entrée-sortie). Entraînez un modèle personnalisé. Testez sur un ensemble de validation.
- 6Choisissez l'approche avec le meilleur rapport coût-qualité.
🔍 Le test des 90 %
Demandez-vous : dois-je corriger 90% des cas ou seulement 10% ? Si 90% des cas fonctionnent avec le prompt engineering, arrêtez. Si 90% échouent, vous avez un problème plus grand que le fine-tuning seul peut résoudre.
Cinq scénarios concrets
Voici cinq décisions réalistes que les équipes font et comment les aborder.
- 1Extraire des données structurées de PDFs désordonnés : testez d'abord le prompt engineering avec des exemples. Si le succès > 85%, arrêtez. S'il stagne à 60%, ajoutez le fine-tuning sur les variations.
- 2Classifier les tickets support en catégories : utilisez le prompt engineering avec des exemples. Coût : 0 €. Effort : 2 heures. Fine-tuning coûterait 1000+ € et 1 semaine.
- 3Générer des clauses juridiques spécialisées : le prompt engineering échoue car le modèle est trop générique. Fine-tunez sur 500 documents historiques. Coût justifié : 2000 €.
- 4Résumer de longs articles scientifiques : le prompt engineering fonctionne bien. Chain-of-thought + exemples = 92% de précision. Pas de fine-tuning nécessaire.
- 5Traduire des docs techniques en français clair : prompt engineering + few-shot couvre 88% des cas. Fine-tunez sur les 12% restants.
Utiliser les deux : Quand et comment combiner
Bonne pratique : commencez par le prompt engineering. S'il atteint un plateau (environ 80-85% de succès), ajoutez le fine-tuning par-dessus.
Workflow : utilisez un modèle fine-tuné à l'intérieur d'une boucle de prompt engineering. Le modèle fine-tuné traite les tâches spécialisées, tandis qu'un prompt engineer ajoute contexte et logique de routage.
- Utilisez le prompt engineering pour diriger les requêtes : « Est-ce un document juridique, une note médicale ou un rapport financier ? »
- Utilisez le fine-tuning pour des modèles spécialisés : un modèle juridique fine-tuné, un modèle médical, un modèle financier.
- Utilisez le prompt engineering pour formater la sortie : même un modèle fine-tuné bénéficie d'instructions de format claires.
- Combinez pour les coûts : fine-tunez sur 10% des cas difficiles, routez 90% via prompt engineering bon marché.
🔍 Le piège de maintenance
Chaque fois qu'une nouvelle version de modèle sort, les modèles fine-tunés deviennent obsolètes. Vous devez les réentraîner. Le prompt engineering nécessite seulement des ajustements. Budgétez les coûts annuels de réentraînement—ils s'accumulent.
Comparaison de structure des coûts
| Type Fournisseur | Prompt Engineering (1M jetons) | Fine-Tuning (Entraînement) | Inférence Fine-Tunée (1M jetons) |
|---|---|---|---|
| Modèles propriétaires | Faible par inférence | Investissement initial significatif | Plus élevé pour fine-tuning |
| Cloud open-source | Faible par inférence | Investissement modéré | Variable selon fournisseur |
| Auto-hébergé local | Minimal (votre matériel) | Coût matériel + temps | Investissement matériel unique |
| Approche hybride | Coût initial faible | Réparti dans le temps | Rapport coût-bénéfice équilibré |
🔍 Structure de coûts
Les coûts du prompt engineering sont variables (par inférence). Les coûts du fine-tuning sont initiaux (entraînement) plus inférence continue. Le ratio coût-bénéfice favorise le prompt engineering pour la plupart des cas, le fine-tuning ajoutant de la valeur seulement quand la performance spécialisée est critique.
Cinq erreurs courantes
❌ Fine-tuner avant de tester les prompts
Why it hurts: Les équipes passent au fine-tuning sans itérer sérieusement sur les prompts. Résultat : 3000 € dépensés en fine-tuning quand 0 € de prompt engineering auraient fonctionné.
Fix: Testez d'abord le prompt engineering. Exécutez 30-50 exemples avec 3-5 variations. Fine-tunez seulement si le meilleur prompt échoue encore à 20%+.
❌ Entraîner sur de petits jeux de données
Why it hurts: Fine-tuning sur 20 exemples par classe. Résultat : surentraînement, le modèle échoue sur de nouveaux exemples.
Fix: Collectez au moins 100 exemples par catégorie. Idéalement 500+. Vérifiez que vos distributions d'entraînement et test correspondent aux données réelles.
❌ Oublier les coûts d'inférence
Why it hurts: Les équipes calculent les coûts de fine-tuning (2000 €) mais oublient que les modèles fine-tunés coûtent 2-3x plus à exécuter.
Fix: Calculez le coût total de possession : entraînement + (coût inférence par appel × volume attendu × horizon temporel).
❌ Ignorer le versioning de modèle
Why it hurts: Un modèle fine-tuné fonctionne bien, puis GPT-4o est mis à jour. Le modèle est maintenant obsolète et doit être réentraîné.
Fix: Budgétez le réentraînement annuel ou la migration vers de nouveaux modèles. Documentez quelle version de base chaque fine-tune utilise.
❌ Fine-tuner le mauvais modèle
Why it hurts: Fine-tuning d'un modèle trop petit pour la tâche (par ex. un modèle 7B pour du raisonnement complexe).
Fix: Commencez par le plus grand modèle que vous pouvez vous permettre. Fine-tunez pour optimiser les coûts, pas pour corriger un modèle faible.
Questions fréquentes
Par quelle approche dois-je commencer ?
Commencez toujours par le prompt engineering. C'est gratuit, instantané et réversible. Ne passez au fine-tuning que si le prompt engineering échoue après plusieurs tentatives.
Comment obtenir des données pour le fine-tuning ?
Collectez vos propres exemples, utilisez des jeux de données existants ou engagez des annotateurs. La qualité prime sur la quantité.
Puis-je réentraîner un modèle fine-tuné ?
Techniquement oui, mais c'est rarement nécessaire. Généralement, on fine-tune une fois sur les meilleures données.
Qu'est-ce que LoRA fine-tuning ?
Low-Rank Adaptation fine-tune seulement une partie du modèle, réduisant coûts et données requises.
Faut-il faire le fine-tuning localement ou en cloud ?
Le cloud (OpenAI, Google) est plus simple et rapide. Local (Ollama, PEFT) offre plus de contrôle et de confidentialité.
Combien de temps prend le fine-tuning ?
Généralement 1-7 jours selon la taille des données, du modèle et du matériel.
Que faire si le fine-tuning n'aide pas ?
Vous avez peut-être le mauvais modèle, des données insuffisantes ou des attentes irréalistes. Essayez d'abord un modèle plus grand ou plus de données.
Puis-je combiner prompt engineering et fine-tuning ?
Oui, c'est la meilleure pratique. Fine-tunez pour les tâches spécialisées, utilisez le prompt engineering pour la flexibilité et le routage.
Le fine-tuning de Claude est-il disponible ?
Non. Depuis 2026, Anthropic n'offre pas le fine-tuning de Claude. Utilisez le prompt engineering.
Quels sont les pièges courants ?
Tenter le fine-tuning sans avoir itéré sur le prompt engineering. Collectez 100+ exemples, pas 20. N'oubliez pas les coûts d'inférence du modèle fine-tuné, qui s'accumulent rapidement.
Articles connexes
Contexte francophone
La Commission Nationale de l'Informatique et des Libertés (CNIL) recommande l'inférence locale pour les données professionnelles sensibles. Le fine-tuning local offre davantage de contrôle sur la confidentialité des données. Les organisations françaises, belges et suisses opérant sous ces directives devraient privilégier le prompt engineering public ou le fine-tuning sur infrastructure locale pour respecter la conformité et la souveraineté des données.