Le prompt engineering et le fine-tuning sont deux approches fondamentalement différentes pour améliorer les résultats des modèles IA. Le prompt engineering est gratuit, instantané et réversible. Le fine-tuning requiert un investissement significatif, prend du temps et est difficile à annuler. Ce guide explique quand chaque approche fonctionne.

Faits clés

1
Taux de succès du prompt engineering : 80-90 % des cas réels (support client, résumé, classification, extraction).
2
Coût par 1M jetons (GPT-4o) : prompt engineering 13 €, inférence fine-tunée 26-52 €.
3
Données requises pour fine-tuning : minimum 100 exemples, idéalement 500+ pour des résultats stables.
4
Temps jusqu'au résultat : prompt engineering 2 heures (10 itérations), fine-tuning 7 jours (collecte de données incluse).
5
Disponibilité modèle : prompt engineering fonctionne sur GPT-4o, Claude, Gemini, Llama, modèles locaux. Fine-tuning varie.
6
Coût d'annulation : modifier un prompt = 0 €. Migrer d'un modèle fine-tuné = réécrire tout le système.

Pourquoi cette décision compte

📍 In One Sentence

Le prompt engineering est votre premier choix (gratuit, instantané) ; le fine-tuning est votre recours quand celui-ci échoue (coûteux, définitif).

💬 In Plain Terms

Écrire une meilleure instruction à une IA coûte zéro et prend quelques minutes. Entraîner l'IA coûte des centaines ou milliers d'euros et prend plusieurs jours. Essayez d'abord l'option bon marché.

Vous avez deux chemins pour améliorer les résultats : reformuler votre demande (prompt engineering) ou modifier le modèle lui-même (fine-tuning). Le mauvais choix gaspille temps et argent. Ce guide indique quelle approche privilégier.

Qu'est-ce que le prompt engineering ?

Le prompt engineering consiste à écrire des instructions claires et détaillées à un modèle IA. Au lieu de « résume ceci », vous écrivez : « Résume le texte suivant en 2-3 phrases. Concentre-toi sur la décision principale et qui l'a prise. Évite le jargon technique. »

Chaque prompt est une expérience. Vous essayez, observez le résultat, affinez la formulation et réessayez. Le prompt engineering est gratuit car vous ne cherchez pas à entraîner le modèle—vous lui parlez simplement mieux.

Gratuit : pas de coûts d'entraînement, seulement l'inférence
Instantané : quelques minutes à quelques heures, pas des jours
Réversible : mauvais prompt ? Supprimez-le et essayez un nouveau
Testable : comparez 10 versions en une heure
Portable : le même prompt fonctionne souvent sur différents modèles
Agnostique : les techniques fonctionnent sur GPT-4o, Claude, Gemini et modèles locaux

Qu'est-ce que le fine-tuning ?

Le fine-tuning signifie réentraîner le modèle sur vos propres données. Vous fournissez des centaines ou milliers d'exemples entrée-sortie, et le modèle apprend. Les poids du modèle changent définitivement.

Le fine-tuning ne devient nécessaire que si le prompt engineering échoue systématiquement (affectant 10%+ des cas). Raisons courantes : terminologie spécialisée, formatage strict ou patterns de raisonnement que le modèle n'a jamais vus.

Coûteux : 500-5000+ € par entraînement
Lent : des jours ou semaines
Permanent : change les poids—très difficile à défaire
Demande beaucoup de données : 100-10000+ exemples étiquetés
Inférence chère : l'utilisation du modèle coûte aussi plus cher
Verrouillé à une version : chaque version de modèle nécessite un fine-tuning séparé

🔍 Fine-Tuning n'est pas RAG

Retrieval-Augmented Generation (RAG) et le fine-tuning résolvent des problèmes différents. RAG insère du contexte pertinent dans le prompt—c'est une technique de prompt engineering. Le fine-tuning réentraîne le modèle. Utilisez RAG d'abord. Fine-tunez seulement si RAG et prompt engineering échouent tous deux.

Comparaison directe

Critère	Prompt Engineering	Fine-tuning
Coût	0 € (inférence)	500-5000+ €
Vitesse	Heures	Jours à semaines
Réversibilité	Supprimer et recommencer	Permanent
Données	3-10 exemples	100-10000+ exemples
Expertise	Tout le monde	Compétences ML requises
Portabilité	GPT, Claude, Gemini, locaux	Modèle/version spécifique
Couverture	80-90% des cas	10-20% restants
Maintenance	Ajuster prompt	Réentraîner par version
Tests	10 versions/heure	10 versions/10 jours
Inférence	Prix standard	Prix personnalisés (+ cher)

Diagramme de décision : Quand utiliser chaque approche

Suivez ce diagramme pour décider si vous devez utiliser le prompt engineering ou le fine-tuning.

1
Commencez par une problématique claire. Exemple : « Résume les avis clients en exactement 2 phrases. »
2
Écrivez 10-20 prompts d'exemple et testez-les sur 10 cas avec le modèle de base. Si 8/10 réussissent, arrêtez. Vous avez terminé.
3
Si moins de 8/10 réussissent, améliorez le prompt. Ajoutez du contexte, des exemples, des contraintes et un format de sortie. Testez à nouveau sur 10 cas.
4
Après 3-5 itérations de prompt : si le taux de succès reste < 80%, envisagez le fine-tuning.
5
Si fine-tuning : collectez 100-500 exemples étiquetés (paires entrée-sortie). Entraînez un modèle personnalisé. Testez sur un ensemble de validation.
6
Choisissez l'approche avec le meilleur rapport coût-qualité.

🔍 Le test des 90 %

Demandez-vous : dois-je corriger 90% des cas ou seulement 10% ? Si 90% des cas fonctionnent avec le prompt engineering, arrêtez. Si 90% échouent, vous avez un problème plus grand que le fine-tuning seul peut résoudre.

Cinq scénarios concrets

Voici cinq décisions réalistes que les équipes font et comment les aborder.

1
Extraire des données structurées de PDFs désordonnés : testez d'abord le prompt engineering avec des exemples. Si le succès > 85%, arrêtez. S'il stagne à 60%, ajoutez le fine-tuning sur les variations.
2
Classifier les tickets support en catégories : utilisez le prompt engineering avec des exemples. Coût : 0 €. Effort : 2 heures. Fine-tuning coûterait 1000+ € et 1 semaine.
3
Générer des clauses juridiques spécialisées : le prompt engineering échoue car le modèle est trop générique. Fine-tunez sur 500 documents historiques. Coût justifié : 2000 €.
4
Résumer de longs articles scientifiques : le prompt engineering fonctionne bien. Chain-of-thought + exemples = 92% de précision. Pas de fine-tuning nécessaire.
5
Traduire des docs techniques en français clair : prompt engineering + few-shot couvre 88% des cas. Fine-tunez sur les 12% restants.

Utiliser les deux : Quand et comment combiner

Bonne pratique : commencez par le prompt engineering. S'il atteint un plateau (environ 80-85% de succès), ajoutez le fine-tuning par-dessus.

Workflow : utilisez un modèle fine-tuné à l'intérieur d'une boucle de prompt engineering. Le modèle fine-tuné traite les tâches spécialisées, tandis qu'un prompt engineer ajoute contexte et logique de routage.

Utilisez le prompt engineering pour diriger les requêtes : « Est-ce un document juridique, une note médicale ou un rapport financier ? »
Utilisez le fine-tuning pour des modèles spécialisés : un modèle juridique fine-tuné, un modèle médical, un modèle financier.
Utilisez le prompt engineering pour formater la sortie : même un modèle fine-tuné bénéficie d'instructions de format claires.
Combinez pour les coûts : fine-tunez sur 10% des cas difficiles, routez 90% via prompt engineering bon marché.

🔍 Le piège de maintenance

Chaque fois qu'une nouvelle version de modèle sort, les modèles fine-tunés deviennent obsolètes. Vous devez les réentraîner. Le prompt engineering nécessite seulement des ajustements. Budgétez les coûts annuels de réentraînement—ils s'accumulent.

Comparaison de structure des coûts

Type Fournisseur	Prompt Engineering (1M jetons)	Fine-Tuning (Entraînement)	Inférence Fine-Tunée (1M jetons)
Modèles propriétaires	Faible par inférence	Investissement initial significatif	Plus élevé pour fine-tuning
Cloud open-source	Faible par inférence	Investissement modéré	Variable selon fournisseur
Auto-hébergé local	Minimal (votre matériel)	Coût matériel + temps	Investissement matériel unique
Approche hybride	Coût initial faible	Réparti dans le temps	Rapport coût-bénéfice équilibré

🔍 Structure de coûts

Les coûts du prompt engineering sont variables (par inférence). Les coûts du fine-tuning sont initiaux (entraînement) plus inférence continue. Le ratio coût-bénéfice favorise le prompt engineering pour la plupart des cas, le fine-tuning ajoutant de la valeur seulement quand la performance spécialisée est critique.

Cinq erreurs courantes

❌ Fine-tuner avant de tester les prompts

Why it hurts: Les équipes passent au fine-tuning sans itérer sérieusement sur les prompts. Résultat : 3000 € dépensés en fine-tuning quand 0 € de prompt engineering auraient fonctionné.

Fix: Testez d'abord le prompt engineering. Exécutez 30-50 exemples avec 3-5 variations. Fine-tunez seulement si le meilleur prompt échoue encore à 20%+.

❌ Entraîner sur de petits jeux de données

Why it hurts: Fine-tuning sur 20 exemples par classe. Résultat : surentraînement, le modèle échoue sur de nouveaux exemples.

Fix: Collectez au moins 100 exemples par catégorie. Idéalement 500+. Vérifiez que vos distributions d'entraînement et test correspondent aux données réelles.

❌ Oublier les coûts d'inférence

Why it hurts: Les équipes calculent les coûts de fine-tuning (2000 €) mais oublient que les modèles fine-tunés coûtent 2-3x plus à exécuter.

Fix: Calculez le coût total de possession : entraînement + (coût inférence par appel × volume attendu × horizon temporel).

❌ Ignorer le versioning de modèle

Why it hurts: Un modèle fine-tuné fonctionne bien, puis GPT-4o est mis à jour. Le modèle est maintenant obsolète et doit être réentraîné.

Fix: Budgétez le réentraînement annuel ou la migration vers de nouveaux modèles. Documentez quelle version de base chaque fine-tune utilise.

❌ Fine-tuner le mauvais modèle

Why it hurts: Fine-tuning d'un modèle trop petit pour la tâche (par ex. un modèle 7B pour du raisonnement complexe).

Fix: Commencez par le plus grand modèle que vous pouvez vous permettre. Fine-tunez pour optimiser les coûts, pas pour corriger un modèle faible.

Questions fréquentes

Par quelle approche dois-je commencer ?

Commencez toujours par le prompt engineering. C'est gratuit, instantané et réversible. Ne passez au fine-tuning que si le prompt engineering échoue après plusieurs tentatives.

Comment obtenir des données pour le fine-tuning ?

Collectez vos propres exemples, utilisez des jeux de données existants ou engagez des annotateurs. La qualité prime sur la quantité.

Puis-je réentraîner un modèle fine-tuné ?

Techniquement oui, mais c'est rarement nécessaire. Généralement, on fine-tune une fois sur les meilleures données.

Qu'est-ce que LoRA fine-tuning ?

Low-Rank Adaptation fine-tune seulement une partie du modèle, réduisant coûts et données requises.

Faut-il faire le fine-tuning localement ou en cloud ?

Le cloud (OpenAI, Google) est plus simple et rapide. Local (Ollama, PEFT) offre plus de contrôle et de confidentialité.

Combien de temps prend le fine-tuning ?

Généralement 1-7 jours selon la taille des données, du modèle et du matériel.

Que faire si le fine-tuning n'aide pas ?

Vous avez peut-être le mauvais modèle, des données insuffisantes ou des attentes irréalistes. Essayez d'abord un modèle plus grand ou plus de données.

Puis-je combiner prompt engineering et fine-tuning ?

Oui, c'est la meilleure pratique. Fine-tunez pour les tâches spécialisées, utilisez le prompt engineering pour la flexibilité et le routage.

Le fine-tuning de Claude est-il disponible ?

Non. Depuis 2026, Anthropic n'offre pas le fine-tuning de Claude. Utilisez le prompt engineering.

Quels sont les pièges courants ?

Tenter le fine-tuning sans avoir itéré sur le prompt engineering. Collectez 100+ exemples, pas 20. N'oubliez pas les coûts d'inférence du modèle fine-tuné, qui s'accumulent rapidement.

Contexte francophone

La Commission Nationale de l'Informatique et des Libertés (CNIL) recommande l'inférence locale pour les données professionnelles sensibles. Le fine-tuning local offre davantage de contrôle sur la confidentialité des données. Les organisations françaises, belges et suisses opérant sous ces directives devraient privilégier le prompt engineering public ou le fine-tuning sur infrastructure locale pour respecter la conformité et la souveraineté des données.

Prompt Engineering vs Fine-Tuning : Quand prompter, quand entraîner