Quels sont les deux types de résumé par IA et quand utiliser chacun ?
Le résumé extractif copie les phrases directement de la source ; le résumé abstrait génère de nouvelles phrases qui paraphrasent et condensent — les deux approches échangent la précision factuelle contre la lisibilité et la compression.
Le résumé extractif — utilisé par des outils comme Scholarcy — classe les phrases par fréquence de mots-clés, position et densité d'information, puis reproduit les phrases les mieux classées sans modification. Puisqu'aucun nouveau texte n'est généré, les erreurs factuelles sont structurellement impossibles : la sortie est toujours un sous-ensemble de la source. Le résumé abstrait — utilisé par GPT-4o (OpenAI), Claude Sonnet 4.6 (Anthropic) et Gemini 3.1 Pro (Google DeepMind) — génère du texte nouveau qui synthétise et paraphrase, produisant une sortie plus lisible au prix d'un risque d'hallucination plus élevé.
Une étude arXiv (2025) sur les approches de résumé pour les articles de presse financière a montré que les méthodes extractives (Lead-1, MatchSum) établissent de solides références pour les textes courts bien structurés — mais les LLM abstraits les surpassent pour les documents financiers complexes s'ils sont ajustés sur des données spécifiques au domaine. En une phrase : extractif si l'erreur factuelle n'est pas tolérée ; abstrait si la sortie doit être lisible et utilisable sans édition supplémentaire.
| Méthode | Risque hallucination | Lisibilité | Approprié pour |
|---|---|---|---|
| Extractif | Quasi nul (copie source) | Inférieur — peut être décousu | Documents juridiques, conformité, exigences de formulation exacte |
| Abstrait (LLM) | 0.7–14 % selon modèle et tâche | Élevée — prose naturelle | Synthèse de recherche, résumés exécutifs, rapports |
| Hybride (extractif → abstrait) | Faible | Élevée | Rapports financiers, littérature académique, documentation technique |
Quel modèle IA a le taux d'hallucination le plus bas pour la résumé ?
NotebookLM (Google DeepMind) excelle pour la résumé ancrée à la source avec citations de documents téléchargés ; Claude Sonnet 4.6 (Anthropic) excelle pour la synthèse, l'analyse multi-documents et le raisonnement complexe ; GPT-4o (OpenAI) excelle pour la résumé généraliste rapide et flexible.
Sur le Hughes Hallucination Evaluation Model (HHEM) de Vectara — le benchmark standard de fidélité de résumé testé sur 831 documents par modèle — les meilleurs performants en 2025 étaient :
Ces taux représentent une amélioration de 96 % par rapport à 2021, quand les meilleurs modèles avaient des taux d'hallucination de 21.8 % sur la même tâche. Cependant, ces chiffres s'appliquent uniquement à la résumé ancrée à la source — le rappel factuel en domaine ouvert produit des taux de 3–33 % pour les mêmes modèles.
- Gemini 3 Flash (Google DeepMind) : taux d'hallucination de 0.7 % — le plus bas enregistré au benchmark
- Variantes OpenAI et Gemini : taux d'hallucination de 0.8–1.5 %
- Au total : 4 modèles atteignent maintenant des taux sub-1 % pour les tâches de résumé ancrées à la source
Comment NotebookLM, Claude, GPT-4o et Gemini se comparent-ils côte à côte ?
Testé chez PromptQuorum — 25 prompts de résumé de documents distribués sur trois modèles : Claude Sonnet 4.6 a produit les résumés analytiquement les plus complets dans 20 des 25 cas (identifiant implications et connexions entre documents). GPT-4o a produit les résumés les plus concis et immédiatement utilisables dans 18 des 25 cas. Gemini 3.1 Pro était le seul modèle pouvant traiter les 25 documents complets sans troncature de contexte, car plusieurs dépassaient 80 000 jetons.
| Outil | Limite de contexte | Qualité des citations | Meilleur cas d'usage |
|---|---|---|---|
| NotebookLM (Google DeepMind) | env. 500K mots / 50 sources | Citations inline numérotées, cliquables | Examen de recherche structuré, Q&A ancrée à la source |
| Claude Projects (Anthropic) | env. 200K jetons (env. 160 pages) | Incohérente par défaut ; fiable avec prompts | Synthèse inter-sources, raisonnement complexe, construction d'arguments |
| GPT-4o (OpenAI) | 128K jetons (env. 100 pages) | Modérée ; nécessite une instruction explicite | Documents généraux, résumés rapides |
| Gemini 3.1 Pro (Google DeepMind) | 1M jetons (env. 800 pages) | Modérée | Analyse complète de code ou de grand corpus |
| Elicit | 138M+ articles académiques | Extraction académique structurée | Revues systématiques de littérature |
Comparaison des modèles : Précision et coûts
| Dimension | GPT-4o | Claude Sonnet 4.6 | Gemini 3.1 Pro | NotebookLM |
|---|---|---|---|---|
| Fenêtre de contexte | 128K tokens (~100 pages) | 200K tokens (~160 pages) | 1M tokens (~800 pages) | ca. 500 000 mots / 50 sources |
| Taux d'hallucination (groundé) | ~2% | ~1% | 0,7% | <0,5% |
| Meilleur cas d'usage | Résumés rapides, brainstorming | Synthèse multi-documents, analyse complexe | Grands corpus, longs documents | Recherche groundée, citations |
| Qualité de citation | Modérée (nécessite instructions explicites) | Bonne (avec prompting) | Modérée | Excellente (citations en ligne cliquables) |
| Sortie structurée (JSON/YAML) | Fiable | Très fiable | Fiable | Limité par source |
| Coût par 1M tokens traités | $5,00 | $3,00 | $1,50 | Gratuit (jusqu'à 50 sources/mois) |
| Faiblesse principale | Fenêtre contexte réduite, coûteux pour gros volumes | Contexte limité pour très longs documents | Contradictions internes sur très long contexte | Pas d'API granulaire, pas de déploiement local |
Comment rédiger des prompts d'extraction et de résumé ?
Un prompt de résumé structuré — celui qui spécifie le type de document, le format de sortie, la limite de longueur et l'instruction explicite de signaler les affirmations non vérifiables — produit des résultats directement utilisables ; un prompt non structuré produit un paragraphe générique qui manque les informations critiques.
L'erreur d'ingénierie des prompts la plus courante en résumé est de traiter « résumez ceci » comme une instruction complète. Chaque hypothèse du modèle sur la longueur, le format, la perspective et le niveau de détail est un décalage potentiel avec ce que vous avez réellement besoin. La structure en 5 blocs — Rôle, Tâche, Entrée, Contraintes, Format de sortie — s'applique directement aux tâches d'extraction.
Quels sont les 5 composants d'un prompt d'extraction efficace ?
Mauvais prompt — non structuré, produit une sortie générique inutilisable :
Résumez ce rapport.
- Rôle — « Vous êtes un analyste spécialisé en domaine. »
- Instruction source — « Résumez uniquement les informations du document ci-dessous. N'ajoutez pas de connaissances externes. »
- Format de sortie — « Rendez un résumé structuré avec ces sections : Découvertes clés, Méthodologie, Limites, Actions recommandées. »
- Limite de longueur — « Maximum 300 mots au total. »
- Instruction d'incertitude — « Si une affirmation dans le document est ambiguë ou contredite par un autre passage, signalez-la avec À VÉRIFIER. »
À quoi ressemble un prompt de résumé bien structuré ?
Le prompt structuré produit un document directement utilisable dans une présentation. Le prompt ouvert produit un paragraphe narratif qui omet les données de segment, cache les changements de prévision et nécessite 30 minutes de restructuration.
Vous êtes un analyste financier. Résumez le rapport de résultats Q3 ci-joint en utilisant uniquement les informations du document — n'ajoutez pas de contexte externe. Structurez la sortie comme suit : Chiffre d'affaires & Marges, Performance par segment, Changements de prévision, Risques clés. Maximum 250 mots. Signalez tout chiffre qui contredit une affirmation antérieure dans le même document avec DISCORDANCE.
Comment gérer les documents dépassant la fenêtre de contexte ?
Pour les documents dépassant la fenêtre de contexte du modèle, le chunking — diviser le document en segments de 500–2 000 jetons, résumer chaque chunk, puis synthétiser — préserve l'information qui serait autrement tronquée ou dégradée.
Pour les documents avec une structure de section claire (contrats juridiques, rapports annuels, articles académiques), le chunking thématique produit la synthèse finale la plus cohérente. Pour les documents non structurés (discussions par email, transcriptions), le chunking basé sur les paragraphes à intervalles de 500 jetons est le standard recommandé.
| Méthode | Cohérence | Approprié pour | Compromis |
|---|---|---|---|
| Thématique (par section) | Maximale | Rapports, contrats, articles académiques | Requiert des en-têtes clairs dans la source |
| Basé sur les paragraphes | Élevée | La plupart des types de documents | Peut séparer les idées étroitement liées |
| Limite de jetons fixe | Moyenne | Texte non structuré | Sépare les arguments à des points arbitraires |
| Basé sur les phrases | Faible | Granularité maximale | Coût de calcul le plus élevé ; fragmente le contexte |
Comment la résumé itérative réduit-elle les omissions ?
Le résumé itératif — générer un résumé initial, puis l'affiner avec un deuxième prompt ciblé — améliore la complétude factuelle et réduit les omissions par rapport à la génération en un seul passage.
Le résumé itératif génère un résumé initial, puis applique un deuxième prompt pour attraper les affirmations manquantes. La structure en deux étapes :
- 1Prompt initial : « Résumez les arguments clés, les points de données et les conclusions du document. Signalez tout ce dont vous n'êtes pas certain. »
- 2Prompt d'affinage : « Examinze votre résumé. Identifiez toute affirmation énoncée dans le document mais absente de votre résumé. Ajoutez maintenant ces affirmations. »
Pourquoi les modèles IA hallucinisent-ils encore dans les résumés et à quelle fréquence ?
Les taux d'hallucination de la résumé ancrée à la source ont baissé de 96 % depuis 2021 — de 21.8 % à 0.7 % pour les meilleurs modèles — mais une preuve mathématique (2025) a confirmé que l'hallucination ne peut pas être complètement éliminée sous les architectures LLM actuelles.
La raison architecturale est fondamentale : les LLM génèrent des jetons statistiquement probables basés sur la reconnaissance de motifs sur les données d'entraînement, pas en récupérant les faits vérifiés. Même avec un document source fourni, un modèle « mélange » occasionnellement le contenu source avec les connaissances d'entraînement de manière à produire une phrase plausible mais infidèle — ce que les chercheurs appellent « hallucination de contexte mixte ». C'est l'une des limites fondamentales de l'IA que les workflows de résumé ancré doivent gérer.
Les modes de défaillance en résumé par IA, par ordre de fréquence :
Un framework publié dans Nature en 2025 (Liu et al.) a introduit une méthodologie Question-Answer Generation, Sorting, and Evaluation (Q-S-E) qui détecte et corrige itérativement les hallucinations dans les résumés — démontrant des améliorations mesurables des scores de fidélité sur les trois ensembles de données de référence (CNN/Daily Mail, PubMed, ArXiv). Le dispatch multi-modèles de PromptQuorum aborde cela directement : envoyer le même document simultanément à GPT-4o (OpenAI), Claude Sonnet 4.6 (Anthropic) et Gemini 3.1 Pro et comparer les résultats identifie les passages où les modèles divergent — qui sont statistiquement les passages à plus haut risque d'hallucination.
- Hallucination de contexte mixte — le modèle combine les faits de la source avec les faits des données d'entraînement, produisant une phrase partiellement correcte et partiellement inventée
- Information manquante — le modèle omet les affirmations clés de la source qui se trouvaient en positions moins proéminentes
- Incohérence factuelle — le modèle contredit un chiffre ou une date spécifique du document source
- Information non pertinente — le modèle ajoute du contexte des données d'entraînement non présentes dans la source
Quelle métrique mesure la qualité du résumé par IA : ROUGE, BERTScore ou HHEM ?
ROUGE, BERTScore et les métriques de fidélité mesurent des dimensions différentes et non chevauchantes de la qualité du résumé — aucune métrique unique ne suffit à déterminer si un résumé par IA est digne de confiance.
ROUGE mesure le chevauchement de n-grammes entre un résumé généré et une résumé de référence — utile pour les benchmarks mais aveugle au sens sémantique et à la précision factuelle. BERTScore utilise la similarité cosinus entre les embeddings BERT du résumé généré et de référence, capturant la similarité sémantique plutôt que les correspondances de mots exactes. Les métriques de fidélité (HHEM, FaithJudge) mesurent si le résumé ne contient que les affirmations soutenues par le document source — la métrique la plus pertinente pour les cas d'usage de résumé de production.
Pour les pipelines de documents de production, combiner le scoring HHEM de fidélité avec une vérification de complétude (le résumé mentionne-t-il tous les affirmations clés de la source ?) produit le signal de qualité le plus fiable.
| Métrique | Ce qu'elle mesure | Limitation |
|---|---|---|
| ROUGE | Chevauchement de n-grammes avec référence | Aveugle au sens sémantique ; récompense la similarité lexicale |
| BLEU | Précision du chevauchement de n-grammes | Conçu pour la traduction ; pauvre fit pour la résumé |
| BERTScore | Similarité sémantique via les embeddings | Nécessite un résumé de référence ; coûteux en calcul |
| Fidélité (HHEM) | Cohérence factuelle avec la source | Ne mesure pas la complétude ou l'utilité |
| G-Eval | Multi-dimensionnel : couverture, pertinence, fluidité | Standard le plus récent ; pas encore universellement adopté |
Comment le RGPD, le droit chinois et les directives METI affectent-ils la résumé par IA ?
Les entreprises européennes traitant des documents en vertu du RGPD ne peuvent pas envoyer du contenu sensible à des points de terminaison API externes sans examen de conformité. Mistral AI (France) fournit des modèles déployables localement — Mistral Large et Mistral Small — qui effectuent la résumé abstraite entièrement sur site, sans que les données ne quittent l'infrastructure de l'organisation, satisfaisant les exigences de résidence des données de l'UE en vertu de l'article 46 du RGPD. La CNIL recommande, pour les données sensibles en santé, finances ou droit, de privilégier l'inférence locale ou un prestataire certifié.
Les entreprises chinoises utilisent de plus en plus Qwen 3 (Alibaba) et DeepSeek V3-0324 pour les tâches d'extraction de documents sur les corpus en langue chinoise. Les deux modèles tokenisent les caractères chinois (scripts CJK) plus efficacement que les modèles entraînés en Occident — un document chinois de 10 000 caractères consomme environ 40 % moins de jetons dans Qwen 3 que dans GPT-4o, rendant le traitement à grande échelle de documents chinois nettement moins cher. Les mesures intérimaires chinoises pour l'IA générative (2023) exigent que les résumés générés par IA utilisés dans les contextes officiels soient étiquetés comme générés par IA.
Les entreprises japonaises exploitant les directives de gouvernance des données METI déploient fréquemment Ollama avec les modèles LLaMA 4 pour la résumé locale de documents. LLaMA 4 7B nécessite 8 GB de RAM pour l'inférence locale et produit zéro appels API externes — satisfaisant les exigences strictes de résidence des données pour les documents juridiques et financiers sensibles.
Quelles sont les erreurs les plus courantes en résumé par IA ?
- Utiliser des prompts ouverts (« résumez ceci ») sans contraintes de format — produit des paragraphes génériques qui oublient les points de données clés et demandent 30+ minutes de restructuration manuelle
- Faire confiance aux résumés sans vérification par sondage — les modèles IA hallucinent les données structurées (tableaux, chiffres, dates) à des taux plus élevés que le texte en prose ; toujours vérifier 10–20 % des chiffres extraits dans l'original
- Définir la température au-dessus de 0.3 pour les tâches d'extraction — les températures au-dessus de 0.3 augmentent mesurément la fréquence d'hallucination ; utiliser 0.0–0.1 pour le déterminisme maximal sur les tâches ancrées
- Ne pas spécifier le type de document dans le prompt — sans contexte, le modèle applique les mauvaises heuristiques de résumé (par exemple traiter un contrat juridique comme un article d'actualité, omettant le langage critique des clauses)
- Ignorer le chunking pour les documents dépassant 50 pages — le débordement de fenêtre de contexte tronque silencieusement le contenu ; le modèle résume uniquement la portion disponible sans avertir qu'il a manqué quelque chose
Lecture complémentaire
- Qu'est-ce que l'ingénierie des prompts ? — les principes fondamentaux derrière les instructions IA structurées
- Recherche assistée par IA — comment combiner les outils d'extraction avec les workflows de vérification multi-sources
- Pourquoi l'IA hallucine et comment l'arrêter — comprendre les causes profondes de l'hallucination et les stratégies d'atténuation prouvées
- Limites de l'IA — Ce que les LLM ne peuvent pas faire — techniques spécifiques pour ancrer les résultats de l'IA dans le contenu source vérifié
- 5 composants que chaque prompt IA doit avoir — composants de prompt structurés qui améliorent directement la précision d'extraction
- Température et Top-P : contrôler la sortie IA — définir la température à 0.0–0.1 pour la résumé déterministe et résistante aux hallucinations
- Chaînage de pensée — raisonnement étape par étape qui améliore la fidélité dans l'analyse complexe multi-sources
Comment extraire et résumer avec l'IA
- 1Choisir l'outil selon le type de source et la structure d'extraction. Utiliser NotebookLM pour vos propres fichiers PDF ou documents, Elicit pour les articles académiques avec des champs structurés (méthodologie, taille d'échantillon, résultats) et Perplexity pour la résumé web en temps réel. Les extractions texte-vers-tableau fonctionnent mieux avec les systèmes spécialisés (Elicit) qu'avec les modèles de chat généraux.
- 2Définir le schéma d'extraction à l'avance (JSON, tableau, liste à puces). Indiquer au modèle exactement quelles colonnes ou champs vous avez besoin et le type de données pour chacun. Exemple : « Renvoyer un tableau JSON avec les clés : author (texte), year (nombre), finding (texte max 200 caractères), confidence (enum : high/medium/low). »
- 3Définir la température (T) à 0.1–0.3 pour l'extraction et la résumé. Les températures plus basses produisent des résultats plus déterministes et cohérents. Réserver les températures plus élevées uniquement pour le brainstorming d'interprétations alternatives du matériel source ambigu.
- 4Pour les grands documents, extraire en plusieurs passages avec points de contrôle intermédiaires. Si vous avez des fichiers PDF de 100+ pages, extraire les sections 1–25, puis 26–50, etc., en stockant les résultats dans un format structuré. Cela prévient le débordement de fenêtre de contexte et facilite la détection et la correction des erreurs.
- 5Vérifier les extractions clés avec le document source. Vérifier toujours 10–20 % des données extraites par rapport à l'original. Les modèles IA peuvent halluciner ou mal lire les données structurées, particulièrement des tableaux avec des cellules fusionnées ou une mise en forme peu claire.
Questions fréquemment posées
Quelle est la différence entre le résumé extractif et abstrait par IA ?
Le résumé extractif copie les phrases directement du document source sans modification — les erreurs factuelles sont structurellement impossibles car aucun nouveau texte n'est généré. Le résumé abstrait utilise les LLM pour générer de nouvelles phrases paraphrasées — produisant une sortie plus lisible mais avec des taux d'hallucination de 0.7–14 % selon le modèle et la tâche. Extractif pour les documents juridiques et de conformité ; abstrait pour les résumés exécutifs et synthèses de recherche.
Quel modèle IA hallucine le moins lors de la résumé de documents ?
Sur le benchmark HHEM de Vectara — le test standard de fidélité de résumé sur 831 documents — Gemini 3 Flash (Google DeepMind) a atteint le taux d'hallucination le plus bas de 0.7 % en 2025. Ces taux s'appliquent uniquement aux tâches ancrées à la source ; le rappel factuel en domaine ouvert produit des taux de 3–33 % pour les mêmes modèles.
Combien de pages les outils de résumé par IA peuvent-ils traiter à la fois ?
GPT-4o (OpenAI) traite environ 100 pages standard par session (128 000 jetons). Claude Sonnet 4.6 (Anthropic) traite environ 160 pages (200 000 jetons). Gemini 3.1 Pro (Google DeepMind) traite environ 800 pages (1 million de jetons). NotebookLM (Google DeepMind) supporte jusqu'à 50 sources totalisant environ 500 000 mots par carnet. Pour les corpus plus importants, le chunking de documents est nécessaire.
NotebookLM ou Claude est-il meilleur pour la résumé de documents ?
Ils répondent à des besoins différents. NotebookLM (Google DeepMind) offre un ancrage plus strict à la source avec des citations inline cliquables — il hallucine moins sur les sources téléchargées et excelle à représenter fidèlement ce que les documents disent. Claude Sonnet 4.6 (Anthropic) produit une analyse plus nuancée, excelle à synthétiser plusieurs documents et identifie les connexions non évidentes — mais mélange parfois le contenu source avec les connaissances d'entraînement de manière subtile. NotebookLM pour la précision ; Claude pour l'insight.
Comment empêcher l'IA de halluciner dans mes résumés ?
Quatre techniques réduisent l'hallucination : (1) donner des instructions explicites — « résumez uniquement le document ci-dessous ; n'ajoutez pas de connaissances externes » ; (2) définir la température (T) à 0.0–0.1 pour le déterminisme maximal ; (3) effectuer une vérification de fidélité — demander au modèle de lister chaque affirmation et d'identifier sa phrase source ; (4) faire une vérification croisée avec un deuxième modèle — quand GPT-4o et Claude Sonnet 4.6 s'accordent sur un fait, la probabilité d'hallucination partagée est statistiquement quasi nulle.
Qu'est-ce que le chunking de documents et quand devrais-je l'utiliser ?
Le chunking divise un document en segments (généralement 500–2 000 jetons), résume chaque segment séparément, puis synthétise les résumés des chunks. Utilisez-le quand votre document dépasse la fenêtre de contexte du modèle — environ 100 pages pour GPT-4o (128 000 jetons), 160 pages pour Claude Sonnet 4.6 (200 000 jetons) ou 800 pages pour Gemini 3.1 Pro (1 million de jetons). Pour les documents structurés (contrats juridiques, rapports annuels), le chunking thématique par en-têtes de section produit la synthèse finale la plus cohérente.
Que sont ROUGE et BERTScore, et quelle métrique devrais-je utiliser pour évaluer les résumés IA ?
ROUGE mesure le chevauchement de n-grammes entre un résumé généré et une référence — utile pour les benchmarks mais aveugle au sens sémantique et à la précision factuelle. BERTScore utilise la similarité cosinus entre les embeddings BERT, capturant la similarité sémantique plutôt que les correspondances de mots exacts. Pour les workflows de production, la combinaison du scoring HHEM de fidélité avec une vérification de complétude fournit le signal de qualité le plus fiable.
Les outils de résumé par IA peuvent-ils traiter des documents dans d'autres langues que l'anglais ?
Oui, avec d'importantes mises en garde. Les modèles Mistral AI (France) supportent nativement le français et les langues européennes et peuvent être déployés localement pour la conformité RGPD. Qwen 3 (Alibaba) tokenise les caractères chinois environ 40 % plus efficacement que GPT-4o. Les modèles LLaMA 4 via Ollama permettent la résumé multilingue entièrement locale sans appels API externes.
Dois-je respecter le RGPD en utilisant les outils de résumé par IA ?
Oui. Si vous envoyez des données à caractère personnel à des points de terminaison API externes (par exemple OpenAI, Anthropic), l'article 28 du RGPD s'applique : un contrat de traitement (DPA) doit être conclu. L'alternative pour la conformité RGPD est le déploiement local — par exemple Mistral Large via Ollama ou LLaMA 4 sur site. La CNIL recommande, pour les données sensibles en santé, finances ou droit, de privilégier l'inférence locale.
La résumé de documents assistée par IA est-elle appropriée pour les entreprises françaises ?
Oui, à condition de choisir la bonne infrastructure. Les entreprises françaises bénéficient particulièrement de NotebookLM pour les rapports internes et l'analyse de contrats, ainsi que des modèles déployés localement pour les documents sensibles. La CNIL recommande pour les données en santé, finances ou droit une analyse de risque avant l'utilisation d'API cloud. Cas d'usage typiques : résumé automatisé de contrats fournisseurs, condensation de procès-verbaux de réunions, extraction de clauses de conformité.
Sources et lecture complémentaire
- Liu et al., 2025. « A hallucination detection and mitigation framework for text summarisation » — introduit la méthodologie Q-S-E pour la correction itérative des hallucinations sur CNN/DailyMail, PubMed et ArXiv
- Vectara HHEM Leaderboard, 2025. « Hughes Hallucination Evaluation Model — Document Summarisation Faithfulness Rankings » — 100+ LLM testés sur 831 documents ; Gemini-2.0-Flash à 0.7 % hallucination
- SEI/CMU, 2025. « Evaluating LLMs for Text Summarisation: An Introduction » — framework pour l'évaluation de la précision, fidélité, compression et efficacité