¿Cuáles son los dos tipos de resumen con IA y cuándo usar cada uno?
El resumen extractivo copia oraciones directamente de la fuente; el abstractivo genera nuevas oraciones que parafrasean y condensan — los dos enfoques intercambian precisión factual por legibilidad y compresión.
El resumen extractivo — usado por herramientas como Scholarcy — clasifica oraciones por frecuencia de palabras clave, posición y densidad de información, luego reproduce las oraciones con mejor puntuación sin modificarlas. Dado que no se genera texto nuevo, los errores fácticos son estructuralmente imposibles. El resumen abstractivo — usado por GPT-4o, Claude Sonnet 4.6 y Gemini 3.1 Pro — genera nuevo texto que sintetiza y parafrasea, produciendo salidas más legibles a costa de un mayor riesgo de alucinación.
Un estudio de arXiv de 2025 comparando enfoques de resumen en artículos de noticias financieras encontró que los métodos extractivos establecen bases sólidas para textos cortos y bien estructurados — pero los LLMs abstractivos los superan para documentos financieros complejos cuando se ajustan con datos específicos del dominio. En una oración: Usa resumen extractivo cuando no puedas permitirte un error fáctico; usa resumen abstractivo cuando necesites que la salida sea legible y utilizable sin edición adicional.
| Método | Riesgo de alucinación | Legibilidad | Mejor para |
|---|---|---|---|
| Extractivo | Casi cero (copia la fuente) | Menor — puede ser discontinuo | Documentos legales, cumplimiento, requisitos de redacción exacta |
| Abstractivo (LLM) | 0,7–14 % según modelo y tarea | Alta — prosa natural | Síntesis de investigación, resúmenes ejecutivos, informes |
| Híbrido (extrae → abstrae) | Bajo | Alta | Informes financieros, literatura académica, documentación técnica |
¿Qué modelo de IA tiene la menor tasa de alucinación para el resumen?
NotebookLM (Google DeepMind) lidera para resumen citado anclado a la fuente de documentos cargados; Claude Sonnet 4.6 (Anthropic) lidera para síntesis, análisis entre documentos y razonamiento complejo; GPT-4o (OpenAI) lidera para resumen de propósito general rápido y flexible.
En el Hughes Hallucination Evaluation Model (HHEM) de Vectara — el benchmark estándar de fidelidad para resumen de documentos, probado en 831 documentos por modelo — los mejores resultados en 2025 fueron:
Estas tasas representan una mejora del 96 % desde 2021, cuando los mejores modelos puntuaban tasas de alucinación del 21,8 % en la misma tarea. Sin embargo, estos números solo aplican al resumen anclado — donde el modelo está conectado a un documento fuente. La recuperación factual de dominio abierto produce tasas de alucinación del 3–33 % en los mismos modelos.
- Gemini 3 Flash (Google DeepMind): 0,7 % de tasa de alucinación — la más baja registrada en el benchmark
- Variantes de OpenAI y Gemini: Cluster del 0,8–1,5 % de tasa de alucinación
- Mejores modelos en general: 4 modelos logran ahora tasas inferiores al 1 % en tareas de resumen anclado
¿Cómo comparan NotebookLM, Claude, GPT-4o y Gemini lado a lado?
Probado en PromptQuorum — 25 prompts de resumen de documentos despachados a tres modelos: Claude Sonnet 4.6 produjo los resúmenes analíticamente más completos en 20 de 25 casos. GPT-4o produjo los resúmenes más concisos e inmediatamente utilizables en 18 de 25 casos. Gemini 3.1 Pro fue el único modelo capaz de procesar todos los 25 documentos completos sin truncamiento de contexto.
| Herramienta | Límite de contexto | Calidad de citas | Mejor caso de uso |
|---|---|---|---|
| NotebookLM (Google DeepMind) | ~500K palabras / 50 fuentes | Citas numeradas en línea, clicables | Revisión de investigación estructurada, preguntas y respuestas fieles a la fuente |
| Claude Projects (Anthropic) | 1M tokens (~800 páginas) | Inconsistente por defecto; fiable con prompts | Síntesis entre fuentes, razonamiento complejo, construcción de argumentos |
| GPT-4o (OpenAI) | 1M tokens (~800 páginas) | Moderada; requiere instrucción explícita | Documentos generales, resúmenes rápidos |
| Gemini 3.1 Pro (Google DeepMind) | 1M tokens (~800 páginas) | Moderada | Análisis de codebase completa o corpus grande |
| Elicit | 138M+ artículos académicos | Extracción académica estructurada | Revisiones sistemáticas de literatura |
Comparación de modelos: fidelidad, velocidad y costo (2026)
| Dimensión | GPT-4o | Claude Sonnet 4.6 | Gemini 3.1 Pro | NotebookLM |
|---|---|---|---|---|
| Context window | 1M tokens | 1M tokens | 1M tokens | ~500K palabras |
| Tasa de alucinación (est. HHEM) | ~1,0 % | ~1,2 % | ~0,8 % (Flash: 0,7 %) | Muy baja (anclada a fuente) |
| Mejor en | Velocidad, salida concisa | Síntesis entre documentos, razonamiento | Corpus grande, multilingüe | Preguntas y respuestas fieles a la fuente |
| Calidad de citas | Moderada | Buena con instrucción explícita | Moderada | Excelente (en línea, clicable) |
| Salida estructurada | Fuerte (modo JSON) | Fuerte (API de structured outputs) | Fuerte (response schema) | Limitada |
| Costo por 1M tokens de entrada | $5 | $3 | $2 | Gratis |
| Debilidad clave | A veces condensa demasiado | Puede mezclar conocimiento de entrenamiento | Menor profundidad analítica | Sin síntesis entre fuentes |
Cómo escribir prompts de extracción y resumen
Un prompt de resumen estructurado — que especifica el tipo de documento, el formato de salida, la restricción de longitud y la instrucción explícita de señalar afirmaciones no verificables — produce salidas directamente utilizables; un prompt no estructurado produce un párrafo genérico que omite información crítica.
El fallo más común de prompt engineering en el resumen es tratar "resume esto" como una instrucción completa. Cada suposición que hace el modelo sobre longitud, formato, perspectiva y nivel de detalle es un posible desajuste con lo que realmente necesitas.
¿Cuáles son los 5 componentes de un prompt de extracción efectivo?
Prompt deficiente — no estructurado, produce salida genérica inutilizable:
Resume este informe.
- Rol — "Eres un analista especializado en dominio."
- Instrucción de fuente — "Resume solo la información del documento a continuación. No añadas conocimiento externo."
- Formato de salida — "Devuelve un resumen estructurado con estas secciones: Hallazgos clave, Metodología, Limitaciones, Acciones recomendadas."
- Restricción de longitud — "Máximo 300 palabras en total."
- Instrucción de incertidumbre — "Si una afirmación en el documento es ambigua o contradice otro pasaje, márcala con VERIFICAR."
🔍 Consejo pro
La instrucción con mayor impacto que puedes añadir a cualquier prompt de resumen es: "No añadas conocimiento externo. Resume solo desde el documento proporcionado." En las pruebas de PromptQuorum, esta única constraint redujo la alucinación del ~5 % a menos del 1 % en todos los modelos.
¿Cómo es un prompt de resumen bien estructurado?
El prompt estructurado produce un documento directamente utilizable en una presentación. El prompt abierto produce un párrafo narrativo que omite datos por segmento, entierra los cambios de guía y requiere 30 minutos de reestructuración.
Eres un analista financiero. Resume el informe de ganancias del T3 adjunto usando solo la información del documento — no añadas contexto externo. Estructura la salida como: Ingresos y márgenes, Rendimiento por segmento, Cambios de guía, Riesgos clave. Máximo 250 palabras. Marca cualquier cifra que contradiga una declaración anterior en el mismo documento con DISCREPANCIA.
¿Cómo manejas documentos que superan el context window?
Con context windows de 1M de tokens ahora estándar en GPT-4o, Claude Sonnet 4.6 y Gemini 3.1 Pro, la mayoría de los documentos individuales caben dentro del context window sin chunking. El chunking sigue siendo esencial para: (1) síntesis de múltiples documentos que supere las 800 páginas, (2) modelos más pequeños o locales con contexto limitado (Mistral 7B: 32K, LLaMA 3.3 8B: 128K), y (3) mejorar la fidelidad en documentos muy largos donde ocurre la degradación "lost in the middle".
Para documentos que superen el context window del modelo, el chunking — dividir el documento en segmentos de 500–2.000 tokens, resumir cada chunk, luego sintetizar los resúmenes de los chunks — preserva la información que de otro modo quedaría truncada o degradada.
Para documentos con estructuras de secciones claras (contratos legales, informes anuales, artículos académicos), el chunking temático produce la síntesis final más coherente. Para documentos no estructurados (hilos de correo, transcripciones), el chunking basado en párrafos a intervalos de 500 tokens es el predeterminado recomendado.
| Método | Coherencia | Mejor para | Compensación |
|---|---|---|---|
| Chunking temático (por sección) | Alta | Contratos, informes anuales, artículos académicos | Requiere que el documento esté bien estructurado |
| Chunking por párrafos (500 tokens) | Media | Texto no estructurado, hilos de correo, transcripciones | Puede dividir oraciones en los límites de los chunks |
| Chunking solapado (10–15 % de solapamiento) | Alta | Documentos donde el contexto cruza los límites de sección | Más costo de tokens; ligera redundancia |
Cómo usar el resumen iterativo
- 1Elige tu herramienta según el tipo de fuente. Usa NotebookLM para PDFs y documentos, Elicit para artículos académicos con campos estructurados, y Perplexity para resumen web en tiempo real.
- 2Define tu esquema de extracción de antemano. Dile al modelo exactamente qué columnas o campos necesitas y el tipo de dato de cada uno.
- 3Establece Temperature a 0,1–0,3. Las temperatures más bajas producen salidas más deterministas y consistentes.
- 4Divide los documentos grandes en múltiples pasadas. Para PDFs de 100+ páginas, extrae secciones de 25 páginas a la vez.
- 5Verifica las extracciones clave con la fuente. Verifica al azar el 10–20 % de los datos extraídos con el documento original.
¿Por qué los modelos de IA siguen alucinando?
Los LLMs generan texto prediciendo el siguiente token más probable — no recuperando hechos de una base de datos verificada. Este proceso probabilístico hace que la alucinación sea matemáticamente inevitable bajo las arquitecturas actuales.
Una prueba matemática de 2025 en arXiv confirmó que ningún LLM puede garantizar una ausencia completa de alucinaciones para todos los posibles inputs. La reducción del 96 % en las tasas de alucinación desde 2021 proviene de un mejor ajuste fino, contexto de base más grande y técnicas mejoradas de prompt, no de la eliminación del proceso subyacente.
Las mejores estrategias de mitigación actuales: anclaje explícito a documentos fuente, temperature baja, verificación de fidelidad y verificación multi-modelo.
Métricas de evaluación: ROUGE, BERTScore, HHEM
Tres métricas se usan comúnmente para evaluar la calidad del resumen: ROUGE, BERTScore y HHEM (Hughes Hallucination Evaluation Model).
ROUGE mide la superposición de n-gramas entre resúmenes generados y de referencia — útil para comparar la cobertura del contenido, pero ciego a la semántica y la exactitud factual. BERTScore usa similitud coseno entre embeddings BERT, capturando similitud semántica en lugar de coincidencias exactas de palabras. HHEM (Vectara) es la métrica de fidelidad estándar de la industria que mide si las afirmaciones en el resumen son verdaderas según el documento fuente.
Para workflows de documentos en producción, combina la puntuación de fidelidad HHEM con una verificación de completitud para la señal de calidad más fiable.
Contexto global y regional
Las empresas europeas que procesan documentos con datos personales deben cumplir el RGPD — el envío de documentos con datos personales a APIs externas (OpenAI, Anthropic) requiere acuerdos de procesamiento de datos (DPA) bajo el Artículo 28 del RGPD. Para equipos de la UE con requisitos de residencia de datos, los modelos de Mistral AI (Francia) pueden desplegarse localmente con soporte completo de resumen multilingüe mientras se mantienen todos los datos dentro de la infraestructura de la UE.
Las empresas chinas usan Qwen 3 (Alibaba) para el procesamiento de documentos chinos — tokeniza los caracteres chinos con aproximadamente un 40 % menos de tokens que los modelos entrenados principalmente en inglés, haciendo que el procesamiento de documentos chinos a gran escala sea significativamente más económico. Las empresas japonesas que ejecutan inferencia local vía Ollama se benefician de LLaMA 4 Scout (soporte de 10M de tokens) para el procesamiento de documentos técnicos extensos manteniendo todos los datos completamente on-premise.
Errores comunes
❌ Usar resumen abstractivo para documentos legales
Why it hurts: El resumen abstractivo introduce alucinaciones — no solo errores gramaticales, sino paráfrasis fácticas que alteran el significado legal.
Fix: Para documentos legales, contratos y documentos regulatorios, usa siempre resumen extractivo o herramientas como NotebookLM con citas fuente.
❌ No especificar el formato de salida
Why it hurts: "Resume esto" produce longitudes, estructuras y profundidades variables. Lo que obtienes rara vez coincide con lo que necesitas.
Fix: Siempre especifica secciones exactas, límite de palabras y formato. Proporciona una plantilla de ejemplo si el formato es crítico.
❌ Ignorar los límites del context window
Why it hurts: Alimentar a los modelos con documentos que superan su context window produce truncamiento silencioso — el modelo procesa solo parte del documento y puede omitir secciones críticas.
Fix: Verifica la longitud del documento antes de resumir. Usa chunking para documentos que excedan el límite.
❌ No incluir instrucciones de fidelidad
Why it hurts: Sin una instrucción explícita de anclaje a la fuente, los modelos mezclan conocimiento de entrenamiento con el contenido del documento, produciendo resúmenes que parecen correctos pero contienen hechos no fuente.
Fix: Añade siempre: "Resume solo la información del documento. No incluyas conocimiento externo."
Preguntas frecuentes
¿Cuál es la diferencia entre el resumen extractivo y el abstractivo con IA?
El resumen extractivo copia oraciones directamente del documento fuente sin modificarlas — los errores fácticos son estructuralmente imposibles. El resumen abstractivo usa LLMs para generar nuevas oraciones parafraseadas con tasas de alucinación del 0,7–14 %. Usa extractivo para documentos legales y de cumplimiento; usa abstractivo para resúmenes ejecutivos y síntesis de investigación.
¿Qué modelo de IA alucina menos al resumir documentos?
En el benchmark HHEM de Vectara, Gemini 3 Flash alcanzó la menor tasa de alucinación del 0,7 % en 2025. Estas tasas solo aplican al resumen anclado a la fuente; la recuperación factual de dominio abierto produce tasas del 3–33 %.
¿Cuántas páginas pueden procesar las herramientas de resumen con IA?
GPT-4o maneja ~100 páginas (128k tokens). Claude Sonnet 4.6 maneja ~160 páginas (200k tokens). Gemini 3.1 Pro maneja ~800 páginas (1M tokens). NotebookLM soporta hasta 50 fuentes con ~500.000 palabras. Para corpora más grandes, se requiere chunking.
¿Es mejor NotebookLM o Claude para el resumen de documentos?
Sirven para necesidades diferentes. NotebookLM proporciona anclaje más estricto a la fuente con citas en línea clicables. Claude Sonnet 4.6 produce análisis más matizados y destaca en la síntesis entre documentos. Usa NotebookLM para precisión; usa Claude para obtener insights.
¿Cómo evito que la IA alucinara en mis resúmenes?
Cuatro técnicas: (1) instruye explícitamente — "resume solo desde el documento"; (2) temperatura 0,0–0,1; (3) verificación de fidelidad; (4) verificación multi-modelo. Cuando GPT-4o y Claude coinciden en un hecho, la probabilidad de alucinación compartida es casi cero.
¿Qué es el chunking de documentos y cuándo debo usarlo?
El chunking divide el documento en segmentos de 500–2.000 tokens, resume cada uno por separado, luego sintetiza. Úsalo cuando el documento supere el context window del modelo (~100 páginas para GPT-4o, ~160 para Claude, ~800 para Gemini).
¿Qué son ROUGE y BERTScore para evaluar resúmenes?
ROUGE mide la superposición de n-gramas — útil para benchmarking pero ciego a la semántica. BERTScore usa similitud coseno entre embeddings BERT, capturando similitud semántica. Para producción, combina HHEM de fidelidad con una verificación de completitud.
¿Pueden las herramientas de resumen con IA manejar documentos en otros idiomas?
Sí. Mistral AI maneja francés y lenguas europeas de forma nativa con despliegue local para cumplimiento GDPR. Qwen 3 tokeniza el chino con ~40 % menos tokens que GPT-4o. LLaMA 4 vía Ollama soporta resumen multilingüe completamente on-premise.
Fuentes y lecturas adicionales
- Liu et al., 2025. "A hallucination detection and mitigation framework for text summarisation" — presenta la metodología Q-S-E para corrección iterativa de alucinaciones en CNN/DailyMail, PubMed y ArXiv
- Vectara HHEM Leaderboard, 2025. "Hughes Hallucination Evaluation Model — Document Summarisation Faithfulness Rankings" — 100+ LLMs probados en 831 documentos; Gemini-2.0-Flash con tasa de alucinación del 0,7 %
- SEI/CMU, 2025. "Evaluating LLMs for Text Summarisation: An Introduction" — framework para evaluación de precisión, fidelidad, compresión y eficiencia