Início/Prompt Engineering/Extraia e resuma com IA

Techniques

Extraia e resuma com IA

Última atualização: 23 de março de 2026·8 min de leitura·Por Hans Kuepper · Fundador do PromptQuorum, ferramenta de despacho multi-modelo de IA · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

A extração e o resumo com IA reduz o tempo de revisão de documentos entre 60 e 80% alcançando taxas de alucinação de apenas 0,7% em tarefas de resumo ancoradas na fonte — a chave está em escolher o tipo de resumo, o modelo e a estrutura de prompt corretos para cada categoria de documento.

Pontos principais

Use resumo extrativo para documentos jurídicos, de conformidade e de redação exata; use resumo abstrativo com LLM para síntese de pesquisa e resultados executivos
Gemini 3 Flash alcança uma taxa de alucinação de 0,7% no resumo ancorado — o modelo de melhor desempenho no benchmark HHEM do Vectara em 831 documentos
NotebookLM (Google DeepMind) fornece o resumo mais confiável ancorado na fonte com citações inline clicáveis; Claude Sonnet 5 lidera para síntese entre documentos e análise complexa
As taxas de alucinação no resumo ancorado caíram 96% de 2021 a 2025 — mas uma prova matemática de 2025 confirmou que as alucinações não podem ser completamente eliminadas sob as arquiteturas LLM atuais
Para documentos que excedem os limites do context window, o chunking temático (por seção/tema) produz a síntese final mais coerente
GPT-5.6, Claude Sonnet 5 e Gemini 3.1 Pro suportam context windows de 1M de tokens (~800 páginas). Para corpora que excedam isso, o chunking ainda é necessário.

⚡ Fatos rápidos

·Maior fidelidade: Gemini 3 Flash — 0,7% de taxa de alucinação no benchmark HHEM (831 documentos)
·Melhor para síntese: Claude Sonnet 5 — análise entre documentos, raciocínio complexo
·Melhor em velocidade: GPT-5.6 — resumos concisos, imediatamente utilizáveis
·Context windows: Os três modelos de fronteira agora suportam 1M de tokens (~800 páginas)
·Melhoria de 96%: as taxas de alucinação no resumo ancorado caíram de 21,8% (2021) para 0,7% (2025)
·Extrativo = risco de alucinação zero mas menor legibilidade; abstrativo = legível mas 0,7–14% de alucinação

Quais são os dois tipos de resumo com IA e quando usar cada um?

O resumo extrativo copia frases diretamente da fonte; o abstrativo gera novas frases que parafraseiam e condensam — as duas abordagens trocam precisão factual por legibilidade e compressão.

O resumo extrativo — usado por ferramentas como Scholarcy — classifica frases por frequência de palavras-chave, posição e densidade de informação, depois reproduz as frases com melhor pontuação sem modificá-las. Como nenhum texto novo é gerado, erros factuais são estruturalmente impossíveis. O resumo abstrativo — usado por GPT-5.6, Claude Sonnet 5 e Gemini 3.1 Pro — gera novo texto que sintetiza e parafraseia, produzindo saídas mais legíveis a um custo maior de risco de alucinação.

Um estudo do arXiv de 2025 comparando abordagens de resumo em artigos de notícias financeiras descobriu que os métodos extrativos estabelecem bases sólidas para textos curtos e bem estruturados — mas os LLMs abstrativos os superam para documentos financeiros complexos quando ajustados com dados específicos do domínio. Em uma frase: Use resumo extrativo quando não puder se dar ao luxo de um erro factual; use resumo abstrativo quando precisar que a saída seja legível e utilizável sem edição adicional.

Método	Risco de alucinação	Legibilidade	Melhor para
Extrativo	Quase zero (copia a fonte)	Menor — pode ser descontínuo	Documentos jurídicos, conformidade, requisitos de redação exata
Abstrativo (LLM)	0,7–14% dependendo do modelo e da tarefa	Alta — prosa natural	Síntese de pesquisa, resumos executivos, relatórios
Híbrido (extrai → abstrai)	Baixo	Alta	Relatórios financeiros, literatura acadêmica, documentação técnica

Qual modelo de IA tem a menor taxa de alucinação para o resumo?

NotebookLM (Google DeepMind) lidera para resumo citado ancorado na fonte de documentos carregados; Claude Sonnet 5 (Anthropic) lidera para síntese, análise entre documentos e raciocínio complexo; GPT-5.6 (OpenAI) lidera para resumo de propósito geral rápido e flexível.

No Hughes Hallucination Evaluation Model (HHEM) do Vectara — o benchmark padrão de fidelidade para resumo de documentos, testado em 831 documentos por modelo — os melhores resultados em 2025 foram:

Essas taxas representam uma melhoria de 96% desde 2021, quando os melhores modelos pontuavam taxas de alucinação de 21,8% na mesma tarefa.

Gemini 3 Flash (Google DeepMind): 0,7% de taxa de alucinação — a mais baixa registrada no benchmark
Variantes de OpenAI e Gemini: Cluster de 0,8–1,5% de taxa de alucinação
Melhores modelos em geral: 4 modelos agora alcançam taxas abaixo de 1% em tarefas de resumo ancorado

Como NotebookLM, Claude, GPT-5.6 e Gemini se comparam lado a lado?

Testado no PromptQuorum — 25 prompts de resumo de documentos despachados para três modelos: Claude Sonnet 5 produziu os resumos analiticamente mais completos em 20 de 25 casos. GPT-5.6 produziu os resumos mais concisos e imediatamente utilizáveis em 18 de 25 casos. Gemini 3.1 Pro foi o único modelo capaz de processar todos os 25 documentos completos sem truncamento de contexto.

Ferramenta	Limite de contexto	Qualidade de citações	Melhor caso de uso
NotebookLM (Google DeepMind)	~500K palavras / 50 fontes	Citações numeradas inline, clicáveis	Revisão de pesquisa estruturada, perguntas e respostas fiéis à fonte
Claude Projects (Anthropic)	1M tokens (~800 páginas)	Inconsistente por padrão; confiável com prompts	Síntese entre fontes, raciocínio complexo, construção de argumentos
GPT-5.6 (OpenAI)	1M tokens (~800 páginas)	Moderada; requer instrução explícita	Documentos gerais, resumos rápidos
Gemini 3.1 Pro (Google DeepMind)	1M tokens (~800 páginas)	Moderada	Análise de codebase completa ou corpus grande
Elicit	138M+ artigos acadêmicos	Extração acadêmica estruturada	Revisões sistemáticas de literatura

Comparação de modelos: fidelidade, velocidade e custo (2026)

Dimensão	GPT-5.6	Claude Sonnet 5	Gemini 3.1 Pro	NotebookLM
Context window	1M tokens	1M tokens	1M tokens	~500K palavras
Taxa de alucinação (est. HHEM)	~1,0%	~1,2%	~0,8% (Flash: 0,7%)	Muito baixa (ancorada na fonte)
Melhor em	Velocidade, saída concisa	Síntese entre documentos, raciocínio	Corpus grande, multilíngue	Perguntas e respostas fiéis à fonte
Qualidade de citações	Moderada	Boa com instrução explícita	Moderada	Excelente (inline, clicável)
Saída estruturada	Forte (modo JSON)	Forte (API de structured outputs)	Forte (response schema)	Limitada
Custo por 1M tokens de entrada	$5	$3	$2	Grátis
Fraqueza principal	Às vezes condensa demais	Pode misturar conhecimento de treinamento	Menor profundidade analítica	Sem síntese entre fontes

Como escrever prompts de extração e resumo

Um prompt de resumo estruturado — que especifica o tipo de documento, o formato de saída, a restrição de comprimento e a instrução explícita de sinalizar afirmações não verificáveis — produz saídas diretamente utilizáveis; um prompt não estruturado produz um parágrafo genérico que omite informações críticas.

O erro mais comum em prompt engineering no resumo é tratar "resuma isso" como uma instrução completa. Cada suposição que o modelo faz sobre comprimento, formato, perspectiva e nível de detalhe é um possível desalinhamento com o que você realmente precisa.

Quais são os 5 componentes de um prompt de extração eficaz?

Prompt deficiente — não estruturado, produz saída genérica inutilizável:

Resuma este relatório.

Papel — "Você é um analista especializado em domínio."
Instrução de fonte — "Resuma apenas as informações do documento abaixo. Não adicione conhecimento externo."
Formato de saída — "Retorne um resumo estruturado com estas seções: Resultados principais, Metodologia, Limitações, Ações recomendadas."
Restrição de comprimento — "Máximo 300 palavras no total."
Instrução de incerteza — "Se uma afirmação no documento for ambígua ou contradizer outra passagem, marque-a com VERIFICAR."

🔍 Dica profissional

A instrução de maior impacto que você pode adicionar a qualquer prompt de resumo é: "Não adicione conhecimento externo. Resuma apenas a partir do documento fornecido." Nos testes do PromptQuorum, essa única restrição reduziu a alucinação de ~5% para menos de 1% em todos os modelos.

Como é um prompt de resumo bem estruturado?

O prompt estruturado produz um documento diretamente utilizável em uma apresentação. O prompt aberto produz um parágrafo narrativo que omite dados por segmento, enterra as mudanças de orientação e requer 30 minutos de reestruturação.

Você é um analista financeiro. Resuma o relatório de resultados do T3 anexo usando apenas as informações do documento — não adicione contexto externo. Estruture a saída como: Receitas e margens, Desempenho por segmento, Mudanças de orientação, Riscos principais. Máximo 250 palavras. Marque qualquer cifra que contradiga uma declaração anterior no mesmo documento com DISCREPÂNCIA.

Como você lida com documentos que excedem o context window?

Com context windows de 1M de tokens agora padrão no GPT-5.6, Claude Sonnet 5 e Gemini 3.1 Pro, a maioria dos documentos individuais cabe no context window sem chunking. O chunking ainda é essencial para: (1) síntese de múltiplos documentos que exceda 800 páginas, (2) modelos menores ou locais com contexto limitado (Mistral Small: 32K, LLaMA 3.3 8B: 128K), e (3) melhorar a fidelidade em documentos muito longos onde ocorre a degradação "lost in the middle".

Para documentos que excedam o context window do modelo, o chunking — dividir o documento em segmentos de 500–2.000 tokens, resumir cada chunk, depois sintetizar os resumos dos chunks — preserva as informações que de outra forma seriam truncadas ou degradadas.

Método	Coerência	Melhor para	Compensação
Chunking temático (por seção)	Alta	Contratos, relatórios anuais, artigos acadêmicos	Requer que o documento esteja bem estruturado
Chunking por parágrafos (500 tokens)	Média	Texto não estruturado, threads de e-mail, transcrições	Pode dividir frases nos limites dos chunks
Chunking sobreposto (10–15% de sobreposição)	Alta	Documentos onde o contexto cruza limites de seção	Mais custo de tokens; ligeira redundância

Como usar o resumo iterativo

1
Escolha sua ferramenta de acordo com o tipo de fonte. Use NotebookLM para PDFs e documentos, Elicit para artigos acadêmicos com campos estruturados, e Perplexity para resumo web em tempo real.
2
Defina seu esquema de extração com antecedência. Diga ao modelo exatamente quais colunas ou campos você precisa e o tipo de dado de cada um.
3
Defina Temperature para 0,1–0,3. Temperaturas mais baixas produzem saídas mais determinísticas e consistentes.
4
Divida documentos grandes em múltiplas passagens. Para PDFs de 100+ páginas, extraia seções de 25 páginas por vez.
5
Verifique as extrações principais com a fonte. Verifique aleatoriamente 10–20% dos dados extraídos com o documento original.

Por que os modelos de IA continuam alucinando?

Os LLMs geram texto prevendo o próximo token mais provável — não recuperando fatos de um banco de dados verificado. Esse processo probabilístico torna a alucinação matematicamente inevitável sob as arquiteturas atuais.

Uma prova matemática de 2025 no arXiv confirmou que nenhum LLM pode garantir uma ausência completa de alucinações para todos os possíveis inputs. A redução de 96% nas taxas de alucinação desde 2021 vem de melhor ajuste fino, contexto de base maior e técnicas aprimoradas de prompt, não da eliminação do processo subjacente.

As melhores estratégias de mitigação atuais: ancoragem explícita em documentos-fonte, temperatura baixa, verificação de fidelidade e verificação multi-modelo.

Métricas de avaliação: ROUGE, BERTScore, HHEM

Três métricas são comumente usadas para avaliar a qualidade do resumo: ROUGE, BERTScore e HHEM (Hughes Hallucination Evaluation Model).

ROUGE mede a sobreposição de n-gramas entre resumos gerados e de referência — útil para comparar a cobertura do conteúdo, mas cego à semântica e à exatidão factual. BERTScore usa similaridade cosseno entre embeddings BERT, capturando similaridade semântica em vez de correspondências exatas de palavras. HHEM (Vectara) é a métrica de fidelidade padrão do setor que mede se as afirmações no resumo são verdadeiras de acordo com o documento-fonte.

Para workflows de documentos em produção, combine a pontuação de fidelidade HHEM com uma verificação de completude para o sinal de qualidade mais confiável.

Contexto global e regional

Empresas europeias que processam documentos com dados pessoais devem cumprir o RGPD — o envio de documentos com dados pessoais para APIs externas (OpenAI, Anthropic) requer acordos de processamento de dados (DPA) sob o Artigo 28 do RGPD. Para equipes da UE com requisitos de residência de dados, os modelos da Mistral AI (França) podem ser implantados localmente com suporte completo de resumo multilíngue.

Empresas brasileiras que processam documentos com dados pessoais de brasileiros devem seguir a LGPD — os requisitos de localização de dados e consentimento se aplicam quando documentos contendo informações pessoais são enviados para APIs externas.

Empresas chinesas usam Qwen 3 (Alibaba) para o processamento de documentos chineses — tokeniza caracteres chineses com aproximadamente 40% menos tokens do que modelos treinados principalmente em inglês.

Erros comuns

❌ Usar resumo abstrativo para documentos jurídicos

Why it hurts: O resumo abstrativo introduz alucinações — não apenas erros gramaticais, mas paráfrases factuais que alteram o significado jurídico.

Fix: Para documentos jurídicos, contratos e documentos regulatórios, use sempre resumo extrativo ou ferramentas como NotebookLM com citações-fonte.

❌ Não especificar o formato de saída

Why it hurts: "Resuma isso" produz comprimentos, estruturas e profundidades variáveis. O que você obtém raramente corresponde ao que você precisa.

Fix: Sempre especifique seções exatas, limite de palavras e formato. Forneça um modelo de exemplo se o formato for crítico.

❌ Ignorar os limites do context window

Why it hurts: Alimentar os modelos com documentos que excedem seu context window produz truncamento silencioso — o modelo processa apenas parte do documento e pode omitir seções críticas.

Fix: Verifique o comprimento do documento antes de resumir. Use chunking para documentos que excedam o limite.

❌ Não incluir instruções de fidelidade

Why it hurts: Sem uma instrução explícita de ancoragem na fonte, os modelos misturam conhecimento de treinamento com o conteúdo do documento, produzindo resumos que parecem corretos mas contêm fatos sem fonte.

Fix: Sempre adicione: "Resuma apenas as informações do documento. Não inclua conhecimento externo."

Perguntas frequentes

Qual é a diferença entre o resumo extrativo e o abstrativo com IA?

O resumo extrativo copia frases diretamente do documento-fonte sem modificá-las — erros factuais são estruturalmente impossíveis. O resumo abstrativo usa LLMs para gerar novas frases parafraseadas com taxas de alucinação de 0,7–14%. Use extrativo para documentos jurídicos e de conformidade; use abstrativo para resumos executivos e síntese de pesquisa.

Qual modelo de IA alucina menos ao resumir documentos?

No benchmark HHEM do Vectara, o Gemini 3 Flash alcançou a menor taxa de alucinação de 0,7% em 2025. Essas taxas só se aplicam ao resumo ancorado na fonte; a recuperação factual de domínio aberto produz taxas de 3–33%.

Quantas páginas as ferramentas de resumo com IA podem processar?

GPT-5.6 processa ~100 páginas (128k tokens). Claude Sonnet 5 processa ~160 páginas (200k tokens). Gemini 3.1 Pro processa ~800 páginas (1M tokens). NotebookLM suporta até 50 fontes com ~500.000 palavras. Para corpora maiores, o chunking é necessário.

NotebookLM é melhor que Claude para o resumo de documentos?

Servem para necessidades diferentes. NotebookLM fornece ancoragem mais rigorosa na fonte com citações inline clicáveis. Claude Sonnet 5 produz análises mais matizadas e se destaca na síntese entre documentos. Use NotebookLM para precisão; use Claude para obter insights.

Como evito que a IA alucinize nos meus resumos?

Quatro técnicas: (1) instrua explicitamente — "resuma apenas a partir do documento"; (2) temperatura 0,0–0,1; (3) verificação de fidelidade; (4) verificação multi-modelo. Quando GPT-5.6 e Claude concordam em um fato, a probabilidade de alucinação compartilhada é quase zero.

O que é chunking de documentos e quando devo usá-lo?

O chunking divide o documento em segmentos de 500–2.000 tokens, resume cada um separadamente, depois sintetiza. Use-o quando o documento exceder o context window do modelo (~100 páginas para GPT-5.6, ~160 para Claude, ~800 para Gemini).

O que são ROUGE e BERTScore para avaliar resumos?

ROUGE mede a sobreposição de n-gramas — útil para benchmarking mas cego à semântica. BERTScore usa similaridade cosseno entre embeddings BERT, capturando similaridade semântica. Para produção, combine HHEM de fidelidade com uma verificação de completude.

As ferramentas de resumo com IA podem lidar com documentos em outros idiomas?

Sim. Mistral AI lida com francês e línguas europeias nativamente com implantação local para conformidade com o RGPD. Qwen 3 tokeniza o chinês com ~40% menos tokens do que o GPT-5.6. LLaMA 4 via Ollama suporta resumo multilíngue completamente on-premise.

Fontes e leituras adicionais

Liu et al., 2025. "A hallucination detection and mitigation framework for text summarisation" — apresenta a metodologia Q-S-E para correção iterativa de alucinações em CNN/DailyMail, PubMed e ArXiv
Vectara HHEM Leaderboard, 2025. "Hughes Hallucination Evaluation Model — Document Summarisation Faithfulness Rankings" — 100+ LLMs testados em 831 documentos; Gemini-2.0-Flash com taxa de alucinação de 0,7%
SEI/CMU, 2025. "Evaluating LLMs for Text Summarisation: An Introduction" — framework para avaliação de precisão, fidelidade, compressão e eficiência

Aplique estas técnicas com um LLM local ou suas próprias chaves de API — o PromptQuorum funciona com qualquer backend.

Experimente o PromptQuorum gratuitamente →

← Voltar ao Prompt Engineering