Skip to main content
PromptQuorumPromptQuorum
Início/Power Local LLM/Apps de IA local com RAG integrado: Converse com seus arquivos (sem configuração)
Easiest Desktop Apps

Apps de IA local com RAG integrado: Converse com seus arquivos (sem configuração)

·12 min de leitura·Por Hans Kuepper · Fundador do PromptQuorum, ferramenta de despacho multi-modelo de IA · PromptQuorum

Três apps de desktop permitem que você carregue um PDF e comece a fazer perguntas em menos de 5 minutos — sem banco de dados vetorial, sem Python, sem linha de comando. O AnythingLLM é o mais completo (10+ formatos de arquivo, modelos de embedding intercambiáveis, melhores citações). O LM Studio é o mais simples (instalação de um único binário, PDF + DOCX + TXT, escopo de conversa). O Jan é o mais privado (código aberto completo AGPL, zero telemetria, somente local). Os três lidam com documentos de 1.000 páginas e funcionam totalmente offline depois de instalados.

Principais conclusões

  • AnythingLLM é o RAG integrado mais completo: 10+ formatos (PDF, DOCX, TXT, MD, EPUB, sites, transcrições de áudio), modelos de embedding intercambiáveis, melhores citações, espaços de trabalho persistentes.
  • LM Studio tem o menor atrito: arraste um PDF para o chat, obtenha uma resposta em 30 segundos. Escopo de conversa, sem conceito de espaço de trabalho.
  • Jan + extensão de Documentos é a opção open source: AGPL, zero telemetria, embeddings somente locais, ideal para fluxos de trabalho jurídicos, médicos ou regulados.
  • Os três lidam com documentos de 1.000 páginas em hardware com 16 GB de RAM em menos de 5 minutos de indexação.
  • Os modelos de embedding padrão (nomic-embed-text v1.5, all-MiniLM-L6-v2) são suficientes para a maioria dos casos — só o AnythingLLM permite trocá-los sem sair do app.
  • Nenhum dos três lida com PDFs digitalizados (somente imagem) sem OCR externo — extraia o texto primeiro com Tesseract ou uma ferramenta PDF.
  • Caminho de escalonamento: quando você superar ~1.000 documentos, precisar de busca entre espaços de trabalho ou fragmentação avançada, passe para um stack personalizado com Ollama + AnythingLLM Docker ou PrivateGPT.

Como AnythingLLM, LM Studio e Jan + Documentos se comparam em 2026?

Testado em Apple M5 MacBook Pro (16 GB de memória unificada) e um desktop Windows 11 com NVIDIA RTX 4070 (12 GB VRAM, 32 GB de RAM do sistema). Conjunto de documentos idêntico: um PDF de pesquisa de 412 páginas, um contrato DOCX de 38 páginas, um manual técnico PDF de 1.047 páginas e 25 notas markdown (≈ 600 KB no total). Cada app combinado com Llama 3.3 8B Q4_K_M como modelo de chat.

AppFormatosTamanho máx. práticoModelo de embeddingCitaçõesVeredicto
AnythingLLMPDF, DOCX, TXT, MD, EPUB, HTML, CSV, JSON, sites, áudio (Whisper)~5.000 docs / ~50.000 páginasIntegrado (Native) ou troque por Ollama / OpenAI / LM StudioPor fragmento com nome de arquivo + páginaO mais completo — escolha primeiro para bibliotecas
LM StudioPDF, DOCX, TXT, MD~30 docs por chat / ~3.000 páginasnomic-embed-text v1.5 (incluído, não intercambiável)Menção de fonte em linha, sem números de páginaO menor atrito — escolha para Q&A pontual
Jan + DocumentosPDF, DOCX, TXT, MD~200 docs / ~10.000 páginasall-MiniLM-L6-v2 (incluído, intercambiável via extensão)Por fragmento com nome de arquivoO mais privado — escolha para AGPL / conformidade

Qual você deve escolher?

A escolha certa depende do tamanho da sua biblioteca de documentos, dos formatos que você usa e do quanto você valoriza o código aberto. Use esta árvore de decisão:

Sua situaçãoEscolha
Tenho 1 PDF e uma pergunta — quero a resposta em 60 segundosLM Studio
Tenho uma pasta de 50–500 PDFs que quero consultar repetidamenteAnythingLLM
Preciso de EPUBs, sites ou transcrições de áudio no mesmo espaço de trabalhoAnythingLLM
Trabalho com documentos jurídicos ou médicos — o código aberto é obrigatórioJan + Documentos
Quero trocar modelos de embedding para testar a qualidade de recuperaçãoAnythingLLM
Tenho um notebook de 4 anos com 8 GB de RAMLM Studio (instalação mínima, espaço de trabalho mais leve)
Preciso de citações por página para um trabalho acadêmicoAnythingLLM
Quero manter o histórico de chat e o índice de documentos separados por projetoAnythingLLM (os espaços de trabalho são de primeira classe)
Minha empresa bloqueia binários de código fechado na redeJan + Documentos (AGPL, auditável)

Como testamos esses 3 apps

Cada app foi instalado do zero, alimentado com o mesmo conjunto de documentos e avaliado com as mesmas 12 consultas. Usou-se o mesmo modelo de chat (Llama 3.3 8B Q4_K_M, ≈ 4,9 GB) em cada app para isolar a qualidade RAG da qualidade do chat.

  • Hardware: Apple M5 MacBook Pro (16 GB de memória unificada) para o percurso macOS; desktop Windows 11 com RTX 4070 (12 GB VRAM, 32 GB de RAM do sistema) para o percurso Windows. Os testes foram executados em ambos.
  • Conjunto de documentos: PDF de artigo de pesquisa de 412 páginas (arquitetura transformer com figuras, tabelas e equações), DOCX de contrato de 38 páginas (locação imobiliária comercial, texto jurídico denso), PDF de manual técnico de 1.047 páginas (referência de sistema de controle industrial), 25 notas markdown (≈ 600 KB de atas de reuniões e especificações de projetos).
  • Embedding: cada app usou seu modelo de embedding padrão salvo troca explícita. O AnythingLLM "Native" usa por padrão um modelo de 384 dimensões próximo da qualidade do all-MiniLM-L6-v2; o LM Studio usa nomic-embed-text v1.5 (768 dimensões); o Jan inclui all-MiniLM-L6-v2 por padrão.
  • Tipos de consulta: busca factual ("Qual é o prazo de aviso para a rescisão do contrato?"), raciocínio multi-salto ("Quais seções do manual cobrem tanto os intertravamentos de segurança quanto a parada de emergência?"), precisão de citações ("Cite a frase exata sobre token-mixing"), resumo ("Resuma o capítulo 4 em 5 pontos") e detecção de contradições ("O contrato se contradiz sobre a escala de aluguel?").
  • O que medimos: tempo até a primeira resposta após carregar os documentos (indexação + primeira resposta), recuperação em um conjunto de 12 consultas de referência, exatidão de citações (nome de arquivo do fragmento + página quando aplicável) e comportamento com o manual de 1.047 páginas (o teste de estresse).

📌Note: Os três apps são 100% locais depois que os modelos são baixados. Nenhum prompt, fragmento de documento ou vetor de embedding sai do dispositivo durante esses testes. O acesso à rede foi desabilitado no meio do teste em cada app para confirmar o comportamento offline.

AnythingLLM: o RAG integrado mais completo

O AnythingLLM oferece o chat com documentos como recurso de primeira classe, não como complemento. Os espaços de trabalho mantêm um índice de documentos persistente; cada espaço de trabalho é independente, então você pode manter "Contratos jurídicos" separado de "Artigos de pesquisa" sem contaminação cruzada.

  • Instalação: baixe o app de desktop em anythingllm.com (instaladores assinados para macOS, Windows, Linux). ~430 MB. Não exige direitos de administrador no macOS ou Linux.
  • Formatos de arquivo: PDF, DOCX, TXT, MD, EPUB, HTML, CSV, JSON. Os arquivos de áudio (MP3, WAV, M4A) são transcritos automaticamente via Whisper incluído. Os sites são extraídos com um scraper integrado.
  • Modelo de embedding: "Native" (um modelo pequeno incluído próximo da qualidade do all-MiniLM-L6-v2) por padrão. Troque por nomic-embed-text via Ollama, BAAI/bge-small via LM Studio ou OpenAI text-embedding-3-small com um clique em Configurações → Embedder.
  • Controle de fragmentos: o tamanho do fragmento (padrão 1.000 caracteres) e a sobreposição (padrão 20) estão disponíveis nas configurações do espaço de trabalho. O botão "Re-embed-all" reconstrói o índice após as alterações.
  • Citações: cada resposta referencia os fragmentos usados, com nome de arquivo e página (PDF), nome de arquivo e seção (MD) ou apenas nome de arquivo (TXT). Clique em uma citação para abrir o fragmento de origem em um painel lateral.
  • Desempenho: indexou o manual completo de 1.047 páginas + artigo de 412 páginas + contrato de 38 páginas + 25 notas markdown em 4 min 12 s na RTX 4070, 5 min 38 s no M5. Primeira resposta: ~3 s em ambos.
  • Backend LLM: usa o runtime Ollama incluído por padrão, ou aponte para LM Studio, servidor llama.cpp, URL compatível com OpenAI ou qualquer provedor na nuvem.

💡Tip: Crie um espaço de trabalho por projeto (por exemplo, "Contratos Q3", "Fontes de tese", "Manual de integração"). Cada espaço de trabalho tem seu próprio histórico de chat e índice de embedding, de modo que o contexto nunca se mistura entre projetos.

LM Studio: o chat com documentos de menor atrito

O LM Studio adicionou os anexos de documentos no chat em 2025. Arraste um PDF para uma janela de chat aberta e em segundos você pode fazer perguntas sobre ele — sem espaço de trabalho, sem configuração, sem ajuste de embedding.

  • Instalação: baixe em lmstudio.ai. ~450 MB, instaladores assinados para macOS, Windows, Linux. A mesma instalação usada para o chat — sem plugin RAG separado.
  • Formatos de arquivo: PDF, DOCX, TXT, MD. Sem EPUB, HTML nem áudio.
  • Modelo de embedding: nomic-embed-text v1.5 (768 dimensões) incluído. Não é intercambiável pela interface em maio de 2026 — para escolher o modelo de embedding, use o AnythingLLM.
  • Controle de fragmentos: oculto na interface. O tamanho do fragmento, a sobreposição e o top-K são ajustados automaticamente conforme o tamanho do documento.
  • Citações: o modelo recebe os fragmentos como contexto e é instruído a citar o nome do arquivo de origem. A qualidade das citações depende do modelo de chat — Llama 3.3 8B e superiores citam de forma confiável; os modelos menores às vezes omitem as citações.
  • Desempenho: indexou um único artigo de 412 páginas em 38 s no M5, 24 s na RTX 4070. Primeira resposta: 2–3 s. Limite prático antes de ficar lento: ~30 documentos ou ~3.000 páginas por chat.
  • Backend LLM: usa o mesmo modelo de chat selecionado para a conversa — o RAG acontece de forma transparente quando os documentos são anexados.

📌Note: Os anexos de documentos do LM Studio têm escopo de conversa, não de espaço de trabalho. Inicie um chat novo e seus documentos anteriores desaparecem. Isso é uma vantagem para o Q&A pontual e uma limitação para as bibliotecas de pesquisa contínua.

Jan + extensão de Documentos: a opção open source

O Jan é o único dos três com código-fonte totalmente auditável (AGPL). A extensão de Documentos adiciona RAG sem comprometer a postura de zero telemetria — os embeddings são executados localmente e os fragmentos de documentos nunca saem do dispositivo.

  • Instalação: baixe o Jan em jan.ai (~380 MB). Depois ative a extensão de Documentos na aba Hub dentro do app. A extensão é da equipe do Jan, não de terceiros.
  • Formatos de arquivo: PDF, DOCX, TXT, MD. A inclusão de novos formatos está no roadmap público em maio de 2026.
  • Modelo de embedding: all-MiniLM-L6-v2 (384 dimensões) incluído. Intercambiável via as configurações da extensão por BAAI/bge-small-en-v1.5 ou qualquer GGUF de sentence-transformers.
  • Controle de fragmentos: tamanho do fragmento e sobreposição disponíveis nas configurações da extensão. O botão de reindexar reconstrói o armazenamento LanceDB local.
  • Citações: citações por fragmento com nome de arquivo. Sem números de página em maio de 2026 — a issue #1184 no GitHub do Jan acompanha essa solicitação de recurso.
  • Desempenho: indexou o corpus de teste completo em 6 min 04 s no M5, 5 min 12 s na RTX 4070. Primeira resposta: 3–4 s. Limite prático: ~200 documentos.
  • Backend LLM: usa o runtime llama.cpp integrado do Jan. O mesmo modelo carregado para o chat é usado para a síntese RAG.

💡Tip: Para a conformidade com o GDPR da UE, indústrias reguladas ou qualquer ambiente onde a auditabilidade do código-fonte seja obrigatória, o Jan é a única opção dos três. O AnythingLLM é open source no GitHub, mas inclui telemetria de código fechado nas builds oficiais; o LM Studio é totalmente proprietário.

Consultas de exemplo e o que cada app retornou

Mesmos documentos, mesmo modelo de chat (Llama 3.3 8B Q4_K_M), mesmos prompts. As respostas literais são encurtadas onde indicado. Cada linha mostra se o app recuperou os fragmentos corretos e o que respondeu.

ConsultaAnythingLLMLM StudioJan + Documentos
Qual é o prazo de aviso para a rescisão do contrato?✅ "60 dias de aviso por escrito" com citação [contrato.docx, página 12]✅ "60 dias de aviso por escrito" — citação: contrato.docx✅ "60 dias de aviso por escrito" — citação: contrato.docx
Cite a frase exata sobre token-mixing no artigo✅ Citação literal com [research.pdf, página 4]✅ Citação literal, atribuição a research.pdf (sem página)⚠️ Citação parafraseada, atribuição a research.pdf
Quais seções do manual cobrem tanto os intertravamentos de segurança QUANTO a parada de emergência?✅ "Seção 4.2 (Intertravamentos) e Seção 7.1 (Parada de emergência)" com citações⚠️ Retornou apenas a Seção 4.2 — perdeu o segundo salto⚠️ Retornou apenas a Seção 7.1 — perdeu o multi-salto
Resuma o capítulo 4 em 5 pontos✅ 5 pontos precisos, citações em cada um✅ 5 pontos precisos, bloco de citação único ao final✅ 5 pontos precisos, citação só no primeiro ponto
O contrato se contradiz sobre a escala de aluguel?✅ "Sim — a página 8 diz indexado ao IPC, a página 14 diz 3% fixo"✅ "Sim — são mencionados dois métodos de escala diferentes"⚠️ "Nenhuma contradição encontrada" — não conseguiu mostrar a página 14

📌Note: O AnythingLLM liderou nas consultas multi-salto e de contradição porque sua configuração de recuperação extrai mais fragmentos por padrão (top-K = 6) do que o LM Studio (top-K = 4) e o Jan (top-K = 4). Em buscas factuais simples, os três foram praticamente equivalentes.

Quão precisas são as citações?

A qualidade das citações é o maior diferenciador entre os três apps. O AnythingLLM é o único que oferece citações por fragmento com nome de arquivo + página em maio de 2026. Os outros dois citam apenas por nome de arquivo, o que é útil mas insuficiente para trabalhos acadêmicos ou jurídicos.

  • AnythingLLM: cada resposta referencia os fragmentos usados. O formato é `[nome de arquivo, página X] para PDFs, [nome de arquivo, seção]` para markdown. Clique para abrir o fragmento em um painel lateral e verificá-lo.
  • LM Studio: as citações são menções em linha na resposta do chat ("Segundo research.pdf..."). Sem números de página, sem painel de verificação interativo. A confiabilidade depende do modelo de chat — Llama 3.3 8B cita de forma confiável; o Phi-4 Mini às vezes omite citações.
  • Jan + Documentos: citações por fragmento com nome de arquivo. Sem números de página. Os fragmentos citados ficam visíveis no painel da extensão.
  • Custo de verificação: o AnythingLLM permite verificar uma citação em 2 cliques; o LM Studio e o Jan exigem abrir o PDF de origem e buscar. Para um manual de 1.000 páginas, isso importa.
  • Citações alucinadas: os três apps citam ocasionalmente um nome de arquivo quando o fragmento relevante não foi realmente recuperado. Frequência no nosso teste de 12 consultas: AnythingLLM 0/12, LM Studio 1/12 (Phi-4 Mini), Jan 1/12. Verifique sempre as afirmações de alto risco.

Como cada app lida com documentos de 1.000+ páginas

O manual técnico de 1.047 páginas foi o teste de estresse. Os três apps o carregaram e indexaram; as diferenças surgiram no tempo de recuperação e na ergonomia do espaço de trabalho.

ComportamentoAnythingLLMLM StudioJan + Documentos
Tempo de indexação (M5)4 min 12 s2 min 47 s6 min 04 s
RAM durante a indexação~3,2 GB~2,4 GB~2,8 GB
Tamanho do índice em disco~210 MB~95 MB~140 MB
Latência da primeira consulta (a frio)3,1 s2,2 s3,8 s
Limite prático de documentos~5.000~30 por chat~200
Recuperação multi-salto (teste de 12 consultas)11/128/127/12

⚠️Warning: O LM Studio é rápido com um único documento grande, mas não escala para bibliotecas. O índice com escopo de conversa significa que um chat novo começa do zero — útil para perguntas pontuais, problemático para pesquisa contínua. Para 50+ documentos, mude para o AnythingLLM.

Quando você deve superar o RAG integrado?

O RAG integrado é a ferramenta certa até que aconteça uma destas três coisas: sua biblioteca supera ~1.000 documentos, você precisa de controle granular da estratégia de fragmentação ou precisa de busca entre espaços de trabalho. Nesse momento, escale.

  • Mais de 1.000 documentos: o AnythingLLM lida com até ~5.000 documentos em um único espaço de trabalho antes que a latência de recuperação se torne perceptível. Além disso, migre para um stack personalizado com Ollama + AnythingLLM Docker e um banco de dados vetorial dedicado (Qdrant, Weaviate ou Postgres + pgvector).
  • Você precisa de uma estratégia de fragmentação personalizada: os apps integrados usam tamanhos de fragmento fixos (~1.000 caracteres com ~20 de sobreposição). Para fragmentação específica do domínio (semântica, hierárquica, pai-filho), use um stack personalizado com LangChain ou LlamaIndex.
  • Você precisa de busca entre espaços de trabalho / fontes: os espaços de trabalho do AnythingLLM são isolados por design. Se você precisa que uma única consulta abranja "Contratos + E-mail + exportação do Slack + Notion", construa um RAG personalizado com um armazenamento vetorial unificado.
  • Você precisa de controle de acesso granular: os apps integrados assumem um único usuário. Para RAG de equipe com permissões baseadas em papéis, implante o AnythingLLM Docker (modo multiusuário) ou o PrivateGPT.
  • Você precisa de OCR para PDFs digitalizados: nenhum dos três lida com PDFs somente de imagem. Pré-processe com Tesseract ou pdf2image + Tesseract, ou migre para um stack que inclua o Unstructured.io.
  • Implantação em produção: os apps integrados são aplicativos de desktop, não servidores. Para RAG em produção com acesso a API, implante o AnythingLLM Docker, o PrivateGPT ou o Open WebUI com o plugin RAG adequado.

💡Tip: O caminho de escalonamento que preserva o seu trabalho: AnythingLLM Desktop → AnythingLLM Docker (multiusuário, mesmo formato de dados) → stack personalizado com Ollama + Qdrant + LlamaIndex. Cada passo conserva o seu corpus de documentos e evita a reindexação.

Perguntas frequentes

Posso conversar com 1.000+ PDFs nesses apps?

O AnythingLLM lida com até ~5.000 documentos por espaço de trabalho antes que a latência de recuperação se torne perceptível. O Jan + Documentos lida com ~200 documentos de forma confiável. O LM Studio tem escopo de conversa e é prático para ~30 documentos por chat. Para bibliotecas de 1.000+ documentos, o AnythingLLM é a única opção integrada que funciona sem escalar para um stack personalizado.

Esses apps suportam DOCX e Excel?

Os três suportam DOCX (Microsoft Word). O Excel (XLSX) não é suportado diretamente por nenhum dos três em maio de 2026 — converta primeiro para CSV (o AnythingLLM aceita CSV de forma nativa) ou copie e cole em um arquivo markdown. O AnythingLLM também suporta EPUB, HTML, JSON, áudio (transcrição com Whisper) e sites.

Onde meus documentos são armazenados?

Os três armazenam documentos e índices de embedding no seu disco local. O AnythingLLM salva em ~/.anythingllm/ (macOS/Linux) ou %APPDATA%/AnythingLLM (Windows). O LM Studio salva em ~/.cache/lm-studio/ ou %APPDATA%/LM Studio. O Jan salva em ~/jan/. Nenhum dos três envia seus documentos para lugar algum — inferência local e indexação local em todos os casos.

Posso excluir documentos da memória do app?

Sim, nos três. O AnythingLLM tem exclusão por documento + reindexação na interface do espaço de trabalho. LM Studio: desvincule o documento do chat ou exclua o chat. Jan: exclua no painel da extensão de Documentos e clique em reindexar. Após a exclusão, os fragmentos de embedding são removidos do armazenamento vetorial local na próxima reindexação.

Quão precisas são as citações?

O AnythingLLM oferece citações por fragmento com nome de arquivo e página (PDFs) — precisas o suficiente para trabalhos acadêmicos se verificadas. O LM Studio cita apenas por nome de arquivo; a confiabilidade depende do modelo de chat usado (Llama 3.3 8B e superiores citam de forma confiável; o Phi-4 Mini às vezes omite citações). O Jan cita por fragmento com nome de arquivo, sem números de página. Em um teste de 12 consultas, as citações alucinadas foram raras (0/12 AnythingLLM, 1/12 LM Studio, 1/12 Jan) — verifique sempre as afirmações de alto risco abrindo a fonte.

O RAG integrado funciona offline?

Sim. Depois de instalar o app e baixar pelo menos um modelo de chat e um modelo de embedding, os três apps funcionam totalmente offline. A indexação de documentos acontece localmente; as consultas chegam ao armazenamento vetorial local e ao LLM local. Confirmamos isso desabilitando a rede no meio do teste em cada app — os três continuaram respondendo às consultas normalmente.

Posso compartilhar um banco de dados de documentos entre dispositivos?

O AnythingLLM armazena seus espaços de trabalho em uma pasta portátil que você pode copiar entre máquinas (~/.anythingllm/storage/). Os índices de documentos do LM Studio têm escopo de conversa e não são projetados para sincronização. O Jan + Documentos salva em ~/jan/, mas o formato LanceDB é sensível a diferenças de versão entre instalações do Jan. Para múltiplos dispositivos, o caminho mais limpo é o AnythingLLM Docker em um servidor doméstico com todos os dispositivos apontando para a mesma instância.

O RAG integrado lida com PDFs digitalizados (OCR)?

Nenhum dos três apps lida com PDFs digitalizados somente de imagem em maio de 2026. Eles extraem texto por meio de camadas de texto PDF, então um PDF digitalizado sem camada de texto retorna zero fragmentos. Pré-processe com Tesseract OCR (gratuito) ou uma ferramenta como ocrmypdf para adicionar uma camada de texto, depois carregue o PDF processado com OCR no app. O AnythingLLM tem uma solicitação de recurso aberta para a integração do Tesseract.

Qual é o tamanho máximo de documento antes de o RAG integrado ficar lento?

Em hardware com 16 GB de RAM, o AnythingLLM se mantém ágil até ~5.000 documentos ou ~50.000 páginas por espaço de trabalho. O limite prático do LM Studio é ~30 documentos por chat (~3.000 páginas). O Jan + Documentos lida com ~200 documentos de forma confiável. Além desses limites, o tempo de indexação cresce linearmente e a latência de recuperação em consultas a frio pode chegar a 5–10 segundos; esse é o sinal para escalar para um stack RAG personalizado.

Posso usar esses apps para documentos jurídicos ou médicos sensíveis?

Os três funcionam totalmente offline depois de instalados e nunca transmitem o conteúdo dos documentos. Para fluxos de trabalho regulados (HIPAA, GDPR, sigilo profissional), o Jan + Documentos é a opção mais sólida porque todo o stack é de código aberto (AGPL) e auditável, com zero telemetria por padrão. O AnythingLLM também é uma opção defensável em ambientes auditados usando a build Docker de código aberto (evitando a telemetria do instalador de desktop). O LM Studio é totalmente proprietário — confirme com sua equipe de conformidade antes de usá-lo com dados regulados.

← Voltar para Power Local LLM

Apps com RAG integrado 2026: chat com PDFs sem BD vetorial