Skip to main content
PromptQuorumPromptQuorum
Início/Power Local LLM/O diretório completo de software LLM local: 70+ ferramentas para executar IA no seu próprio hardware (2026)
Overview & Reference

O diretório completo de software LLM local: 70+ ferramentas para executar IA no seu próprio hardware (2026)

·20 min de leitura·Por Hans Kuepper · Fundador do PromptQuorum, ferramenta de despacho multi-modelo de IA · PromptQuorum

O ecossistema de LLM local em 2026 se divide claramente em nove camadas. Os runtimes (Ollama, llama.cpp, vLLM) processam tokens pelo modelo; os apps de desktop (LM Studio, Jan, GPT4All) envolvem um runtime em uma interface de chat; as interfaces web (Open WebUI, LibreChat) fazem o mesmo no navegador; os assistentes de código (Continue.dev, Cline, Aider) conectam um modelo local ao seu editor; os sistemas RAG (AnythingLLM, PrivateGPT) o apontam para seus documentos; os frameworks de agentes (LangChain, CrewAI, LangGraph) encadeiam chamadas em fluxos de trabalho de múltiplas etapas; os stacks de voz e multimodal (Whisper.cpp, Piper, LLaVA) o estendem além do texto; os clientes móveis (MLC Chat, PocketPal AI) o levam ao telefone; e os plugins de produtividade especializados (Obsidian, Logseq, AutoGPT) o integram às ferramentas que você já usa.**

O ecossistema de LLM local em 2026 é suficientemente amplo para que escolher a ferramenta errada no início custe horas, não minutos. Este diretório cataloga 87 projetos em manutenção ativa em nove camadas — runtimes, aplicativos de desktop, interfaces web, assistentes de código, sistemas RAG, frameworks de agentes, voz e multimodal, clientes móveis e plugins de produtividade especializados — com descrição, licença e URL principal para cada um. Use-o como o mapa de "o que existe" antes de se comprometer com um stack; cada categoria termina com um link para o guia de comparação mais detalhado do PromptQuorum para essa camada.

Esta página contém links de referência para produtos de terceiros. O PromptQuorum não está inscrito em nenhum programa de afiliados — são links simples que não geram comissão. Clicar nos links e os próximos passos são de sua inteira responsabilidade. Estes links não representam qualquer endosso ou verificação por parte do PromptQuorum.

Apresentação: O diretório completo de software LLM local: 70+ ferramentas para executar IA no seu próprio hardware (2026)

A apresentação cobre: uma visão geral do stack LLM local em 9 camadas (de runtimes a plugins especializados); tabelas de comparação de 6 ferramentas para runtimes (Ollama/llama.cpp/vLLM/LocalAI/ExLlamaV2/MLX-LM), apps de desktop, interfaces web, assistentes de código, sistemas RAG e frameworks de agentes; uma tabela de stacks do mundo real de 9 linhas (objetivo, stack, hardware mínimo); um guia de seleção de stack em 5 passos; e FAQ. Baixe o PDF como cartão de referência do diretório de software LLM local.

Navegue pelos slides abaixo ou baixe em PDF para referência offline. Baixar cartão de referência (PDF)

Principais conclusões

  • Nove camadas, 87 projetos, um mapa. Runtimes, apps de desktop, interfaces web, assistentes de código, sistemas RAG, frameworks de agentes, voz/multimodal, clientes móveis e plugins de produtividade especializados — quase todos os projetos populares de 2026 se encaixam exatamente em uma camada.
  • Escolha primeiro um runtime. Ollama é a opção padrão adequada para ~95% dos leitores; llama.cpp é o motor fundamental por trás da maioria das outras ferramentas; vLLM é a opção de produção para implantações multiusuário em GPU real.
  • A maioria das camadas acima do runtime são opcionais. Um app de desktop OU uma interface web é suficiente para o chat. Adicione um assistente de código apenas quando quiser integração IDE; adicione um sistema RAG apenas quando quiser conversar com seus próprios documentos; adicione um framework de agentes apenas quando as chamadas de uma única etapa deixarem de ser suficientes.
  • A licença importa para uso comercial. MIT e Apache 2.0 dominam o ecossistema. AGPL aparece em algumas interfaces (text-generation-webui, KoboldCpp, Jan, SillyTavern) — perfeito para uso pessoal, mais deliberado para implantações comerciais.
  • Os stacks de múltiplas ferramentas são a norma. Ollama + Open WebUI + AnythingLLM + Continue.dev é uma configuração de uma única máquina que cobre chat, RAG e código sem compromisso.
As 9 camadas de um stack LLM local: 87 projetos em manutenção ativa abrangendo runtimes (Ollama, llama.cpp, vLLM), apps de desktop (LM Studio, Jan, GPT4All), interfaces web, assistentes de código, sistemas RAG, frameworks de agentes, voz e multimodal, clientes móveis e ferramentas de produtividade especializadas.
As 9 camadas de um stack LLM local: 87 projetos em manutenção ativa abrangendo runtimes (Ollama, llama.cpp, vLLM), apps de desktop (LM Studio, Jan, GPT4All), interfaces web, assistentes de código, sistemas RAG, frameworks de agentes, voz e multimodal, clientes móveis e ferramentas de produtividade especializadas.

1. Runtimes e motores de inferência LLM local

Um runtime é o motor que carrega os pesos do modelo na memória e converte prompts em tokens. É a primeira decisão em um stack LLM local e a que condiciona tudo que está acima — cada app de desktop, interface web e assistente de código chama em última instância um runtime. O Ollama domina a participação de mercado orientada ao usuário em 2026 porque inclui uma API compatível com OpenAI e uma instalação de um único comando; o llama.cpp é o motor C++ que sustenta a maioria das outras ferramentas; o vLLM é a opção adequada quando você precisa atender usuários concorrentes em uma GPU real.

FerramentaLinkDescriçãoLicença
Ollamaollama.comO mais fácil em geral — instalação de um comando, API compatível com OpenAI, enorme biblioteca de modelosMIT
llama.cppgithub.com/ggml-org/llama.cppMotor C++ fundamental por trás da maioria das outras ferramentas, funciona em qualquer lugar incluindo Apple SiliconMIT
vLLMgithub.com/vllm-project/vllmServing de alto desempenho para implantações GPU multiusuárioApache 2.0
LocalAIlocalai.ioSubstituto drop-in da API OpenAI que suporta múltiplos backendsMIT
TensorRT-LLMgithub.com/NVIDIA/TensorRT-LLMInferência otimizada pela NVIDIA para configurações GPU enterpriseApache 2.0
MLC LLMmlc.ai/mlc-llmRuntime de implantação para dispositivos móveis e edgeApache 2.0
SGLanggithub.com/sgl-project/sglangServing de inferência estruturada para pipelines de agentesApache 2.0
ExLlamaV2github.com/turboderp-org/exllamav2Inferência quantizada rápida otimizada para GPUs RTXMIT
KoboldCppgithub.com/LostRuins/koboldcppWrapper leve de llama.cpp com interface integradaAGPL 3.0
Llamafilegithub.com/Mozilla-Ocho/llamafileExecução LLM portátil em um único arquivo pela MozillaApache 2.0
MLX-LMgithub.com/ml-explore/mlx-examplesRuntime nativo do Apple Silicon pela Apple ResearchMIT

Guia mais detalhado: llama.cpp vs Ollama vs vLLM

Ollama vs llama.cpp vs vLLM: Ollama é MIT com instalação de um comando e API compatível com OpenAI; llama.cpp é o motor C++ fundamental com licença MIT; vLLM é a opção Apache 2.0 de serving multiusuário para implantações GPU.
Ollama vs llama.cpp vs vLLM: Ollama é MIT com instalação de um comando e API compatível com OpenAI; llama.cpp é o motor C++ fundamental com licença MIT; vLLM é a opção Apache 2.0 de serving multiusuário para implantações GPU.
Ver preços do RunPod e registrar-selink de produto · divulgadoVer preços do Vast.ai e registrar-selink de produto · divulgadoVer preços do Lambda Labs e registrar-selink de produto · divulgado

2. Aplicativos de desktop (GUI)

Os apps de desktop envolvem um runtime em uma interface de chat e um explorador de modelos. São onde a maioria dos usuários não técnicos começa porque não há etapa de terminal — baixar, clicar, conversar. LM Studio, Jan e GPT4All têm a maior parte da base de usuários em 2026.

FerramentaLinkDescriçãoLicença
LM Studiolmstudio.aiA GUI mais polida, explorador de modelos do HuggingFace integrado, modo servidorGrátis (fechado)
Janjan.aiClone offline do ChatGPT com foco em privacidade, totalmente open-sourceAGPL 3.0
GPT4Allnomic.ai/gpt4allAdequado para iniciantes com forte suporte de apenas CPUMIT
AnythingLLManythingllm.comRAG e chat de documentos com armazenamento vetorial integradoMIT
Mstymsty.appUX de consumidor limpa, suporte multi-provedorGrátis (fechado)
Cherry Studiocherry-ai.comIA de desktop multi-provedor com personalização extensivaAGPL 3.0
Backyard AIbackyard.aiCliente de desktop para chat de personagens e roleplayGrátis (fechado)
Enchantedgithub.com/AugustDev/enchantedCliente Ollama mínimo nativo de macOS/iOSApache 2.0
h2oGPTgithub.com/h2oai/h2ogptDesktop e servidor com muitos recursos enterpriseApache 2.0
Open Interpretergithub.com/OpenInterpreter/open-interpreterPermite que um LLM local controle seu computador e execute códigoAGPL 3.0

Guia mais detalhado: LM Studio vs Jan vs GPT4All

Ver preços do Mstylink de produto · divulgadoVer preços do AnythingLLM Cloudlink de produto · divulgado

3. Interfaces web e frontends de navegador

As interfaces web são clones do ChatGPT auto-hospedados — a mesma superfície conversacional, mas apontando para um runtime que roda na sua própria máquina ou LAN. O Open WebUI domina o segmento de self-hosting em 2026, com LibreChat como alternativa de recursos de equipe e SillyTavern como a interface dedicada ao roleplay.

FerramentaLinkDescriçãoLicença
Open WebUIopenwebui.comA interface auto-hospedada estilo ChatGPT mais popular, com RAG integradoBSD 3-Clause
LibreChatlibrechat.aiAlternativa ao ChatGPT multi-modelo com recursos de equipeMIT
text-generation-webuigithub.com/oobabooga/text-generation-webuiInterface para usuários avançados com extenso ecossistema de pluginsAGPL 3.0
SillyTaverngithub.com/SillyTavern/SillyTavernRoleplay e chat de personagens com lorebooksAGPL 3.0
LobeChatlobehub.comInterface moderna e polida com marketplace de pluginsMIT
Big-AGIgithub.com/enricoros/big-AGIFrontend multi-provedor avançado com personasMIT
NextChatgithub.com/ChatGPTNextWeb/NextChatChat web leve, implantação simplesMIT
Page Assistgithub.com/n4ze3m/page-assistIA na barra lateral do navegador para Chrome e FirefoxMIT
Chatboxchatboxai.appCliente multiplataforma de desktop e webGPLv3

Guia mais detalhado: SillyTavern vs Agnai vs RisuAI

4. Assistentes de código e integrações IDE

Os assistentes de código conectam um LLM local ao seu editor ou terminal via APIs compatíveis com OpenAI. A escolha depende principalmente do fluxo de trabalho: autocompletar no editor (Continue.dev), edições de agente autônomo (Cline, OpenHands) ou edições diff nativas de git no terminal (Aider).

FerramentaLinkDescriçãoLicença
Continue.devcontinue.devAutocompletar e chat no VS Code e JetBrains com modelos locaisApache 2.0
Aideraider.chatPair programmer em terminal com suporte de edição multi-arquivoApache 2.0
Clinecline.botAgente de código autônomo para VS CodeApache 2.0
Tabbytabby.tabbyml.comAlternativa auto-hospedada ao GitHub CopilotApache 2.0
CodeGPTcodegpt.coIntegrações IDE para múltiplos editoresMIT
OpenHandsgithub.com/All-Hands-AI/OpenHandsAgente desenvolvedor de software IA (anteriormente OpenDevin)MIT
Cursor (modo local)cursor.comEditor de código focado em IA com suporte para modelos locaisGrátis (fechado)
Twinnygithub.com/twinnydotdev/twinnyAlternativa gratuita ao Copilot para VS CodeMIT

Guia mais detalhado: Continue.dev vs Cline vs Aider

3 padrões de código com LLM local: Continue.dev para autocompletar inline no VS Code e JetBrains, Cline para edições autônomas de agente, e Aider para diffs em terminal nativos de git — todos se conectam ao Ollama via API compatível com OpenAI.
3 padrões de código com LLM local: Continue.dev para autocompletar inline no VS Code e JetBrains, Cline para edições autônomas de agente, e Aider para diffs em terminal nativos de git — todos se conectam ao Ollama via API compatível com OpenAI.
Ver preços do Cursorlink de produto · divulgado

5. Sistemas RAG e chat de documentos

Os sistemas RAG (Retrieval-Augmented Generation) combinam um LLM local com um modelo de embeddings e um armazenamento vetorial para que o modelo possa responder a partir dos seus próprios documentos. A divisão é entre apps plug-and-play (AnythingLLM, PrivateGPT, Quivr, Khoj) que "simplesmente funcionam" e bibliotecas de framework (LlamaIndex, Haystack, txtai) sobre as quais você pode construir.

FerramentaLinkDescriçãoLicença
AnythingLLManythingllm.comRAG pessoal tudo-em-um mais fácil, com espaços de trabalhoMIT
PrivateGPTgithub.com/zylon-ai/private-gptRAG completamente offline orientado a empresasApache 2.0
Quivrgithub.com/QuivrHQ/quivrAssistente de conhecimento pessoal auto-hospedadoApache 2.0
Khojkhoj.devSegundo cérebro IA pessoal, sincronizado com Obsidian e NotionAGPL 3.0
Difydify.aiConstrutor de fluxos de trabalho IA com suporte RAG e agentesModified Apache 2.0
Flowiseflowiseai.comConstrutor visual de fluxos de trabalho LangChainApache 2.0
Langflowlangflow.orgOrquestração visual de IA com componentes RAGMIT
LlamaIndexllamaindex.aiFramework RAG / biblioteca Python — base para desenvolvimentos personalizadosMIT
Haystackhaystack.deepset.aiFramework de busca e RAG pela deepsetApache 2.0
RAGFlowragflow.ioCompreensão profunda de documentos para RAG com extração de citaçõesApache 2.0
txtaigithub.com/neuml/txtaiBanco de dados vetorial + LLM integrado em uma única bibliotecaApache 2.0

Guia mais detalhado: AnythingLLM vs PrivateGPT vs Open WebUI

Divisão do RAG local: apps plug-and-play (AnythingLLM, PrivateGPT, Quivr, RAGFlow, Khoj) para chat de documentos sem código vs bibliotecas de framework (LlamaIndex, Haystack, Dify, Flowise, txtai) para construir pipelines personalizados.
Divisão do RAG local: apps plug-and-play (AnythingLLM, PrivateGPT, Quivr, RAGFlow, Khoj) para chat de documentos sem código vs bibliotecas de framework (LlamaIndex, Haystack, Dify, Flowise, txtai) para construir pipelines personalizados.

6. Frameworks de agentes e orquestração

Os frameworks de agentes convertem as chamadas de uma única etapa a um LLM em fluxos de trabalho de múltiplas etapas — planejar, agir, observar, repetir. O LangChain continua sendo o padrão de propósito geral; CrewAI e AutoGen se especializam em configurações multiagente baseadas em funções; LangGraph é a opção correta quando o gerenciamento de estado importa ao longo de fluxos de longa duração.

FerramentaLinkDescriçãoLicença
LangChainlangchain.comFramework de aplicações LLM de propósito geralMIT
LlamaIndexllamaindex.aiFramework de agentes e dados focado em RAGMIT
CrewAIcrewai.comFluxos de trabalho multiagente baseados em funçõesMIT
AutoGengithub.com/microsoft/autogenFramework de orquestração multiagente da MicrosoftCC-BY-4.0 / MIT
Semantic Kernellearn.microsoft.com/semantic-kernelSDK de orquestração enterprise da Microsoft em C#/Python/JavaMIT
LangGraphlangchain-ai.github.io/langgraphFluxos de trabalho de agentes baseados em grafos com estadoMIT
Letta (anteriormente MemGPT)letta.comAgentes com memória de longo prazoApache 2.0
Pydantic AIai.pydantic.devFramework de agentes com tipos seguros construído sobre PydanticMIT

Guia mais detalhado: Agentes IA locais com MCP

7. Voz, fala e multimodal

Os stacks de voz e multimodal estendem um LLM local além do texto — fala de entrada (STT), fala de saída (TTS) e visão. Whisper.cpp e faster-whisper são os proprietários da camada STT local; Piper e Coqui compartilham a camada TTS com XTTS v2 dominando a clonagem de voz; LLaVA e os modelos de visão do Ollama cobrem o lado visual.

FerramentaLinkDescriçãoLicença
Whisper.cppgithub.com/ggerganov/whisper.cppReconhecimento de voz local, funciona em CPU ou GPUMIT
faster-whispergithub.com/SYSTRAN/faster-whisperTranscrição rápida do Whisper via CTranslate2MIT
Piper TTSgithub.com/rhasspy/piperSíntese de texto para voz local leveMIT
Coqui TTSgithub.com/idiap/coqui-ai-TTSSíntese de voz open-source com múltiplas opções de modelosMPL 2.0
XTTS v2huggingface.co/coqui/XTTS-v2Clonagem de voz com suporte multilíngueCPML
Barkgithub.com/suno-ai/barkVoz generativa com sons que não são falaMIT
StyleTTS 2github.com/yl4579/StyleTTS2TTS de alta qualidade e som naturalMIT
LLaVAllava-vl.github.ioModelo local de visão + linguagemApache 2.0
Modelos de visão do Ollamaollama.comVisão local via Ollama (Llama 3.2 Vision, Llava, etc.)Vários

Guia mais detalhado: Construa um assistente de voz local no seu telefone

8. Clientes móveis e edge

Os clientes móveis executam um modelo quantizado diretamente no telefone usando Apple Neural Engine, Qualcomm NPU ou inferência pura de CPU. O projeto MLC LLM é a camada fundamental; os apps de consumo (PocketPal AI, Private LLM, LLM Farm, Layla) o envolvem com uma interface de chat. Telefones de alta gama em 2026 executam modelos 2–4B em velocidades úteis (8–15 tokens/s); 7B está no limite do factível para o hardware de mais alto nível.

FerramentaLinkDescriçãoLicença
MLC Chatmlc.ai/mlc-llmRuntime LLM móvel multiplataformaApache 2.0
PocketPal AIgithub.com/a-ghorbani/pocketpal-aiCliente LLM local gratuito para iOS e AndroidMIT
Private LLMprivatellm.appApp LLM local polida para iOS e macOSPago (fechado)
LLM Farmgithub.com/guinmoon/LLMFarmLLM local para iOS com explorador de modelosMIT
Laylalayla-network.aiApp LLM local orientada a AndroidGrátis (fechado)
Maidgithub.com/Mobile-Artificial-Intelligence/maidApp Flutter móvel open-source para LLMMIT
Enchantedgithub.com/AugustDev/enchantedCliente Ollama nativo de iOS/macOSApache 2.0
Chapperprevolut.ukCliente móvel nativo para Ollama e LM StudioGrátis
RikkaHubgithub.com/rikkahub/rikkahubIA local Android de código abertoMIT
AnythingLLM Mobileanythingllm.comAcesso remoto ao seu espaço de trabalho local do AnythingLLMMIT

Guia mais detalhado: Os melhores apps LLM local para iPhone em 2026

9. Ferramentas especializadas e de produtividade

As ferramentas especializadas integram LLMs locais em apps que você já usa — plataformas de anotação (Obsidian, Logseq, Joplin), agentes de tarefas autônomos (AutoGPT, BabyAGI, MetaGPT) e frontends de roleplay (Agnai, RisuAI).

FerramentaLinkDescriçãoLicença
Smart Connectionsgithub.com/brianpetro/obsidian-smart-connectionsPlugin de busca semântica e chat para ObsidianGPL 3.0
Copilot for Obsidiangithub.com/logancyang/obsidian-copilotPlugin de chat LLM local para ObsidianAGPL 3.0
Text Generatorgithub.com/nhaouari/obsidian-textgenerator-pluginPlugin de geração de conteúdo para ObsidianMIT
logseq-copilotgithub.com/logancyang/logseq-copilotPlugin do Logseq para chat LLM local e na nuvemAGPL 3.0
BMO Chatbotgithub.com/longy2k/obsidian-bmo-chatbotChatbot do Obsidian com LLM localMIT
Joplin AIjoplinapp.orgAnotações do Joplin com integrações de IA localMIT
AutoGPT (local)github.com/Significant-Gravitas/AutoGPTAgente de tarefas autônomo com suporte para OllamaMIT
BabyAGIgithub.com/yoheinakajima/babyagiAgente autônomo leveMIT
MetaGPTgithub.com/geekan/MetaGPTSimulação de empresa de software com múltiplos agentesMIT
Agnaiagnai.chatFrontend de roleplay com cartões de personagensMIT
RisuAIgithub.com/kwaroran/RisuAIFrontend de roleplay adaptado para mobileGPL 3.0

Guia mais detalhado: LLM local com Obsidian em 2026

Stacks comuns em produção

Para os leitores que não querem ler as nove categorias, escolha o stack mais próximo e copie-o. Cada linha emparelha um objetivo real com uma combinação testada e o hardware mínimo em que realmente funciona.

ObjetivoStackHardware mínimo
Chat casualLM Studio standalone16 GB RAM, sem GPU
Melhor equilíbrio para usuários avançadosOllama + Open WebUI16 GB RAM, GPU opcional
Chat de documentosOllama + AnythingLLM16 GB RAM, GPU opcional
CódigoOllama + Continue.dev16 GB RAM + GPU recomendada
Roleplay / criativoKoboldCpp + SillyTavern16 GB RAM, GPU recomendada
Empresa com privacidade em primeiro lugarOllama + Open WebUI + PrivateGPT32 GB RAM + 12 GB VRAM
Mobile / em movimentoMLC Chat ou PocketPal AIiPhone 13+ / Pixel 7+
Apple SiliconOllama (backend MLX) ou LM StudioM2/M3/M4/M5 com 16+ GB unificada
Equipe multiusuáriovLLM + Open WebUI32+ GB RAM + multi-GPU
9 stacks LLM locais comuns por objetivo: desde LM Studio standalone (16 GB RAM, sem GPU) até vLLM + Open WebUI para equipes multiusuário (32 GB RAM + multi-GPU), com Ollama + Open WebUI como o melhor equilíbrio por padrão com 16 GB RAM.
9 stacks LLM locais comuns por objetivo: desde LM Studio standalone (16 GB RAM, sem GPU) até vLLM + Open WebUI para equipes multiusuário (32 GB RAM + multi-GPU), com Ollama + Open WebUI como o melhor equilíbrio por padrão com 16 GB RAM.

Como este diretório se mantém atualizado

Este diretório é revisado a cada seis meses — última revisão em junho de 2026, próxima atualização em novembro de 2026. A revisão de junho de 2026 reverificou todos os links e corrigiu vários nomes de projetos e licenças: Faraday agora é Backyard AI, o fork mantido do Coqui TTS é hospedado pela Idiap e o Cherry Studio é AGPL 3.0. Critérios de inclusão: o projeto está em manutenção ativa (commits nos últimos 90 dias), tem uma licença open-source verificável ou uma declaração clara de uso comercial, e ou tem uma participação de usuários significativa em 2026 ou preenche uma camada que de outra forma estaria vazia. Os projetos que ficam inativos por mais de dois ciclos de versão são removidos; os novos participantes que atendem aos critérios são adicionados na próxima revisão. Para sugerir um projeto para inclusão, abra um issue ou PR contra o repositório do PromptQuorum — inclua a URL do projeto, a licença e uma descrição de uma sentença no formato acima.

Fontes

FAQ

Qual é a diferença entre um runtime LLM local e um app de desktop?

Um runtime (Ollama, llama.cpp, vLLM) é o motor que carrega os pesos do modelo e serve uma API — tipicamente compatível com OpenAI. Um app de desktop (LM Studio, Jan, GPT4All) é uma interface de chat que chama um runtime por trás. Algumas apps incluem seu próprio runtime (LM Studio incorpora llama.cpp), outras requerem que você instale um runtime separadamente (Open WebUI chama o Ollama). O runtime decide o que é possível; o app decide o que é conveniente.

Posso usar várias ferramentas desta lista ao mesmo tempo?

Sim — a maioria dos stacks combina 2–4 ferramentas. Uma configuração comum: Ollama como runtime, Open WebUI para chat, AnythingLLM para chat de documentos e Continue.dev para código — as quatro funcionam com a mesma instância do Ollama em uma única máquina. A tabela "Stacks comuns em produção" acima lista as receitas que funcionam sem conflito.

Quais ferramentas funcionam completamente offline sem telemetria?

Ollama, llama.cpp, vLLM, Jan, GPT4All, Open WebUI, AnythingLLM, PrivateGPT, Continue.dev, Aider, KoboldCpp, Llamafile, MLX-LM e a maioria dos apps com licença AGPL/MIT deste diretório funcionam completamente offline uma vez baixado o modelo. LM Studio e várias ferramentas de código fechado têm análises opcionais que podem ser desativadas nas configurações.

Alguma dessas ferramentas tem licença comercial (não gratuita para uso comercial)?

Algumas: LM Studio, Msty, Backyard AI, Layla e Cursor são de código fechado — geralmente gratuitas para usar mas não redistribuíveis, e os termos comerciais variam. Private LLM é pago. As ferramentas com licença AGPL (Jan, KoboldCpp, text-generation-webui, SillyTavern, Khoj, Open Interpreter, Copilot for Obsidian) são gratuitas para qualquer uso incluindo comercial, mas os termos AGPL exigem divulgar o código-fonte se você as modificar e hospedar publicamente. Os projetos Apache 2.0 e MIT (a maioria) são utilizáveis em qualquer contexto incluindo comercial sem restrições de atribuição além do texto da licença.

Quais ferramentas suportam Apple Silicon (chips da série M) nativamente?

Ollama, llama.cpp, MLX-LM, LM Studio, Jan, Enchanted, GPT4All, MLC Chat, AnythingLLM e a maioria dos apps Electron/Tauri funcionam nativamente no Apple Silicon e usam o backend Metal. MLX-LM é específico da Apple e o mais rápido para modelos grandes em chips M-series. vLLM, TensorRT-LLM e ExLlamaV2 estão focados na NVIDIA e não funcionam ou funcionam mal no Apple Silicon.

Todas essas ferramentas suportam o formato de modelo GGUF?

GGUF é o formato nativo do llama.cpp e qualquer ferramenta que o envolva (Ollama, LM Studio, Jan, GPT4All, KoboldCpp, Llamafile). vLLM e TensorRT-LLM usam seus próprios formatos otimizados (tipicamente AWQ ou FP16) para maior desempenho. ExLlamaV2 usa quantização EXL2. MLX-LM usa pesos convertidos para MLX. A maioria das ferramentas listadas aceita GGUF; algumas (vLLM, TensorRT-LLM, ExLlamaV2, MLX-LM) requerem uma etapa de conversão única a partir dos pesos originais do Hugging Face.

Quais ferramentas são melhores para usuários sem experiência em código?

GPT4All tem a instalação mais simples (um clique, funciona com 8 GB RAM). LM Studio é a mais completa em recursos sem precisar de terminal. Jan é a opção sem código mais focada em privacidade. Para chat de documentos sem trabalho na linha de comando, AnythingLLM é a mais fácil. As quatro estão listadas na categoria de Aplicativos de desktop (GUI) acima.

Posso executar essas ferramentas em um servidor e acessá-las remotamente?

A maioria das ferramentas com capacidade de servidor (Ollama, vLLM, LocalAI, Open WebUI, LibreChat, PrivateGPT, AnythingLLM) expõe uma API HTTP e se vincula a uma interface de rede configurável nas configurações. Padrão padrão: executar o Ollama em um servidor doméstico ou VPS, executar uma interface no seu laptop ou telefone apontando para o IP do servidor. Trate a API como qualquer serviço web — vincular ao localhost por trás de um proxy reverso, ou a uma rede privada com autenticação adequada.

Quais ferramentas suportam configurações multiusuário / de equipe?

Open WebUI, LibreChat, h2oGPT, AnythingLLM (com recursos de administrador habilitados) e Dify são projetados para uso multiusuário, com controle de acesso baseado em funções e histórico de conversas por usuário. vLLM é a camada de serving correta por baixo quando a inferência concorrente importa — ele agrupa solicitações de múltiplos usuários para um desempenho inatingível com Ollama em concorrência acima de ~3.

Com que frequência este diretório é atualizado?

A cada seis meses — última revisão em junho de 2026, a próxima atualização programada é em novembro de 2026. As mudanças intermediárias (um projeto fica inativo, uma nova ferramenta ganha participação significativa, uma licença muda) são aplicadas como patches à entrada existente. Categorias ou camadas completamente novas aguardam uma revisão para manter a estrutura estável.

← Voltar para Power Local LLM

Ferramentas LLM local 2026: 87 apps + últimas novidades