Quais são as melhores ferramentas LLM local para executar IA no meu próprio hardware em 2026?

Comece com um runtime — Ollama é o caminho mais rápido para quase todo mundo, llama.cpp se você quer o controle de mais baixo nível, vLLM se precisa servir múltiplos usuários. Adicione um app de desktop (LM Studio, Jan, GPT4All) ou interface web (Open WebUI, LibreChat) para o chat. Adicione um assistente de código (Continue.dev, Cline, Aider) se quiser autocompletar e chat no seu IDE. Adicione um sistema RAG (AnythingLLM, PrivateGPT, RAG integrado do Open WebUI) se quiser conversar com seus próprios documentos. Além disso, o catálogo cobre frameworks de agentes, voz e multimodal, clientes mobile e integrações com Obsidian/Logseq. O diretório completo abaixo lista 87 projetos com licenças e URLs principais.

Início/Power Local LLM/O diretório completo de software LLM local: 70+ ferramentas para executar IA no seu próprio hardware (2026)

Overview & Reference

O diretório completo de software LLM local: 70+ ferramentas para executar IA no seu próprio hardware (2026)

Última atualização: 2026-06-03·20 min de leitura·Por Hans Kuepper · Fundador do PromptQuorum, ferramenta de despacho multi-modelo de IA · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt

O ecossistema de LLM local em 2026 se divide claramente em nove camadas. Os runtimes (Ollama, llama.cpp, vLLM) processam tokens pelo modelo; os apps de desktop (LM Studio, Jan, GPT4All) envolvem um runtime em uma interface de chat; as interfaces web (Open WebUI, LibreChat) fazem o mesmo no navegador; os assistentes de código (Continue.dev, Cline, Aider) conectam um modelo local ao seu editor; os sistemas RAG (AnythingLLM, PrivateGPT) o apontam para seus documentos; os frameworks de agentes (LangChain, CrewAI, LangGraph) encadeiam chamadas em fluxos de trabalho de múltiplas etapas; os stacks de voz e multimodal (Whisper.cpp, Piper, LLaVA) o estendem além do texto; os clientes móveis (MLC Chat, PocketPal AI) o levam ao telefone; e os plugins de produtividade especializados (Obsidian, Logseq, AutoGPT) o integram às ferramentas que você já usa.**

O ecossistema de LLM local em 2026 é suficientemente amplo para que escolher a ferramenta errada no início custe horas, não minutos. Este diretório cataloga 87 projetos em manutenção ativa em nove camadas — runtimes, aplicativos de desktop, interfaces web, assistentes de código, sistemas RAG, frameworks de agentes, voz e multimodal, clientes móveis e plugins de produtividade especializados — com descrição, licença e URL principal para cada um. Use-o como o mapa de "o que existe" antes de se comprometer com um stack; cada categoria termina com um link para o guia de comparação mais detalhado do PromptQuorum para essa camada.

Esta página contém links de referência para produtos de terceiros. O PromptQuorum não está inscrito em nenhum programa de afiliados — são links simples que não geram comissão. Clicar nos links e os próximos passos são de sua inteira responsabilidade. Estes links não representam qualquer endosso ou verificação por parte do PromptQuorum.

Apresentação: O diretório completo de software LLM local: 70+ ferramentas para executar IA no seu próprio hardware (2026)

A apresentação cobre: uma visão geral do stack LLM local em 9 camadas (de runtimes a plugins especializados); tabelas de comparação de 6 ferramentas para runtimes (Ollama/llama.cpp/vLLM/LocalAI/ExLlamaV2/MLX-LM), apps de desktop, interfaces web, assistentes de código, sistemas RAG e frameworks de agentes; uma tabela de stacks do mundo real de 9 linhas (objetivo, stack, hardware mínimo); um guia de seleção de stack em 5 passos; e FAQ. Baixe o PDF como cartão de referência do diretório de software LLM local.

Navegue pelos slides abaixo ou baixe em PDF para referência offline. Baixar cartão de referência (PDF)

Principais conclusões

Nove camadas, 87 projetos, um mapa. Runtimes, apps de desktop, interfaces web, assistentes de código, sistemas RAG, frameworks de agentes, voz/multimodal, clientes móveis e plugins de produtividade especializados — quase todos os projetos populares de 2026 se encaixam exatamente em uma camada.
Escolha primeiro um runtime. Ollama é a opção padrão adequada para ~95% dos leitores; llama.cpp é o motor fundamental por trás da maioria das outras ferramentas; vLLM é a opção de produção para implantações multiusuário em GPU real.
A maioria das camadas acima do runtime são opcionais. Um app de desktop OU uma interface web é suficiente para o chat. Adicione um assistente de código apenas quando quiser integração IDE; adicione um sistema RAG apenas quando quiser conversar com seus próprios documentos; adicione um framework de agentes apenas quando as chamadas de uma única etapa deixarem de ser suficientes.
A licença importa para uso comercial. MIT e Apache 2.0 dominam o ecossistema. AGPL aparece em algumas interfaces (text-generation-webui, KoboldCpp, Jan, SillyTavern) — perfeito para uso pessoal, mais deliberado para implantações comerciais.
Os stacks de múltiplas ferramentas são a norma. Ollama + Open WebUI + AnythingLLM + Continue.dev é uma configuração de uma única máquina que cobre chat, RAG e código sem compromisso.

As 9 camadas de um stack LLM local: 87 projetos em manutenção ativa abrangendo runtimes (Ollama, llama.cpp, vLLM), apps de desktop (LM Studio, Jan, GPT4All), interfaces web, assistentes de código, sistemas RAG, frameworks de agentes, voz e multimodal, clientes móveis e ferramentas de produtividade especializadas.

1. Runtimes e motores de inferência LLM local

Um runtime é o motor que carrega os pesos do modelo na memória e converte prompts em tokens. É a primeira decisão em um stack LLM local e a que condiciona tudo que está acima — cada app de desktop, interface web e assistente de código chama em última instância um runtime. O Ollama domina a participação de mercado orientada ao usuário em 2026 porque inclui uma API compatível com OpenAI e uma instalação de um único comando; o llama.cpp é o motor C++ que sustenta a maioria das outras ferramentas; o vLLM é a opção adequada quando você precisa atender usuários concorrentes em uma GPU real.

Ferramenta	Link	Descrição	Licença
Ollama	ollama.com	O mais fácil em geral — instalação de um comando, API compatível com OpenAI, enorme biblioteca de modelos	MIT
llama.cpp	github.com/ggml-org/llama.cpp	Motor C++ fundamental por trás da maioria das outras ferramentas, funciona em qualquer lugar incluindo Apple Silicon	MIT
vLLM	github.com/vllm-project/vllm	Serving de alto desempenho para implantações GPU multiusuário	Apache 2.0
LocalAI	localai.io	Substituto drop-in da API OpenAI que suporta múltiplos backends	MIT
TensorRT-LLM	github.com/NVIDIA/TensorRT-LLM	Inferência otimizada pela NVIDIA para configurações GPU enterprise	Apache 2.0
MLC LLM	mlc.ai/mlc-llm	Runtime de implantação para dispositivos móveis e edge	Apache 2.0
SGLang	github.com/sgl-project/sglang	Serving de inferência estruturada para pipelines de agentes	Apache 2.0
ExLlamaV2	github.com/turboderp-org/exllamav2	Inferência quantizada rápida otimizada para GPUs RTX	MIT
KoboldCpp	github.com/LostRuins/koboldcpp	Wrapper leve de llama.cpp com interface integrada	AGPL 3.0
Llamafile	github.com/Mozilla-Ocho/llamafile	Execução LLM portátil em um único arquivo pela Mozilla	Apache 2.0
MLX-LM	github.com/ml-explore/mlx-examples	Runtime nativo do Apple Silicon pela Apple Research	MIT

Guia mais detalhado: llama.cpp vs Ollama vs vLLM

Ollama vs llama.cpp vs vLLM: Ollama é MIT com instalação de um comando e API compatível com OpenAI; llama.cpp é o motor C++ fundamental com licença MIT; vLLM é a opção Apache 2.0 de serving multiusuário para implantações GPU.

Ver preços do RunPod e registrar-selink de produto · divulgadoVer preços do Vast.ai e registrar-selink de produto · divulgadoVer preços do Lambda Labs e registrar-selink de produto · divulgado

2. Aplicativos de desktop (GUI)

Os apps de desktop envolvem um runtime em uma interface de chat e um explorador de modelos. São onde a maioria dos usuários não técnicos começa porque não há etapa de terminal — baixar, clicar, conversar. LM Studio, Jan e GPT4All têm a maior parte da base de usuários em 2026.

Ferramenta	Link	Descrição	Licença
LM Studio	lmstudio.ai	A GUI mais polida, explorador de modelos do HuggingFace integrado, modo servidor	Grátis (fechado)
Jan	jan.ai	Clone offline do ChatGPT com foco em privacidade, totalmente open-source	AGPL 3.0
GPT4All	nomic.ai/gpt4all	Adequado para iniciantes com forte suporte de apenas CPU	MIT
AnythingLLM	anythingllm.com	RAG e chat de documentos com armazenamento vetorial integrado	MIT
Msty	msty.app	UX de consumidor limpa, suporte multi-provedor	Grátis (fechado)
Cherry Studio	cherry-ai.com	IA de desktop multi-provedor com personalização extensiva	AGPL 3.0
Backyard AI	backyard.ai	Cliente de desktop para chat de personagens e roleplay	Grátis (fechado)
Enchanted	github.com/AugustDev/enchanted	Cliente Ollama mínimo nativo de macOS/iOS	Apache 2.0
h2oGPT	github.com/h2oai/h2ogpt	Desktop e servidor com muitos recursos enterprise	Apache 2.0
Open Interpreter	github.com/OpenInterpreter/open-interpreter	Permite que um LLM local controle seu computador e execute código	AGPL 3.0

Guia mais detalhado: LM Studio vs Jan vs GPT4All

Ver preços do Mstylink de produto · divulgadoVer preços do AnythingLLM Cloudlink de produto · divulgado

3. Interfaces web e frontends de navegador

As interfaces web são clones do ChatGPT auto-hospedados — a mesma superfície conversacional, mas apontando para um runtime que roda na sua própria máquina ou LAN. O Open WebUI domina o segmento de self-hosting em 2026, com LibreChat como alternativa de recursos de equipe e SillyTavern como a interface dedicada ao roleplay.

Ferramenta	Link	Descrição	Licença
Open WebUI	openwebui.com	A interface auto-hospedada estilo ChatGPT mais popular, com RAG integrado	BSD 3-Clause
LibreChat	librechat.ai	Alternativa ao ChatGPT multi-modelo com recursos de equipe	MIT
text-generation-webui	github.com/oobabooga/text-generation-webui	Interface para usuários avançados com extenso ecossistema de plugins	AGPL 3.0
SillyTavern	github.com/SillyTavern/SillyTavern	Roleplay e chat de personagens com lorebooks	AGPL 3.0
LobeChat	lobehub.com	Interface moderna e polida com marketplace de plugins	MIT
Big-AGI	github.com/enricoros/big-AGI	Frontend multi-provedor avançado com personas	MIT
NextChat	github.com/ChatGPTNextWeb/NextChat	Chat web leve, implantação simples	MIT
Page Assist	github.com/n4ze3m/page-assist	IA na barra lateral do navegador para Chrome e Firefox	MIT
Chatbox	chatboxai.app	Cliente multiplataforma de desktop e web	GPLv3

Guia mais detalhado: SillyTavern vs Agnai vs RisuAI

4. Assistentes de código e integrações IDE

Os assistentes de código conectam um LLM local ao seu editor ou terminal via APIs compatíveis com OpenAI. A escolha depende principalmente do fluxo de trabalho: autocompletar no editor (Continue.dev), edições de agente autônomo (Cline, OpenHands) ou edições diff nativas de git no terminal (Aider).

Ferramenta	Link	Descrição	Licença
Continue.dev	continue.dev	Autocompletar e chat no VS Code e JetBrains com modelos locais	Apache 2.0
Aider	aider.chat	Pair programmer em terminal com suporte de edição multi-arquivo	Apache 2.0
Cline	cline.bot	Agente de código autônomo para VS Code	Apache 2.0
Tabby	tabby.tabbyml.com	Alternativa auto-hospedada ao GitHub Copilot	Apache 2.0
CodeGPT	codegpt.co	Integrações IDE para múltiplos editores	MIT
OpenHands	github.com/All-Hands-AI/OpenHands	Agente desenvolvedor de software IA (anteriormente OpenDevin)	MIT
Cursor (modo local)	cursor.com	Editor de código focado em IA com suporte para modelos locais	Grátis (fechado)
Twinny	github.com/twinnydotdev/twinny	Alternativa gratuita ao Copilot para VS Code	MIT

Guia mais detalhado: Continue.dev vs Cline vs Aider

3 padrões de código com LLM local: Continue.dev para autocompletar inline no VS Code e JetBrains, Cline para edições autônomas de agente, e Aider para diffs em terminal nativos de git — todos se conectam ao Ollama via API compatível com OpenAI.

Ver preços do Cursorlink de produto · divulgado

5. Sistemas RAG e chat de documentos

Os sistemas RAG (Retrieval-Augmented Generation) combinam um LLM local com um modelo de embeddings e um armazenamento vetorial para que o modelo possa responder a partir dos seus próprios documentos. A divisão é entre apps plug-and-play (AnythingLLM, PrivateGPT, Quivr, Khoj) que "simplesmente funcionam" e bibliotecas de framework (LlamaIndex, Haystack, txtai) sobre as quais você pode construir.

Ferramenta	Link	Descrição	Licença
AnythingLLM	anythingllm.com	RAG pessoal tudo-em-um mais fácil, com espaços de trabalho	MIT
PrivateGPT	github.com/zylon-ai/private-gpt	RAG completamente offline orientado a empresas	Apache 2.0
Quivr	github.com/QuivrHQ/quivr	Assistente de conhecimento pessoal auto-hospedado	Apache 2.0
Khoj	khoj.dev	Segundo cérebro IA pessoal, sincronizado com Obsidian e Notion	AGPL 3.0
Dify	dify.ai	Construtor de fluxos de trabalho IA com suporte RAG e agentes	Modified Apache 2.0
Flowise	flowiseai.com	Construtor visual de fluxos de trabalho LangChain	Apache 2.0
Langflow	langflow.org	Orquestração visual de IA com componentes RAG	MIT
LlamaIndex	llamaindex.ai	Framework RAG / biblioteca Python — base para desenvolvimentos personalizados	MIT
Haystack	haystack.deepset.ai	Framework de busca e RAG pela deepset	Apache 2.0
RAGFlow	ragflow.io	Compreensão profunda de documentos para RAG com extração de citações	Apache 2.0
txtai	github.com/neuml/txtai	Banco de dados vetorial + LLM integrado em uma única biblioteca	Apache 2.0

Guia mais detalhado: AnythingLLM vs PrivateGPT vs Open WebUI

Divisão do RAG local: apps plug-and-play (AnythingLLM, PrivateGPT, Quivr, RAGFlow, Khoj) para chat de documentos sem código vs bibliotecas de framework (LlamaIndex, Haystack, Dify, Flowise, txtai) para construir pipelines personalizados.

6. Frameworks de agentes e orquestração

Os frameworks de agentes convertem as chamadas de uma única etapa a um LLM em fluxos de trabalho de múltiplas etapas — planejar, agir, observar, repetir. O LangChain continua sendo o padrão de propósito geral; CrewAI e AutoGen se especializam em configurações multiagente baseadas em funções; LangGraph é a opção correta quando o gerenciamento de estado importa ao longo de fluxos de longa duração.

Ferramenta	Link	Descrição	Licença
LangChain	langchain.com	Framework de aplicações LLM de propósito geral	MIT
LlamaIndex	llamaindex.ai	Framework de agentes e dados focado em RAG	MIT
CrewAI	crewai.com	Fluxos de trabalho multiagente baseados em funções	MIT
AutoGen	github.com/microsoft/autogen	Framework de orquestração multiagente da Microsoft	CC-BY-4.0 / MIT
Semantic Kernel	learn.microsoft.com/semantic-kernel	SDK de orquestração enterprise da Microsoft em C#/Python/Java	MIT
LangGraph	langchain-ai.github.io/langgraph	Fluxos de trabalho de agentes baseados em grafos com estado	MIT
Letta (anteriormente MemGPT)	letta.com	Agentes com memória de longo prazo	Apache 2.0
Pydantic AI	ai.pydantic.dev	Framework de agentes com tipos seguros construído sobre Pydantic	MIT

Guia mais detalhado: Agentes IA locais com MCP

7. Voz, fala e multimodal

Os stacks de voz e multimodal estendem um LLM local além do texto — fala de entrada (STT), fala de saída (TTS) e visão. Whisper.cpp e faster-whisper são os proprietários da camada STT local; Piper e Coqui compartilham a camada TTS com XTTS v2 dominando a clonagem de voz; LLaVA e os modelos de visão do Ollama cobrem o lado visual.

Ferramenta	Link	Descrição	Licença
Whisper.cpp	github.com/ggerganov/whisper.cpp	Reconhecimento de voz local, funciona em CPU ou GPU	MIT
faster-whisper	github.com/SYSTRAN/faster-whisper	Transcrição rápida do Whisper via CTranslate2	MIT
Piper TTS	github.com/rhasspy/piper	Síntese de texto para voz local leve	MIT
Coqui TTS	github.com/idiap/coqui-ai-TTS	Síntese de voz open-source com múltiplas opções de modelos	MPL 2.0
XTTS v2	huggingface.co/coqui/XTTS-v2	Clonagem de voz com suporte multilíngue	CPML
Bark	github.com/suno-ai/bark	Voz generativa com sons que não são fala	MIT
StyleTTS 2	github.com/yl4579/StyleTTS2	TTS de alta qualidade e som natural	MIT
LLaVA	llava-vl.github.io	Modelo local de visão + linguagem	Apache 2.0
Modelos de visão do Ollama	ollama.com	Visão local via Ollama (Llama 3.2 Vision, Llava, etc.)	Vários

Guia mais detalhado: Construa um assistente de voz local no seu telefone

8. Clientes móveis e edge

Os clientes móveis executam um modelo quantizado diretamente no telefone usando Apple Neural Engine, Qualcomm NPU ou inferência pura de CPU. O projeto MLC LLM é a camada fundamental; os apps de consumo (PocketPal AI, Private LLM, LLM Farm, Layla) o envolvem com uma interface de chat. Telefones de alta gama em 2026 executam modelos 2–4B em velocidades úteis (8–15 tokens/s); 7B está no limite do factível para o hardware de mais alto nível.

Ferramenta	Link	Descrição	Licença
MLC Chat	mlc.ai/mlc-llm	Runtime LLM móvel multiplataforma	Apache 2.0
PocketPal AI	github.com/a-ghorbani/pocketpal-ai	Cliente LLM local gratuito para iOS e Android	MIT
Private LLM	privatellm.app	App LLM local polida para iOS e macOS	Pago (fechado)
LLM Farm	github.com/guinmoon/LLMFarm	LLM local para iOS com explorador de modelos	MIT
Layla	layla-network.ai	App LLM local orientada a Android	Grátis (fechado)
Maid	github.com/Mobile-Artificial-Intelligence/maid	App Flutter móvel open-source para LLM	MIT
Enchanted	github.com/AugustDev/enchanted	Cliente Ollama nativo de iOS/macOS	Apache 2.0
Chapper	prevolut.uk	Cliente móvel nativo para Ollama e LM Studio	Grátis
RikkaHub	github.com/rikkahub/rikkahub	IA local Android de código aberto	MIT
AnythingLLM Mobile	anythingllm.com	Acesso remoto ao seu espaço de trabalho local do AnythingLLM	MIT

Guia mais detalhado: Os melhores apps LLM local para iPhone em 2026

9. Ferramentas especializadas e de produtividade

As ferramentas especializadas integram LLMs locais em apps que você já usa — plataformas de anotação (Obsidian, Logseq, Joplin), agentes de tarefas autônomos (AutoGPT, BabyAGI, MetaGPT) e frontends de roleplay (Agnai, RisuAI).

Ferramenta	Link	Descrição	Licença
Smart Connections	github.com/brianpetro/obsidian-smart-connections	Plugin de busca semântica e chat para Obsidian	GPL 3.0
Copilot for Obsidian	github.com/logancyang/obsidian-copilot	Plugin de chat LLM local para Obsidian	AGPL 3.0
Text Generator	github.com/nhaouari/obsidian-textgenerator-plugin	Plugin de geração de conteúdo para Obsidian	MIT
logseq-copilot	github.com/logancyang/logseq-copilot	Plugin do Logseq para chat LLM local e na nuvem	AGPL 3.0
BMO Chatbot	github.com/longy2k/obsidian-bmo-chatbot	Chatbot do Obsidian com LLM local	MIT
Joplin AI	joplinapp.org	Anotações do Joplin com integrações de IA local	MIT
AutoGPT (local)	github.com/Significant-Gravitas/AutoGPT	Agente de tarefas autônomo com suporte para Ollama	MIT
BabyAGI	github.com/yoheinakajima/babyagi	Agente autônomo leve	MIT
MetaGPT	github.com/geekan/MetaGPT	Simulação de empresa de software com múltiplos agentes	MIT
Agnai	agnai.chat	Frontend de roleplay com cartões de personagens	MIT
RisuAI	github.com/kwaroran/RisuAI	Frontend de roleplay adaptado para mobile	GPL 3.0

Guia mais detalhado: LLM local com Obsidian em 2026

Stacks comuns em produção

Para os leitores que não querem ler as nove categorias, escolha o stack mais próximo e copie-o. Cada linha emparelha um objetivo real com uma combinação testada e o hardware mínimo em que realmente funciona.

Objetivo	Stack	Hardware mínimo
Chat casual	LM Studio standalone	16 GB RAM, sem GPU
Melhor equilíbrio para usuários avançados	Ollama + Open WebUI	16 GB RAM, GPU opcional
Chat de documentos	Ollama + AnythingLLM	16 GB RAM, GPU opcional
Código	Ollama + Continue.dev	16 GB RAM + GPU recomendada
Roleplay / criativo	KoboldCpp + SillyTavern	16 GB RAM, GPU recomendada
Empresa com privacidade em primeiro lugar	Ollama + Open WebUI + PrivateGPT	32 GB RAM + 12 GB VRAM
Mobile / em movimento	MLC Chat ou PocketPal AI	iPhone 13+ / Pixel 7+
Apple Silicon	Ollama (backend MLX) ou LM Studio	M2/M3/M4/M5 com 16+ GB unificada
Equipe multiusuário	vLLM + Open WebUI	32+ GB RAM + multi-GPU

9 stacks LLM locais comuns por objetivo: desde LM Studio standalone (16 GB RAM, sem GPU) até vLLM + Open WebUI para equipes multiusuário (32 GB RAM + multi-GPU), com Ollama + Open WebUI como o melhor equilíbrio por padrão com 16 GB RAM.

Como este diretório se mantém atualizado

Este diretório é revisado a cada seis meses — última revisão em junho de 2026, próxima atualização em novembro de 2026. A revisão de junho de 2026 reverificou todos os links e corrigiu vários nomes de projetos e licenças: Faraday agora é Backyard AI, o fork mantido do Coqui TTS é hospedado pela Idiap e o Cherry Studio é AGPL 3.0. Critérios de inclusão: o projeto está em manutenção ativa (commits nos últimos 90 dias), tem uma licença open-source verificável ou uma declaração clara de uso comercial, e ou tem uma participação de usuários significativa em 2026 ou preenche uma camada que de outra forma estaria vazia. Os projetos que ficam inativos por mais de dois ciclos de versão são removidos; os novos participantes que atendem aos critérios são adicionados na próxima revisão. Para sugerir um projeto para inclusão, abra um issue ou PR contra o repositório do PromptQuorum — inclua a URL do projeto, a licença e uma descrição de uma sentença no formato acima.

Fontes

ggml-org/llama.cpp GitHub — fonte principal para a arquitetura do runtime e os modelos compatíveis.
Ollama Library — catálogo oficial de modelos e documentação do runtime.
LM Studio Documentation — referência de recursos para a GUI de desktop dominante.
Open WebUI Documentation — referência de recursos para a interface web auto-hospedada dominante.
Hugging Face Hub — localização principal para baixar os pesos de modelos consumidos por cada runtime listado acima.
awesome-local-llm GitHub list — inventário mantido pela comunidade usado como verificação da inclusão de projetos.

FAQ

Qual é a diferença entre um runtime LLM local e um app de desktop?

Um runtime (Ollama, llama.cpp, vLLM) é o motor que carrega os pesos do modelo e serve uma API — tipicamente compatível com OpenAI. Um app de desktop (LM Studio, Jan, GPT4All) é uma interface de chat que chama um runtime por trás. Algumas apps incluem seu próprio runtime (LM Studio incorpora llama.cpp), outras requerem que você instale um runtime separadamente (Open WebUI chama o Ollama). O runtime decide o que é possível; o app decide o que é conveniente.

Posso usar várias ferramentas desta lista ao mesmo tempo?

Sim — a maioria dos stacks combina 2–4 ferramentas. Uma configuração comum: Ollama como runtime, Open WebUI para chat, AnythingLLM para chat de documentos e Continue.dev para código — as quatro funcionam com a mesma instância do Ollama em uma única máquina. A tabela "Stacks comuns em produção" acima lista as receitas que funcionam sem conflito.

Quais ferramentas funcionam completamente offline sem telemetria?

Ollama, llama.cpp, vLLM, Jan, GPT4All, Open WebUI, AnythingLLM, PrivateGPT, Continue.dev, Aider, KoboldCpp, Llamafile, MLX-LM e a maioria dos apps com licença AGPL/MIT deste diretório funcionam completamente offline uma vez baixado o modelo. LM Studio e várias ferramentas de código fechado têm análises opcionais que podem ser desativadas nas configurações.

Alguma dessas ferramentas tem licença comercial (não gratuita para uso comercial)?

Algumas: LM Studio, Msty, Backyard AI, Layla e Cursor são de código fechado — geralmente gratuitas para usar mas não redistribuíveis, e os termos comerciais variam. Private LLM é pago. As ferramentas com licença AGPL (Jan, KoboldCpp, text-generation-webui, SillyTavern, Khoj, Open Interpreter, Copilot for Obsidian) são gratuitas para qualquer uso incluindo comercial, mas os termos AGPL exigem divulgar o código-fonte se você as modificar e hospedar publicamente. Os projetos Apache 2.0 e MIT (a maioria) são utilizáveis em qualquer contexto incluindo comercial sem restrições de atribuição além do texto da licença.

Quais ferramentas suportam Apple Silicon (chips da série M) nativamente?

Ollama, llama.cpp, MLX-LM, LM Studio, Jan, Enchanted, GPT4All, MLC Chat, AnythingLLM e a maioria dos apps Electron/Tauri funcionam nativamente no Apple Silicon e usam o backend Metal. MLX-LM é específico da Apple e o mais rápido para modelos grandes em chips M-series. vLLM, TensorRT-LLM e ExLlamaV2 estão focados na NVIDIA e não funcionam ou funcionam mal no Apple Silicon.

Todas essas ferramentas suportam o formato de modelo GGUF?

GGUF é o formato nativo do llama.cpp e qualquer ferramenta que o envolva (Ollama, LM Studio, Jan, GPT4All, KoboldCpp, Llamafile). vLLM e TensorRT-LLM usam seus próprios formatos otimizados (tipicamente AWQ ou FP16) para maior desempenho. ExLlamaV2 usa quantização EXL2. MLX-LM usa pesos convertidos para MLX. A maioria das ferramentas listadas aceita GGUF; algumas (vLLM, TensorRT-LLM, ExLlamaV2, MLX-LM) requerem uma etapa de conversão única a partir dos pesos originais do Hugging Face.

Quais ferramentas são melhores para usuários sem experiência em código?

GPT4All tem a instalação mais simples (um clique, funciona com 8 GB RAM). LM Studio é a mais completa em recursos sem precisar de terminal. Jan é a opção sem código mais focada em privacidade. Para chat de documentos sem trabalho na linha de comando, AnythingLLM é a mais fácil. As quatro estão listadas na categoria de Aplicativos de desktop (GUI) acima.

Posso executar essas ferramentas em um servidor e acessá-las remotamente?

A maioria das ferramentas com capacidade de servidor (Ollama, vLLM, LocalAI, Open WebUI, LibreChat, PrivateGPT, AnythingLLM) expõe uma API HTTP e se vincula a uma interface de rede configurável nas configurações. Padrão padrão: executar o Ollama em um servidor doméstico ou VPS, executar uma interface no seu laptop ou telefone apontando para o IP do servidor. Trate a API como qualquer serviço web — vincular ao localhost por trás de um proxy reverso, ou a uma rede privada com autenticação adequada.

Quais ferramentas suportam configurações multiusuário / de equipe?

Open WebUI, LibreChat, h2oGPT, AnythingLLM (com recursos de administrador habilitados) e Dify são projetados para uso multiusuário, com controle de acesso baseado em funções e histórico de conversas por usuário. vLLM é a camada de serving correta por baixo quando a inferência concorrente importa — ele agrupa solicitações de múltiplos usuários para um desempenho inatingível com Ollama em concorrência acima de ~3.

Com que frequência este diretório é atualizado?

A cada seis meses — última revisão em junho de 2026, a próxima atualização programada é em novembro de 2026. As mudanças intermediárias (um projeto fica inativo, uma nova ferramenta ganha participação significativa, uma licença muda) são aplicadas como patches à entrada existente. Categorias ou camadas completamente novas aguardam uma revisão para manter a estrutura estável.

← Voltar para Power Local LLM