O que é um LLM de código aberto?
📍 In One Sentence
Open-weights significa que os parâmetros do modelo são baixáveis, mas podem estar restritos pela licença; open-source significa disponibilidade irrestrita do código sob licenças compatíveis com OSI.
"Código aberto" e "open-weights" não são sinônimos. As licenças de código aberto (Apache 2.0, MIT, GPL) se aplicam ao código-fonte e permitem uso comercial e privado sem restrições. Open-weights significa que os pesos do modelo treinado são baixáveis, mas podem estar restritos sob uma licença especializada. LLaMA 3.1 é open-weights, não open-source — a Meta publica os pesos sob a Licença Comunitária Llama 3.3.1, que permite uso comercial, mas inclui restrições.
Os modelos proprietários não são open-weights nem open-source. OpenAI (GPT-5.5), Anthropic (Claude Opus 4.8) e Google (Gemini 3.1 Pro) não publicam os pesos do modelo. Você os acessa exclusivamente via API.
Entender essa distinção importa para conformidade, personalização e soberania de dados.
O que é um LLM proprietário?
Os LLMs proprietários são modelos fechados acessíveis apenas via API — o provedor controla os pesos, os dados de treinamento, o alinhamento de segurança e todas as atualizações. OpenAI (GPT-5.5), Anthropic (Claude Opus 4.8), Google (Gemini 3.1 Pro) e Mistral API são proprietários.
Os preços são cobranças por token em API em um servidor controlado pelo provedor. GPT-5.5 custa $5 por 1M tokens de entrada e $30 por 1M tokens de saída. Claude Opus 4.8 custa $5/$25. Gemini 3.1 Pro custa $2,00/$12,00.
Os provedores proprietários mantêm o controle sobre as atualizações do modelo, o comportamento e o alinhamento.
🔍 Dica pro
Os preços das APIs proprietárias podem surpreendê-lo. Configure alertas de monitoramento de custos nos painéis da OpenAI ou Anthropic para evitar faturas exorbitantes de agentes de longa duração ou inferência de alto volume.
Conceitos-chave e definições
💬 In Plain Terms
Pense nos modelos open-weights como software de código aberto que você pode baixar e modificar; os modelos proprietários são como SaaS que você só pode usar através do site de um provedor.
Modelo Open-Weights. Um LLM cujos pesos treinados estão publicamente disponíveis e podem ser baixados, modificados, ajustados e auto-hospedados. Exemplos: LLaMA 4 Scout/Maverick (Meta), Mistral Large 2 (Mistral AI), Qwen 3 (Alibaba), DeepSeek-R1 (DeepSeek AI).
LLM Proprietário. Um LLM cujos pesos são mantidos privados e nunca publicados. O acesso é exclusivamente através da API de um provedor, exigindo cobrança por token e conectividade de rede. Exemplos: GPT-5.5 (OpenAI), Claude Opus 4.8 (Anthropic), Gemini 3.1 Pro (Google).
Fine-Tuning. O processo de retreinar um modelo pré-treinado em um novo conjunto de dados menor específico para um domínio ou tarefa. Os modelos open-weights suportam fine-tuning completo via LoRA, QLoRA ou retropropagação completa; a maioria dos modelos proprietários restringe ou proíbe o fine-tuning.
Data de corte de treinamento. A data após a qual um modelo não tem conhecimento de eventos ou informações.
Mixture of Experts (MoE). Uma arquitetura LLM onde o modelo contém muitas sub-redes "especialistas", mas apenas uma fração é ativada por token. LLaMA 4 Scout e Mistral usam MoE — o custo de inferência escala com os parâmetros ativos, não os totais.
Pesos do modelo. Os parâmetros numéricos (bilhões a trilhões de números) aprendidos durante o treinamento do modelo.
Qual é a diferença entre os LLMs de código aberto e os proprietários?
Os LLMs de código aberto (LLaMA 3.1, Mistral, Qwen) tornam os pesos do modelo publicamente disponíveis — as organizações podem baixá-los, inspecioná-los, ajustá-los e auto-hospedá-los. Os LLMs proprietários (GPT-5.5, Claude, Gemini) são de propriedade dos provedores e acessíveis apenas através de APIs.
Os LLMs de código aberto são tão bons quanto os modelos proprietários?
Em muitas tarefas, sim. A lacuna de desempenho se reduziu para 7–8 pontos percentuais em benchmarks de raciocínio (MMLU). Em classificação, resumo e tarefas específicas de domínio, os modelos open-weights como LLaMA 3.1 70B agora igualam os proprietários. Os modelos proprietários ainda lideram em raciocínio de múltiplas etapas complexo, orquestração de agentes e gerenciamento de entrada multimodal.
Quando as empresas devem usar LLMs de código aberto?
As empresas devem usar LLMs de código aberto quando a privacidade de dados é obrigatória (saúde, finanças, jurídico), quando processam mais de 10 milhões de tokens por dia, quando é necessário fine-tuning específico do domínio, ou quando a conformidade com o AI Act da UE exige residência de dados on-premises. Os modelos open-weights também eliminam o vendor lock-in e a cobrança por token em API.
Os LLMs de código aberto podem substituir os modelos de IA proprietários?
Para muitos casos de uso, sim. Os LLMs de código aberto estão prontos para produção para classificação, resumo, extração e tarefas específicas de domínio. Os modelos proprietários mantêm vantagens em raciocínio complexo, entrada multimodal, integração de ferramentas e implantação sem infraestrutura.
Open-Weights vs LLMs Proprietários: Comparação em 10 Dimensões
| Dimensão | Open-Weights | Proprietário |
|---|---|---|
| Custo | $0,50–2,00/hr de infraestrutura; $0 por token | $0,15–5,00 por 1M tokens de entrada; $0,30–15,00 por 1M tokens de saída |
| Desempenho | MMLU ~80–82%; competitivo em tarefas específicas | MMLU ~88–90%; teto maior em raciocínio |
| Context window | LLaMA 4 Scout 10M, Mistral Large 123K | GPT-5.5 128K, Claude 200K, Gemini 3.1 Pro 1M |
| Privacidade | Soberania completa de dados, zero egresso | Os dados transitam por servidores do provedor |
| Fine-tuning | LoRA, QLoRA, completo suportado | Limitado (mini da OpenAI) ou nenhum (Anthropic) |
| Soberania de dados | On-premises; cumpre AI Act UE, HIPAA, SOX | Dependente de API; residência de dados pouco clara |
| Velocidade | A100: 20–30 tokens/seg (70B) | 30–50+ tokens/seg em endpoints otimizados |
| Suporte | Impulsionado pela comunidade; sem SLA do provedor | Suporte do provedor, SLAs de API, uptime garantido |
| Atualizações | Offline; você controla a adoção | Do lado do servidor; o provedor atualiza automaticamente |
| Vendor lock-in | Zero; implante onde quiser | Moderado a alto; API e preços sob controle do provedor |
Quando escolher open-weights vs proprietários?
Escolha open-weights quando: os dados não podem sair da sua infraestrutura, o volume diário supera 10M tokens, você precisa de fine-tuning do domínio, ou a conformidade com o AI Act da UE / HIPAA / SOX requer residência de dados on-premises.
Escolha proprietários quando: você precisa de máxima precisão sem infraestrutura de GPU, o volume está abaixo de 5M tokens/dia, você não tem expertise de DevOps, ou precisa de início rápido sem engenharia de infraestrutura.
Como escolher entre LLMs de código aberto e proprietários
- 1Avalie os requisitos de privacidade de dados: os dados podem sair da sua infraestrutura? Se não, os open-weights são obrigatórios.
- 2Calcule o volume diário de tokens: compare os custos de API com o custo de infraestrutura em 1M, 10M e 100M tokens/dia.
- 3Avalie as necessidades de fine-tuning: você precisa especializar o modelo no seu domínio? Os open-weights suportam LoRA/QLoRA; os proprietários não.
- 4Verifique a prontidão da infraestrutura: você tem GPUs, DevOps e cobertura permanente? Se não, os proprietários são a rota mais simples.
- 5Faça benchmarks na sua tarefa real: use o PromptQuorum para comparar GPT-5.5, Claude e Ollama no seu caso de uso específico.
Leitura relacionada
- Técnicas: RAG explicado — Geração Aumentada por Recuperação — Como estender qualquer modelo (proprietário ou open-weights) com conhecimento externo
- Fundamentos: GPT-5.5, Claude ou Gemini? Como escolher o modelo certo — Comparação detalhada de modelos proprietários de fronteira
- Fundamentos: Tokens, custos e limites — Análise detalhada de custos e economia de tokens
- Fundamentos: Prompt injection e segurança — Considerações de segurança para ambas as classes de modelos
Perguntas frequentes
O LLaMA 3.1 é realmente de código aberto ou apenas open-weights?
Apenas open-weights. O LLaMA 3.1 publica os pesos do modelo sob a Licença Comunitária Llama 3.3.1, que não é compatível com OSI. A licença permite uso comercial, mas inclui restrições de denominação e requer atribuição.
O que é mais barato em 2026 — auto-hospedar LLaMA ou usar a API do GPT-5.5?
Depende do volume. Abaixo de 5M tokens/dia, a API do GPT-5.5 é mais barata. Entre 5–10M tokens/dia, os custos se igualam. Acima de 10M tokens/dia, a auto-hospedagem do LLaMA 3.1 ganha.
O AI Act da UE afeta os LLMs de código aberto?
Sim, dependendo da implantação. Os sistemas de IA de alto risco requerem documentação de riscos e trilhas de auditoria. Os open-weights on-premises facilitam a conformidade.
Qual LLM de código aberto está mais próximo do GPT-5.5 em 2026?
LLaMA 4 Maverick, DeepSeek-R1 e Mistral Large 2 são os mais próximos. No MMLU, GPT-5.5 88,7% vs open-weights 80–83%.
Posso fazer fine-tuning do GPT-5.5?
Não. O fine-tuning da OpenAI está disponível apenas para GPT-5.5 mini. A Anthropic não oferece fine-tuning para Claude. Os open-weights suportam fine-tuning completo via LoRA, QLoRA ou treinamento completo.
Qual hardware preciso para executar o LLaMA 4 localmente?
LLaMA 4 Scout: um único H100 80 GB ou RTX 4090 quantizado a 4 bits. LLaMA 4 Maverick: multi-GPU (4× A100 80 GB ou H100). Para LLaMA 3.1 70B: precisão completa ~40 GB de VRAM.
Posso executar LLMs de código aberto em um MacBook?
Sim. Os Macs com Apple Silicon M4 Max/M5 Pro/Max suportam 64–128 GB de memória unificada. M5 Max pode executar LLaMA 4 Scout quantizado.
Os LLMs de código aberto têm as mesmas limitações que os proprietários?
Sim no fundamental: ambos alucinam, têm datas de corte de conhecimento e limites de contexto.
Qual é o melhor modelo open-weights para programação em 2026?
LLaMA 4 Maverick e DeepSeek-R1 são competitivos no HumanEval (~75–80%). Claude Opus 4.8 lidera no SWE-bench Verified.
Posso usar LLMs de código aberto para aplicações comerciais?
Sim. LLaMA, Mistral e Qwen permitem uso comercial. Você não pode nomear derivados como "LLaMA".
O que é LoRA e por que importa para o fine-tuning?
LoRA (Low-Rank Adaptation) treina ~1–5% dos parâmetros do modelo como adaptadores, reduzindo o custo de treinamento 5–10×. QLoRA estende isso com quantização de 4 bits para GPUs de consumidor.
Fontes
- Meta AI, "Llama 3 Herd of Models" (Touvron et al., 2024) — Arquitetura, context windows, pontuações de benchmark e documentação de dados de treinamento
- Mistral AI, Fichas técnicas e Documentação (2024) — Especificações de Mistral Large 2 e Mistral Small
- Hendrycks et al., "Measuring Massive Multitask Language Understanding" (2021) — Definição do benchmark MMLU. arXiv:2009.03300
- Chen et al., "Evaluating Large Language Models Trained on Code" (2021) — Benchmark HumanEval para geração de código. arXiv:2107.03374
- União Europeia, "Artificial Intelligence Act" (2024) — Categorias de sistemas de IA de alto risco, obrigações GPAI e requisitos de conformidade
- Hu et al., "LoRA: Low-Rank Adaptation of Large Language Models" (2021) — Definição do método LoRA e resultados de eficiência. arXiv:2106.09685
- Dettmers et al., "QLoRA: Efficient Finetuning of Quantized LLMs" (2023) — Método QLoRA e resultados de fine-tuning em GPUs de consumidor. arXiv:2305.14314