Início/LLMs locais/Xinference: executar Llama 3, Qwen, ChatGLM e Mistral localmente 2026

Tools & Interfaces

Xinference: executar Llama 3, Qwen, ChatGLM e Mistral localmente 2026

Last updated: 23 de maio de 2026·10 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

**O Xinference suporta Llama 3, Qwen 3, ChatGLM4, Mistral e mais de 30 famílias de modelos via API compatível com OpenAI. Instale com `pip install xinference[all]` e lance qualquer modelo com `xi launch --model-name <nome> --model-type LLM`.**

O Xinference (Xorbits Inference) é um framework de código aberto que permite servir Llama 3, Qwen 3, ChatGLM4, Mistral e mais de 30 famílias de modelos via uma única API compatível com OpenAI — instalado com um comando pip e lançado com uma única chamada CLI. Ao contrário do Ollama, voltado para a conveniência do usuário final, o Xinference é projetado para equipes que precisam de serviço multi-modelo, suporte a clusters GPU e embeddings/reranking junto à inferência LLM. Este guia cobre as famílias de modelos suportadas, instalação, comandos de lançamento por modelo e como o Xinference se compara ao Ollama e vLLM.

Key Takeaways

Instalação em um comando: `pip install xinference[all]` + `xinference-local`.
Suporta 30+ famílias: Llama 3, Qwen 3, ChatGLM4, Mistral, Mixtral, Gemma, DeepSeek, BGE (embeddings) e mais.
API compatível com OpenAI disponível em `localhost:9997/v1` — sem mudanças no código da aplicação.
Multi-modelo simultâneo: execute Qwen 3 7B para chat + BGE para embeddings ao mesmo tempo, no mesmo servidor.
Escolha de backend: llama.cpp (CPU/GPU consumidor) ou vLLM (produção de alto rendimento).

O Xinference serve Llama 3, Qwen 3, ChatGLM4 e Mistral via uma única API compatível com OpenAI — instalado com um pip install e lançado com xi launch.

Perguntas frequentes

O que é o Xinference?

Xinference (Xorbits Inference) é um framework de código aberto para servir modelos que executa Llama 3, Qwen, ChatGLM, Mistral e mais de 30 famílias localmente via uma API compatível com OpenAI.

Quais modelos o Xinference suporta em 2026?

Os mais populares são Llama 3.3 8B/70B Instruct, Qwen 3 7B/72B Instruct, ChatGLM4 9B, Mistral Small Instruct v0.3 e Mixtral 8x22B Instruct.

O Xinference suporta o Llama 3?

Sim. Use `--model-name llama-3.1-instruct` com `--model-size-in-billions 8` para a variante 8B. Mude para llama.cpp com `--quantization q4_k_m` para CPU ou VRAM reduzida.

O Xinference suporta o ChatGLM?

Sim. ChatGLM3, ChatGLM4 e ChatGLM4-Vision estão todos registrados. ChatGLM4 9B é a opção recomendada para tarefas em chinês em 2026.

Posso usar o Xinference para RAG?

Sim. Lance um modelo de embedding BGE junto ao seu LLM — ambos compartilham o mesmo endpoint da API em localhost:9997/v1.

Xinference vs Ollama: qual devo usar?

Use o Ollama para uso pessoal e desenvolvimento — mais simples, melhor UX. Use o Xinference para equipes que precisam de multi-modelo simultâneo, embeddings + LLM no mesmo servidor, ou suporte nativo ao vLLM para produção de alto rendimento.

Nota sobre informações de terceiros

Este artigo faz referência a modelos de IA, benchmarks, preços e licenças de terceiros. O cenário da IA muda rapidamente. Pontuações de benchmark, termos de licença, nomes de modelos e preços de API podem mudar entre o momento em que foi escrito e quando você está lendo. Antes de tomar decisões de implantação ou conformidade com base neste artigo, verifique os dados atuais na fonte oficial de cada fornecedor: fichas de modelos do Hugging Face para licenças e benchmarks, sites dos fornecedores para preços de API e EUR-Lex para o texto atual do GDPR e da Lei de IA da UE. Este artigo reflete informações publicamente disponíveis em maio de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs