Key Takeaways
- Instalação em um comando: `pip install xinference[all]` + `xinference-local`.
- Suporta 30+ famílias: Llama 3, Qwen 3, ChatGLM4, Mistral, Mixtral, Gemma, DeepSeek, BGE (embeddings) e mais.
- API compatível com OpenAI disponível em `localhost:9997/v1` — sem mudanças no código da aplicação.
- Multi-modelo simultâneo: execute Qwen 3 7B para chat + BGE para embeddings ao mesmo tempo, no mesmo servidor.
- Escolha de backend: llama.cpp (CPU/GPU consumidor) ou vLLM (produção de alto rendimento).
O Xinference serve Llama 3, Qwen 3, ChatGLM4 e Mistral via uma única API compatível com OpenAI — instalado com um pip install e lançado com xi launch.
Perguntas frequentes
O que é o Xinference?
Xinference (Xorbits Inference) é um framework de código aberto para servir modelos que executa Llama 3, Qwen, ChatGLM, Mistral e mais de 30 famílias localmente via uma API compatível com OpenAI.
Quais modelos o Xinference suporta em 2026?
Os mais populares são Llama 3.3 8B/70B Instruct, Qwen 3 7B/72B Instruct, ChatGLM4 9B, Mistral Small Instruct v0.3 e Mixtral 8x22B Instruct.
O Xinference suporta o Llama 3?
Sim. Use `--model-name llama-3.1-instruct` com `--model-size-in-billions 8` para a variante 8B. Mude para llama.cpp com `--quantization q4_k_m` para CPU ou VRAM reduzida.
O Xinference suporta o ChatGLM?
Sim. ChatGLM3, ChatGLM4 e ChatGLM4-Vision estão todos registrados. ChatGLM4 9B é a opção recomendada para tarefas em chinês em 2026.
Posso usar o Xinference para RAG?
Sim. Lance um modelo de embedding BGE junto ao seu LLM — ambos compartilham o mesmo endpoint da API em localhost:9997/v1.
Xinference vs Ollama: qual devo usar?
Use o Ollama para uso pessoal e desenvolvimento — mais simples, melhor UX. Use o Xinference para equipes que precisam de multi-modelo simultâneo, embeddings + LLM no mesmo servidor, ou suporte nativo ao vLLM para produção de alto rendimento.