Skip to main content
PromptQuorumPromptQuorum
Início/LLMs locais/Xinference: executar Llama 3, Qwen, ChatGLM e Mistral localmente 2026
Tools & Interfaces

Xinference: executar Llama 3, Qwen, ChatGLM e Mistral localmente 2026

·10 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

**O Xinference suporta Llama 3, Qwen 3, ChatGLM4, Mistral e mais de 30 famílias de modelos via API compatível com OpenAI. Instale com `pip install xinference[all]` e lance qualquer modelo com `xi launch --model-name <nome> --model-type LLM`.**

O Xinference (Xorbits Inference) é um framework de código aberto que permite servir Llama 3, Qwen 3, ChatGLM4, Mistral e mais de 30 famílias de modelos via uma única API compatível com OpenAI — instalado com um comando pip e lançado com uma única chamada CLI. Ao contrário do Ollama, voltado para a conveniência do usuário final, o Xinference é projetado para equipes que precisam de serviço multi-modelo, suporte a clusters GPU e embeddings/reranking junto à inferência LLM. Este guia cobre as famílias de modelos suportadas, instalação, comandos de lançamento por modelo e como o Xinference se compara ao Ollama e vLLM.

Key Takeaways

  • Instalação em um comando: `pip install xinference[all]` + `xinference-local`.
  • Suporta 30+ famílias: Llama 3, Qwen 3, ChatGLM4, Mistral, Mixtral, Gemma, DeepSeek, BGE (embeddings) e mais.
  • API compatível com OpenAI disponível em `localhost:9997/v1` — sem mudanças no código da aplicação.
  • Multi-modelo simultâneo: execute Qwen 3 7B para chat + BGE para embeddings ao mesmo tempo, no mesmo servidor.
  • Escolha de backend: llama.cpp (CPU/GPU consumidor) ou vLLM (produção de alto rendimento).

O Xinference serve Llama 3, Qwen 3, ChatGLM4 e Mistral via uma única API compatível com OpenAI — instalado com um pip install e lançado com xi launch.

Perguntas frequentes

O que é o Xinference?

Xinference (Xorbits Inference) é um framework de código aberto para servir modelos que executa Llama 3, Qwen, ChatGLM, Mistral e mais de 30 famílias localmente via uma API compatível com OpenAI.

Quais modelos o Xinference suporta em 2026?

Os mais populares são Llama 3.3 8B/70B Instruct, Qwen 3 7B/72B Instruct, ChatGLM4 9B, Mistral Small Instruct v0.3 e Mixtral 8x22B Instruct.

O Xinference suporta o Llama 3?

Sim. Use `--model-name llama-3.1-instruct` com `--model-size-in-billions 8` para a variante 8B. Mude para llama.cpp com `--quantization q4_k_m` para CPU ou VRAM reduzida.

O Xinference suporta o ChatGLM?

Sim. ChatGLM3, ChatGLM4 e ChatGLM4-Vision estão todos registrados. ChatGLM4 9B é a opção recomendada para tarefas em chinês em 2026.

Posso usar o Xinference para RAG?

Sim. Lance um modelo de embedding BGE junto ao seu LLM — ambos compartilham o mesmo endpoint da API em localhost:9997/v1.

Xinference vs Ollama: qual devo usar?

Use o Ollama para uso pessoal e desenvolvimento — mais simples, melhor UX. Use o Xinference para equipes que precisam de multi-modelo simultâneo, embeddings + LLM no mesmo servidor, ou suporte nativo ao vLLM para produção de alto rendimento.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Xinference 2026: Llama 3, Qwen, ChatGLM e Mistral local