Início/LLMs locais/Multi-GPU LLMs Locais 2026: Execute Modelos 70B em 2+ GPUs com vLLM e Ollama

Hardware & Performance

Multi-GPU LLMs Locais 2026: Execute Modelos 70B em 2+ GPUs com vLLM e Ollama

Last updated: 16 de abril de 2026·11 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Duas RTX 4090 (48 GB combinados) executam o Llama 3.3 70B a ~100 tokens/segundo — apenas 5–10% mais lento do que uma GPU teórica única de 48 GB. Este é o setup multi-GPU mais econômico para modelos de 70B em 2026.

Usar múltiplas GPUs permite executar modelos de 70B ou mais que não cabem na VRAM de uma única GPU. Duas RTX 4090 (48 GB no total) executam o Llama 3.3 70B em quantização Q4 a ~100 tokens/segundo — apenas 5–10% mais lento do que uma GPU teórica única de 48 GB, devido ao overhead de comunicação entre GPUs. Desde abril de 2026, tanto vLLM (paralelismo tensorial) quanto Ollama (divisão automática de camadas) suportam multi-GPU sem configuração adicional. NVLink reduz o overhead para 3–5%, mas não está disponível nas placas RTX de consumo — PCIe 4.0/5.0 é suficiente para a maioria dos setups de GPU dupla.

Slide Deck: Multi-GPU LLMs Locais 2026: Execute Modelos 70B em 2+ GPUs com vLLM e Ollama

A apresentação cobre: como dual RTX 4090 (48 GB total) executa Llama 3.3 70B a 100 tok/s com apenas 5–10% de overhead, configuração de paralelismo tensorial vLLM (--tensor-parallel-size 2), divisão automática de GPU do Ollama, comparação NVLink vs PCIe (900 GB/s vs 64 GB/s), tabela de desempenho de GPU e 5 erros comuns de multi-GPU. Baixe o PDF como cartão de referência de inferência LLM multi-GPU.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

Multi-GPU: divide um modelo grande em 2+ GPUs. Exemplo: modelo 70B dividido igualmente em 2× RTX 4090 = 48 GB de VRAM total.
Penalidade de velocidade: ~5–10% mais lento que uma única GPU (overhead de comunicação entre GPUs).
Ideal para: modelos 70B, serviços de alta concorrência (50+ usuários simultâneos).
Automático: as ferramentas modernas (vLLM, Ollama, llama.cpp) detectam múltiplas GPUs automaticamente.
Desde abril de 2026, isso é padrão para implantações em produção.

Como funciona o Layer Splitting e o Paralelismo Tensorial?

Um modelo Transformer de 70B tem 80 camadas. Com o layer splitting, o Ollama pode colocar:

GPU 1: Camadas 1–40

GPU 2: Camadas 41–80

Quando um token é gerado, ele flui pela GPU 1, depois pela GPU 2, e volta para o próximo token. O overhead de comunicação é mínimo.

Divisão de camadas em 2 GPUs: modelo 70B de 80 camadas distribuído (camadas 1–40 na GPU 1, camadas 41–80 na GPU 2), com comunicação PCIe entre GPUs adicionando ~10% de overhead (~100 tok/s em dual RTX 4090).

•💡: Dica: as camadas são leves — o que importa é a velocidade de comunicação entre GPUs. Camadas 1–40 na GPU1 e camadas 41–80 na GPU2 implicam uma transferência de GPU por token. Por isso o NVLink é importante.

Configuração Multi-GPU com vLLM

O vLLM suporta paralelismo tensorial com um único comando. Use o flag `--tensor-parallel-size` para especificar o número de GPUs:

bash

# Executar modelo 70B em 2 GPUs
vllm serve meta-llama/Llama-3.1-70B \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.95 \
  --port 8000

# API disponível em http://localhost:8000/v1
# Mesma API, gerenciamento multi-GPU automático

•💡: Você não precisa de configuração especial para multi-GPU no vLLM. Apenas adicione --tensor-parallel-size N e o vLLM distribui as camadas do modelo automaticamente. Funciona com Llama, Mistral, Qwen e todos os modelos suportados pelo vLLM.

Configuração Multi-GPU com Ollama

O Ollama detecta automaticamente várias GPUs e distribui camadas:

bash

# Configuração automática: o Ollama distribui as camadas
OLLAMA_NUM_GPU=2 ollama serve

# Verificar distribuição
nvidia-smi  # Ambas as GPUs devem mostrar uso de VRAM

# Testar com modelo 70B
ollama run llama3.1:70b

Desempenho: 2 GPUs vs 1 GPU

Penalidade de velocidade dual-GPU: ~5–10% mais lento que uma GPU única hipotética de 48 GB.
NVLink vs PCIe: NVLink oferece ~900 GB/s de largura de banda vs ~64 GB/s do PCIe 4.0. Na prática, PCIe é suficiente — a penalidade é de apenas 5–10% adicional vs NVLink para a maioria dos modelos.
Consumo de energia: 2× RTX 4090 = ~700W sob carga LLM completa. Certifique-se de ter PSU adequada (1000W+).

Configuração	Modelo	Velocidade	VRAM total
1× RTX 4090 (24 GB)	Llama 3.3 13B Q4	~65 tok/s	24 GB
1× RTX 4090 (24 GB)	Llama 3.3 70B Q4	OOM	24 GB (insuficiente)
2× RTX 4090 (48 GB)	Llama 3.3 70B Q4	~100 tok/s	48 GB
2× RTX 4090 (48 GB)	Llama 3.3 70B Q8	~60 tok/s	48 GB
4× RTX 4090 (96 GB)	Llama 3.3 70B FP16	~80 tok/s	96 GB

Quando usar Multi-GPU?

Use multi-GPU quando: o modelo não cabe em uma única GPU (ex: 70B Q4 requer ~40 GB VRAM), ou quando você precisa de alta concorrência (50+ usuários simultâneos — vLLM distribui a carga).
NÃO use multi-GPU quando: você precisa de máxima velocidade para um único usuário (uma GPU mais rápida é melhor), ou quando o custo adicional não se justifica (considere Mac mini M5 Max 128 GB como alternativa).
Alternativa ao multi-GPU: Mac mini M5 Max 128 GB ($1.999) executa 70B Q5 a 15–20 tok/s — mais lento que dual RTX 4090 mas silencioso, mais econômico e sem gestão de drivers.

Erros comuns em configurações multi-GPU

Misturar GPUs de gerações diferentes (ex: RTX 3090 + RTX 4090). A velocidade de geração é limitada pela GPU mais lenta. Use sempre GPUs idênticas.
Usar slots PCIe de largura de banda baixa. PCIe x4 em vez de x16 corta a largura de banda pela metade. Verifique as especificações da placa-mãe.
Ignorar o consumo de energia. 2× RTX 4090 = ~700W sob carga. PSU insuficiente causará instabilidade.
Esperar 2× velocidade de 2× GPUs. O overhead de comunicação limita o ganho a ~1,8–1,9×, não 2×.
Não configurar NUMA. Em servidores com múltiplos sockets CPU, configurar NUMA awareness melhora o desempenho em 10–20%.

Perguntas frequentes

Posso misturar modelos de GPU diferentes para multi-GPU?

Tecnicamente sim, mas não recomendado. Misturar gerações (ex: RTX 3090 + RTX 4090) faz com que a inferência seja limitada pela GPU mais lenta. Use GPUs idênticas para desempenho ideal.

O NVLink é necessário para multi-GPU em LLMs?

Não. PCIe 4.0 x16 (64 GB/s) é suficiente para a maioria das cargas de trabalho de LLM com penalidade de apenas 5–10% vs NVLink. NVLink melhora o desempenho em modelos muito grandes (405B+) onde a transferência de dados entre GPUs é mais frequente.

Quantas GPUs o Ollama suporta?

O Ollama detecta e usa todas as GPUs NVIDIA disponíveis automaticamente. Testado com até 4× RTX 4090. Para mais de 4 GPUs, use vLLM que tem melhor suporte a paralelismo tensorial em escala.

É melhor 2× RTX 4090 ou 1× RTX 5090 para 70B?

Para 70B: 2× RTX 4090 (48 GB VRAM, ~100 tok/s) vs RTX 5090 (32 GB VRAM, ~80 tok/s para Q4). 2× RTX 4090 vence em VRAM e velocidade para 70B. RTX 5090 vence para modelos 13B–34B pela velocidade bruta de GPU única.

Nota sobre informações de terceiros

Este artigo faz referência a modelos de IA, benchmarks, preços e licenças de terceiros. O cenário da IA muda rapidamente. Pontuações de benchmark, termos de licença, nomes de modelos e preços de API podem mudar entre o momento em que foi escrito e quando você está lendo. Antes de tomar decisões de implantação ou conformidade com base neste artigo, verifique os dados atuais na fonte oficial de cada fornecedor: fichas de modelos do Hugging Face para licenças e benchmarks, sites dos fornecedores para preços de API e EUR-Lex para o texto atual do GDPR e da Lei de IA da UE. Este artigo reflete informações publicamente disponíveis em maio de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs