Calculadora interativa de VRAM para LLMs locais. Insira o tamanho do modelo, a quantização, o comprimento do contexto e o tamanho do lote para calcular exatamente quanta VRAM de GPU você precisa. Compatível com modelos de 1B a 405B em FP16, Q8, Q5 e Q4. Atualizado em abril de 2026 com análise de compatibilidade para RTX 4090, 4080, 3060 e cálculos de sobrecarga.

Key Takeaways

Fórmula base de VRAM: Parâmetros em bilhões × Bytes por parâmetro = VRAM total. Em Q4 (4 bits = 0,5 bytes): modelo 7B × 0,5 = 3,5 GB de VRAM.
Modelos e VRAM mínima (Q4_K_M): 7B → 3,5-4,5 GB; 13B → 6,5-8 GB; 34B → 17-21 GB; 70B → 35-43 GB.
Escolha de GPU por tamanho de modelo: RTX 3060 12GB (modelos 7B); RTX 4070 12GB (modelos 13B); RTX 3090/4090 24GB (modelos 32-34B); 2× RTX 3090 48GB (modelos 70B).
Overhead de VRAM: adicione 15-20% além do tamanho do modelo para a janela de contexto e buffers do sistema.
Apple Silicon: use memória unificada — um M3 Max 48GB executa modelos até 32B confortavelmente.

Para calcular a VRAM necessária: multiplique os bilhões de parâmetros pelo fator de quantização (Q4 = 0,5, Q5 = 0,625, Q8 = 1, FP16 = 2) e adicione 15-20% de overhead.

Quantização é como compactar um arquivo. Q4 significa que cada número no modelo usa apenas 4 bits em vez de 16 (FP16), reduzindo o tamanho pela metade com perda mínima de qualidade.

Tabela de VRAM por tamanho de modelo e quantização

Tamanho do modelo	Q4_K_M	Q5_K_M	Q8_0	FP16
7B	3,5-4,5 GB	4,5-5,5 GB	7-8,5 GB	14-16 GB
13B	6,5-8 GB	8-10 GB	13-15 GB	26-28 GB
34B	17-21 GB	21-26 GB	34-40 GB	68-72 GB
70B	35-43 GB	44-53 GB	70-82 GB	140-160 GB

Compatibilidade de GPU por tamanho de modelo

GPU	VRAM	Modelo recomendado	Velocidade típica
RTX 3060 12GB	12 GB	7B em Q4_K_M	50-60 tok/s
RTX 4070 12GB	12 GB	7B-13B em Q4_K_M	60-80 tok/s
RTX 4080 16GB	16 GB	13B em Q5, 27B em Q4	50-70 tok/s
RTX 3090 24GB	24 GB	32B em Q4_K_M	25-35 tok/s
RTX 4090 24GB	24 GB	32B em Q4_K_M	30-45 tok/s
M3 Max 48GB	48 GB (unificada)	70B em Q4 com offload parcial	15-25 tok/s

Perguntas frequentes

Como calculo a VRAM necessária para um modelo local?

Fórmula: Bilhões de parâmetros × Bytes por parâmetro = VRAM base. Q4 = 0,5 bytes/parâmetro, Q5 = 0,625, Q8 = 1, FP16 = 2. Adicione 15-20% de overhead para contexto e buffers. Exemplo: 7B modelo em Q4_K_M = 7 × 0,5 × 1,2 = 4,2 GB de VRAM total.

Quanto VRAM o Llama 3.3 70B precisa?

Em Q4_K_M: 35-43 GB. Em Q2: 17,5 GB (mas com perda de qualidade significativa). Para rodar completamente em VRAM, você precisa de 2× RTX 3090 (48 GB) ou um Apple Silicon com 48+ GB de memória unificada.

Posso executar modelos 7B em uma GPU de 6 GB?

Sim, em Q4_K_M. Um modelo 7B em Q4_K_M usa ~3,5-4,5 GB de VRAM. Uma RTX 3060 6GB consegue carregar e executar modelos 7B, mas sem margem para janelas de contexto grandes. Para 8K tokens de contexto, você precisará de 8 GB.

O que acontece se meu modelo for maior que minha VRAM?

O Ollama e llama.cpp automaticamente descarregam camadas para a RAM do sistema. O modelo funciona, mas a velocidade de inferência cai drasticamente (tipicamente 10-20× mais lento). Para uso interativo, use um modelo que caiba completamente na VRAM.

Apple Silicon conta como VRAM?

Sim. O Apple Silicon usa memória unificada que serve tanto para CPU quanto para GPU. Um M3 Max com 48 GB de memória unificada pode ser tratado como 48 GB de VRAM para fins de cálculo de LLM. O desempenho é excelente — sem offloading para RAM separada.

Fontes

Especificação GGUF -- Documentação de ggerganov/ggml sobre o formato de arquivo quantizado.
Documentação de quantização do Transformers -- Guia oficial do Hugging Face sobre métodos de quantização.
Documentação do Ollama -- Guias oficiais do Ollama para gerenciamento de modelos.

Calculadora de VRAM 2026: Requisitos de GPU para LLMs 7B/13B/70B (Q4, Q5, Q8)

Tabela de VRAM por tamanho de modelo e quantização

Compatibilidade de GPU por tamanho de modelo

Perguntas frequentes

Como calculo a VRAM necessária para um modelo local?

Quanto VRAM o Llama 3.3 70B precisa?

Posso executar modelos 7B em uma GPU de 6 GB?

O que acontece se meu modelo for maior que minha VRAM?

Apple Silicon conta como VRAM?

Fontes

A Note on Third-Party Facts

Calculadora de VRAM 2026: Requisitos de GPU para LLMs 7B/13B/70B (Q4, Q5, Q8)

Tabela de VRAM por tamanho de modelo e quantização

Compatibilidade de GPU por tamanho de modelo

Perguntas frequentes

Como calculo a VRAM necessária para um modelo local?

Quanto VRAM o Llama 3.3 70B precisa?

Posso executar modelos 7B em uma GPU de 6 GB?

O que acontece se meu modelo for maior que minha VRAM?

Apple Silicon conta como VRAM?

Leitura relacionada

Fontes

A Note on Third-Party Facts