Skip to main content
PromptQuorumPromptQuorum
Início/LLMs locais/Calculadora de VRAM 2026: Requisitos de GPU para LLMs 7B/13B/70B (Q4, Q5, Q8)
Hardware & Performance

Calculadora de VRAM 2026: Requisitos de GPU para LLMs 7B/13B/70B (Q4, Q5, Q8)

·10 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

Este guia explica como calcular os requisitos exatos de VRAM para qualquer combinação de modelo e hardware. A fórmula é simples: (Tamanho do modelo em GB × Bits de quantização) ÷ 8 = VRAM necessária.

Calculadora interativa de VRAM para LLMs locais. Insira o tamanho do modelo, a quantização, o comprimento do contexto e o tamanho do lote para calcular exatamente quanta VRAM de GPU você precisa. Compatível com modelos de 1B a 405B em FP16, Q8, Q5 e Q4. Atualizado em abril de 2026 com análise de compatibilidade para RTX 4090, 4080, 3060 e cálculos de sobrecarga.

Key Takeaways

  • Fórmula base de VRAM: Parâmetros em bilhões × Bytes por parâmetro = VRAM total. Em Q4 (4 bits = 0,5 bytes): modelo 7B × 0,5 = 3,5 GB de VRAM.
  • Modelos e VRAM mínima (Q4_K_M): 7B → 3,5-4,5 GB; 13B → 6,5-8 GB; 34B → 17-21 GB; 70B → 35-43 GB.
  • Escolha de GPU por tamanho de modelo: RTX 3060 12GB (modelos 7B); RTX 4070 12GB (modelos 13B); RTX 3090/4090 24GB (modelos 32-34B); 2× RTX 3090 48GB (modelos 70B).
  • Overhead de VRAM: adicione 15-20% além do tamanho do modelo para a janela de contexto e buffers do sistema.
  • Apple Silicon: use memória unificada — um M3 Max 48GB executa modelos até 32B confortavelmente.

Para calcular a VRAM necessária: multiplique os bilhões de parâmetros pelo fator de quantização (Q4 = 0,5, Q5 = 0,625, Q8 = 1, FP16 = 2) e adicione 15-20% de overhead.

Quantização é como compactar um arquivo. Q4 significa que cada número no modelo usa apenas 4 bits em vez de 16 (FP16), reduzindo o tamanho pela metade com perda mínima de qualidade.

Tabela de VRAM por tamanho de modelo e quantização

Tamanho do modeloQ4_K_MQ5_K_MQ8_0FP16
7B3,5-4,5 GB4,5-5,5 GB7-8,5 GB14-16 GB
13B6,5-8 GB8-10 GB13-15 GB26-28 GB
34B17-21 GB21-26 GB34-40 GB68-72 GB
70B35-43 GB44-53 GB70-82 GB140-160 GB

Compatibilidade de GPU por tamanho de modelo

GPUVRAMModelo recomendadoVelocidade típica
RTX 3060 12GB12 GB7B em Q4_K_M50-60 tok/s
RTX 4070 12GB12 GB7B-13B em Q4_K_M60-80 tok/s
RTX 4080 16GB16 GB13B em Q5, 27B em Q450-70 tok/s
RTX 3090 24GB24 GB32B em Q4_K_M25-35 tok/s
RTX 4090 24GB24 GB32B em Q4_K_M30-45 tok/s
M3 Max 48GB48 GB (unificada)70B em Q4 com offload parcial15-25 tok/s

Perguntas frequentes

Como calculo a VRAM necessária para um modelo local?

Fórmula: Bilhões de parâmetros × Bytes por parâmetro = VRAM base. Q4 = 0,5 bytes/parâmetro, Q5 = 0,625, Q8 = 1, FP16 = 2. Adicione 15-20% de overhead para contexto e buffers. Exemplo: 7B modelo em Q4_K_M = 7 × 0,5 × 1,2 = 4,2 GB de VRAM total.

Quanto VRAM o Llama 3.3 70B precisa?

Em Q4_K_M: 35-43 GB. Em Q2: 17,5 GB (mas com perda de qualidade significativa). Para rodar completamente em VRAM, você precisa de 2× RTX 3090 (48 GB) ou um Apple Silicon com 48+ GB de memória unificada.

Posso executar modelos 7B em uma GPU de 6 GB?

Sim, em Q4_K_M. Um modelo 7B em Q4_K_M usa ~3,5-4,5 GB de VRAM. Uma RTX 3060 6GB consegue carregar e executar modelos 7B, mas sem margem para janelas de contexto grandes. Para 8K tokens de contexto, você precisará de 8 GB.

O que acontece se meu modelo for maior que minha VRAM?

O Ollama e llama.cpp automaticamente descarregam camadas para a RAM do sistema. O modelo funciona, mas a velocidade de inferência cai drasticamente (tipicamente 10-20× mais lento). Para uso interativo, use um modelo que caiba completamente na VRAM.

Apple Silicon conta como VRAM?

Sim. O Apple Silicon usa memória unificada que serve tanto para CPU quanto para GPU. Um M3 Max com 48 GB de memória unificada pode ser tratado como 48 GB de VRAM para fins de cálculo de LLM. O desempenho é excelente — sem offloading para RAM separada.

Fontes

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Calculadora de VRAM 2026: GPU para LLMs 7B, 13B e 70B