Key Takeaways
- Fórmula base de VRAM: Parâmetros em bilhões × Bytes por parâmetro = VRAM total. Em Q4 (4 bits = 0,5 bytes): modelo 7B × 0,5 = 3,5 GB de VRAM.
- Modelos e VRAM mínima (Q4_K_M): 7B → 3,5-4,5 GB; 13B → 6,5-8 GB; 34B → 17-21 GB; 70B → 35-43 GB.
- Escolha de GPU por tamanho de modelo: RTX 3060 12GB (modelos 7B); RTX 4070 12GB (modelos 13B); RTX 3090/4090 24GB (modelos 32-34B); 2× RTX 3090 48GB (modelos 70B).
- Overhead de VRAM: adicione 15-20% além do tamanho do modelo para a janela de contexto e buffers do sistema.
- Apple Silicon: use memória unificada — um M3 Max 48GB executa modelos até 32B confortavelmente.
Para calcular a VRAM necessária: multiplique os bilhões de parâmetros pelo fator de quantização (Q4 = 0,5, Q5 = 0,625, Q8 = 1, FP16 = 2) e adicione 15-20% de overhead.
Quantização é como compactar um arquivo. Q4 significa que cada número no modelo usa apenas 4 bits em vez de 16 (FP16), reduzindo o tamanho pela metade com perda mínima de qualidade.
Tabela de VRAM por tamanho de modelo e quantização
| Tamanho do modelo | Q4_K_M | Q5_K_M | Q8_0 | FP16 |
|---|---|---|---|---|
| 7B | 3,5-4,5 GB | 4,5-5,5 GB | 7-8,5 GB | 14-16 GB |
| 13B | 6,5-8 GB | 8-10 GB | 13-15 GB | 26-28 GB |
| 34B | 17-21 GB | 21-26 GB | 34-40 GB | 68-72 GB |
| 70B | 35-43 GB | 44-53 GB | 70-82 GB | 140-160 GB |
Compatibilidade de GPU por tamanho de modelo
| GPU | VRAM | Modelo recomendado | Velocidade típica |
|---|---|---|---|
| RTX 3060 12GB | 12 GB | 7B em Q4_K_M | 50-60 tok/s |
| RTX 4070 12GB | 12 GB | 7B-13B em Q4_K_M | 60-80 tok/s |
| RTX 4080 16GB | 16 GB | 13B em Q5, 27B em Q4 | 50-70 tok/s |
| RTX 3090 24GB | 24 GB | 32B em Q4_K_M | 25-35 tok/s |
| RTX 4090 24GB | 24 GB | 32B em Q4_K_M | 30-45 tok/s |
| M3 Max 48GB | 48 GB (unificada) | 70B em Q4 com offload parcial | 15-25 tok/s |
Perguntas frequentes
Como calculo a VRAM necessária para um modelo local?
Fórmula: Bilhões de parâmetros × Bytes por parâmetro = VRAM base. Q4 = 0,5 bytes/parâmetro, Q5 = 0,625, Q8 = 1, FP16 = 2. Adicione 15-20% de overhead para contexto e buffers. Exemplo: 7B modelo em Q4_K_M = 7 × 0,5 × 1,2 = 4,2 GB de VRAM total.
Quanto VRAM o Llama 3.3 70B precisa?
Em Q4_K_M: 35-43 GB. Em Q2: 17,5 GB (mas com perda de qualidade significativa). Para rodar completamente em VRAM, você precisa de 2× RTX 3090 (48 GB) ou um Apple Silicon com 48+ GB de memória unificada.
Posso executar modelos 7B em uma GPU de 6 GB?
Sim, em Q4_K_M. Um modelo 7B em Q4_K_M usa ~3,5-4,5 GB de VRAM. Uma RTX 3060 6GB consegue carregar e executar modelos 7B, mas sem margem para janelas de contexto grandes. Para 8K tokens de contexto, você precisará de 8 GB.
O que acontece se meu modelo for maior que minha VRAM?
O Ollama e llama.cpp automaticamente descarregam camadas para a RAM do sistema. O modelo funciona, mas a velocidade de inferência cai drasticamente (tipicamente 10-20× mais lento). Para uso interativo, use um modelo que caiba completamente na VRAM.
Apple Silicon conta como VRAM?
Sim. O Apple Silicon usa memória unificada que serve tanto para CPU quanto para GPU. Um M3 Max com 48 GB de memória unificada pode ser tratado como 48 GB de VRAM para fins de cálculo de LLM. O desempenho é excelente — sem offloading para RAM separada.
Fontes
- Especificação GGUF -- Documentação de ggerganov/ggml sobre o formato de arquivo quantizado.
- Documentação de quantização do Transformers -- Guia oficial do Hugging Face sobre métodos de quantização.
- Documentação do Ollama -- Guias oficiais do Ollama para gerenciamento de modelos.