Key Takeaways
- 7B Q4_K_M = 5 GB de VRAM. 7B Q8 = 8–9 GB. 13B Q4 = 8–9 GB. 70B Q4 = 39 GB.
- GPU econômica: RTX 4070 Ti (12 GB, R$ 3.200–3.800). Executa modelos 7–13B a 80 tok/s.
- GPU topo: RTX 4090 (24 GB, R$ 9.500–12.000). Executa qualquer modelo 70B.
- Apple Silicon M4 Pro (48 GB unificada): excelente custo-benefício para 70B sem fragmentação de VRAM.
- Sem GPU: 16 GB de RAM executa modelos 7B a 5–8 tok/s (aceitável para batch offline).