Principais conclusões
- Mesma VRAM: ambos os modelos 7B precisam de 5,5 GB em Q4_K_M; ambos os 32B precisam de 20,5 GB
- Matemática: DeepSeek-R1-Distill-Qwen-32B vence (94% MATH-500 vs 90,3%)
- Programação: Qwen3-Coder 32B vence (91,5% HumanEval vs 83%)
- Texto em chinês: Qwen3 vence — tokenização nativa, 30–40% mais eficiente em texto CJK
- Cadeias de raciocínio: os destilados DeepSeek-R1 produzem cadeias de pensamento longas por padrão
- Assistente geral: o Qwen3 14B é um pouco mais fluido; o destilado DeepSeek 14B tende a raciocinar em excesso
Tabela de benchmarks comparativa
Todos os resultados com quantização Q4_K_M. Velocidade medida em NVIDIA RTX 4090 (24 GB VRAM) para linhas de GPU e Apple M3 Max 48 GB para linhas de Mac.
| Modelo | VRAM | MMLU (%) | MATH-500 (%) | HumanEval (%) | Velocidade (tok/s) |
|---|---|---|---|---|---|
| Qwen3 7B | 5,5 GB | 72,5 | 62,5 | 74,6 | 50–80 |
| DS-R1-Distill-Qwen 7B | 5,5 GB | 70,1 | 88,0 | 68,4 | 50–80 |
| Qwen3 14B | 9,5 GB | 79,2 | 76,1 | 82,1 | 30–50 |
| DS-R1-Distill-Qwen 14B | 9,5 GB | 75,8 | 90,0 | 75,5 | 30–50 |
| Qwen3 32B | 20,5 GB | 83,4 | 90,3 | 91,5 | 15–30 |
| DS-R1-Distill-Qwen 32B | 20,5 GB | 80,6 | 94,0 | 83,2 | 15–30 |
Qual modelo rodar em cada nível de hardware
Os requisitos de VRAM são idênticos entre as duas famílias para cada tamanho de parâmetros. A escolha entre DeepSeek e Qwen é uma preferência de tarefa, não uma restrição de hardware.
- 8 GB VRAM (RTX 3060 / M2 16 GB): Qwen3 7B para programação/chat; DS-R1-Distill-Qwen-7B para tutoria de matemática
- 12 GB VRAM (RTX 3080 / M2 Pro 24 GB): Qwen3 14B para uso geral; DS-R1-Distill-Qwen-14B para cadeias de raciocínio
- 24 GB VRAM (RTX 4090 / M3 Max 48 GB): Qwen3-Coder 32B ou Qwen3 32B — o melhor modelo local de propósito geral neste nível
- 48 GB+ (M2/M3 Ultra / RTX 4090 dupla): Qwen3 72B (86,1% MMLU, 97% HumanEval) — quase no nível do GPT-4
- Só CPU (32+ GB RAM): Qwen3 7B ou DS-R1-Distill 7B — ambos rodam a 3–8 tok/s em CPUs de notebooks modernos
Modelos locais do DeepSeek explicados
A DeepSeek publicou seu modelo de raciocínio R1 como uma arquitetura MoE (mistura de especialistas) de 671B que exige hardware de nível servidor. Para uso local em hardware de consumo, a opção prática são as versões destiladas — modelos densos menores treinados para replicar o raciocínio em cadeia do R1.
- DeepSeek-R1-Distill-Qwen-7B: 5,5 GB VRAM em Q4_K_M. O modelo de matemática mais forte no nível 7B (88% MATH-500). Produz cadeias de raciocínio longas; desative a cadeia de pensamento via system prompt para um chat mais rápido.
- DeepSeek-R1-Distill-Qwen-14B: 9,5 GB VRAM. Melhor raciocínio por VRAM no nível 14B. Ideal para tutoria de matemática, quebra-cabeças lógicos e tarefas de análise estruturada.
- DeepSeek-R1-Distill-Qwen-32B: 20,5 GB VRAM. A maior pontuação MATH-500 de qualquer modelo executável em hardware de consumo: 94%. Use-o quando a precisão matemática for prioritária sobre a programação.
- DeepSeek-V3 (completo): 671B MoE — mais de 400 GB de RAM em Q4 — impraticável em hardware de consumo. Use as versões destiladas no lugar.
- Comando Ollama:
ollama run deepseek-r1:7b(usa o destilado Q4_K_M por padrão)
Modelos locais do Qwen3 explicados
O Qwen3 é o lançamento da Alibaba de outubro de 2025 que abrange variantes base, Coder e Vision-Language. Todos os modelos base utilizam uma janela de contexto de 128K e licença Apache 2.0.
- Qwen3 7B: 5,5 GB VRAM. O melhor 7B de propósito geral para programação e texto em chinês. Os 74,6% no HumanEval superam todos os concorrentes 7B em código.
- Qwen3 14B: 9,5 GB VRAM. O ponto ideal entre qualidade e velocidade. 82,1% HumanEval, 79,2% MMLU. A melhor opção para a maioria das configurações com 12 GB VRAM.
- Qwen3 32B: 20,5 GB VRAM. 91,5% HumanEval — a melhor pontuação de benchmark de programação abaixo de 48 GB VRAM.
- Qwen3-Coder 32B: Mesma VRAM que o base 32B, ajustado especificamente para geração e revisão de código. Use-o no lugar do base quando a programação for a tarefa principal.
- Qwen3 72B: 46 GB VRAM. 86,1% MMLU, 97% HumanEval. Só funciona em memória unificada de 48+ GB (M2/M3 Ultra) ou configurações multi-GPU.
- Comando Ollama:
ollama run qwen2.5:14b-instruct-q4_K_M
Apple Silicon vs NVIDIA: rodar ambas as famílias
Tanto os destilados do DeepSeek quanto o Qwen3 rodam bem em Apple Silicon via Ollama ou llama.cpp com aceleração Metal. A diferença principal é a largura de banda de memória.
| Hardware | Melhor nível de modelo | Velocidade (7B) | Velocidade (32B) | Notas |
|---|---|---|---|---|
| M2/M3 16 GB | Só 7B | 30–50 tok/s | N/A | Ambos os modelos 7B cabem; o 14B usa swap |
| M3 Pro 36 GB | Ponto ideal 14B | 60–90 tok/s | N/A | 14B em velocidade total; o 32B usa swap |
| M3 Max 48 GB | 32B confortavelmente | 80–120 tok/s | 15–25 tok/s | O melhor Apple de consumo para 32B |
| RTX 4060 8 GB | Só 7B | 50–80 tok/s | N/A (offload parcial) | 7B cabe completo; o 14B exige offload para CPU |
| RTX 4090 24 GB | 32B | 100–150 tok/s | 18–28 tok/s | A melhor GPU individual para 32B |
Veredictos por caso de uso
Resposta em uma frase para cada caso de uso comum de LLM local:
- Lição de matemática / tutoria: DS-R1-Distill-Qwen-7B — 88% MATH-500 supera o Qwen3 7B (62,5%) com a mesma VRAM
- Geração / revisão de código: Qwen3-Coder 32B — 91,5% HumanEval, o mais alto de qualquer modelo executável em hardware de consumo
- Chat em chinês: Qwen3 7B — tokenização CJK nativa, 30–40% mais eficiente em token com texto chinês
- Análise passo a passo / cadeias de raciocínio: DS-R1-Distill-Qwen-14B — produz cadeia de pensamento explícita por padrão
- Assistente geral do dia a dia (8 GB VRAM): Qwen3 7B — conversa mais fluida, evita o excesso de raciocínio do DeepSeek em tarefas simples
- Implantação corporativa privada (China): Qwen3 — licença Apache 2.0, a procedência Alibaba simplifica a documentação de conformidade CAC
FAQ
O DeepSeek-R1 é o mesmo que os modelos destilados?
Não. O DeepSeek-R1 é o modelo de mistura de especialistas de 671B que exige hardware de servidor. As versões destiladas (7B, 14B, 32B) são modelos densos independentes treinados para replicar seu estilo de raciocínio — estas são as opções práticas para uso local.
DeepSeek e Qwen usam a mesma VRAM em cada tamanho de parâmetros?
Sim, no mesmo nível de quantização. Ambos os modelos 7B precisam de aproximadamente 5,5 GB em Q4_K_M; ambos os modelos 32B precisam de 20,5 GB. A escolha de hardware é sobre preferência de tarefa, não diferença de VRAM.
Posso rodar os modelos destilados do DeepSeek-R1 com o Ollama?
Sim. Rode ollama run deepseek-r1:7b para o destilado 7B ou ollama run deepseek-r1:32b para o 32B. O Ollama baixa o Q4_K_M por padrão.
Qual é melhor para texto em chinês: DeepSeek ou Qwen?
O Qwen3 é significativamente melhor para texto em chinês. Utiliza um tokenizador chinês projetado especificamente que é 30–40% mais eficiente em texto CJK. Os modelos destilados do DeepSeek-R1 são construídos sobre pesos do Qwen3, por isso também herdam um suporte razoável de chinês, mas os modelos base do Qwen3 são a primeira escolha.
Qual modelo devo usar para matemática com 8 GB VRAM?
DeepSeek-R1-Distill-Qwen-7B. Atinge 88% no MATH-500 contra 62,5% do Qwen3 7B — uma diferença de 25 pontos — com uso de VRAM idêntico.
Rodar o DeepSeek-R1 localmente cumpre as leis de dados?
Rodar qualquer modelo localmente significa que os dados nunca saem do seu hardware, o que satisfaz os requisitos de residência de dados independentemente da origem do modelo. A questão de conformidade é sobre o tratamento de dados, não a procedência do modelo.