Qual modelo para matemática com 8 GB VRAM?

DeepSeek-R1-Distill-Qwen-7B. Atinge 88% MATH-500 contra 62,5% do Qwen3 7B com VRAM idêntica.

Início/Power Local LLM/DeepSeek vs Qwen: Comparativo de LLM local 2026

Overview & Reference

DeepSeek vs Qwen: Comparativo de LLM local 2026

Última atualização: 2026-05-26·11 min de leitura·Por Hans Kuepper · Fundador do PromptQuorum, ferramenta de despacho multi-modelo de IA · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt

Para matemática e raciocínio passo a passo, o DeepSeek-R1-Distill-Qwen-32B atinge 94% no MATH-500 contra 90,3% do Qwen3 32B. Para programação e texto em chinês, o Qwen3 32B atinge 91,5% no HumanEval contra 83% do destilado DeepSeek. Ambos exigem VRAM idêntica com o mesmo número de parâmetros.

Os modelos destilados do DeepSeek-R1 e o Qwen3 são as duas famílias dominantes para implantação local em 2026. Ambos exigem a mesma VRAM com o mesmo número de parâmetros — 5,5 GB para 7B em Q4_K_M — mas estão otimizados para forças opostas. Os destilados do DeepSeek-R1 lideram em matemática e raciocínio passo a passo; o Qwen3 lidera em programação e tarefas com texto em chinês. Este guia oferece uma tabela de benchmarks direta, um detalhamento por nível de hardware e um veredicto em uma frase para cada caso de uso comum.

Principais conclusões

Mesma VRAM: ambos os modelos 7B precisam de 5,5 GB em Q4_K_M; ambos os 32B precisam de 20,5 GB
Matemática: DeepSeek-R1-Distill-Qwen-32B vence (94% MATH-500 vs 90,3%)
Programação: Qwen3-Coder 32B vence (91,5% HumanEval vs 83%)
Texto em chinês: Qwen3 vence — tokenização nativa, 30–40% mais eficiente em texto CJK
Cadeias de raciocínio: os destilados DeepSeek-R1 produzem cadeias de pensamento longas por padrão
Assistente geral: o Qwen3 14B é um pouco mais fluido; o destilado DeepSeek 14B tende a raciocinar em excesso

Tabela de benchmarks comparativa

Todos os resultados com quantização Q4_K_M. Velocidade medida em NVIDIA RTX 4090 (24 GB VRAM) para linhas de GPU e Apple M3 Max 48 GB para linhas de Mac.

Modelo	VRAM	MMLU (%)	MATH-500 (%)	HumanEval (%)	Velocidade (tok/s)
Qwen3 7B	5,5 GB	72,5	62,5	74,6	50–80
DS-R1-Distill-Qwen 7B	5,5 GB	70,1	88,0	68,4	50–80
Qwen3 14B	9,5 GB	79,2	76,1	82,1	30–50
DS-R1-Distill-Qwen 14B	9,5 GB	75,8	90,0	75,5	30–50
Qwen3 32B	20,5 GB	83,4	90,3	91,5	15–30
DS-R1-Distill-Qwen 32B	20,5 GB	80,6	94,0	83,2	15–30

Qual modelo rodar em cada nível de hardware

Os requisitos de VRAM são idênticos entre as duas famílias para cada tamanho de parâmetros. A escolha entre DeepSeek e Qwen é uma preferência de tarefa, não uma restrição de hardware.

8 GB VRAM (RTX 3060 / M2 16 GB): Qwen3 7B para programação/chat; DS-R1-Distill-Qwen-7B para tutoria de matemática
12 GB VRAM (RTX 3080 / M2 Pro 24 GB): Qwen3 14B para uso geral; DS-R1-Distill-Qwen-14B para cadeias de raciocínio
24 GB VRAM (RTX 4090 / M3 Max 48 GB): Qwen3-Coder 32B ou Qwen3 32B — o melhor modelo local de propósito geral neste nível
48 GB+ (M2/M3 Ultra / RTX 4090 dupla): Qwen3 72B (86,1% MMLU, 97% HumanEval) — quase no nível do GPT-4
Só CPU (32+ GB RAM): Qwen3 7B ou DS-R1-Distill 7B — ambos rodam a 3–8 tok/s em CPUs de notebooks modernos

Modelos locais do DeepSeek explicados

A DeepSeek publicou seu modelo de raciocínio R1 como uma arquitetura MoE (mistura de especialistas) de 671B que exige hardware de nível servidor. Para uso local em hardware de consumo, a opção prática são as versões destiladas — modelos densos menores treinados para replicar o raciocínio em cadeia do R1.

DeepSeek-R1-Distill-Qwen-7B: 5,5 GB VRAM em Q4_K_M. O modelo de matemática mais forte no nível 7B (88% MATH-500). Produz cadeias de raciocínio longas; desative a cadeia de pensamento via system prompt para um chat mais rápido.
DeepSeek-R1-Distill-Qwen-14B: 9,5 GB VRAM. Melhor raciocínio por VRAM no nível 14B. Ideal para tutoria de matemática, quebra-cabeças lógicos e tarefas de análise estruturada.
DeepSeek-R1-Distill-Qwen-32B: 20,5 GB VRAM. A maior pontuação MATH-500 de qualquer modelo executável em hardware de consumo: 94%. Use-o quando a precisão matemática for prioritária sobre a programação.
DeepSeek-V3 (completo): 671B MoE — mais de 400 GB de RAM em Q4 — impraticável em hardware de consumo. Use as versões destiladas no lugar.
Comando Ollama: ollama run deepseek-r1:7b (usa o destilado Q4_K_M por padrão)

Modelos locais do Qwen3 explicados

O Qwen3 é o lançamento da Alibaba de outubro de 2025 que abrange variantes base, Coder e Vision-Language. Todos os modelos base utilizam uma janela de contexto de 128K e licença Apache 2.0.

Qwen3 7B: 5,5 GB VRAM. O melhor 7B de propósito geral para programação e texto em chinês. Os 74,6% no HumanEval superam todos os concorrentes 7B em código.
Qwen3 14B: 9,5 GB VRAM. O ponto ideal entre qualidade e velocidade. 82,1% HumanEval, 79,2% MMLU. A melhor opção para a maioria das configurações com 12 GB VRAM.
Qwen3 32B: 20,5 GB VRAM. 91,5% HumanEval — a melhor pontuação de benchmark de programação abaixo de 48 GB VRAM.
Qwen3-Coder 32B: Mesma VRAM que o base 32B, ajustado especificamente para geração e revisão de código. Use-o no lugar do base quando a programação for a tarefa principal.
Qwen3 72B: 46 GB VRAM. 86,1% MMLU, 97% HumanEval. Só funciona em memória unificada de 48+ GB (M2/M3 Ultra) ou configurações multi-GPU.
Comando Ollama: ollama run qwen2.5:14b-instruct-q4_K_M

Apple Silicon vs NVIDIA: rodar ambas as famílias

Tanto os destilados do DeepSeek quanto o Qwen3 rodam bem em Apple Silicon via Ollama ou llama.cpp com aceleração Metal. A diferença principal é a largura de banda de memória.

Hardware	Melhor nível de modelo	Velocidade (7B)	Velocidade (32B)	Notas
M2/M3 16 GB	Só 7B	30–50 tok/s	N/A	Ambos os modelos 7B cabem; o 14B usa swap
M3 Pro 36 GB	Ponto ideal 14B	60–90 tok/s	N/A	14B em velocidade total; o 32B usa swap
M3 Max 48 GB	32B confortavelmente	80–120 tok/s	15–25 tok/s	O melhor Apple de consumo para 32B
RTX 4060 8 GB	Só 7B	50–80 tok/s	N/A (offload parcial)	7B cabe completo; o 14B exige offload para CPU
RTX 4090 24 GB	32B	100–150 tok/s	18–28 tok/s	A melhor GPU individual para 32B

Veredictos por caso de uso

Resposta em uma frase para cada caso de uso comum de LLM local:

Lição de matemática / tutoria: DS-R1-Distill-Qwen-7B — 88% MATH-500 supera o Qwen3 7B (62,5%) com a mesma VRAM
Geração / revisão de código: Qwen3-Coder 32B — 91,5% HumanEval, o mais alto de qualquer modelo executável em hardware de consumo
Chat em chinês: Qwen3 7B — tokenização CJK nativa, 30–40% mais eficiente em token com texto chinês
Análise passo a passo / cadeias de raciocínio: DS-R1-Distill-Qwen-14B — produz cadeia de pensamento explícita por padrão
Assistente geral do dia a dia (8 GB VRAM): Qwen3 7B — conversa mais fluida, evita o excesso de raciocínio do DeepSeek em tarefas simples
Implantação corporativa privada (China): Qwen3 — licença Apache 2.0, a procedência Alibaba simplifica a documentação de conformidade CAC

FAQ

O DeepSeek-R1 é o mesmo que os modelos destilados?

Não. O DeepSeek-R1 é o modelo de mistura de especialistas de 671B que exige hardware de servidor. As versões destiladas (7B, 14B, 32B) são modelos densos independentes treinados para replicar seu estilo de raciocínio — estas são as opções práticas para uso local.

DeepSeek e Qwen usam a mesma VRAM em cada tamanho de parâmetros?

Sim, no mesmo nível de quantização. Ambos os modelos 7B precisam de aproximadamente 5,5 GB em Q4_K_M; ambos os modelos 32B precisam de 20,5 GB. A escolha de hardware é sobre preferência de tarefa, não diferença de VRAM.

Posso rodar os modelos destilados do DeepSeek-R1 com o Ollama?

Sim. Rode ollama run deepseek-r1:7b para o destilado 7B ou ollama run deepseek-r1:32b para o 32B. O Ollama baixa o Q4_K_M por padrão.

Qual é melhor para texto em chinês: DeepSeek ou Qwen?

O Qwen3 é significativamente melhor para texto em chinês. Utiliza um tokenizador chinês projetado especificamente que é 30–40% mais eficiente em texto CJK. Os modelos destilados do DeepSeek-R1 são construídos sobre pesos do Qwen3, por isso também herdam um suporte razoável de chinês, mas os modelos base do Qwen3 são a primeira escolha.

Qual modelo devo usar para matemática com 8 GB VRAM?

DeepSeek-R1-Distill-Qwen-7B. Atinge 88% no MATH-500 contra 62,5% do Qwen3 7B — uma diferença de 25 pontos — com uso de VRAM idêntico.

Rodar o DeepSeek-R1 localmente cumpre as leis de dados?

Rodar qualquer modelo localmente significa que os dados nunca saem do seu hardware, o que satisfaz os requisitos de residência de dados independentemente da origem do modelo. A questão de conformidade é sobre o tratamento de dados, não a procedência do modelo.

← Voltar para Power Local LLM