Skip to main content
PromptQuorumPromptQuorum

Beste DeepSeek-Distill für Ihre GPU (2026)

Diese Seite enthält Verweislinks zu Produkten von Drittanbietern. PromptQuorum ist an keinem Partnerprogramm beteiligt — es sind reine Referenzlinks, die keine Provision erzielen. Das Anklicken von Links und Ihre nächsten Schritte liegen in Ihrer eigenen Verantwortung. Diese Links stellen keine Billigung oder Verifizierung durch PromptQuorum dar.

Schnelle Antwort

Finden Sie Ihre Karte: RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B oder 32B, RTX 4090 → 32B, Dual-GPU/48 GB → 70B. Für das beste kleine Modell auf 8 GB führen Sie DeepSeek-R1-0528-Qwen3-8B aus. Jedes läuft mit einem einzigen Ollama-Befehl bei Q4_K_M.

  • RTX 3060 12GB → deepseek-r1:7b — ~30–40 tok/s
  • RTX 4060 Ti 16GB → deepseek-r1:14b — ~25–35 tok/s (empfohlen)
  • RTX 4070 / 4080 → deepseek-r1:14b oder :32b — 14B ~40–50, 32B ~15–20 tok/s
  • RTX 4090 24GB → deepseek-r1:32b — ~30–40 tok/s, schlägt o1-mini
  • Dual-GPU / 48 GB → deepseek-r1:70b — ~12–18 tok/s
  • 8-GB-Karte, bestes kleines → DeepSeek-R1-0528-Qwen3-8B

Aktualisiert: 2026-06-19

Quantization & VRAMFortgeschritten

Wichtigste Punkte

  • RTX 3060 12GB → 7B-Distill; RTX 4060 Ti 16GB → 14B (der ideale Mittelweg); RTX 4090 → 32B (schlägt o1-mini).
  • Dual-GPU oder 48 GB → 70B-Distill, die stärkste der sechs.
  • Auf 8 GB ist das beste kleine Modell DeepSeek-R1-0528-Qwen3-8B.
  • Jedes Modell installiert sich mit einem Befehl bei Q4_K_M, z. B. `ollama run deepseek-r1:14b`.
  • Setzen Sie die Temperatur auf 0,6 und verwenden Sie keinen System-Prompt, um R1-Wiederholungsfehler zu vermeiden.
  • Dies ist die R1-Reasoning-Familie — nicht DeepSeek-V3, das ein Chat-Modell ist.

GPU → DeepSeek-R1-Distill → Ollama-Befehl

Suchen Sie Ihre GPU in der ersten Spalte und lesen Sie quer. Die tok/s-Werte sind Näherungen für Q4_K_M-Reasoning-Workloads und variieren mit Kontextlänge und Sampling-Einstellungen. Wenn zwei Modelle passen, denkt das größere besser, das kleinere ist schneller.

GPU (VRAM)Beste DistillOllama-BefehlErwartete tok/s
RTX 3060 12GB (8-GB-Klasse)DeepSeek-R1-Distill-Qwen-7Bollama run deepseek-r1:7b~30–40
8 GB, bestes kleinesDeepSeek-R1-0528-Qwen3-8Bollama run deepseek-r1-0528-qwen3:8b~30–40
RTX 4060 Ti 16GBDeepSeek-R1-Distill-Qwen-14Bollama run deepseek-r1:14b~25–35
RTX 4070 / 408014B (schnell) oder 32B (ab 16 GB)ollama run deepseek-r1:14b14B ~40–50
RTX 4090 24GBDeepSeek-R1-Distill-Qwen-32Bollama run deepseek-r1:32b~30–40
Dual-GPU / 48 GBDeepSeek-R1-Distill-Llama-70Bollama run deepseek-r1:70b~12–18

So nutzen Sie diese Tabelle in 3 Schritten

Drei Zeilen: (1) Finden Sie Ihre GPU und ihren VRAM, (2) führen Sie den passenden Ollama-Befehl aus, (3) setzen Sie Temperatur 0,6 und leeren Sie den System-Prompt. Ist ein Modell zu langsam, gehen Sie eine Stufe herunter; haben Sie freien VRAM, steigen Sie eine Stufe auf für besseres Reasoning.

V3 vs. R1: Diese Tabelle gilt nur für R1

**DeepSeek-R1 ist die Reasoning-Familie, die diese Befehle installieren; DeepSeek-V3 ist ein separates Chat-Modell.** Erwarten Sie von diesen Distills kein V3-Erlebnis — sie sind darauf abgestimmt, Schritt-für-Schritt-Reasoning für Mathematik und Logik zu zeigen. V3 ist zudem ein 671B-MoE und nicht auf Consumer-Hardware lauffähig; siehe den [DeepSeek-V3-Hardware-Bite](/prompt-bites/deepseek-v3-local-hardware-requirements).

Verwandte Anleitungen

Häufig gestellte Fragen

Welche DeepSeek-Distill läuft auf einer RTX 4090?
DeepSeek-R1-Distill-Qwen-32B. Bei Q4_K_M benötigt sie ~20,5 GB, passt in eine 24-GB-RTX-4090 (knapp beim Kontext) und schlägt OpenAI o1-mini in mehreren Reasoning-Benchmarks. Befehl: `ollama run deepseek-r1:32b`.
Was ist die beste DeepSeek-Distill für eine 8-GB-GPU?
DeepSeek-R1-0528-Qwen3-8B ist die stärkste kleine Reasoning-Distill und passt in 8 GB. Die ursprüngliche 7B-Distill (`ollama run deepseek-r1:7b`) ist die gut unterstützte Alternative.
Warum ist meine Distill langsam?
Meist VRAM-Überlauf — passt das Modell nicht, läuft es in den System-RAM über und der Durchsatz bricht ein. Gehen Sie eine Stufe herunter (z. B. 32B → 14B), damit das Modell vollständig in den VRAM passt.
Muss ich eine Quantisierung wählen?
Nein. Die Befehle `ollama run deepseek-r1:` nutzen standardmäßig Q4_K_M, den besten Kompromiss zwischen Größe und Qualität. Siehe das VRAM-Cheatsheet, wenn Sie Q8_0- oder FP16-Werte möchten.