Beste DeepSeek-Distill für Ihre GPU (2026)
Diese Seite enthält Verweislinks zu Produkten von Drittanbietern. PromptQuorum ist an keinem Partnerprogramm beteiligt — es sind reine Referenzlinks, die keine Provision erzielen. Das Anklicken von Links und Ihre nächsten Schritte liegen in Ihrer eigenen Verantwortung. Diese Links stellen keine Billigung oder Verifizierung durch PromptQuorum dar.
Schnelle Antwort
Finden Sie Ihre Karte: RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B oder 32B, RTX 4090 → 32B, Dual-GPU/48 GB → 70B. Für das beste kleine Modell auf 8 GB führen Sie DeepSeek-R1-0528-Qwen3-8B aus. Jedes läuft mit einem einzigen Ollama-Befehl bei Q4_K_M.
- ▸RTX 3060 12GB → deepseek-r1:7b — ~30–40 tok/s
- ▸RTX 4060 Ti 16GB → deepseek-r1:14b — ~25–35 tok/s (empfohlen)
- ▸RTX 4070 / 4080 → deepseek-r1:14b oder :32b — 14B ~40–50, 32B ~15–20 tok/s
- ▸RTX 4090 24GB → deepseek-r1:32b — ~30–40 tok/s, schlägt o1-mini
- ▸Dual-GPU / 48 GB → deepseek-r1:70b — ~12–18 tok/s
- ▸8-GB-Karte, bestes kleines → DeepSeek-R1-0528-Qwen3-8B
Aktualisiert: 2026-06-19
Wichtigste Punkte
- ✓RTX 3060 12GB → 7B-Distill; RTX 4060 Ti 16GB → 14B (der ideale Mittelweg); RTX 4090 → 32B (schlägt o1-mini).
- ✓Dual-GPU oder 48 GB → 70B-Distill, die stärkste der sechs.
- ✓Auf 8 GB ist das beste kleine Modell DeepSeek-R1-0528-Qwen3-8B.
- ✓Jedes Modell installiert sich mit einem Befehl bei Q4_K_M, z. B. `ollama run deepseek-r1:14b`.
- ✓Setzen Sie die Temperatur auf 0,6 und verwenden Sie keinen System-Prompt, um R1-Wiederholungsfehler zu vermeiden.
- ✓Dies ist die R1-Reasoning-Familie — nicht DeepSeek-V3, das ein Chat-Modell ist.
GPU → DeepSeek-R1-Distill → Ollama-Befehl
Suchen Sie Ihre GPU in der ersten Spalte und lesen Sie quer. Die tok/s-Werte sind Näherungen für Q4_K_M-Reasoning-Workloads und variieren mit Kontextlänge und Sampling-Einstellungen. Wenn zwei Modelle passen, denkt das größere besser, das kleinere ist schneller.
| GPU (VRAM) | Beste Distill | Ollama-Befehl | Erwartete tok/s |
|---|---|---|---|
| RTX 3060 12GB (8-GB-Klasse) | DeepSeek-R1-Distill-Qwen-7B | ollama run deepseek-r1:7b | ~30–40 |
| 8 GB, bestes kleines | DeepSeek-R1-0528-Qwen3-8B | ollama run deepseek-r1-0528-qwen3:8b | ~30–40 |
| RTX 4060 Ti 16GB | DeepSeek-R1-Distill-Qwen-14B | ollama run deepseek-r1:14b | ~25–35 |
| RTX 4070 / 4080 | 14B (schnell) oder 32B (ab 16 GB) | ollama run deepseek-r1:14b | 14B ~40–50 |
| RTX 4090 24GB | DeepSeek-R1-Distill-Qwen-32B | ollama run deepseek-r1:32b | ~30–40 |
| Dual-GPU / 48 GB | DeepSeek-R1-Distill-Llama-70B | ollama run deepseek-r1:70b | ~12–18 |
So nutzen Sie diese Tabelle in 3 Schritten
Drei Zeilen: (1) Finden Sie Ihre GPU und ihren VRAM, (2) führen Sie den passenden Ollama-Befehl aus, (3) setzen Sie Temperatur 0,6 und leeren Sie den System-Prompt. Ist ein Modell zu langsam, gehen Sie eine Stufe herunter; haben Sie freien VRAM, steigen Sie eine Stufe auf für besseres Reasoning.
V3 vs. R1: Diese Tabelle gilt nur für R1
**DeepSeek-R1 ist die Reasoning-Familie, die diese Befehle installieren; DeepSeek-V3 ist ein separates Chat-Modell.** Erwarten Sie von diesen Distills kein V3-Erlebnis — sie sind darauf abgestimmt, Schritt-für-Schritt-Reasoning für Mathematik und Logik zu zeigen. V3 ist zudem ein 671B-MoE und nicht auf Consumer-Hardware lauffähig; siehe den [DeepSeek-V3-Hardware-Bite](/prompt-bites/deepseek-v3-local-hardware-requirements).
Verwandte Anleitungen
- ▸DeepSeek-R1-Distill VRAM-Cheatsheet — jede Distill nach Quant (Q4_K_M, Q8, FP16) mit VRAM und Mindest-GPU
- ▸Bestes lokales Reasoning-Modell 2026: DeepSeek-R1 im Ranking — die vollständige Rangliste mit Benchmarks und Stufen
- ▸DeepSeek-V3 lokale Hardware-Anforderungen — das V3-Chat-Modell-Gegenstück
Häufig gestellte Fragen
Welche DeepSeek-Distill läuft auf einer RTX 4090?▾
Was ist die beste DeepSeek-Distill für eine 8-GB-GPU?▾
Warum ist meine Distill langsam?▾
Muss ich eine Quantisierung wählen?▾
Den vollständigen Überblick?
Die vollständige Anleitung lesen →Verwandte Prompt Bites