Wichtigste Erkenntnisse
- Sie können das vollständige DeepSeek-R1 mit 671B nicht zu Hause ausführen – es braucht ~376–404 GB VRAM bei Q4 (nur Rechenzentrum). Sie führen einen seiner Distills aus.
- Es gibt 6 offizielle Distills: 1.5B, 7B, 14B, 32B (Qwen2.5-Basis) sowie 8B, 70B (Llama-3-Basis).
- Sweet Spot: DeepSeek-R1-Distill-Qwen-14B auf einer 16-GB-GPU – ~9 GB bei Q4_K_M, starke mehrstufige Mathematik.
- Bester Single-GPU-Reasoner: Der 32B-Distill schlägt OpenAI o1-mini in mehreren Reasoning-Benchmarks; auf 24 GB wird es knapp.
- Bestes kleines Modell: DeepSeek-R1-0528-Qwen3-8B führt bei AIME 2024 unter den offenen 8B-Modellen und passt auf eine 8-GB-Karte.
- Alle Distills installieren sich mit einem Befehl, z. B. `ollama run deepseek-r1:14b` (Standard Q4_K_M).
- Setzen Sie die Temperatur auf 0.6 und verwenden Sie keinen System-Prompt – packen Sie alle Anweisungen in den User-Prompt, um R1-Wiederholungsfehler zu vermeiden.
- Diese Seite bewertet ausschließlich Reasoning (Mathe, Logik, mehrstufig). Für Coding siehe den DeepSeek-vs-Qwen-Coding-Leitfaden.
Was ist ein lokales Reasoning-Modell?
Ein Reasoning-Modell ist ein LLM, das darauf trainiert ist, vor seiner endgültigen Antwort eine explizite Gedankenkette (Chain-of-Thought) zu erzeugen, was es bei Mathe, Logik und mehrstufigen Problemen weit stärker macht als ein Standard-Chat-Modell gleicher Größe. DeepSeek-R1-Distills sind Reasoning-Modelle: Sie „denken laut" innerhalb der Antwort, prüfen und überarbeiten Schritte, bevor sie sich auf eine Antwort festlegen.
Der Kompromiss sind Latenz und Wortfülle. Ein Reasoning-Modell verbraucht zusätzliche Tokens, um das Problem durchzuarbeiten, sodass eine einzelne Antwort mehrere Sekunden und Hunderte Tokens sichtbares Reasoning dauern kann. Für einen mathematischen Beweis oder ein Logikrätsel ist genau das gewünscht; für eine schnelle Faktenabfrage ist es verschwendete Zeit.
Die Unterscheidung, über die Menschen stolpern: DeepSeek-V3 ist ein Chat-Modell, DeepSeek-R1 ist das Reasoning-Modell. Sie teilen sich eine Architektur-Abstammung, sind aber für unterschiedliche Aufgaben abgestimmt. Wenn Sie konversationelle Antworten möchten, nutzen Sie V3; wenn Sie schrittweises Problemlösen möchten, nutzen Sie R1 oder einen seiner Distills. Wir erklären genau, was die Distillation behält und verliert, in DeepSeek-R1 vs. die Distills.
Für eine tiefergehende Einführung in den Betrieb dieser Modelle beginnen Sie mit dem Hardware-Leitfaden für lokale LLMs 2026 und LLM-Quantisierung erklärt, die die VRAM-Rechnung abdecken, auf die sich dieser Leitfaden stützt.
📍 In einem Satz
Ein lokales Reasoning-Modell ist ein LLM, das vor dem Antworten eine explizite Gedankenkette schreibt, was es bei Mathe und Logik stärker macht als ein Chat-Modell gleicher Größe.
💬 In einfachen Worten
Stellen Sie sich ein Reasoning-Modell wie einen Schüler vor, der seinen Rechenweg zeigt. Es ist langsamer und schreibt mehr, aber es löst mehrstufige Probleme weit häufiger korrekt als ein Modell, das eine Antwort einfach herausplatzt.
Die 6 DeepSeek-R1-Distills im Überblick
DeepSeek hat sechs offizielle Distills von R1 veröffentlicht, jeder durch Feinabstimmung eines bestehenden offenen Basismodells auf Reasoning-Spuren des vollständigen 671B-R1 erstellt. Vier nutzen eine Qwen2.5-Basis (1.5B, 7B, 14B, 32B) und zwei eine Llama-3-Basis (8B, 70B). Die VRAM-Angaben unten gelten für die Ollama-Standardquantisierung Q4_K_M.
📍 In einem Satz
DeepSeek-R1 hat sechs offizielle Distills von 1.5B bis 70B, aufbauend auf Qwen2.5- und Llama-3-Basen, wobei das 14B-Modell die beste Balance für eine 16-GB-GPU darstellt.
| Distill | Basismodell | Dateigröße (Q4_K_M) | Min. VRAM | Am besten für |
|---|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5 1.5B | ~1.1 GB | 4 GB / CPU | Edge-Geräte, schnelle Tests |
| DeepSeek-R1-Distill-Qwen-7B | Qwen2.5 7B | ~4.7 GB | 8 GB | Einstiegs-GPUs, 55.5% AIME 2024 |
| DeepSeek-R1-Distill-Llama-8B | Llama 3 8B | ~4.9 GB | 8 GB | Workflows mit Llama-Lizenz |
| DeepSeek-R1-Distill-Qwen-14B | Qwen2.5 14B | ~9 GB | 16 GB | Beste Gesamtbalance |
| DeepSeek-R1-Distill-Qwen-32B | Qwen2.5 32B | ~18–20 GB | 24 GB | Schlägt o1-mini, beste Single-GPU |
| DeepSeek-R1-Distill-Llama-70B | Llama 3 70B | ~40 GB | Dual-GPU / 48 GB | Stärkster Distill, max. Genauigkeit |
Der DeepSeek-R1-Distill-Llama-8B trägt sowohl die Llama-3-Lizenz als auch die MIT-Lizenz. Die Qwen-basierten Distills erben die Qwen-Lizenzierung. Prüfen Sie für die kommerzielle Nutzung immer die Lizenz.
Der beste kleine Reasoning-Distill: DeepSeek-R1-0528-Qwen3-8B
DeepSeek-R1-0528-Qwen3-8B ist das stärkste kleine Reasoning-Modell, das Sie auf einer 8-GB-GPU ausführen können, distilliert vom aktualisierten R1-0528 auf eine Qwen3-8B-Basis. Es führt bei AIME 2024 unter den offenen 8B-Modellen und erreicht in diesem Benchmark rund 10 Prozentpunkte mehr als das Basis-Qwen3-8B – ein bedeutsamer Sprung für Mathe und Logik in dieser Größe.
Wählen Sie es gegenüber den ursprünglichen 7B- und 8B-Distills, wenn Sie die beste Genauigkeit für ein kleines Modell wollen und Ihre Hardware bei 8 GB endet. Es passt in dieselbe RTX-3060-12GB-Stufe und läuft bei Q4_K_M in rund 5 GB. Für die meisten Laptop- und Einstiegs-GPU-Nutzer, denen Reasoning-Qualität wichtiger ist als reine Geschwindigkeit, ist dies das Modell für den Einstieg.
💬 In einfachen Worten
Wenn Ihre GPU 8 GB hat, ist das neuere R1-0528-Qwen3-8B das klügste kleine Reasoning-Modell – es nutzt eine bessere Basis als die ursprünglichen Distills und erreicht höhere Werte bei Wettbewerbsmathematik.
DeepSeek-R1-Distills nach Hardware-Stufe geordnet
Wählen Sie die höchste Stufe, die Ihr VRAM unterstützt. Mehr Parameter bedeuten besseres Reasoning, aber nur, wenn das Modell passt, ohne in den System-RAM auszulagern (was die Geschwindigkeit einbrechen lässt). Nutzen Sie dieses Ranking, um einen Distill an die GPU anzupassen, die Sie besitzen oder kaufen möchten.
Wie schneiden die DeepSeek-R1-Distills in Reasoning-Benchmarks ab?
Dies sind Reasoning-Benchmarks – AIME 2024 (Wettbewerbsmathematik), MATH-500 (gemischte Mathematik) und GPQA Diamond (Wissenschaftsfragen auf Hochschulniveau). Sie messen schrittweises Problemlösen, nicht Coding. Das zentrale Ergebnis: Der 32B-Distill schlägt OpenAI o1-mini in mehreren davon, und der 7B-Distill erreicht 55.5% bei AIME 2024 – ein Wert, den kein Chat-Modell gleicher Größe erreicht.
📍 In einem Satz
Der DeepSeek-R1-Distill-Qwen-32B schlägt OpenAI o1-mini in mehreren Reasoning-Benchmarks, und der 7B-Distill erreicht 55.5% bei AIME 2024.
| Distill | AIME 2024 | Reasoning-Stufe | Anmerkungen |
|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-7B | 55.5% | Stark für 7B | Bester Einstiegs-GPU-Reasoner |
| DeepSeek-R1-0528-Qwen3-8B | Führt bei offenen 8B | Bester kleiner | ~+10 Pkt. über Basis-Qwen3-8B |
| DeepSeek-R1-Distill-Qwen-14B | Höher als 7B | Beste Balance | 16-GB-Sweet-Spot |
| DeepSeek-R1-Distill-Qwen-32B | Top Single-GPU | Schlägt o1-mini | Bester 24-GB-Reasoner |
| DeepSeek-R1-Distill-Llama-70B | Höchster der sechs | Maximum | Braucht Dual-GPU |
Verwenden Sie exakte Werte, wo veröffentlicht (7B = 55.5% AIME 2024), und relative Rankings andernorts. Benchmark-Zahlen verschieben sich mit Quantisierung und Sampling-Einstellungen; behandeln Sie sie als richtungsweisend innerhalb einer Stufe, nicht als absolut.
Wann sollten Sie KEIN Reasoning-Modell nutzen?
Vermeiden Sie ein Reasoning-Modell, wenn die Aufgabe keine Reasoning-Aufgabe ist – sie sind langsamer, wortreicher und bei einfacher Abfrage oder Chat nicht genauer. Nutzen Sie stattdessen ein Standard-Chat-Modell wie DeepSeek-V3 oder Llama 3.3.
- Vermeiden Sie es bei schnellen Faktenabfragen – die sichtbare Gedankenkette verschwendet Tokens und Zeit bei Antworten, die ein Chat-Modell sofort liefert.
- Vermeiden Sie es bei offener Konversation – Reasoning-Modelle sind auf Probleme mit einer korrekten Antwort abgestimmt, nicht auf Dialog.
- Vermeiden Sie es für reinen Coding-Durchsatz – für Codegenerierung gehen Sie zum DeepSeek-vs-Qwen-Coding-Leitfaden; diese Seite behandelt ausschließlich Reasoning.
- Vermeiden Sie es, wenn Latenz entscheidend ist – wenn Sie Antworten unter einer Sekunde brauchen, gewinnt ein kleineres Chat-Modell.
- Nutzen Sie ein Reasoning-Modell, wenn die Aufgabe Mathe, Logik, mehrstufige Planung oder alles ist, bei dem das Zeigen des Rechenwegs die Korrektheit verbessert.
Konfigurations-Profitipp: Temperatur 0.6 und kein System-Prompt
Setzen Sie die Temperatur auf 0.6 (der Bereich 0.5–0.7 ist sicher) und verwenden Sie keinen System-Prompt – packen Sie jede Anweisung in den User-Prompt. Dies ist die einzige wichtigste Konfiguration für DeepSeek-R1-Distills. Die Modelle neigen zu einem Wiederholungs- und Inkohärenz-Fehlermodus, wenn ihnen ein System-Prompt oder eine Temperatur nahe 0 oder über ~0.8 gegeben wird.
In der Praxis: Lassen Sie das System-Prompt-Feld in Ollama/LM Studio leer, stellen Sie Ihre Anweisungen der User-Nachricht voran und halten Sie die Temperatur bei 0.6. Wenn Sie sehen, dass das Modell in eine Schleife gerät oder mitten im Reasoning abdriftet, ist diese Einstellung fast immer die Lösung.
Einrichtung: Ollama-Schnellstart pro Stufe
Jeder Distill installiert und läuft mit einem einzigen Ollama-Befehl (alle standardmäßig Q4_K_M). Installieren Sie zuerst Ollama, falls noch nicht geschehen – siehe So installieren Sie Ollama. Wählen Sie dann den Befehl für Ihre Stufe:
ollama run deepseek-r1:1.5b # edge / CPU
ollama run deepseek-r1:7b # 8 GB VRAM
ollama run deepseek-r1:8b # 8 GB VRAM (Llama base)
ollama run deepseek-r1:14b # 16 GB VRAM — recommended
ollama run deepseek-r1:32b # 24 GB VRAM — beats o1-mini
ollama run deepseek-r1:70b # dual-GPU / 48 GBFazit: Welchen DeepSeek-R1-Distill sollten Sie ausführen?
Die Entscheidung hängt von Ihrem VRAM ab und davon, ob Sie Genauigkeit oder Geschwindigkeit priorisieren. Hier ist die einzeilige Antwort für jeden Fall.
Wählen Sie Ihren Distill
Use a local LLM if:
- •16-GB-GPU → DeepSeek-R1-Distill-Qwen-14B (insgesamt am besten, die Standardwahl)
- •24-GB-GPU → DeepSeek-R1-Distill-Qwen-32B (schlägt o1-mini, bester Single-GPU-Reasoner)
- •8-GB-GPU → DeepSeek-R1-0528-Qwen3-8B (bester kleiner) oder der 7B-Distill
- •Dual-GPU / 48 GB → DeepSeek-R1-Distill-Llama-70B (maximale Genauigkeit)
Use a cloud model if:
- •Sie benötigen Spitzen-Reasoning jenseits jedes Distills → vergleichen Sie über PromptQuorum gegen GPT-4o / Claude / Gemini
- •Sie können keine GPU bereitstellen → eine gehostete Reasoning-API kann günstiger sein als Hardware zu kaufen
Quick decision:
- →Wenn Sie unsicher sind, beginnen Sie mit dem 14B auf einer 16-GB-Karte.
- →Führen Sie es immer bei Temperatur 0.6 ohne System-Prompt aus.
- →Für Coding nutzen Sie ein Coding-Modell – keinen Reasoning-Distill.
Häufig gestellte Fragen
Kann ich das vollständige DeepSeek-R1 mit 671B lokal ausführen?
Nein. Das vollständige DeepSeek-R1 ist ein Mixture-of-Experts-Modell mit 671B Parametern (~37B aktiv pro Token) und braucht bei Q4 rund 376–404 GB VRAM – nur Rechenzentrums-Hardware. Zu Hause führen Sie einen seiner Distills aus (1.5B bis 70B). Ein Unsloth-1.58-Bit-Build (~131 GB) existiert, läuft aber mit rund 0.3 Tokens/Sekunde, was eher eine Kuriosität als ein nutzbares Setup ist.
Welcher DeepSeek-R1-Distill ist insgesamt am besten?
Für die meisten Menschen ist DeepSeek-R1-Distill-Qwen-14B auf einer 16-GB-GPU die beste Balance aus Reasoning-Qualität, Geschwindigkeit und VRAM-Passung. Wenn Sie eine 24-GB-Karte haben, ist der 32B-Distill stärker und schlägt OpenAI o1-mini in mehreren Reasoning-Benchmarks.
Was ist das beste kleine DeepSeek-Reasoning-Modell?
DeepSeek-R1-0528-Qwen3-8B. Es ist vom aktualisierten R1-0528 auf eine Qwen3-8B-Basis distilliert, führt bei AIME 2024 unter den offenen 8B-Modellen und erreicht etwa 10 Punkte mehr als das Basis-Qwen3-8B. Es passt bei Q4_K_M auf eine 8-GB-GPU.
Wie viel VRAM braucht jeder Distill?
Beim Ollama-Standard Q4_K_M: 7B braucht ~8 GB (Datei ~4.7 GB), 14B braucht ~16 GB (~9 GB Datei), 32B braucht ~24 GB (~18–20 GB Datei) und 70B braucht Dual-GPU oder 48 GB (~40 GB Datei). FP16 ist rund 4× so groß wie Q4_K_M; Q8_0 ist rund 2×.
Ist DeepSeek-R1 gut im Coding?
Dieser Leitfaden bewertet ausschließlich Reasoning (Mathe, Logik, mehrstufig). Für Codegenerierung sind die Kompromisse anders – siehe unseren dedizierten Vergleich unter /power-local-llm/deepseek-vs-qwen-coding-local-2026, statt einen Reasoning-Distill für Coding-Durchsatz zu wählen.
Was ist der Unterschied zwischen DeepSeek-V3 und DeepSeek-R1?
DeepSeek-V3 ist ein Chat-Modell, das auf Konversation abgestimmt ist; DeepSeek-R1 ist ein Reasoning-Modell, das vor dem Antworten eine explizite Gedankenkette erzeugt. Für Mathe und Logik nutzen Sie R1 oder einen Distill; für allgemeinen Chat nutzen Sie V3.
Warum gerät mein DeepSeek-R1-Distill in eine Schleife oder produziert Kauderwelsch?
Fast immer ein Konfigurationsproblem. Setzen Sie die Temperatur auf 0.6 (0.5–0.7 ist in Ordnung) und entfernen Sie jeden System-Prompt – packen Sie alle Anweisungen in die User-Nachricht. R1-Distills haben einen bekannten Wiederholungs-Fehlermodus, der durch System-Prompts und extreme Temperaturen ausgelöst wird.
Wie installiere ich einen DeepSeek-R1-Distill?
Installieren Sie Ollama und führen Sie dann einen Befehl für Ihre Stufe aus, z. B. `ollama run deepseek-r1:14b`. Alle Distills sind standardmäßig Q4_K_M. Die vollständige Befehlsliste finden Sie im Einrichtungsabschnitt oben.
Hat der 8B-Distill eine andere Lizenz?
Ja. DeepSeek-R1-Distill-Llama-8B trägt zusätzlich zu MIT die Llama-3-Lizenz, weil seine Basis Llama 3 ist. Die Qwen-basierten Distills (1.5B, 7B, 14B, 32B) erben die Qwen-Lizenzierung. Prüfen Sie die Lizenz vor der kommerziellen Nutzung.
Sollte ich für Reasoning eine RTX 4060 Ti 16GB oder eine RTX 4090 kaufen?
Wenn Ihr Budget die RTX 4090 zulässt und Sie den 32B-Distill ausführen möchten (der o1-mini schlägt), kaufen Sie die 4090. Wenn Sie das beste Preis-Leistungs-Verhältnis wollen und der 14B-Distill Ihren Bedarf deckt, ist die RTX 4060 Ti 16GB für ~$420 der klügere Kauf.
Update-Log
- Veröffentlicht am 2026-06-19. Nächste Überprüfung fällig am 2026-12-19 (halbjährliche Freshness-Stufe).
- Deckt die 6 offiziellen DeepSeek-R1-Distills plus DeepSeek-R1-0528-Qwen3-8B ab. Verifiziert gegen veröffentlichte AIME-2024-Werte und Q4_K_M-VRAM-Angaben mit Stand Juni 2026.