Was verlieren Sie tatsächlich, wenn Sie ein DeepSeek-R1-Distill statt des vollständigen R1 ausführen?

Sie behalten den Reasoning-Stil von R1 — den expliziten Chain-of-Thought, die Selbstprüfung und die Reflexion, die es bei Mathe und Logik stark machen. Sie verlieren rohe Leistungsfähigkeit und Breite: Das vollständige 671B-Modell löst die schwierigsten Probleme zuverlässiger und weiß mehr. Für alltägliches lokales Reasoning ist die Lücke klein; bei Aufgaben am Rand des Machbaren wird sie größer.

Startseite/Lokale LLMs Pro/DeepSeek-R1 vs. Distills 2026: Was Sie wirklich verlieren

Overview & Reference

DeepSeek-R1 vs. Distills 2026: Was Sie wirklich verlieren

Aktualisiert: 2026-06-19·10 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Die Distillation kopiert das Reasoning-Verhalten von DeepSeek-R1 — Chain-of-Thought, Selbstverifikation und Reflexion — auf eine kleine Qwen2.5- oder Llama-3-Basis, sie kann aber die rohe Leistungsfähigkeit und Breite des vollständigen 671B-Modells nicht kopieren. Sie behalten die Art, wie R1 denkt; Sie verlieren einen Teil dessen, was es weiß, und wie zuverlässig es die schwierigsten Probleme löst. Bei den meisten lokalen Mathe- und Logikaufgaben ist die Lücke klein; bei Aufgaben am Rand des Machbaren oder mit breitem Wissensbedarf ist sie real.

Das echte 671B-DeepSeek-R1 lässt sich zu Hause nicht ausführen — was Sie ausführen, ist ein Distill auf Basis von Qwen2.5 oder Llama 3. Dieser Beitrag erklärt genau, was die Distillation behält (Chain-of-Thought, Selbstverifikation, Reflexion), was sie verliert (rohe Leistungsfähigkeit und Breite) und ob diese Lücke für Ihren Anwendungsfall relevant ist.

Wichtigste Erkenntnisse

Das vollständige DeepSeek-R1 ist ein 671B-Mixture-of-Experts-Modell (~37B aktiv pro Token), das bei Q4 ~376–404 GB benötigt — zu Hause nicht ausführbar.
Ein „Distill" ist ein eigenständiges, kleineres Modell (Qwen2.5- oder Llama-3-Basis), feinabgestimmt auf ~800K Reasoning-Spuren, die das vollständige R1 erzeugt hat.
Die Distillation BEHÄLT das Reasoning-Verhalten: expliziten Chain-of-Thought, Selbstverifikation und Reflexion.
Die Distillation VERLIERT rohe Leistungsfähigkeit und Breite — das vollständige Modell löst die schwierigsten Probleme zuverlässiger und weiß mehr.
Für alltägliche lokale Mathe und Logik ist die Lücke klein; bei Aufgaben am Rand des Machbaren und mit breitem Wissensbedarf wird sie größer.
Eine stärkere Basis verkleinert die Lücke: DeepSeek-R1-0528-Qwen3-8B führt die offenen 8B-Modelle bei AIME 2024 an.
Führen Sie jedes Distill mit Temperatur 0,6 und ohne System-Prompt aus.
DeepSeek-V3 ist ein Chat-Modell; DeepSeek-R1 ist ein Reasoning-Modell — verwechseln Sie sie nicht.

Warum DeepSeek-R1 und seine Distills verwechselt werden

**Wenn Sie ollama run deepseek-r1:14b eingeben, führen Sie keine kleinere Version von DeepSeek-R1 aus — Sie führen ein Qwen2.5 14B aus, das gelernt hat, das Reasoning von R1 nachzuahmen.** Der Name „DeepSeek-R1-Distill-Qwen-14B" ist präzise, aber leicht falsch zu lesen: Der Teil „DeepSeek-R1" beschreibt, woher das Reasoning stammt, und der Teil „Qwen-14B" ist das tatsächliche Modell, das auf Ihrer GPU läuft.

Das ist wichtig, weil die Erwartungen dem Namen folgen. Man nimmt an, ein Distill sei „R1, nur kleiner und etwas schlechter". Es ist näher an „einem fähigen offenen Modell, das gelernt hat, wie R1 zu denken". Diese Sichtweise sagt das Verhalten voraus, das Sie tatsächlich sehen werden: ausgezeichnete Reasoning-Struktur, gelegentliche Lücken beim rohen Wissen oder bei der Zuverlässigkeit in den schwierigsten Fällen.

Zur Hardware-Realität dahinter, warum das vollständige Modell zu Hause tabu ist, siehe DeepSeek V3 Lokale Hardware-Anforderungen — V3 ist das Chat-Modell-Geschwister mit demselben 671B-Klassen-Fußabdruck.

📍 In einem Satz

Ein DeepSeek-R1-Distill ist ein bestehendes kleines Modell (Qwen2.5 oder Llama 3), das feinabgestimmt wurde, um das Reasoning des vollständigen R1 nachzuahmen — keine verkleinerte Kopie von R1 selbst.

💬 In einfachen Worten

Stellen Sie sich das vollständige R1 als Meistermathematiker vor und ein Distill als begabten Studenten, der die ausgearbeiteten Lösungen des Meisters studiert hat. Der Student argumentiert auf dieselbe Weise, weiß aber nicht alles, was der Meister weiß.

Was ist das vollständige 671B-DeepSeek-R1?

Das vollständige DeepSeek-R1 ist ein Mixture-of-Experts-Modell (MoE) mit 671 Milliarden Parametern, das pro Token rund 37B Parameter aktiviert und bei Q4 etwa 376–404 GB VRAM benötigt — nur Rechenzentrums-Hardware. Es ist das Modell, das das hochwertige Reasoning erzeugt, das die Distills nachahmen lernen.

MoE bedeutet, dass das Modell jedes Token durch eine kleine Teilmenge von „Experten"-Subnetzen leitet, sodass pro Token nur ~37B der 671B-Parameter feuern. Das macht die Inferenz günstiger als bei einem dichten 671B-Modell — aber jeder der 671B-Parameter muss trotzdem im Speicher liegen, weshalb es nicht auf Consumer-Hardware passt.

Ein Unsloth-1,58-Bit-Build (IQ1_S, ~131 GB) existiert und läuft technisch, aber mit rund 0,3 Token pro Sekunde ist er eine Kuriosität, kein brauchbares lokales Setup. In der Praxis lebt das vollständige R1 in der Cloud und die Distills leben auf Ihrer Maschine.

Wie funktioniert die DeepSeek-R1-Distillation?

DeepSeek erzeugte rund 800.000 Reasoning-Beispiele mit dem vollständigen R1 und stimmte dann bestehende offene Basismodelle — Qwen2.5 (1,5B, 7B, 14B, 32B) und Llama 3 (8B, 70B) — auf diesen Beispielen fein ab. Die Basismodelle lernen, das schrittweise Reasoning-Muster von R1 zu reproduzieren, ohne jemals die Parameter von R1 zu enthalten.

Dies ist überwachtes Fine-Tuning auf hochwertigen Reasoning-Spuren, kein Reinforcement Learning auf den kleinen Modellen. Die Distills erben die *Form* des Denkens von R1 — wann ein Chain-of-Thought erweitert, wann zurückgegangen, wann verifiziert wird — aufgesetzt auf das, was das Basismodell bereits wusste.

Deshalb ist die Wahl der Basis so wichtig. Ein Distill ist nur so wissensreich wie seine Basis plus die von R1 kopierte Reasoning-Disziplin. Eine schwache Basis mit großartigen Reasoning-Spuren stößt bei der rohen Leistungsfähigkeit dennoch an eine Decke.

📍 In einem Satz

DeepSeek stimmte Qwen2.5- und Llama-3-Basismodelle auf ~800.000 vom vollständigen R1 erzeugten Reasoning-Beispielen fein ab und übertrug so seinen Reasoning-Stil auf kleine Modelle.

Was behält die Distillation?

Die Distillation überträgt zuverlässig die drei Verhaltensweisen, die R1 zu einem starken Reasoner machen: Chain-of-Thought, Selbstverifikation und Reflexion. Diese überleben, weil sie Muster der Token-Generierung sind — und Muster sind genau das, was überwachtes Fine-Tuning gut kopiert.

Chain-of-Thought: Das Distill schreibt Zwischenschritte vor der endgültigen Antwort aus, der Kern seiner Mathe- und Logikstärke.
Selbstverifikation: Es prüft seine eigenen Zwischenergebnisse und fängt Fehler mitten im Reasoning ab, nicht erst am Ende.
Reflexion: Es geht zurück und überdenkt, wenn ein Weg falsch erscheint, statt sich auf den ersten Versuch festzulegen.
Ergebnis: Ein 7B-Distill erreicht 55,5 % bei AIME 2024 — Wettbewerbsmathematik, die kein gleich großes Chat-Modell erreicht.

Was verliert die Distillation?

Die Distillation kann die rohe Leistungsfähigkeit, Wissensbreite oder Zuverlässigkeit des vollständigen 671B-Modells bei den schwierigsten Problemen nicht übertragen — eine kleine Basis hat schlicht weniger Raum, um Informationen zu speichern und zu kombinieren. Je kleiner das Distill, desto größer diese Lücke.

Fähigkeit	Volles 671B R1	32B-Distill	7B-Distill
Reasoning-Struktur (CoT, Reflexion)	Referenz	Sehr nah	Nah
Zuverlässigkeit bei schwierigsten Problemen	Höchste	Stark	Mittel
Breite des Weltwissens	Höchste	Gut	Begrenzt
Lange Probleme mit mehreren Constraints	Beste	Gut	Lässt nach
Läuft auf Consumer-Hardware	Nein	Ja (24 GB)	Ja (8 GB)

Die Einstufungen sind richtungsweisend, nicht benchmark-exakt: Die Lücke ist bei gängigen Reasoning-Aufgaben klein und wächst bei Aufgaben am Rand des Machbaren oder mit breitem Wissensbedarf.

Zählt die Lücke für Ihren Anwendungsfall?

Bei den meisten lokalen Reasoning-Aufgaben ist die Lücke klein genug, um sie zu ignorieren; entscheidend wird sie nur bei Problemen am Rand des Machbaren oder bei Aufgaben, die breites Weltwissen erfordern. Entscheiden Sie nach Anwendungsfall, nicht nach der Jagd auf das größte Modell.

Reicht ein Distill aus?

Use a local LLM if:

•Schul- und Wettbewerbsmathematik, Logikrätsel, schrittweise Planung → ein Distill genügt vollauf (32B für Reserve, 14B für die meisten Fälle)
•Privates/Offline-Reasoning, bei dem Daten Ihre Maschine nicht verlassen dürfen → ein Distill ist die einzige Option, und eine gute
•Kostenkontrolle gegenüber einer gehosteten API → ein lokales Distill beseitigt die Kosten pro Token vollständig

Use a cloud model if:

•Forschungsmathematik oder Beweise am Rand des Fachgebiets → das vollständige gehostete R1 ist zuverlässiger
•Aufgaben, die breites, aktuelles Weltwissen erfordern → ein größeres Modell oder ein suchgestütztes Setup gewinnt
•Sie brauchen die zuverlässigste Einzelantwort, unabhängig von den Kosten → vergleichen Sie via PromptQuorum mit den Spitzenmodellen

Quick decision:

→Wenn Sie unsicher sind, führen Sie das 32B-Distill aus und eskalieren Sie nur dann zum gehosteten R1, wenn es sichtbar Mühe hat.
→Eine größere Basis schlägt am kleinen Ende eine größere Modellgröße — siehe R1-0528-Qwen3-8B unten.

R1-0528-Qwen3-8B: Eine bessere Basis verkleinert die Lücke

DeepSeek-R1-0528-Qwen3-8B zeigt, dass eine stärkere Basis die Distillation-Lücke verkleinert: Auf Qwen3 8B mit Reasoning aus dem aktualisierten R1-0528 aufgebaut, führt es die offenen 8B-Modelle bei AIME 2024 an und liegt etwa 10 Punkte über dem Basis-Qwen3 8B. Dieselbe Größenklasse wie das ursprüngliche 8B-Distill, deutlich besseres Reasoning — weil die Basis besser und die Reasoning-Quelle neuer ist.

Die Lehre für die Wahl eines Distills: Bevorzugen Sie am kleinen Ende das Modell mit der stärkeren, neueren Basis gegenüber einem älteren Distill mit derselben Parameterzahl. Die Leistungsfähigkeit pro Gigabyte steigt durch bessere Basen schneller als durch reine Größe.

Konfig-Tipp: Temperatur 0,6 und kein System-Prompt

Führen Sie jedes DeepSeek-R1-Distill mit Temperatur 0,6 (0,5–0,7 ist sicher) und ohne System-Prompt aus — packen Sie alle Anweisungen in den User-Prompt. Das vermeidet den Fehlermodus aus Wiederholung und Inkohärenz, zu dem die R1-Familie neigt, wenn sie einen System-Prompt oder eine Temperatur nahe 0 oder über ~0,8 erhält.

Wenn Sie ein Distill mit dem vollständigen gehosteten R1 vergleichen und das Distill in Schleifen läuft oder abdriftet, korrigieren Sie die Konfiguration, bevor Sie schließen, das Distill sei schwach — schlechte Sampling-Einstellungen verschleiern seine wahre Qualität.

Häufig gestellte Fragen

Ist ein DeepSeek-R1-Distill dasselbe Modell wie DeepSeek-R1, nur kleiner?

Nein. Ein Distill ist ein anderes Basismodell (Qwen2.5 oder Llama 3), das auf ~800K Beispielen feinabgestimmt wurde, um das Reasoning von R1 nachzuahmen. Es behält den Reasoning-Stil von R1, enthält aber keinen der Parameter von R1.

Was genau behält die Distillation vom vollständigen R1?

Das Reasoning-Verhalten: Chain-of-Thought, Selbstverifikation und Reflexion. Das sind Muster der Token-Generierung, die überwachtes Fine-Tuning zuverlässig überträgt — deshalb erreicht ein 7B-Distill 55,5 % bei AIME 2024.

Was verliert ein Distill gegenüber dem vollständigen 671B-R1?

Rohe Leistungsfähigkeit, Breite des Weltwissens und Zuverlässigkeit bei den schwierigsten Problemen. Je kleiner das Distill, desto größer die Lücke — auch wenn sie bei gängigen Reasoning-Aufgaben klein bleibt.

Warum kann ich das vollständige 671B-DeepSeek-R1 nicht zu Hause ausführen?

Es benötigt bei Q4 ~376–404 GB VRAM, weil alle 671B-Parameter resident sein müssen, obwohl pro Token nur ~37B aktiviert werden. Das ist Rechenzentrums-Hardware. Ein 1,58-Bit-Build läuft mit ~0,3 Token/s — eine Kuriosität, nicht nutzbar.

Zählt die Lücke im Alltag?

Meist nicht. Für Schul- und Wettbewerbsmathematik, Logik und mehrstufige Planung genügt ein 14B- oder 32B-Distill vollauf. Die Lücke zählt bei Problemen am Rand des Machbaren oder bei Aufgaben, die breites, aktuelles Wissen erfordern.

Welches Distill ist dem vollständigen R1 am nächsten?

Das 70B-Distill ist das stärkste der sechs und in roher Leistungsfähigkeit am nächsten, benötigt aber Dual-GPU. Das 32B ist die beste Single-GPU-Option und schlägt OpenAI o1-mini bei mehreren Reasoning-Benchmarks.

Warum ist R1-0528-Qwen3-8B besser als das ursprüngliche 8B-Distill?

Es nutzt eine stärkere Qwen3-8B-Basis und Reasoning aus dem aktualisierten R1-0528, sodass es die offenen 8B-Modelle bei AIME 2024 anführt — etwa 10 Punkte über dem Basis-Qwen3 8B bei gleicher Größe.

Ist DeepSeek-V3 ein Distill von R1?

Nein. DeepSeek-V3 ist ein eigenständiges 671B-MoE-Chat-Modell, kein Reasoning-Modell und kein Distill. R1 ist das Reasoning-Modell; die Distills ahmen R1 nach, nicht V3.

Update-Protokoll

Veröffentlicht am 19.06.2026. Nächste Überprüfung fällig am 19.06.2027 (jährliche Freshness-Stufe — zeitloser Explainer mit jahresgebundenen Modellfakten).
Behandelt das vollständige 671B-R1 gegenüber den sechs offiziellen Distills und DeepSeek-R1-0528-Qwen3-8B. Nur reasoning-interner Vergleich; modellübergreifende Coding-Vergleiche stehen im Coding-Leitfaden.

← Zurück zu Lokale LLMs Pro