Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Bestes lokales Reasoning-Modell 2026: DeepSeek-R1 im Ranking
Models & Benchmarks

Bestes lokales Reasoning-Modell 2026: DeepSeek-R1 im Ranking

·15 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Diese Seite enthält Verweislinks zu Produkten von Drittanbietern. PromptQuorum ist an keinem Partnerprogramm beteiligt — es sind reine Referenzlinks, die keine Provision erzielen. Das Anklicken von Links und Ihre nächsten Schritte liegen in Ihrer eigenen Verantwortung. Diese Links stellen keine Billigung oder Verifizierung durch PromptQuorum dar.

Das beste lokale Reasoning-Modell für die meisten Menschen im Jahr 2026 ist DeepSeek-R1-Distill-Qwen-14B auf einer 16-GB-GPU, wobei DeepSeek-R1-Distill-Qwen-32B die Top-Wahl ist, wenn Sie 24 GB haben. Der 14B-Distill läuft bei Q4_K_M in ~9 GB, bewältigt mehrstufige Mathematik im AIME-Stil und passt auf eine RTX 4060 Ti 16GB. Der 32B-Distill schlägt OpenAI o1-mini in mehreren Reasoning-Benchmarks und ist das beste Reasoning-Modell für eine einzelne Consumer-GPU. Wenn Sie nur 8 GB haben, betreiben Sie den 7B-Distill oder das neuere DeepSeek-R1-0528-Qwen3-8B – den stärksten verfügbaren kleinen Reasoning-Distill.

Das vollständige DeepSeek-R1 mit 671B läuft nur im Rechenzentrum, daher ist das Modell, das Sie zu Hause tatsächlich ausführen, einer seiner Distills. Dieser Leitfaden ordnet die sechs offiziellen DeepSeek-R1-Distills (1.5B bis 70B) plus das herausragende DeepSeek-R1-0528-Qwen3-8B nach Hardware-Stufe ein – mit echten AIME-2024- und MATH-500-Reasoning-Werten, dem exakten Ollama-Befehl pro Modell und der GPU, die jeweils passt.

Wichtigste Erkenntnisse

  • Sie können das vollständige DeepSeek-R1 mit 671B nicht zu Hause ausführen – es braucht ~376–404 GB VRAM bei Q4 (nur Rechenzentrum). Sie führen einen seiner Distills aus.
  • Es gibt 6 offizielle Distills: 1.5B, 7B, 14B, 32B (Qwen2.5-Basis) sowie 8B, 70B (Llama-3-Basis).
  • Sweet Spot: DeepSeek-R1-Distill-Qwen-14B auf einer 16-GB-GPU – ~9 GB bei Q4_K_M, starke mehrstufige Mathematik.
  • Bester Single-GPU-Reasoner: Der 32B-Distill schlägt OpenAI o1-mini in mehreren Reasoning-Benchmarks; auf 24 GB wird es knapp.
  • Bestes kleines Modell: DeepSeek-R1-0528-Qwen3-8B führt bei AIME 2024 unter den offenen 8B-Modellen und passt auf eine 8-GB-Karte.
  • Alle Distills installieren sich mit einem Befehl, z. B. `ollama run deepseek-r1:14b` (Standard Q4_K_M).
  • Setzen Sie die Temperatur auf 0.6 und verwenden Sie keinen System-Prompt – packen Sie alle Anweisungen in den User-Prompt, um R1-Wiederholungsfehler zu vermeiden.
  • Diese Seite bewertet ausschließlich Reasoning (Mathe, Logik, mehrstufig). Für Coding siehe den DeepSeek-vs-Qwen-Coding-Leitfaden.

Was ist ein lokales Reasoning-Modell?

Ein Reasoning-Modell ist ein LLM, das darauf trainiert ist, vor seiner endgültigen Antwort eine explizite Gedankenkette (Chain-of-Thought) zu erzeugen, was es bei Mathe, Logik und mehrstufigen Problemen weit stärker macht als ein Standard-Chat-Modell gleicher Größe. DeepSeek-R1-Distills sind Reasoning-Modelle: Sie „denken laut" innerhalb der Antwort, prüfen und überarbeiten Schritte, bevor sie sich auf eine Antwort festlegen.

Der Kompromiss sind Latenz und Wortfülle. Ein Reasoning-Modell verbraucht zusätzliche Tokens, um das Problem durchzuarbeiten, sodass eine einzelne Antwort mehrere Sekunden und Hunderte Tokens sichtbares Reasoning dauern kann. Für einen mathematischen Beweis oder ein Logikrätsel ist genau das gewünscht; für eine schnelle Faktenabfrage ist es verschwendete Zeit.

Die Unterscheidung, über die Menschen stolpern: DeepSeek-V3 ist ein Chat-Modell, DeepSeek-R1 ist das Reasoning-Modell. Sie teilen sich eine Architektur-Abstammung, sind aber für unterschiedliche Aufgaben abgestimmt. Wenn Sie konversationelle Antworten möchten, nutzen Sie V3; wenn Sie schrittweises Problemlösen möchten, nutzen Sie R1 oder einen seiner Distills. Wir erklären genau, was die Distillation behält und verliert, in DeepSeek-R1 vs. die Distills.

Für eine tiefergehende Einführung in den Betrieb dieser Modelle beginnen Sie mit dem Hardware-Leitfaden für lokale LLMs 2026 und LLM-Quantisierung erklärt, die die VRAM-Rechnung abdecken, auf die sich dieser Leitfaden stützt.

📍 In einem Satz

Ein lokales Reasoning-Modell ist ein LLM, das vor dem Antworten eine explizite Gedankenkette schreibt, was es bei Mathe und Logik stärker macht als ein Chat-Modell gleicher Größe.

💬 In einfachen Worten

Stellen Sie sich ein Reasoning-Modell wie einen Schüler vor, der seinen Rechenweg zeigt. Es ist langsamer und schreibt mehr, aber es löst mehrstufige Probleme weit häufiger korrekt als ein Modell, das eine Antwort einfach herausplatzt.

Die 6 DeepSeek-R1-Distills im Überblick

DeepSeek hat sechs offizielle Distills von R1 veröffentlicht, jeder durch Feinabstimmung eines bestehenden offenen Basismodells auf Reasoning-Spuren des vollständigen 671B-R1 erstellt. Vier nutzen eine Qwen2.5-Basis (1.5B, 7B, 14B, 32B) und zwei eine Llama-3-Basis (8B, 70B). Die VRAM-Angaben unten gelten für die Ollama-Standardquantisierung Q4_K_M.

📍 In einem Satz

DeepSeek-R1 hat sechs offizielle Distills von 1.5B bis 70B, aufbauend auf Qwen2.5- und Llama-3-Basen, wobei das 14B-Modell die beste Balance für eine 16-GB-GPU darstellt.

DistillBasismodellDateigröße (Q4_K_M)Min. VRAMAm besten für
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5 1.5B~1.1 GB4 GB / CPUEdge-Geräte, schnelle Tests
DeepSeek-R1-Distill-Qwen-7BQwen2.5 7B~4.7 GB8 GBEinstiegs-GPUs, 55.5% AIME 2024
DeepSeek-R1-Distill-Llama-8BLlama 3 8B~4.9 GB8 GBWorkflows mit Llama-Lizenz
DeepSeek-R1-Distill-Qwen-14BQwen2.5 14B~9 GB16 GBBeste Gesamtbalance
DeepSeek-R1-Distill-Qwen-32BQwen2.5 32B~18–20 GB24 GBSchlägt o1-mini, beste Single-GPU
DeepSeek-R1-Distill-Llama-70BLlama 3 70B~40 GBDual-GPU / 48 GBStärkster Distill, max. Genauigkeit

Der DeepSeek-R1-Distill-Llama-8B trägt sowohl die Llama-3-Lizenz als auch die MIT-Lizenz. Die Qwen-basierten Distills erben die Qwen-Lizenzierung. Prüfen Sie für die kommerzielle Nutzung immer die Lizenz.

Der beste kleine Reasoning-Distill: DeepSeek-R1-0528-Qwen3-8B

DeepSeek-R1-0528-Qwen3-8B ist das stärkste kleine Reasoning-Modell, das Sie auf einer 8-GB-GPU ausführen können, distilliert vom aktualisierten R1-0528 auf eine Qwen3-8B-Basis. Es führt bei AIME 2024 unter den offenen 8B-Modellen und erreicht in diesem Benchmark rund 10 Prozentpunkte mehr als das Basis-Qwen3-8B – ein bedeutsamer Sprung für Mathe und Logik in dieser Größe.

Wählen Sie es gegenüber den ursprünglichen 7B- und 8B-Distills, wenn Sie die beste Genauigkeit für ein kleines Modell wollen und Ihre Hardware bei 8 GB endet. Es passt in dieselbe RTX-3060-12GB-Stufe und läuft bei Q4_K_M in rund 5 GB. Für die meisten Laptop- und Einstiegs-GPU-Nutzer, denen Reasoning-Qualität wichtiger ist als reine Geschwindigkeit, ist dies das Modell für den Einstieg.

💬 In einfachen Worten

Wenn Ihre GPU 8 GB hat, ist das neuere R1-0528-Qwen3-8B das klügste kleine Reasoning-Modell – es nutzt eine bessere Basis als die ursprünglichen Distills und erreicht höhere Werte bei Wettbewerbsmathematik.

DeepSeek-R1-Distills nach Hardware-Stufe geordnet

Wählen Sie die höchste Stufe, die Ihr VRAM unterstützt. Mehr Parameter bedeuten besseres Reasoning, aber nur, wenn das Modell passt, ohne in den System-RAM auszulagern (was die Geschwindigkeit einbrechen lässt). Nutzen Sie dieses Ranking, um einen Distill an die GPU anzupassen, die Sie besitzen oder kaufen möchten.

Wie schneiden die DeepSeek-R1-Distills in Reasoning-Benchmarks ab?

Dies sind Reasoning-Benchmarks – AIME 2024 (Wettbewerbsmathematik), MATH-500 (gemischte Mathematik) und GPQA Diamond (Wissenschaftsfragen auf Hochschulniveau). Sie messen schrittweises Problemlösen, nicht Coding. Das zentrale Ergebnis: Der 32B-Distill schlägt OpenAI o1-mini in mehreren davon, und der 7B-Distill erreicht 55.5% bei AIME 2024 – ein Wert, den kein Chat-Modell gleicher Größe erreicht.

📍 In einem Satz

Der DeepSeek-R1-Distill-Qwen-32B schlägt OpenAI o1-mini in mehreren Reasoning-Benchmarks, und der 7B-Distill erreicht 55.5% bei AIME 2024.

DistillAIME 2024Reasoning-StufeAnmerkungen
DeepSeek-R1-Distill-Qwen-7B55.5%Stark für 7BBester Einstiegs-GPU-Reasoner
DeepSeek-R1-0528-Qwen3-8BFührt bei offenen 8BBester kleiner~+10 Pkt. über Basis-Qwen3-8B
DeepSeek-R1-Distill-Qwen-14BHöher als 7BBeste Balance16-GB-Sweet-Spot
DeepSeek-R1-Distill-Qwen-32BTop Single-GPUSchlägt o1-miniBester 24-GB-Reasoner
DeepSeek-R1-Distill-Llama-70BHöchster der sechsMaximumBraucht Dual-GPU

Verwenden Sie exakte Werte, wo veröffentlicht (7B = 55.5% AIME 2024), und relative Rankings andernorts. Benchmark-Zahlen verschieben sich mit Quantisierung und Sampling-Einstellungen; behandeln Sie sie als richtungsweisend innerhalb einer Stufe, nicht als absolut.

Wann sollten Sie KEIN Reasoning-Modell nutzen?

Vermeiden Sie ein Reasoning-Modell, wenn die Aufgabe keine Reasoning-Aufgabe ist – sie sind langsamer, wortreicher und bei einfacher Abfrage oder Chat nicht genauer. Nutzen Sie stattdessen ein Standard-Chat-Modell wie DeepSeek-V3 oder Llama 3.3.

  • Vermeiden Sie es bei schnellen Faktenabfragen – die sichtbare Gedankenkette verschwendet Tokens und Zeit bei Antworten, die ein Chat-Modell sofort liefert.
  • Vermeiden Sie es bei offener Konversation – Reasoning-Modelle sind auf Probleme mit einer korrekten Antwort abgestimmt, nicht auf Dialog.
  • Vermeiden Sie es für reinen Coding-Durchsatz – für Codegenerierung gehen Sie zum DeepSeek-vs-Qwen-Coding-Leitfaden; diese Seite behandelt ausschließlich Reasoning.
  • Vermeiden Sie es, wenn Latenz entscheidend ist – wenn Sie Antworten unter einer Sekunde brauchen, gewinnt ein kleineres Chat-Modell.
  • Nutzen Sie ein Reasoning-Modell, wenn die Aufgabe Mathe, Logik, mehrstufige Planung oder alles ist, bei dem das Zeigen des Rechenwegs die Korrektheit verbessert.

Konfigurations-Profitipp: Temperatur 0.6 und kein System-Prompt

Setzen Sie die Temperatur auf 0.6 (der Bereich 0.5–0.7 ist sicher) und verwenden Sie keinen System-Prompt – packen Sie jede Anweisung in den User-Prompt. Dies ist die einzige wichtigste Konfiguration für DeepSeek-R1-Distills. Die Modelle neigen zu einem Wiederholungs- und Inkohärenz-Fehlermodus, wenn ihnen ein System-Prompt oder eine Temperatur nahe 0 oder über ~0.8 gegeben wird.

In der Praxis: Lassen Sie das System-Prompt-Feld in Ollama/LM Studio leer, stellen Sie Ihre Anweisungen der User-Nachricht voran und halten Sie die Temperatur bei 0.6. Wenn Sie sehen, dass das Modell in eine Schleife gerät oder mitten im Reasoning abdriftet, ist diese Einstellung fast immer die Lösung.

Einrichtung: Ollama-Schnellstart pro Stufe

Jeder Distill installiert und läuft mit einem einzigen Ollama-Befehl (alle standardmäßig Q4_K_M). Installieren Sie zuerst Ollama, falls noch nicht geschehen – siehe So installieren Sie Ollama. Wählen Sie dann den Befehl für Ihre Stufe:

bash
ollama run deepseek-r1:1.5b   # edge / CPU
ollama run deepseek-r1:7b     # 8 GB VRAM
ollama run deepseek-r1:8b     # 8 GB VRAM (Llama base)
ollama run deepseek-r1:14b    # 16 GB VRAM — recommended
ollama run deepseek-r1:32b    # 24 GB VRAM — beats o1-mini
ollama run deepseek-r1:70b    # dual-GPU / 48 GB

Fazit: Welchen DeepSeek-R1-Distill sollten Sie ausführen?

Die Entscheidung hängt von Ihrem VRAM ab und davon, ob Sie Genauigkeit oder Geschwindigkeit priorisieren. Hier ist die einzeilige Antwort für jeden Fall.

Wählen Sie Ihren Distill

Use a local LLM if:

  • 16-GB-GPU → DeepSeek-R1-Distill-Qwen-14B (insgesamt am besten, die Standardwahl)
  • 24-GB-GPU → DeepSeek-R1-Distill-Qwen-32B (schlägt o1-mini, bester Single-GPU-Reasoner)
  • 8-GB-GPU → DeepSeek-R1-0528-Qwen3-8B (bester kleiner) oder der 7B-Distill
  • Dual-GPU / 48 GB → DeepSeek-R1-Distill-Llama-70B (maximale Genauigkeit)

Use a cloud model if:

  • Sie benötigen Spitzen-Reasoning jenseits jedes Distills → vergleichen Sie über PromptQuorum gegen GPT-4o / Claude / Gemini
  • Sie können keine GPU bereitstellen → eine gehostete Reasoning-API kann günstiger sein als Hardware zu kaufen

Quick decision:

  • Wenn Sie unsicher sind, beginnen Sie mit dem 14B auf einer 16-GB-Karte.
  • Führen Sie es immer bei Temperatur 0.6 ohne System-Prompt aus.
  • Für Coding nutzen Sie ein Coding-Modell – keinen Reasoning-Distill.

Häufig gestellte Fragen

Kann ich das vollständige DeepSeek-R1 mit 671B lokal ausführen?

Nein. Das vollständige DeepSeek-R1 ist ein Mixture-of-Experts-Modell mit 671B Parametern (~37B aktiv pro Token) und braucht bei Q4 rund 376–404 GB VRAM – nur Rechenzentrums-Hardware. Zu Hause führen Sie einen seiner Distills aus (1.5B bis 70B). Ein Unsloth-1.58-Bit-Build (~131 GB) existiert, läuft aber mit rund 0.3 Tokens/Sekunde, was eher eine Kuriosität als ein nutzbares Setup ist.

Welcher DeepSeek-R1-Distill ist insgesamt am besten?

Für die meisten Menschen ist DeepSeek-R1-Distill-Qwen-14B auf einer 16-GB-GPU die beste Balance aus Reasoning-Qualität, Geschwindigkeit und VRAM-Passung. Wenn Sie eine 24-GB-Karte haben, ist der 32B-Distill stärker und schlägt OpenAI o1-mini in mehreren Reasoning-Benchmarks.

Was ist das beste kleine DeepSeek-Reasoning-Modell?

DeepSeek-R1-0528-Qwen3-8B. Es ist vom aktualisierten R1-0528 auf eine Qwen3-8B-Basis distilliert, führt bei AIME 2024 unter den offenen 8B-Modellen und erreicht etwa 10 Punkte mehr als das Basis-Qwen3-8B. Es passt bei Q4_K_M auf eine 8-GB-GPU.

Wie viel VRAM braucht jeder Distill?

Beim Ollama-Standard Q4_K_M: 7B braucht ~8 GB (Datei ~4.7 GB), 14B braucht ~16 GB (~9 GB Datei), 32B braucht ~24 GB (~18–20 GB Datei) und 70B braucht Dual-GPU oder 48 GB (~40 GB Datei). FP16 ist rund 4× so groß wie Q4_K_M; Q8_0 ist rund 2×.

Ist DeepSeek-R1 gut im Coding?

Dieser Leitfaden bewertet ausschließlich Reasoning (Mathe, Logik, mehrstufig). Für Codegenerierung sind die Kompromisse anders – siehe unseren dedizierten Vergleich unter /power-local-llm/deepseek-vs-qwen-coding-local-2026, statt einen Reasoning-Distill für Coding-Durchsatz zu wählen.

Was ist der Unterschied zwischen DeepSeek-V3 und DeepSeek-R1?

DeepSeek-V3 ist ein Chat-Modell, das auf Konversation abgestimmt ist; DeepSeek-R1 ist ein Reasoning-Modell, das vor dem Antworten eine explizite Gedankenkette erzeugt. Für Mathe und Logik nutzen Sie R1 oder einen Distill; für allgemeinen Chat nutzen Sie V3.

Warum gerät mein DeepSeek-R1-Distill in eine Schleife oder produziert Kauderwelsch?

Fast immer ein Konfigurationsproblem. Setzen Sie die Temperatur auf 0.6 (0.5–0.7 ist in Ordnung) und entfernen Sie jeden System-Prompt – packen Sie alle Anweisungen in die User-Nachricht. R1-Distills haben einen bekannten Wiederholungs-Fehlermodus, der durch System-Prompts und extreme Temperaturen ausgelöst wird.

Wie installiere ich einen DeepSeek-R1-Distill?

Installieren Sie Ollama und führen Sie dann einen Befehl für Ihre Stufe aus, z. B. `ollama run deepseek-r1:14b`. Alle Distills sind standardmäßig Q4_K_M. Die vollständige Befehlsliste finden Sie im Einrichtungsabschnitt oben.

Hat der 8B-Distill eine andere Lizenz?

Ja. DeepSeek-R1-Distill-Llama-8B trägt zusätzlich zu MIT die Llama-3-Lizenz, weil seine Basis Llama 3 ist. Die Qwen-basierten Distills (1.5B, 7B, 14B, 32B) erben die Qwen-Lizenzierung. Prüfen Sie die Lizenz vor der kommerziellen Nutzung.

Sollte ich für Reasoning eine RTX 4060 Ti 16GB oder eine RTX 4090 kaufen?

Wenn Ihr Budget die RTX 4090 zulässt und Sie den 32B-Distill ausführen möchten (der o1-mini schlägt), kaufen Sie die 4090. Wenn Sie das beste Preis-Leistungs-Verhältnis wollen und der 14B-Distill Ihren Bedarf deckt, ist die RTX 4060 Ti 16GB für ~$420 der klügere Kauf.

Update-Log

  • Veröffentlicht am 2026-06-19. Nächste Überprüfung fällig am 2026-12-19 (halbjährliche Freshness-Stufe).
  • Deckt die 6 offiziellen DeepSeek-R1-Distills plus DeepSeek-R1-0528-Qwen3-8B ab. Verifiziert gegen veröffentlichte AIME-2024-Werte und Q4_K_M-VRAM-Angaben mit Stand Juni 2026.

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Sie betreiben einen DeepSeek-R1-Distill lokal? Schicken Sie denselben Reasoning-Prompt mit PromptQuorum in einem Zug an Ihr lokales Modell und an GPT-4o, Claude und Gemini – und sehen Sie genau, wo der Distill an das Reasoning der Spitzenmodelle heranreicht und wo er zurückfällt.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs