DeepSeek-R1 Distill VRAM-Spickzettel (2026)

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Diese Seite enthält Verweislinks zu Produkten von Drittanbietern. PromptQuorum ist an keinem Partnerprogramm beteiligt — es sind reine Referenzlinks, die keine Provision erzielen. Das Anklicken von Links und Ihre nächsten Schritte liegen in Ihrer eigenen Verantwortung. Diese Links stellen keine Billigung oder Verifizierung durch PromptQuorum dar.

Schnelle Antwort

Bei Q4_K_M (Ollama-Standard): 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB. Q8_0 ist etwa das 2-Fache der Q4_K_M-Größe und FP16 etwa das 4-Fache, sodass der 32B bei FP16 ein 64-GB-Setup benötigt.

▸1.5B: ~1.1 GB Datei, ~4 GB VRAM (oder CPU) bei Q4_K_M
▸7B: ~4.7 GB Datei, ~5.5 GB VRAM — RTX 3060 12GB
▸14B: ~9 GB Datei, ~9.5 GB VRAM — RTX 4060 Ti 16GB
▸32B: ~19 GB Datei, ~20.5 GB VRAM — RTX 4090 24GB (knapp)
▸70B: ~40 GB Datei, ~42 GB VRAM — zwei GPUs oder 48 GB
▸Faustregel: Q8_0 ≈ 2× Q4_K_M; FP16 ≈ 4× Q4_K_M

Aktualisiert: 2026-06-19

Quantization & VRAMFortgeschritten

Wichtigste Punkte

✓Q4_K_M (Ollama-Standard) VRAM: 1.5B ~4 GB, 7B ~5.5 GB, 8B ~6 GB, 14B ~9.5 GB, 32B ~20.5 GB, 70B ~42 GB.
✓Q8_0 ist etwa das 2-Fache der Q4_K_M-Größe; FP16 etwa das 4-Fache der Q4_K_M-Dateigröße.
✓Der 14B bei Q4_K_M (~9.5 GB) ist der Sweet Spot — passt mit Kontextreserve auf eine 16-GB-Karte.
✓Der 32B bei Q4_K_M (~20.5 GB) ist auf einer 24-GB-RTX-4090 knapp; für längeren Kontext auf eine kleinere Quant wechseln.
✓Der volle 671B DeepSeek-R1 steht nicht in dieser Tabelle — er benötigt ~376–404 GB bei Q4 (nur Rechenzentrum).
✓Dies sind R1-Reasoning-Distills, nicht DeepSeek-V3 (ein Chat-Modell).

DeepSeek-R1 Distill VRAM nach Quantisierung

Die VRAM-Werte enthalten einen kleinen Aufschlag für Kontext und KV-Cache zusätzlich zur reinen Dateigröße. Q4_K_M ist der Ollama-Standard und der beste Kompromiss zwischen Größe und Qualität für Reasoning. Nutzen Sie Q8_0 nur, wenn Sie VRAM übrig haben und einen geringfügigen Qualitätsgewinn wünschen; FP16 lohnt sich lokal selten.

Distill	Q4_K_M (VRAM)	Q8_0 (VRAM)	FP16 (VRAM)	Mindest-GPU (Q4_K_M)
1.5B	~4 GB	~5 GB	~6 GB	Beliebige 4-GB-GPU / CPU
7B (Qwen2.5)	~5.5 GB	~9.5 GB	~16 GB	RTX 3060 12GB
8B (Llama 3)	~6 GB	~10 GB	~17 GB	RTX 3060 12GB
14B (Qwen2.5)	~9.5 GB	~16 GB	~29 GB	RTX 4060 Ti 16GB
32B (Qwen2.5)	~20.5 GB	~35 GB	~64 GB	RTX 4090 24GB (knapp)
70B (Llama 3)	~42 GB	~74 GB	~140 GB	Zwei GPUs / 48 GB

RTX 3060 12GB bei Amazon (Produktlink · offengelegt)Produktlink · offengelegtRTX 4060 Ti 16GB bei Amazon (Produktlink · offengelegt)Produktlink · offengelegtRTX 4090 24GB bei Amazon (Produktlink · offengelegt)Produktlink · offengelegt

Welche Quantisierung sollten Sie wählen?

**Nutzen Sie Q4_K_M für fast alles** — es ist der Ollama-Standard und hält die Reasoning-Qualität hoch, während es die meisten Modelle pro GB unterbringt. Wählen Sie es, sofern Sie keinen konkreten Grund dagegen haben.

**Nutzen Sie Q8_0 nur mit freiem VRAM** — es verdoppelt den Speicherbedarf ungefähr für einen geringfügigen Qualitätsgewinn, der eine Reasoning-Antwort selten verändert. Auf einer 24-GB-Karte mit dem 14B lohnenswert, sonst kaum.

**Überspringen Sie FP16 lokal** — bei etwa dem 4-Fachen der Q4_K_M-Größe treibt es den 32B auf 64-GB-Hardware, ohne praktischen Reasoning-Vorteil gegenüber Q8_0.

V3 vs. R1: Nicht verwechseln

**DeepSeek-V3 ist ein Chat-Modell; DeepSeek-R1 (und diese Distills) sind Reasoning-Modelle.** Diese Tabelle gilt nur für die R1-Reasoning-Familie. Wenn Sie V3 suchen: Es ist ein 671B-MoE-Chat-Modell, das ebenfalls nicht auf Consumer-Hardware läuft — siehe den [DeepSeek V3 Hardware-Bite](/prompt-bites/deepseek-v3-local-hardware-requirements).

Häufig gestellte Fragen

Wie viel VRAM braucht DeepSeek-R1-Distill-Qwen-32B?▾

Etwa 20.5 GB bei Q4_K_M, was auf eine 24-GB-RTX-4090 passt, aber wenig Platz für langen Kontext lässt. Bei Q8_0 benötigt er ~35 GB und bei FP16 ~64 GB.

Wie viel fügt Q8_0 gegenüber Q4_K_M hinzu?▾

Etwa das 2-Fache des VRAM. Für die meisten Reasoning-Aufgaben ist der Qualitätsgewinn geringfügig, daher ist Q4_K_M der bessere Standard, sofern Sie keinen VRAM übrig haben.

Kann ich den 70B Distill auf einer GPU ausführen?▾

Nein. Mit ~42 GB (Q4_K_M) übersteigt er jede einzelne Consumer-Karte. Nutzen Sie zwei 24-GB-GPUs oder eine 48-GB-Workstation-Karte.

Steht der volle DeepSeek-R1 in dieser Tabelle?▾

Nein. Der volle 671B R1 benötigt ~376–404 GB bei Q4 und ist nur für Rechenzentren geeignet. Dieser Spickzettel deckt die consumer-tauglichen Distills (1.5B–70B) ab.

Den vollständigen Überblick?

Die vollständige Anleitung lesen →

Verwandte Prompt Bites

▸Beste DeepSeek-Distill für Ihre GPU (2026)

← Zurück zu Prompt-Häppchen

DeepSeek-R1 Distill VRAM-Spickzettel (2026)

DeepSeek-R1 Distill VRAM nach Quantisierung

Welche Quantisierung sollten Sie wählen?

V3 vs. R1: Nicht verwechseln

Verwandte Anleitungen

Häufig gestellte Fragen