Ein 70B-Modell (normalerweise 40+ GB erforderlich) auf 24 GB VRAM auszuführen ist mit aggressiver Quantisierung (Q2-Q3) und Layer-Offloading möglich, aber das Ergebnis ist langsam (~3-5 Token/Sek.). Ab April 2026 ist dies unpraktisch für Echtzeit-Chat, aber praktikabel für Batch-Verarbeitung oder Experimente.

Wichtigste Erkenntnisse

Llama 3.1 70B bei Q4 = 35 GB (zu groß für 24GB). Bei Q3 = 26 GB (immer noch zu groß). Bei Q2 = 17 GB (passt!).
Trade-off: Q2 hat spürbaren Qualitätsverlust. ~70% der FP16-Qualität.
Geschwindigkeit: 3-5 Token/Sek. mit 20 GB auf System-RAM ausgelagert (ultra-langsam).
Bessere Option: 13B-Modell bei Q5 verwenden oder eine zweite GPU für Layer-Splitting kaufen.
Ab April 2026 ist dies eine Constraint-Behebung, keine empfohlene Methode.

Die theoretische VRAM-Mathematik

Llama 3.1 70B bei verschiedenen Quantisierungen:

Quantisierung	Modellgröße	Passt in 24GB?
FP16 (Baseline)	—	Nein
Q8 (8-Bit)	—	Nein
Q5 (5-Bit)	—	Nein
Q4 (4-Bit)	—	Nein (mit Offloading: vielleicht)
Q3 (3-Bit)	—	Nein (knapp)
Q2 (2-Bit)	—	Ja

Aggressive Quantisierung: Das Hauptwerkzeug

Um 70B in 24GB zu passen, müssen Sie Q2 oder Q3 Quantisierung verwenden.

- Q3: 26 GB (immer noch 2 GB über). Kann 2 GB zu RAM auslagern. Etwas bessere Qualität als Q2.

- Q2: 17,5 GB (passt!). 70% Qualität gegenüber FP16. Bemerkenswerter Qualitätsverlust, aber nutzbar.

Das quantisierte Modell herunterladen: `ollama pull llama3.1:70b-q2` (falls verfügbar) oder Konvertierungstools wie llama.cpp verwenden.

Offloading zu System-RAM

Wenn Sie Q4 (35 GB) auf einer 24GB GPU verwenden, können Sie die verbleibenden 11 GB zu System-RAM auslagern. Die Geschwindigkeitseinbuße ist schwerwiegend (10× langsamer).

Nur praktisch für Batch-Verarbeitung, bei der Sie Stunden auf Ergebnisse warten können.

Praktisches Setup: 70B auf 24GB ausführen

Schritt-für-Schritt:

1
Q2-Quantisierung verwenden: `ollama pull llama3.1:70b-q2` (falls verfügbar, sonst mit llama.cpp konvertieren)
2
VRAM überprüfen: `nvidia-smi` sollte ~18 GB Auslastung anzeigen
3
Modell ausführen: `ollama run llama3.1:70b-q2`
4
Erwarten Sie 3-5 Token/Sek. (sehr langsam)
5
Nur für Batch-/Offline-Verarbeitung verwenden, nicht für interaktiven Chat

Realistische Leistungserwartungen

70B auf 24GB VRAM auszuführen ist langsam:

Quantisierung	Geschwindigkeit	Latenz	Anwendungsfall
Q2 (24GB VRAM)	5-8 Token/Sek.	2-4 Sek. pro Token	Nur Batch-Verarbeitung
Q3 + Offload (24GB)	3-5 Token/Sek.	3-5 Sek. pro Token	Extrem begrenzt
Q4 + Offload (24GB)	1-3 Token/Sek.	5-10 Sek. pro Token	Nur Overnight-Batch

Bessere Alternativen zu beschränktem 70B

Statt sich mit 70B bei limitiertem VRAM abzumühen, erwägen Sie:

Ein 13B-Modell verwenden (Llama 3.1 13B bei Q5 = 8 GB, sehr schnell)
Eine zweite RTX 4090 für Layer-Splitting kaufen (2× 24GB = 48GB, 100+ Token/Sek.)
Eine Cloud-API verwenden (GPT-4o für wichtige Aufgaben, lokal für Experimente)
Auf effizientere Modelle warten (kleiner, gleiche Qualität)

Häufige Fehler bei beschränktem 70B

Erwartet, dass Q2 für Chat brauchbar ist. Das ist es nicht. Der Qualitätsverlust ist zu schwerwiegend für die Echtzeit-Interaktion.
Nicht vorher die tatsächliche Geschwindigkeit messen. Vor größeren Batch-Jobs mit einem kleinen Prompt (10 Token) testen und die Geschwindigkeit überprüfen.
Annahme, dass Offloading "kostenlos" ist. System-RAM ist 100× langsamer als GPU VRAM. Das Offloading macht die Inferenz unpraktisch.
Keine Alternativen erwägen. Ein 13B-Modell ist dramatisch schneller und oft in der Qualität ausreichend.

Häufig gestellte Fragen

Kann ich eine 70B-Modell wirklich auf einer einzelnen RTX 4090 ausführen?

Ja, aber mit erheblichen Einschränkungen. Bei Q2-Quantisierung (17,5 GB) passt das Modell in 24 GB VRAM, läuft aber mit 5-8 Token/Sek. und hat ~70% der FP16-Qualität. Bei Q4 (35 GB) müssen Sie 11 GB zu System-RAM auslagern, wodurch die Geschwindigkeit auf 1-3 Token/Sek. sinkt. Keine ist für Echtzeit-Chat geeignet — nur für Offline-Batch-Verarbeitung.

Welche Quantisierung ist erforderlich, um 70B in 24 GB VRAM zu passen?

Q2-Quantisierung passt in 24 GB (17,5 GB Modellgröße). Q3 (26 GB) erfordert 2 GB RAM-Offloading. Q4 (35 GB) erfordert 11 GB Offloading und macht die Inferenz sehr langsam. Q5 und höher (44-70 GB) können nicht passen, auch nicht mit Offloading auf einer 24 GB GPU. Q2 ist die einzige Option, die vollständig in VRAM läuft.

Wie langsam ist eine 70B-Modell auf 24 GB VRAM?

Bei Q2 (vollständig in VRAM): 5-8 Token/Sek. Bei Q3 mit 2 GB RAM-Offload: 3-5 Token/Sek. Bei Q4 mit 11 GB RAM-Offload: 1-3 Token/Sek. Vergleichen Sie mit einem 13B-Modell bei Q5 auf der gleichen GPU: 80-100 Token/Sek. Das beschränkte 70B-Setup ist 10-20× langsamer als ein richtig dimensioniertes kleineres Modell.

Ist es besser, ein 13B-Modell statt eines beschränkten 70B zu verwenden?

Für die meisten Aufgaben ja. Ein 13B-Modell bei Q5-Quantisierung läuft auf einer RTX 4090 mit 80-100 Token/Sek. und liefert starke Qualität. Ein 70B-Modell bei Q2 läuft mit 5-8 Token/Sek. mit verminderter Qualität. Das 13B-Modell gewinnt bei Geschwindigkeit und oft bei praktischer Qualität aufgrund von Q2-Verschlechterung. Verwenden Sie 70B-auf-24GB nur, wenn Sie spezifische 70B-Fähigkeiten benötigen und Batch-only-Verwendung tolerieren können.

Quellen

llama.cpp Quantisierung -- github.com/ggerganov/llama.cpp/blob/master/gguf-py/gguf/quants.py
Model Card: Llama 3.1 70B -- huggingface.co/meta-llama/Llama-3.1-70B

70B-Modelle auf 24GB VRAM ausführen: Fortgeschrittene Techniken

Die theoretische VRAM-Mathematik

Aggressive Quantisierung: Das Hauptwerkzeug

Offloading zu System-RAM

Praktisches Setup: 70B auf 24GB ausführen

Realistische Leistungserwartungen

Bessere Alternativen zu beschränktem 70B

Häufige Fehler bei beschränktem 70B

Häufig gestellte Fragen

Kann ich eine 70B-Modell wirklich auf einer einzelnen RTX 4090 ausführen?

Welche Quantisierung ist erforderlich, um 70B in 24 GB VRAM zu passen?

Wie langsam ist eine 70B-Modell auf 24 GB VRAM?

Ist es besser, ein 13B-Modell statt eines beschränkten 70B zu verwenden?

Quellen

A Note on Third-Party Facts

70B-Modelle auf 24GB VRAM ausführen: Fortgeschrittene Techniken

Die theoretische VRAM-Mathematik

Aggressive Quantisierung: Das Hauptwerkzeug

Offloading zu System-RAM

Praktisches Setup: 70B auf 24GB ausführen

Realistische Leistungserwartungen

Bessere Alternativen zu beschränktem 70B

Häufige Fehler bei beschränktem 70B

Häufig gestellte Fragen

Kann ich eine 70B-Modell wirklich auf einer einzelnen RTX 4090 ausführen?

Welche Quantisierung ist erforderlich, um 70B in 24 GB VRAM zu passen?

Wie langsam ist eine 70B-Modell auf 24 GB VRAM?

Ist es besser, ein 13B-Modell statt eines beschränkten 70B zu verwenden?

Weiterführendes Material

Quellen

A Note on Third-Party Facts