Wichtigste Erkenntnisse
- Llama 3.1 70B bei Q4 = 35 GB (zu groß für 24GB). Bei Q3 = 26 GB (immer noch zu groß). Bei Q2 = 17 GB (passt!).
- Trade-off: Q2 hat spürbaren Qualitätsverlust. ~70% der FP16-Qualität.
- Geschwindigkeit: 3-5 Token/Sek. mit 20 GB auf System-RAM ausgelagert (ultra-langsam).
- Bessere Option: 13B-Modell bei Q5 verwenden oder eine zweite GPU für Layer-Splitting kaufen.
- Ab April 2026 ist dies eine Constraint-Behebung, keine empfohlene Methode.
Die theoretische VRAM-Mathematik
Llama 3.1 70B bei verschiedenen Quantisierungen:
| Quantisierung | Modellgröße | Passt in 24GB? |
|---|---|---|
| FP16 (Baseline) | — | Nein |
| Q8 (8-Bit) | — | Nein |
| Q5 (5-Bit) | — | Nein |
| Q4 (4-Bit) | — | Nein (mit Offloading: vielleicht) |
| Q3 (3-Bit) | — | Nein (knapp) |
| Q2 (2-Bit) | — | Ja |
Aggressive Quantisierung: Das Hauptwerkzeug
Um 70B in 24GB zu passen, müssen Sie Q2 oder Q3 Quantisierung verwenden.
- Q3: 26 GB (immer noch 2 GB über). Kann 2 GB zu RAM auslagern. Etwas bessere Qualität als Q2.
- Q2: 17,5 GB (passt!). 70% Qualität gegenüber FP16. Bemerkenswerter Qualitätsverlust, aber nutzbar.
Das quantisierte Modell herunterladen: `ollama pull llama3.1:70b-q2` (falls verfügbar) oder Konvertierungstools wie llama.cpp verwenden.
Offloading zu System-RAM
Wenn Sie Q4 (35 GB) auf einer 24GB GPU verwenden, können Sie die verbleibenden 11 GB zu System-RAM auslagern. Die Geschwindigkeitseinbuße ist schwerwiegend (10× langsamer).
Nur praktisch für Batch-Verarbeitung, bei der Sie Stunden auf Ergebnisse warten können.
Praktisches Setup: 70B auf 24GB ausführen
Schritt-für-Schritt:
- 1Q2-Quantisierung verwenden: `ollama pull llama3.1:70b-q2` (falls verfügbar, sonst mit llama.cpp konvertieren)
- 2VRAM überprüfen: `nvidia-smi` sollte ~18 GB Auslastung anzeigen
- 3Modell ausführen: `ollama run llama3.1:70b-q2`
- 4Erwarten Sie 3-5 Token/Sek. (sehr langsam)
- 5Nur für Batch-/Offline-Verarbeitung verwenden, nicht für interaktiven Chat
Realistische Leistungserwartungen
70B auf 24GB VRAM auszuführen ist langsam:
| Quantisierung | Geschwindigkeit | Latenz | Anwendungsfall |
|---|---|---|---|
| Q2 (24GB VRAM) | 5-8 Token/Sek. | 2-4 Sek. pro Token | Nur Batch-Verarbeitung |
| Q3 + Offload (24GB) | 3-5 Token/Sek. | 3-5 Sek. pro Token | Extrem begrenzt |
| Q4 + Offload (24GB) | 1-3 Token/Sek. | 5-10 Sek. pro Token | Nur Overnight-Batch |
Bessere Alternativen zu beschränktem 70B
Statt sich mit 70B bei limitiertem VRAM abzumühen, erwägen Sie:
- Ein 13B-Modell verwenden (Llama 3.1 13B bei Q5 = 8 GB, sehr schnell)
- Eine zweite RTX 4090 für Layer-Splitting kaufen (2× 24GB = 48GB, 100+ Token/Sek.)
- Eine Cloud-API verwenden (GPT-4o für wichtige Aufgaben, lokal für Experimente)
- Auf effizientere Modelle warten (kleiner, gleiche Qualität)
Häufige Fehler bei beschränktem 70B
- Erwartet, dass Q2 für Chat brauchbar ist. Das ist es nicht. Der Qualitätsverlust ist zu schwerwiegend für die Echtzeit-Interaktion.
- Nicht vorher die tatsächliche Geschwindigkeit messen. Vor größeren Batch-Jobs mit einem kleinen Prompt (10 Token) testen und die Geschwindigkeit überprüfen.
- Annahme, dass Offloading "kostenlos" ist. System-RAM ist 100× langsamer als GPU VRAM. Das Offloading macht die Inferenz unpraktisch.
- Keine Alternativen erwägen. Ein 13B-Modell ist dramatisch schneller und oft in der Qualität ausreichend.
Häufig gestellte Fragen
Kann ich eine 70B-Modell wirklich auf einer einzelnen RTX 4090 ausführen?
Ja, aber mit erheblichen Einschränkungen. Bei Q2-Quantisierung (17,5 GB) passt das Modell in 24 GB VRAM, läuft aber mit 5-8 Token/Sek. und hat ~70% der FP16-Qualität. Bei Q4 (35 GB) müssen Sie 11 GB zu System-RAM auslagern, wodurch die Geschwindigkeit auf 1-3 Token/Sek. sinkt. Keine ist für Echtzeit-Chat geeignet — nur für Offline-Batch-Verarbeitung.
Welche Quantisierung ist erforderlich, um 70B in 24 GB VRAM zu passen?
Q2-Quantisierung passt in 24 GB (17,5 GB Modellgröße). Q3 (26 GB) erfordert 2 GB RAM-Offloading. Q4 (35 GB) erfordert 11 GB Offloading und macht die Inferenz sehr langsam. Q5 und höher (44-70 GB) können nicht passen, auch nicht mit Offloading auf einer 24 GB GPU. Q2 ist die einzige Option, die vollständig in VRAM läuft.
Wie langsam ist eine 70B-Modell auf 24 GB VRAM?
Bei Q2 (vollständig in VRAM): 5-8 Token/Sek. Bei Q3 mit 2 GB RAM-Offload: 3-5 Token/Sek. Bei Q4 mit 11 GB RAM-Offload: 1-3 Token/Sek. Vergleichen Sie mit einem 13B-Modell bei Q5 auf der gleichen GPU: 80-100 Token/Sek. Das beschränkte 70B-Setup ist 10-20× langsamer als ein richtig dimensioniertes kleineres Modell.
Ist es besser, ein 13B-Modell statt eines beschränkten 70B zu verwenden?
Für die meisten Aufgaben ja. Ein 13B-Modell bei Q5-Quantisierung läuft auf einer RTX 4090 mit 80-100 Token/Sek. und liefert starke Qualität. Ein 70B-Modell bei Q2 läuft mit 5-8 Token/Sek. mit verminderter Qualität. Das 13B-Modell gewinnt bei Geschwindigkeit und oft bei praktischer Qualität aufgrund von Q2-Verschlechterung. Verwenden Sie 70B-auf-24GB nur, wenn Sie spezifische 70B-Fähigkeiten benötigen und Batch-only-Verwendung tolerieren können.
Quellen
- llama.cpp Quantisierung -- github.com/ggerganov/llama.cpp/blob/master/gguf-py/gguf/quants.py
- Model Card: Llama 3.1 70B -- huggingface.co/meta-llama/Llama-3.1-70B