Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/70B-Modelle auf 24GB VRAM ausführen: Fortgeschrittene Techniken
Hardware & Performance

70B-Modelle auf 24GB VRAM ausführen: Fortgeschrittene Techniken

·10 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Ein 70B-Modell (normalerweise 40+ GB erforderlich) auf 24 GB VRAM auszuführen ist mit aggressiver Quantisierung (Q2-Q3) und Layer-Offloading möglich, aber das Ergebnis ist langsam (~3-5 Token/Sek.).

Ein 70B-Modell (normalerweise 40+ GB erforderlich) auf 24 GB VRAM auszuführen ist mit aggressiver Quantisierung (Q2-Q3) und Layer-Offloading möglich, aber das Ergebnis ist langsam (~3-5 Token/Sek.). Ab April 2026 ist dies unpraktisch für Echtzeit-Chat, aber praktikabel für Batch-Verarbeitung oder Experimente.

Wichtigste Erkenntnisse

  • Llama 3.3 70B bei Q4 = 35 GB (zu groß für 24GB). Bei Q3 = 26 GB (immer noch zu groß). Bei Q2 = 17 GB (passt!).
  • Trade-off: Q2 hat spürbaren Qualitätsverlust. ~70% der FP16-Qualität.
  • Geschwindigkeit: 3-5 Token/Sek. mit 20 GB auf System-RAM ausgelagert (ultra-langsam).
  • Bessere Option: 13B-Modell bei Q5 verwenden oder eine zweite GPU für Layer-Splitting kaufen.
  • Ab April 2026 ist dies eine Constraint-Behebung, keine empfohlene Methode.

Die theoretische VRAM-Mathematik

Llama 3.3 70B bei verschiedenen Quantisierungen:

QuantisierungModellgrößePasst in 24GB?
FP16 (Baseline)Nein
Q8 (8-Bit)Nein
Q5 (5-Bit)Nein
Q4 (4-Bit)Nein (mit Offloading: vielleicht)
Q3 (3-Bit)Nein (knapp)
Q2 (2-Bit)Ja

Aggressive Quantisierung: Das Hauptwerkzeug

Um 70B in 24GB zu passen, müssen Sie Q2 oder Q3 Quantisierung verwenden.

  • Q3: 26 GB (immer noch 2 GB über). Kann 2 GB zu RAM auslagern. Etwas bessere Qualität als Q2.
  • Q2: 17,5 GB (passt!). 70% Qualität gegenüber FP16. Bemerkenswerter Qualitätsverlust, aber nutzbar.

Das quantisierte Modell herunterladen: `ollama pull llama3.1:70b-q2` (falls verfügbar) oder Konvertierungstools wie llama.cpp verwenden.

Offloading zu System-RAM

Wenn Sie Q4 (35 GB) auf einer 24GB GPU verwenden, können Sie die verbleibenden 11 GB zu System-RAM auslagern. Die Geschwindigkeitseinbuße ist schwerwiegend (10× langsamer).

Nur praktisch für Batch-Verarbeitung, bei der Sie Stunden auf Ergebnisse warten können.

Praktisches Setup: 70B auf 24GB ausführen

Schritt-für-Schritt:

  1. 1
    Q2-Quantisierung verwenden: `ollama pull llama3.1:70b-q2` (falls verfügbar, sonst mit llama.cpp konvertieren)
  2. 2
    VRAM überprüfen: `nvidia-smi` sollte ~18 GB Auslastung anzeigen
  3. 3
    Modell ausführen: `ollama run llama3.1:70b-q2`
  4. 4
    Erwarten Sie 3-5 Token/Sek. (sehr langsam)
  5. 5
    Nur für Batch-/Offline-Verarbeitung verwenden, nicht für interaktiven Chat

Realistische Leistungserwartungen

70B auf 24GB VRAM auszuführen ist langsam:

QuantisierungGeschwindigkeitLatenzAnwendungsfall
Q2 (24GB VRAM)5-8 Token/Sek.2-4 Sek. pro TokenNur Batch-Verarbeitung
Q3 + Offload (24GB)3-5 Token/Sek.3-5 Sek. pro TokenExtrem begrenzt
Q4 + Offload (24GB)1-3 Token/Sek.5-10 Sek. pro TokenNur Overnight-Batch

Bessere Alternativen zu beschränktem 70B

Statt sich mit 70B bei limitiertem VRAM abzumühen, erwägen Sie:

  • Ein 13B-Modell verwenden (Llama 3.3 13B bei Q5 = 8 GB, sehr schnell)
  • Eine zweite RTX 4090 für Layer-Splitting kaufen (2× 24GB = 48GB, 100+ Token/Sek.)
  • Eine Cloud-API verwenden (GPT-5.5 für wichtige Aufgaben, lokal für Experimente)
  • Auf effizientere Modelle warten (kleiner, gleiche Qualität)

Häufige Fehler bei beschränktem 70B

  • Erwartet, dass Q2 für Chat brauchbar ist. Das ist es nicht. Der Qualitätsverlust ist zu schwerwiegend für die Echtzeit-Interaktion.
  • Nicht vorher die tatsächliche Geschwindigkeit messen. Vor größeren Batch-Jobs mit einem kleinen Prompt (10 Token) testen und die Geschwindigkeit überprüfen.
  • Annahme, dass Offloading "kostenlos" ist. System-RAM ist 100× langsamer als GPU VRAM. Das Offloading macht die Inferenz unpraktisch.
  • Keine Alternativen erwägen. Ein 13B-Modell ist dramatisch schneller und oft in der Qualität ausreichend.

Häufig gestellte Fragen

Kann ich eine 70B-Modell wirklich auf einer einzelnen RTX 4090 ausführen?

Ja, aber mit erheblichen Einschränkungen. Bei Q2-Quantisierung (17,5 GB) passt das Modell in 24 GB VRAM, läuft aber mit 5-8 Token/Sek. und hat ~70% der FP16-Qualität. Bei Q4 (35 GB) müssen Sie 11 GB zu System-RAM auslagern, wodurch die Geschwindigkeit auf 1-3 Token/Sek. sinkt. Keine ist für Echtzeit-Chat geeignet — nur für Offline-Batch-Verarbeitung.

Welche Quantisierung ist erforderlich, um 70B in 24 GB VRAM zu passen?

Q2-Quantisierung passt in 24 GB (17,5 GB Modellgröße). Q3 (26 GB) erfordert 2 GB RAM-Offloading. Q4 (35 GB) erfordert 11 GB Offloading und macht die Inferenz sehr langsam. Q5 und höher (44-70 GB) können nicht passen, auch nicht mit Offloading auf einer 24 GB GPU. Q2 ist die einzige Option, die vollständig in VRAM läuft.

Wie langsam ist eine 70B-Modell auf 24 GB VRAM?

Bei Q2 (vollständig in VRAM): 5-8 Token/Sek. Bei Q3 mit 2 GB RAM-Offload: 3-5 Token/Sek. Bei Q4 mit 11 GB RAM-Offload: 1-3 Token/Sek. Vergleichen Sie mit einem 13B-Modell bei Q5 auf der gleichen GPU: 80-100 Token/Sek. Das beschränkte 70B-Setup ist 10-20× langsamer als ein richtig dimensioniertes kleineres Modell.

Ist es besser, ein 13B-Modell statt eines beschränkten 70B zu verwenden?

Für die meisten Aufgaben ja. Ein 13B-Modell bei Q5-Quantisierung läuft auf einer RTX 4090 mit 80-100 Token/Sek. und liefert starke Qualität. Ein 70B-Modell bei Q2 läuft mit 5-8 Token/Sek. mit verminderter Qualität. Das 13B-Modell gewinnt bei Geschwindigkeit und oft bei praktischer Qualität aufgrund von Q2-Verschlechterung. Verwenden Sie 70B-auf-24GB nur, wenn Sie spezifische 70B-Fähigkeiten benötigen und Batch-only-Verwendung tolerieren können.

Quellen

  • llama.cpp Quantisierung -- github.com/ggerganov/llama.cpp/blob/master/gguf-py/gguf/quants.py
  • Model Card: Llama 3.3 70B -- huggingface.co/meta-llama/Llama-3.1-70B

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Nutzen Sie PromptQuorum mit einem lokalen LLM, eigenen API-Schlüsseln oder beidem — Sie wählen das Backend.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs