Schnelle Antwort
Mit einer RTX 3070 Ti (8 GB VRAM) sind Llama 3 8B und Mistral 7B bei Q4_K_M die besten lokalen LLMs. Beide benötigen ~6 GB VRAM und laufen mit ~25 tok/s. Der AMD Ryzen 7 5700X übernimmt die schnelle Tokenisierung als CPU-Fallback.
Aktualisiert: 2026-05
Wichtigste Punkte
Die RTX 3070 Ti verfügt über 8 GB GDDR6 VRAM und 608 GB/s Speicherbandbreite, was bei 7B-Modellen mit Q4_K_M-Quantisierung ca. 25 Tokens pro Sekunde liefert. Dies platziert die 3070 Ti klar im optimalen Bereich für 7B–8B-Modelle.
Bei Q4_K_M verwendet Llama 3 8B ca. 6 GB VRAM und lässt 2 GB für Kontext und Overhead frei. Mistral 7B bei gleicher Quantisierung benötigt ähnliche 6 GB. Beide Modelle laufen ohne Layer-Offloading auf die CPU.
13B-Modelle sind die harte Obergrenze. Llama 3 13B bei Q4_K_M benötigt ca. 8,5–9 GB VRAM, was den 8-GB-Limit der 3070 Ti überschreitet. Mit Q3_K_M (~7 GB) passt es, aber die Ausgabequalität verschlechtert sich merklich gegenüber einem nativen Q4 7B-Modell.
| Modell | VRAM bei Q4_K_M | Geschwindigkeit auf RTX 3070 Ti |
|---|---|---|
| Llama 3 8B Q4_K_M | ~6 GB | ~25 tok/s |
| Mistral 7B Q4_K_M | ~6 GB | ~24 tok/s |
| Llama 3 13B Q4_K_M | ~9 GB | Passt nicht |
Der AMD Ryzen 7 5700X ist ein Zen 3 8-Kern-Prozessor, der Tokenisierung und Prompt-Vorverarbeitung übernimmt, bevor die GPU die Generierung übernimmt. Die Tokenisierungsgeschwindigkeit ist bei 7B-Modellgrößen kein Engpass — der 5700X schließt diesen Schritt schneller ab, als die GPU Tokens generiert.
Falls Sie ein 13B-Modell mit dieser Hardware betreiben müssen, laden Sie es mit llama.cpp und Layer-Offloading: Behalten Sie so viele Layer wie möglich im VRAM und lagern Sie den Rest in den System-RAM aus. Erwarten Sie, dass die Generierungsgeschwindigkeit aufgrund des PCIe-Flaschenhals auf 5–8 tok/s sinkt.
Für den vollständigen GPU-Auswahlratgeber und wie die Bandbreite die Inferenzgeschwindigkeit beeinflusst, lesen Sie den Leitfaden zu den besten GPUs für lokale LLMs.
ollama pull llama3:8b lädt das Modell herunter; ollama run llama3:8b startet es. Ollama erkennt die NVIDIA GPU automatisch über CUDA und lädt das vollständige Modell in den VRAM.