Bestes LLM für AMD 5700X + RTX 3070 Ti?
Schnelle Antwort
Mit einer RTX 3070 Ti (8 GB VRAM) sind Llama 3 8B Q4_K_M und Mistral Small Q5_K_M die besten lokalen LLMs. Beide benötigen ~6 GB VRAM und laufen mit ~22–25 tok/s. Der AMD Ryzen 7 5700X übernimmt die schnelle Tokenisierung als CPU-Fallback.
- ▸Llama 3 8B Q4_K_M: ~6 GB VRAM, ~25 tok/s auf der RTX 3070 Ti
- ▸Mistral Small Q5_K_M: ~6 GB VRAM, starkes Reasoning pro genutztem VRAM
- ▸RTX 3070 Ti hat 8 GB VRAM — 13B-Modelle bei Q4 passen möglicherweise nicht
Aktualisiert: 2026-05
Wichtigste Punkte
- ✓RTX 3070 Ti hat 8 GB GDDR6 VRAM und 608 GB/s Speicherbandbreite — erwarten Sie ~25 tok/s bei 7B Q4-Modellen
- ✓Llama 3 8B Q4_K_M verwendet ~6 GB VRAM, lässt 2 GB Puffer auf der RTX 3070 Ti
- ✓Mistral Small Q4_K_M benötigt ebenfalls ~6 GB VRAM und bietet vergleichbare Geschwindigkeit
- ✓13B-Modelle bei Q4 überschreiten 8 GB VRAM und erfordern niedrigere Quantisierung (Q3 oder weniger)
Was gut auf dieser Ausstattung läuft
Stand Mai 2026: Die RTX 3070 Ti (8 GB GDDR6X, 608 GB/s Speicherbandbreite) führt Llama 3 8B Q4_K_M und Mistral Small Q5_K_M vollständig im VRAM aus — jeweils ca. 6 GB — mit ~22–25 tok/s. Die 14B-Modellklasse ist die harte Grenze: Sie benötigt ~10 GB, was das 8-GB-Limit überschreitet.
Wenn ein 14B-Modell erforderlich ist, gibt es drei Wege: Q3_K_M reduziert den Speicherbedarf auf ~7 GB und passt vollständig in den VRAM, verschlechtert aber die Ausgabequalität bei Reasoning und Code-Aufgaben. Partial CPU Offloading via llama.cpp (Aufteilung von Schichten zwischen VRAM und RAM) ist mit ~8 tok/s machbar — die 8 Zen-3-Kerne des 5700X bewältigen dies besser als ein 4-Kern-CPU. Ein 70B-Modell mit Q2_K ist technisch möglich mit ~1 tok/s, aber nicht praktisch für interaktive Nutzung.
Wenn 14B-Coding-Modelle in voller Qualität das Ziel sind, siehe den Leitfaden zu den besten Coding-LLMs für 12 GB VRAM für den Hardware-Upgrade-Weg.
| Modell | Setup | Geschwindigkeit |
|---|---|---|
| Llama 3 8B Q4_K_M | Vollständig im VRAM | ~25 tok/s |
| Mistral Small Q5_K_M | Vollständig im VRAM | ~22 tok/s |
| Qwen 14B Q3_K_M | Vollständig im VRAM (eng) | ~14 tok/s (Qualitätsverlust) |
| Qwen 14B Q4_K_M | Partial CPU Offload | ~8 tok/s |
| Llama 3 70B Q2_K | CPU-lastig | ~1 tok/s (langsam) |
Wann upgraden oder wann bleiben?
Diese Ausstattung läuft 7B–8B-Modelle mit 20+ tok/s — ausreichend für allgemeines Chat, Python-Scripting, TypeScript-Tooling und Code-Review einzelner Dateien. Wenn das Ihre Workload beschreibt, gibt es keinen drängenden Grund zu upgraden.
Wenn Sie 14B-Coding-Modelle ohne Qualitäts- oder Geschwindigkeitsverlust benötigen, ist die GPU das Upgrade-Ziel — nicht die CPU. Eine gebrauchte RTX 3060 12 GB (typischerweise 200–300 EUR) oder RTX 4070 base (12 GB) freischalt Qwen 3 Coder 14B bei Q4 mit voller Durchsatzrate. Die 5800X3D ist das beste AM4-CPU-Upgrade, aber ihr 3D-V-Cache-Vorteil ist spezifisch für Gaming und CPU-gebundene wissenschaftliche Workloads — LLM-Inferenz ist GPU-Speicherbandbreiten-gebunden und der 5700X ist hier nicht der Engpass.
Für den vollständigen GPU-Auswahlratgeber und die Zuordnung von Speicherbandbreite zu LLM-Inferenzgeschwindigkeit, siehe den Leitfaden zu den besten GPUs für lokale LLMs.