Bestes LLM für AMD 5700X + RTX 3070 Ti?

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Schnelle Antwort

Mit einer RTX 3070 Ti (8 GB VRAM) sind Llama 3 8B Q4_K_M und Mistral Small Q5_K_M die besten lokalen LLMs. Beide benötigen ~6 GB VRAM und laufen mit ~22–25 tok/s. Der AMD Ryzen 7 5700X übernimmt die schnelle Tokenisierung als CPU-Fallback.

▸Llama 3 8B Q4_K_M: ~6 GB VRAM, ~25 tok/s auf der RTX 3070 Ti
▸Mistral Small Q5_K_M: ~6 GB VRAM, starkes Reasoning pro genutztem VRAM
▸RTX 3070 Ti hat 8 GB VRAM — 13B-Modelle bei Q4 passen möglicherweise nicht

Aktualisiert: 2026-05

Hardware-Specific

Wichtigste Punkte

✓RTX 3070 Ti hat 8 GB GDDR6 VRAM und 608 GB/s Speicherbandbreite — erwarten Sie ~25 tok/s bei 7B Q4-Modellen
✓Llama 3 8B Q4_K_M verwendet ~6 GB VRAM, lässt 2 GB Puffer auf der RTX 3070 Ti
✓Mistral Small Q4_K_M benötigt ebenfalls ~6 GB VRAM und bietet vergleichbare Geschwindigkeit
✓13B-Modelle bei Q4 überschreiten 8 GB VRAM und erfordern niedrigere Quantisierung (Q3 oder weniger)

Was gut auf dieser Ausstattung läuft

Stand Mai 2026: Die RTX 3070 Ti (8 GB GDDR6X, 608 GB/s Speicherbandbreite) führt Llama 3 8B Q4_K_M und Mistral Small Q5_K_M vollständig im VRAM aus — jeweils ca. 6 GB — mit ~22–25 tok/s. Die 14B-Modellklasse ist die harte Grenze: Sie benötigt ~10 GB, was das 8-GB-Limit überschreitet.

Wenn ein 14B-Modell erforderlich ist, gibt es drei Wege: Q3_K_M reduziert den Speicherbedarf auf ~7 GB und passt vollständig in den VRAM, verschlechtert aber die Ausgabequalität bei Reasoning und Code-Aufgaben. Partial CPU Offloading via llama.cpp (Aufteilung von Schichten zwischen VRAM und RAM) ist mit ~8 tok/s machbar — die 8 Zen-3-Kerne des 5700X bewältigen dies besser als ein 4-Kern-CPU. Ein 70B-Modell mit Q2_K ist technisch möglich mit ~1 tok/s, aber nicht praktisch für interaktive Nutzung.

Wenn 14B-Coding-Modelle in voller Qualität das Ziel sind, siehe den Leitfaden zu den besten Coding-LLMs für 12 GB VRAM für den Hardware-Upgrade-Weg.

Modell	Setup	Geschwindigkeit
Llama 3 8B Q4_K_M	Vollständig im VRAM	~25 tok/s
Mistral Small Q5_K_M	Vollständig im VRAM	~22 tok/s
Qwen 14B Q3_K_M	Vollständig im VRAM (eng)	~14 tok/s (Qualitätsverlust)
Qwen 14B Q4_K_M	Partial CPU Offload	~8 tok/s
Llama 3 70B Q2_K	CPU-lastig	~1 tok/s (langsam)

Wann upgraden oder wann bleiben?

Diese Ausstattung läuft 7B–8B-Modelle mit 20+ tok/s — ausreichend für allgemeines Chat, Python-Scripting, TypeScript-Tooling und Code-Review einzelner Dateien. Wenn das Ihre Workload beschreibt, gibt es keinen drängenden Grund zu upgraden.

Wenn Sie 14B-Coding-Modelle ohne Qualitäts- oder Geschwindigkeitsverlust benötigen, ist die GPU das Upgrade-Ziel — nicht die CPU. Eine gebrauchte RTX 3060 12 GB (typischerweise 200–300 EUR) oder RTX 4070 base (12 GB) freischalt Qwen 3 Coder 14B bei Q4 mit voller Durchsatzrate. Die 5800X3D ist das beste AM4-CPU-Upgrade, aber ihr 3D-V-Cache-Vorteil ist spezifisch für Gaming und CPU-gebundene wissenschaftliche Workloads — LLM-Inferenz ist GPU-Speicherbandbreiten-gebunden und der 5700X ist hier nicht der Engpass.

Für den vollständigen GPU-Auswahlratgeber und die Zuordnung von Speicherbandbreite zu LLM-Inferenzgeschwindigkeit, siehe den Leitfaden zu den besten GPUs für lokale LLMs.

Schnelle Antworten zu LLMs für AMD 5700X + RTX 3070 Ti

Kann ich ein 14B-Modell auf einer RTX 3070 Ti 8 GB ausführen?▾

Nicht bei Q4_K_M — 14B-Modelle benötigen ca. 10 GB, was das 8-GB-Limit überschreitet. Q3_K_M (~7 GB) passt, aber die Ausgabequalität verschlechtert sich deutlich bei Reasoning- und Code-Aufgaben. Partial CPU Offload via llama.cpp ist mit ~8 tok/s möglich.

Sollte ich GPU oder CPU für bessere LLM-Leistung upgraden?▾

GPU. LLM-Inferenzgeschwindigkeit ist GPU-Speicherbandbreiten-gebunden; der 5700X ist nicht der Engpass. Ein Upgrade zu 12 GB GPU (RTX 3060 12 GB oder RTX 4070 base) freischalt die 14B-Modellklasse in voller Q4-Qualität und -Geschwindigkeit.

Spielt RAM-Geschwindigkeit für Partial CPU Offload eine Rolle?▾

Ja, als Sekundärfaktor. DDR4-3600 vs. DDR4-2133 ergibt grob 15% mehr CPU-Offload-Durchsatz für die RAM-Schichten. Die GPU bleibt die primäre Einschränkung für Schichten, die in den VRAM passen.

Lohnt sich die 5800X3D im Vergleich zur 5700X für LLMs?▾

Nein. Der 3D-V-Cache der 5800X3D hilft Gaming und gewissen CPU-gebundenen Workloads, aber LLM-Inferenz ist GPU-Speicherbandbreiten-gebunden. Der 5700X ist auf dieser Ausstattung nicht der Engpass — investieren Sie das Upgrade-Budget in eine 12 GB GPU.

← Zurück zu Prompt-Häppchen