Wichtigste Punkte
Stand Mai 2026: Die RTX 3060 12 GB ist der günstigste Weg, 14B-Modelle lokal auszuführen. Ihre 12 GB VRAM entsprechen der RTX 4070 Ti (~650 €) und RTX 4080 (~900 €) zu einem Bruchteil des Preises. Für eine gebrauchte Karte für ca. 250–310 € erhalten Sie die gleiche Modellkapazität wie Karten, die 3× mehr kosten — nur durch die reine Geschwindigkeit begrenzt, nicht durch das, was Sie laden können.
Alle fünf Modelle unten laufen mit Ollama sofort. Geschwindigkeitswerte bei Standard-2048-Token-Kontext auf einem Desktop-PC ohne CPU-Offload.
| Modell | VRAM-Bedarf | Geschwindigkeit |
|---|---|---|
| Llama 3 8B Q5_K_M | 7,0 GB | ~25 Tok/s |
| Qwen 2.5 Coder 14B Q4_K_M | 10,0 GB | ~20 Tok/s |
| Mistral 7B Q6_K | 6,5 GB | ~27 Tok/s |
| Phi-4 Q5_K_M | 6,2 GB | ~28 Tok/s |
| Qwen 14B Q4_K_M | 10,0 GB | ~18 Tok/s |
Für den Allzweck-Pick führen Sie Llama 3 8B bei Q5_K_M mit einem 4096-Token-Kontextfenster aus. Dies verwendet ~8 GB VRAM gesamt und lässt 4 GB Headroom — genug, um VRAM-Überlauf beim Wechseln zwischen Modellen zu vermeiden.
Für Coding ist Qwen 2.5 Coder 14B bei Q4_K_M die klare Wahl: es übertrifft Llama 3 8B bei HumanEval, passt in 10 GB VRAM und verarbeitet Python, TypeScript und Go ohne Fine-Tuning.
Halten Sie immer mindestens 1,5–2 GB VRAM frei. Das Laden zweier Modelle nacheinander ohne das erste zu entladen löst VRAM-Überlauf aus und erzwingt langsames CPU-Offload. Für den vollständigen GPU-Benchmark-Kontext, siehe beste GPUs für lokale LLMs. Wenn Ihre GPU weniger als 12 GB hat, siehe beste Modelle für 6 GB VRAM. So führen Sie den besten Allzweck-Pick auf Ihrem RTX 3060 aus:
ollama pull llama3:8b-instruct-q5_K_M
ollama run llama3:8b-instruct-q5_K_M--num-ctx 4096 für ein größeres Kontextfenster.ollama run modellname aus, und es lädt vollständig auf die GPU, wenn VRAM ausreicht.