Wichtigste Punkte
Stand Mai 2026: Mit 4 GB VRAM sind Sie auf Modelle mit 3 Milliarden Parametern oder weniger bei Q4-Quantisierung beschränkt. Das schließt alle gängigen lokalen Modelle aus — Llama 3 8B, Mistral 7B, Qwen 14B. Drei moderne kleine Modelle performen überraschend gut: Phi-4 Mini entspricht GPT-3.5 bei Instruction Following, Gemma 2 2B bewältigt schnellen Chat und SmolLM 1.7B läuft auf integrierten Grafiken.
Phi-4 Mini ist die erste Wahl in diesem Tier. Trotz seiner kleinen Größe bewältigt es allgemeines Q&A, leichtes Coding und Dokumentenzusammenfassung mit ~25 Token pro Sekunde. Gemma 2 2B ist schneller für Single-Turn-Chat. SmolLM 1.7B ist die Rückfallalternative, wenn sogar Phi-4 Mini Ihren VRAM zu nah an das Limit bringt.
| Modell | VRAM | Anwendungsbereich |
|---|---|---|
| Phi-4 Mini Q4 | 3,2 GB | Beste Qualität bei 4 GB |
| Gemma 2 2B Q4 | 1,5 GB | Schneller Single-Turn-Chat |
| SmolLM 1.7B Q4 | 1,0 GB | Minimaler VRAM-Bedarf |
Diese Modelle werden häufig angefragt, benötigen aber bei jeder Quantisierungsstufe mehr als 4 GB VRAM:
Ein Upgrade auf 6 GB schaltet Llama 3 8B und Mistral 7B frei — die zwei beliebtesten lokalen Modelle. Siehe beste lokale LLMs für 6 GB VRAM. Für einen vollständigen Hardware-Vergleich, siehe schnellste lokale LLMs für Low-End-PCs.