Wichtigste Punkte
Stand Mai 2026: 6 GB VRAM deckt zwei sehr unterschiedliche Hardware-Klassen ab: Budget-Windows-Laptops (RTX 3050/4050) und jedes MacBook mit 16 GB Unified Memory. Die Leistung unterscheidet sich um 30–50 % zwischen ihnen — der Mac führt Llama 3 8B Q4_K_M dank Unified-Memory-Bandbreite mit ~25 Tok/s aus, während die diskrete Windows-GPU durch PCIe-Übertragungsoverhead auf ~18 Tok/s kommt.
Alle drei Modelle laufen mit Ollama ohne spezielle Konfiguration. Geschwindigkeitswerte gelten für ein 2048-Token-Kontextfenster. Erweiterung auf 4096 Tokens fügt ~1 GB hinzu — noch innerhalb von 6 GB für Phi-4 und Mistral.
| Modell | VRAM | Anwendungsbereich |
|---|---|---|
| Llama 3 8B Q4_K_M | 5,5 GB | Allgemeiner Chat, Coding |
| Phi-4 Q4_K_M | 5,0 GB | Anweisungen, Reasoning |
| Mistral 7B Q4_K_S | 4,5 GB | Geschwindigkeitspriorisierte Aufgaben |
Unter Windows sind RTX 3050 6 GB und RTX 4050 6 GB die beiden Hauptgrafikkarten dieser Kategorie. Beide betreiben Ollama über CUDA mit nahezu identischer Leistung — der neuere RTX 4050 ist etwa 10 % effizienter pro Watt, aber in der Praxis nicht merklich schneller.
Unter macOS verfügt jedes MacBook mit 16 GB Unified Memory über ca. 6 GB für GPU-Workloads. Unified Memory eliminiert den PCIe-Bandbreitenengpass diskreter GPUs, sodass macOS-Leistung oft gleich oder besser als bei einer diskreten RTX 3050 ist.
Ein Upgrade von 6 GB auf 8 GB schaltet Q5_K_M-Quantisierung für 7–8B-Modelle frei (+3 % Qualität) und ermöglicht schnellere Kontextfenster. Für 12-GB-Optionen und 14B-Modelle, siehe beste Ollama-Modelle für RTX 3060 12 GB. Für die vollständige VRAM-Referenz, siehe wie viel VRAM ein lokales LLM benötigt.
6 GB ist das kleinste VRAM, bei dem ein lokales LLM bei alltäglichen Aufgaben mit Cloud-Modellen konkurriert. Unterhalb von 6 GB sind Sie auf kleine Modelle beschränkt, die bei Coding oder langer Denkleistung kämpfen. Bei 6 GB ist Llama 3 8B Q4_K_M vollständig freigeschaltet. Für den Schritt zu 14B-Modellen, siehe die 12-GB-Tier-Empfehlungen.
--num-ctx 2048) oder wählen Sie stattdessen Phi-4 Q4_K_M.