Schnelle Antwort
Llama 3 8B Q4_K_M ist das beste lokale LLM für einen 16-GB-RAM-Laptop ohne dedizierte GPU. Es benötigt ~5 GB RAM und läuft mit ~3–5 tok/s auf einem modernen CPU. Mistral 7B Q4_K_M ist eine etwas schnellere Alternative. Beide funktionieren auf allen wichtigen Laptop-CPUs.
Aktualisiert: 2026-05
Wichtigste Punkte
Mit 16 GB Systemspeicher und ohne dedizierte GPU ist Llama 3 8B Q4_K_M die praktische Obergrenze — es benötigt ca. 5 GB RAM und läuft mit 3–5 Tokens pro Sekunde auf einem modernen x86-Laptop-CPU. Nach Betriebssystem und anderen Prozessen hat ein 16-GB-Laptop typischerweise 10–12 GB frei, was Platz für das Modell und ein großzügiges Kontextfenster lässt.
Mistral 7B Q4_K_M benötigt ähnliche 5 GB RAM und läuft auf der gleichen Hardware typischerweise 10–20 % schneller als Llama 3 8B und erreicht ~4–6 tok/s. Bei Instruktionsbefolgung und Coding-Aufgaben schneiden beide Modelle bei dieser Quantisierungsstufe vergleichbar ab.
Intel Core Ultra und AMD Ryzen 7000-Serie-CPUs laufen aufgrund höherer Speicherbandbreite und verbesserter AVX-512-Unterstützung etwas schneller als ältere Laptop-CPUs. Auf diesen Plattformen sind 5–6 tok/s auf Llama 3 8B Q4_K_M erreichbar.
| Modell | Genutzter RAM | Geschwindigkeit auf x86 CPU |
|---|---|---|
| Llama 3 8B Q4_K_M | ~5 GB | ~3–5 tok/s |
| Mistral 7B Q4_K_M | ~5 GB | ~4–6 tok/s |
| Llama 3 8B Q4_K_M (Apple M3) | ~5 GB | ~15–20 tok/s |
Apple M-Serie-Laptops behandeln die 16 GB als Unified Memory, das zwischen CPU und GPU geteilt wird, was Metal-beschleunigte Inferenz bei 15–20 tok/s auf Llama 3 8B Q4_K_M ermöglicht — drei- bis fünfmal schneller als reine x86-CPU-Inferenz. Dies macht interaktiven Chat auf Apple Silicon praktikabel, wo es auf x86 bei gleichem RAM nicht möglich ist.
Auf x86-Laptops ist CPU-Inferenz mit 3–5 tok/s am besten für zwei Aufgaben geeignet: nächtliche Stapelverarbeitung wie das Zusammenfassen oder Klassifizieren großer Dokumentenmengen sowie Einzelanfragen, bei denen der Nutzer 15–30 Sekunden auf eine hochwertige Antwort warten kann.
Für den Einstieg installieren Sie Ollama und führen Sie ollama pull llama3:8b aus. Für den vollständigen Vergleich von Laptop-Konfigurationen und Laufzeitoptimierungstipps lesen Sie den Leitfaden zu lokalen LLMs auf dem Laptop.
ollama pull llama3:8b aus, um das Modell herunterzuladen, und anschließend ollama run llama3:8b, um es zu starten. Keine Konfiguration erforderlich.