Wichtigste Erkenntnisse
- Phi-4 Mini (3.8B) ist das klügste kleine Modell in 2026. Optimal für Flaggschiff-Smartphones mit 8 GB+ RAM – läuft mit ~13–18 Tokens/Sek. auf dem iPhone 17 Pro und ~10–15 auf dem iPhone 16 Pro. Stärkstes Schlussfolgerungsvermögen pro Parameter aller Modelle unter 4B.
- SmolLM 2 1.7B ist das schnellste Modell (Tokens pro Sekunde) auf jedem getesteten Gerät. ~26–32 Tok/Sek. auf dem iPhone 17 Pro, ~20–28 auf dem Galaxy S25 Ultra. Optimal, wenn Reaktionsschnelligkeit wichtiger ist als Antworttiefe (schneller Chat, Autovervollständigungs-Aufgaben).
- Qwen 3 1.5B ist das stärkste mehrsprachige Mobilmodell. Trainiert auf 35+ Sprachen, darunter Chinesisch, Japanisch, Arabisch und Deutsch, mit muttersprachlicher Ausgabequalität. Erste Wahl für Übersetzung, nicht-englischsprachiges Verfassen und auf Reisen.
- Gemma 3 4B ist der ausgewogene Standard. Auf gleicher Hardware etwas langsamer als Phi-4 Mini, aber gleichwertig bei Chat und Zusammenfassung. Optimal, wenn Phi-4 Mini in Ihrer App nicht verfügbar ist oder Sie Googles Trainings-Datenmix bevorzugen.
- Gemma 3 1B ist die leichte Wahl für ältere Geräte. Passt in 4 GB RAM (iPhone SE 3. Generation, älteres Android). Eingeschränkte mehrstufige Schlussfolgerung, erzeugt aber auf schwächerer Hardware schneller kohärente 1–2-Absatz-Antworten als jedes andere Modell.
- Llama 3.2 3B ist der meistgetestete 3B-Allrounder. Beste Tool-Calling-Unterstützung unter den sechs Modellen, breiteste App-Kompatibilität, größtes Community-Fine-Tune-Ökosystem. Etwas hinter Phi-4 Mini bei der Rohqualität, aber zuverlässiger in Grenzfällen.
- Q4_K_M ist die Standard-Quantisierung für Mobilgeräte in 2026. Erhält ~95 % der ursprünglichen Qualität bei einem Viertel der Dateigröße. Q5_K_M oder Q6_K nur auf Geräten mit 12 GB+ RAM (iPhone 17 Pro Max) und nur wenn die App dies unterstützt.
Kurzfakten
- Getestete Modelle: Phi-4 Mini 3.8B, Gemma 3 4B, Gemma 3 1B, SmolLM 2 1.7B, Qwen 3 1.5B, Llama 3.2 3B (alle Q4_K_M GGUF).
- Testgeräte: iPhone 17 Pro (A19 Pro), iPhone 16 Pro (A18 Pro, 8 GB), Galaxy S25 Ultra (Snapdragon 8 Elite), Pixel 9 Pro (Tensor G5), OnePlus 13 (Snapdragon 8 Elite).
- Inferenz-Engines: llama.cpp über PocketPal AI / LLM Farm (Standard), MLC LLM über MLC Chat (Metal-beschleunigt auf iPhone), Ollama über Termux (Android).
- Speicherbedarf (Q4_K_M): Phi-4 Mini ~2,7 GB, Gemma 3 4B ~2,9 GB, Llama 3.2 3B ~2,2 GB, Qwen 3 1.5B ~1,0 GB, SmolLM 2 1.7B ~1,1 GB, Gemma 3 1B ~720 MB.
- Mindest-RAM (aktiv): 6-GB-Gerät für 1,5B–1,7B-Modelle; 8-GB-Gerät für 3B–4B-Modelle; 4-GB-Gerät nur für Gemma 3 1B.
- Schnellste Tokens/Sek. auf iPhone 17 Pro: Gemma 3 1B ~35–45, SmolLM 2 ~26–32, Qwen 3 ~24–32, Llama 3.2 3B ~16–22, Phi-4 Mini ~13–18, Gemma 3 4B ~10–13.
- Quelle der Quantisierung: alle sechs als Q4_K_M GGUF auf Hugging Face und über PocketPal AI / MLC Chat / LM Studio verfügbar.
Welches mobile Modell sollten Sie wählen?
Für die meisten Flaggschiff-Smartphones (iPhone 16 Pro / 17 Pro, Galaxy S25 Ultra, OnePlus 13) empfehlen wir Phi-4 Mini (3.8B Q4_K_M). Es ist das klügste Modell unter 4B und läuft mit nutzbarer Gesprächsgeschwindigkeit. Wählen Sie ein anderes Modell nur, wenn Sie einen spezifischen Bedarf haben, den es nicht abdeckt – Geschwindigkeit (SmolLM 2), Mehrsprachigkeit (Qwen 3) oder Kompatibilität mit älteren Geräten (Gemma 3 1B).
📍 In einem Satz
Phi-4 Mini für Flaggschiff-Smartphones mit 8 GB+ RAM (klügster), SmolLM 2 1.7B für Geschwindigkeit, Qwen 3 1.5B für mehrsprachige Nutzung, Gemma 3 1B für 4-GB-Geräte, Llama 3.2 3B für Tool Calling und Gemma 3 4B als ausgewogener Standard, wenn Phi-4 Mini nicht verfügbar ist.
💬 In einfachen Worten
Es gibt kein einzelnes bestes Mobilmodell – die richtige Wahl hängt von Ihrem Gerät und Ihrer Nutzung ab. Wenn Ihr Smartphone aus den letzten zwei Jahren stammt und 8 GB oder mehr RAM hat, installieren Sie Phi-4 Mini. Wenn Sie hauptsächlich in einer anderen Sprache als Englisch chatten, installieren Sie Qwen 3. Wenn Sie die schnellsten Antworten wünschen, auch auf Kosten von etwas Qualität, installieren Sie SmolLM 2. Wenn Ihr Gerät älter ist oder nur 4 GB RAM hat, installieren Sie Gemma 3 1B. Die Unterschiede sind real, aber klein genug, dass jedes dieser Modelle kohärente Antworten liefert – keines erreicht Cloud-Qualität.
Entscheidung: Welches Mobilmodell?
Use a local LLM if:
- •Flaggschiff-Smartphone mit 8 GB+ RAM (iPhone 16 Pro/17 Pro, Galaxy S25 Ultra, OnePlus 13) → Phi-4 Mini 3.8B
- •Schnellste Tokens/Sek. auf jedem Gerät benötigt → SmolLM 2 1.7B
- •Nicht-englische Nutzung (Übersetzung, mehrsprachiger Chat) → Qwen 3 1.5B
- •Breite App-Kompatibilität, Tool Calling oder RAG benötigt → Llama 3.2 3B
- •Älteres Gerät mit 4 GB RAM → Gemma 3 1B
- •Phi-4 Mini in Ihrer App nicht verfügbar, 4B-Klasse-Qualität benötigt → Gemma 3 4B
Use a cloud model if:
- •Mehrstufige Schlussfolgerung, komplexe Code-Generierung oder Langdokumentenanalyse → Cloud oder Remote-Verbindung zu einem Heimrechner mit 70B+
- •Vision-Language-Aufgaben (Bildeingabe, OCR) → Cloud-Apps (mobile Vision-Modelle sind 2026 begrenzt und langsam)
- •Längeres kreatives Schreiben, bei dem die Kohärenz über 3.000+ Token wichtig ist → Cloud oder 8B+ auf einem Desktop
Quick decision:
- →Standard für die meisten Nutzer: Phi-4 Mini 3.8B
- →Schnellstes auf jedem Gerät: SmolLM 2 1.7B
- →Beste Mehrsprachigkeit: Qwen 3 1.5B
💡Tip: Wenn Sie unsicher sind, beginnen Sie mit Phi-4 Mini auf einem Flaggschiff-Gerät oder SmolLM 2 1.7B auf einem Mittelklassegerät – beide sind in unter 5 Minuten bei schneller Verbindung heruntergeladen und können rückgängig gemacht werden. Testen Sie eine Aufgabe, die Ihnen wirklich wichtig ist (eine echte E-Mail zum Zusammenfassen, eine echte Frage zu beantworten). Wenn die Qualität akzeptabel ist, haben Sie Ihren Standard. Falls nicht, wechseln Sie in 30 Sekunden über PocketPal AI oder LM Studio zum nächsten Modell.
Vergleichstabelle mobiler Modelle
Die folgende Vier-Spalten-Tabelle ist die schnelle Übersicht – wählen Sie eine Zeile nach Ihrer Geräteklasse oder Ihrem Anwendungsfall. Tokens/Sek.-Werte basieren auf Q4_K_M-Quantisierung auf dem iPhone 17 Pro über PocketPal AI (llama.cpp). Auf dem iPhone 16 Pro sind die Werte um 15–25 % und auf dem Galaxy S25 Ultra (mit MLC Chat oder Termux+Ollama) um ca. 10–20 % niedriger.
📍 In einem Satz
Phi-4 Mini ist das klügste, SmolLM 2 1.7B das schnellste, Qwen 3 1.5B das beste für Mehrsprachigkeit, Gemma 3 1B das kleinste brauchbare, Llama 3.2 3B der stärkste 3B-Allrounder und Gemma 3 4B der ausgewogene Standard.
💬 In einfachen Worten
Lesen Sie die Tabelle von oben nach unten nach Größenordnung oder springen Sie direkt zur Zeile, die Ihrer Geräteklasse entspricht. Die Spalte „Geeignet für" zeigt, worauf das Modell optimiert ist – wählen Sie die Zeile, deren Stärke für Sie am wichtigsten ist, und ignorieren Sie die anderen.
| Modell | Größe | Tokens/Sek. (17 Pro) | Geeignet für |
|---|---|---|---|
| Phi-4 Mini | 3,8B | ~13–18 | Klügstes kleines Modell – Standard für Flaggschiffgeräte |
| Gemma 3 4B | 4B | ~10–13 | Ausgewogener Standard, wenn Phi-4 Mini nicht verfügbar |
| Gemma 3 1B | 1B | ~35–45 | Ältere Geräte (4 GB RAM) |
| SmolLM 2 | 1,7B | ~26–32 | Schnellste Tokens/Sek., reaktionsschneller Chat |
| Qwen 3 | 1,5B | ~24–32 | Beste Mehrsprachigkeit (35+ Sprachen) |
| Llama 3.2 | 3B | ~16–22 | Stärkste 3B-Option, Tool Calling, RAG |
Hinweis zum Geschwindigkeit-Qualität-Kompromiss: Tokens/Sek. skaliert umgekehrt proportional zur Parameteranzahl auf demselben Chip – ein 1B-Modell ist auf gleicher Hardware ca. 3–4× schneller als ein 3,8B-Modell. Qualität skaliert mit Parametern, aber nicht linear: Phi-4 Mini (3.8B) Schlussfolgerungsqualität liegt näher an einem 7B-Modell als an einem 1,7B-Modell dank Microsofts Trainings-Datenmix. Nutzen Sie die Tabelle für die Abwägung: schnelleres Modell = schnellere Antwort, klügeres Modell = bessere Antwort bei schwierigen Fragen.
💡Tip: Auf dem iPhone 16 Pro sind die Tokens/Sek.-Werte für jedes Modell in dieser Tabelle ca. 15–25 % niedriger als auf dem iPhone 17 Pro – Unterschied zwischen A18 Pro und A19 Pro Neural Engine. Das Galaxy S25 Ultra (Snapdragon 8 Elite) liegt ca. 10–20 % unter dem iPhone 17 Pro für dasselbe Q4_K_M GGUF, hauptsächlich weil Termux+Ollama auf Android den Snapdragon Hexagon NPU noch nicht so nutzt wie MLC Chat Apple Metal.
Phi-4 Mini: Intelligentestes kleines Modell
Phi-4 Mini (3,8B Parameter, Microsoft, Dezember 2024) ist dank eines auf Schlussfolgerung optimierten Trainings-Datenmixes das klügste Modell unter 4B in 2026. Es übertrifft Gemma 3 4B und Llama 3.2 3B bei Chain-of-Thought-Aufgaben, obwohl es ähnlich groß ist. Verwenden Sie es als Standard auf jedem Smartphone mit 8 GB+ RAM.
- Parameter und Training: 3,8B Parameter; trainiert auf einem von Microsoft kuratierten Mix aus hochwertigen Webtexten, synthetischen Schlussfolgerungsketten und akademischen Inhalten. Architektur ist ein Transformer mit Grouped-Query Attention.
- Speicherbedarf: ~2,7 GB bei Q4_K_M, ~3,5 GB bei Q5_K_M. Passt problemlos auf iPhone 16 Pro / 17 Pro (8 GB) und Galaxy S25 Ultra (12 GB) mit Platz für das Betriebssystem.
- Geschwindigkeit (Tokens/Sek.): iPhone 17 Pro ~13–18, iPhone 16 Pro ~10–15, Galaxy S25 Ultra ~10–15 (Termux+Ollama), iPhone 14 Pro ~6–10 (langsam, aber funktional).
- Qualitätsstärken: Chain-of-Thought-Schlussfolgerung, Zusammenfassung, faktisches Fragen-Antworten, einfache Code-Generierung. Übertrifft ähnlich große Open-Source-Modelle auf Standardbenchmarks (MMLU, GSM8K).
- Qualitätsschwächen: geringeres Weltwissen als Llama 3.2 3B (weniger Common-Crawl-Exposition); kürzere natürliche kreative Texte als Gemma 3 4B; schwächer mehrsprachig als Qwen 3 1.5B außerhalb des Englischen.
- Optimal für: Nutzerinnen und Nutzer mit Flaggschiff-Smartphone, die den klügsten Einzel-Modell-Standard für englischsprachigen Chat, Zusammenfassung und Schlussfolgerung wünschen.
💡Tip: Phi-4 Mini profitiert von einem System-Prompt, der schrittweises Schlussfolgern explizit einfordert („Denken Sie dies sorgfältig durch, bevor Sie antworten"). Die Trainingsdaten waren reich an Schlussfolgerungsketten, weshalb ein entsprechend formulierter Prompt konsistent bessere Antworten liefert als knappe Anweisungen. Für schnellen Chat ist kein System-Prompt erforderlich; das Standardverhalten ist bereits konversationell.
Gemma 3 4B: Ausgewogener Standard
Gemma 3 4B (Google DeepMind, 2025) ist der ausgewogene Standard, wenn Phi-4 Mini in Ihrer App nicht verfügbar ist oder Sie Googles Trainings-Datenmix bevorzugen. Auf gleicher Hardware etwas langsamer als Phi-4 Mini, aber bei Chat und Zusammenfassung gleichwertig, mit breiterer natürlichsprachlicher Abdeckung.
- Parameter und Training: 4B Parameter; trainiert auf Googles kuratierten Mix aus Webtexten, Code und mehrsprachigen Daten. Gleiche Architekturfamilie wie Gemma 2 mit erweitertem Kontext.
- Speicherbedarf: ~2,9 GB bei Q4_K_M, ~3,7 GB bei Q5_K_M. Passt auf 8-GB-Geräte; auf 6-GB-Geräten eng (stattdessen Phi-4 Mini oder kleineres Modell verwenden).
- Geschwindigkeit (Tokens/Sek.): iPhone 17 Pro ~10–13, iPhone 16 Pro ~7–10, Galaxy S25 Ultra ~7–10 (etwas langsamer als Phi-4 Mini trotz ähnlicher Größe aufgrund von Architekturunterschieden).
- Qualitätsstärken: natürlicher Gesprächston, starke Zusammenfassung, breiteres Weltwissen als Phi-4 Mini (Common-Crawl-Exposition), ordentliche Mehrsprachigkeit.
- Qualitätsschwächen: schwächere Chain-of-Thought-Schlussfolgerung als Phi-4 Mini; langsamere Tokens/Sek. auf gleicher Hardware; nicht immer das erste Modell in mobilen Apps (zeitlicher Rückstand gegenüber Phi-4 Mini in PocketPal AI).
- Optimal für: Flaggschiff-Nutzerinnen und -Nutzer, die ein von Google trainiertes Modell als Phi-4-Mini-Alternative wünschen, insbesondere für alltäglichen Chat, Zusammenfassung und kurzes Verfassen.
💡Tip: Gemma 3 4B verwendet ein anderes Chat-Template als Phi-4 Mini – stellen Sie sicher, dass Ihre App das korrekte Gemma-Template verwendet (mit <start_of_turn>-Markierungen). Ein falsches Template erzeugt fehlerhafte oder sich wiederholende Ausgabe. PocketPal AI, MLC Chat und LM Studio erkennen dies automatisch; LLM Farm erfordert die manuelle Auswahl des Gemma-Templates unter „Modelleinstellungen".
Gemma 3 1B: Leichtgewicht für ältere Geräte
Gemma 3 1B (Google DeepMind, 2025) ist das kleinste brauchbare Mobilmodell in 2026 – ~720 MB bei Q4_K_M und läuft auf 4-GB-Geräten. Die Qualität ist auf kurze kohärente Antworten (1–2 Absätze) beschränkt, aber es ist die einzige Option unter 1 GB, die auf schwacher Hardware brauchbare Ausgabe erzeugt.
- Parameter und Training: 1B Parameter; gleiche Gemma-3-Familienarchitektur wie das 4B-Modell, aber mit reduziertem Trainingsaufwand. Für effiziente Inferenz auf Edge-Geräten trainiert.
- Speicherbedarf: ~720 MB bei Q4_K_M, ~900 MB bei Q5_K_M. Läuft auf iPhone SE 3. Generation, iPhone 12 / 13, älterem Android (mindestens 4 GB RAM).
- Geschwindigkeit (Tokens/Sek.): iPhone 17 Pro ~35–45, iPhone 16 Pro ~28–38, iPhone 14 ~20–28, älteres Android (4 GB) ~10–15. Schnellstes Modell in diesem Vergleich auf jedem Gerät.
- Qualitätsstärken: Geschwindigkeit, geringer Speicherbedarf, kohärente Kurzantworten, niedriger Akkuverbrauch.
- Qualitätsschwächen: schwache mehrstufige Schlussfolgerung, häufige Faktenfehler bei Nischenthemen, Wiederholungen bei langen Generierungen (>500 Token), geringe Gesprächstiefe.
- Optimal für: Nutzerinnen und Nutzer mit Geräten unter der 6-GB-RAM-Schwelle, die dennoch On-Device-KI wünschen, oder alle, die bei langen Flügen oder in akkuarmen Szenarien auf die Akkulaufzeit optimieren.
💡Tip: Verwenden Sie Gemma 3 1B für kurze, fokussierte Aufgaben – einzeilige Zusammenfassungen, Einabsatz-Entwürfe, schnelle Definitionen, einfache Übersetzungen zwischen gängigen Sprachpaaren. Vermeiden Sie mehrseitige Erklärungen, mehrstufige Schlussfolgerungen oder Aufgaben, bei denen die Genauigkeit bei Nischenfakten wichtig ist. Das Modell kennt seine Grenzen; der Prompt „Sei prägnant" spielt seinen Stärken in die Hände.
SmolLM 2 1,7B: Schnellste Tokens pro Sekunde
SmolLM 2 1.7B (Hugging Face, 2024) ist das schnellste Mobilmodell (Tokens pro Sekunde) in diesem Vergleich auf jedem getesteten Gerät. ~26–32 Tok/Sek. auf dem iPhone 17 Pro und ~20–28 auf dem Galaxy S25 Ultra. Optimal, wenn Reaktionsschnelligkeit wichtiger ist als Antworttiefe.
- Parameter und Training: 1,7B Parameter; trainiert auf einem von Hugging Face kuratierten Mix, der auf Effizienz kleiner Modelle optimiert ist. Architektur auf niedrige Inferenzlatenz auf Consumer-Hardware ausgelegt.
- Speicherbedarf: ~1,1 GB bei Q4_K_M. Passt auf jedes Gerät mit 6 GB+ RAM mit erheblichem Betriebssystem-Spielraum.
- Geschwindigkeit (Tokens/Sek.): iPhone 17 Pro ~26–32, iPhone 16 Pro ~22–28, Galaxy S25 Ultra ~20–28, iPhone 14 Pro ~15–22. Ca. 2× schneller als Phi-4 Mini auf demselben Chip.
- Qualitätsstärken: reaktionsschnelle Gesprächsantworten, einfaches Fragen-Antworten, Autovervollständigungs-Fortsetzung, englischsprachiges Verfassen.
- Qualitätsschwächen: schwächere Schlussfolgerung als Phi-4 Mini, geringeres Weltwissen als Llama 3.2 3B, schwächere Mehrsprachigkeit als Qwen 3 1.5B, gelegentliche Halluzinationen bei Faktenabfragen.
- Optimal für: Mittelklassegeräte, bei denen Latenz wichtig ist (Texteingabe-Autovervollständigung, Sprachassistent-Turns, Echtzeit-Chat), oder ältere Flaggschiffe, bei denen größere Modelle sich träge anfühlen.
💡Tip: SmolLM 2 1.7B ist die beste Kombination für einen Offline-Sprachassistenten auf dem Smartphone – weitere Informationen finden Sie unter Lokalen Sprachassistenten auf dem Smartphone erstellen für die Whisper-+-LLM-+-TTS-Pipeline. Die hohen Tokens/Sek. halten die Sprachgesprächs-Wartezeit unter der ~1,5-Sekunden-Wahrnehmungsschwelle, selbst auf Mittelklasse-Hardware.
Qwen 2,5 1,5B: Stärkstes mehrsprachiges Mobilmodell
Qwen 3 1.5B (Alibaba, 2024) ist das stärkste mehrsprachige Mobilmodell in 2026 – trainiert auf 35+ Sprachen, darunter Chinesisch, Japanisch, Koreanisch, Arabisch, Deutsch, Französisch, Spanisch und Russisch. Beste Wahl für Übersetzung, nicht-englischsprachigen Chat und Reisenutzung, bei der die Nutzerinnen und Nutzer mitten im Gespräch die Sprache wechseln.
- Parameter und Training: 1,5B Parameter; trainiert auf Alibabas mehrsprachigem Korpus mit starker Repräsentation von CJK-Sprachen, Arabisch und den wichtigsten europäischen Sprachen. Architektur für mehrsprachiges Schlussfolgern optimiert.
- Speicherbedarf: ~1,0 GB bei Q4_K_M. Passt auf jedes Gerät mit 6 GB+ RAM.
- Geschwindigkeit (Tokens/Sek.): iPhone 17 Pro ~24–32, iPhone 16 Pro ~20–28, Galaxy S25 Ultra ~18–26, iPhone 14 Pro ~14–20. Vergleichbare Geschwindigkeit wie SmolLM 2.
- Qualitätsstärken: muttersprachliche Ausgabequalität in 35+ Sprachen (die meisten kleinen Modelle sind englischzentriert mit schwachem mehrsprachigem Fallback), starke Übersetzung zwischen wichtigen Sprachpaaren, kohärente CJK-Ausgabe, bei der Phi-4 Mini und Llama 3.2 unleserliche Zeichen produzieren.
- Qualitätsschwächen: rein englische Schlussfolgerung etwas schwächer als Phi-4 Mini, kürzere natürliche kreative Texte als Gemma 3 4B, schwächeres Tool Calling als Llama 3.2 3B.
- Optimal für: nicht-englischsprachige Nutzerinnen und Nutzer (insbesondere Chinesisch-, Japanisch-, Deutsch-, Spanisch- und Französischsprechende), Reisende, die Offline-Übersetzung benötigen, oder Entwicklerinnen und Entwickler, die mehrsprachige mobile Funktionen erstellen.
💡Tip: Für die einmalige Übersetzung zwischen zwei bestimmten Sprachpaaren übertrifft Qwen 3 1.5B in der Regel ein größeres englischzentriertes Modell, das Übersetzung als Nebenaufgabe ausführt. Für eine deutschsprachige Nutzerin oder einen deutschsprachigen Nutzer, der auf Deutsch chattet, erzeugt Qwen 3 merklich natürlichere Ausgabe als Phi-4 Mini, obwohl es 60 % kleiner ist. Die einfache Regel: Wählen Sie das Modell, das für Ihre Hauptsprache trainiert wurde, nicht das Modell mit den meisten Parametern.
Llama 3.2 3B: Zuverlässiger 3B-Allrounder
Llama 3.2 3B (Meta, 2024) ist das meistgetestete 3B-Modell in 2026 – breiteste App-Kompatibilität, stärkste Tool-Calling-Unterstützung unter den sechs Modellen und das größte Community-Fine-Tune-Ökosystem. Etwas hinter Phi-4 Mini bei der Rohqualität, aber zuverlässiger in Grenzfällen und besser von mobilen Apps unterstützt.
- Parameter und Training: 3B Parameter; trainiert auf Metas großem Pretraining-Korpus mit Instruction-Tuning für Chat und Tool-Nutzung. Gleiche Llama-3-Architektur wie die 8B- und 70B-Geschwister.
- Speicherbedarf: ~2,2 GB bei Q4_K_M, ~2,8 GB bei Q5_K_M. Passt auf 8-GB-Geräte mit ausreichend Betriebssystem-Spielraum; funktioniert auf engen 6-GB-Geräten, wenn andere Apps geschlossen sind.
- Geschwindigkeit (Tokens/Sek.): iPhone 17 Pro ~16–22, iPhone 16 Pro ~12–18, Galaxy S25 Ultra ~12–18, iPhone 14 Pro ~7–11.
- Qualitätsstärken: breites Weltwissen, robuste Tool-Calling- und Function-Calling-Unterstützung (beste in seiner Klasse unter Modellen unter 4B), zuverlässiges Chat-Verhalten, reifes Ökosystem an Fine-Tunes für spezifische Aufgaben (Medizin, Recht, Code).
- Qualitätsschwächen: schwächere Chain-of-Thought-Schlussfolgerung als Phi-4 Mini, etwas niedrigere MMLU-Werte bei ähnlicher Größe, weniger natürlicher Gesprächston als Gemma 3 4B.
- Optimal für: mobile Apps, die Tool Calling oder Function Calling benötigen (RAG über lokale Dokumente, On-Device-Agent-Workflows), oder Nutzerinnen und Nutzer, die das Modell mit der größten Community-Fine-Tune-Bibliothek wünschen.
💡Tip: Llama 3.2 3B ist das einzige Modell in diesem Vergleich mit breiter Tool-Calling-Unterstützung, die für On-Device-Agent-Workflows zuverlässig genug ist – weitere Informationen unter Lokale KI-Agenten mit MCP 2026. Phi-4 Mini und SmolLM 2 können technisch Tool Calls ausführen, aber Llama 3.2 3B ist 2026 das einzige produktionsreife Modell dafür.
Quantisierung für Mobilgeräte: Q4_K_M als Standard
Q4_K_M ist die Standard-Quantisierung für mobile LLM-Inferenz in 2026 – erhält ~95 % der ursprünglichen Modellqualität bei einem Viertel der Dateigröße. Verwenden Sie Q5_K_M oder Q6_K nur auf Geräten mit 12 GB+ RAM (iPhone 17 Pro Max, Galaxy S25 Ultra), wo der zusätzliche Speicher tatsächlich frei verfügbar ist.
📍 In einem Satz
Q4_K_M ist der mobile Standard – ~95 % Qualität bei einem Viertel der Größe. Q5_K_M / Q6_K lohnen sich nur auf Geräten mit 12 GB+ RAM.
💬 In einfachen Worten
Modelle auf Hugging Face werden in voller Präzision veröffentlicht (jeder Parameter als 16-Bit-Zahl gespeichert). Auf Smartphones laden Sie eine quantisierte Version herunter, bei der jeder Parameter auf 4 Bit komprimiert wird – die Datei wird viermal kleiner und die Inferenz ca. viermal schneller, bei leichtem Qualitätsverlust. Q4_K_M ist die Variante, auf die sich alle 2026 als richtige Balance für Smartphones geeinigt haben. Höhere Q-Zahlen (Q5, Q6, Q8) bedeuten weniger Komprimierung und bessere Qualität, aber größere Dateien; Q4 ist der Sweet Spot für Smartphone-Beschränkungen.
- Q4_K_M (empfohlener Standard): 4-Bit-Quantisierung mit K-Quants und gemischter „M"-Präzision. ~95 % der ursprünglichen Qualität. Standard für Mobilgeräte in 2026. Alle sechs Modelle in diesem Format auf Hugging Face verfügbar.
- Q5_K_M (für Geräte mit 12 GB+ RAM): 5-Bit-Quantisierung. ~98 % der ursprünglichen Qualität. ~25 % größere Dateien. Lohnt sich auf iPhone 17 Pro Max (12 GB) oder Galaxy S25 Ultra (12 GB) für Phi-4 Mini und Llama 3.2 3B; der RAM-Aufpreis ist auf 8-GB-Geräten nicht gerechtfertigt.
- Q6_K (selten benötigt): 6-Bit-Quantisierung. ~99 % der ursprünglichen Qualität. ~50 % größere Dateien. Lohnt sich nur für speicherreiche Smartphones mit Modellen, bei denen Qualität wirklich wichtig ist (z. B. langer Textentwurf, bei dem jeder Qualitätsprozentpunkt zählt).
- Q8_0 (auf Mobilgeräten vermeiden): 8-Bit-Quantisierung. ~99,5 % der ursprünglichen Qualität. Ca. 2× die Größe von Q4_K_M. Der RAM-Aufpreis auf Smartphones lohnt sich nicht; für Desktop-/Laptop-Nutzung reservieren.
- Q3_K_M / Q2_K (nur für sehr eingeschränkte Geräte): 3-Bit- und 2-Bit-Quantisierung. Qualität sinkt auf ~85–90 %. Nur verwenden, wenn Gemma 3 1B bei Q4_K_M immer noch nicht passt (in 2026 selten).
⚠️Warning: Laden Sie nicht dasselbe Modell in mehreren Quantisierungen herunter, um zu „testen, welche besser ist". Die Qualitätsunterschiede zwischen Q4_K_M und Q5_K_M sind real, aber gering, und Sie verbrauchen 5+ GB Smartphone-Speicher für redundante Varianten. Wählen Sie Q4_K_M, nutzen Sie es eine Woche lang real, und steigen Sie auf Q5_K_M nur um, wenn Sie konkrete Hinweise haben, dass die Qualität unzureichend ist.
Urteil nach Geräteklasse: Flaggschiff vs. Mittelklasse vs. Budget
Die Geräteklasse bestimmt die Modellobergrenze – Chip-Generation und RAM sind wichtiger als die Marke. Ein Flaggschiff-Smartphone (8 GB+ RAM, A18 Pro / A19 Pro / Snapdragon 8 Elite) läuft mit 3,8B–4B-Modellen komfortabel; ein Mittelklassegerät (6–8 GB RAM, älterer Flaggschiff-Chip) mit 1,7B–3B; ein Budget- oder älteres Gerät (4–6 GB RAM) mit 1B–1,5B.
📍 In einem Satz
Flaggschiff-Smartphones (8 GB+) → Phi-4 Mini 3.8B; Mittelklasse (6–8 GB) → SmolLM 2 1.7B oder Llama 3.2 3B; Budget oder älter (4–6 GB) → Gemma 3 1B oder Qwen 3 1.5B.
💬 In einfachen Worten
Passen Sie das Modell an Ihr Gerät an, nicht an Ihre Wünsche. Ein 3,8B-Modell auf einem 6-GB-Gerät führt zu frustrierenden 3-Sekunden-Pausen und Abstürzen, wenn andere Apps Speicher benötigen. Ein 1B-Modell auf einem Flaggschiff verschenkt Leistungspotenzial. Wählen Sie das größte Modell, das Ihr Gerät komfortabel mit dem Betriebssystem und mindestens einer weiteren offenen App ausführen kann.
| Geräteklasse | Beispiele | Empfohlenes Modell | Warum |
|---|---|---|---|
| Flaggschiff (8–12 GB RAM) | iPhone 17 Pro / Pro Max, iPhone 16 Pro, Galaxy S25 Ultra, OnePlus 13 | Phi-4 Mini (3.8B Q4_K_M) | Klügstes Modell, das der Chip mit nutzbarer Geschwindigkeit unterstützt |
| Älteres Flaggschiff (8 GB RAM) | iPhone 15 Pro, Galaxy S24 Ultra, Pixel 9 Pro | Llama 3.2 3B oder Phi-4 Mini | Llama 3.2 3B für Tool Calling; Phi-4 Mini für Rohqualität |
| Mittelklasse (6–8 GB RAM) | iPhone 14 Pro, Pixel 9, Snapdragon-8-Gen-2-Geräte | SmolLM 2 1.7B oder Qwen 3 1.5B | Reaktionsschnelle Geschwindigkeit; passt mit Betriebssystem-Spielraum |
| Budget / älter (4–6 GB RAM) | iPhone 14, mittlere Snapdragon-7-Serie, älteres Android | Gemma 3 1B oder Qwen 3 1.5B | Kleinste brauchbare Modelle, die noch kohärente Ausgabe liefern |
| Sehr alt (4 GB RAM) | iPhone SE 3. Gen, älteres 4-GB-Android | Gemma 3 1B | Einziges passendes Modell; begrenzte Schlussfolgerung, schnelle Tokens/Sek. |
| Nicht unterstützt (<4 GB) | iPhone SE 2. Gen, altes Android | Stattdessen Remote-Verbindung zum Heimrechner | On-Device-LLM nicht praktikabel; Tablet/Smartphone als UI für einen Heimserver mit Ollama verwenden |
💡Tip: Für die App-Seite lesen Sie die iPhone- und Android-Parallelführer – sie zeigen, welche Apps diese Modelle auf welcher Plattform tatsächlich anbieten. App-Verfügbarkeit hinkt der Modellverfügbarkeit manchmal hinterher: Gemma 3 4B war sechs Monate vor PocketPal AIs Ein-Tap-Downloader auf Hugging Face verfügbar. Wenn ein Modell nicht in der kuratierten Liste Ihrer App aufgeführt ist, kann es in der Regel als GGUF von Hugging Face sideloadet werden.
Häufige Fehler
- Ein Modell wählen, das größer ist als der Smartphone-RAM erlaubt. Phi-4 Mini auf einem 6-GB-Gerät läuft mit 3–5 Tok/Sek. und stürzt ab, wenn iOS / Android Speicher für eine andere App zurückfordert. Passen Sie das Modell an Ihre Geräteklasse an (siehe Urteilstabelle oben).
- Mehrere Quantisierungsvarianten desselben Modells herunterladen. Wählen Sie Q4_K_M und hören Sie auf. Fünf GB redundanter Q5/Q6-Varianten auf einem 256-GB-Smartphone sind verschwendeter Speicherplatz, und die Qualitätsunterschiede sind im alltäglichen Chat nicht wahrnehmbar.
- SmolLM 2 1.7B für mehrstufige Schlussfolgerung verwenden. Es ist das schnellste Modell, aber nicht das klügste. Für Chain-of-Thought-Aufgaben (Mathematik, Planung, komplexe Schlussfolgerung) verwenden Sie Phi-4 Mini, auch wenn die langsameren Tokens/Sek. frustrierend wirken. Geschwindigkeit ohne Qualität ist nur eine schnellere falsche Antwort.
- Phi-4 Mini für nicht-englische Ausgabe ohne mehrsprachigen Prompt-Präfix verwenden. Phi-4 Mini beherrscht gängige europäische Sprachen ausreichend, produziert aber ungleichmäßige Ausgabe bei CJK oder Arabisch. Für mehrsprachige Nutzung installieren Sie Qwen 3 1.5B neben Phi-4 Mini und wechseln Sie je nach Sprache.
- Cloud-KI-Qualität von diesen Modellen erwarten. Alle sechs sind 1B–4B, was ca. 60–80 % der Fähigkeiten von GPT-5.5 bei Chat-Aufgaben bedeutet und weit weniger bei komplexer Schlussfolgerung. Nutzen Sie sie wofür sie geeignet sind (privater Chat, Zusammenfassung, Textentwurf, Übersetzung) und verwenden Sie Cloud oder Remote-Verbindung für alles, was ein 70B+-Modell erfordert.
- Phi-4 Mini (3.8B) mit dem älteren Phi-3 Mini (3.8B) verwechseln. Sie teilen sich eine Parameteranzahl, aber Phi-4 Minis Trainingsdaten und Chat-Template sind anders. Bestätigen Sie immer die Modell-ID im GGUF-Dateinamen –
phi-4-mini-instruct, nichtphi-3-mini-4k-instruct.
Quellen
- Technischer Bericht zu Phi-4 Mini – Microsoft Research (Dezember 2024).
- Technischer Bericht zu Gemma 3 – Google DeepMind (2025).
- Modellkarte SmolLM 2 – Hugging Face (2024).
- Technischer Bericht zu Qwen 3 – Alibaba Cloud (2024).
- Modellkarte Llama 3.2 – Meta AI (2024).
- Q4_K_M-Quantisierungsreferenz – llama.cpp-Dokumentation.
Häufig gestellte Fragen
Welches Mobilmodell ist auf dem iPhone am schnellsten?
Gemma 3 1B ist das absolut schnellste mit ~35–45 Tokens/Sek. auf dem iPhone 17 Pro, ist aber das kleinste Modell in diesem Vergleich. Unter den 1,5B–1,7B-Modellen (wo Geschwindigkeit und Qualität ausgewogen sind) ist SmolLM 2 1.7B mit ~26–32 Tokens/Sek. am schnellsten. Unter den Modellen, die Flaggschiff-Qualität liefern, ist Phi-4 Mini mit ~13–18 Tokens/Sek. die schnellste „kluge" Option. Wählen Sie nach Anwendungsfall: Wenn Reaktionsschnelligkeit wichtiger als Tiefe ist, SmolLM 2; wenn Tiefe wichtiger ist, Phi-4 Mini.
Übertrifft Phi-4 Mini wirklich 7B-Modelle auf dem Smartphone?
Es übertrifft ältere 7B-Modelle (Llama 3.3 7B, Mistral Small v0.1) auf Standardbenchmarks wie MMLU und Schlussfolgerungsaufgaben trotz seiner halben Größe. Es übertrifft NICHT aktuelle 7B-Modelle (Llama 3.3 7B, Mistral Small v0.3) bei der Rohleistung – diese führen noch bei breitem Wissen und komplexer Schlussfolgerung. Der Grund, warum Phi-4 Mini über seinen Gewicht kämpft, ist Microsofts Trainings-Datenmix (reich an synthetischen Schlussfolgerungsketten und hochwertigem Text). Auf Smartphones sind 7B-Modelle meist zu langsam für die Praxis, sodass Phi-4 Mini standardmäßig gewinnt.
Läuft SmolLM 2 auf einem 4 Jahre alten Smartphone?
Ja, auf den meisten 4 Jahre alten Flaggschiff-Geräten. SmolLM 2 1.7B bei Q4_K_M benötigt ~1,1 GB RAM für das Modell plus ~500 MB Inferenz-Overhead – passt auf iPhone 13 (6 GB), iPhone 12 Pro Max (6 GB) und gleichwertiges Android (6 GB+). Auf 4-GB-Geräten von 2021 (iPhone 12, Android-Basismodell) lädt es technisch, ist aber unter Speicherdruck instabil; verwenden Sie stattdessen Gemma 3 1B.
Welches Modell eignet sich am besten für Übersetzung auf dem Smartphone?
Qwen 3 1.5B für alle Sprachpaare mit Chinesisch, Japanisch, Koreanisch, Arabisch, Deutsch, Französisch, Spanisch oder Russisch. Es wurde mit starker mehrsprachiger Repräsentation trainiert und liefert muttersprachliche Qualität, wo englischzentrierte Modelle (Phi-4 Mini, Llama 3.2 3B) steife oder fehlerhafte Ergebnisse liefern. Nur für europäische Sprachpaare ist Gemma 3 4B eine praktikable zweite Wahl. Für einmalige Übersetzungen zwischen Englisch und einer bestimmten Sprache ist eine installierte Übersetzungs-App (Google Translate, DeepL) oft besser als jedes lokale LLM – lokale Modelle glänzen, wenn Übersetzung mit Chat oder Zusammenfassung in derselben Konversation verknüpft wird.
Brauche ich ein Flaggschiff-Smartphone, um diese Modelle gut zu nutzen?
Nein, nur für die größten Modelle (Phi-4 Mini 3.8B, Gemma 3 4B, Llama 3.2 3B). Mittelklassegeräte mit 6–8 GB RAM laufen SmolLM 2 1.7B und Qwen 3 1.5B mit voller Geschwindigkeit (~20–28 Tokens/Sek.). Budget-Smartphones mit 4–6 GB RAM laufen Gemma 3 1B mit ~15–25 Tokens/Sek. Die ehrliche Antwort: Wenn Sie noch kein Flaggschiff-Gerät besitzen, kaufen Sie es nicht für lokale KI – die kleineren Modelle auf Ihrem vorhandenen Gerät sind für die meisten Anwendungsfälle gut genug.
Welches Modell verbraucht am wenigsten Akku?
Gemma 3 1B mit großem Abstand – kleinste Modell bedeutet wenigste Berechnungen pro Token, was niedrigere CPU/GPU-Last und niedrigeren Stromverbrauch bedeutet. SmolLM 2 1.7B und Qwen 3 1.5B folgen. Die 3B–4B-Modelle (Phi-4 Mini, Llama 3.2 3B, Gemma 3 4B) verbrauchen 2–3× mehr Strom pro Antwort. Für lange Flüge oder ausgedehnte Offline-Nutzung, wo der Akku am wichtigsten ist, ist Gemma 3 1B die richtige Wahl trotz des Qualitätsabstrichs.
Können Mobilmodelle mehrstufige Gespräche führen?
Ja für kurze Gespräche (5–10 Turns), mit abnehmender Qualität danach. Alle sechs Modelle haben Kontextfenster von 4.000–8.000 Token; längere Gespräche überschreiten das Fenster und das Modell verliert frühere Turns aus dem Blick. Für laufende Chats, die Speicher über eine Sitzung hinaus benötigen, ist das praktische Muster: Gespräch periodisch zusammenfassen, die Zusammenfassung speichern und als Kontext zurückgeben. Die meisten mobilen Apps (PocketPal AI, Private LLM) machen dies automatisch; LLM Farm erfordert manuelle Konfiguration.
Funktionieren diese Modelle mit Spracheingabe?
Ja, in Kombination mit einer Whisper-Sprache-zu-Text-Schicht. Der Standard-Offline-Sprachassistent-Stack für Mobilgeräte in 2026 ist: Whisper (kleines oder winziges Modell) für Sprache-zu-Text → Phi-4 Mini oder SmolLM 2 für Antwortgenerierung → Apple TTS oder Android TTS für Sprachsynthese. SmolLM 2 1.7B ist die beste LLM-Wahl für Sprachassistenz, weil die hohen Tokens/Sek. die Sprach-Turn-Wartezeit reaktionsschnell halten – siehe Lokalen Sprachassistenten auf dem Smartphone erstellen für die vollständige Pipeline.
Welches ist am besten für die Offline-Nutzung auf Reisen?
Für Reisen, bei denen Sie die Sprache wechseln und Übersetzung benötigen: Qwen 3 1.5B. Für Reisen, bei denen Sie hauptsächlich englischsprachige Referenz benötigen (Fragen, Reisedokumente zusammenfassen, E-Mails verfassen): Phi-4 Mini auf einem Flaggschiff-Gerät, SmolLM 2 1.7B auf einem Mittelklassegerät. Reisen ist der stärkste Anwendungsfall für lokale KI insgesamt – keine Roaming-Daten nötig, keine Cloud-API-Kosten und kein Risiko, dass Cloud-Abhängigkeiten in Bereichen mit schlechter Verbindung versagen. Laden Sie das Modell vor der Reise herunter; es funktioniert bei moderatem Einsatz die gesamte Reise auf einer einzigen Ladung.
Sind Mobilmodelle in 2027 noch nützlich?
Ja, aber die spezifischen Modellnamen werden sich ändern. Die mobile Small-LLM-Frontier bewegt sich ca. alle 6–9 Monate – bis Q4 2026 werden voraussichtlich neue ~3B-Modelle verfügbar sein, die Phi-4 Mini übertreffen, und bis Mitte 2027 wird die 1B–2B-Klasse wahrscheinlich das leisten, was 3B–4B-Modelle heute tun. Die Kategorie veraltet nicht; die spezifischen Empfehlungen wechseln. Überprüfen Sie diesen Artikel (Refresh fällig 2026-11-08) für die nächste Modellgeneration.
Muss ich bei der Nutzung lokaler LLM-Modelle auf dem Smartphone die DSGVO beachten?
Für private Nutzung ohne Verarbeitung personenbezogener Daten Dritter bestehen keine DSGVO-Pflichten. Da alle sechs Modelle vollständig On-Device laufen und keinerlei Daten an externe Server senden, ist das Risiko einer DSGVO-Verletzung minimal. Für gewerbliche oder berufliche Anwendungen – etwa wenn Sie Kundendaten oder Mitarbeiterdokumente durch das Modell verarbeiten – gilt DSGVO-Artikel 28 (Auftragsverarbeitung). Da die Inferenz lokal stattfindet, entfällt die Pflicht zu einem Auftragsverarbeitungsvertrag mit einem Cloud-Anbieter, was lokale LLMs gegenüber Cloud-Alternativen datenschutzrechtlich bevorzugt. BSI-Grundschutz-Kataloge empfehlen für unternehmenskritische Anwendungen die Nutzung lokaler Inferenz, um Datenabfluss zu verhindern.
Sind diese mobilen KI-Modelle für den deutschen Mittelstand geeignet?
Ja, insbesondere für Anwendungsfälle, bei denen Datenschutz, Offline-Verfügbarkeit und Unabhängigkeit von Cloud-Diensten wichtig sind. Mittelständische Unternehmen in Deutschland, die mit sensiblen Kundendaten, Betriebsgeheimnissen oder branchenspezifischen Vorschriften (z. B. im Gesundheitswesen oder bei Rechtsanwaltskanzleien) arbeiten, profitieren davon, dass die Inferenz vollständig On-Device stattfindet. Phi-4 Mini eignet sich für interne Zusammenfassungen und Chat-Anwendungen auf Firmen-Smartphones; Qwen 3 1.5B deckt den mehrsprachigen Bedarf im internationalen Mittelstand ab. Für IT-Sicherheitsverantwortliche: Die BSI-Grundschutz-Empfehlungen zur Minimierung von Cloud-Abhängigkeiten sprechen für den Einsatz lokaler Modelle in sicherheitskritischen Umgebungen.