Schnelle Antwort
Die besten Android-Apps für den lokalen LLM-Betrieb sind MLC Chat, Pocketpal und Termux mit Ollama. MLC Chat ist am einfachsten für Einsteiger. Alle laufen vollständig offline.
Aktualisiert: 2026-05
Wichtigste Punkte
Stand Mai 2026 gibt es drei praktische Möglichkeiten, ein lokales LLM auf Android zu betreiben: MLC Chat (Machine Learning Compilation), Pocketpal AI und Termux mit Ollama. Alle drei laufen nach dem ersten Modell-Download zu 100 % offline — kein API-Key oder Internetzugang erforderlich.
MLC Chat verwendet das MLC-LLM-Kompilierungsframework, um Modellgewichte für mobile Hardware vorzuoptimieren. Sie laden es aus dem Google Play Store herunter, wählen ein unterstütztes Modell (Llama 3, Gemma, Phi) aus, und das Modell wird direkt auf dem Gerät heruntergeladen und ausgeführt. Die Einrichtung dauert unter 10 Minuten.
Pocketpal AI wurde von der Hugging-Face-Community entwickelt und unterstützt das direkte Laden von GGUF-Modelldateien von Hugging Face. Das bedeutet, dass Sie ein beliebiges GGUF-kompatibles Modell ausführen können, nicht nur eine vordefinierte Liste. Der Kompromiss ist eine etwas komplexere Einrichtung mit manueller Modellauswahl und -download.
| App | Einrichtungsaufwand | Modellflexibilität |
|---|---|---|
| MLC Chat | Einfach (Play Store) | Nur voroptimierte Modelle |
| Pocketpal | Mittel | GGUF from Hugging Face |
| Termux + Ollama | Fortgeschritten (CLI) | Vollständige Ollama-Bibliothek |
Beginnen Sie mit MLC Chat, wenn dies Ihr erstes Android-LLM-Setup ist — es hat die schnellste Zeit bis zum ersten Token und die wenigste Konfiguration. Pocketpal ist der Upgrade-Pfad für Nutzer, die häufig Modelle wechseln möchten. Termux + Ollama ist für Entwickler, die Ollama bereits kennen und denselben CLI-Workflow auf dem Mobilgerät nutzen wollen.
Ein Android-Flaggschiff mit 8+ GB RAM verarbeitet ein 2–3B-Modell mit 4–8 tok/s auf der CPU. Mittelklasse-Handys aus 2023–2024 sind langsamer (1–3 tok/s) — für Batch-Aufgaben nutzbar, für Live-Chat frustrierend. Versuchen Sie keine 7B-Modelle auf Geräten mit weniger als 8 GB RAM.
Termux + Ollama ist die leistungsstärkste Option, hat aber die steilste Einrichtungskurve. Sie installieren Termux von F-Droid und führen dann pkg install ollama im Terminal aus. Nach der Installation funktionieren alle Standard-Ollama-Befehle, einschließlich ollama pull und ollama run. Dieser Ansatz eignet sich am besten für Entwickler, die Ollama bereits auf dem Desktop verwenden.
Der Akkuverbrauch spielt ab dem 7B-Bereich eine Rolle. Eine 30-minütige Chat-Session mit Llama 3 8B Q4 auf einem Flaggschiff-Handy verbraucht im Durchschnitt 8–12 % Akku. Für häufigen Einsatz am Ladekabel bleiben oder auf 2–3B-Modelle wie Phi-3 Mini und Gemma 2B wechseln, die weniger Strom benötigen.
Einen vollständigen Leitfaden zum Ausführen von LLMs auf Android mit Hardware-Anforderungen und Modellempfehlungen finden Sie im Leitfaden für die besten lokalen LLM-Apps für Android.
pkg update && pkg install ollama aus. Verwenden Sie dann Standard-Ollama-Befehle: ollama pull llama3 und ollama run llama3. Ihr Gerät benötigt 8+ GB RAM für einen zuverlässigen Betrieb.