クイック回答
ローカルLLMを実行するAndroidの最良アプリはMLC Chat、Pocketpal、Termux + Ollamaです。MLC Chatは初心者に最も簡単です。すべて完全オフラインで動作します。
更新: 2026-05
重要なポイント
2026年5月時点で、AndroidでローカルLLMを実行するための実用的な3つの方法があります:MLC Chat(Machine Learning Compilation)、Pocketpal AI、Termux + Ollama。 3つすべてが最初のモデルダウンロード後は100%オフラインで動作します — APIキーやインターネット接続は不要です。
MLC ChatはMLC-LLMコンパイルフレームワークを使用してモデルの重みをモバイルハードウェア向けに事前最適化します。Google Playからダウンロードし、サポートされているモデル(Llama 3、Gemma、Phi)を選択すると、モデルがデバイスに直接ダウンロードされて実行されます。セットアップは10分以内に完了します。
Pocketpal AIはHugging Faceコミュニティによって開発され、Hugging FaceからGGUFモデルファイルを直接ロードできます。これにより、事前定義リストだけでなく、任意のGGUF互換モデルを実行できます。トレードオフは手動でのモデル選択とダウンロードが必要なやや複雑なセットアップです。
| アプリ | セットアップの難易度 | モデルの柔軟性 |
|---|---|---|
| MLC Chat | 簡単(Play Store) | 事前最適化モデルのみ |
| Pocketpal | 中程度 | GGUF from Hugging Face |
| Termux + Ollama | 上級(CLI) | 完全なOllamaライブラリ |
初めてのAndroid LLMセットアップならMLC Chatから始めてください — 最初のトークンまでの時間が最短で、設定も最小限です。 Pocketpalは頻繁にモデルを切り替えたいユーザーへのアップグレードパスです。Termux + OllamaはすでにOllamaを知っており、モバイルでも同じCLIワークフローを使いたい開発者向けです。
8GB以上のRAMを搭載したAndroidフラッグシップは、CPU上で2–3Bモデルを4–8 tok/sで処理します。2023–2024年のミッドレンジスマートフォンは遅く(1–3 tok/s)、バッチタスクには使えますがライブチャットには不向きです。8GB RAM未満のデバイスで7Bモデルは使わないでください。
Termux + Ollamaは最も強力な選択肢ですが、セットアップの難易度が最も高いです。 F-DroidからTermuxをインストールし、ターミナル内でpkg install ollamaを実行します。インストール後、ollama pullやollama runを含むすべての標準Ollamaコマンドが動作します。このアプローチはデスクトップですでにOllamaを使用している開発者に最適です。
バッテリー消費は7B以上のモデルで重要になります。フラッグシップスマートフォンでLlama 3 8B Q4を30分チャットすると、平均8–12%のバッテリーを消費します。頻繁に使用する場合は充電しながら使うか、Phi-3 MiniやGemma 2Bのような消費電力の少ない2–3Bモデルにとどめてください。
ハードウェア要件とモデル推奨を含むAndroidでのLLM実行の完全ガイドについては、Androidの最良ローカルLLMアプリガイドをご覧ください。
pkg update && pkg install ollamaを実行します。その後、標準Ollamaコマンドを使用します:ollama pull llama3とollama run llama3。デバイスは安定した動作のために8GB以上のRAMが必要です。