重要なポイント
- iPhone (A18):1–3Bモデル、約3トークン/秒。Llama 3.2 1Bが実用的。
- Android (Snapdragon X):7Bモデル、約5トークン/秒。チャットに実用的。
- iPad (M4):7–13Bモデル、約15トークン/秒。最良のモバイル体験。
- オフライン推論 = プライバシー、APIコストゼロ、レイテンシーゼロ。
- 2026年4月時点、オンデバイスLLMはニッチだが急成長中。
基本データ
- iPhone 16 Pro (A18 Pro): 3Bモデルで3–4トークン/秒、12 GB共有RAM、Q&Aと要約に実用的
- iPad Pro M4: 7Bモデルで15トークン/秒、13Bモデル実行可能、16 GBユニファイドメモリ — Apple最良のモバイルLLMデバイス
- Android Snapdragon X Elite: 7Bモデルで5トークン/秒、8–12 GB RAM、ローカル推論の最良Android選択肢
- メモリ帯域幅の差: iPhone A18 約68 GB/秒 vs RTX 4090 1,008 GB/秒 — 15–50倍の速度差を説明
- バッテリー消耗: 持続的推論でiPhoneは2–4時間で消耗、iPadは4–6時間持続
モバイルで本当に使えるもの(2026年)
iPhone (A18/A18 Pro): 1–3Bモデルのみ実行可能。Llama 3.2 1BとPhi-4 Mini 3.8Bが実用的な選択肢です。速度:3–4トークン/秒。簡単なQ&A、短い要約に適しています。長い会話やコード生成には不向き。
Android (Snapdragon X Elite): 3–7Bモデルを実行。Llama 3.2 7BとMistral 7Bが5トークン/秒で動作。Galaxy S25 Ultraが最良のAndroid選択肢。
iPad Pro (M4): ローカルLLMが実用的に感じられる唯一のモバイルデバイス。16 GBユニファイドメモリで7–13Bモデルを15トークン/秒で実行。
動作しないもの: あらゆるモバイルデバイスでの70Bモデル。iPhoneでの7Bモデル(クラッシュ)。8 GB RAM未満の端末。
2026年にローカルLLMを実行できるモバイルハードウェアは?
iPhone 16 Pro (A18 Pro)がローカルLLMの最低実用iPhone — 12 GB共有RAMでLlama 3.2 3Bを4トークン/秒で実行。標準iPhone 16(8 GB)は1Bモデルのみ対応。
| デバイス | 最大モデルサイズ | 速度 | メモリ |
|---|---|---|---|
| iPhone 16 (A18) | 3B | 3トークン/秒 | 共有8 GB |
| iPhone 16 Pro (A18 Pro) | 3B | 4トークン/秒 | 共有12 GB |
| Android (Snapdragon X Elite) | 7B | 5トークン/秒 | 8–12 GB |
| Pixel 9 Pro (Tensor G4) | 3B | 3トークン/秒 | 16 GB |
| Samsung Galaxy S25 Ultra | 7B | 4トークン/秒 | 12 GB |
| iPad Pro (M4) | 13B | 15トークン/秒 | 共有16 GB |
Pixel 9 ProはGoogleのAICore API経由でGemini Nanoをネイティブ実行 — サードパーティアプリへのアクセスは未公開。Samsung Galaxy S25 UltraはSamsung Galaxy AI(オンデバイス+クラウドハイブリッド)を提供 — MLC ChatまたはLLaMa Lite経由の純粋なオンデバイス推論が可能。
最適なセットアップ:アプリとフレームワーク
| アプリ | プラットフォーム | 対応モデル | 費用 |
|---|---|---|---|
| PocketPal AI | iOS, Android | 1–3B GGUF | 無料 |
| MLC Chat | iOS, Android | 1–7B | 無料(オープンソース) |
| Ollama iOS | iPhone, iPad | 1–3B | 無料 |
| Layla | iOS | 1–3B + RAG | 無料 + Pro |
| Chatlize | iOS, Android | 1–3B | 無料 + Pro |
| Private LLM | iOS (Apple Silicon iPad) | 3–13B | $5.99(買い切り) |
| LLaMa Lite | Android | 3–7B | 無料 |
| MLC LLM (dev) | Android | 1–7B(MLC経由) | 無料(開発者向け) |
PocketPal AI(2025年1月リリース)は2026年4月時点でiOS・Android合計50万ダウンロード超の最も人気のあるモバイルローカルLLMアプリです。MLC-AIのMLC Chatは最も幅広いモデルサポート(Llama、Qwen、Gemma、Phi)をiOS・Android共通インターフェースで提供します。
モバイルLLM開発を支援するフレームワークは?
iOS: Core MLとMetal Performance Shadersがモデル最適化を担当。llama.cppがほとんどのiOS LLMアプリの推論エンジンを提供。
Android: TensorFlow Lite、ONNX Runtime、Snapdragon Neural Processing Engine。MLC LLMがクロスプラットフォームのモバイル推論を提供。
開発者はLlama、Qwen、Mistralモデルをモバイル最適化されたGGUFまたはCore MLフォーマットに変換可能。
スマートフォン vs ノートPC vs ミニPC:どれを使うべきか?
スマートフォンはローカルLLMの最も弱い選択肢です — しかしポケットに入る唯一の選択肢でもあります。
| 要素 | スマートフォン | ノートPC (M4 Pro) | ミニPC (M4 Pro) |
|---|---|---|---|
| 最大モデルサイズ | 3–7B | 70B | 70B |
| 速度(7B) | 3–5トークン/秒 | 30–40トークン/秒 | 35–45トークン/秒 |
| 利用可能RAM | 6–12 GB | 24–48 GB | 24–64 GB |
| 携帯性 | ポケット | バッグ | デスクのみ |
| バッテリー(推論時) | 2–5時間 | 6–10時間 | 電源接続 |
| コスト | ¥0(既存端末) | ¥299,800+ | ¥119,800+ |
| 最適用途 | オフラインQ&A | ポータブル開発 | 常時稼働サーバー |
ほとんどのユーザーに:スマートフォンでオフラインクエリ、ノートPCで本格作業、ミニPCをWi-Fi経由のローカルLLMサーバーとして使用。
モバイルLLMの速度 vs デスクトップ
モバイルはメモリ帯域幅の差でデスクトップより15–50倍遅い。 iPhone A18は約68 GB/秒の帯域幅、RTX 4090は1,008 GB/秒。LLM推論速度はメモリ帯域幅に直接比例します。
| デバイス | モデル | トークン/秒 |
|---|---|---|
| デスクトップ RTX 4090 | Llama 7B | 150トークン/秒 |
| iPad M4 | Llama 7B | 15トークン/秒 |
| Android (Snapdragon X) | Llama 7B | 5トークン/秒 |
| iPhone 16 Pro | Llama 3B | 4トークン/秒 |
地域別の考慮事項
日本: 経済産業省(METI)のAIガバナンスガイドライン2024は、機密ビジネスデータの処理にオンデバイス推論を推奨しています。APPI(個人情報保護法)要件により、モバイルビジネスアプリでのオンデバイス推論が優位です。NTTドコモ、ソフトバンクなど国内キャリアがチップセットベンダーと協力し、国内モデル向けオンデバイスAIの最適化を進めています。
アジア太平洋: 韓国PIPA、シンガポールPDPA、オーストラリアPrivacy Actなど各国データ保護法がオンデバイス処理を推奨。Samsung Galaxy S25 Ultraの国内展開により、韓国市場でモバイルローカルLLMの採用が加速中。
グローバル: 2026年時点、AppleのA18/M4チップがモバイルLLM推論で業界リード。Qualcomm Snapdragon X EliteがAndroid側で追随。2027年にはA19 Pro、Snapdragon X2により7–13Bモデルがモバイルで実用的に。
モバイルLLMの最適なユースケース
モバイルLLMはデスクトップAIの代替ではありません。 オフライン機能、プライバシー、ゼロコストが速度より重要なシナリオで力を発揮します。
- オフラインチャットアシスタント — 飛行機、地下鉄、電波のない地域でのQ&A。
- プライベートメモ — 会議メモの要約、下書きの書き直し。データをサーバーに送信せず完全プライバシー。
- 軽量コーディングヘルパー — iPad上のPhi-4 Mini 3.8BがPython、JavaScript、SQLのコード補完を提供。
- 語学学習 — あらゆる言語でオフライン会話練習。
- フィールドワーク — 医療従事者、検査員、法律専門家がクラウド接続なしでドキュメントをローカル検索。
- 個人日記 — 完全プライバシーのAI支援リフレクション。
知っておくべき制限事項
- RAM制約: 「12 GB RAM」のiPhoneでもiOSオーバーヘッド後は6–8 GBしかLLMに使用できません。他のアプリを閉じてください。
- バッテリー消耗: 持続的推論でiPhoneは2–4時間、iPadは4–6時間で消耗。応答長を最大200トークンに制限。
- サーマルスロットリング: 5–10分の連続推論後にCPU/GPUがスロットリング。速度が20–40%低下。
- モデル品質: 1–3Bモデルはgpt-4oやClaudeより明らかに劣ります。事実誤り、短いコンテキストウィンドウ(2K–4Kトークン)を想定。
- iPhoneで7B不可: iPhoneの実用最大モデルは3B。7Bを試すとクラッシュします。
- 共有メモリの現実: モバイルデバイスはOS、アプリ、LLM間でRAMを共有。
モバイルLLMはいつ実用的になるか?
2027年後半が転換点です。 Apple A19 ProとSnapdragon X2が7–13Bモデルを15–25トークン/秒でスマートフォンに提供。
2027年スマートフォン: 7–13Bモデルを15–25トークン/秒。ほとんどのチャットタスクに実用的。
2028年以降: 13–24Bモデルが期待。品質はGPT-3.5レベルに近づく。
今日の最適オプション: スマートフォンでオフラインクエリ、Mac mini M4 ProまたはデスクトップGPUをWi-Fi経由のローカルサーバーとして使用。
よくある質問
iPhoneでローカルLLMを実行できますか?
はい。ただし小型モデル(1–3Bパラメータ)のみです。A18チップ搭載iPhone 16はLlama 3.2 1Bを約3トークン/秒で実行します。3B以上のモデルはクラッシュします。PocketPal AI、MLC Chat、Ollama iOSが実用的です。
どのAndroidデバイスがローカルLLMを実行できますか?
Snapdragon X Elite/Plus搭載デバイスが7Bモデルを約5トークン/秒で実行。標準ミドルレンジAndroid(Snapdragon 8 Gen 3)は3Bを約3トークン/秒。Pixel 9 ProとGalaxy S25 UltraはMLC Chat経由で3–7B対応。8 GB RAM未満は非実用的です。
iPadとiPhoneのローカルLLM比較は?
iPad Pro M4はiPhoneを大幅に上回ります:Llama 7Bで15トークン/秒 vs iPhoneの3–4トークン/秒。iPad M4は13Bモデルも快適に実行(16 GBユニファイドメモリ)。モバイルAI作業にはiPadが推奨です。
モバイルでLLMを実行する最良のアプリは?
PocketPal AIが2026年4月時点で最も人気(50万以上ダウンロード、iOS・Android)。MLC Chatが最も幅広いモデルサポート(Llama、Qwen、Gemma、Phi)。iOS:Ollama iOSまたはLayla。Android:LLaMa LiteまたはMLC Chat。すべて無料。
なぜモバイルLLM推論はデスクトップより遅いのですか?
メモリ帯域幅の差です。iPhone A18は約68 GB/秒、RTX 4090は1,008 GB/秒 — 約15倍の差。LLM推論速度はメモリ帯域幅に比例します。モバイルは効率(1–5 W vs 300–600 W)に優れ、スループットではありません。
モバイルLLM推論はバッテリーを消耗しますか?
はい。持続的推論でiPhoneバッテリーは2–4時間で消耗します。応答長制限(最大200トークン)を設定してください。iPad M4は4–6時間持続。Apple SiliconはSnapdragon Xより持続的推論で効率的です。
PixelでGemini Nanoをローカルで使えますか?
はい、ただし間接的です。Gemini NanoはPixel 9 ProでAICore API経由でネイティブ実行されますが、2026年4月時点でサードパーティアプリからアクセスできません。ユーザー制御のローカルLLMにはPocketPal AIまたはMLC ChatでLlama 3.2 3BまたはPhi-4 Miniをインストールしてください。
2027年のスマートフォンで70Bモデルをローカル実行できますか?
いいえ。現在のロードマップ(Apple A19 Pro、Snapdragon X2、Tensor G5)は7–13Bモデルを15–25トークン/秒で示しており、70Bではありません。メモリ帯域幅と熱制約がモバイルの実用モデルサイズを制限します。モバイルフォームファクターでの70BにはiPad Pro M6またはMac mini M5 Pro(Wi-Fiローカルサーバー)が2027年の実用オプションです。
出典
- Apple A18チップ仕様 — iPhone 16公式ハードウェア仕様
- Qualcomm Snapdragon X Eliteプラットフォーム — Android・Windowsデバイス向けAI推論機能
- Ollama iOS (SwiftUI) — iPhone・iPad向けオープンソースiOSクライアント
- TensorFlow Lite — Googleのオンデバイス機械学習推論フレームワーク