Skip to main content
PromptQuorumPromptQuorum
ホーム/ローカルLLM活用/2026年モバイルLLMモデル比較:Phi-4 Mini vs Gemma 3 vs SmolLM
Mobile & Edge LLMs

2026年モバイルLLMモデル比較:Phi-4 Mini vs Gemma 3 vs SmolLM

·12分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

2026年、ほとんどのハイエンドスマートフォン(RAM 8GB以上)では、Q4_K_M量子化のPhi-4 Mini(3.8B)が使用可能な速度で動作する最も高精度なモデルです(iPhone 17 Proで~13〜18 tokens/sec)。 6GBの旧端末ではQwen 3 1.5BまたはSmolLM 2 1.7Bが快適に動作し、一貫性のある短文回答を生成します。SmolLM 2 1.7Bはすべてのテスト端末で最速のtokens/secを記録しています。Qwen 3 1.5Bは最強の多言語対応モデルです(中国語、日本語、アラビア語を含む35以上の言語)。Gemma 3 4BはPhi-4 Miniがアプリで利用できない場合のバランス型デフォルトです。Gemma 3 1Bは非常に古い端末(RAM 4GB)向けの軽量な選択肢です。Llama 3.2 3Bは最もテストされた3Bの汎用モデルで、最も広いツールサポートを持ちます。

2026年、6つの小型言語モデルがほぼすべてのモバイル用途をカバーします:Phi-4 Mini(3.8B)、Gemma 3 4B、Gemma 3 1B、SmolLM 2 1.7B、Qwen 3 1.5B、Llama 3.2 3B。これらはtokens/sec、メモリ使用量、チャット・要約・翻訳・短文作成の品質において異なります。このガイドではiPhone 17 ProとGalaxy S25 Ultraでの比較、端末クラス別(ハイエンド/ミッドレンジ/エントリー)の判定、そしてQ4_K_M量子化がモバイルの標準となった理由を解説します。

重要なポイント

  • Phi-4 Mini(3.8B)は2026年で最も高精度な小型モデルです。 RAM 8GB以上のハイエンド端末に最適 — iPhone 17 Proで~13〜18 tokens/sec、iPhone 16 Proで~10〜15。4B未満のモデル中、パラメータあたりの推論能力が最高です。
  • SmolLM 2 1.7Bはすべてのテスト端末で最速のtokens/secを記録しています。 iPhone 17 Proで~26〜32 tok/sec、Galaxy S25 Ultraで~20〜28。回答の深さよりも応答速度が重要な場合(高速チャット、オートコンプリート系タスク)に最適です。
  • Qwen 3 1.5Bは最強の多言語モバイルモデルです。 中国語、日本語、アラビア語、ドイツ語を含む35以上の言語でネイティブ品質の出力を持ちます。翻訳、非英語の文章作成、旅行での使用に最適です。
  • Gemma 3 4Bはバランス型デフォルトです。 同じハードウェアでPhi-4 Miniよりわずかに遅いですが、チャットと要約では同等の品質です。アプリでPhi-4 Miniが利用できない場合やGoogleの学習データミックスを好む場合に最適です。
  • Gemma 3 1Bは旧端末向け軽量モデルです。 RAM 4GB(iPhone SE 第3世代、旧Android)に収まります。多段階推論は限られますが、弱いハードウェアで他のどのモデルよりも速く1〜2段落の一貫した回答を生成します。
  • Llama 3.2 3Bは最もテストされた3B汎用モデルです。 6モデル中最良のtool calling対応、最広のアプリ互換性、最大のコミュニティfine-tuneエコシステム。品質ではPhi-4 Miniにわずかに劣りますが、エッジケースでより信頼性が高いです。
  • Q4_K_Mは2026年のモバイルLLM推論の標準量子化です。 ファイルサイズを4分の1にしながら元の品質の~95%を保持します。Q5_K_MまたはQ6_KはRAM 12GB以上の端末(iPhone 17 Pro Max)でアプリが対応している場合のみ使用してください。

クイックファクト

  • テストしたモデル: Phi-4 Mini 3.8B、Gemma 3 4B、Gemma 3 1B、SmolLM 2 1.7B、Qwen 3 1.5B、Llama 3.2 3B(すべてQ4_K_M GGUF)。
  • テスト端末: iPhone 17 Pro(A19 Pro)、iPhone 16 Pro(A18 Pro、8GB)、Galaxy S25 Ultra(Snapdragon 8 Elite)、Pixel 9 Pro(Tensor G5)、OnePlus 13(Snapdragon 8 Elite)。
  • 推論エンジン: PocketPal AI / LLM Farm経由のllama.cpp(デフォルト)、MLC Chat経由のMLC LLM(iPhoneでMetal加速)、Termux経由のOllama(Android)。
  • メモリ使用量(Q4_K_M): Phi-4 Mini ~2.7 GB、Gemma 3 4B ~2.9 GB、Llama 3.2 3B ~2.2 GB、Qwen 3 1.5B ~1.0 GB、SmolLM 2 1.7B ~1.1 GB、Gemma 3 1B ~720 MB。
  • 最小RAM(アクティブ時): 1.5B〜1.7Bモデルは6GB端末;3B〜4Bモデルは8GB端末;Gemma 3 1Bのみ4GB端末。
  • iPhone 17 Proでの最速tokens/sec: Gemma 3 1B ~35〜45、SmolLM 2 ~26〜32、Qwen 3 ~24〜32、Llama 3.2 3B ~16〜22、Phi-4 Mini ~13〜18、Gemma 3 4B ~10〜13。
  • 量子化ソース: Hugging FaceおよびPocketPal AI / MLC Chat / LM Studio経由で6つすべてQ4_K_M GGUFで入手可能。

どのモバイルモデルを選ぶべきか?

ほとんどのハイエンドスマートフォン(iPhone 16 Pro / 17 Pro、Galaxy S25 Ultra、OnePlus 13)では、Phi-4 Mini(3.8B Q4_K_M)を選んでください。 4B未満で最も高精度なモデルであり、使用可能な会話速度で動作します。速度(SmolLM 2)、多言語対応(Qwen 3)、旧端末互換性(Gemma 3 1B)など、特定のニーズがある場合のみ別のモデルを選択してください。

📍 一文で説明

RAM 8GB以上のハイエンド端末にはPhi-4 Mini(最高精度)、速度重視にはSmolLM 2 1.7B、多言語使用にはQwen 3 1.5B、RAM 4GB端末にはGemma 3 1B、tool callingにはLlama 3.2 3B、Phi-4 Miniが利用できない場合のバランス型デフォルトにはGemma 3 4B。

💬 簡潔に説明

単一のベストモバイルモデルは存在しません — 正しい選択はあなたの端末と使用目的によります。スマートフォンが過去2年以内のモデルでRAM 8GB以上あれば、Phi-4 Miniをインストールしてください。主に英語以外の言語でチャットする場合はQwen 3を、品質を多少犠牲にしても最速の返答が欲しい場合はSmolLM 2を、端末が古いかRAM 4GBのみの場合はGemma 3 1Bをインストールしてください。

どのモバイルモデルを選ぶか

Use a local LLM if:

  • RAM 8GB以上のハイエンド端末(iPhone 16 Pro/17 Pro、Galaxy S25 Ultra、OnePlus 13)→ Phi-4 Mini 3.8B
  • あらゆる端末で最速のtokens/secが必要 → SmolLM 2 1.7B
  • 非英語使用(翻訳、多言語チャット) → Qwen 3 1.5B
  • 幅広いアプリ互換性、tool calling、またはRAGが必要 → Llama 3.2 3B
  • RAM 4GBの旧端末 → Gemma 3 1B
  • アプリでPhi-4 Miniが利用不可、4Bクラスの品質が必要 → Gemma 3 4B

Use a cloud model if:

  • 多段階推論、複雑なコード生成、長文書分析 → クラウドまたは70B以上を搭載したホームマシンへのリモート接続
  • ビジョン・ランゲージタスク(画像入力、OCR) → クラウドアプリ(2026年のモバイルビジョンモデルは限定的で低速)
  • 3,000トークン以上の一貫性が必要な長文クリエイティブライティング → クラウドまたはデスクトップの8B以上

Quick decision:

  • ほとんどのユーザーのデフォルト:Phi-4 Mini 3.8B
  • すべての端末で最速:SmolLM 2 1.7B
  • 最良の多言語対応:Qwen 3 1.5B
モバイルLLM選択のための4ステップガイド:スマートフォンのRAMを確認し、端末クラスを選択(4GBから8GB以上)、用途を選択(速度・多言語・品質)、Q4_K_M GGUFをPocketPal AIまたはLM Studio経由でインストール。
モバイルLLM選択のための4ステップガイド:スマートフォンのRAMを確認し、端末クラスを選択(4GBから8GB以上)、用途を選択(速度・多言語・品質)、Q4_K_M GGUFをPocketPal AIまたはLM Studio経由でインストール。

💡Tip: 迷った場合は、ハイエンド端末ではPhi-4 Mini、ミッドレンジ端末ではSmolLM 2 1.7Bから始めてみてください — 両方とも高速接続で5分以内にダウンロードでき、元に戻すことも可能です。実際に重要な作業(要約したいメール、答えを知りたい質問など)でテストしてみてください。品質が許容できれば、それがあなたのデフォルトです。そうでなければ、PocketPal AIやLM Studioで30秒以内に別のモデルに切り替えられます。

モバイルモデル比較表

以下の4列の表は素早く選択するための概要です — 端末クラスや用途に応じて行を選んでください。 Tokens/secの値はiPhone 17 ProでPocketPal AI(llama.cpp)を使用したQ4_K_M量子化での測定です。iPhone 16 Proでは15〜25%低く、Galaxy S25 UltraでMLC ChatまたはTermux+Ollamaを使用した場合は約10〜20%低くなります。

📍 一文で説明

Phi-4 Miniが最高精度、SmolLM 2 1.7Bが最速、Qwen 3 1.5Bが多言語最強、Gemma 3 1Bが最小の実用モデル、Llama 3.2 3Bが最強の3B汎用モデル、Gemma 3 4Bがバランス型デフォルト。

💬 簡潔に説明

この表をサイズ順に上から下に読むか、お使いの端末クラスに該当する行に直接ジャンプしてください。「最適用途」列は各モデルが最適化されている点を示しています — 最も重要な強みを持つ行を選んでください。

モデルサイズtokens/sec(17 Pro)最適用途
Phi-4 Mini3.8B~13〜18最高精度の小型モデル — ハイエンドのデフォルト
Gemma 3 4B4B~10〜13Phi-4 Mini未対応時のバランス型デフォルト
Gemma 3 1B1B~35〜45旧端末(RAM 4GB)向け
SmolLM 21.7B~26〜32最速tokens/sec、高速チャット
Qwen 31.5B~24〜32最強の多言語対応(35以上の言語)
Llama 3.23B~16〜22最強の3Bオプション、tool calling、RAG

速度と品質のトレードオフについて: 同一チップ上では、パラメータ数に反比例してtokens/secが変化します — 1Bモデルは同じハードウェアの3.8Bモデルより約3〜4倍速いです。品質はパラメータ数とともに向上しますが線形ではありません:Phi-4 Mini(3.8B)の推論品質は、Microsoftの学習データミックスのおかげで1.7Bモデルよりも7Bモデルに近いです。

iPhone 17 ProでQ4_K_Mにて6つのモバイルLLMモデルをベンチマーク:Phi-4 Mini(3.8B、~13–18トークン/秒)が最高精度;SmolLM 2(1.7B、~26–32トークン/秒)が最速;Qwen 3(1.5B)が多言語最強;Gemma 3 1B(~35–45トークン/秒)が4GBの旧端末で動作。
iPhone 17 ProでQ4_K_Mにて6つのモバイルLLMモデルをベンチマーク:Phi-4 Mini(3.8B、~13–18トークン/秒)が最高精度;SmolLM 2(1.7B、~26–32トークン/秒)が最速;Qwen 3(1.5B)が多言語最強;Gemma 3 1B(~35–45トークン/秒)が4GBの旧端末で動作。

💡Tip: iPhone 16 Proのtokens/secはこの表のすべてのモデルでiPhone 17 Proより約15〜25%低くなります — A18 ProとA19 ProのNeural Engineの差です。Galaxy S25 Ultra(Snapdragon 8 Elite)は同じQ4_K_M GGUFでiPhone 17 Proより約10〜20%低く、主にTermux+OllamaがAndroidでSnapdragon HexagonのNPUをMLC ChatがApple Metalを活用するほど利用できていないためです。

Phi-4 Mini:最も高精度な小型モデル

Phi-4 Mini(3.8Bパラメータ、Microsoft、2024年12月)は、推論に最適化された学習データミックスにより、2026年における4B未満で最も高精度なモデルです。 同程度のサイズにもかかわらず、chain-of-thoughtタスクでGemma 3 4BとLlama 3.2 3Bを上回ります。RAM 8GB以上のスマートフォンでのデフォルトとして使用してください。

  • パラメータと学習: 3.8Bパラメータ;高品質なウェブテキスト、合成推論チェーン、学術コンテンツのMicoftキュレーションミックスで学習。アーキテクチャはgrouped-query attentionを持つTransformer。
  • メモリ使用量: Q4_K_Mで~2.7 GB、Q5_K_Mで~3.5 GB。iPhone 16 Pro / 17 Pro(8 GB)とGalaxy S25 Ultra(12 GB)でOSの余裕を持って快適に動作。
  • 速度(tokens/sec): iPhone 17 Pro ~13〜18、iPhone 16 Pro ~10〜15、Galaxy S25 Ultra ~10〜15(Termux+Ollama)、iPhone 14 Pro ~6〜10(低速だが機能的)。
  • 品質の強み: chain-of-thought推論、要約、ファクトQ&A、基本的なコード生成。MMLU、GSM8Kなどの標準ベンチマークで同サイズのオープンソースモデルを上回ります。
  • 品質の弱み: Llama 3.2 3Bより世界知識が狭い(Common Crawlの露出が少ない);Gemma 3 4Bより自然なクリエイティブライティングが短い;英語以外ではQwen 3 1.5Bより多言語対応が弱い。
  • 最適用途: 英語のチャット、要約、推論に最も高精度な単一モデルのデフォルトを求めるハイエンドスマートフォンユーザー。

💡Tip: Phi-4 Miniはステップバイステップの推論を明示的に呼び出すシステムプロンプト(「回答する前にこれを慎重に考えてください」)から恩恵を受けます。学習データが推論チェーンで豊富であるため、このスタイルのプロンプトは簡潔な指示よりも一貫して良い回答を生成します。素早いチャットにはシステムプロンプトは不要です。

Gemma 3 4B:バランス型デフォルト

Gemma 3 4B(Google DeepMind、2025年)は、アプリでPhi-4 Miniが利用できない場合や、Googleの学習データミックスを好む場合のバランス型デフォルトです。 同じハードウェアでPhi-4 Miniよりわずかに遅いですが、チャットと要約では同等の品質で、より幅広い自然言語カバレッジを持ちます。

  • パラメータと学習: 4Bパラメータ;ウェブテキスト、コード、多言語データのGoogleキュレーションミックスで学習。拡張コンテキストを持つGemma 2と同じアーキテクチャファミリー。
  • メモリ使用量: Q4_K_Mで~2.9 GB、Q5_K_Mで~3.7 GB。8GB以上の端末に対応;6GB端末では厳しい(代わりにPhi-4 Miniまたは小型モデルを使用)。
  • 速度(tokens/sec): iPhone 17 Pro ~10〜13、iPhone 16 Pro ~7〜10、Galaxy S25 Ultra ~7〜10(アーキテクチャの違いにより、同サイズにもかかわらずPhi-4 Miniよりわずかに遅い)。
  • 品質の強み: 自然な会話トーン、強力な要約、Phi-4 Miniより広い世界知識(Common Crawlの露出)、まずまずの多言語対応。
  • 品質の弱み: Phi-4 Miniよりchain-of-thought推論が弱い;同じハードウェアでtokens/secが遅い;モバイルアプリへの追加が常に最初ではない。
  • 最適用途: 日常のチャット、要約、短文作成にPhi-4 Miniの代替としてGoogleのモデルを求めるハイエンドユーザー。

💡Tip: Gemma 3 4BはPhi-4 Miniとは異なるchat templateを使用しています — アプリが正しいGemmaテンプレート(<start_of_turn>マーカー付き)を使用していることを確認してください。間違ったテンプレートは壊れた出力や繰り返しの出力を生成します。PocketPal AI、MLC Chat、LM Studioは自動的にこれを検出します;LLM FarmではモデルSettings下でGemmaテンプレートを手動で選択する必要があります。

Gemma 3 1B:旧端末向け軽量モデル

Gemma 3 1B(Google DeepMind、2025年)は2026年で最小の実用的なモバイルモデルです — Q4_K_Mで~720 MBでRAM 4GB端末で動作します。 品質は短い一貫した回答(1〜2段落)に限られますが、1 GB未満で弱いハードウェアで使用可能な出力を生成できる唯一のオプションです。

  • パラメータと学習: 1Bパラメータ;4Bモデルと同じGemma 3ファミリーアーキテクチャだが、学習コンピュートを削減。エッジデバイスでの効率的な推論のために学習。
  • メモリ使用量: Q4_K_Mで~720 MB、Q5_K_Mで~900 MB。iPhone SE 第3世代、iPhone 12/13、旧Android(最低RAM 4GB)で動作。
  • 速度(tokens/sec): iPhone 17 Pro ~35〜45、iPhone 16 Pro ~28〜38、iPhone 14 ~20〜28、旧Android(4GB)~10〜15。このラインナップで最速のモデル。
  • 品質の強み: 速度、低メモリ使用量、一貫した短文回答、低バッテリー消費。
  • 品質の弱み: 多段階推論が弱い、ニッチなトピックでの事実誤りが頻繁、長い生成(500トークン以上)での繰り返し、会話の深さが浅い。
  • 最適用途: RAM 6GBのしきい値を下回る端末でオンデバイスAIを使いたいユーザー、または長距離フライトや低電力シナリオでバッテリー寿命を最適化したいユーザー。

💡Tip: Gemma 3 1Bは短く焦点を絞ったタスクに使用してください — 一文要約、一段落の下書き、簡単な定義、主要言語ペア間の簡単な翻訳。多段落の説明、多段階推論、またはニッチな事実の正確さが重要なタスクは避けてください。「簡潔に」というプロンプトがこのモデルの強みを活かします。

SmolLM 2 1.7B:最速tokens/sec

SmolLM 2 1.7B(Hugging Face、2024年)は、すべてのテスト端末でこのラインナップ中最速のtokens/secを記録するモバイルモデルです。 iPhone 17 Proで~26〜32 tok/sec、Galaxy S25 Ultraで~20〜28。回答の深さよりも応答速度が重要な場合に最適です。

  • パラメータと学習: 1.7Bパラメータ;小型モデルの効率性に最適化されたHugging Faceキュレーションミックスで学習。コンシューマーハードウェアでの低レイテンシ推論のためのアーキテクチャ。
  • メモリ使用量: Q4_K_Mで~1.1 GB。RAM 6GB以上のすべての端末にOSの大きな余裕を持って収まります。
  • 速度(tokens/sec): iPhone 17 Pro ~26〜32、iPhone 16 Pro ~22〜28、Galaxy S25 Ultra ~20〜28、iPhone 14 Pro ~15〜22。同じチップでPhi-4 Miniの約2倍速い。
  • 品質の強み: 素早い会話応答、シンプルなQ&A、オートコンプリートスタイルの続き、英語の文章作成。
  • 品質の弱み: Phi-4 Miniより推論が弱い、Llama 3.2 3Bより世界知識が狭い、Qwen 3 1.5Bより多言語対応が弱い、事実クエリでの時折の幻覚。
  • 最適用途: レイテンシが重要なミッドレンジ端末(テキスト入力オートコンプリート、音声アシスタントターン、リアルタイムチャット)、または大型モデルが重く感じられる旧ハイエンド端末。
Q4_K_Mでの3機種における6モバイルLLMモデルのトークン/秒比較:Gemma 3 1B(iPhone 17 Proで~35–45)とSmolLM 2 1.7B(~26–32)が速度で先行;Phi-4 Mini(~13–18)とGemma 3 4B(~10–13)は遅いが高精度。
Q4_K_Mでの3機種における6モバイルLLMモデルのトークン/秒比較:Gemma 3 1B(iPhone 17 Proで~35–45)とSmolLM 2 1.7B(~26–32)が速度で先行;Phi-4 Mini(~13–18)とGemma 3 4B(~10–13)は遅いが高精度。

💡Tip: SmolLM 2 1.7Bはモバイルでのオフライン音声アシスタントスタック向けに最適です — Whisper + LLM + TTS パイプラインについてはスマートフォンでローカル音声アシスタントを構築するを参照してください。高いtokens/secにより、ミッドレンジハードウェアでも音声ターンテイキングが~1.5秒の知覚しきい値を下回ります。

Qwen 3 1.5B:最強の多言語モバイルモデル

Qwen 3 1.5B(Alibaba、2024年)は2026年で最強の多言語モバイルモデルです — 中国語、日本語、韓国語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語を含む35以上の言語で学習されています。 翻訳、非英語チャット、会話の途中で言語を切り替えるような旅行での使用に最適です。

  • パラメータと学習: 1.5Bパラメータ;CJK言語、アラビア語、主要欧州言語が強く表現されたAlibabaの多言語コーパスで学習。多言語推論に最適化されたアーキテクチャ。
  • メモリ使用量: Q4_K_Mで~1.0 GB。RAM 6GB以上のすべての端末に収まります。
  • 速度(tokens/sec): iPhone 17 Pro ~24〜32、iPhone 16 Pro ~20〜28、Galaxy S25 Ultra ~18〜26、iPhone 14 Pro ~14〜20。SmolLM 2と同等の速度。
  • 品質の強み: 35以上の言語でネイティブ品質の出力(ほとんどの小型モデルは英語中心で多言語フォールバックが弱い)、主要言語ペア間の強力な翻訳、Phi-4 MiniとLlama 3.2が文字化けを生成するCJK出力が一貫している。
  • 品質の弱み: 英語のみの推論がPhi-4 Miniよりわずかに弱い、Gemma 3 4Bより自然なクリエイティブライティングが短い、Llama 3.2 3Bよりtool callingが弱い。
  • 最適用途: 非英語ユーザー(特に中国語、日本語、ドイツ語、スペイン語、フランス語話者)、オフライン翻訳が必要な旅行者、多言語モバイル機能を構築するデベロッパー。

💡Tip: 特定の2言語ペア間の1回限りの翻訳では、Qwen 3 1.5Bはサブタスクとして翻訳を実行する大型英語中心モデルを通常上回ります。日本語でチャットする日本語ユーザーにとって、Qwen 3は60%小さいにもかかわらずPhi-4 Miniよりも顕著に自然な出力を生成します。基本的なルール:最もパラメータが多いモデルではなく、あなたの主要言語のために学習されたモデルを選んでください。

Llama 3.2 3B:信頼性の高い3B汎用モデル

Llama 3.2 3B(Meta、2024年)は2026年で最もテストされた3Bモデルです — 最広のアプリ互換性、6モデル中最強のtool calling対応、最大のコミュニティfine-tuneエコシステム。 品質ではPhi-4 Miniにわずかに劣りますが、エッジケースでより信頼性が高く、モバイルアプリのサポートが充実しています。

  • パラメータと学習: 3Bパラメータ;チャットとツール使用のためのinstruction-tuningを持つMetaの大規模事前学習コーパスで学習。8Bおよび70B版と同じLlama 3アーキテクチャ。
  • メモリ使用量: Q4_K_Mで~2.2 GB、Q5_K_Mで~2.8 GB。8GB以上の端末にOS余裕を持って収まる;他のアプリを閉じれば6GB端末でも動作。
  • 速度(tokens/sec): iPhone 17 Pro ~16〜22、iPhone 16 Pro ~12〜18、Galaxy S25 Ultra ~12〜18、iPhone 14 Pro ~7〜11。
  • 品質の強み: 幅広い世界知識、堅牢なtool callingおよびfunction calling対応(4B未満のモデル中クラス最高)、信頼性の高いチャット動作、特定タスク(医療、法律、コーディング)向けのfine-tuneの成熟したエコシステム。
  • 品質の弱み: Phi-4 Miniよりchain-of-thought推論が弱い、同サイズでわずかに低いMMULスコア、Gemma 3 4Bより自然な会話トーンが少ない。
  • 最適用途: tool callingまたはfunction callingが必要なモバイルアプリ(ローカル文書上のRAG、オンデバイスエージェントワークフロー)、または最大のコミュニティfine-tuneライブラリを持つモデルを求めるユーザー。

💡Tip: Llama 3.2 3Bはこのラインナップで唯一、オンデバイスエージェントワークフローに十分信頼性の高いtool callingをサポートするモデルです — ローカルAIエージェントとMCP 2026を参照してください。Phi-4 MiniとSmolLM 2は技術的にtool callが可能ですが、Llama 3.2 3Bのみが2026年で本番運用可能です。

モバイル向け量子化:Q4_K_Mがデフォルト

Q4_K_Mは2026年のモバイルLLM推論の標準量子化です — ファイルサイズを4分の1にしながら元のモデル品質の~95%を保持します。 Q5_K_MまたはQ6_Kは、RAM 12GB以上の端末(iPhone 17 Pro Max、Galaxy S25 Ultra)で余分なメモリが本当に空いている場合のみ使用してください。

📍 一文で説明

Q4_K_Mがモバイルのデフォルト — 4分の1のサイズで~95%の品質。Q5_K_M / Q6_KはRAM 12GB以上の端末でのみ価値があります。

💬 簡潔に説明

Hugging Faceのモデルはフル精度で公開されています(各パラメータが16ビット数として保存)。スマートフォンでは量子化バージョンをダウンロードします。各パラメータが4ビットに圧縮され、ファイルが4倍小さくなり推論が約4倍速くなり、わずかな品質コストが発生します。Q4_K_Mは2026年にスマートフォンのための適切なバランスとしてコミュニティが定着した変種です。Q数値が高いほど(Q5、Q6、Q8)圧縮が少なく品質が高いですが、ファイルが大きくなります;Q4がスマートフォンの制約に対するスイートスポットです。

  • Q4_K_M(推奨デフォルト): K-quantsと「M」混合精度を持つ4ビット量子化。元の品質の~95%。2026年のモバイル標準。6つすべてのモデルがHugging FaceでこのフォーマットでAvailable。
  • Q5_K_M(RAM 12GB以上の端末向け): 5ビット量子化。元の品質の~98%。ファイルが~25%大きい。iPhone 17 Pro Max(12 GB)またはGalaxy S25 Ultra(12 GB)でPhi-4 MiniとLlama 3.2 3Bに価値がある;8GB端末ではRAMコストに見合わない。
  • Q6_K(めったに必要ない): 6ビット量子化。元の品質の~99%。ファイルが~50%大きい。品質がどうしても重要なモデルを実行するメモリが豊富な端末のみ(例:長文の下書きで各品質ポイントが重要な場合)。
  • Q8_0(モバイルでは避ける): 8ビット量子化。元の品質の~99.5%。Q4_K_Mの約2倍のサイズ。スマートフォンではRAMコストに見合わない;デスクトップ/ラップトップ用に。
  • Q3_K_M / Q2_K(非常に制約された端末のみ): 3ビットおよび2ビット量子化。品質が~85〜90%に低下。Q4_K_MのGemma 3 1Bでも収まらない場合のみ使用(2026年ではまれ)。
モバイル向けGGUF量子化レベル:Q4_K_Mは6GB以上のスマートフォンのデフォルト(~95%品質、×0.5ファイルサイズ);Q5_K_MとQ6_Kは12GB以上のみ;Q8_0はデスクトップのみ;Q3_K_Mは4GBの最終手段。
モバイル向けGGUF量子化レベル:Q4_K_Mは6GB以上のスマートフォンのデフォルト(~95%品質、×0.5ファイルサイズ);Q5_K_MとQ6_Kは12GB以上のみ;Q8_0はデスクトップのみ;Q3_K_Mは4GBの最終手段。

⚠️Warning: 「どちらが良いかテストする」ために同じモデルを複数の量子化でダウンロードしないでください。Q4_K_MとQ5_K_Mの品質差は実在しますが小さく、256GBのスマートフォンに5GB以上の冗長な変種を保存することになります。Q4_K_Mを選び、1週間実際に使用してから、品質が不十分だという具体的な証拠がある場合のみQ5_K_Mにアップグレードしてください。

クラス別判定:ハイエンド vs ミッドレンジ vs エントリー

端末クラスがモデルの上限を決定します — チップの世代とRAMはブランドより重要です。 ハイエンドスマートフォン(RAM 8GB以上、A18 Pro / A19 Pro / Snapdragon 8 Elite)は3.8B〜4Bモデルを快適に動作させます;ミッドレンジ(RAM 6〜8GB、旧ハイエンドチップ)は1.7B〜3B;バジェットまたは旧端末(RAM 4〜6GB)は1B〜1.5Bです。

📍 一文で説明

ハイエンド端末(8GB以上)→ Phi-4 Mini 3.8B;ミッドレンジ(6〜8GB)→ SmolLM 2 1.7BまたはLlama 3.2 3B;バジェットまたは旧端末(4〜6GB)→ Gemma 3 1BまたはQwen 3 1.5B。

💬 簡潔に説明

願望ではなく端末にモデルを合わせてください。6GB端末の3.8Bモデルは他のアプリがメモリを必要とするときに3秒のポーズとクラッシュを引き起こします。ハイエンド端末の1Bモデルは能力を無駄にします。OSと少なくとも1つの他のアプリを開いた状態で快適に動作する最大のモデルを選んでください。

端末クラス代表機種推奨モデル理由
ハイエンド(RAM 8〜12GB)iPhone 17 Pro / Pro Max、iPhone 16 Pro、Galaxy S25 Ultra、OnePlus 13Phi-4 Mini(3.8B Q4_K_M)使用可能な速度でチップが維持できる最も高精度なモデル
旧ハイエンド(RAM 8GB)iPhone 15 Pro、Galaxy S24 Ultra、Pixel 9 ProLlama 3.2 3BまたはPhi-4 Minitool calling向けにLlama 3.2 3B;品質向けにPhi-4 Mini
ミッドレンジ(RAM 6〜8GB)iPhone 14 Pro、Pixel 9、Snapdragon 8 Gen 2端末SmolLM 2 1.7BまたはQwen 3 1.5B素早い速度;OSの余裕を持って収まる
バジェット / 旧端末(RAM 4〜6GB)iPhone 14、Snapdragon 7シリーズ中位、旧AndroidGemma 3 1BまたはQwen 3 1.5B一貫した出力を生成する最小の実用モデル
非常に古い(RAM 4GB)iPhone SE 第3世代、旧4GB AndroidGemma 3 1B収まる唯一のモデル;推論は限られるが tokens/sec は速い
非対応(4GB未満)iPhone SE 第2世代、旧Android代わりにホームマシンへのリモート接続オンデバイスLLMは実用的でない;ホームOllamaサーバーのUIとしてタブレット/スマートフォンを使用
スマートフォンランク別モバイルLLM推奨:ハイエンド(RAM 8–12GB)→ Phi-4 Mini 3.8B;旧ハイエンド(8GB)→ Llama 3.2 3B;ミッドレンジ(6–8GB)→ SmolLM 2 1.7B;バジェット(4–6GB)→ Qwen 3 1.5B;旧機種(4GB)→ Gemma 3 1B。
スマートフォンランク別モバイルLLM推奨:ハイエンド(RAM 8–12GB)→ Phi-4 Mini 3.8B;旧ハイエンド(8GB)→ Llama 3.2 3B;ミッドレンジ(6–8GB)→ SmolLM 2 1.7B;バジェット(4–6GB)→ Qwen 3 1.5B;旧機種(4GB)→ Gemma 3 1B。

💡Tip: アプリ側については、iPhoneとAndroidの姉妹ガイドを参照してください — 各プラットフォームでこれらのモデルを実際に公開しているアプリを紹介しています。アプリの可用性がモデルの可用性に遅れる場合があります。モデルがアプリのキュレーションリストにない場合、Hugging FaceからGGUFとしてサイドロードできることが多いです。

よくある失敗

  • スマートフォンのRAMが許容する以上に大きいモデルを選ぶ。 6GB端末のPhi-4 Miniは3〜5 tok/secで動作し、iOS/Androidが他のアプリのためにメモリを回収するとクラッシュします。クラス別表に従ってモデルを端末クラスに合わせてください。
  • 同じモデルの複数の量子化バリアントをダウンロードする。 Q4_K_Mを選んで止めてください。256GBのスマートフォンに5GB以上の冗長なQ5/Q6バリアントは無駄なストレージであり、品質の差は日常のチャットでは知覚できません。
  • 多段階推論にSmolLM 2 1.7Bを使用する。 最速のモデルですが、最も賢いわけではありません。chain-of-thoughtタスク(数学、計画、複雑な推論)では、遅いtokens/secが気になっても、Phi-4 Miniを使用してください。品質のない速度はただ速い間違いの答えです。
  • 多言語プロンプトプレフィックスなしでPhi-4 Miniに英語以外の出力を求める。 Phi-4 Miniは一般的なヨーロッパ言語を適切に処理しますが、CJKやアラビア語では不均一な出力を生成します。多言語使用にはPhi-4 Miniと並行してQwen 3 1.5Bをインストールし、言語に応じて切り替えてください。
  • これらのモデルにクラウドAI品質を期待する。 6つすべてが1B〜4Bであり、チャットタスクでGPT-5.5の能力の約60〜80%、複雑な推論ではそれよりはるかに少ないです。得意なこと(プライベートチャット、要約、下書き、翻訳)に使用し、70B以上のモデルが必要なことにはクラウドまたはリモート接続を使用してください。
  • Phi-4 Mini(3.8B)を古いPhi-3 Mini(3.8B)と混同する。 パラメータ数は共有していますが、Phi-4 Miniの学習データとchat templateは異なります。GGUFファイル名のモデル識別子を常に確認してください — phi-3-mini-4k-instructではなくphi-4-mini-instruct

情報源

よくある質問

iPhoneで最速のモバイルモデルはどれですか?

Gemma 3 1BはiPhone 17 Proで~35〜45 tokens/secと絶対的に最速ですが、このラインナップで最小のモデルです。1.5B〜1.7Bモデル(速度と品質のバランスが取れている)の中では、SmolLM 2 1.7Bが~26〜32 tokens/secで最速です。ハイエンド品質の出力を生成するモデルの中では、Phi-4 Miniが~13〜18 tokens/secで最速の「賢い」オプションです。用途に応じて選んでください:応答速度が深さより重要ならSmolLM 2;深さが重要ならPhi-4 Mini。

Phi-4 MiniはiPhone上で7Bモデルを本当に上回りますか?

半分のサイズにもかかわらず、MMULや推論タスクなどの標準ベンチマークで古い7Bモデル(Llama 3.3 7B、Mistral Small v0.1)を上回ります。現在の7Bモデル(Llama 3.3 7B、Mistral Small v0.3)の生の能力は上回りません — それらはまだ広い知識と複雑な推論でリードしています。Phi-4 Miniが重量以上に戦える理由はMicrosoftの学習データミックス(合成推論チェーンと高品質テキストに豊富)です。スマートフォンでは7Bモデルは通常実用的には遅すぎるため、Phi-4 Miniがデフォルトで勝ちます。

SmolLM 2は4年前のスマートフォンで動作しますか?

はい、ほとんどの4年前のハイエンド端末で動作します。SmolLM 2 1.7BのQ4_K_Mにはモデル用に~1.1 GB RAMと推論オーバーヘッドに~500 MBが必要です — iPhone 13(6 GB)、iPhone 12 Pro Max(6 GB)、同等のAndroid(6 GB以上)に収まります。2021年の4GB端末(iPhone 12、Androidベース)では技術的にはロードしますが、他のメモリ負荷の下で不安定です;代わりにGemma 3 1Bを使用してください。

モバイルで翻訳に最適なモデルはどれですか?

中国語、日本語、韓国語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語を含むペアにはQwen 3 1.5B。強力な多言語表現で学習されており、英語中心のモデル(Phi-4 Mini、Llama 3.2 3B)が不自然または壊れた結果を生成するところでネイティブ品質の出力を生成します。ヨーロッパ言語ペアのみにはGemma 3 4Bが実用的な第2の選択肢です。英語と特定の言語間の一回限りの翻訳には、インストールされた翻訳アプリ(Google翻訳、DeepL)の方がローカルLLMより優れていることが多いです — ローカルモデルは翻訳を同じ会話内のチャットや要約と組み合わせる必要がある場合に輝きます。

これらのモデルをうまく使うにはハイエンドスマートフォンが必要ですか?

いいえ、最大のモデル(Phi-4 Mini 3.8B、Gemma 3 4B、Llama 3.2 3B)のみです。RAM 6〜8GBのミッドレンジ端末はSmolLM 2 1.7BとQwen 3 1.5Bをフル速度(~20〜28 tokens/sec)で動作させます。RAM 4〜6GBのバジェット端末はGemma 3 1Bを~15〜25 tokens/secで動作させます。正直な答え:まだハイエンド端末を持っていない場合、ローカルAIのために購入しないでください — 既存端末の小型モデルはほとんどの用途で十分です。

バッテリー消費が最も少ないモデルはどれですか?

Gemma 3 1Bが圧倒的に少なく — 最小のモデルはトークンあたりの計算が最少であり、CPU/GPU負荷が低く消費電力が低いことを意味します。SmolLM 2 1.7BとQwen 3 1.5Bが続きます。3B〜4Bモデル(Phi-4 Mini、Llama 3.2 3B、Gemma 3 4B)は回答あたり2〜3倍の電力を消費します。バッテリーが最も重要な長距離フライトや長時間オフグリッド使用では、品質コストにもかかわらずGemma 3 1Bが正しい選択です。

モバイルモデルはマルチターンの会話に対応できますか?

短い会話(5〜10ターン)にはYes、その後は品質が低下します。6つすべてのモデルに4,000〜8,000トークンのコンテキストウィンドウがあります;長い会話はウィンドウを超え、モデルは以前のターンを見失います。セッションを超えたメモリが必要な継続的なチャットのための実用的なパターンは:定期的に会話を要約し、要約を保存し、コンテキストとして返すことです。ほとんどのモバイルアプリ(PocketPal AI、Private LLM)はこれを自動的に行います;LLM Farmは手動設定が必要です。

これらのモデルは音声入力で使えますか?

はい、Whisperの音声テキスト変換レイヤーと組み合わせると使えます。2026年のモバイル向け標準オフライン音声スタックは:Whisper(smallまたはtinyモデル)による音声テキスト変換 → Phi-4 MiniまたはSmolLM 2による回答生成 → Apple TTSまたはAndroid TTSによる音声合成です。SmolLM 2 1.7Bは高いtokens/secにより音声ターンテイキングの応答性を維持するため、音声の最良のLLM選択です — 完全なパイプラインについてはスマートフォンでローカル音声アシスタントを構築するを参照してください。

旅行でのオフライン使用に最適なモデルはどれですか?

言語を切り替えて翻訳が必要な旅行には:Qwen 3 1.5B。主に英語のリファレンスが必要な旅行(質問、旅行書類の要約、メールの下書き)には:ハイエンド端末のPhi-4 Mini、ミッドレンジ端末のSmolLM 2 1.7B。旅行はローカルAIの最強のユースケース全体です — ローミングデータ不要、クラウドAPIコスト不要、低接続エリアでのクラウド依存のリスクなし。旅行前にモデルをダウンロードしてください;適度な使用で1回の充電でフライト全体を通じて動作します。

モバイルモデルは2027年でもまだ有用ですか?

はい、ただし具体的なモデル名は変わります。モバイルの小型LLMフロンティアは約6〜9ヶ月ごとに動きます — 2026年Q4には新しい~3Bモデルが登場してPhi-4 Miniを上回る可能性が高く、2027年半ばには1B〜2Bクラスが今日の3B〜4Bモデルがすることをするようになるでしょう。このカテゴリーは廃れません;具体的な選択が変わります。次世代のラインナップについては(次回更新予定:2026-11-08)このArticleを再確認してください。

← ローカルLLM活用 に戻る