PromptQuorumPromptQuorum
ホーム/Power Local LLM/ロースペックPC向けベストローカルAIアプリ 2026年版(8GB RAM・GPUなし)
Easiest Desktop Apps

ロースペックPC向けベストローカルAIアプリ 2026年版(8GB RAM・GPUなし)

·11分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

8GB RAM・専用GPUなしのノートPCで2026年に実用的に動くアプリは4つあります:Ollama、GPT4All、Jan、llama.cpp。これらをPhi-4 Mini Q4(バランス最適)、SmolLM 2 1.7B Q4(最速)、またはLlama 3.2 1B Q5(GUI体験が最も滑らか)と組み合わせ、ワーキングセットを6GB以下に抑えます。

重要なポイント

  • Ollama — 2026年最軽量のCPUランタイム、バックグラウンドサーバーとして動作、最良のアプリ+モデル組み合わせ:Ollama + Phi-4 Mini Q4で8GB CPU専用環境にて4〜14 tok/秒。
  • GPT4All — RAM最低4GBでターミナル不要のインストールパスを持つ唯一のアプリ、Windows 10ノートPCの非技術ユーザーに最適。
  • Jan — フルGUI、AGPLオープンソース、Apple Siliconネイティブ、8GB MacBook AirやM1 Mac mini向けの最軽量GUIアプリ。
  • llama.cpp — 同一ハードウェアで最速tok/秒(Ollama比5〜15%高速、GPT4All比15〜25%高速)、ただしコンパイル工程が必要。
  • 8GB / GPUなしでのベストモデル: バランス重視ならPhi-4 Mini 3.8B Q4_K_M、最大速度重視ならSmolLM 2 1.7B Q4、最も滑らかなチャット体験ならLlama 3.2 1B Q5。
  • 同一CPUでの速度ランキング: llama.cpp > Ollama > Jan > GPT4All。差は15〜25%であり、2〜3倍ではありません。
  • 2026年5月時点で、8GB RAMで7B+モデルを実行しないでください — コンテキストウィンドウ圧とOSそのものがスワップを誘発し、スループットを5〜10倍低下させます。

Ollama、GPT4All、Jan、llama.cppは8GB RAM・GPUなしでどう比較できるか?

以下の範囲はllama.cpp上流ベンチマークスレッド、Hugging Faceモデルカード値、r/LocalLLaMAテストレポート(8GB統合グラフィックスノートPC:Intel UHD 620 / Iris Xe / Ryzen 5 5500U Vega / Apple M1 8GB)から集計したものです。tok/秒はモデルロード後の200トークン生成で測定、デフォルトコンテキストウィンドウ2048(特記なき場合)。

📍 一文で説明

8GB RAM・専用GPUなしのノートPCでは、Phi-4 Mini Q4_K_Mと組み合わせたOllamaが最良のオールラウンドローカルAIセットアップです — ノーコード選択肢の中で最速の生成速度、最低の熱負荷、最広のモデルライブラリを備えています。

💬 簡潔に説明

8GB RAM・GPUなしのロースペックPCでは:Ollamaをインストールし、ollama pull phi4-miniを実行、次にollama run phi4-miniを実行します。CPUに応じて4〜14 tok/秒で動作 — 遅いですが、プロンプトを送って回答を待つ用途では実用的です。ターミナル不要の代替手段としては、GPT4Allが通常のアプリのようにインストールでき、8GBに収まるモデルにキュレートされたリストを提供します。

アプリ最低RAMベストモデル(8GB制約)tok/秒(CPU専用)発熱評価
Ollama6 GBPhi-4 Mini Q4_K_M4〜14 tok/秒バランス最良 — 最初に選ぶべき
GPT4All4 GBLlama 3.2 1B Q4_03〜10 tok/秒最簡インストール — 非技術ユーザー向け
Jan6 GBGemma 3 4B Q4_K_M3〜11 tok/秒Apple Silicon 8GBで最良GUI
llama.cpp4 GBSmolLM 2 1.7B Q4_K_M5〜18 tok/秒コンパイルできるなら最速

📌Note: Apple M1 8GBは、この表内のすべての4アプリで8GB x86ノートPCを一貫して上回ります。Apple Silicon Macが利用可能であれば、それは低RAMハードウェアでローカルAIを動かす最良の選択肢です — ユニファイドメモリアーキテクチャによって、Windows / Linuxノートが抱えるOSオーバーヘッドのペナルティなしに、モデルが8GBフルにアクセスできます。

どれを選ぶべきか?

最適なアプリは、ターミナルが使えるか、Windows / Macどちらか、CPUの世代の3点で決まります。 以下の判断ショートカットを使ってください:

状況選択
Windows 10ノートPC、8GB RAM、ターミナル経験なしGPT4All
最新Ryzen / Intel 12世代、8GB、ターミナルに慣れているOllama
MacBook Air M1 / Mac mini M1 8GBJanまたは Ollama
Linuxノート、最大tok/秒を求めるllama.cpp
4GB RAMマシン(仕様未満)GPT4All + Llama 3.2 1B Q4_0
旧Intel Core i5-8250U / i7-7700Uクラス CPUOllama + SmolLM 2 1.7B
Linux dev mode対応Chromebookllama.cpp + SmolLM 2
ドライバインストール不可の業務用ノートPCGPT4All(ドライバ不要 / 管理者権限不要)

💡Tip: 迷ったらOllamaから始めてください。すべてのOSで動作し、`ollama pull [モデル名]`でモデルをダウンロードでき、後で他のツールと統合したい場合のためにOpenAI互換APIを公開しています。ターミナルが使えない場合は、GPT4Allが正しい代替肢です — 同じモデル、コマンドライン不要。

実際のロースペックハードウェアで各アプリはどれくらい速いか?

8GB RAM・専用GPUなしの代表的マシンでのtok/秒、2026年5月。 数値はllama.cpp上流ベンチマークスレッド、Hugging Faceモデルカードデータ、r/LocalLLaMAハードウェアタグ付きテストからのコミュニティ報告範囲です。各セルはデフォルト設定での報告実行の典型範囲(外れ値除外)。

ハードウェアモデルOllamaGPT4AllJanllama.cpp
Intel Core i5-8250U + UHD 620(2018年ウルトラポータブル)Phi-4 Mini Q4_K_M4〜6 tok/秒3〜5 tok/秒3〜5 tok/秒5〜7 tok/秒
AMD Ryzen 5 5500U + Vega 7(2021年エントリー)Phi-4 Mini Q4_K_M8〜11 tok/秒6〜9 tok/秒7〜9 tok/秒9〜13 tok/秒
Intel Core Ultra 5 125H + Arc iGPU(2024年ミドルレンジ)Gemma 3 4B Q4_K_M10〜14 tok/秒8〜11 tok/秒9〜12 tok/秒12〜18 tok/秒
Apple M1 8GB(MacBook Air 2020)Llama 3.2 1B Q5_K_M28〜40 tok/秒20〜30 tok/秒26〜38 tok/秒32〜48 tok/秒
Apple M1 8GBPhi-4 Mini Q4_K_M12〜18 tok/秒9〜14 tok/秒11〜17 tok/秒14〜20 tok/秒
Intel Core i5-8250USmolLM 2 1.7B Q4_K_M10〜14 tok/秒8〜12 tok/秒9〜13 tok/秒12〜16 tok/秒

📌Note: Apple Siliconがこの表で支配的なのは、M1のユニファイドメモリアーキテクチャにより、GPUとCPUが同じRAMを高帯域幅で共有できるためです。専用GPUなしのx86ノートでは、統合グラフィックスはオフロードオーバーヘッドのペナルティに見合わないことがほとんどです — 下のiGPUセクションを参照してください。

なぜ8GB RAMは窮屈に感じるのか、ノートPCはいつスロットルするのか?

8GB RAMでは、モデルロード前にOSが既に2.5〜3.5GBを消費しており、モデルとそのKVキャッシュに残るのは4.5〜5.5GBです。 この上限により、Phi-4 Mini(3.8B Q4 ≈ 2.4 GB)が実用的なスイートスポットとなり、持続使用ではあらゆる量子化の7Bモデルが除外されます。

  • ワーキングセット vs システムRAM: ディスク上のモデルファイルはロード後のワーキングセットより小さくなります。Phi-4 Mini Q4_K_Mはディスク上で ≈ 2.4 GBですが、2048トークンコンテキストのKVキャッシュを追加すると、RAM上では ≈ 3.0〜3.5 GBになります。コンテキストを1024に減らすと ≈ 400 MB節約できます。
  • スワップデス: ワーキングセットが物理RAMを超えると、macOSとLinuxはSSDにページングを開始します。tok/秒は5〜10倍低下し、ノートPCは無反応になります。vm_stat(Mac)またはfree -h(Linux)を監視してください — 推論中にスワップが上昇している場合は、即座により小さいモデルに切り替えてください。
  • ウルトラポータブルでのサーマルスロットリング: ファンレスや単一ファンノート(MacBook Air M1、XPS 13、Surface Laptop Go)は、3〜5分の連続推論で熱限界に到達し、CPUクロックを20〜35%低下させます。tok/秒もそれに応じて低下します。
  • コンテキスト長はメモリ税: デフォルト4096コンテキストは事前に4096トークンのKVキャッシュを確保します。1Bモデルでは200〜300 MB、4Bモデルでは600〜900 MBです。長い入力が本当に必要でない限り、1024に切り詰めてください。
  • バックグラウンドアプリはCPUモデルより重要: 20タブのChromeウィンドウは1〜2 GB、Slackは400〜600 MBです。8GB RAMでは、4Bモデルをロードする前にこれらを閉じることが、利用可能な最大のtok/秒の単一ゲインになります。

⚠️Warning: 8GB RAMでは、Q2であっても7Bモデルを一切ロードしないでください。Q2 7Bはディスク上で ≈ 2.5 GBですが、ワーキングセット+2048コンテキストでは ≈ 5.5 GBに達し、ほとんどのWindows / Linuxシステムでスワップに移行します。結果は5〜10倍の速度低下とフリーズしたUIです。

各アプリでどのモデル・量子化をロードすべきか?

8GB RAM・専用GPUなしでは、Q4_K_M以下で4Bパラメータ未満を維持してください。 Q4_K_Mは2026年の標準量子化です — FP16比でperplexity ≈ 1%減、RAM半分、Hugging Face上のほとんどのGGUFビルドのデフォルト。アプリ別リスト:

  • Ollama: ollama pull phi3:mini(Phi-4 Mini 3.8B Q4_K_M、≈ 2.4 GB)がデフォルト推奨。最大速度ならollama pull smollm2:1.7b(≈ 1.0 GB)、洗練されたチャットならollama pull llama3.2:1b-instruct-q5_K_M(≈ 0.85 GB)。
  • GPT4All: アプリ内モデルブラウザを使用 → 「Llama 3.2 1B Instruct Q4_0」(≈ 0.7 GB)が最軽量インストール、RAMが許せば「Phi-4 Mini Q4_K_M」。GPT4Allのデフォルトは保守的に調整されているため、表示モデルリストはllama.cppより短いですが、すべての項目が動作します。
  • Jan: キュレーションされたカタログを使用 → Apple Siliconでは「Gemma 3 4B Instruct Q4_K_M」(≈ 2.6 GB)、x86では「Phi-4 Mini Q4_K_M」。JanはあらゆるGGUFのHugging Face URL貼り付けも受け付けます。
  • llama.cpp: Hugging FaceからGGUFを直接ダウンロード — bartowski/Phi-4-mini-instruct-GGUFbartowski/SmolLM2-1.7B-Instruct-GGUF、またはbartowski/Llama-3.2-1B-Instruct-GGUF./llama-cli -m model.gguf -p "..." -c 1024 -t 4で実行。
  • 8GB / GPUなしで避けるべき: あらゆる量子化の7Bモデル、Q5_K_M超のモデル(品質ゲイン無視できるほど、RAMコスト2倍)、ベースモデル — 使用可能な出力のために常に-instructまたは-chatバリアントを選択してください。

💡Tip: Q4_K_MはQ4_0と同じではありません。Q4_K_Mはより賢い混合精度スキームを使用し、同サイズで品質が ≈ 5〜10%良好です。両方が利用可能な場合は常にQ4_K_Mを選択してください。

ロースペックPCで30〜60%多くのtok/秒を得る設定は?

デフォルト設定は16GB RAMと専用GPU向けに調整されています。8GB CPU専用では、3つのつまみが最も重要です: コンテキスト長、バッチサイズ、スレッド数。一緒に調整すれば、同一ハードウェアで30〜60%多くのtok/秒の価値があります。

  • コンテキスト長 — 最大の単一ゲイン。 4096(デフォルト)から1024に削減します。Ollamaでは:OLLAMA_NUM_CTX=1024 ollama run phi3:mini。llama.cppでは:-c 1024。RAM節約:モデルにより400〜900 MB。tok/秒ゲイン:10〜20%。
  • スレッド数 — 論理コアではなく物理コアに合わせる。 旧CPU(i5-8250U、Ryzen 5 5500U)は物理4 / 論理8コアです。スレッド = 4に設定し、8にしないでください。llama.cppでは:-t 4。Ollamaでは:OLLAMA_NUM_THREAD=4。ハイパースレッディングは推論を阻害します。両スレッドが同じFP/SIMDユニットを争うためです。
  • プロンプト処理のバッチサイズ — 弱いCPUでは8に。 llama.cpp:--n-batch 8。デフォルト512は4コアCPUのL2キャッシュをスラッシングします。4Bモデルでのtok/秒ゲイン:15〜25%。
  • KVキャッシュ量子化 — q8_0に設定してKV RAMを半減。 llama.cpp:--cache-type-k q8_0 --cache-type-v q8_0。RAM節約:1024コンテキストで150〜400 MB、より高いコンテキストでさらに多く。品質への影響:知覚不能。
  • スワップしやすいシステムでmlockを無効化。 llama.cpp --no-mlock。8GBシステムでは、モデルをRAMにロックすると、OSがスマートなキャッシュ判断を行うのを妨げます。直感に反しますが、8GBのWindows 10/11では一貫して高速です。
  • AVX2ビルドを明示的に使用。 ほとんどのプリビルドllama.cpp / Ollamaバイナリは、AVX2 / AVX-512を自動検出して正しいカーネルに切り替えます。自分でコンパイルした場合は-DGGML_AVX2=ONを渡してください。AVX-512検出:cat /proc/cpuinfo | grep avx512。AVX-512は対応CPU(Ice Lake / Tiger Lake / Rocket Lake / Zen 4+)でさらに10〜15%を提供します。

💡Tip: 5つの最適化をすべて積み重ねると、同じモデル・同じハードウェアで通常35〜55%多くのtok/秒が得られます。最大の単一ゲインは4096 → 1024のコンテキスト削減で、コールドプロンプトでのfirst-tokenタイムも大幅に短縮します。

統合グラフィックスはローカルAIに使う価値があるか?

ほとんどの8GB RAMノートPCでは答えはノーです — 推論はCPUに留めてください。 統合グラフィックスはシステムRAMを共有するため、レイヤーをオフロードしても追加メモリは得られず、オフロードオーバーヘッドのペナルティが追加されるだけです。知っておくべき3つの例外:

  • Apple Silicon(M1/M2/M3/M4)— はい、常に。 ユニファイドメモリアーキテクチャにより、「GPU」はCPUと同じRAMを同じ帯域幅で見ます。Ollama、Jan、llama.cppはすべてMacでフラグなしに自動でMetalアクセラレーションを使用します。これがM1 8GBがほとんどの8GB Windowsノートを2〜3倍上回る理由です。
  • Intel Arc iGPU(Meteor Lake / Lunar Lake / Arrow Lake)— 場合によっては。 Intel Core Ultraチップ(Ultra 5 125H、Ultra 7 155H、Ultra 7 258V)はOpenVINOとSYCLアクセラレーションをサポートするArc iGPUを搭載しています。-DGGML_SYCL=ON付きllama.cppは、これらのチップでCPU専用比30〜60%高速。セットアップは簡単ではありません。
  • AMD Ryzen 7000/8000+Radeon 700M/800M iGPU — 実験的。 統合RadeonでのROCmサポートは2026年時点で部分的かつ気難しいです。ドライバスタックのデバッグが好きでない限り、CPU専用が安全な選択。
  • 旧Intel UHD / Iris Plus / AMD Vega — スキップ。 これらのiGPUは現代AVX2 CPUカーネルを上回るためのFP16スループットとメモリ帯域幅が不足しています。CPUに留まってください。

💡Tip: iGPUが使う価値があるかをチェックする最簡単なテスト:同じモデルをCPU専用 vs iGPUアクセラレートで10回生成し、tok/秒を比較します。Apple SiliconではiGPUが常に高速。x86統合グラフィックスでは答えはデバイス固有 — 仮定せずテストしてください。

よくある間違い

8GB / GPUなしシステムでパフォーマンスを殺す5つの間違い、それぞれの対処法付き:

  • 間違い1:「Q4ならディスクに収まるから」と7Bモデルをロード。 ディスクファイルはロード後のワーキングセットより小さくなります。7B Q4はディスク上 ≈ 4.4 GB、2048コンテキストではRAM上 ≈ 5.5〜6.5 GBで、8GB上限を超えてスワップを誘発します。対処: 4B以下に留めてください。Phi-4 Mini Q4_K_Mが一貫して収まる最高品質モデルです。
  • 間違い2:コンテキストウィンドウを4096のままにする。 デフォルト4096はモデルに加えて400〜900 MBのKVキャッシュを予約します。対処: 長い入力が本当に必要でない限り、コンテキストを1024に設定してください。OLLAMA_NUM_CTX=1024(Ollama)、-c 1024(llama.cpp)。
  • 間違い3:Chrome、Slack、Spotifyを開いたまま実行。 それぞれ0.5〜2 GBを消費します。8GB RAMでは、OS後に ≈ 5 GBが残ります。バックグラウンドアプリはモデルロード前にスワップに押し込みます。対処: 推論前にAIアプリとメモウィンドウ以外をすべて閉じてください。
  • 間違い4:「品質のため」Q8_0を選ぶ。 1B〜4Bモデルでは、Q4_K_MとQ8_0の品質差はチャット用途では人間の知覚閾値を下回りますが、Q8はRAMコストを2倍にしtok/秒を半減します。対処: タスクでQ8が役立つことを示す測定可能なベンチマークがない限り、Q4_K_Mに留めてください。
  • 間違い5:Raspberry Pi 4で十分と仮定する。 4 GB RAMと1.5 GHz Cortex-A72は技術的にはTinyLlama 1Bを1〜3 tok/秒で動作させられますが、チャット用途には使い物になりません。対処: 8 GB RAM搭載のRaspberry Pi 5が現実的なARM SBCの下限であり、それでも8GB x86ノートPCの方が高速です。

💡Tip: 5つの間違いはすべて同じ根本原因を共有します:デスクトップ設定が制約付きノートPCに適用されると仮定すること。すべてのデフォルト(コンテキスト4096、Q8品質、全スレッド)は16〜32 GB RAM・専用GPUのマシン向けに調整されています。8GB CPU専用では、デフォルトを能動的に上書きする必要があります。このガイドの設定セクションを「ロースペックPCプリセット」と考え、最初の実行前に5つの最適化をすべて適用してください。

FAQ

4 GB RAMでローカルAIを実行できますか?

はい、ただしLlama 3.2 1B Q4_0(ディスク上 ≈ 0.7 GB)やSmolLM 2 360M(ディスク上 ≈ 0.25 GB)のような2B未満のモデルに限ります。4 GBを公式最低要件としているのは4アプリ中GPT4Allのみです。最新CPUで3〜8 tok/秒、OSにほぼ余裕がないため、UI動作も明らかに鈍くなります。

古いIntel CPUはローカルAIで使えますか?

AVX2搭載(Haswell、2013年以降)のものは2026年でも動作します。実用的な下限はIntel Core i5-8250Uや旧Ryzen 5 2500Uで、Phi-4 Mini Q4が4〜6 tok/秒で動作します。AVX2非対応CPU(2013年以前のIntel、初代AMD Bulldozer)はロードはできますが1〜2 tok/秒で動作し、チャット用途には使えません。

ローカルAIでノートPCが壊れますか?

いいえ。ローカル推論は通常のユーザー空間プロセスです — ハードウェアを破損させることはできません。最悪のケースはノートPCが熱くなり(ウルトラポータブルで90〜100°C)スロットルすることで、ファームウェアが自動的に保護します。これを避けるには、長時間セッションで冷却パッドを使用、室温を25°C以下に保ち、シャーシが触って不快なほど熱い場合は推論を停止してください。

統合グラフィックスで十分ですか?

Apple Silicon(M1+)では十分以上です — ユニファイドメモリによりiGPUが事実上低価格専用GPUとして機能します。Intel Core Ultra(Meteor Lake / Arrow Lake)ではSYCLをセットアップすれば30〜60%の追加速度が得られます。旧Intel UHD / Iris Plus / AMD Vegaでは、統合グラフィックスはCPUより遅く、使う価値はありません。

CPU専用で最速のモデルは?

Llama 3.2 1B Q4_0とSmolLM 2 1.7B Q4_K_Mが最速の使用可能モデルです。Llama 3.2 1BはApple M1で25〜50 tok/秒、最新Ryzenまたは Intel CPUで12〜25 tok/秒に達します。SmolLM 2は同様の速度でやや洗練された執筆を提供します。4Bパラメータを超えるものはCPU専用システムで高速に感じる可能性が低いです。

RAM追加はCPUアップグレードより効果的ですか?

8GBシステムでは、16GBへの移行が最大の実用アップグレードです。Mistral 7B Q4やLlama 3.1 8B Q4のような7B〜8Bモデルがアンロックされるためです。CPUアップグレードは20〜50%多くのtok/秒、RAMアップグレードは2〜4倍の品質(1B〜4Bから7B〜8Bへの飛躍)を提供します。1つしかできない場合は、RAMを追加してください。

Chromebookでローカルai を実行できますか?

Linux dev mode(Crostini)が利用可能な場合のみ。このガイドの4アプリはすべてLinuxコンテナで動作します — ARM Chromebookではソースからコンパイルしたllama.cppが最も信頼性が高く、x86 Chromebook(Intel)はOllamaやGPT4Allで動作します。パフォーマンスは基となるCPUに対応 — Intel Core i3 / i5 Chromebookは同等のWindowsノートPCのように動作します。

2026年でもWindows 10はローカルAIに使えますか?

はい。4アプリすべてがWindows 10 22H2をサポートします。Ollama、GPT4All、Janは署名付きWindowsインストーラーを提供し、llama.cppはGitHubリリースにプリビルドWindowsバイナリを提供します。2025年10月のWindows 10メインストリームサポート終了はインストールを妨げませんが、セキュリティアップデートが終わったため、長期使用にはLinuxデュアルブートやWindows 11アップグレードを検討してください。

ローカルAIをまともに動かせる最安ノートPCは?

中古2021〜2022年のThinkPad T14またはDell Latitude 5430(16 GB RAM、Ryzen 5 5500UまたはIntel i5-1235U)は2026年に約¥60,000〜80,000で、Phi-4 Mini Q4を8〜14 tok/秒で動作させます。さらに安価:8 GB Apple M1 MacBook Air中古は約¥80,000〜100,000で、ユニファイドメモリにより多くのx86ノートPCをtok/秒で凌駕します。

Raspberry PiをローカルAIに使えますか?

8 GB RAM搭載のRaspberry Pi 5はLlama 3.2 1B Q4を4〜7 tok/秒で動作 — 使用可能だが遅い。Pi 4 4 GBはTinyLlama 1Bで約2 tok/秒が上限。実際のチャット使用には、8 GB x86ノートPCやM1 MacBook Airの方が高速、中古で安価、セットアップが簡単です。Piは組み込み・エッジ・常時稼働ワークロードでのみ意味があります。

← Power Local LLM に戻る

8GB RAM PC向けローカルAIアプリ 2026:CPU専用テスト | PromptQuorum