8GB RAM・GPUなしのノートPCで一番動くローカルAIアプリは？

ターミナルに慣れている方はOllamaを選びます — 最も軽量なランタイムで、Phi-4 Mini Q4と組み合わせて旧Intel CPUで4〜8 tok/秒、Ryzen 5000 / Intel 12世代クラスのハードウェアで8〜14 tok/秒を実現します。ワンクリックインストーラーが欲しくコマンドラインを使いたくない方はGPT4Allを選びます — 8GB RAMで最も寛容で、モデルブラウザを内蔵しています。クリーンなGUIと完全なオープンソースを求めるならJan。最大tok/秒を求め、コンパイルを厭わないならllama.cppを直接選びます。 Ollama — 最軽量CPUランタイム、ターミナル駆動、Phi-4 Miniとの相性が最高. GPT4All — インストール最簡、最低RAM要件4GB、非技術ユーザー推奨. Jan — フルGUI、オープンソース（AGPL）、Apple Siliconネイティブ、8GB Macで最軽量. llama.cpp — ベアメタル速度、コンパイル必須、SmolLM 2 / Gemma 3 4Bとの相性が最高. 4つすべて無料、インストール後オフライン動作、標準GGUFモデルファイルをロード

8GB RAM PC向けローカルAIアプリ 2026：CPU専用テスト

重要なポイント

Ollama — 2026年最軽量のCPUランタイム、バックグラウンドサーバーとして動作、最良のアプリ＋モデル組み合わせ：Ollama + Phi-4 Mini Q4で8GB CPU専用環境にて4〜14 tok/秒。
GPT4All — RAM最低4GBでターミナル不要のインストールパスを持つ唯一のアプリ、Windows 10ノートPCの非技術ユーザーに最適。
Jan — フルGUI、AGPLオープンソース、Apple Siliconネイティブ、8GB MacBook AirやM1 Mac mini向けの最軽量GUIアプリ。
llama.cpp — 同一ハードウェアで最速tok/秒（Ollama比5〜15％高速、GPT4All比15〜25％高速）、ただしコンパイル工程が必要。
8GB / GPUなしでのベストモデル： バランス重視ならPhi-4 Mini 3.8B Q4_K_M、最大速度重視ならSmolLM 2 1.7B Q4、最も滑らかなチャット体験ならLlama 3.2 1B Q5。
同一CPUでの速度ランキング： llama.cpp > Ollama > Jan > GPT4All。差は15〜25％であり、2〜3倍ではありません。
2026年5月時点で、8GB RAMで7B+モデルを実行しないでください — コンテキストウィンドウ圧とOSそのものがスワップを誘発し、スループットを5〜10倍低下させます。

Ollama、GPT4All、Jan、llama.cppは8GB RAM・GPUなしでどう比較できるか？

以下の範囲はllama.cpp上流ベンチマークスレッド、Hugging Faceモデルカード値、r/LocalLLaMAテストレポート（8GB統合グラフィックスノートPC：Intel UHD 620 / Iris Xe / Ryzen 5 5500U Vega / Apple M1 8GB）から集計したものです。tok/秒はモデルロード後の200トークン生成で測定、デフォルトコンテキストウィンドウ2048（特記なき場合）。

📍 一文で説明

8GB RAM・専用GPUなしのノートPCでは、Phi-4 Mini Q4_K_Mと組み合わせたOllamaが最良のオールラウンドローカルAIセットアップです — ノーコード選択肢の中で最速の生成速度、最低の熱負荷、最広のモデルライブラリを備えています。

💬 簡潔に説明

8GB RAM・GPUなしのロースペックPCでは：Ollamaをインストールし、ollama pull phi4-miniを実行、次にollama run phi4-miniを実行します。CPUに応じて4〜14 tok/秒で動作 — 遅いですが、プロンプトを送って回答を待つ用途では実用的です。ターミナル不要の代替手段としては、GPT4Allが通常のアプリのようにインストールでき、8GBに収まるモデルにキュレートされたリストを提供します。

アプリ	最低RAM	ベストモデル（8GB制約）	tok/秒（CPU専用）	発熱	評価
Ollama	6 GB	Phi-4 Mini Q4_K_M	4〜14 tok/秒	低	バランス最良 — 最初に選ぶべき
GPT4All	4 GB	Llama 3.2 1B Q4_0	3〜10 tok/秒	低	最簡インストール — 非技術ユーザー向け
Jan	6 GB	Gemma 3 4B Q4_K_M	3〜11 tok/秒	中	Apple Silicon 8GBで最良GUI
llama.cpp	4 GB	SmolLM 2 1.7B Q4_K_M	5〜18 tok/秒	低	コンパイルできるなら最速

📌Note: Apple M1 8GBは、この表内のすべての4アプリで8GB x86ノートPCを一貫して上回ります。Apple Silicon Macが利用可能であれば、それは低RAMハードウェアでローカルAIを動かす最良の選択肢です — ユニファイドメモリアーキテクチャによって、Windows / Linuxノートが抱えるOSオーバーヘッドのペナルティなしに、モデルが8GBフルにアクセスできます。

どれを選ぶべきか？

最適なアプリは、ターミナルが使えるか、Windows / Macどちらか、CPUの世代の3点で決まります。 以下の判断ショートカットを使ってください：

状況	選択
Windows 10ノートPC、8GB RAM、ターミナル経験なし	GPT4All
最新Ryzen / Intel 12世代、8GB、ターミナルに慣れている	Ollama
MacBook Air M1 / Mac mini M1 8GB	Janまたは Ollama
Linuxノート、最大tok/秒を求める	llama.cpp
4GB RAMマシン（仕様未満）	GPT4All + Llama 3.2 1B Q4_0
旧Intel Core i5-8250U / i7-7700Uクラス CPU	Ollama + SmolLM 2 1.7B
Linux dev mode対応Chromebook	llama.cpp + SmolLM 2
ドライバインストール不可の業務用ノートPC	GPT4All（ドライバ不要 / 管理者権限不要）

💡Tip: 迷ったらOllamaから始めてください。すべてのOSで動作し、`ollama pull [モデル名]`でモデルをダウンロードでき、後で他のツールと統合したい場合のためにOpenAI互換APIを公開しています。ターミナルが使えない場合は、GPT4Allが正しい代替肢です — 同じモデル、コマンドライン不要。

実際のロースペックハードウェアで各アプリはどれくらい速いか？

8GB RAM・専用GPUなしの代表的マシンでのtok/秒、2026年5月。 数値はllama.cpp上流ベンチマークスレッド、Hugging Faceモデルカードデータ、r/LocalLLaMAハードウェアタグ付きテストからのコミュニティ報告範囲です。各セルはデフォルト設定での報告実行の典型範囲（外れ値除外）。

ハードウェア	モデル	Ollama	GPT4All	Jan	llama.cpp
Intel Core i5-8250U + UHD 620（2018年ウルトラポータブル）	Phi-4 Mini Q4_K_M	4〜6 tok/秒	3〜5 tok/秒	3〜5 tok/秒	5〜7 tok/秒
AMD Ryzen 5 5500U + Vega 7（2021年エントリー）	Phi-4 Mini Q4_K_M	8〜11 tok/秒	6〜9 tok/秒	7〜9 tok/秒	9〜13 tok/秒
Intel Core Ultra 5 125H + Arc iGPU（2024年ミドルレンジ）	Gemma 3 4B Q4_K_M	10〜14 tok/秒	8〜11 tok/秒	9〜12 tok/秒	12〜18 tok/秒
Apple M1 8GB（MacBook Air 2020）	Llama 3.2 1B Q5_K_M	28〜40 tok/秒	20〜30 tok/秒	26〜38 tok/秒	32〜48 tok/秒
Apple M1 8GB	Phi-4 Mini Q4_K_M	12〜18 tok/秒	9〜14 tok/秒	11〜17 tok/秒	14〜20 tok/秒
Intel Core i5-8250U	SmolLM 2 1.7B Q4_K_M	10〜14 tok/秒	8〜12 tok/秒	9〜13 tok/秒	12〜16 tok/秒

📌Note: Apple Siliconがこの表で支配的なのは、M1のユニファイドメモリアーキテクチャにより、GPUとCPUが同じRAMを高帯域幅で共有できるためです。専用GPUなしのx86ノートでは、統合グラフィックスはオフロードオーバーヘッドのペナルティに見合わないことがほとんどです — 下のiGPUセクションを参照してください。

なぜ8GB RAMは窮屈に感じるのか、ノートPCはいつスロットルするのか？

8GB RAMでは、モデルロード前にOSが既に2.5〜3.5GBを消費しており、モデルとそのKVキャッシュに残るのは4.5〜5.5GBです。 この上限により、Phi-4 Mini（3.8B Q4 ≈ 2.4 GB）が実用的なスイートスポットとなり、持続使用ではあらゆる量子化の7Bモデルが除外されます。

ワーキングセット vs システムRAM： ディスク上のモデルファイルはロード後のワーキングセットより小さくなります。Phi-4 Mini Q4_K_Mはディスク上で ≈ 2.4 GBですが、2048トークンコンテキストのKVキャッシュを追加すると、RAM上では ≈ 3.0〜3.5 GBになります。コンテキストを1024に減らすと ≈ 400 MB節約できます。
スワップデス： ワーキングセットが物理RAMを超えると、macOSとLinuxはSSDにページングを開始します。tok/秒は5〜10倍低下し、ノートPCは無反応になります。vm_stat（Mac）またはfree -h（Linux）を監視してください — 推論中にスワップが上昇している場合は、即座により小さいモデルに切り替えてください。
ウルトラポータブルでのサーマルスロットリング： ファンレスや単一ファンノート（MacBook Air M1、XPS 13、Surface Laptop Go）は、3〜5分の連続推論で熱限界に到達し、CPUクロックを20〜35％低下させます。tok/秒もそれに応じて低下します。
コンテキスト長はメモリ税： デフォルト4096コンテキストは事前に4096トークンのKVキャッシュを確保します。1Bモデルでは200〜300 MB、4Bモデルでは600〜900 MBです。長い入力が本当に必要でない限り、1024に切り詰めてください。
バックグラウンドアプリはCPUモデルより重要： 20タブのChromeウィンドウは1〜2 GB、Slackは400〜600 MBです。8GB RAMでは、4Bモデルをロードする前にこれらを閉じることが、利用可能な最大のtok/秒の単一ゲインになります。

⚠️Warning: 8GB RAMでは、Q2であっても7Bモデルを一切ロードしないでください。Q2 7Bはディスク上で ≈ 2.5 GBですが、ワーキングセット＋2048コンテキストでは ≈ 5.5 GBに達し、ほとんどのWindows / Linuxシステムでスワップに移行します。結果は5〜10倍の速度低下とフリーズしたUIです。

各アプリでどのモデル・量子化をロードすべきか？

8GB RAM・専用GPUなしでは、Q4_K_M以下で4Bパラメータ未満を維持してください。 Q4_K_Mは2026年の標準量子化です — FP16比でperplexity ≈ 1％減、RAM半分、Hugging Face上のほとんどのGGUFビルドのデフォルト。アプリ別リスト：

Ollama： ollama pull phi3:mini（Phi-4 Mini 3.8B Q4_K_M、≈ 2.4 GB）がデフォルト推奨。最大速度ならollama pull smollm2:1.7b（≈ 1.0 GB）、洗練されたチャットならollama pull llama3.2:1b-instruct-q5_K_M（≈ 0.85 GB）。
GPT4All： アプリ内モデルブラウザを使用 → 「Llama 3.2 1B Instruct Q4_0」（≈ 0.7 GB）が最軽量インストール、RAMが許せば「Phi-4 Mini Q4_K_M」。GPT4Allのデフォルトは保守的に調整されているため、表示モデルリストはllama.cppより短いですが、すべての項目が動作します。
Jan： キュレーションされたカタログを使用 → Apple Siliconでは「Gemma 3 4B Instruct Q4_K_M」（≈ 2.6 GB）、x86では「Phi-4 Mini Q4_K_M」。JanはあらゆるGGUFのHugging Face URL貼り付けも受け付けます。
llama.cpp： Hugging FaceからGGUFを直接ダウンロード — bartowski/Phi-4-mini-instruct-GGUF、bartowski/SmolLM2-1.7B-Instruct-GGUF、またはbartowski/Llama-3.2-1B-Instruct-GGUF。./llama-cli -m model.gguf -p "..." -c 1024 -t 4で実行。
8GB / GPUなしで避けるべき： あらゆる量子化の7Bモデル、Q5_K_M超のモデル（品質ゲイン無視できるほど、RAMコスト2倍）、ベースモデル — 使用可能な出力のために常に-instructまたは-chatバリアントを選択してください。

💡Tip: Q4_K_MはQ4_0と同じではありません。Q4_K_Mはより賢い混合精度スキームを使用し、同サイズで品質が ≈ 5〜10％良好です。両方が利用可能な場合は常にQ4_K_Mを選択してください。

ロースペックPCで30〜60％多くのtok/秒を得る設定は？

デフォルト設定は16GB RAMと専用GPU向けに調整されています。8GB CPU専用では、3つのつまみが最も重要です： コンテキスト長、バッチサイズ、スレッド数。一緒に調整すれば、同一ハードウェアで30〜60％多くのtok/秒の価値があります。

コンテキスト長 — 最大の単一ゲイン。 4096（デフォルト）から1024に削減します。Ollamaでは：OLLAMA_NUM_CTX=1024 ollama run phi3:mini。llama.cppでは：-c 1024。RAM節約：モデルにより400〜900 MB。tok/秒ゲイン：10〜20％。
スレッド数 — 論理コアではなく物理コアに合わせる。 旧CPU（i5-8250U、Ryzen 5 5500U）は物理4 / 論理8コアです。スレッド = 4に設定し、8にしないでください。llama.cppでは：-t 4。Ollamaでは：OLLAMA_NUM_THREAD=4。ハイパースレッディングは推論を阻害します。両スレッドが同じFP/SIMDユニットを争うためです。
プロンプト処理のバッチサイズ — 弱いCPUでは8に。 llama.cpp：--n-batch 8。デフォルト512は4コアCPUのL2キャッシュをスラッシングします。4Bモデルでのtok/秒ゲイン：15〜25％。
KVキャッシュ量子化 — q8_0に設定してKV RAMを半減。 llama.cpp：--cache-type-k q8_0 --cache-type-v q8_0。RAM節約：1024コンテキストで150〜400 MB、より高いコンテキストでさらに多く。品質への影響：知覚不能。
スワップしやすいシステムでmlockを無効化。 llama.cpp --no-mlock。8GBシステムでは、モデルをRAMにロックすると、OSがスマートなキャッシュ判断を行うのを妨げます。直感に反しますが、8GBのWindows 10/11では一貫して高速です。
AVX2ビルドを明示的に使用。 ほとんどのプリビルドllama.cpp / Ollamaバイナリは、AVX2 / AVX-512を自動検出して正しいカーネルに切り替えます。自分でコンパイルした場合は-DGGML_AVX2=ONを渡してください。AVX-512検出：cat /proc/cpuinfo | grep avx512。AVX-512は対応CPU（Ice Lake / Tiger Lake / Rocket Lake / Zen 4+）でさらに10〜15％を提供します。

💡Tip: 5つの最適化をすべて積み重ねると、同じモデル・同じハードウェアで通常35〜55％多くのtok/秒が得られます。最大の単一ゲインは4096 → 1024のコンテキスト削減で、コールドプロンプトでのfirst-tokenタイムも大幅に短縮します。

統合グラフィックスはローカルAIに使う価値があるか？

ほとんどの8GB RAMノートPCでは答えはノーです — 推論はCPUに留めてください。 統合グラフィックスはシステムRAMを共有するため、レイヤーをオフロードしても追加メモリは得られず、オフロードオーバーヘッドのペナルティが追加されるだけです。知っておくべき3つの例外：

Apple Silicon（M1/M2/M3/M4）— はい、常に。 ユニファイドメモリアーキテクチャにより、「GPU」はCPUと同じRAMを同じ帯域幅で見ます。Ollama、Jan、llama.cppはすべてMacでフラグなしに自動でMetalアクセラレーションを使用します。これがM1 8GBがほとんどの8GB Windowsノートを2〜3倍上回る理由です。
Intel Arc iGPU（Meteor Lake / Lunar Lake / Arrow Lake）— 場合によっては。 Intel Core Ultraチップ（Ultra 5 125H、Ultra 7 155H、Ultra 7 258V）はOpenVINOとSYCLアクセラレーションをサポートするArc iGPUを搭載しています。-DGGML_SYCL=ON付きllama.cppは、これらのチップでCPU専用比30〜60％高速。セットアップは簡単ではありません。
AMD Ryzen 7000/8000＋Radeon 700M/800M iGPU — 実験的。 統合RadeonでのROCmサポートは2026年時点で部分的かつ気難しいです。ドライバスタックのデバッグが好きでない限り、CPU専用が安全な選択。
旧Intel UHD / Iris Plus / AMD Vega — スキップ。 これらのiGPUは現代AVX2 CPUカーネルを上回るためのFP16スループットとメモリ帯域幅が不足しています。CPUに留まってください。

💡Tip: iGPUが使う価値があるかをチェックする最簡単なテスト：同じモデルをCPU専用 vs iGPUアクセラレートで10回生成し、tok/秒を比較します。Apple SiliconではiGPUが常に高速。x86統合グラフィックスでは答えはデバイス固有 — 仮定せずテストしてください。

よくある間違い

8GB / GPUなしシステムでパフォーマンスを殺す5つの間違い、それぞれの対処法付き：

間違い1：「Q4ならディスクに収まるから」と7Bモデルをロード。 ディスクファイルはロード後のワーキングセットより小さくなります。7B Q4はディスク上 ≈ 4.4 GB、2048コンテキストではRAM上 ≈ 5.5〜6.5 GBで、8GB上限を超えてスワップを誘発します。対処： 4B以下に留めてください。Phi-4 Mini Q4_K_Mが一貫して収まる最高品質モデルです。
間違い2：コンテキストウィンドウを4096のままにする。 デフォルト4096はモデルに加えて400〜900 MBのKVキャッシュを予約します。対処： 長い入力が本当に必要でない限り、コンテキストを1024に設定してください。OLLAMA_NUM_CTX=1024（Ollama）、-c 1024（llama.cpp）。
間違い3：Chrome、Slack、Spotifyを開いたまま実行。 それぞれ0.5〜2 GBを消費します。8GB RAMでは、OS後に ≈ 5 GBが残ります。バックグラウンドアプリはモデルロード前にスワップに押し込みます。対処： 推論前にAIアプリとメモウィンドウ以外をすべて閉じてください。
間違い4：「品質のため」Q8_0を選ぶ。 1B〜4Bモデルでは、Q4_K_MとQ8_0の品質差はチャット用途では人間の知覚閾値を下回りますが、Q8はRAMコストを2倍にしtok/秒を半減します。対処： タスクでQ8が役立つことを示す測定可能なベンチマークがない限り、Q4_K_Mに留めてください。
間違い5：Raspberry Pi 4で十分と仮定する。 4 GB RAMと1.5 GHz Cortex-A72は技術的にはTinyLlama 1Bを1〜3 tok/秒で動作させられますが、チャット用途には使い物になりません。対処： 8 GB RAM搭載のRaspberry Pi 5が現実的なARM SBCの下限であり、それでも8GB x86ノートPCの方が高速です。

💡Tip: 5つの間違いはすべて同じ根本原因を共有します：デスクトップ設定が制約付きノートPCに適用されると仮定すること。すべてのデフォルト（コンテキスト4096、Q8品質、全スレッド）は16〜32 GB RAM・専用GPUのマシン向けに調整されています。8GB CPU専用では、デフォルトを能動的に上書きする必要があります。このガイドの設定セクションを「ロースペックPCプリセット」と考え、最初の実行前に5つの最適化をすべて適用してください。

FAQ

4 GB RAMでローカルAIを実行できますか？

はい、ただしLlama 3.2 1B Q4_0（ディスク上 ≈ 0.7 GB）やSmolLM 2 360M（ディスク上 ≈ 0.25 GB）のような2B未満のモデルに限ります。4 GBを公式最低要件としているのは4アプリ中GPT4Allのみです。最新CPUで3〜8 tok/秒、OSにほぼ余裕がないため、UI動作も明らかに鈍くなります。

古いIntel CPUはローカルAIで使えますか？

AVX2搭載（Haswell、2013年以降）のものは2026年でも動作します。実用的な下限はIntel Core i5-8250Uや旧Ryzen 5 2500Uで、Phi-4 Mini Q4が4〜6 tok/秒で動作します。AVX2非対応CPU（2013年以前のIntel、初代AMD Bulldozer）はロードはできますが1〜2 tok/秒で動作し、チャット用途には使えません。

ローカルAIでノートPCが壊れますか？

いいえ。ローカル推論は通常のユーザー空間プロセスです — ハードウェアを破損させることはできません。最悪のケースはノートPCが熱くなり（ウルトラポータブルで90〜100°C）スロットルすることで、ファームウェアが自動的に保護します。これを避けるには、長時間セッションで冷却パッドを使用、室温を25°C以下に保ち、シャーシが触って不快なほど熱い場合は推論を停止してください。

統合グラフィックスで十分ですか？

Apple Silicon（M1+）では十分以上です — ユニファイドメモリによりiGPUが事実上低価格専用GPUとして機能します。Intel Core Ultra（Meteor Lake / Arrow Lake）ではSYCLをセットアップすれば30〜60％の追加速度が得られます。旧Intel UHD / Iris Plus / AMD Vegaでは、統合グラフィックスはCPUより遅く、使う価値はありません。

CPU専用で最速のモデルは？

Llama 3.2 1B Q4_0とSmolLM 2 1.7B Q4_K_Mが最速の使用可能モデルです。Llama 3.2 1BはApple M1で25〜50 tok/秒、最新Ryzenまたは Intel CPUで12〜25 tok/秒に達します。SmolLM 2は同様の速度でやや洗練された執筆を提供します。4Bパラメータを超えるものはCPU専用システムで高速に感じる可能性が低いです。

RAM追加はCPUアップグレードより効果的ですか？

8GBシステムでは、16GBへの移行が最大の実用アップグレードです。Mistral 7B Q4やLlama 3.1 8B Q4のような7B〜8Bモデルがアンロックされるためです。CPUアップグレードは20〜50％多くのtok/秒、RAMアップグレードは2〜4倍の品質（1B〜4Bから7B〜8Bへの飛躍）を提供します。1つしかできない場合は、RAMを追加してください。

Chromebookでローカルai を実行できますか？

Linux dev mode（Crostini）が利用可能な場合のみ。このガイドの4アプリはすべてLinuxコンテナで動作します — ARM Chromebookではソースからコンパイルしたllama.cppが最も信頼性が高く、x86 Chromebook（Intel）はOllamaやGPT4Allで動作します。パフォーマンスは基となるCPUに対応 — Intel Core i3 / i5 Chromebookは同等のWindowsノートPCのように動作します。

2026年でもWindows 10はローカルAIに使えますか？

はい。4アプリすべてがWindows 10 22H2をサポートします。Ollama、GPT4All、Janは署名付きWindowsインストーラーを提供し、llama.cppはGitHubリリースにプリビルドWindowsバイナリを提供します。2025年10月のWindows 10メインストリームサポート終了はインストールを妨げませんが、セキュリティアップデートが終わったため、長期使用にはLinuxデュアルブートやWindows 11アップグレードを検討してください。

ローカルAIをまともに動かせる最安ノートPCは？

中古2021〜2022年のThinkPad T14またはDell Latitude 5430（16 GB RAM、Ryzen 5 5500UまたはIntel i5-1235U）は2026年に約¥60,000〜80,000で、Phi-4 Mini Q4を8〜14 tok/秒で動作させます。さらに安価：8 GB Apple M1 MacBook Air中古は約¥80,000〜100,000で、ユニファイドメモリにより多くのx86ノートPCをtok/秒で凌駕します。

Raspberry PiをローカルAIに使えますか？

8 GB RAM搭載のRaspberry Pi 5はLlama 3.2 1B Q4を4〜7 tok/秒で動作 — 使用可能だが遅い。Pi 4 4 GBはTinyLlama 1Bで約2 tok/秒が上限。実際のチャット使用には、8 GB x86ノートPCやM1 MacBook Airの方が高速、中古で安価、セットアップが簡単です。Piは組み込み・エッジ・常時稼働ワークロードでのみ意味があります。

ロースペックPC向けベストローカルAIアプリ 2026年版（8GB RAM・GPUなし）