Ollamaを使用して初めてのローカルLLMを実行するには10分以下かかります。Ollamaをインストールし、1つのコマンドを実行してモデルをロードし、ターミナルでチャットを開始します。APIキー、アカウント、初期ダウンロード後のインターネット接続は不要です。2026年4月時点で、最速の初心者向けモデルはLlama 3.2 3Bで、モダンノートパソコンのCPUで25～45トークン/秒です。

重要なポイント

最速の手順：Ollamaをインストール → `ollama run llama3.2`を実行 → ターミナルでチャット。高速接続なら合計5分以内。
8 GBのRAMマシン：`llama3.2:3b`（2 GBのダウンロード）または`phi4-mini`（2.3 GB）から始めてください。どちらも最新のノートパソコンで動作します。
CPUで15-40トークン/秒、ミッドレンジGPUまたはApple Siliconで60-120トークン/秒が期待できます。
最初のレスポンスはクラウドAPIより遅く感じる場合があります。ローカルモデルは速度をプライバシーとゼロコストと交換します。
初期モデルのダウンロード後は、すべてオフラインで動作します。次回以降のセッションにインターネット接続は不要です。

ステップ1：Ollamaをインストール

Ollamaはローカルで動作するLLMを実行する最速の方法です。1つのコマンドまたは2分のダウンロードでインストールできます：

bash

# macOS (Homebrew)
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: download installer from ollama.com/download

Ollamaが動作していることを確認

インストール後、Ollamaがアクティブであることを確認します：

bash

curl http://localhost:11434
# Expected output: Ollama is running

ステップ2：最初のモデルを選択

利用可能なRAMに基づいてモデルを選択します。迷った場合は`llama3.2:3b`から始めてください。4 GBのRAMを搭載したあらゆるマシンで動作し、有用な出力を生成します：

お使いのRAM	推奨モデル	ダウンロードサイズ	理由
4 GB	llama3.2:1b	約1.3 GB	最小限の使えるLlamaモデル
8 GB	Llama 3.2 3B	約2 GB	初心者向けの最高の品質/サイズ比
8-16 GB	Llama 3.1 8B	約4.7 GB	強力な汎用モデル
16 GB以上	mistral:7b または qwen2.5:7b	約4-5 GB	競争力のある品質、高速な推論

ステップ3：モデルをダウンロード

`ollama pull`でモデルをダウンロードします。モデルは`~/.ollama/models`に保存され、一度だけダウンロードすれば使えます：

bash

ollama pull llama3.2

# Or pull a specific size variant
ollama pull llama3.2:3b
ollama pull llama3.1:8b

ダウンロードの様子

Ollamaはターミナルにダウンロードの進行状況を表示します。`llama3.2:3b`モデルは一般的なブロードバンド接続で2-5分かかります。モデルは圧縮状態で保存されます。2 GBのダウンロードがディスク上で約2.3 GBに展開されます。

text

pulling manifest
pulling 966de95ca8dc... 100% ▕████████████████▏ 1.9 GB
pulling 9f436a92eb8b... 100% ▕████████████████▏   42 B
verifying sha256 digest
writing manifest
success

ステップ4：モデルを起動して最初のプロンプトを送信

インタラクティブなチャットセッションを開始します：

bash

ollama run llama3.2

# Ollama loads the model and shows a prompt:
>>> Send a message (/? for help)

最初の会話

メッセージを入力してEnterキーを押します。モデルはトークンごとにレスポンスをストリーミングします：

text

>>> What are local LLMs?

Local LLMs (large language models) are AI models that run entirely
on your own hardware -- your laptop, desktop, or server. Unlike cloud
services such as ChatGPT or Claude, local LLMs process everything
locally with no data sent to external servers...

期待できること：速度、品質、制限

速度はハードウェアによって異なります。2023年のラップトップ（GPUなし）：3Bモデルで15-25トークン/秒、8Bモデルで8-15トークン/秒が期待できます。Apple M3 Pro：8Bで50-80トークン/秒。NVIDIA RTX 4070 Ti：8Bで90-130トークン/秒。

品質は`llama3.2:3b`では複雑なタスクにおいてGPT-4oやClaude Opus 4.7よりも明らかに低くなります。要約、シンプルな質疑応答、コードの説明には有用です。多段階の推論や長文執筆には8Bまたは13Bモデルへのアップグレードを検討してください。

コンテキストウィンドウ：`llama3.2:3b`はOllamaでデフォルトで128Kトークンをサポートします。実際には、1回の会話で約16Kトークン後に品質が低下します。

最初のレスポンス遅延：`ollama run`後の最初のレスポンスにはモデルのロード時間（5-30秒）が含まれます。同じセッション内の後続のレスポンスは高速になります。

ターミナル以外でローカルLLMを使う方法

Ollamaのターミナルチャットはテスト目的に有用ですが、実際のユースケースではより良いインターフェースが必要です：

Open WebUI：Ollama用の高機能Webインターフェース。Dockerで起動：`docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main`。http://localhost:3000でアクセス。
LM Studio：デスクトップGUIを好む方は、LM Studioのインストール方法で完全なセットアップを確認できます。
API連携：`localhost:11434`のOllama APIはOpenAI SDKと互換性があります。OpenAIのベースURLを受け入れるアプリケーションはすべてローカルモデルに接続できます。
VS Code / Cursor：Continue.devなどの拡張機能がOllamaに接続し、エディタ内でローカルAIコーディング支援を提供します。

初めてのローカルLLM：地域別コンテキスト

EU / GDPR：OllamaでローカルLLMを実行すると、プロンプトデータ、コンテキスト、出力のいずれもマシンから外に出ません。個人データを扱うEUの専門家にとって、クラウドAI APIのプライバシー保護代替手段となります。

日本（METI）：METI AIガバナンスガイドラインでは、AI推論が行われる場所を文書化することが求められています。最初のOllamaセットアップは完全で監査可能なローカル環境を作成します。モデルファイルは`~/.ollama/models`にバージョン固有のファイル名で保存され、`ollama ps`で推論を検証できます。METIコンプライアンス目的で正確なモデルバージョンとハードウェアを文書化できます。

中国：中国語のワークフローには、最初のモデルとしてqwen2.5:3bをllama3.2:3bの代わりに使用してください：`ollama pull qwen2.5:3b`。Qwen2.5はLlamaと同じハードウェア階層でより良い結果を生成します。

ローカルLLM初回起動時のよくある質問

モデルのレスポンスが非常に遅い -- これは正常ですか？

CPU専用ハードウェアでは、7Bモデルの場合8-20トークン/秒は正常です。各トークンは約0.75単語に相当します。10トークン/秒で100単語のレスポンスには約13秒かかります。推論を高速化するには、より小さいモデル（8Bの代わりに3B）を使用するか、対応GPUがある場合はGPUオフロードを有効にするか、最も一般的で最速の設定であるQ4_K_M量子化レベルを使用してください。

2つのモデルを同時に実行できますか？

十分なRAMがあれば、Ollamaは複数のモデルを同時にロードした状態に保てます。デフォルトでは、Ollamaは5分間の非活性後にモデルをアンロードします。OLLAMA_KEEP_ALIVE環境変数でこれを変更できます。2つの7Bモデルを同時に実行するには約16 GBのRAMが必要です。

Ollamaをバックグラウンドで動作しないようにするには？

macOS：メニューバーのllamaアイコンをクリックして「終了」を選択。Linux：`systemctl stop ollama`を実行。Windows：システムトレイのアイコンを右クリックして「終了」を選択。

初めてローカルLLMを実行する最も簡単な方法は？

Ollamaをインストールし（ollama.com）、`ollama pull llama3.2:3b`を実行し、次に`ollama run llama3.2:3b`を実行します。それだけです。3つのコマンド、2-5分で、インターネット不要のAIモデルがマシン上で動作します。

ローカルLLMが正常に動作しているか確認するには？

ターミナルで`ollama ps`を実行します。モデルが実行中であれば、名前、サイズ、メモリ使用量とともにリストに表示されます。「2+2は？」のような簡単なプロンプトを送って、「4」と返ってくれば正常に動作しています。

ローカルLLMを実行するのにGPUは必要ですか？

いいえ。ローカルLLMはCPUで動作します。GPUは推論を5-10倍速くしますが、学習や多くの実際のユースケースにはCPU専用でも問題ありません。Apple M1/M2、AMD Ryzen、またはIntel第12世代CPUを搭載した最新のノートパソコンは3B-7Bモデルを合理的な速度（10-30トークン/秒）で実行できます。

ローカルLLMはどれくらいのディスクスペースを使いますか？

`llama3.2:1b`は1.3 GB、`llama3.2:3b`は2 GB、`llama3.1:8b`は4.7 GBです。これらはOllamaが保存する圧縮サイズです。

インターネット接続なしでローカルLLMを使用できますか？

はい、完全に。Ollamaでモデルを一度ダウンロードし（インターネット必要）、その後は永遠にインターネットなしでローカルで実行できます。プライベートネットワーク、飛行機内、または完全なオフライン環境に最適です。

ローカルLLMとChatGPTの違いは？

ChatGPTはAnthropicのサーバーで動作します。ローカルLLMはあなたのマシンで動作します。ローカル = デバイスからデータが一切出ない、完全なプライバシー、APIコストなし。ChatGPT = 複雑なタスクでより高い品質、インターネットと有料サブスクリプションが必要。

Ollamaで試すべき最初のモデルは？

`ollama pull llama3.2:3b` -- 2 GBで、あらゆる最新ノートパソコンで動作し、有能な回答を生成し、Ollamaが推奨するスタート地点です。

最初の実行後の次のステップ

動作するローカルLLMができたので、何ができるか探索しましょう。ハードウェアに最適なモデルを理解するには、初心者向けベストローカルLLMモデルをご覧ください。ノートパソコン固有のパフォーマンスについてはノートパソコンでローカルLLMを実行する方法をご覧ください。

参考資料

**Ollamaモデルライブラリ** -- ダウンロード可能なモデルとその仕様の公式リスト
**Ollama GitHubリポジトリ** -- オープンソースコード、ドキュメント、イシュートラッキング
**Meta Llama 3.2 モデルカード** -- 公式仕様、トレーニングデータ、パフォーマンスベンチマーク

最初の実行後のよくある間違い

トークン数と速度を混同する -- 20トークン/秒で100トークンを生成する7Bモデルは5秒かかります。瞬時ではありません。
他のタスクでシステムが忙しい中で推論を実行すると、実効的なトークン/秒が大幅に低下します。
コンテキストウィンドウの制限を確認しない -- ほとんどの初心者向けモデルは2K-8Kトークンをサポートしており、フロンティアモデルの100K+ではありません。
最初の実行で即時レスポンスを期待する -- 最初のレスポンスにはモデルのロード時間（5-30秒）が含まれます。同じセッション内の後続のレスポンスは2-5倍速くなります。
間違ったモデルタグを使用する -- `llama3.1:8b-text`はベーステキスト補完モードで、無限ループ/繰り返しが発生します。チャットには`llama3.1:8b-instruct`のような`-instruct`タグを使用してください。

初めてのローカルLLM：インストールから最初の回答まで10分

ステップ1：Ollamaをインストール

Ollamaが動作していることを確認

ステップ2：最初のモデルを選択

ステップ3：モデルをダウンロード

ダウンロードの様子

ステップ4：モデルを起動して最初のプロンプトを送信

最初の会話

期待できること：速度、品質、制限

ターミナル以外でローカルLLMを使う方法

初めてのローカルLLM：地域別コンテキスト

ローカルLLM初回起動時のよくある質問

モデルのレスポンスが非常に遅い -- これは正常ですか？

2つのモデルを同時に実行できますか？

Ollamaをバックグラウンドで動作しないようにするには？

初めてローカルLLMを実行する最も簡単な方法は？

ローカルLLMが正常に動作しているか確認するには？

ローカルLLMを実行するのにGPUは必要ですか？

ローカルLLMはどれくらいのディスクスペースを使いますか？

インターネット接続なしでローカルLLMを使用できますか？

ローカルLLMとChatGPTの違いは？

Ollamaで試すべき最初のモデルは？

最初の実行後の次のステップ

参考資料

最初の実行後のよくある間違い

A Note on Third-Party Facts

初めてのローカルLLM：インストールから最初の回答まで10分

ステップ1：Ollamaをインストール

Ollamaが動作していることを確認

ステップ2：最初のモデルを選択

ステップ3：モデルをダウンロード

ダウンロードの様子

ステップ4：モデルを起動して最初のプロンプトを送信

最初の会話

期待できること：速度、品質、制限

ターミナル以外でローカルLLMを使う方法

初めてのローカルLLM：地域別コンテキスト

ローカルLLM初回起動時のよくある質問

モデルのレスポンスが非常に遅い -- これは正常ですか？

2つのモデルを同時に実行できますか？

Ollamaをバックグラウンドで動作しないようにするには？

初めてローカルLLMを実行する最も簡単な方法は？

ローカルLLMが正常に動作しているか確認するには？

ローカルLLMを実行するのにGPUは必要ですか？

ローカルLLMはどれくらいのディスクスペースを使いますか？

インターネット接続なしでローカルLLMを使用できますか？

ローカルLLMとChatGPTの違いは？

Ollamaで試すべき最初のモデルは？

最初の実行後の次のステップ

参考資料

最初の実行後のよくある間違い

関連資料

A Note on Third-Party Facts