重要なポイント
- 最速の手順:Ollamaをインストール → `ollama run llama3.2`を実行 → ターミナルでチャット。高速接続なら合計5分以内。
- 8 GBのRAMマシン:`llama3.2:3b`(2 GBのダウンロード)または`phi4-mini`(2.3 GB)から始めてください。どちらも最新のノートパソコンで動作します。
- CPUで15-40トークン/秒、ミッドレンジGPUまたはApple Siliconで60-120トークン/秒が期待できます。
- 最初のレスポンスはクラウドAPIより遅く感じる場合があります。ローカルモデルは速度をプライバシーとゼロコストと交換します。
- 初期モデルのダウンロード後は、すべてオフラインで動作します。次回以降のセッションにインターネット接続は不要です。
ステップ1:Ollamaをインストール
Ollamaはローカルで動作するLLMを実行する最速の方法です。1つのコマンドまたは2分のダウンロードでインストールできます:
# macOS (Homebrew)
brew install ollama
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows: download installer from ollama.com/downloadOllamaが動作していることを確認
インストール後、Ollamaがアクティブであることを確認します:
curl http://localhost:11434
# Expected output: Ollama is runningステップ2:最初のモデルを選択
利用可能なRAMに基づいてモデルを選択します。迷った場合は`llama3.2:3b`から始めてください。4 GBのRAMを搭載したあらゆるマシンで動作し、有用な出力を生成します:
| お使いのRAM | 推奨モデル | ダウンロードサイズ | 理由 |
|---|---|---|---|
| 4 GB | llama3.2:1b | 約1.3 GB | 最小限の使えるLlamaモデル |
| 8 GB | Llama 3.2 3B | 約2 GB | 初心者向けの最高の品質/サイズ比 |
| 8-16 GB | Llama 3.3 8B | 約4.7 GB | 強力な汎用モデル |
| 16 GB以上 | mistral:7b または qwen2.5:7b | 約4-5 GB | 競争力のある品質、高速な推論 |
ステップ3:モデルをダウンロード
`ollama pull`でモデルをダウンロードします。モデルは`~/.ollama/models`に保存され、一度だけダウンロードすれば使えます:
ollama pull llama3.2
# Or pull a specific size variant
ollama pull llama3.2:3b
ollama pull llama3.1:8bダウンロードの様子
Ollamaはターミナルにダウンロードの進行状況を表示します。`llama3.2:3b`モデルは一般的なブロードバンド接続で2-5分かかります。モデルは圧縮状態で保存されます。2 GBのダウンロードがディスク上で約2.3 GBに展開されます。
pulling manifest
pulling 966de95ca8dc... 100% ▕████████████████▏ 1.9 GB
pulling 9f436a92eb8b... 100% ▕████████████████▏ 42 B
verifying sha256 digest
writing manifest
successステップ4:モデルを起動して最初のプロンプトを送信
インタラクティブなチャットセッションを開始します:
ollama run llama3.2
# Ollama loads the model and shows a prompt:
>>> Send a message (/? for help)最初の会話
メッセージを入力してEnterキーを押します。モデルはトークンごとにレスポンスをストリーミングします:
>>> What are local LLMs?
Local LLMs (large language models) are AI models that run entirely
on your own hardware -- your laptop, desktop, or server. Unlike cloud
services such as ChatGPT or Claude, local LLMs process everything
locally with no data sent to external servers...期待できること:速度、品質、制限
速度はハードウェアによって異なります。2023年のラップトップ(GPUなし):3Bモデルで15-25トークン/秒、8Bモデルで8-15トークン/秒が期待できます。Apple M3 Pro:8Bで50-80トークン/秒。NVIDIA RTX 4070 Ti:8Bで90-130トークン/秒。
品質は`llama3.2:3b`では複雑なタスクにおいてGPT-5.5やClaude Opus 4.8よりも明らかに低くなります。要約、シンプルな質疑応答、コードの説明には有用です。多段階の推論や長文執筆には8Bまたは13Bモデルへのアップグレードを検討してください。
コンテキストウィンドウ:`llama3.2:3b`はOllamaでデフォルトで128Kトークンをサポートします。実際には、1回の会話で約16Kトークン後に品質が低下します。
最初のレスポンス遅延:`ollama run`後の最初のレスポンスにはモデルのロード時間(5-30秒)が含まれます。同じセッション内の後続のレスポンスは高速になります。
ターミナル以外でローカルLLMを使う方法
Ollamaのターミナルチャットはテスト目的に有用ですが、実際のユースケースではより良いインターフェースが必要です:
- Open WebUI:Ollama用の高機能Webインターフェース。Dockerで起動:`docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main`。http://localhost:3000でアクセス。
- LM Studio:デスクトップGUIを好む方は、LM Studioのインストール方法で完全なセットアップを確認できます。
- API連携:`localhost:11434`のOllama APIはOpenAI SDKと互換性があります。OpenAIのベースURLを受け入れるアプリケーションはすべてローカルモデルに接続できます。
- VS Code / Cursor:Continue.devなどの拡張機能がOllamaに接続し、エディタ内でローカルAIコーディング支援を提供します。
初めてのローカルLLM:地域別コンテキスト
EU / GDPR:OllamaでローカルLLMを実行すると、プロンプトデータ、コンテキスト、出力のいずれもマシンから外に出ません。個人データを扱うEUの専門家にとって、クラウドAI APIのプライバシー保護代替手段となります。
日本(METI):METI AIガバナンスガイドラインでは、AI推論が行われる場所を文書化することが求められています。最初のOllamaセットアップは完全で監査可能なローカル環境を作成します。モデルファイルは`~/.ollama/models`にバージョン固有のファイル名で保存され、`ollama ps`で推論を検証できます。METIコンプライアンス目的で正確なモデルバージョンとハードウェアを文書化できます。
中国:中国語のワークフローには、最初のモデルとしてqwen2.5:3bをllama3.2:3bの代わりに使用してください:`ollama pull qwen2.5:3b`。Qwen3はLlamaと同じハードウェア階層でより良い結果を生成します。
ローカルLLM初回起動時のよくある質問
モデルのレスポンスが非常に遅い -- これは正常ですか?
CPU専用ハードウェアでは、7Bモデルの場合8-20トークン/秒は正常です。各トークンは約0.75単語に相当します。10トークン/秒で100単語のレスポンスには約13秒かかります。推論を高速化するには、より小さいモデル(8Bの代わりに3B)を使用するか、対応GPUがある場合はGPUオフロードを有効にするか、最も一般的で最速の設定であるQ4_K_M量子化レベルを使用してください。
2つのモデルを同時に実行できますか?
十分なRAMがあれば、Ollamaは複数のモデルを同時にロードした状態に保てます。デフォルトでは、Ollamaは5分間の非活性後にモデルをアンロードします。OLLAMA_KEEP_ALIVE環境変数でこれを変更できます。2つの7Bモデルを同時に実行するには約16 GBのRAMが必要です。
Ollamaをバックグラウンドで動作しないようにするには?
macOS:メニューバーのllamaアイコンをクリックして「終了」を選択。Linux:`systemctl stop ollama`を実行。Windows:システムトレイのアイコンを右クリックして「終了」を選択。
初めてローカルLLMを実行する最も簡単な方法は?
Ollamaをインストールし(ollama.com)、`ollama pull llama3.2:3b`を実行し、次に`ollama run llama3.2:3b`を実行します。それだけです。3つのコマンド、2-5分で、インターネット不要のAIモデルがマシン上で動作します。
ローカルLLMが正常に動作しているか確認するには?
ターミナルで`ollama ps`を実行します。モデルが実行中であれば、名前、サイズ、メモリ使用量とともにリストに表示されます。「2+2は?」のような簡単なプロンプトを送って、「4」と返ってくれば正常に動作しています。
ローカルLLMを実行するのにGPUは必要ですか?
いいえ。ローカルLLMはCPUで動作します。GPUは推論を5-10倍速くしますが、学習や多くの実際のユースケースにはCPU専用でも問題ありません。Apple M1/M2、AMD Ryzen、またはIntel第12世代CPUを搭載した最新のノートパソコンは3B-7Bモデルを合理的な速度(10-30トークン/秒)で実行できます。
ローカルLLMはどれくらいのディスクスペースを使いますか?
`llama3.2:1b`は1.3 GB、`llama3.2:3b`は2 GB、`llama3.1:8b`は4.7 GBです。これらはOllamaが保存する圧縮サイズです。
インターネット接続なしでローカルLLMを使用できますか?
はい、完全に。Ollamaでモデルを一度ダウンロードし(インターネット必要)、その後は永遠にインターネットなしでローカルで実行できます。プライベートネットワーク、飛行機内、または完全なオフライン環境に最適です。
ローカルLLMとChatGPTの違いは?
ChatGPTはAnthropicのサーバーで動作します。ローカルLLMはあなたのマシンで動作します。ローカル = デバイスからデータが一切出ない、完全なプライバシー、APIコストなし。ChatGPT = 複雑なタスクでより高い品質、インターネットと有料サブスクリプションが必要。
Ollamaで試すべき最初のモデルは?
`ollama pull llama3.2:3b` -- 2 GBで、あらゆる最新ノートパソコンで動作し、有能な回答を生成し、Ollamaが推奨するスタート地点です。
最初の実行後の次のステップ
動作するローカルLLMができたので、何ができるか探索しましょう。ハードウェアに最適なモデルを理解するには、初心者向けベストローカルLLMモデルをご覧ください。ノートパソコン固有のパフォーマンスについてはノートパソコンでローカルLLMを実行する方法をご覧ください。
参考資料
- **Ollamaモデルライブラリ** -- ダウンロード可能なモデルとその仕様の公式リスト
- **Ollama GitHubリポジトリ** -- オープンソースコード、ドキュメント、イシュートラッキング
- **Meta Llama 3.2 モデルカード** -- 公式仕様、トレーニングデータ、パフォーマンスベンチマーク
最初の実行後のよくある間違い
- トークン数と速度を混同する -- 20トークン/秒で100トークンを生成する7Bモデルは5秒かかります。瞬時ではありません。
- 他のタスクでシステムが忙しい中で推論を実行すると、実効的なトークン/秒が大幅に低下します。
- コンテキストウィンドウの制限を確認しない -- ほとんどの初心者向けモデルは2K-8Kトークンをサポートしており、フロンティアモデルの100K+ではありません。
- 最初の実行で即時レスポンスを期待する -- 最初のレスポンスにはモデルのロード時間(5-30秒)が含まれます。同じセッション内の後続のレスポンスは2-5倍速くなります。
- 間違ったモデルタグを使用する -- `llama3.1:8b-text`はベーステキスト補完モードで、無限ループ/繰り返しが発生します。チャットには`llama3.1:8b-instruct`のような`-instruct`タグを使用してください。