Skip to main content
PromptQuorumPromptQuorum
ホーム/ローカルLLM/初めてのローカルLLM:インストールから最初の回答まで10分
入門

初めてのローカルLLM:インストールから最初の回答まで10分

·7 min read·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

Ollamaを使用して初めてのローカルLLMを実行するには10分以下かかります。Ollamaをインストールし、1つのコマンドを実行してモデルをロードし、ターミナルでチャットを開始します。APIキー、アカウント、初期ダウンロード後のインターネット接続は不要です。2026年4月時点で、最速の初心者向けモデルはLlama 3.2 3Bで、モダンノートパソコンのCPUで25~45トークン/秒です。

4-Step Local LLM PipelineA horizontal flow diagram showing the four steps to run a local LLM: Install Ollama, Pull a Model, Run the Model, and Start Chatting.1. Installollama.com2. Pullllama3.2:3b3. Runollama run4. ChatLocal AI2 min2-5 min<1 secInstant

Position: intro

重要なポイント

  • 最速の手順:Ollamaをインストール → `ollama run llama3.2`を実行 → ターミナルでチャット。高速接続なら合計5分以内。
  • 8 GBのRAMマシン:`llama3.2:3b`(2 GBのダウンロード)または`phi4-mini`(2.3 GB)から始めてください。どちらも最新のノートパソコンで動作します。
  • CPUで15-40トークン/秒、ミッドレンジGPUまたはApple Siliconで60-120トークン/秒が期待できます。
  • 最初のレスポンスはクラウドAPIより遅く感じる場合があります。ローカルモデルは速度をプライバシーとゼロコストと交換します。
  • 初期モデルのダウンロード後は、すべてオフラインで動作します。次回以降のセッションにインターネット接続は不要です。

ステップ1:Ollamaをインストール

Ollamaはローカルで動作するLLMを実行する最速の方法です。1つのコマンドまたは2分のダウンロードでインストールできます:

bash
# macOS (Homebrew)
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: download installer from ollama.com/download

Ollamaが動作していることを確認

インストール後、Ollamaがアクティブであることを確認します:

bash
curl http://localhost:11434
# Expected output: Ollama is running

ステップ2:最初のモデルを選択

利用可能なRAMに基づいてモデルを選択します。迷った場合は`llama3.2:3b`から始めてください。4 GBのRAMを搭載したあらゆるマシンで動作し、有用な出力を生成します:

お使いのRAM推奨モデルダウンロードサイズ理由
4 GBllama3.2:1b約1.3 GB最小限の使えるLlamaモデル
8 GBLlama 3.2 3B約2 GB初心者向けの最高の品質/サイズ比
8-16 GBLlama 3.3 8B約4.7 GB強力な汎用モデル
16 GB以上mistral:7b または qwen2.5:7b約4-5 GB競争力のある品質、高速な推論

ステップ3:モデルをダウンロード

`ollama pull`でモデルをダウンロードします。モデルは`~/.ollama/models`に保存され、一度だけダウンロードすれば使えます:

bash
ollama pull llama3.2

# Or pull a specific size variant
ollama pull llama3.2:3b
ollama pull llama3.1:8b

ダウンロードの様子

Ollamaはターミナルにダウンロードの進行状況を表示します。`llama3.2:3b`モデルは一般的なブロードバンド接続で2-5分かかります。モデルは圧縮状態で保存されます。2 GBのダウンロードがディスク上で約2.3 GBに展開されます。

text
pulling manifest
pulling 966de95ca8dc... 100% ▕████████████████▏ 1.9 GB
pulling 9f436a92eb8b... 100% ▕████████████████▏   42 B
verifying sha256 digest
writing manifest
success

ステップ4:モデルを起動して最初のプロンプトを送信

インタラクティブなチャットセッションを開始します:

bash
ollama run llama3.2

# Ollama loads the model and shows a prompt:
>>> Send a message (/? for help)

最初の会話

メッセージを入力してEnterキーを押します。モデルはトークンごとにレスポンスをストリーミングします:

text
>>> What are local LLMs?

Local LLMs (large language models) are AI models that run entirely
on your own hardware -- your laptop, desktop, or server. Unlike cloud
services such as ChatGPT or Claude, local LLMs process everything
locally with no data sent to external servers...

期待できること:速度、品質、制限

速度はハードウェアによって異なります。2023年のラップトップ(GPUなし):3Bモデルで15-25トークン/秒、8Bモデルで8-15トークン/秒が期待できます。Apple M3 Pro:8Bで50-80トークン/秒。NVIDIA RTX 4070 Ti:8Bで90-130トークン/秒。

品質は`llama3.2:3b`では複雑なタスクにおいてGPT-5.5やClaude Opus 4.8よりも明らかに低くなります。要約、シンプルな質疑応答、コードの説明には有用です。多段階の推論や長文執筆には8Bまたは13Bモデルへのアップグレードを検討してください。

コンテキストウィンドウ:`llama3.2:3b`はOllamaでデフォルトで128Kトークンをサポートします。実際には、1回の会話で約16Kトークン後に品質が低下します。

最初のレスポンス遅延:`ollama run`後の最初のレスポンスにはモデルのロード時間(5-30秒)が含まれます。同じセッション内の後続のレスポンスは高速になります。

ターミナル以外でローカルLLMを使う方法

Ollamaのターミナルチャットはテスト目的に有用ですが、実際のユースケースではより良いインターフェースが必要です:

  • Open WebUI:Ollama用の高機能Webインターフェース。Dockerで起動:`docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway ghcr.io/open-webui/open-webui:main`。http://localhost:3000でアクセス。
  • LM Studio:デスクトップGUIを好む方は、LM Studioのインストール方法で完全なセットアップを確認できます。
  • API連携:`localhost:11434`のOllama APIはOpenAI SDKと互換性があります。OpenAIのベースURLを受け入れるアプリケーションはすべてローカルモデルに接続できます。
  • VS Code / Cursor:Continue.devなどの拡張機能がOllamaに接続し、エディタ内でローカルAIコーディング支援を提供します。

初めてのローカルLLM:地域別コンテキスト

EU / GDPR:OllamaでローカルLLMを実行すると、プロンプトデータ、コンテキスト、出力のいずれもマシンから外に出ません。個人データを扱うEUの専門家にとって、クラウドAI APIのプライバシー保護代替手段となります。

日本(METI):METI AIガバナンスガイドラインでは、AI推論が行われる場所を文書化することが求められています。最初のOllamaセットアップは完全で監査可能なローカル環境を作成します。モデルファイルは`~/.ollama/models`にバージョン固有のファイル名で保存され、`ollama ps`で推論を検証できます。METIコンプライアンス目的で正確なモデルバージョンとハードウェアを文書化できます。

中国:中国語のワークフローには、最初のモデルとしてqwen2.5:3bをllama3.2:3bの代わりに使用してください:`ollama pull qwen2.5:3b`。Qwen3はLlamaと同じハードウェア階層でより良い結果を生成します。

ローカルLLM初回起動時のよくある質問

モデルのレスポンスが非常に遅い -- これは正常ですか?

CPU専用ハードウェアでは、7Bモデルの場合8-20トークン/秒は正常です。各トークンは約0.75単語に相当します。10トークン/秒で100単語のレスポンスには約13秒かかります。推論を高速化するには、より小さいモデル(8Bの代わりに3B)を使用するか、対応GPUがある場合はGPUオフロードを有効にするか、最も一般的で最速の設定であるQ4_K_M量子化レベルを使用してください。

2つのモデルを同時に実行できますか?

十分なRAMがあれば、Ollamaは複数のモデルを同時にロードした状態に保てます。デフォルトでは、Ollamaは5分間の非活性後にモデルをアンロードします。OLLAMA_KEEP_ALIVE環境変数でこれを変更できます。2つの7Bモデルを同時に実行するには約16 GBのRAMが必要です。

Ollamaをバックグラウンドで動作しないようにするには?

macOS:メニューバーのllamaアイコンをクリックして「終了」を選択。Linux:`systemctl stop ollama`を実行。Windows:システムトレイのアイコンを右クリックして「終了」を選択。

初めてローカルLLMを実行する最も簡単な方法は?

Ollamaをインストールし(ollama.com)、`ollama pull llama3.2:3b`を実行し、次に`ollama run llama3.2:3b`を実行します。それだけです。3つのコマンド、2-5分で、インターネット不要のAIモデルがマシン上で動作します。

ローカルLLMが正常に動作しているか確認するには?

ターミナルで`ollama ps`を実行します。モデルが実行中であれば、名前、サイズ、メモリ使用量とともにリストに表示されます。「2+2は?」のような簡単なプロンプトを送って、「4」と返ってくれば正常に動作しています。

ローカルLLMを実行するのにGPUは必要ですか?

いいえ。ローカルLLMはCPUで動作します。GPUは推論を5-10倍速くしますが、学習や多くの実際のユースケースにはCPU専用でも問題ありません。Apple M1/M2、AMD Ryzen、またはIntel第12世代CPUを搭載した最新のノートパソコンは3B-7Bモデルを合理的な速度(10-30トークン/秒)で実行できます。

ローカルLLMはどれくらいのディスクスペースを使いますか?

`llama3.2:1b`は1.3 GB、`llama3.2:3b`は2 GB、`llama3.1:8b`は4.7 GBです。これらはOllamaが保存する圧縮サイズです。

インターネット接続なしでローカルLLMを使用できますか?

はい、完全に。Ollamaでモデルを一度ダウンロードし(インターネット必要)、その後は永遠にインターネットなしでローカルで実行できます。プライベートネットワーク、飛行機内、または完全なオフライン環境に最適です。

ローカルLLMとChatGPTの違いは?

ChatGPTはAnthropicのサーバーで動作します。ローカルLLMはあなたのマシンで動作します。ローカル = デバイスからデータが一切出ない、完全なプライバシー、APIコストなし。ChatGPT = 複雑なタスクでより高い品質、インターネットと有料サブスクリプションが必要。

Ollamaで試すべき最初のモデルは?

`ollama pull llama3.2:3b` -- 2 GBで、あらゆる最新ノートパソコンで動作し、有能な回答を生成し、Ollamaが推奨するスタート地点です。

最初の実行後の次のステップ

動作するローカルLLMができたので、何ができるか探索しましょう。ハードウェアに最適なモデルを理解するには、初心者向けベストローカルLLMモデルをご覧ください。ノートパソコン固有のパフォーマンスについてはノートパソコンでローカルLLMを実行する方法をご覧ください。

参考資料

最初の実行後のよくある間違い

  • トークン数と速度を混同する -- 20トークン/秒で100トークンを生成する7Bモデルは5秒かかります。瞬時ではありません。
  • 他のタスクでシステムが忙しい中で推論を実行すると、実効的なトークン/秒が大幅に低下します。
  • コンテキストウィンドウの制限を確認しない -- ほとんどの初心者向けモデルは2K-8Kトークンをサポートしており、フロンティアモデルの100K+ではありません。
  • 最初の実行で即時レスポンスを期待する -- 最初のレスポンスにはモデルのロード時間(5-30秒)が含まれます。同じセッション内の後続のレスポンスは2-5倍速くなります。
  • 間違ったモデルタグを使用する -- `llama3.1:8b-text`はベーステキスト補完モードで、無限ループ/繰り返しが発生します。チャットには`llama3.1:8b-instruct`のような`-instruct`タグを使用してください。

サードパーティの情報に関する注意

この記事はサードパーティのAIモデル、ベンチマーク、価格、ライセンスを参照しています。AIの状況は急速に変化しています。ベンチマークスコア、ライセンス条件、モデル名、API価格は執筆時とお読みになる時の間で変わる可能性があります。この記事に基づいてデプロイやコンプライアンスに関する決定を下す前に、各プロバイダーの公式ソース(ライセンスとベンチマークはHugging Faceのモデルカード、API価格はプロバイダーのウェブサイト、現在のGDPRとEU AI法のテキストはEUR-Lex)で最新の数値を確認してください。この記事は2026年5月時点で公開されている情報を反映しています。

ローカルLLM、独自のAPIキー、またはその両方でPromptQuorumを使用できます — バックエンドはあなたが選択します。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る