Skip to main content
PromptQuorumPromptQuorum
ホーム/ローカルLLM/Ollama のインストール方法:macOS、Windows、Linux の完全なセットアップガイド
はじめに

Ollama のインストール方法:macOS、Windows、Linux の完全なセットアップガイド

·読了約8分·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

Ollama は、単一のコマンドで大規模言語モデルをローカルで実行する軽量推論エンジンです。2 分のインストール後、`ollama pull llama3.2:3b` は 2 GB のモデルをダウンロードし、`ollama run llama3.2` はチャット インターフェースを開きます。Ollama は、モデル管理、llama.cpp 推論バックエンド、および OpenAI 互換の REST API を `localhost:11434` に結合しており、Python 環境、構成ファイル、開始時の GPU は不要です。2026 年 4 月現在、Ollama は Meta Llama 3.2、Qwen3、Mistral、DeepSeek を含む 200 を超えるモデルをサポートし、その API を任意の OpenAI SDK にコード変更なしで公開しています。

重要なポイント

  • macOS : ollama.com から .dmg をダウンロードするか、`brew install ollama` を実行 - その後 `ollama run llama3.2` でチャット開始。
  • Windows : ollama.com/download からインストーラーをダウンロード。Ollama はシステム トレイでバックグラウンド サービスとして実行。
  • Linux : curl コマンド 1 つですべてをインストール - `curl -fsSL https://ollama.com/install.sh | sh`
  • 最小要件 : 3B モデルは 4 GB RAM、7B モデルは 8 GB RAM。開始時に GPU は不要。
  • Ollama は `http://localhost:11434` で OpenAI 互換の REST API を公開 - コード変更なしで任意の OpenAI SDK アプリが使用できます。

インストール前に:ローカルLLMはあなたのユースケースに適していますか?

Ollamaのインストールは5分かかりますが、GPU検出の問題、ドライバーの不一致、またはRAM制約に遭遇すると、最初のモデルを正しく実行するのに20~40分かかる可能性があります。

ローカル推論があなたにとって正しい選択かどうか不確かな場合は、**ローカルとクラウドの完全な権衡分析を比較してください** — クラウドAPIで開始する方が賢いかもしれません(5分で準備完了、トラブルシューティング不要)。多くのユーザーはインストール後にこれを発見します;今決めるのが良いでしょう。

ローカルにコミットしたユーザーは下記をご覧ください。クラウドを最初に評価しているユーザーは、完全な比較を参照してください。

Ollama とは何か、そしてなぜ使用するのか?

一文で表すと、Ollama はオープンソース言語モデル(Mistral や Llama 3.3 など)をコンピュータにダウンロードしてローカルで実行するツールで、1 つのコマンドで実行できます。

Ollama は大規模言語モデルをローカルで実行するオープンソースの推論エンジンです。 モデル管理、llama.cpp 推論バックエンド、OpenAI 互換 REST API を単一の軽量アプリケーションに結合します。Python なし、conda 環境なし、CUDA セットアップなし。

Ollama は Meta Llama 3.3、Microsoft Phi-3、Google Gemma 2、Mistral、Qwen3、および 100 以上の他のモデル用にワンコマンド ダウンロード機能を備えたキュレーションされたモデル ライブラリ(ollama.com/library)を保持しています。モデルは 1 回ダウンロードされてディスクにキャッシュされ、以降の実行は 5 秒以内に開始します。

Ollama の代わりについては、Local LLM ワンクリック インストーラー を参照してください。Ollama と LM Studio を比較するには、LM Studio のインストール方法 を参照してください。

Ollama を macOS にインストールするにはどうすればよいですか?

一文で表すと、Ollama は macOS でバックグラウンド サービスとして実行され、インストール・起動後、ローカル API が `http://localhost:11434` でモデル リクエストをリッスン。

2 つの方法があります。インストーラー ダウンロードの方が速いです。Homebrew は brew でソフトウェアを管理する場合に適しています。

  1. 1
    ollama.com/download にアクセスし、「macOS 用ダウンロード」をクリック。
  2. 2
    ダウンロードした Ollama.dmg ファイルを開き、Ollama をアプリケーション フォルダにドラッグ。
  3. 3
    アプリケーションから Ollama を起動。Llama アイコンがメニュー バーに表示 - Ollama がバックグラウンド サービスとして実行中。
  4. 4
    ターミナルを開いて最初のモデルを実行: `ollama run llama3.2`
  5. 5
    モデルがダウンロード(llama3.2:3b 用に約 2 GB)され、チャット プロンプトが表示。メッセージを入力して Enter キーを押します。

Ollama を Homebrew で macOS にインストールするにはどうすればよいですか?

bash
brew install ollama

# Ollama サービスを起動
ollama serve &

# モデルをダウンロードして実行
ollama run llama3.2

Ollama を Windows にインストールするにはどうすればよいですか?

  1. 1
    ollama.com/download にアクセスし、「Windows 用ダウンロード」をクリック。
  2. 2
    ダウンロードした OllamaSetup.exe インストーラーを実行。Ollama は %LOCALAPPDATA%\Programs\Ollama にインストール。
  3. 3
    Ollama が自動的に起動し、システム トレイ アイコンとして表示。
  4. 4
    PowerShell またはコマンド プロンプトを開いて実行: `ollama run llama3.2`
  5. 5
    モデルは初回実行時にダウンロード。以降の実行はキャッシュされたモデルを使用。

Windows で GPU サポートを有効にするにはどうすればよいですか?

Windows 上の Ollama は NVIDIA GPU(CUDA 11.3+)と AMD GPU(ROCm 6+)を自動的に検出して使用。NVIDIA RTX カードがある場合、Ollama はモデル レイヤーを VRAM に自動的にオフロード - 手動設定は不要。GPU が使用されていることを確認するには、`ollama run llama3.2` を実行してタスク マネージャー → GPU で確認。

Ollama を Linux にインストールするにはどうすればよいですか?

1 つのコマンドで任意の Linux ディストリビューションに Ollama をインストール:

bash
curl -fsSL https://ollama.com/install.sh | sh

Linux で Ollama を systemd サービスとして実行するにはどうすればよいですか?

インストール スクリプトは自動的に Ollama を systemd サービスとして登録。管理方法は:

bash
# サービス ステータスを確認
systemctl status ollama

# 開始 / 停止 / 再起動
systemctl start ollama
systemctl stop ollama
systemctl restart ollama

# ログを表示
journalctl -u ollama -f

Ollama で最初のモデルをダウンロードして実行するにはどうすればよいですか?

Ollama のインストール後、このコマンドを実行してモデルをダウンロードして起動:

bash
# モデルをダウンロード(~/.ollama/models に保存)
ollama pull llama3.2

# 対話的に実行
ollama run llama3.2

# または 1 ステップでダウンロードして実行
ollama run llama3.2

最初に使用すべきモデルはどれか?

初回実行では、これらの 3 つのモデルはさまざまなハードウェア プロファイルに対応:

モデルダウンロード サイズ必要な RAM用途
Llama 3.2 3B~2 GB4 GB初回テスト - すべてのマシン
Llama 3.3 8B~4.7 GB8 GBほとんどのノートパソコンで一般的に使用
phi4-mini~2.3 GB4 GB高速応答、低 RAM

Ollama が動作していることを確認するにはどうすればよいですか?

REST API を直接テストして、Ollama が実行され、アクセス可能であることを確認:

bash
# Ollama が実行中であることを確認
curl http://localhost:11434
# 期待: "Ollama is running"

# ダウンロードされたモデルをリスト
ollama list

# API 経由でプロンプトを送信(OpenAI 互換)
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "2+2 は何ですか?",
  "stream": false
}'

最も便利な Ollama コマンドはどれですか?

コマンド機能
ollama listダウンロードされたすべてのモデルとそのサイズを表示
ollama pull <model>モデルを実行せずにダウンロード
ollama rm <model>ディスクからモデルを削除
ollama ps現在メモリに読み込まれているモデルを表示
ollama show <model>モデルの詳細を表示(パラメータ、テンプレート、ライセンス)
ollama serveOllama サーバーを手動で開始(サービスとして実行されていない場合)

Ollama インストール時の一般的な問題をトラブルシューティングするにはどうすればよいですか?

Ollama が「could not connect to ollama app, is it running?」(Ollama アプリに接続できません。実行していますか?)と表示

Ollama がバックグラウンド サービスとして実行されていません。macOS でアプリケーションから Ollama アプリを開く。Linux で、ターミナルで `systemctl start ollama` または `ollama serve` を実行。Windows でスタート メニューから Ollama を起動。

モデルのダウンロードが非常に遅い、またはスタック状態

モデル ダウンロードは大きい(2~47 GB)。ダウンロードが停止した場合、Ctrl+C を押して `ollama pull <model>` を再実行 - Ollama は部分ダウンロードを再開。より速いダウンロードには Wi-Fi ではなく有線接続を使用。

「error: model requires more system memory」(エラー:モデルにはシステム メモリが必要)エラーが表示

モデルが利用可能な RAM に対して大きすぎます。より小さい量化を試す: デフォルトの Q4_K_M ではなく `ollama run llama3.2-instruct-q4_0`。または `llama3.2:3b` のような小さいモデルに切り替え。初心者向けの最高のローカル LLM モデル を参照して RAM に対応した推奨事項。

Ollama は実行していますが、GPU が使用されていません

Windows で NVIDIA ドライバーがバージョン 452.39 以上であることを確認。Linux で NVIDIA コンテナ ツールキットがインストールされていることを確認(`nvidia-smi` は GPU 情報を返す必要があります)。Ollama は VRAM が利用可能な場合、レイヤーを GPU に自動的にオフロード - モデルを開始した後 `ollama ps` を実行して GPU 使用率を確認。

Ollama モデル ファイルはどこに保存されていますか?

モデルは macOS と Linux 上の ~/.ollama/models に保存。Windows では既定のパスは C:\Users\<username>\.ollama\models。OLLAMA_MODELS 環境変数を設定してサービス開始前にストレージの場所を変更可能。

Ollama インストール後は何をする必要がありますか?

Ollama が実行され始めたら、次のステップは 最初のローカル LLM を実行 してプロンプト作成、コンテキスト長、および予想されるローカル推論速度を理解。ハードウェアに最適なモデルを選択するには、初心者向けの最高のローカル LLM モデル を参照。ターミナルよりグラフィカルなチャット インターフェースを優先する場合、LM Studio のインストール方法 はデスクトップ アプリの代替をカバー。

地域別デプロイメントとコンプライアンス背景

日本 / METI: 日本 METI AI ガバナンス ガイドラインでは AI 推論が発生する場所の文書化を要求。組織は、特に金融サービス、医療、製造におけるデータ所在地ルール遵守のため Ollama をオンサイトで展開可能。Ollama ローカル展開は APPI(個人情報保護方針法)要件に合致するプライバシー保全アプローチとして認識。

EU / GDPR: Ollama をオンサイト で実行することは個人データが組織のインフラストラクチャを離れないことを意味。GDPR 記事 5(データ最小化)は推論がマシン上で発生するため既定で満たされます。ドイツおよびフランスのデータ保護機関は従業員またはカスタマー データ処理のためローカル LLM デプロイメントを推奨。Ollama を `localhost` にバインド(既定値)は外部ネットワーク アクセスを保証しません。

中国 / CAC: 中国のサイバー空間管理局の生成 AI サービス暫定措置(2023)は中国ユーザーに提供される AI サービスを規制。オンサイト で完全に実行される Ollama ローカル デプロイメントは CAC プロバイダー定義外であり、機密データを処理するエンタープライズ使用ケースのコンプライアンス負担を大幅に低減。

ソース

Ollama インストール時の一般的な間違いとは?

  • Ollama がバックグラウンド サービスとして実行されていることを確認せずに、API が応答すると予想。macOS では メニュー バーに Llama アイコンが表示されることを確認。Linux で `systemctl status ollama` を実行。Windows でシステム トレイを確認。
  • 最初にメモリ要件を確認せずに、利用可能な RAM より大きいモデルを実行しようとする。7B モデルが Q4 量化には約 4~5 GB VRAM が必要。モデル ファイル サイズに 1.2 を常に乗じて必要な RAM を推定。
  • GPU 検出を無視 - Ollama は NVIDIA と AMD をサポート但し最新のドライバーが必要。Windows で NVIDIA ドライバー バージョン 452.39+ を `nvidia-smi` で確認。Linux で NVIDIA コンテナ ツールキットがインストールされていることを確認。
  • VRAM(GPU メモリ)とシステム RAM を混同。Ollama は CPU で実行でき但し GPU 加速が 5~10 倍高速。離散 GPU があるが推論が遅い場合、Ollama は GPU ドライバーが不足または時代遅れのため CPU にフォール バック。
  • モデル ダウンロードがキャッシュされていることを理解していない。初回実行時 `ollama pull llama3.2` は 2 GB ダウンロードに 5~10 分。以降の実行はキャッシュされたモデルを使用して 5 秒以内に開始。

よくある質問

Ollama は無料ですか?

はい、Ollama は MIT ライセンス下で無料かつオープンソース。使用制限、API キー不要、すべての推論はマシンでローカルに実行。

Ollama は Windows で動作しますか?

はい。Ollama は 2024 年以降、安定したネイティブ Windows インストーラーを持つ (2026 年にパフォーマンス改善)。ollama.com からダウンロード。Windows で NVIDIA GPU を CUDA 経由で、AMD GPU を ROCm 経由でサポート。

Ollama を実行するのに必要な RAM はどれくらいですか?

Q4 量化の 3B~7B モデルに最小 8 GB RAM。16 GB RAM は 7B モデルを快適に処理、13B モデルを Q4 で。CPU のみの 34B モデルには 32 GB+ RAM をお勧め。

Ollama を最新バージョンに更新するにはどうすればよいですか?

macOS では Ollama は自動更新。Windows では ollama.com から最新インストーラーをダウンロードして実行。Linux ではインストール スクリプトを再実行: curl -fsSL https://ollama.com/install.sh | sh

コード変更なしで OpenAI SDK 経由で Ollama を使用できますか?

はい。OpenAI SDK で base_url を http://localhost:11434/v1 に設定し、任意の文字列を API キーとして渡す。Ollama の REST API は完全に OpenAI 互換なので、GPT または Claude 向けに記述されたアプリケーションはローカル モデルを使用できます。

Ollama 推論が遅い(5 トークン/秒未満)のはなぜですか?

モデルは GPU ではなく CPU で実行可能。ollama ps でモデルが読み込まれていることを確認。GPU 使用率が 0% の場合、GPU ドライバーがインストール・最新化されていることを確認。NVIDIA では nvidia-smi が GPU を表示すべき。AMD では rocm-smi。Mac では Metal GPU 加速が Apple Silicon で自動。

Ollama は複数のモデルを同時に実行できますか?

Ollama はプロセスあたり一度に 1 つのモデルを実行。ただし、複数の Ollama インスタンスを異なるポート(例:OLLAMA_HOST=localhost:11434 および OLLAMA_HOST=localhost:11435)で実行し、複数のモデルを並列で提供可能。これには さらなる RAM が必要。

ollama pull と ollama run の違いは?

ollama pull は Ollama ライブラリからモデルをダウンロード、メモリに読み込まず。ollama run はモデルをダウンロード(キャッシュされていない場合)し、即座にチャット セッション開始。API 経由でチャット インターフェースなしにモデルを使用するには、最初に pull してから API をクエリ。

Ollama を使用したローカル LLM は個人情報保護方針法(APPI)準拠ですか?

すべてではありませんが、一部です。ローカル LLM は データをローカルに処理し但し APPI 準拠には さらに: ディスク暗号化、アクセス制御、処理記録、および該当する場合は業務委託契約が必要。Ollama によるローカル処理は重要なステップ但し APPI 準拠の完全な証拠ではなく、データ保護責任者(DPO)に相談。

日本の大企業で Ollama を本番環境で使用できますか?

はい。多くの日本企業は内部ドキュメント処理、コード レビュー、データ分析のため Ollama をローカルで使用。重要: Ollama を localhost にバインド(既定値)、機密データ用にディスク暗号化を有効化、コンプライアンス要件を確認(特にカスタマー データ)。これらの対策により、Ollama はクラウド依存なしに組織内で AI を利用する費用効率的な方法。

サードパーティの情報に関する注意

この記事はサードパーティのAIモデル、ベンチマーク、価格、ライセンスを参照しています。AIの状況は急速に変化しています。ベンチマークスコア、ライセンス条件、モデル名、API価格は執筆時とお読みになる時の間で変わる可能性があります。この記事に基づいてデプロイやコンプライアンスに関する決定を下す前に、各プロバイダーの公式ソース(ライセンスとベンチマークはHugging Faceのモデルカード、API価格はプロバイダーのウェブサイト、現在のGDPRとEU AI法のテキストはEUR-Lex)で最新の数値を確認してください。この記事は2026年5月時点で公開されている情報を反映しています。

ローカルLLM、独自のAPIキー、またはその両方でPromptQuorumを使用できます — バックエンドはあなたが選択します。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る