Skip to main content
PromptQuorumPromptQuorum
ホーム/ローカルLLM/Mac上のOllama 2026:Apple Silicon完全セットアップガイド(M1–M5、Metal GPU)
Hardware & Performance

Mac上のOllama 2026:Apple Silicon完全セットアップガイド(M1–M5、Metal GPU)

·10分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

Ollamaインストール:`brew install ollama`。Metal GPU自動。モデルダウンロード:`ollama pull llama2`。実行:`ollama run llama2`。REST APIは`localhost:11434`で利用可能。

Apple Silicon Mac 2026向けの完全なOllamaセットアップガイド。ワンコマンドインストール、Metal GPU確認、モデル管理(pull、run、list)、マルチモデルセットアップのためのメモリ最適化、開発者向けREST API設定。

クイックセットアップ(3コマンド)

  1. 1
    Ollamaをインストール
    Why it matters: `brew install ollama` — ワンクリックインストール。
  2. 2
    モデルをダウンロード
    Why it matters: `ollama pull llama2` — Llama 3.3 7Bをダウンロードします。
  3. 3
    チャットを開始
    Why it matters: `ollama run llama2` — 対話型チャットインターフェース。

Metal GPU確認

macOS上のOllamaではMetal GPU加速が自動的に有効になります。設定は不要です。Metalが動作していることを確認するには:

  1. 1
    詳細出力で実行
    Why it matters: `ollama run llama3.1:8b --verbose`を実行し、コンソール出力で`ggml_metal_init: found device: Apple M[X]`を確認します。
  2. 2
    推論中の速度を確認
    Why it matters: トークン生成レートを観察:Macによって20–60 tok/sであるべき(M5 Pro:Llama 3.3 8Bで約50 tok/s)。CPUのみのフォールバック:約1–5 tok/s。
  3. 3
    GPU使用率を監視
    Why it matters: アクティビティモニタ(アプリケーション → ユーティリティ)を開いてGPUセクションを確認。Metalが動作している場合、推論中は80–100%のGPU使用率を示すはず。

モデル管理

  1. 1
    `ollama pull <モデル>`
    Why it matters: モデルをダウンロード。例:`ollama pull mistral`。
  2. 2
    `ollama list`
    Why it matters: ダウンロード済みの全モデルを一覧表示。
  3. 3
    `ollama run <モデル>`
    Why it matters: モデルで対話型チャットを開始。
  4. 4
    `ollama rm <モデル>`
    Why it matters: ストレージを解放するためにモデルを削除。

Apple Siliconのメモリ最適化

  • OLLAMA_MAX_LOADED_MODELS:メモリに保持するモデル数。デフォルト:1。マルチモデルセットアップでは2–3に設定。
  • GPUレイヤー:デフォルトでOllamaは利用可能なすべてのユニファイドメモリを使用。メモリが不足する場合はModelfileで`num_gpu_layers`を設定。
  • Whisper:埋め込みモデルとLLMと組み合わせ — OllamaでM5 Pro 64GBに収まります。

複数モデルの同時実行

Whisper STT + Llama 3.3 8B + LLaVA Visionを同時に実行する必要がありますか?すべてをメモリにロードしておくようにOllamaを設定します。

bash
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_KEEP_ALIVE=1h
brew services restart ollama

# Now pull all models you need
ollama pull llama3.1:8b
ollama pull llava:7b

# Send requests to each — they stay loaded
curl http://localhost:11434/api/chat -d '{"model": "llama3.1:8b", "messages": [{"role": "user", "content": "Hello"}]}'
curl http://localhost:11434/api/chat -d '{"model": "llava:7b", "messages": [{"role": "user", "content": "Describe this image"}]}'

ログイン時の自動起動

Ollamaはbrew servicesを通じてMacにログインすると自動的に起動できます。

bash
# Enable auto-start
brew services start ollama

# Check status
brew services list | grep ollama

# Disable auto-start (optional)
brew services stop ollama

開発者向けAPIセットアップ

OllamaはOpenAI互換のREST APIを`localhost:11434`で公開しています。`ollama serve`またはbrew servicesでサーバーを起動し、任意のプログラミング言語からリクエストを送信できます。

bash
# Chat endpoint (streaming)
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.1:8b",
  "messages": [{"role": "user", "content": "Write a Python function"}],
  "stream": false
}'

# Python example
import requests
response = requests.post(
  "http://localhost:11434/api/chat",
  json={
    "model": "llama3.1:8b",
    "messages": [{"role": "user", "content": "Hello"}],
    "stream": False
  }
)
print(response.json()["message"]["content"])

Modelfileのカスタマイズ

システムプロンプトとパラメータを含むカスタムモデルを作成します。

  • `ollama create llm-expert -f Modelfile` — カスタムモデルをビルド
  • `ollama run llm-expert` — カスタムモデルで対話型チャットを開始
  • `ollama run llm-expert "Code review this function"` — プロンプトを直接送信
dockerfile
FROM llama2
SYSTEM "You are an expert software engineer reviewing code for security and performance issues. Provide actionable feedback."
PARAMETER temperature 0.7
PARAMETER top_p 0.9

よくある問題と解決策

  • Metalが検出されない: `ollama run llama3.1:8b --verbose`で確認し`ggml_metal_init: found device: Apple M[X]`を探す。ない場合は再起動:`brew services restart ollama`または`pkill ollama && ollama serve &`。
  • 推論が遅い(CPUフォールバック): 原因:Metalの初期化に失敗し、モデルがCPUで動作中。アクティビティモニタを確認 — 推論中はGPU使用率が80–100%のはず。GPUが0%の場合:Ollamaを再起動。
  • メモリ不足(OOM): モデルがクラッシュするか応答が切れる。原因:モデル + コンテキスト + macOSオーバーヘッドがRAMを超えている。解決策:(1) より小さい量子化を使用(`ollama pull llama3.1:8b-q4_K_M`)、(2) コンテキストを削減(`OLLAMA_NUM_CTX=2048 ollama run llama3.1:8b`)、(3) より小さいモデルを使用(`ollama pull phi4` — 2.5 GB)。
  • モデルダウンロードが止まる: 原因:ネットワーク制限またはHuggingFaceのレート制限。修正:`pkill ollama && ollama pull llama3.1:8b`(前回の進捗から再開)。
  • ポート11434が使用中: 別のOllamaインスタンスが実行中、または別のサービスがポートを使用。確認:`lsof -i :11434`。修正:`pkill ollama`して再起動。
  • モデルが意味不明 / ランダムな文字を出力: 原因:Modelfileパラメータが範囲外、または間違ったテンプレート。修正:公式モデルを取得`ollama pull llama3.1:8b`(カスタムを上書き)、次にテスト:`ollama run llama3.1:8b "Hello, how are you?"`。
  • ストレージがいっぱいになる: モデルは`~/.ollama/models/`に保存。サイズ確認:`du -sh ~/.ollama/`。未使用を削除:`ollama rm <モデル名>`。

Ollamaは無料ですか?

はい。Ollamaはオープンソースです。モデル(Llama、Mistral)は無料でライセンスされています。料金は一切かかりません。

GPUなしでOllamaを使用できますか?

はい、ただし遅いです。CPUのみ:7Bモデルで約1–5 tok/s。GPU(MacのMetal):Macによって20–60 tok/s。

どのモデルから始めればよいですか?

Mistral SmallまたはLlama 3.3 7B。どちらもM1+ Macで動作し、良好な出力を生成します。それぞれ約4GB。

複数人が同時にOllama APIを使用できますか?

はい。1台のデバイスで`ollama serve`を実行すれば、LAN上の全員がそのデバイスのIP:11434のREST APIにアクセスできます。

OllamaはMacのダウンロード済みモデルをどこに保存しますか?

デフォルトの場所:`~/.ollama/models/`。各モデルは数GB。合計ディスク使用量の確認:`du -sh ~/.ollama/`。場所を変更するには、Ollamaを起動する前に`OLLAMA_MODELS=/パス/に/モデル`環境変数を設定します。

IntelのMacでOllamaを実行できますか?

はい、ただしMetal GPU加速なしで。パフォーマンスはCPUのみ:7Bモデルで1–5 tok/s(Apple Siliconの20–60 tok/sと比較)。テスト用には使えますが、本番用には適していません。

インストール後にOllamaはオフラインで動作しますか?

はい。モデルがダウンロードされると、Ollamaは完全にオフラインで動作します。推論にインターネット接続は不要です。モデルのダウンロード(`ollama pull`)のみインターネットアクセスが必要です。

Ollamaが動いています。次はロードする最良のオープンソースモデルを選びましょう。

Ollama向けトップオープンソースモデル →

サードパーティの情報に関する注意

この記事はサードパーティのAIモデル、ベンチマーク、価格、ライセンスを参照しています。AIの状況は急速に変化しています。ベンチマークスコア、ライセンス条件、モデル名、API価格は執筆時とお読みになる時の間で変わる可能性があります。この記事に基づいてデプロイやコンプライアンスに関する決定を下す前に、各プロバイダーの公式ソース(ライセンスとベンチマークはHugging Faceのモデルカード、API価格はプロバイダーのウェブサイト、現在のGDPRとEU AI法のテキストはEUR-Lex)で最新の数値を確認してください。この記事は2026年5月時点で公開されている情報を反映しています。

MacでOllamaが動いていますか?PromptQuorumでローカルのLlama 3.3やMistralの出力をGPT-4、Claude、Geminiや他22モデルと比較 — 特定のユースケースでローカル設定がクラウド品質に達しているか検証できます。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る