Skip to main content
PromptQuorumPromptQuorum
ホーム/Power Local LLM/ファイアウォール背後でのローカルAI:オフライン展開ガイド 2026
Coding Assistants

ファイアウォール背後でのローカルAI:オフライン展開ガイド 2026

·12分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

まず接続マシンでOllama・Q4_K_Mモデル・トークナイザー設定をダウンロード。USB/SSDでオフラインホストに転送。最初のダウンロード後はインターネット不要。

企業ファイアウォールの背後やエアギャップ環境でローカルAIを運用するには、インターネット接続を失う前にすべての依存関係をダウンロードする必要があります。このガイドでは、完全な事前チェックリスト、OllamaとLlama.cppのオフラインワークフロー、そして日本のMETIガイドラインやデータ居住要件に対応する組織向けのハードウェア推奨事項を提供します。

重要なポイント

  • 接続マシンですべてダウンロード:Ollamaバイナリ・GGUFモデル・トークナイザー設定
  • USB-SSDまたは内部ネットワーク経由で転送——クラウド同期は使わない
  • OLLAMA_MODELS環境変数をオフラインモデルディレクトリに設定
  • Qwen2.5 14B(Q4_K_M、9.5 GB)が推奨オフラインデフォルト
  • METIガイドライン:ローカル推論でデータが外部に出ない

事前チェックリスト

孤立環境に移る前に接続マシンですべて確認。

  1. 1
    Ollamaバイナリ — ollama.comからOS用をダウンロード。バージョン≥0.3.0推奨。
  2. 2
    モデルGGUFollama pull qwen2.5:14b-instruct-q4_K_Mを接続マシンで実行。
  3. 3
    埋め込みモデル(オフラインRAG用)— ollama pull nomic-embed-text
  4. 4
    検証ハッシュ — 転送前に各GGUFファイルでsha256sumを実行。

ダウンロードコマンド

接続マシンで実行。

  • ollama pull qwen2.5:14b-instruct-q4_K_M — 9.5 GB、推奨デフォルト
  • ollama pull nomic-embed-text — 274 MB、オフラインRAG用

Ollama air-gapワークフロー

オフラインマシンへのファイル転送後:

  1. 1
    ~/.ollama/ディレクトリ全体をオフラインホストの同じパスにコピー。
  2. 2
    バイナリインストール:chmod +x ollama && sudo mv ollama /usr/local/bin/
  3. 3
    モデルディレクトリ設定:export OLLAMA_MODELS=/path/to/models
  4. 4
    サーバー起動:ollama serve — ログでネットワーク呼び出しなしを確認。
  5. 5
    オフラインテスト:ollama run qwen2.5:14b

llama.cpp air-gapワークフロー

バイナリ + GGUF後、llama.cppは完全に自己完結。

  • バイナリとGGUFをオフラインマシンに転送。
  • 実行:./llama-server -m ./qwen2.5-14b-instruct-q4_K_M.gguf --port 8080
  • OpenAI互換API:http://localhost:8080/v1

NASストレージサイジング

小チーム向けモデルライブラリは通常3〜6モデルを保有。

METIガイドライン・データ管理対応

日本のMETI AIガイドラインとデータガバナンスフレームワークへの対応。

  • データ管理: ローカル推論によりデータがハードウェアから出ない。METIの「AI利活用ガイドライン」のデータ管理要件を満たしやすい。
  • モデル記録: METIガイドラインではモデル名とバージョンの記録が求められる。Ollamaはモデル情報を~/.ollama/models/に保存——記録に活用可能。
  • 監査ログ: Ollamaはデフォルトでプロンプトを記録しない。監査ログが必要な場合はミドルウェアをローカルに追加。

オフラインRAGセットアップ

完全オフラインのRAGには:ローカルLLM + ローカル埋め込みモデル + ローカルベクターDB。

  1. 1
    埋め込みモデル: ollama pull nomic-embed-textを接続マシンで。Ollamaディレクトリと一緒に転送。
  2. 2
    ベクターDB: Chromaスタンドアロンバイナリ(Python不要)またはQdrantバイナリリリース。
  3. 3
    クエリフロー: 文書 → nomic-embed-textで埋め込み → ローカルDBからtop-kチャンク → Qwen2.5 → 応答。外部呼び出しゼロ。

よくある質問

オフライン実行時にOllamaはネットワーク呼び出しをしますか?

しません。Ollamaはモデルのダウンロード・更新時のみollama.comに接続します。ローカルキャッシュでollama serveを実行した場合、外部接続は発生しません。

METIガイドライン対応のため最適なモデルは?

Qwen2.5 14B(Q4_K_M、9.5 GB VRAM)。日本語・中国語・英語に対応し、METI推奨の高品質なAI出力を実現します。モデル名とバージョン(qwen2.5:14b-instruct-q4_K_M)を記録に残してください。

← Power Local LLM に戻る

ファイアウォール背後のローカルAI 2026:オフライン展開 | PromptQuorum