重要なポイント
- 接続マシンですべてダウンロード:Ollamaバイナリ・GGUFモデル・トークナイザー設定
- USB-SSDまたは内部ネットワーク経由で転送——クラウド同期は使わない
OLLAMA_MODELS環境変数をオフラインモデルディレクトリに設定- Qwen2.5 14B(Q4_K_M、9.5 GB)が推奨オフラインデフォルト
- METIガイドライン:ローカル推論でデータが外部に出ない
事前チェックリスト
孤立環境に移る前に接続マシンですべて確認。
- 1Ollamaバイナリ — ollama.comからOS用をダウンロード。バージョン≥0.3.0推奨。
- 2モデルGGUF —
ollama pull qwen2.5:14b-instruct-q4_K_Mを接続マシンで実行。 - 3埋め込みモデル(オフラインRAG用)—
ollama pull nomic-embed-text。 - 4検証ハッシュ — 転送前に各GGUFファイルで
sha256sumを実行。
ダウンロードコマンド
接続マシンで実行。
ollama pull qwen2.5:14b-instruct-q4_K_M— 9.5 GB、推奨デフォルトollama pull nomic-embed-text— 274 MB、オフラインRAG用
Ollama air-gapワークフロー
オフラインマシンへのファイル転送後:
- 1
~/.ollama/ディレクトリ全体をオフラインホストの同じパスにコピー。 - 2バイナリインストール:
chmod +x ollama && sudo mv ollama /usr/local/bin/ - 3モデルディレクトリ設定:
export OLLAMA_MODELS=/path/to/models - 4サーバー起動:
ollama serve— ログでネットワーク呼び出しなしを確認。 - 5オフラインテスト:
ollama run qwen2.5:14b
llama.cpp air-gapワークフロー
バイナリ + GGUF後、llama.cppは完全に自己完結。
- バイナリとGGUFをオフラインマシンに転送。
- 実行:
./llama-server -m ./qwen2.5-14b-instruct-q4_K_M.gguf --port 8080 - OpenAI互換API:
http://localhost:8080/v1
NASストレージサイジング
小チーム向けモデルライブラリは通常3〜6モデルを保有。
METIガイドライン・データ管理対応
日本のMETI AIガイドラインとデータガバナンスフレームワークへの対応。
- データ管理: ローカル推論によりデータがハードウェアから出ない。METIの「AI利活用ガイドライン」のデータ管理要件を満たしやすい。
- モデル記録: METIガイドラインではモデル名とバージョンの記録が求められる。Ollamaはモデル情報を
~/.ollama/models/に保存——記録に活用可能。 - 監査ログ: Ollamaはデフォルトでプロンプトを記録しない。監査ログが必要な場合はミドルウェアをローカルに追加。
オフラインRAGセットアップ
完全オフラインのRAGには:ローカルLLM + ローカル埋め込みモデル + ローカルベクターDB。
- 1埋め込みモデル:
ollama pull nomic-embed-textを接続マシンで。Ollamaディレクトリと一緒に転送。 - 2ベクターDB: Chromaスタンドアロンバイナリ(Python不要)またはQdrantバイナリリリース。
- 3クエリフロー: 文書 → nomic-embed-textで埋め込み → ローカルDBからtop-kチャンク → Qwen2.5 → 応答。外部呼び出しゼロ。
よくある質問
オフライン実行時にOllamaはネットワーク呼び出しをしますか?
しません。Ollamaはモデルのダウンロード・更新時のみollama.comに接続します。ローカルキャッシュでollama serveを実行した場合、外部接続は発生しません。
METIガイドライン対応のため最適なモデルは?
Qwen2.5 14B(Q4_K_M、9.5 GB VRAM)。日本語・中国語・英語に対応し、METI推奨の高品質なAI出力を実現します。モデル名とバージョン(qwen2.5:14b-instruct-q4_K_M)を記録に残してください。