Skip to main content
PromptQuorumPromptQuorum
ホーム/ローカルLLM/カスタム ローカル LLM を構築する 2026 年版:Unsloth と Ollama による Fine-tuning vs. Pre-training
高度な技術

カスタム ローカル LLM を構築する 2026 年版:Unsloth と Ollama による Fine-tuning vs. Pre-training

·12分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

カスタム ローカル LLM を構築するとは、既存モデルを fine-tune するか、ゼロから pre-train することを意味します。2026 年 4 月現在、LoRA による fine-tuning はコンシューマー ハードウェアで実用的です:500 サンプル、8 GB VRAM、1~2 時間、¥15,000~30,000。

カスタム ローカル LLM を構築するとは、既存モデルを fine-tune するか、ゼロから pre-train することを意味します。2026 年 4 月現在、LoRA による fine-tuning はコンシューマー ハードウェアで実用的です:500 サンプル、8 GB VRAM、1~2 時間、¥15,000~30,000。Pre-training には ¥6,000,000~60,000,000 かかり、100 億+ トークンが必要です—稀な独自ニーズのみ正当化されます。このガイドは両方のアプローチをカバーしています:Unsloth を使用した 7 ステップ fine-tuning パス、fine-tuning vs. pre-training vs. RAG の決定マトリックス、および Ollama への デプロイメント。

スライドデッキ: カスタム ローカル LLM を構築する 2026 年版:Unsloth と Ollama による Fine-tuning vs. Pre-training

スライドデッキは以下をカバーしています:fine-tuning vs pre-training コスト分析、Unsloth 7 ステップパス、GGUF デプロイメント、本番対応性メトリクス。カスタム LLM fine-tuning リファレンスカードとしてダウンロード。

以下のスライドを閲覧するか、PDFとしてダウンロードしてください。 リファレンスカードをダウンロード(PDF)

重要なポイント

  • Fine-tuning(推奨): 8 GB VRAM、500+ トレーニング例、1-4 時間。コスト:¥15,000-30,000。
  • Pre-training: 8+ GPU、100B+ トークン、数週間のトレーニング。コスト:¥6,000,000-60,000,000。
  • ほとんどの組織は pre-train ではなく fine-tune すべき。カスタム pre-training で収益逓減。
  • ベストアプローチ:ドメインデータで fine-tuning を開始してから、pre-training が正当化されるかどうかを評価します。
  • 2026 年 4 月時点では、proprietary モデルが必要でない限り pre-training はほぼ正当化されません。

Fine-Tuning と Pre-Training

AspectFine-TuningPre-Training
トレーニング時間1-4 時間数週間-数ヶ月
必要 VRAM8 GB100+ GB(マルチ GPU)
必要データ500-5k 例100B+ トークン
コスト¥15,000-30,000¥6,000,000-60,000,000
カスタマイズドメイン知識Proprietary モデル
使用する時99% ケースレア、専門的ニーズ
Fine-tuning(1~4 時間、¥15,000-30,000、8 GB VRAM)vs pre-training(数週間-数ヶ月、¥6,000,000-60,000,000、100+ GB):トレーニング時間、コスト、データ要件、各アプローチを使用する時期の比較。
Fine-tuning(1~4 時間、¥15,000-30,000、8 GB VRAM)vs pre-training(数週間-数ヶ月、¥6,000,000-60,000,000、100+ GB):トレーニング時間、コスト、データ要件、各アプローチを使用する時期の比較。

Fine-Tuning パス(推奨)

  1. 1
    500-5000 ドメイン固有サンプルを収集(高品質が重要)。
  2. 2
    ベースモデルを選択(Llama 3.3 8B、Qwen 7B など)。
  3. 3
    効率的なトレーニングに LoRA を使用(4 倍高速、同じ品質)。
  4. 4
    GPU で 3-5 epoch トレーニング。
  5. 5
    テストセットで評価(精度、再現率、カスタムメトリクス)。
  6. 6
    LoRA アダプターをベースモデルにマージ。
  7. 7
    本番モデルとしてデプロイ。
7 ステップ fine-tuning ワークフロー:データ収集→ベースモデル選択→LoRA トレーニング(3~5 epoch、8 GB VRAM)→評価→マージ→GGUF 変換→Ollama デプロイ。総時間:1~4 時間。
7 ステップ fine-tuning ワークフロー:データ収集→ベースモデル選択→LoRA トレーニング(3~5 epoch、8 GB VRAM)→評価→マージ→GGUF 変換→Ollama デプロイ。総時間:1~4 時間。

LoRA と完全な Fine-Tuning:どちらを選ぶ?

LoRA(Low-Rank Adaptation)はモデルウェイトの 1~2% のみ更新し、4 倍高速で完全な fine-tuning より 80~90% 少ない VRAM を必要とします。完全な fine-tuning はすべてのウェイトを更新し、わずかに良い結果(2~5% 精度向上)を与えますが、64+ GB VRAM と大量の計算が必要です。

LoRA(4 倍高速、8 GB VRAM、95-98% 精度)vs 完全な fine-tuning(ベース速度、64+ GB VRAM、+2-5% ゲイン):速度-精度トレードオフ VRAM 要件比較。
LoRA(4 倍高速、8 GB VRAM、95-98% 精度)vs 完全な fine-tuning(ベース速度、64+ GB VRAM、+2-5% ゲイン):速度-精度トレードオフ VRAM 要件比較。

モデルサイズ別 VRAM 要件

すべてのモデルが LoRA fine-tuning で 8 GB VRAM に収まるわけではありません。実行できるものは以下の通りです:

Fine-tuning VRAM 互換性:3B-8B モデル ✓ 8 GB で動作、13B ✓ 動作するがきつい、32B には 64+ GB が必要、70B は不可能。LoRA はバッチトレーニングに ~25% オーバーヘッドを追加。
Fine-tuning VRAM 互換性:3B-8B モデル ✓ 8 GB で動作、13B ✓ 動作するがきつい、32B には 64+ GB が必要、70B は不可能。LoRA はバッチトレーニングに ~25% オーバーヘッドを追加。

カスタムモデルを Ollama にデプロイ

LoRA アダプターをマージした後、3 ステップで Ollama にデプロイ:

  1. 1
    ステップ 1 — GGUF にエクスポート: llama.cpp の変換スクリプトを使用してマージモデルを PyTorch/safetensors 形式から GGUF に変換します。Ollama と llama.cpp の互換性に不可欠です。 ```bash python convert_hf_to_gguf.py \ --model ./merged-model \ --outfile ./my-custom-model.gguf \ --outtype q4_k_m ```
  2. 2
    ステップ 2 — Ollama Modelfile を作成: モデルのシステムプロンプト、パラメーター、推論設定を定義します。 ``` FROM ./my-custom-model.gguf SYSTEM "あなたは[ドメイン]エキスパート..." PARAMETER temperature 0.4 PARAMETER num_ctx 4096 ```
  3. 3
    ステップ 3 — 登録して実行: モデルをローカルまたは API アクセス用に Ollama にロード。 ```bash ollama create my-custom-model -f Modelfile ollama run my-custom-model ``` Fine-tune モデルは localhost:11434 で Ollama の OpenAI 互換 API 経由でアクセス可能—標準 Ollama モデルと同じ。Python/Node.js OpenAI SDK を使用して Continue.dev、Open WebUI、またはアプリで使用。

Pre-Training:いつ、なぜ

Pre-training はraw データ(書籍、ドキュメント、コード)から学習を意味します。 次の場合のみ正当化されます:

1. 100 億以上トークンのユニークで貴重なデータがある。

2. Pre-train モデルがドメイン上で定期的に失敗する。

3. 予算が 50,000 ドル以上(現実的コスト)。

4. 競争上の優位性のための proprietary モデルが必要。

こんにちは:ゲノミクス企業 500GB 私有研究データがカスタム pre-training を正当化するかもしれません。

決定マトリックス:どのアプローチを使用するか?

カスタムモデルには 3 つの主要なアプローチが存在します。データ、予算、スケジュールに基づいて選択:

決定マトリックス:トレーニングデータがない場合は RAG(0 円)を使用、500+ サンプルがある場合は fine-tuning(¥15,000-30,000、1~4 時間)、100B+ トークンがある場合は pre-training(¥6,000,000-60,000,000、数週間-数ヶ月)。
決定マトリックス:トレーニングデータがない場合は RAG(0 円)を使用、500+ サンプルがある場合は fine-tuning(¥15,000-30,000、1~4 時間)、100B+ トークンがある場合は pre-training(¥6,000,000-60,000,000、数週間-数ヶ月)。

ドメイン適応戦略

完全な pre-training なしで、ドメイン上のモデルパフォーマンスを改善:

  • 継続 pre-training: ベースモデルを取り、ドメインデータでトレーニング(10B+ トークン)。完全な pre-training より安価。
  • LoRA fine-tuning: 最も実用的。500+ サンプルで微調整。
  • Prompt engineering: 優れたプロンプトを作成。無料ですが制限される。
  • RAG: ドキュメントを取得、コンテキストを提供。リトレーニングなしで動作。
  • Ensemble: 複数のモデルを組み合わせる。

評価メトリクス

モデル品質を測定:

  • タスク固有メトリクス: 精度、F1 スコア、BLEU(テキスト生成)。
  • ベンチマークテスト: 標準ベンチマーク(MMLU、HumanEval)で実行。
  • 人間評価: 手動スコアリング(時間消費するが正確)。
  • ビジネスメトリクス: モデルは実際のビジネス結果を改善していますか?

一般的なミス

  • データ不足での pre-training。 <10B トークンは計算が無駄。代わりに fine-tune。
  • 正しく評価しない。 トレーニング loss だけでは誤解。見ていないデータでテスト。
  • カスタムモデルが GPT-4 に匹敵することを期待。 Open モデルとフロンティアモデル間のギャップは大きい。
  • 推論コストを無視。 より大きいカスタムモデル = より高い推論コスト。トレードオフを検討。
  • GGUF 変換ステップをスキップ。 Unsloth または HuggingFace での fine-tuning 後、モデルは PyTorch/safetensors 形式。Ollama と llama.cpp は GGUF が必要。llama.cpp の `convert_hf_to_gguf.py` を使用して変換。このステップなしでは、fine-tune モデルは Ollama、LM Studio、または GGUF ベースの推論エンジンで実行できません。変換中に常に量子化(Q4_K_M 推奨)してファイルサイズを 3-4 倍削減。

よくある質問

Fine-tuning はプレトレーニングモデルの品質に匹敵できますか?

Fine-tune モデルは特定ドメインでベースモデル機能を上回ることができますが、より大きいプレトレーニングモデルの知識幅には及びません。法律ドキュメント上で fine-tune した Llama 3.3 8B は法律タスクで Llama 3.3 70B を上回りますが、一般知識では下回ります。ドメイン固有精度が幅より重要な場合、fine-tune してください。

効果的に fine-tune するにはどのくらいデータが必要ですか?

最小 500~1,000 サンプルで使用可能なモデル;5,000+ は本番品質。データ品質は量より重要—1,000 高品質サンプルは 50,000 低品質サンプルに勝ります。小さいデータセット(500~2,000 サンプル)では LoRA、10,000+ サンプルでのみ完全な fine-tuning を使用。

LoRA と完全な fine-tuning の違いは何ですか?

LoRA(Low-Rank Adaptation)はモデルウェイトの 1~2% のみ更新し、4 倍高速で 80~90% 少ない VRAM が必要。完全な fine-tuning はすべてのウェイトを更新し、わずかに良い結果(~2~5% 精度向上)を与えますが大量計算が必要。ほとんどのプロジェクトでは LoRA;完全な fine-tuning は予算がある場合のみ。

fine-tuning ではなく pre-training を検討すべきですか?

次の場合のみ:(1) 100 億以上ユニークトークンがある、(2) fine-tuning が精度目標に達しない、(3) 予算が 50,000 ドル以上、(4) 競争上の優位性が必要。99% の組織では fine-tuning が正しい選択。

カスタムモデルが本番対応かどうかを評価するにはどうすればよいですか?

3 つの次元でテスト:(1) タスク固有メトリクス(精度、F1、BLEU)、(2) ベンチマーク比較(MMLU または HumanEval で実行)、(3) ビジネスメトリクス(実際の結果を改善していますか?)。Fine-tune モデルがベースモデルを 5-10% 上回る場合、本番対応。

Fine-tuning とプロンプトエンジニアリングを組み合わせてより良い結果を得ることができますか?

はい—ベストプラクティス。Fine-tuning は構造的変更(ドメイン言語、形式)を処理;プロンプトエンジニアリングは特定ユースケース処理。Fine-tune 法的モデル + 優れたプロンプトエンジニアリングはどちらか単独より優れています。プロンプト最適化(無料)で始め、必要に応じて fine-tune。

Fine-tuning に使用すべきフレームワークは何ですか?

Unsloth(最大2×高速、unsloth.ai参照)、Axolotl(柔軟)、Hugging Face Transformers(公式、最も文書化)が主要オプション。速度なら Unsloth;マルチ GPU セットアップなら Axolotl 推奨。すべて LoRA サポート、Ollama デプロイメント対応。

Pre-training がコスト価値があるかどうかを知るにはどうすればよいですか?

この計算を実行:(1) タスク上の fine-tuning 品質ギャップを推定(ex. fine-tuning は 85%、pre-training は 92%)。(2) 精度ポイントごとのビジネス価値を定量化(ex. +1% = $10k 収入)。(3) ($50k pre-training コスト) < (7% 改善価値) なら pre-train。そうでなければ fine-tune。

カスタムモデルの地域別考慮事項

カスタムモデルはデータプライバシーと規制上の影響が地域によって異なります。Fine-tune またはプレトレーニングモデルをデプロイする前に、地域別のコンプライアンス要件を理解してください:

  • 日本(APPI): 日本の個人情報保護法は個人データの訓練に明示的な同意を要求します。医療または金融サービス用カスタムモデルはデータレジデンシーを要求します(処理は日本で行う必要があります)。オンプレミス fine-tuning とデプロイメントを検討。
  • アジア太平洋(データ跨域): ASEAN/APAC データレジデンシーフレームワーク、MLAI(マルチ ASEAN/APAC)コンプライアンスパターン。
  • 中国(DSL + CAC): 中国のデータセキュリティ法とサイバースペース規制は個人および産業データの地元処理を要求。中国データで訓練したカスタムモデルは中国インフラで訓練される必要があります。中国へのデプロイ用プレトレーニングモデルは CAC 登録が必要。
  • 米国: 連邦 LLM 規制なし(2026 年 4 月現在)。州レベルのルールは異なります;カリフォルニア法は アルゴリズム透明性に焦点。金融/医療モデルについては、規制機関(SEC、FDA、CMS)がドキュメンテーション要件を課す可能性。モデル変更の監査証跡を検討。

ソース

サードパーティの情報に関する注意

この記事はサードパーティのAIモデル、ベンチマーク、価格、ライセンスを参照しています。AIの状況は急速に変化しています。ベンチマークスコア、ライセンス条件、モデル名、API価格は執筆時とお読みになる時の間で変わる可能性があります。この記事に基づいてデプロイやコンプライアンスに関する決定を下す前に、各プロバイダーの公式ソース(ライセンスとベンチマークはHugging Faceのモデルカード、API価格はプロバイダーのウェブサイト、現在のGDPRとEU AI法のテキストはEUR-Lex)で最新の数値を確認してください。この記事は2026年5月時点で公開されている情報を反映しています。

ローカルLLM、独自のAPIキー、またはその両方でPromptQuorumを使用できます — バックエンドはあなたが選択します。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る