重要なポイント
- Fine-tuning(推奨): 8 GB VRAM、500+ トレーニング例、1-4 時間。コスト:¥15,000-30,000。
- Pre-training: 8+ GPU、100B+ トークン、数週間のトレーニング。コスト:¥6,000,000-60,000,000。
- ほとんどの組織は pre-train ではなく fine-tune すべき。カスタム pre-training で収益逓減。
- ベストアプローチ:ドメインデータで fine-tuning を開始してから、pre-training が正当化されるかどうかを評価します。
- 2026 年 4 月時点では、proprietary モデルが必要でない限り pre-training はほぼ正当化されません。
Fine-Tuning と Pre-Training
| Aspect | Fine-Tuning | Pre-Training |
|---|---|---|
| トレーニング時間 | 1-4 時間 | 数週間-数ヶ月 |
| 必要 VRAM | 8 GB | 100+ GB(マルチ GPU) |
| 必要データ | 500-5k 例 | 100B+ トークン |
| コスト | ¥15,000-30,000 | ¥6,000,000-60,000,000 |
| カスタマイズ | ドメイン知識 | Proprietary モデル |
| 使用する時 | 99% ケース | レア、専門的ニーズ |
Fine-Tuning パス(推奨)
- 1500-5000 ドメイン固有サンプルを収集(高品質が重要)。
- 2ベースモデルを選択(Llama 3.1 8B、Qwen 7B など)。
- 3効率的なトレーニングに LoRA を使用(4 倍高速、同じ品質)。
- 4GPU で 3-5 epoch トレーニング。
- 5テストセットで評価(精度、再現率、カスタムメトリクス)。
- 6LoRA アダプターをベースモデルにマージ。
- 7本番モデルとしてデプロイ。
LoRA と完全な Fine-Tuning:どちらを選ぶ?
LoRA(Low-Rank Adaptation)はモデルウェイトの 1~2% のみ更新し、4 倍高速で完全な fine-tuning より 80~90% 少ない VRAM を必要とします。完全な fine-tuning はすべてのウェイトを更新し、わずかに良い結果(2~5% 精度向上)を与えますが、64+ GB VRAM と大量の計算が必要です。
モデルサイズ別 VRAM 要件
すべてのモデルが LoRA fine-tuning で 8 GB VRAM に収まるわけではありません。実行できるものは以下の通りです:
カスタムモデルを Ollama にデプロイ
LoRA アダプターをマージした後、3 ステップで Ollama にデプロイ:
- 1ステップ 1 — GGUF にエクスポート: llama.cpp の変換スクリプトを使用してマージモデルを PyTorch/safetensors 形式から GGUF に変換します。Ollama と llama.cpp の互換性に不可欠です。 ```bash python convert_hf_to_gguf.py \ --model ./merged-model \ --outfile ./my-custom-model.gguf \ --outtype q4_k_m ```
- 2ステップ 2 — Ollama Modelfile を作成: モデルのシステムプロンプト、パラメーター、推論設定を定義します。 ``` FROM ./my-custom-model.gguf SYSTEM "あなたは[ドメイン]エキスパート..." PARAMETER temperature 0.4 PARAMETER num_ctx 4096 ```
- 3ステップ 3 — 登録して実行: モデルをローカルまたは API アクセス用に Ollama にロード。 ```bash ollama create my-custom-model -f Modelfile ollama run my-custom-model ``` Fine-tune モデルは localhost:11434 で Ollama の OpenAI 互換 API 経由でアクセス可能—標準 Ollama モデルと同じ。Python/Node.js OpenAI SDK を使用して Continue.dev、Open WebUI、またはアプリで使用。
Pre-Training:いつ、なぜ
Pre-training はraw データ(書籍、ドキュメント、コード)から学習を意味します。 次の場合のみ正当化されます:
1. 100 億以上トークンのユニークで貴重なデータがある。
2. Pre-train モデルがドメイン上で定期的に失敗する。
3. 予算が 50,000 ドル以上(現実的コスト)。
4. 競争上の優位性のための proprietary モデルが必要。
こんにちは:ゲノミクス企業 500GB 私有研究データがカスタム pre-training を正当化するかもしれません。
決定マトリックス:どのアプローチを使用するか?
カスタムモデルには 3 つの主要なアプローチが存在します。データ、予算、スケジュールに基づいて選択:
ドメイン適応戦略
完全な pre-training なしで、ドメイン上のモデルパフォーマンスを改善:
- 継続 pre-training: ベースモデルを取り、ドメインデータでトレーニング(10B+ トークン)。完全な pre-training より安価。
- LoRA fine-tuning: 最も実用的。500+ サンプルで微調整。
- Prompt engineering: 優れたプロンプトを作成。無料ですが制限される。
- RAG: ドキュメントを取得、コンテキストを提供。リトレーニングなしで動作。
- Ensemble: 複数のモデルを組み合わせる。
評価メトリクス
モデル品質を測定:
- タスク固有メトリクス: 精度、F1 スコア、BLEU(テキスト生成)。
- ベンチマークテスト: 標準ベンチマーク(MMLU、HumanEval)で実行。
- 人間評価: 手動スコアリング(時間消費するが正確)。
- ビジネスメトリクス: モデルは実際のビジネス結果を改善していますか?
一般的なミス
- データ不足での pre-training。 <10B トークンは計算が無駄。代わりに fine-tune。
- 正しく評価しない。 トレーニング loss だけでは誤解。見ていないデータでテスト。
- カスタムモデルが GPT-4 に匹敵することを期待。 Open モデルとフロンティアモデル間のギャップは大きい。
- 推論コストを無視。 より大きいカスタムモデル = より高い推論コスト。トレードオフを検討。
- GGUF 変換ステップをスキップ。 Unsloth または HuggingFace での fine-tuning 後、モデルは PyTorch/safetensors 形式。Ollama と llama.cpp は GGUF が必要。llama.cpp の `convert_hf_to_gguf.py` を使用して変換。このステップなしでは、fine-tune モデルは Ollama、LM Studio、または GGUF ベースの推論エンジンで実行できません。変換中に常に量子化(Q4_K_M 推奨)してファイルサイズを 3-4 倍削減。
よくある質問
Fine-tuning はプレトレーニングモデルの品質に匹敵できますか?
Fine-tune モデルは特定ドメインでベースモデル機能を上回ることができますが、より大きいプレトレーニングモデルの知識幅には及びません。法律ドキュメント上で fine-tune した Llama 3.1 8B は法律タスクで Llama 3.1 70B を上回りますが、一般知識では下回ります。ドメイン固有精度が幅より重要な場合、fine-tune してください。
効果的に fine-tune するにはどのくらいデータが必要ですか?
最小 500~1,000 サンプルで使用可能なモデル;5,000+ は本番品質。データ品質は量より重要—1,000 高品質サンプルは 50,000 低品質サンプルに勝ります。小さいデータセット(500~2,000 サンプル)では LoRA、10,000+ サンプルでのみ完全な fine-tuning を使用。
LoRA と完全な fine-tuning の違いは何ですか?
LoRA(Low-Rank Adaptation)はモデルウェイトの 1~2% のみ更新し、4 倍高速で 80~90% 少ない VRAM が必要。完全な fine-tuning はすべてのウェイトを更新し、わずかに良い結果(~2~5% 精度向上)を与えますが大量計算が必要。ほとんどのプロジェクトでは LoRA;完全な fine-tuning は予算がある場合のみ。
fine-tuning ではなく pre-training を検討すべきですか?
次の場合のみ:(1) 100 億以上ユニークトークンがある、(2) fine-tuning が精度目標に達しない、(3) 予算が 50,000 ドル以上、(4) 競争上の優位性が必要。99% の組織では fine-tuning が正しい選択。
カスタムモデルが本番対応かどうかを評価するにはどうすればよいですか?
3 つの次元でテスト:(1) タスク固有メトリクス(精度、F1、BLEU)、(2) ベンチマーク比較(MMLU または HumanEval で実行)、(3) ビジネスメトリクス(実際の結果を改善していますか?)。Fine-tune モデルがベースモデルを 5-10% 上回る場合、本番対応。
Fine-tuning とプロンプトエンジニアリングを組み合わせてより良い結果を得ることができますか?
はい—ベストプラクティス。Fine-tuning は構造的変更(ドメイン言語、形式)を処理;プロンプトエンジニアリングは特定ユースケース処理。Fine-tune 法的モデル + 優れたプロンプトエンジニアリングはどちらか単独より優れています。プロンプト最適化(無料)で始め、必要に応じて fine-tune。
Fine-tuning に使用すべきフレームワークは何ですか?
Unsloth(最速)、Axolotl(柔軟)、Hugging Face Transformers(公式、最も文書化)が主要オプション。速度なら Unsloth;マルチ GPU セットアップなら Axolotl 推奨。すべて LoRA サポート、Ollama デプロイメント対応。
Pre-training がコスト価値があるかどうかを知るにはどうすればよいですか?
この計算を実行:(1) タスク上の fine-tuning 品質ギャップを推定(ex. fine-tuning は 85%、pre-training は 92%)。(2) 精度ポイントごとのビジネス価値を定量化(ex. +1% = $10k 収入)。(3) ($50k pre-training コスト) < (7% 改善価値) なら pre-train。そうでなければ fine-tune。
カスタムモデルの地域別考慮事項
カスタムモデルはデータプライバシーと規制上の影響が地域によって異なります。Fine-tune またはプレトレーニングモデルをデプロイする前に、地域別のコンプライアンス要件を理解してください:
- 日本(APPI): 日本の個人情報保護法は個人データの訓練に明示的な同意を要求します。医療または金融サービス用カスタムモデルはデータレジデンシーを要求します(処理は日本で行う必要があります)。オンプレミス fine-tuning とデプロイメントを検討。
- アジア太平洋(データ跨域): ASEAN/APAC データレジデンシーフレームワーク、MLAI(マルチ ASEAN/APAC)コンプライアンスパターン。
- 中国(DSL + CAC): 中国のデータセキュリティ法とサイバースペース規制は個人および産業データの地元処理を要求。中国データで訓練したカスタムモデルは中国インフラで訓練される必要があります。中国へのデプロイ用プレトレーニングモデルは CAC 登録が必要。
- 米国: 連邦 LLM 規制なし(2026 年 4 月現在)。州レベルのルールは異なります;カリフォルニア法は アルゴリズム透明性に焦点。金融/医療モデルについては、規制機関(SEC、FDA、CMS)がドキュメンテーション要件を課す可能性。モデル変更の監査証跡を検討。
ソース
- Chinchilla Scaling Laws -- 訓練と推論のための最適な計算配分。
- Instruction Tuning Survey -- Fine-tuning アプローチの包括的レビュー。
- LoRA: Low-Rank Adaptation -- 効率的な fine-tuning 方法。
- Hugging Face Fine-Tuning ガイド -- 公式 fine-tuning ドキュメント。