素早い事実
- 1プロンプトエンジニアリングの成功率:実世界の80~90%(カスタマーサポート、要約、分類、抽出)。
- 21Mトークンあたりのコスト (GPT-5.5):プロンプトエンジニアリング $25、ファインチューニング推論 $50-100。
- 3ファインチューニングに必要なデータ:最小100例、安定した結果には理想的には500+。
- 4結果までの時間:プロンプトエンジニアリング2時間(10回繰り返し)、ファインチューニング7日(データ収集含む)。
- 5モデル可用性:プロンプトエンジニアリングはGPT-5.5、Claude、Gemini、Llamaで動作。ファインチューニングはプロバイダーごとに異なる。
- 6取り消しコスト:プロンプトを変更する=0円。ファインチューニング済みから基本モデルに移行=システム全体を書き直す。
この判断が重要な理由
📍 In One Sentence
プロンプトエンジニアリングが第一選択(無料、即座);ファインチューニングは失敗時のバックアップ(高額、永続的)です。
💬 In Plain Terms
AIモデルへの指示を改善することは無料で数分で可能です。モデルを訓練することは数万~数十万円かかり、数日かかります。まず安い選択肢を試してください。
AI出力を向上させるには2つの道があります:質問の方法を改善する(プロンプトエンジニアリング)か、モデル自体を変える(ファインチューニング)。間違った選択は時間と資金を浪費します。このガイドは、どのアプローチを取るかを示します。
プロンプトエンジニアリングとは
プロンプトエンジニアリングは、AIモデルに明確で詳細な指示を書くことです。「これを要約して」の代わりに「以下のテキストを2-3文で要約してください。主な決定とそれを下した人に焦点を当てます。専門用語は避けてください」と書きます。
すべてのプロンプトは実験です。試して、結果を見て、表現を調整して、再度試します。プロンプトエンジニアリングはモデルを訓練していないため無料です—単によりよく話しているだけです。
- 無料:訓練コストなし、推論コストのみ
- 即座:数分~数時間で改善、日数や週ではない
- 可逆的:悪いプロンプト?削除して新しいものを試す
- テスト可能:1時間で10バージョンを比較
- ポータブル:同じプロンプトは異なるモデルで動作
- モデル不問:GPT-5.5、Claude、Gemini、ローカルモデルで動作
ファインチューニングとは
ファインチューニングは、モデルを自分のデータで再訓練することです。入出力ペアの例を数百~数千個提供すると、モデルが学習します。モデルの重みが永続的に変わります。
ファインチューニングは、プロンプトエンジニアリングが体系的問題(10%+のケースに影響)で失敗した場合のみ必要です。一般的な理由:ドメイン固有の用語、厳密な出力フォーマット、またはモデルが見たことのない推論パターン。
- 高額:実行ごとに5万円~50万+円
- 遅い:日数~週数
- 永続的:重みを変更—元に戻すのは非常に困難
- データ集約的:100~10000+個のラベル付き例が必要
- 推論が高い:モデル使用コストも高くなる
- バージョン固定:各モデルバージョンに別々のファインチューニングが必要
🔍 ファインチューニングはRAGではありません
Retrieval-Augmented Generation (RAG) とファインチューニングは異なる問題を解決します。RAG はプロンプトに関連するコンテキストを挿入します—これはプロンプトエンジニアリング技術です。ファインチューニングはモデルを再訓練します。まず RAG を試してください。RAG とプロンプトエンジニアリングの両方が失敗した場合にのみファインチューニングしてください。
並べて比較
| 要素 | プロンプトエンジニアリング | ファインチューニング |
|---|---|---|
| コスト | 0 円(推論のみ) | 5万円~50万+円 |
| 速度 | 数時間 | 日数~週数 |
| 可逆性 | 削除して再開始 | 永続的 |
| データ必要量 | 3-10例 | 100~10000+ラベル付き |
| 必要な専門知識 | 誰でも可能 | ML知識必須 |
| ポータビリティ | GPT、Claude、Gemini、ローカル | 特定モデル/バージョン |
| 解決率 | 80-90%のケース | 残り10-20% |
| メンテナンス | プロンプト調整 | バージョンごと再訓練 |
| テスト | 1時間で10バージョン | 10日で10バージョン |
| 推論コスト | 標準価格 | カスタム価格(通常高い) |
判断フローチャート:各アプローチをいつ使用するか
このフローチャートに従って、プロンプトエンジニアリングまたはファインチューニングを使用すべきかを判断します。
- 1明確な問題ステートメントから始めます。例:「顧客レビューを正確に2文で要約してください。」
- 210~20個のサンプルプロンプトを作成し、基本モデルで10個の例に対してテストします。8/10が成功した場合は停止します。完了です。
- 38/10未満の場合、プロンプトを改善します。コンテキスト、例、制約、出力形式を追加します。別の10ケースでテストします。
- 43~5回のプロンプト反復後:成功率がまだ80%未満の場合はファインチューニングを検討します。
- 5ファインチューニング:100~500個のラベル付き例(入出力ペア)を収集します。カスタムモデルを訓練します。検証セットでテストします。
- 6コストとパフォーマンスの比率が最高のアプローチを選択します。
🔍 90%テスト
自問してください:90%のケースを修正する必要がありますか、それとも10%だけですか?プロンプトエンジニアリングで90%のケースが動作する場合は停止します。90%が失敗した場合、ファインチューニングだけでは解決できない大きな問題があります。
5つの実例
チームが直面する5つの現実的な決定と、それぞれへのアプローチを次に示します。
- 1散らかったPDFから構造化データを抽出:最初にプロンプトエンジニアリングを試します。成功率> 85%の場合は停止します。60%で停滞する場合は、バリエーションに対してファインチューニングを追加します。
- 2カスタマーサポートチケットをカテゴリに分類:プロンプトエンジニアリングを使用します。コスト:0 円。労力:2時間。ファインチューニングは1000+円と1週間かかります。
- 3特殊な法律条項を生成:プロンプトエンジニアリングは失敗します。モデルが一般的すぎるためです。500個の歴史的なドキュメントでファインチューニングします。コスト正当化:2万円。
- 4長い研究論文を重要な見識に要約:プロンプトエンジニアリングは機能します。Chain-of-Thought +例= 92%精度。ファインチューニング不要。
- 5技術ドキュメントを平易な日本語に翻訳:プロンプトエンジニアリング +少数例は88%のケースをカバーします。残りの12%のエッジケースでファインチューニングします。
両方を活用:いつ、どう組み合わせるか
ベストプラクティス:プロンプトエンジニアリングから始めます。約80~85%の成功に達した場合、上にファインチューニングを追加します。
ワークフロー:プロンプトエンジニアリングループ内でファインチューニング済みモデルを使用します。ファインチューニング済みモデルは特殊なタスクを処理し、プロンプトエンジニアは文脈とルーティングロジックを追加します。
- プロンプトエンジニアリングを使用してリクエストをルーティング:「これは法的文書、医療記録、それとも財務レポートですか?」
- ファインチューニングを使用して特殊なモデル:法務ファインチューニングモデル、医療ファインチューニングモデル、財務ファインチューニングモデル。
- プロンプトエンジニアリングを使用して出力をフォーマット:ファインチューニング済みモデルでも、明確なフォーマット指示から受けます。
- コストを組み合わせ:難しいケースの10%をファインチューニング、90%を安いプロンプトエンジニアリング経由でルーティング。
🔍 メンテナンスの罠
新しいモデルバージョンがリリースされるたびに、ファインチューニング済みモデルは陳腐化します。それらを再訓練する必要があります。プロンプトエンジニアリングには調整のみが必要です。年間ファインチューニング再訓練コストをバジェットしてください—蓄積されます。
コスト構造の比較
| プロバイダーのタイプ | プロンプトエンジニアリングコスト | ファインチューニングコスト | 推論コスト |
|---|---|---|---|
| 専有モデル | 推論ごとに低い | 大きな初期投資 | ファインチューニング済みで高い |
| オープンソースクラウド | 推論ごとに低い | 中程度の投資 | プロバイダーごとに変動 |
| セルフホスト局所 | 最小(ハードウェア) | ハードウェアコスト+時間 | ワンタイムハードウェア投資 |
| ハイブリッドアプローチ | 低い初期コスト | 時間をかけて分散 | バランスの取れたコスト便益 |
🔍 コスト構造
プロンプトエンジニアリングコストは可変(推論ごと)。ファインチューニングコストは先払い(訓練)+継続的な推論。コスト対効果比はほとんどのケースでプロンプトエンジニアリングを支持します。ファインチューニングは特殊なパフォーマンスが重要な場合にのみ値を加えます。
5つの一般的な間違い
❌ プロンプトをテストする前にファインチューニング
Why it hurts: チームはプロンプトを真摯に繰り返さずにファインチューニングに飛び込みます。結果:0円のプロンプトエンジニアリングが機能したはずの5万円がファインチューニングに費やされます。
Fix: プロンプトエンジニアリングを最初にテストします。3~5バリエーションで30~50個の例を実行します。最良のプロンプトがまだ20%以上失敗する場合にのみファインチューニングします。
❌ 小さいデータセットで訓練
Why it hurts: クラスごとに20個の例でファインチューニングします。結果:過学習、モデルは新しい例で失敗します。
Fix: カテゴリごとに少なくとも100個の例を収集します。理想的には500+。訓練とテスト分布が実世界のデータと一致することを確認します。
❌ 推論コストを忘れる
Why it hurts: チームはファインチューニングコスト(2万円)を計算しますが、ファインチューニング済みモデルは2~3倍実行するのに費用がかかることを忘れます。
Fix: 総保有コストを計算:訓練+(推論コスト/呼び出し×予想ボリューム×時間範囲)。
❌ モデルバージョン管理を無視
Why it hurts: ファインチューニング済みモデルが機能していますが、GPT-5.5 が更新されます。モデルは古くなり、再訓練する必要があります。
Fix: 年間再訓練または新しいモデルへの移行をバジェットします。各ファインチューニングがどのベースモデルバージョンにとって存在するかを文書化します。
❌ 間違ったモデルをファインチューニング
Why it hurts: タスクに対して小さすぎるモデルをファインチューニングする(例えば、複雑な推論に対して7Bモデル)。
Fix: 余裕を持って購入できる最大のモデルから始めます。コストを最適化するためにファインチューニング、弱いベースモデルを修正するためではない。
よくある質問
どちらを最初に試すべきですか?
常にプロンプトエンジニアリングから始めてください。無料で即座です。何度も失敗した場合のみファインチューニングしてください。
ファインチューニングのトレーニングデータをどう取得しますか?
独自の例を収集、既存データセットを使用、またはアノテーターを雇用します。量より質が重要です。
ファインチューニング済みモデルを再度ファインチューニングできますか?
技術的には可能ですが、めったに必要ありません。通常は最良のデータに対して一度だけファインチューニングします。
LoRA ファインチューニングとは?
Low-Rank Adaptation はモデルの一部のみを調整し、コストとデータ要件を削減する技術です。
ローカルまたはクラウドでファインチューニングすべきですか?
クラウド(OpenAI、Google)は簡単で速い。ローカル(Ollama、PEFT)はコントロールとプライバシーを提供します。
ファインチューニングにどのくらい時間がかかりますか?
ファインチューニングはかなりの時間がかかります—データサイズ、モデルサイズ、ハードウェアに応じて数週間から数ヶ月。
ファインチューニングが役に立たない場合はどうしますか?
モデルが間違っているか、データが不十分か、期待が非現実的な可能性があります。まず大きいモデルまたはより多くのデータを試してください。
プロンプトエンジニアリングとファインチューニングを組み合わせられますか?
はい、これはベストプラクティスです。ファインチューニングは基本的な能力に、プロンプトエンジニアリングは柔軟性とルーティングロジックに使用します。
Claude ファインチューニングは利用可能ですか?
2026年時点では利用できません。Anthropic はこの機能を提供していません。プロンプトエンジニアリングを使用してください。
よくある間違いは何ですか?
プロンプトエンジニアリングを十分にテストせずにファインチューニングに進むこと。100+個の例を収集してください(20個ではなく)。ファインチューニング済みモデルの推論コストを忘れないでください。
日本での実装ガイダンス
経済産業省(METI)は2024年にAIガバナンスガイドラインを発表しました。日本の企業がファインチューニングを導入する場合、データガバナンス、監査ログ、説明責任を考慮する必要があります。多くの日本企業(金融、製造、医療)はプロンプトエンジニアリングからファインチューニングへの段階的な移行が推奨されます。