PromptQuorumPromptQuorum
ホーム/プロンプトエンジニアリング/Chain-of-Thoughtプロンプティング: AIに推論プロセスを見せさせる
Techniques

Chain-of-Thoughtプロンプティング: AIに推論プロセスを見せさせる

·13分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

Chain-of-Thoughtプロンプティングは、最終的な答えに直接飛び込むのではなく、モデルに推論ステップを明示的に示すように要求する技術です。複雑な判断をより監査しやすく、デバッグしやすく、時間とともに改善しやすくします。

Chain-of-Thought (CoT)プロンプティングは、最終回答前にAIモデルに推論ステップを段階的に示すよう指示する手法です。 数学、論理、複数ステップのタスクで精度を向上させます。2026年、Claude Opus 4.7やOpenAI o3のようなフロンティアモデルは、CoTを内部で自動化する組み込み推論モードを備えています—しかし、プロンプトレベルのCoTは、構造化思考を引き出す主な方法である小規模なモデルでは依然として価値があります。

  1. 1
    Chain-of-Thoughtプロンプティングはモデルに推論ステップを最終回答前に表示させ、 数学、論理、複数ステップのタスクで精度を向上させます。
  2. 2
    Zero-shot CoT(「ステップバイステップで考えて」)はほとんどのモデルで機能します。Few-shot CoT(例付き)はより信頼性が高い。
  3. 3
    2026年、Claude Opus 4.7やOpenAI o3のようなモデルは 組み込み推論モード を備えており、プロンプトレベルのCoTは不要です—「ステップバイステップで考えて」と言う必要はありません。
  4. 4
    CoTは出力トークンを増やし、したがってコストを増やします。組み込み推論モードは独立した思考トークン予算を持ち、独自の課金があります。
  5. 5
    小さいモデル(Haiku、Flash、LLaMA 4)でコスト効率の高い推論にプロンプトレベルのCoTを使用してください。最大精度のためにフロンティアモデルで組み込み推論モードを使用してください。
  6. 6
    CoTは数学、論理、計画、根本原因分析に最も価値があります。シンプルな分類、短い回答、素早いコピーライティングではスキップしてください。

クイックファクト

  1. 1
    提唱: Wei et al. (2022)、Google Brain — NeurIPS 2022の基礎論文
  2. 2
    重要な結果: Zero-shot CoTはPaLM 540Bの精度をMultiArithで17.7% → 78.7%に上昇させた
  3. 3
    トリガーフレーズ: 「ステップバイステップで考えましょう」(Zero-shot)または実例(Few-shot)
  4. 4
    2026年の進化: 組み込み推論モード(o3、Claude Extended Thinking)はCoTを内部で自動化
  5. 5
    コスト影響: プロンプトレベルCoT = より多くの出力トークン; 推論モード = 独立した思考トークン予算
  6. 6
    プロンプトレベルCoTに最適: 非推論モデル(Claude Haiku 4.5、Gemini Flash、GPT-4o mini、LLaMA 4 Scout)

Chain-of-Thoughtプロンプティングとは

Chain-of-Thoughtプロンプティングは、モデルに最終結論を与える前にステップバイステップで推論するよう要求する手法です。 単に「答え」を返すのではなく、モデルは中間の計算、論理的なステップ、または説明を書き出します。

「ステップバイステップで考えて」「あなたの推論を示して」といった指示や、推論が明示的に示された実例を提供することで、この動作を引き出すことができます。その結果、モデルがどのように結論に到達したかを理解できるトレースが得られます。

Chain-of-Thoughtプロンプティングが重要な理由

Chain-of-Thoughtプロンプティングが重要なのは、複数ステップの推論を伴うタスクで、モデルの動作をより透明にするためです。 各ステップを見ることで、誤った解釈、欠落した仮定、または計算エラーを特定できます。

これは分析、計画、トラブルシューティングなどの領域で特に価値があります。単一の不透明な出力ではなく、チェック、修正、またはドキュメントとして再利用できるナラティブが得られます。

🔍 ローカルモデルで動作

Chain-of-Thoughtは7B以上のパラメータを持つ任意のモデルで機能します。OllamaまたはLM Studioでローカルテストしてください。

Chain-of-Thoughtが役立つ場面

Chain-of-Thoughtプロンプティングは、自然に明確なステップに分割されるタスクで最も役立ちますが、すべてのプロンプトに必要なわけではありません。 目的地と同じくらいパスが重要な場所で輝きます。

Chain-of-Thought 推論こそが、ツール呼び出し型エージェントを複数ステップのタスクで安定させる仕組みです。CoT 対応モデルにデータベース照会やファイル編集の能力を与えるローカルエージェント構成については、MCP を使ったローカル AI エージェントを参照してください。

適切なユースケースには次のようなものがあります:

  • 数学と量的推論の問題。
  • 複数ステップの論理的パズルや意思決定分析。
  • 根本原因分析、インシデント事後分析、トレードオフの議論。
  • 一連のアクションが明示的である必要がある計画タスク。

Chain-of-Thoughtが役に立たない場面

単純な分類、素早いコピーライティング、または短い事実上の回答に対しては、Chain-of-Thoughtはしばしば余分な冗長性を追加するだけで、余り追加の価値をもたらしません。機密性の高い領域では、推論を内部に保持し、最終的な答えだけをエンドユーザーに示したい場合もあります。

例: Chain-of-Thoughtなしとありの比較

直接的な回答プロンプトと推論を明示的に要求するプロンプトを比較すると、違いが明確になります。 以下は簡単な意思決定の例です。

悪いプロンプト

"次の四半期にどのプロジェクトを優先すべきか?"

良いプロンプト

"あなたは製品オペレーションマネージャーです。次の四半期に向けた3つの候補プロジェクトがあります。Chain-of-Thoughtの推論を使用して、どのプロジェクトを優先するかを決定してください。1) 使用する意思決定基準をリストアップしてください(例えば、収益への影響、リスク、戦略との整合性)。2) これらの基準に対して各プロジェクトを段階的に評価してください。3) 明確な推奨事項を提供し、3〜5文で正当化してください。最後に、別の行の「推奨事項:」で始まる短い最終回答を提供してください。"

「良い」バージョンでは、モデルはどのように基準を選択したか、各プロジェクトがどのようにスコアリングされたか、そして提示する推奨事項を説明します。異議を唱えたり、受け入れたりできます。

効果的なChain-of-Thoughtプロンプトの書き方

効果的なChain-of-Thoughtプロンプトを書くには、推論の構造と最終的な答えの構造を定義する必要があります。 「もっと説明して」のようなあいまいなリクエストは、具体的な指示ほど信頼できません。

実用的なパターンは次のとおりです:

  • モデルにそのロール(例えば「あなたはシニアデータアナリストです」)を伝えてください。
  • ステップバイステップで考える、またはChain-of-Thoughtを使用すべきことを指定してください。
  • 期待される推論のセクション(例えば仮定、計算、比較、結論)を定義してください。
  • すばやく使用できるように、短く、明確にマークされた最終的な答えを最後に要求してください。

注意点

これは詳細な推論から簡潔な出力を分離し、結果を他のツールやレポートに統合する場合に有用です。

PromptQuorumでのChain-of-Thoughtプロンプティング

PromptQuorumは、異なるモデル全体でChain-of-Thoughtプロンプティングを一貫して適用できるマルチモデルAIディスパッチツールです。 1つの構造化されたChain-of-Thoughtプロンプトを書き、複数のプロバイダーに並行して送信します。

PromptQuorumでは、以下が可能です:

  • Chain-of-Thoughtの指示と、TRACE、APEなどの推論に焦点を当たったフレームワークを組み合わせることで、思考ステップが明示的にラベル付けされます。
  • 異なるモデルが同じ推論タスクをどのように処理し、ステップバイステップのトレースを並べて検査するかを比較します。
  • Chain-of-Thoughtプロンプトをテンプレートとして保存し、繰り返し分析、インシデント復習、戦略的判断で使用します。

実用的な活用

これにより、Chain-of-Thoughtプロンプティングは一度限りのトリックから、意思決定プロセスの反復可能な部分へと変わります。

Chain-of-Thought (CoT)プロンプティングの始め方

  1. 1
    論理、推論、またはデバッグタスクの場合、答える前にモデルに「ステップバイステップで考えて」と要求してください。 「バグは何か?」ではなく、「実行をステップバイステップで追跡してから、バグを特定してください」と尋ねてください。
  2. 2
    ステップバイステップの推論を示す実例を提供してください。 説明するだけでなく、ステップバイステップの推論がどのように見えるかをモデルに示してください。例: 「まず、関数シグネチャをチェックします... 次に、最初の呼び出しを入力Xでトレースします...」
  3. 3
    「ステップバイステップで考えましょう」または「まず...を特定してから...」などの明示的なプロンプトを使用してください。** これらはモデルでより慎重な推論を引き出します。
  4. 4
    複雑な問題については、モデルに中間出力をトレースするよう要求してください。 例: 「この関数を入力5で実行をトレースしてください。各行の後に各変数の値を表示してください。」
  5. 5
    CoTを検証可能な出力と組み合わせてください: 監査できるようにモデルに作業を示すよう要求してください。 「各ステップであなたの推論を説明してください。もしあなたが誤りを犯した場合、私はあなたの示した作業からそれを見つけることができるはずです。」

数学の例: 収益計算

CoTなしではモデルは単一の最終回答を与えるかもしれません。CoTではモデルは計算をステップバイステップで表示します。

CoTなし:

「顧客が1単位15ドルで50単位を購入し、10%割引を受け取ります。顧客はいくら支払いますか?」

モデル: 「675ドル」

CoTあり:

「顧客が1単位15ドルで50単位を購入し、10%割引を受け取ります。ステップバイステップで作業してください: 1)小計を計算します。 2)割引額を計算します。 3)小計から割引を引いて最終価格を取得します。」

モデル: 「1)小計 = 50 × 15ドル = 750ドル。 2)割引 = 750ドルの10% = 75ドル。 3)最終価格 = 750ドル − 75ドル = 675ドル。」

どちらも同じ答えを与えますが、CoT版は数学を見せ、エラーを発見できます(例えば、誰かが750ドルの10%を誤って計算した場合)。

CoT対組み込み推論モデル (2026)

2026年、フロンティアモデル – Claude Opus 4.7、OpenAI o3、Gemini Deep Think – は、Chain-of-Thoughtを自動的に内部化する組み込み推論モードを備えています。 これらのモデルに「ステップバイステップで考えて」という指示を追加する必要はありません。

プロンプトレベルCoTを使用する場合: 非推論モデル(Claude Haiku 4.5、GPT-4o mini、Gemini Flash、Llama 4)、ローカルLLM、または推論トークン予算の追加コストを避けたい場合。

組み込み推論モードを使用する場合: フロンティアモデルの最大精度、数学の重いタスク、複雑な分析。これらのモデルは推論トークンを個別に請求します(通常は出力トークンよりも高いレート)。

アプローチ最適な用途コスト透明性モデル
プロンプトレベルCoT(「ステップバイステップで考えて」)小さいモデル、ローカルLLM、コスト感応的なタスク出力トークンを増やす完全: 出力に表示されるステップHaiku、Flash、LLaMA、Qwen
Claude Extended Thinking (Opus 4.7、Sonnet 4.6)複雑な分析、最大精度独立した思考トークン予算(入力レート)APIを介して検査可能なトレースClaude Opus 4.7、Claude Sonnet 4.6
OpenAI o3最難関問題(数学、コーディング、競技)思考トークン予算(より高いティア)隠れた推論、目に見える出力OpenAI o3
Gemini Deep ThinkGoogle Cloud統合、Geminiエコシステム出力とは別の思考トークンthinking_levelパラメータ(LOW、MEDIUM、HIGH)Gemini 3.1 Pro
DeepSeek R1オープンウェイトオプション、オンデバイス推論出力テキストにストリーミングされる目に見える推論完全: 出力内のインラインCoTDeepSeek R1

💡 ヒント

コスト効率のためには、小さいモデルでプロンプトレベルのCoTを使用してください。難しい問題で最大精度が必要な場合は、o3またはClaude Extended Thinkingを使用し、モデルに推論を内部で処理させてください。

Chain-of-Thoughtバリエーションと拡張

基本的な「ステップバイステップで考えて」パターンの先へ、研究者は複数のCoTバリアントを開発し、それぞれが異なる問題タイプに最適化されています。

  • Zero-shot CoT: 例なしで「ステップバイステップで考えましょう」と尋ねます。ほとんどのモデルで機能し、実装が最も簡単です。ブースト: 推論タスクで~10–20%の精度向上。
  • Few-shot CoT: 明示的な推論で2–5つの実例を示し、新しい問題にも同じパターンを適用するようモデルに要求します。Zero-shotより信頼性が高いが、手動例作成が必要。ブースト: ~20–40%の精度。
  • Self-Consistency (Wang et al., 2023): 複数の独立したCoT推論パスを生成し、最終回答に多数決投票を行います。エラーに対してはるかにロバスト。ブースト: 難しいタスクで~30–50%。
  • Tree of Thought (ToT): 線形チェーンの代わりに、複数の推論ブランチを探索し、弱いものを剪定します。多くの可能な解決パスがある場合に使用(計画、ゲーム、創造的なタスク)。
  • ReAct (Reasoning + Acting): 推論と外部アクション(APIコール、検索、コード実行)をインターレース し、結果を次の推論ステップに組み込みます。ライブデータまたは検証が必要な現実世界のタスクに最適。

モデル比較: 2026年のCoTプロンプティング対応状況

モデルプロンプトレベルCoT組み込み推論ベストユースケースコスト(約)
Claude Opus 4.7不要Extended Thinking (APIで検査可能なトレース)最大精度分析より高い(入力+出力+思考トークン)
Claude Sonnet 4.6不要Extended Thinkingバランスの取れたコスト/精度中程度
Claude Haiku 4.5推奨なし高速でコスト効率的な推論低い
OpenAI o3不要エフォートレベル(low、medium、high、xhigh)競技レベルの問題非常に高い(思考トークンティア)
GPT-4o mini推奨なし予算意識の高いデプロイメント非常に低い
Gemini 3.1 Pro機能するDeep Think (thinking_levelパラム)Google Cloud統合中程度~高い
Gemini Flash推奨なし高速応答低い
DeepSeek R1不要出力の内容推論オープンウェイト、オンデバイス無料(オープンソース)
Llama 4推奨なしローカルデプロイメント、プライバシーセルフホスト(コンピュート依存)

よくある質問

Chain-of-Thoughtはすべてのモデルで機能しますか?

Chain-of-Thoughtはほとんど7B+パラメータのモデルで機能しますが、利点は異なります。中型および小型モデル(Haiku、Flash、Llama 4)で最も効果的です。フロンティアモデル(Claude Opus 4.7、o3)では、組み込み推論モードはプロンプトレベルのCoTよりも効率的なことが多い。

Chain-of-Thoughtはコストを増やしますか?

はい。プロンプトレベルのCoTは出力トークン数を増やします(モデルが最終回答の前に推論を書き出すため)。組み込み推論モード(Claude Extended Thinking、OpenAI o3)は別の思考トークン予算を使用し、異なる課金レートがある場合があります。コスト対精度のトレードオフを比較するために、ユースケースで両方をテストしてください。

Zero-shotの代わりにFew-shot CoTを使用する場合は?

まずZero-shot CoTを使用します – シンプルで、ほとんどの場合機能します。Zero-shotが信頼できない場合、または領域が特定の推論パターンを必要とする場合は、Few-shot (2–5例) に移動します(例: 標準化された行項目構造で財務分析)。

Chain-of-Thoughtを構造化出力 (JSON) と組み合わせることができますか?

はい。モデルに最初にテキストで推論を表示させ、次にJSONオブジェクトで最終回答を生成させるよう要求できます。指示を組み合わせます: 「ステップバイステップで考えてください。次に、有効なJSONとして結果を出力してください。」これは本番システムで一般的です。

Chain-of-ThoughtとTree-of-Thoughtの違いは何ですか?

Chain-of-Thoughtは線形シーケンス: ステップ1 → ステップ2 → ... → 結論。Tree-of-Thoughtは複数のブランチ(代替推論パス)を探索し、答えに到達する前に弱いものを剪定します。Tree-of-Thoughtはより強力ですが、より高価です(複数のモデル呼び出しが必要)。

OpenAI o3はChain-of-Thoughtプロンプティングが必要ですか?

いいえ。OpenAI o3は自動的にアクティブになる組み込み推論を備えています。「ステップバイステップで考えて」という指示を追加する必要はありません。o3に問題を与え、エフォートレベル(low/medium/high/xhigh)を設定して、支出する思考予算を制御します。

組み込み推論モデルの推論を監査できますか?

はい、でもモデルに依存します。Claude Extended Thinking推論トレースはAPIを介して検査可能です。OpenAI o3推論はデフォルトで隠れています(競争上の利点のため)。Gemini Deep Think推論も隠れています。完全な監査可能性については、プロンプトレベルのCoTまたはDeepSeek R1を使用します。

Chain-of-Thoughtプロンプティングはリアルタイムアプリケーションに適していますか?

プロンプトレベルのCoTは遅延を追加します(より多くの出力トークン = より遅い生成)。リアルタイムユースケースの場合、最小限の推論で小さいモデルを使用するか、ストリーミングエンドポイントを使用してトークンが到着すると表示します。組み込み推論モードはさらに多くの遅延を追加する可能性があります; 特定のユースケースをベンチマークします。

ソースと追加参考文献

  • Wei, J., Wang, X., Schuurmans, D., et al. (2022). 「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」 NeurIPS 2022。arXiv:2201.11903
  • Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., & Iwasawa, Y. (2022). 「Large Language Models are Zero-Shot Reasoners」 NeurIPS 2022。arXiv:2205.11916
  • Wang, X., Wei, J., Schuurmans, D., et al. (2023). 「Self-Consistency Improves Chain of Thought Reasoning in Language Models」 ICLR 2023。arXiv:2203.11171
  • Anthropic. (2024). 「Extended Thinking in Claude」 Claude Opus 4.7とSonnet 4.6の推論機能に関する技術ドキュメント。
  • OpenAI. (2026). 「OpenAI o3: Reasoning Models for Competition-Level Problem Solving」 OpenAIドキュメントおよび研究発表。

これらのテクニックをPromptQuorumで25以上のAIモデルに同時に適用しましょう。

PromptQuorumを無料で試す →

← プロンプトエンジニアリングに戻る

Chain-of-Thoughtプロンプティング: 精度40%向上 | PromptQuorum