クイックファクト
- 1提唱: Wei et al. (2022)、Google Brain — NeurIPS 2022の基礎論文
- 2重要な結果: Zero-shot CoTはPaLM 540Bの精度をMultiArithで17.7% → 78.7%に上昇させた
- 3トリガーフレーズ: 「ステップバイステップで考えましょう」(Zero-shot)または実例(Few-shot)
- 42026年の進化: 組み込み推論モード(o3、Claude Extended Thinking)はCoTを内部で自動化
- 5コスト影響: プロンプトレベルCoT = より多くの出力トークン; 推論モード = 独立した思考トークン予算
- 6プロンプトレベルCoTに最適: 非推論モデル(Claude Haiku 4.5、Gemini Flash、GPT-4o mini、LLaMA 4 Scout)
Chain-of-Thoughtプロンプティングとは
Chain-of-Thoughtプロンプティングは、モデルに最終結論を与える前にステップバイステップで推論するよう要求する手法です。 単に「答え」を返すのではなく、モデルは中間の計算、論理的なステップ、または説明を書き出します。
「ステップバイステップで考えて」「あなたの推論を示して」といった指示や、推論が明示的に示された実例を提供することで、この動作を引き出すことができます。その結果、モデルがどのように結論に到達したかを理解できるトレースが得られます。
Chain-of-Thoughtプロンプティングが重要な理由
Chain-of-Thoughtプロンプティングが重要なのは、複数ステップの推論を伴うタスクで、モデルの動作をより透明にするためです。 各ステップを見ることで、誤った解釈、欠落した仮定、または計算エラーを特定できます。
これは分析、計画、トラブルシューティングなどの領域で特に価値があります。単一の不透明な出力ではなく、チェック、修正、またはドキュメントとして再利用できるナラティブが得られます。
🔍 ローカルモデルで動作
Chain-of-Thoughtは7B以上のパラメータを持つ任意のモデルで機能します。OllamaまたはLM Studioでローカルテストしてください。
Chain-of-Thoughtが役立つ場面
Chain-of-Thoughtプロンプティングは、自然に明確なステップに分割されるタスクで最も役立ちますが、すべてのプロンプトに必要なわけではありません。 目的地と同じくらいパスが重要な場所で輝きます。
Chain-of-Thought 推論こそが、ツール呼び出し型エージェントを複数ステップのタスクで安定させる仕組みです。CoT 対応モデルにデータベース照会やファイル編集の能力を与えるローカルエージェント構成については、MCP を使ったローカル AI エージェントを参照してください。
適切なユースケースには次のようなものがあります:
- 数学と量的推論の問題。
- 複数ステップの論理的パズルや意思決定分析。
- 根本原因分析、インシデント事後分析、トレードオフの議論。
- 一連のアクションが明示的である必要がある計画タスク。
Chain-of-Thoughtが役に立たない場面
単純な分類、素早いコピーライティング、または短い事実上の回答に対しては、Chain-of-Thoughtはしばしば余分な冗長性を追加するだけで、余り追加の価値をもたらしません。機密性の高い領域では、推論を内部に保持し、最終的な答えだけをエンドユーザーに示したい場合もあります。
例: Chain-of-Thoughtなしとありの比較
直接的な回答プロンプトと推論を明示的に要求するプロンプトを比較すると、違いが明確になります。 以下は簡単な意思決定の例です。
悪いプロンプト
"次の四半期にどのプロジェクトを優先すべきか?"
良いプロンプト
"あなたは製品オペレーションマネージャーです。次の四半期に向けた3つの候補プロジェクトがあります。Chain-of-Thoughtの推論を使用して、どのプロジェクトを優先するかを決定してください。1) 使用する意思決定基準をリストアップしてください(例えば、収益への影響、リスク、戦略との整合性)。2) これらの基準に対して各プロジェクトを段階的に評価してください。3) 明確な推奨事項を提供し、3〜5文で正当化してください。最後に、別の行の「推奨事項:」で始まる短い最終回答を提供してください。"
「良い」バージョンでは、モデルはどのように基準を選択したか、各プロジェクトがどのようにスコアリングされたか、そして提示する推奨事項を説明します。異議を唱えたり、受け入れたりできます。
効果的なChain-of-Thoughtプロンプトの書き方
効果的なChain-of-Thoughtプロンプトを書くには、推論の構造と最終的な答えの構造を定義する必要があります。 「もっと説明して」のようなあいまいなリクエストは、具体的な指示ほど信頼できません。
実用的なパターンは次のとおりです:
- モデルにそのロール(例えば「あなたはシニアデータアナリストです」)を伝えてください。
- ステップバイステップで考える、またはChain-of-Thoughtを使用すべきことを指定してください。
- 期待される推論のセクション(例えば仮定、計算、比較、結論)を定義してください。
- すばやく使用できるように、短く、明確にマークされた最終的な答えを最後に要求してください。
注意点
これは詳細な推論から簡潔な出力を分離し、結果を他のツールやレポートに統合する場合に有用です。
PromptQuorumでのChain-of-Thoughtプロンプティング
PromptQuorumは、異なるモデル全体でChain-of-Thoughtプロンプティングを一貫して適用できるマルチモデルAIディスパッチツールです。 1つの構造化されたChain-of-Thoughtプロンプトを書き、複数のプロバイダーに並行して送信します。
PromptQuorumでは、以下が可能です:
- Chain-of-Thoughtの指示と、TRACE、APEなどの推論に焦点を当たったフレームワークを組み合わせることで、思考ステップが明示的にラベル付けされます。
- 異なるモデルが同じ推論タスクをどのように処理し、ステップバイステップのトレースを並べて検査するかを比較します。
- Chain-of-Thoughtプロンプトをテンプレートとして保存し、繰り返し分析、インシデント復習、戦略的判断で使用します。
実用的な活用
これにより、Chain-of-Thoughtプロンプティングは一度限りのトリックから、意思決定プロセスの反復可能な部分へと変わります。
Chain-of-Thought (CoT)プロンプティングの始め方
- 1論理、推論、またはデバッグタスクの場合、答える前にモデルに「ステップバイステップで考えて」と要求してください。 「バグは何か?」ではなく、「実行をステップバイステップで追跡してから、バグを特定してください」と尋ねてください。
- 2ステップバイステップの推論を示す実例を提供してください。 説明するだけでなく、ステップバイステップの推論がどのように見えるかをモデルに示してください。例: 「まず、関数シグネチャをチェックします... 次に、最初の呼び出しを入力Xでトレースします...」
- 3「ステップバイステップで考えましょう」または「まず...を特定してから...」などの明示的なプロンプトを使用してください。** これらはモデルでより慎重な推論を引き出します。
- 4複雑な問題については、モデルに中間出力をトレースするよう要求してください。 例: 「この関数を入力5で実行をトレースしてください。各行の後に各変数の値を表示してください。」
- 5CoTを検証可能な出力と組み合わせてください: 監査できるようにモデルに作業を示すよう要求してください。 「各ステップであなたの推論を説明してください。もしあなたが誤りを犯した場合、私はあなたの示した作業からそれを見つけることができるはずです。」
数学の例: 収益計算
CoTなしではモデルは単一の最終回答を与えるかもしれません。CoTではモデルは計算をステップバイステップで表示します。
CoTなし:
「顧客が1単位15ドルで50単位を購入し、10%割引を受け取ります。顧客はいくら支払いますか?」
モデル: 「675ドル」
CoTあり:
「顧客が1単位15ドルで50単位を購入し、10%割引を受け取ります。ステップバイステップで作業してください: 1)小計を計算します。 2)割引額を計算します。 3)小計から割引を引いて最終価格を取得します。」
モデル: 「1)小計 = 50 × 15ドル = 750ドル。 2)割引 = 750ドルの10% = 75ドル。 3)最終価格 = 750ドル − 75ドル = 675ドル。」
どちらも同じ答えを与えますが、CoT版は数学を見せ、エラーを発見できます(例えば、誰かが750ドルの10%を誤って計算した場合)。
CoT対組み込み推論モデル (2026)
2026年、フロンティアモデル – Claude Opus 4.7、OpenAI o3、Gemini Deep Think – は、Chain-of-Thoughtを自動的に内部化する組み込み推論モードを備えています。 これらのモデルに「ステップバイステップで考えて」という指示を追加する必要はありません。
プロンプトレベルCoTを使用する場合: 非推論モデル(Claude Haiku 4.5、GPT-4o mini、Gemini Flash、Llama 4)、ローカルLLM、または推論トークン予算の追加コストを避けたい場合。
組み込み推論モードを使用する場合: フロンティアモデルの最大精度、数学の重いタスク、複雑な分析。これらのモデルは推論トークンを個別に請求します(通常は出力トークンよりも高いレート)。
| アプローチ | 最適な用途 | コスト | 透明性 | モデル |
|---|---|---|---|---|
| プロンプトレベルCoT(「ステップバイステップで考えて」) | 小さいモデル、ローカルLLM、コスト感応的なタスク | 出力トークンを増やす | 完全: 出力に表示されるステップ | Haiku、Flash、LLaMA、Qwen |
| Claude Extended Thinking (Opus 4.7、Sonnet 4.6) | 複雑な分析、最大精度 | 独立した思考トークン予算(入力レート) | APIを介して検査可能なトレース | Claude Opus 4.7、Claude Sonnet 4.6 |
| OpenAI o3 | 最難関問題(数学、コーディング、競技) | 思考トークン予算(より高いティア) | 隠れた推論、目に見える出力 | OpenAI o3 |
| Gemini Deep Think | Google Cloud統合、Geminiエコシステム | 出力とは別の思考トークン | thinking_levelパラメータ(LOW、MEDIUM、HIGH) | Gemini 3.1 Pro |
| DeepSeek R1 | オープンウェイトオプション、オンデバイス推論 | 出力テキストにストリーミングされる目に見える推論 | 完全: 出力内のインラインCoT | DeepSeek R1 |
💡 ヒント
コスト効率のためには、小さいモデルでプロンプトレベルのCoTを使用してください。難しい問題で最大精度が必要な場合は、o3またはClaude Extended Thinkingを使用し、モデルに推論を内部で処理させてください。
Chain-of-Thoughtバリエーションと拡張
基本的な「ステップバイステップで考えて」パターンの先へ、研究者は複数のCoTバリアントを開発し、それぞれが異なる問題タイプに最適化されています。
- Zero-shot CoT: 例なしで「ステップバイステップで考えましょう」と尋ねます。ほとんどのモデルで機能し、実装が最も簡単です。ブースト: 推論タスクで~10–20%の精度向上。
- Few-shot CoT: 明示的な推論で2–5つの実例を示し、新しい問題にも同じパターンを適用するようモデルに要求します。Zero-shotより信頼性が高いが、手動例作成が必要。ブースト: ~20–40%の精度。
- Self-Consistency (Wang et al., 2023): 複数の独立したCoT推論パスを生成し、最終回答に多数決投票を行います。エラーに対してはるかにロバスト。ブースト: 難しいタスクで~30–50%。
- Tree of Thought (ToT): 線形チェーンの代わりに、複数の推論ブランチを探索し、弱いものを剪定します。多くの可能な解決パスがある場合に使用(計画、ゲーム、創造的なタスク)。
- ReAct (Reasoning + Acting): 推論と外部アクション(APIコール、検索、コード実行)をインターレース し、結果を次の推論ステップに組み込みます。ライブデータまたは検証が必要な現実世界のタスクに最適。
モデル比較: 2026年のCoTプロンプティング対応状況
| モデル | プロンプトレベルCoT | 組み込み推論 | ベストユースケース | コスト(約) |
|---|---|---|---|---|
| Claude Opus 4.7 | 不要 | Extended Thinking (APIで検査可能なトレース) | 最大精度分析 | より高い(入力+出力+思考トークン) |
| Claude Sonnet 4.6 | 不要 | Extended Thinking | バランスの取れたコスト/精度 | 中程度 |
| Claude Haiku 4.5 | 推奨 | なし | 高速でコスト効率的な推論 | 低い |
| OpenAI o3 | 不要 | エフォートレベル(low、medium、high、xhigh) | 競技レベルの問題 | 非常に高い(思考トークンティア) |
| GPT-4o mini | 推奨 | なし | 予算意識の高いデプロイメント | 非常に低い |
| Gemini 3.1 Pro | 機能する | Deep Think (thinking_levelパラム) | Google Cloud統合 | 中程度~高い |
| Gemini Flash | 推奨 | なし | 高速応答 | 低い |
| DeepSeek R1 | 不要 | 出力の内容推論 | オープンウェイト、オンデバイス | 無料(オープンソース) |
| Llama 4 | 推奨 | なし | ローカルデプロイメント、プライバシー | セルフホスト(コンピュート依存) |
関連リソース
よくある質問
Chain-of-Thoughtはすべてのモデルで機能しますか?
Chain-of-Thoughtはほとんど7B+パラメータのモデルで機能しますが、利点は異なります。中型および小型モデル(Haiku、Flash、Llama 4)で最も効果的です。フロンティアモデル(Claude Opus 4.7、o3)では、組み込み推論モードはプロンプトレベルのCoTよりも効率的なことが多い。
Chain-of-Thoughtはコストを増やしますか?
はい。プロンプトレベルのCoTは出力トークン数を増やします(モデルが最終回答の前に推論を書き出すため)。組み込み推論モード(Claude Extended Thinking、OpenAI o3)は別の思考トークン予算を使用し、異なる課金レートがある場合があります。コスト対精度のトレードオフを比較するために、ユースケースで両方をテストしてください。
Zero-shotの代わりにFew-shot CoTを使用する場合は?
まずZero-shot CoTを使用します – シンプルで、ほとんどの場合機能します。Zero-shotが信頼できない場合、または領域が特定の推論パターンを必要とする場合は、Few-shot (2–5例) に移動します(例: 標準化された行項目構造で財務分析)。
Chain-of-Thoughtを構造化出力 (JSON) と組み合わせることができますか?
はい。モデルに最初にテキストで推論を表示させ、次にJSONオブジェクトで最終回答を生成させるよう要求できます。指示を組み合わせます: 「ステップバイステップで考えてください。次に、有効なJSONとして結果を出力してください。」これは本番システムで一般的です。
Chain-of-ThoughtとTree-of-Thoughtの違いは何ですか?
Chain-of-Thoughtは線形シーケンス: ステップ1 → ステップ2 → ... → 結論。Tree-of-Thoughtは複数のブランチ(代替推論パス)を探索し、答えに到達する前に弱いものを剪定します。Tree-of-Thoughtはより強力ですが、より高価です(複数のモデル呼び出しが必要)。
OpenAI o3はChain-of-Thoughtプロンプティングが必要ですか?
いいえ。OpenAI o3は自動的にアクティブになる組み込み推論を備えています。「ステップバイステップで考えて」という指示を追加する必要はありません。o3に問題を与え、エフォートレベル(low/medium/high/xhigh)を設定して、支出する思考予算を制御します。
組み込み推論モデルの推論を監査できますか?
はい、でもモデルに依存します。Claude Extended Thinking推論トレースはAPIを介して検査可能です。OpenAI o3推論はデフォルトで隠れています(競争上の利点のため)。Gemini Deep Think推論も隠れています。完全な監査可能性については、プロンプトレベルのCoTまたはDeepSeek R1を使用します。
Chain-of-Thoughtプロンプティングはリアルタイムアプリケーションに適していますか?
プロンプトレベルのCoTは遅延を追加します(より多くの出力トークン = より遅い生成)。リアルタイムユースケースの場合、最小限の推論で小さいモデルを使用するか、ストリーミングエンドポイントを使用してトークンが到着すると表示します。組み込み推論モードはさらに多くの遅延を追加する可能性があります; 特定のユースケースをベンチマークします。
ソースと追加参考文献
- Wei, J., Wang, X., Schuurmans, D., et al. (2022). 「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」 NeurIPS 2022。arXiv:2201.11903
- Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., & Iwasawa, Y. (2022). 「Large Language Models are Zero-Shot Reasoners」 NeurIPS 2022。arXiv:2205.11916
- Wang, X., Wei, J., Schuurmans, D., et al. (2023). 「Self-Consistency Improves Chain of Thought Reasoning in Language Models」 ICLR 2023。arXiv:2203.11171
- Anthropic. (2024). 「Extended Thinking in Claude」 Claude Opus 4.7とSonnet 4.6の推論機能に関する技術ドキュメント。
- OpenAI. (2026). 「OpenAI o3: Reasoning Models for Competition-Level Problem Solving」 OpenAIドキュメントおよび研究発表。