セルフコンシステンシーとは
定義:同じ質問に対してLLMに複数の異なる推論経路を生成させ、最後の答えを投票で決定するプロンプト技法です。
論文:Wang et al.(2023)ICLR。Princeton / DeepMind による研究。arXiv:2211.11559
背景:Chain-of-Thought(線形推論)は推論過程を詳述しますが、1パスのため間違う可能性があります。複数パスを生成して多数決することで、偶発的な推論エラーを回避できます。
簡潔説明:「同じ質問を何度も異なる方法で考えさせて、最多票の答えを選ぶ」
この手法は教育心理学の「学習中の複数戦略活性化」と類似。人間も複雑な問題では複数の解法を試して最良を選びます。
🔍 Did You Know
セルフコンシステンシーの概念は数学教育から着想を得ています。学生が異なるアプローチで同じ問題を解いて答えを確認する方法と同じ。LLMでも複数の「思考プロセス」を実行することで、精度が人間の検証プロセスに近づきます。
精度向上の仕組み
推論パス生成時の多様性:各パスで異なる思考経路が生成されます。これは温度(Temperature)パラメータを高く設定して多様性を確保するため。
投票メカニズム:複数パスの最終答えを集約します。例えば5パスで答えが「4, 4, 4, 5, 4」なら、4が最多票で最終答え。
エラー相殺:1パスで起こる計算ミスや論理飛躍が、複数パス中で相殺される確率が高まる。
ロバスト性:ランダムな推論エラーは複数パスで同じ方向に起こる確率は低い。その結果、投票で正解が選ばれやすくなります。
モデルの不確実性把握:複数パスの答え分布を見ると、モデルの確信度が視覚化される。全パスが同じ答えなら高確信。分散していれば低確信。
実測例:数学問題での改善
ベンチマーク:GSM8K(小学レベル算数8,500問)
結果:
• CoT(単一パス):56%
• セルフコンシステンシー(8パス投票):74%
• 改善:+18ポイント
他のベンチマーク:
• SVAMP(数学単語問題):83%→90%
• AQuA(複合推論):35%→55%
パス数による精度変化(GSM8K):
• 1パス(CoT):56%
• 3パス:70%
• 5パス:72%
• 8パス:74%
• 16パス:75%(伸び減少)
パス数が増えるほど精度は向上しますが、8~10パスで収益逓減傾向になります。
セルフコンシステンシーの実装
ステップ1:基本プロンプトを構成
「以下の問題を段階的に解いてください」
問題文
ステップ2:複数パス生成
• Temperature を 0.7~1.0に設定(多様性確保)
• 同じプロンプトで5~10回別々に実行
• 各実行で異なる推論経路が生成される
ステップ3:答えを抽出
• 各パスの最終答え(結論)を記録
• 例:5回実行で「42, 42, 43, 42, 42」
ステップ4:投票で決定
• 最多票の答えが最終結果
• 上記例では「42」が4票で勝利
ステップ5:確信度を表示(オプション)
• 最多票数 / 総パス数 = 確信度
• 4/5 = 80%確信度
CoT vs セルフコンシステンシー vs マルチモデル投票
この表は3つの推論精度向上手法を比較します:
| 項目 | Chain-of-Thought | セルフコンシステンシー | マルチモデル投票 |
|---|---|---|---|
| 定義 | 「段階的に考えてください」と指示して推論過程を詳述 | 同じプロンプトで複数パスを生成、最終答えを投票で決定 | 複数の異なるモデル(GPT、Claude、Gemini)で実行、投票で決定 |
| パス/モデル数 | 1パス(単一実行) | 5~10パス(同一モデル) | 3~5モデル |
| 精度向上(GSM8K比較) | 56% | 74%(+18ポイント) | 71%(+15ポイント) |
| トークンコスト | ベースライン | 5~10倍 | 3~5倍(ただしモデル料金異なる) |
| レイテンシ(遅延) | 最速 | 遅い(複数パス順序実行) | 中程度(並列実行可) |
| 向いている問題 | ほぼ全て。推論が必要な問題すべてで基本 | 答えが確定的な数学・ロジック問題 | 汎用。モデル間の視点差が有益な場合 |
| コスト効率 | 最高 | 低い(複数パスコスト) | 中程度 |
活用シーンと選択基準
✅ セルフコンシステンシーが有効な場合:
• 数学問題(計算、方程式、確率)
• 論理パズル(クイズ、推論問題)
• 医学診断(複数症状から病名特定)
• 法的分析(契約条項の合意性判定)
• コード検証(正しく動くか判定)
❌ セルフコンシステンシーが不向きな場合:
• 創作・物語生成(「正解」がない)
• テキスト分類(感情判定など確率的な判定)
• 機械翻訳(複数の「正解」が存在するが投票は無意味)
• 開放的質問(複数視点が正当、統合が難しい)
選択フロー:
1. 問題に確定的な答えがあるか?
• YES → セルフコンシステンシー検討
• NO → 不向き
2. 現在の精度で不足しているか?
• YES → コスト許容なら実装
• NO → CoT単独で十分
3. レイテンシが許容か?
• YES → セルフコンシステンシー実装
• NO → マルチモデル投票検討
🔍 Pro Tip
数学問題で試すなら5~8パスから開始。精度とコストのバランスが最良。その後、必要に応じて10パスに拡張するか判断。最初から20パスで実験すると、コスト消費が無駄になりやすい。
よくある実装ミス
ミス1:Temperature = 0で複数パス実行
問題:Temperature 0は決定的(毎回同じ答え)。複数パスの意味がない
修正:Temperature 0.7~1.0で実行
ミス2:パス数を多すぎるに設定
問題:20~50パスは大幅なコスト増だが、精度向上は頭打ち
修正:5~10パスで開始。10を超えるのは検証後のみ
ミス3:結果の型チェック忘れ
問題:「答え:42」と「42」と「42.0」が混在し、投票が機能しない
修正:答えを正規化(数値なら整数に統一、テキストなら小文字に)
ミス4:不透明な投票方式
問題:複数答えが同票の場合の処理を決めていない
修正:事前に「最初の答えを選ぶ」「全パスを返す」など方針を決定
ミス5:確信度の無視
問題:5パス中3パスと2パスで分かれても「最終答え:X」だけ報告
修正:「確信度60%」など添える。低い確信度は注記
⚠️ Warning
セルフコンシステンシーは正解率向上の「手段」であり「保証」ではありません。複数パスが全て間違えばスコアは0です。特に複雑な推論では、5~8パスでも全て失敗することがあります。常に別検証手段(教師データ、単体テスト)と併用してください。
PromptQuorumで試す
PromptQuorum では、セルフコンシステンシープロンプティングを複数モデルで並行テストできます:
1. モデルを選択:Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro など
2. パス数を設定:5、8、10 を比較実験
3. Temperature を調整:0.7~1.0 で多様性確保
4. 同じプロンプトで複数実行してパス多様性を検証
5. 投票メカニズムで最終答えを決定
メリット:
• 複数パス自動生成・投票(手作業不要)
• モデル間比較(同じセットで全モデルテスト可)
• 設定変更で即座に再テスト
使用例:数学ベンチマーク自動評価
• GSM8K 10問セット
• 各問3モデル × 8パスで投票
• 結果:モデル別・パス数別の精度グラフ
はじめ方
1. 現在の精度を測定
• CoT単一パスで実行
• 正答率を記録
2. セルフコンシステンシー設定
• Temperature: 0.7~0.9
• パス数: 5
3. テスト実行
• 同じプロンプトで5回実行
• 最終答え5つを記録
4. 投票で決定
• 最多票の答えが最終結果
• 確信度を計算
5. 精度比較
• セルフコンシステンシー vs CoT
• コスト増とのバランス判定
6. 最適化(必要に応じて)
• パス数を8、10に増やし再テスト
• 温度調整で多様性確認
推奨開始モデル:Claude Opus 4.8 または GPT-5.5
関連記事
Chain-of-Thoughtプロンプティング — セルフコンシステンシーの基盤となる線形推論手法
プロンプトエンジニアリングとは — 基礎知識
マルチステップ推論と分解 — 大型問題を分割する手法
Few-Shotプロンプティング — 例示による精度向上
モデル選択ガイド — Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro 比較
プロンプト検証戦略 — 精度測定とA/Bテスト
参考文献
Wang et al. (2023). "Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023. arXiv:2211.11559
Wei et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
Cobbe et al. (2021). "Training Verifiers to Solve Math Word Problems." OpenAI. arXiv:2110.14168
Uesato et al. (2022). "Solving Mixed-Modal Jailbreak Prompts by Decomposition." DeepMind.
Anthropic (2026). "Extended Thinking in Claude — Making Longer Chains of Thought." Claude API Documentation.
OpenAI (2026). "Reasoning in o3 and GPT-5.5 — Model Behavior and Prompting Guidance." OpenAI API Docs.
よくある質問
セルフコンシステンシープロンプティングとは?
セルフコンシステンシープロンプティングは、同じ質問に複数の独立した回答を生成し——各々が独自の推論パスを持つ——その後、最も頻繁に現れる答えを選択する技術です。1つのAI回答を信頼する代わりに、多くの回答の合意に依存します。2023年にWang et al.によって導入され、数学、論理、および多段階推論タスクの精度を大幅に向上させます。
セルフコンシステンシーには何個のサンプルが必要ですか?
ほとんどのタスクでは、5~10サンプルが最良の精度対コスト比を提供します。元の論文は1から5サンプルまで精度が急速に向上し、20を超えると収穫逓減を示していることを示しました。20から40サンプルへの移行はGSM8Kで2パーセントポイントのみを追加しました。5から始めます。高リスク決定でのみ10~20に増加させます。
セルフコンシステンシーは単純なタスクで機能しますか?
大きな意味では機能しません。事実検索、単純な分類、または短編の執筆については、単一の回答はほぼ常に十分で、はるかに安価です。セルフコンシステンシーはモデルの単一パス精度が~90%未満のタスク——通常は数学、ロジックパズル、多段階分析、複雑な推論——でのみ値を追加します。
セルフコンシステンシーにはどの温度を使用すればよいですか?
温度を0.7~1.0に設定します。この技術は異なる推論パスを必要とします——温度が0(決定論的)の場合、各サンプルは同じ出力を生成し、投票は無意味になります。より高い温度は多数決投票を有益にする変動を生成します。
セルフコンシステンシーはどのくらい多くのコストがかかりますか?
1つの代わりに5~20の完全な応答を生成するため、タスクあたり大体5~20倍のトークンです。$0.01の費用がかかる応答の場合、10サンプルでのセルフコンシステンシーは$0.10かかります。これは重大な決定(財務分析、医学的推論、法的解釈)に対しては正当化されますが、日常的なタスクに対しては無駄です。
セルフコンシステンシーは「ベストオブN」サンプリングと同じですか?
同様ですが同一ではありません。ベストオブNはN個の応答を生成し、最高のものを選択します(多くの場合、品質スコアラーによる)。セルフコンシステンシーはN個の推論パスを生成し、最も一般的な答えを選択します——投票は質の上ではなく結論の上です。セルフコンシステンシーは品質スコアラーを必要としません。合意をシグナルとして使用します。
セルフコンシステンシーをチェーンオブソートプロンプティングで使用できますか?
はい——これが元の最も効果的な組み合わせです。N個のサンプルのそれぞれが推論の連鎖を使用し、完全な推論トレースと最終的な答えを生成します。その後、すべてのNトレース全体で最終的な答えについて投票します。推論パスは異なる可能性がありますが、ほとんどが同じ結論に達する場合、その結論は堅牢です。
PromptQuorumはセルフコンシステンシーにどのように関連していますか?
PromptQuorumは、1つのモデル内ではなく異なるモデル全体に同じコンセンサス原則を適用します。同じモデルに10回質問する代わりに、5つの異なるモデルに1回ずつ質問し、それらの答えを比較します。同意するところ、信頼度は高いです。意見が異なるところ、請求は検証が必要です。これにより、単一モデルのセルフコンシステンシーが検出できないモデル固有のバイアスをキャッチします。