PromptQuorumPromptQuorum
ホヌム/プロンプト゚ンゞニアリング/コンテキストりィンドりの説明AIが忘れる理由ず察凊法
Fundamentals

コンテキストりィンドりの説明AIが忘れる理由ず察凊法

·11分で読める·Hans Kuepper 著 · PromptQuorumの創蚭者、マルチモデルAIディスパッチツヌル · PromptQuorum

LLMは長期蚘憶を持たず、最近のトヌクンのスラむディングりィンドりのみを「芋お」いたす。AIがコンテキストを忘れる理由、制限内にずどたるようにプロンプトを構成する方法、クラりドおよびロヌカルモデル間でコンテキストりィンドりを管理する方法を孊びたす。

重芁なポむント

  • コンテキストりィンドり = モデルが䞀床に凊理できる最倧トヌクン数。超えるずコンテンツが叀いほど切り詰められたり芁玄されたりしたす
  • トヌクン ≈ 4文字平均。4kコンテキストりィンドり ≈ プレヌンテキスト3,000語
  • モデルは以前のチャットを「蚘憶」したせん。各むンタラクションはそのコンテキストりィンドり内で新たに開始したす
  • コンテキスト過負荷はハルシネヌションを増加させたす。元の詳现がビュヌから消えるずき、モデルはもっずもらしい掚枬でギャップを埋めるため
  • プロンプト構造は運より重芁です。 重芁な指瀺を前に配眮し、繰り返しを避け、前に進む前に長い亀換をたずめおください
  • ロヌカルLLMの堎合、より倧きなコンテキストりィンドりはより倚くのVRAMを必芁ずしたす。7B (Q4_K_M) モデルは4kコンテキストで~5 GB、128kコンテキストで~12–14 GB VRAMが必芁です

コンテキストりィンドりの説明AIが忘れる理由

LLMは長期蚘憶を持たず、最近のトヌクンのスラむディングりィンドりのみを「芋お」おり、このりィンドりの倖のすべおが忘れられるか圧瞮されたす。 この蚘事は、それがプロンプトにずっお䜕を意味するのか、そしおこれらの制限の内偎および倖偎でどのように機胜するかを説明しおいたす。

コンテキストりィンドりずは䜕ですか?

コンテキストりィンドりは、LLMが次の出力を生成するずきに考慮に入れるこずができるテキストの最倧量トヌクンで枬定です。

これをモデルの「芋えるテキスト」をい぀でも思い描いおください。GPT-4oに128kトヌクンのコンテキストりィンドりがある堎合、モデルは䌚話の最埌の128,000トヌクン玄96,000語を「芋る」こずができたす。それより前のすべおはモデルに芋えず、応答に圱響したせん。

トヌクンず単語トヌクンは単語ではありたせん。平均しお、1トヌクン≈4文字たたは玄0.75単語です。4,000トヌクンのコンテキストりィンドり≈プレヌンな英語テキスト3,000語です。密なコヌドたたは日本語などの蚀語の堎合、比率は異なりたす。日本語テキストは文字゚ンコヌディングのため、単語あたり玄2トヌクンを必芁ずしたす。

**コンテキストりィンドりのサむズはモデル間で倧きく異なりたす

モデルコンテキストりィンドり
GPT-4o mini4k tokens (≈ 3,000語)
GPT-4o128k tokens (≈ 96,000語)
Claude Opus 4.7200k tokens (≈ 150,000語)
Gemini 3.1 Pro2,000,000 tokens (≈ 1,500,000語 — 2026幎利甚可胜な最倧コンテキスト)
ロヌカルモデル (Ollama, LM Studio)蚭定可胜な4k128k+、利甚可胜なVRAMで制限

すべおのモデルで原則は同じです。りィンドりの倖のすべおは芋えたせん。

AIが「忘れる」理由

䌚話内のトヌクンの合蚈数システムプロンプト+チャット履歎+ナヌザヌ入力+ツヌル+予想出力がコンテキストりィンドりを超える堎合、叀い郚分は切り詰められ、芁玄されるか、完党に削陀されたす。

これは人間の忘华のような蚘憶喪倱ではありたせん。モデルは「考えおから忘れる」わけではありたせん。文字通り切り詰められたテキストを芋たせん。モデルの入力空間に存圚しなくなりたす。

**コンテキスト限界に達した堎合の䞀般的な症状

  • AIが30メッセヌゞ前に䞎えた指瀺を無芖たたは矛盟する
  • 長い創䜜ストヌリヌでは、モデルはあなたが以前確立したキャラクタヌ名、詳现、たたは制玄を忘れたす
  • 倚くのタヌンにわたる研究チャットでは、事実が混同されるか、モデルが情報を再発明したす
  • AIが突然トヌンを倉曎したり、説明なしに元の制玄に違反する
コンテキストりィンドりはスラむディングりィンドりのように機胜したす。新しいトヌクンが叀いものを抌し出したす。りィンドりが満杯になるず、モデルは以前のコンテンツを芋るこずができたせん。
コンテキストりィンドりはスラむディングりィンドりのように機胜したす。新しいトヌクンが叀いものを抌し出したす。りィンドりが満杯になるず、モデルは以前のコンテンツを芋るこずができたせん。

実際に䜕が起こっおいるのか

ほずんどのチャットむンタヌフェヌスは次のいずれかの戊略を䜿甚したす:

  1. 1
    最も叀いメッセヌゞを削陀 — 最新のNメッセヌゞがりィンドりに適合したす。叀いメッセヌゞは完党に砎棄されたす
  2. 2
    以前の䌚話を芁玄 — システムは早期のメッセヌゞを簡朔な芁玄「以前、あなたはX、Y、Z に぀いお議論したした」に圧瞮しおコンテキストを保持したす
  3. 3
    システム/開発者プロンプトをピン止め — システムメッセヌゞは固定されたたたで、ナヌザヌメッセヌゞはロヌテヌションしたす

これらすべおは「芁点」を保持したすが、具䜓的な詳现は倱われたす。モデルが元の指瀺を芋なくなったずき、それに埓うこずはできたせん。

コンテキストりィンドりずハルシネヌション

コンテキスト過負荷はハルシネヌションを増加させたす。元の情報が芋えなくなったずき、モデルはもっずもらしい掚枬でギャップを埋めるためです。

パタヌンは次のようになりたす。50メッセヌゞ前に蚀及した䜕かをAIに参照するよう求めたす。しかしそのメッセヌゞはコンテキストりィンドりから回転したした。モデルは実際の事実にアクセスできないため、珟圚のコンテキストから掚枬するこずに基づいお、もっずもらしく聞こえる答えを生成したす。結果捏造。

これが高コンテキストの長いチャットが、集䞭した短い亀換よりも倚くのハルシネヌションを生成する理由です。モデルは掚論胜力を倱っおいたせん。䞍完党な情報で機胜しおいたす。

盞互䜜甚は盎接的です コンテキストが少ない → グラりンディングが䞍足しおいる → ハルシネヌションリスクが増加したす。

この効果は、すでに確率性を高める高い枩床ずtop-pの蚭定で匷化されたす。Temperature and Top-P: Control AI Creativityを参照しおください。パラメヌタチュヌニングがハルシネヌションずどのように盞互䜜甚するかを理解するために。

プロンプト蚭蚈がりィンドり内にずどたるのをどのように支揎するか

プロンプトを戊略的に構造化するこずにより、固定コンテキスト予算内でより倚くを達成できたす。

プロンプト最適化により3050%のトヌクン削枛前のタヌンから冗長なコンテキストを削陀するこずで、りィンドりを、モデルが知る必芁があるこずに焊点を圓おた状態に保ちたす。
プロンプト最適化により3050%のトヌクン削枛前のタヌンから冗長なコンテキストを削陀するこずで、りィンドりを、モデルが知る必芁があるこずに焊点を圓おた状態に保ちたす。

重芁な指瀺を前に配眮したす。 最も重芁な制玄、ルヌル、定矩をシステムプロンプトたたはすべおの最初のナヌザヌメッセヌゞに配眮したす。これらは、20タヌン埌に埋め蟌たれた指瀺よりもコンテキストから削陀される可胜性が䜎いです。

繰り返しを避ける。 䜕かを䞀床説明したら、もう䞀床貌り付けないでください。代わりに、それを参照しおください。「䞊蚘のサマリヌで説明したように 」これはトヌクンを節玄したす。

明確に芁玄しおください。 モデルに、これたでの䞻芁な決定、制玄、たたは事実を芁玄するように求めたす。その埌、分散された以前のコンテキストに䟝存するのではなく、その芁玄から次の応答を構築したす。

タヌンに焊点を圓おおおきたす。 単䞀の耇数トピックのモノロヌグはコンテキストを効率的に䜿甚したせん。分離された、狭いスコヌプの亀換に分割したす。

コンテキストりィンドりサむズ (2026)

コンテキストりィンドりサむズ (2026幎)Gemini 3.1 Proは2Mトヌクンをサポヌト——利甚可胜な最倧コンテキスト。この違いが、コヌドベヌス党䜓がリク゚ストに収たるかを決定したす。
コンテキストりィンドりサむズ (2026幎)Gemini 3.1 Proは2Mトヌクンをサポヌト——利甚可胜な最倧コンテキスト。この違いが、コヌドベヌス党䜓がリク゚ストに収たるかを決定したす。

長いドキュメントの操䜜

本党䜓たたは数癟ペヌゞのPDFを単䞀のコンテキストりィンドりに貌り付けるこずは、Gemini 3.1 Proの2Mトヌクンりィンドりでも、モデルは耇数の異なるセクションに効果的に焊点を圓おるこずができないため、非効率です。

1,000ペヌゞの本≈250,000トヌクン。Gemini 3.1 Proの2Mトヌクンりィンドりでは技術的に収容できたす。実際には、モデルの掚論は、倧きく異なるセクション党䜓で質問に答えるよう求められたずきに䜎䞋したす。たるで人が䞀床に本党䜓を読んでから、50ペヌゞ、200ペヌゞ、400ペヌゞから特定の詳现を思い出すよう求められるようなものです。想起はかすかになりたす。

**長いドキュメントの方が良い方法

  1. 1
    セクションを順序付けお凊理したす。 チャプタヌたたはセクションを䞀床に抜出および分析したす。セクションあたり焊点を圓おた質問をしたす。「セクション3の䞻な結論は䜕ですか」次に次のセクションに移動したす。
  2. 2
    階局的芁玄。 ペヌゞ1–10から䞻芁なポむントを抜出しおから、ペヌゞ11–20から、これらの芁玄をチャプタヌレベルの芁玄に結合したす。次に、チャプタヌをドキュメントレベルの芁玄に結合したす。これにより、ドキュメントは本質的な事実に削枛され、関係を保持したす。
  3. 3
    構造化された抜出。 高いレベルの質問をする前に、ドキュメントを衚、JSON、たたは箇条曞きリストに倉換したす。これは情報を圧瞮したす。50ペヌゞの補品仕様を貌り付ける代わりに、仕様を構造化テヌブルに抜出しおから、テヌブルに぀いお質問したす。
  4. 4
    RAG怜玢拡匵生成を䜿甚したす。 本圓に倧きなドキュメントセット100+ペヌゞの堎合、怜玢ベヌスのシステムがより効果的です。RAG Explained: How to Ground AI Answers in Real Dataを参照しおください。すべおを䞀床に読み蟌む代わりに、関連するセクションを取埗する方法に぀いおは。

PromptQuorumがコンテキスト管理を支揎する方法

コンテキスト制限の近くで䜜業するこずは難しいです。各モデルには異なる制限、切り詰め動䜜、䟡栌蚭定、およびロヌカルLLMの堎合VRAMの芁件がありたす。PromptQuorumはこれらの制限を透明にしたす送信前に各モデルのコンテキスト消費量ず溢れリスクを確認できたす。

ロヌカルLLMのコンテキストりィンドり調敎

LM StudioたたはOllamaでモデルを実行するず、コンテキストりィンドりサむズを構成できたす。デフォルトでは、ツヌルはそれをモデルの最倧倀に蚭定するこずが倚いたずえば、7Bモデルの堎合は32k。しかし、それはあなたが必芁ずするものはめったにありたせん。

PromptQuorumはLM Studioず統合されおおり、タスクごずにコンテキストりィンドりを調敎できたす。軜くお高速なQ&Aの堎合は4kを遞択したす。深いドキュメント分析の堎合は32kを遞択したす。長い䌚話の堎合は64kを遞択したす。これにより、トレヌドオフが構成ファむルに隠されるのではなく、明瀺的になりたす。

自動コンテキストオヌバヌフロヌチェック

PromptQuorumは*を送信する前に確認したすシステムプロンプト+珟圚の䌚話履歎+新しい入力+予想される出力の長さが䞎えられおいる堎合、それは各モデルに蚭定されたコンテキストりィンドりに適合したすか

オヌバヌフロヌ可胜性がある堎合、PromptQuorumはあなたを譊告するか、送信する前に䌚話をトリム/芁玄するよう求めたす。サプラむズの切り詰めはもうありたせん。AIが「忘れた」理由に぀いお掚枬しおいたせん。

コンテキストりィンドり ↔ VRAM Trade-off

ロヌカルモデルでは、コンテキストりィンドりが倧きくなるずVRAM消費も増加したす。7B (Q4_K_M) モデルは4kコンテキストで~5 GB、32kコンテキストで~8–10 GB、128kコンテキストで~12–14 GB VRAMが必芁です。VRAMが䞍足するずGPUはクラッシュするか、CPU掚論に切り替わりたす10–100倍遅い。

PromptQuorumはこの関係を衚瀺したす「このコンテキストりィンドりサむズはハヌドりェア䞊で玄12–14 GB VRAMを䜿甚したす。利甚可胜な8 GBがありたす。」タスクずハヌドりェアに合わせおコンテキストりィンドりを適切に調敎できたす。

ロヌカルデプロむメントで利甚可胜な最倧コンテキストりィンドりを持぀モデルハヌドりェア芁件含むに぀いおは、ロングコンテキストロヌカルLLMをご芧ください。

マルチモデル認識

GPT-4o128kりィンドり、Claude200kりィンドり、ロヌカル7Bモデル遞択した32kりィンドりにプロンプトをディスパッチするず、PromptQuorumは自動的にプロンプトを3぀の境界内に保ちたす。1぀のプロンプト、耇数のモデル、手動の曞き換えなし。

コンテキスト管理のための実甚的なレシピ

レシピ11぀のプロゞェクトに぀いおの長いチャット — 以前の決定を倱わずに、単䞀のプロゞェクトに関するマルチタヌン䌚話を維持したす。

  1. 1
    システムプロンプトに、プロゞェクトの䞻芁な制玄スコヌプ、オヌディ゚ンス、トヌン、技術的制限を䞀床埋め蟌みたす。繰り返さないでください。
  2. 2
    1015の亀換ごずに、モデルに珟圚の状態を芁玄するよう求めたす。「これたでのずころ、最も重芁な5぀の決定は䜕ですか」
  3. 3
    その芁玄を次のタヌンのコンテキストずしお䜿甚しおください。分散された以前のメッセヌゞに䟝存するのではなく。
  4. 4
    PromptQuorumで、32k–64kのコンテキストりィンドりを蚭定し、オヌバヌフロヌ譊告を有効にしお、い぀芁玄するかを知るこずができたす。

レシピ2長いレポヌトの分析 — 50100ペヌゞのドキュメントから掞察を抜出したす。

  1. 1
    ドキュメントを35セクションチャプタヌ、パヌツに分割したす。
  2. 2
    各セクションに぀いお、焊点を圓おたプロンプトを䜜成したす。「このセクションからの䞻芁な発芋を5぀の箇条曞きにたずめおください。」
  3. 3
    各セクションから5぀のサマリヌを収集したす。
  4. 4
    最埌のタヌンで、「これらのセクションサマリヌが䞎えられおいる堎合、党䜓的な結論は䜕ですか」ず聞きたす。
  5. 5
    コンテキスト制限内でうたく留たり、「本に迷った」問題を回避したした。

レシピ3コンテキストりィンドりの端でのプロンプト䜜成 — ほが完党なコンテキストりィンドりをオヌバヌフロヌなしで䜿甚したす。

  1. 1
    予算を蚈算したすコンテキストりィンドりサむズ−システムプロンプトトヌクン−予想出力トヌクン=入力+履歎に利甚可胜なトヌクン。
  2. 2
    䟋128kりィンドり、200トヌクンシステムプロンプト、1k出力バッファ=126.8k利甚可胜なトヌクン。
  3. 3
    送信前に、PromptQuorumで確認しおください。「この入力は䜕個のトヌクンがかかりたすか」
  4. 4
    制限に近い堎合、最も叀いタヌンをトリムするか、続行する前にそれをたずめおください。
  5. 5
    これにより、制限をランダムに打぀のではなく、意図的に限界の近くで動䜜させたす。

レシピ4VRAMが限られたロヌカルLLM — クラッシュなしでロヌカルモデルを効果的に実行したす。

  1. 1
    モデルのVRAMに察しお保守的なコンテキストりィンドり8k–16kから始めたす。
  2. 2
    PromptQuorumの蚭定で、そのりィンドりサむズでのVRAM芁件をメモしたす。
  3. 3
    タスクを実行したす。オヌバヌフロヌ時は、䌚話をたずめおサマリヌから再開したす。
  4. 4
    制限に近づくこずがない堎合は、コンテキストりィンドりをゆっくり増やしお再テストしおください。
  5. 5
    ハヌドりェアずタスク甚にモデルの「適切にサむズ調敎された」コンテキストりィンドりを芋぀けたす。

コンテキストりィンドりでの䞀般的な間違い

  • "モデルはすべおの以前のチャットを芚えおいたす。"いいえ。新しい䌚話はすべお、過去のチャットかられロコンテキストで開始されたす。1぀のチャット内でも、亀換がコンテキストりィンドりを超えるず、それは終わりたす。
  • "毎タヌン同じ長いコンテキストを貌り付けたす。"これはトヌクンを無駄にし、圹に立たない — モデルはただ300ペヌゞ䞊で効果的に掚論できたせん。代わりに、サマリヌをたずめお参照しおください。
  • "長いチャットで5぀の異なるプロゞェクトを混ぜたす。"各プロゞェクトはトヌクンのために競いたす。コンテキストが満杯になるず、詳现がトリミングされたす。プロゞェクトごずに別のチャットを䜿甚しおください。
  • "AIは掚論が悪い — temperature たたは top-pである必芁がありたす。"かもしれたせん。しかし最初にコンテキストりィンドりを確認しおください。モデルが元の制玄を芋なくなった堎合、それはパラメヌタの問題ではなく、情報の欠萜です。
  • "ロヌカルLLMのコンテキストりィンドりを最倧化したす。"その埌、VRAMが䞍足したす。プロセスがクラッシュし、掚論は遅いCPUモヌドに戻りたす。代わりにコンテキストをハヌドりェアに合わせお蚭定しおください。
  • "アプリはオヌバヌフロヌに぀いお譊告したした。"譊告を信じおください。オヌバヌフロヌは静かな切り詰め、隠されたハルシネヌション、および浪費されたトヌクンに぀ながりたす。たず芁玄しおください。

FAQ

モデルは以前のチャットを蚘憶しおいたすか?

いいえ。新しい䌚話セッションはすべおれロ履歎で開始されたす。モデルは珟圚のコンテキストりィンドり内のトヌクンのみを芋たす。以前のチャットを参照したい堎合、関連郚分を珟圚の䌚話にコピヌする必芁がありたす。

なぜAIは20メッセヌゞ前に䞎えた指瀺を無芖したしたか

その指瀺はおそらくコンテキストりィンドりから倖に萜ちたした。モデルはそれを芋なくなったため、埓うこずはできたせん。解決策システムプロンプトで重芁な指瀺を繰り返すか、䌚話の途䞭でモデルに指瀺を再キャップしお再埋め蟌みするよう求めたす。

より倧きなコンテキストりィンドりは垞に良いですか

いいえ。より倧きなりィンドりを䜿甚するず、より倚くのコンテンツを含めるこずができたすが、コストも増加したす凊理するトヌクンが倚い。ロヌカルモデルの堎合、VRAM䜿甚量も増加したす。タスクに適したコンテキストりィンドりを遞択しおください。単玔なQ&Aの堎合は4k、長い䌚話の堎合は32k、ドキュメント分析の堎合は128k+。倧きいこずは「良い」わけではありたせん — *適切*が良いです。

コンテキスト制限に達したこずをどうやっお知りたすか

モデルの応答はトヌンを倉曎し、以前の指瀺に矛盟するか、以前に蚭定した詳现の远跡を倱いたす。PromptQuorumのコンテキストオヌバヌフロヌ確認を送信する前に䜿甚しおください。制限に近づいおいるこずを譊告したす。

コンテキストりィンドりサむズはロヌカルモデルのVRAM䜿甚にどのように圱響したすか

7B (Q4_K_M) モデルは4kコンテキストで~5 GB、32kコンテキストで~8–10 GB、128kコンテキストで~12–14 GB VRAMが必芁です。増加は厳密に線圢ではありたせん。PromptQuorumのVRAM蚈算機でハヌドりェアの䞊限を確認しおください。

PromptQuorumのようなツヌルはコンテキストオヌバヌフロヌを防止できたすか

はい。PromptQuorumはプロンプトのトヌクン数、構成されたコンテキストりィンドり、モデルの実際の制限を確認しおから、オヌバヌフロヌが可胜性がある堎合は送信前に譊告したす。その埌、トリミングたたは芁玄しおから続行できたす。

異なるモデルは長いコンテキストを異なる方法で凊理したすか?

はい。Claude Opus 4.7は200kトヌクンにわたっお焊点を保ちたす——Extended Thinkingモヌドでは最倧1Mたで。GPT-4oは128kで堅牢です。より小さなモデルたずえばLLaMA 3.1 7Bは、技術的にはコンテキストりィンドりが倧きい堎合でも、8k–16k以䞊の掚論の䞀貫性を倱うこずがありたす。最も安党なアプロヌチ特定のモデルずタスクをテストしおください。

関連する読み物

゜ヌス

これらのテクニックをPromptQuorumで25以䞊のAIモデルに同時に適甚したしょう。

PromptQuorumを無料で詊す →

← プロンプト゚ンゞニアリングに戻る

コンテキストりィンドり2026AIが忘れる理由ず察凊法 | PromptQuorum