大規模言語モデルには、ファインチューニング、スケーリング、プロンプトエンジニアリングのいずれによっても排除できない8つの硬い制限があります：リアルタイムデータへのアクセス不可、幻覚、不安定な複数ステップ推論、コンテキストウィンドウの上限、記憶なし、現実世界のアクション不可、学習バイアス、自己検証の不可能性。すべてのモデル — GPT-4o、Claude Opus 4.7、Gemini 3.1 Proとオープンソースの代替品 — がこれらの構造的制約を共有しています。このガイドでは、各制限について本番環境で機能するエンジニアリング上の回避策と合わせて説明します。

大規模言語モデルの硬い制限は何ですか?

LLMには8つの構造的な制限があり、プロンプト、ファインチューン、またはモデルサイズの増加では完全に克服できません — それらはアーキテクチャの追加が必要です。これらの制限は、実装の不備ではなく、トランスフォーマーアーキテクチャとトレーニングプロセス自体から生じます。

プロンプトエンジニアリングにとって重要な区別は：制限は*システム設計の変更*が必要です（検索ツール、メモリレイヤー、検証ステップ）。一方、低い品質のプロンプトは別の、修正可能な問題です。この2つを混同すると、実際の制約がアーキテクチャにあるときに、プロンプトの過度なエンジニアリングが生じます。

8つの制限は：知識カットオフ、幻覚、弱い複数ステップの推論、コンテキストウィンドウの上限、永続的なメモリなし、実世界のアクション、トレーニングデータバイアス、および出力の自己検証ができない。

8つの制限の概要

詳細に進む前に、一目でわかるクイックルックアップテーブル。

#	制限	クイック回避方法
1	知識カットオフ	現在のコンテキストを貼り付けるかRAGを使用する
2	幻覚	プロンプトを接地する；出力を検証する
3	弱い推論	Chain-of-thoughtプロンプティング
4	コンテキストウィンドウの上限	チャンキングまたは要約
5	メモリがない	アプリケーション層で状態を保存する
6	実世界のアクションができない	ツール使用/関数呼び出し
7	トレーニングバイアス	ドメインコンテキストを提供する
8	自己検証できない	一次資料に対して検証する

LLMはXができるか？ — クイック回答

よく聞かれる質問：LLMに依頼される一般的なタスクと、現在のアーキテクチャが実際に対応できるかどうか。

タスク	LLMにできるか？	理由
コードを書く	はい（条件付き）	もっともらしいコードを生成できるが、ツール使用なしではテストやデバッグはできない
インターネットを検索	いいえ（デフォルト）	ツール使用レイヤーが必要。ベースモデルAPIにはネットワークアクセスがない
過去の会話を記憶	いいえ（デフォルト）	ステートレスアーキテクチャ。アプリケーション層でのメモリ注入が必要
数学を確実に解く	部分的	単純な計算：可。複数ステップ：Chain-of-ThoughtまたはコードインタープリターのToolが必要
事実を検証する	いいえ	グラウンドトゥルースへのアクセスなし。パターンの一貫性のみを評価
画像を生成する	いいえ（テキストモデル）	別のマルチモーダルモデル（DALL-E 4、Midjourneyなど）が必要
皮肉を理解する	部分的	明白な皮肉は検出できるが、微妙または文化的な形式は見落とす
ドメイン専門家の代替	いいえ	実務経験、法的責任、検証済み知識へのアクセスが欠如している

モデル別の制限の違い（2026年）

8つの構造的制限はすべてのモデルに共通ですが、重大度と利用可能な回避策はモデルによって異なります。

制限	GPT-4o	Claude Opus 4.7	Gemini 3.1 Pro	オープンソース (LLaMA 3.1)
知識カットオフ	2024年10月	2025年初頭	2025年初頭	リリースにより異なる
コンテキストウィンドウ	128Kトークン	1Mトークン	200万トークン	8K〜128Kトークン
ツール使用品質	優秀	優秀	良好	様々
幻覚への対処	普通	強い（不確実性を明示）	普通	弱い
拡張推論	o3/o4-mini利用可能	Extended thinking利用可能	Flash Thinking利用可能	限定的

制限1 — 知識カットオフとリアルタイムデータなし

すべてのLLMはトレーニングカットオフ日を持ち、外部検索が追加されない限り、モデルはその日付の後にリリースされたイベント、価格、論文、または製品バージョンについての知識を持ちません。 OpenAI GPT-4oは2024年10月のカットオフを持っています。Anthropic Claude Opus 4.7とGoogle Gemini 3.1 Proは2025年初頭のカットオフを持っています。

モデルはまた、カットオフに*近い*イベントについて希薄な知識を持っています。トレーニングデータの収集と処理にはイベントの発生から数週間から数か月かかるため。2024年10月までトレーニングされたモデルは、2024年9月から10月のイベントについてのカバレッジが薄い可能性があります。

主要な回避方法は、検索拡張生成（RAG）で、クエリ時にプロンプトにライブまたは最近のドキュメントを注入します。二次的な回避方法はプロンプトの接地です：関連する現在の事実をプロンプトに直接貼り付けて、モデルにそのコンテキストからのみ答えるよう指示する。

制限2 — 幻覚は構造的で、バグではない

LLMは検証された事実ではなく、統計的にもっともらしいトークンを生成します — 特定の事実のトレーニング信号が薄いとき、モデルは確信を持った虚偽を生成します。これはGPT-4o、Claude Opus 4.7、Gemini 3.1 Proを含むすべてのモデルに適用されます。詳細については、AI幻覚 — AIが物事を作り出す理由を参照してください。

幻覚は最も頻繁に発生します：特定の数値（価格、日付、統計）、引用と論文参考文献、ニッチな技術仕様、およびトレーニングカットオフに近いまたは後のイベント。モデルが幻覚を起こしているときは、ほとんど信号を送りません。

回避方法：ソース資料をプロンプトに提供し、モデルにそれからのみ回答するよう指示する；モデルに提供されたコンテキストから確認できない主張にフラグを立てるよう指示する；RAGを使用して、確認されたドキュメントに回答を結合する；公開前にすべての重要な数字を一次資料に対して検証する。

「モデルは知らないことを知りません。ギャップを沈黙ではなくパターンで埋めます。」
— 複数の幻覚ベンチマーク全体の研究結果、2023–2024

制限3 — 信頼性の低い複数ステップの推論

LLMは、明示的なchain-of-thoughtプロンプトまたは外部計算機ツールなしでは、複数ステップのロジックまたは数学的推論タスクで低い結果を生成します。単一の応答で10ステップの算術問題を解くよう求められたモデルは、確信を持った不正確な答えを頻繁に生成します。

根本原因：LLMはステートを維持することではなく、可能性が最も高い次のトークンを生成するようにトレーニングされています。生成された各トークンは以前のトークンに基づいています。しかし、推論チェーン全体に中間結果が保持されるワーキングメモリまたはスクラッチパッドはありません。

Chain-of-thoughtプロンプティング（「ステップバイステップで考える」または番号付きステージ）では、モデルが中間的な推論を記述するように強制し、複数ステップのタスクの精度を大幅に改善します。正確な算術では、モデルの出力に頼るのではなく、タスクをコードインタープリターツールにルーティングします。

制限4 — コンテキストウィンドウの上限

すべてのLLMセッションにハードなトークン制限があります — GPT-4oは128,000トークン、Claude Opus 4.7は200,000トークン、Gemini 3.1 Proは2,000,000トークン — ウィンドウが満杯になると、前のコンテンツのパフォーマンスが低下します。コンテキストウィンドウの説明を参照して、完全な詳細を確認してください。

「中間で失われる」問題：複数の研究によると、長いコンテキストの中間から情報を取得するLLM精度は、始まりまたは終わりから大幅に低くなっています。1Mトークンウィンドウは、すべての1Mトークンに対して均一な注意が広がることを意味しません。

回避方法：重要な情報をプロンプトの開始または終了に配置する；RAGを使用して関連チャンクのみを取得し、完全なドキュメントをダンプしない；長いドキュメントを要約ステップで分割されたセッションに分割する。

パフォーマンスは、関連情報が入力コンテキストの開始または終了で発生したときに最も高く、明示的に長いコンテキストモデル用でも、モデルが長いコンテキストの中間の情報を推論する必要があるときに大幅に低下します。
— Nelson F. Liu et al. (2023), "Lost in the Middle: How Language Models Use Long Contexts," arXiv:2307.03172

制限5 — 会話間の永続的なメモリなし

デフォルトでは、すべてのLLM会話は空白のコンテキストで始まります — モデルは以前のセッション、過去の指示、または前のユーザー設定についてのメモリを持ちません。これは機能のギャップではなく、ベースアーキテクチャです。

アプリケーション層（ChatGPTのOpenAI Memory機能など、またはベクトルデータベースで構築されたカスタムメモリシステム）は、以前の会話の要約をプロンプトに注入でき、メモリの*外観*を作成しています。しかし、これはアプリケーションレベルの状態管理であり、モデル自体が覚えていません。

プロンプトエンジニアリングの場合：以前のセッションで設定した設定、フォーマット、または制約についてモデルが覚えていると仮定しないこと。関連する以前のコンテキストは常にプロンプトに明示的に含める。

制限6 — LLMは実世界のアクションを実行できない

LLMはテキストを生成します — ツール使用レイヤーが明示的にこれらのアクションを有効にしない限り、ウェブをブラウズしたり、コードを実行したり、メールを送信したり、ファイルを変更したり、外部システムと相互作用したりすることはできません。モデルはそれが何をするかを説明するテキスト説明を生成します；スキャフォルディングレイヤーが実行します。

ツール使用（関数呼び出しとも呼ばれる）— GPT-4o、Claude Opus 4.7、Gemini 3.1 Proで利用可能です — モデルがアプリケーションが傍受して実行する構造化関数呼び出しを出力できるようにします。モデルは独立してアクションを実行することはできず、外部実行をトリガーする構造化テキストのみを出力できます。

自律的なエージェントは、複数のツール呼び出しをオーケストレーションループで包みます。プロンプト注入とセキュリティの脆弱性はこれらのアーキテクチャの重大な懸念です — プロンプト注入とセキュリティを参照してください。

制限7 — トレーニングデータバイアスとカバレッジギャップ

LLMはトレーニングデータのバイアス、ギャップ、スキューを継承します — 主に英語、西洋、2025年前のインターネットコンテンツ。 非英語クエリ、非西洋文化コンテキスト、少数言語トピックのパフォーマンスは構造的に弱い。

これは国際チームに関連します：GPT-4o、Claude Opus 4.7、Gemini 3.1 Proは、低リソース言語よりも英語でより強力な出力を生成します。ニッチドメイン（特定の業界、ローカル法制度、地域方言）の技術用語は、トレーニングデータに不十分に表現されている可能性があります。

回避方法：プロンプトでドメイン固有のコンテキスト、用語定義、または例を提供する。特定の業界、地域、または機関について、モデルが正確な知識を持っていると仮定しないこと。

制限8 — LLMは独自の出力を検証できない

LLMはグラウンドトゥルースにアクセスできず、回答が事実的に正確かどうかを確認できません — トレーニングデータのパターンとの一貫性のみを評価できます。モデルに「これは正しいですか?」と聞くことは、パターンマッチング評価を生成し、検証ではありません。

自己一貫性プロンプティング（複数の回答を生成して合意を確認する）は、信頼性を改善しますが、精度を保証しません。モデルはトレーニングデータで不足していたまたは誤った事実について、一貫性を持ったまま間違っています。

実践的な影響：LLM出力をドラフトとして扱う、最終的なソースとしてではありません。すべての事実上の主張 — 特に数値、日付、引用、技術仕様 — 出版前に権威ある一次資料に対する検証が必要です。

一目でわかるLLM制限

8つの構造的な制限を根本原因、重大度、主要な回避方法でまとめた。

制限	根本原因	重大度	主要な回避方法
知識カットオフ	静的なトレーニングデータ	現在のイベント対して高い	RAG / プロンプトにコンテキストを貼り付ける
幻覚	トークン予測、真実検索ではない	特定の事実に対して高い	プロンプトを接地し、出力を検証する
弱い複数ステップ推論	ワーキングメモリ/状態がない	中程度（CoTで改善）	Chain-of-thoughtプロンプティング、コードツール
コンテキストウィンドウの上限	トランスフォーマーアテンション制限	長いドキュメントに対して中程度	RAG、チャンキング、要約
永続的なメモリなし	ステートレスアーキテクチャ	複数セッションワークに対して中程度	アプリケーション層メモリ注入
実世界のアクションができない	デフォルトではテキスト出力のみ	自律的なタスク対して高い	ツール使用/関数呼び出し
トレーニングバイアス	非代表的なトレーニングコーパス	中程度（言語/ドメイン依存）	ドメインコンテキストを明示的に提供する
自己検証できない	グラウンドトゥルースアクセスなし	事実的精度に対して高い	外部検証、一次資料

制限が適用されない時 — エッジケースと実験的な回避方法

8つの構造的な制限は実在していますが、各々には、従来の警告が問題を過度に述べるか、2025～2026年の研究が部分的にギャップを閉じたシナリオが少なくとも1つあります。例外を知ることは、ルールを知ることと同じくらい重要です。

知識カットオフは安定ドメイン質問には無関係です。 カットオフは現在のイベント、最近のリリース、価格の変更に問題になります。物理学、数学、確立されたソフトウェアAPI（2024年前）、古典文学、基本的な法律の枠組みについては、GPT-4oの2024年10月のカットオフはほぼ実用的なペナルティを持ちません。安定ドメイン質問を拡張されていないモデルにルーティングすることは、RAGよりも速く、安い場合が多い。
幻覚は生成的なタスクの機能です。 引用を捏造する同じトークン予測メカニズムも、取得システムが生成できない新しい隠喩、製品名、および創造的な変数を生成します。デザイナー、コピーライター、製品チームは、しばしばLLMの「虚偽」が実際に求めるもので、問題は、生成されたコンテンツを事実として扱う場合にのみ発生します。生成タスクと事実検索タスクを分離することで、創造性を抑制することなく、ほとんどの幻覚リスクが排除される。
拡張思考モデルは推論ギャップを大幅に縮小しました。 OpenAI o3およびo4-miniとAnthropicの拡張思考in Claude Opus 4.7は推論時の計算スケーリング — 回答前にトークンの推論チェーンを生成 — を使用し、2025年現在、大学院数学と形式論理ベンチマーク（AIME、MMLU-Pro）でほぼ人間レベルの精度を達成します。「LLMは推論できない」という主張は標準モード推論で正確です；拡張思考モードで明確に定義されたタスクに対しては、ますます不正確です。
「中間で失われた」コンテキスト問題は普遍的ではなく、位置依存です。 Liu et al. (2023)は、非常に長いコンテキストの中間に重要な情報を置いた場合、具体的に低下を示しました。約20,000トークン以下のプロンプト、または重要な事実がプロンプトの開始または終了に置かれた場合、低下は最小限です。2Mトークン Gemini 3.1 Pro ウィンドウは、初期の4Kまたは8Kモデルと同じ大きさの中間低下に悩まされません。
自己一貫性プロンプティングは自己検証ギャップを部分的に解決します。 同じ質問に3つの独立した回答を生成し、多数回答（Wang et al., 2023, "Self-Consistency Improves Chain of Thought Reasoning in Language Models," arXiv:2203.11171）を選択すると、閉じたドメインタスクの事実的精度をむさぼり実行と比較して10～20パーセント改善します。外部検証の代わりにはなりませんが、取得可能な答えの質問で確実なエラーの率を削減します。

制限の回避 — 悪い例と良い例

これらの例は、同じ基本的なリクエストが、LLM制限を無視する場合は失敗し、制限を考慮する場合は成功する方法を示しています。

悪いプロンプト「GPT-4oの現在の価格は?」
— このプロンプトはモデルが持っていないリアルタイムの知識を仮定しています。モデルは古い、またはでっちあげられた価格を確信を持って述べます。

このプロンプトは知識カットオフ制限を無視しています。GPT-4oのトレーニングデータは2024年10月で終わります — 価格はそれ以来変更された可能性があります。モデルは権威ある音に聞こえるが、数ヶ月古い可能性がある答えを生成します。
より良いアプローチは明示的に制限を考慮しています：
良いプロンプト「OpenAIがGPT-4oに使用する典型的な価格設定構造を説明してください（入力トークン、出力トークン、バッチ処理）。注記：トレーニングデータが最新のレートを反映していない可能性があることを知っています — platform.openai.comで説明を読んだ後、正確な現在の数字を確認します。」

LLM制限を考慮したプロンプトの設計方法

これらの制限を補う最も効果的な2つの技術は、推論ステップを外部化してエラーを減らすchain-of-thoughtプロンプティングと、新鮮なコンテキストを取得して知識カットオフを補うRAGです。chain-of-thoughtプロンプティングとRAG解説をご覧ください。

1
プロンプトを書く前に、タスクに適用される制限を特定します。 事実検索 → 知識カットオフと幻覚。複数ステップの問題 → 推論制限。長いドキュメント → コンテキストウィンドウ。クロスセッションワーク → メモリ制限。
2
グラウンディングコンテキストを明示的に提供します。 モデルが必要とする関連する事実、ドキュメント、またはデータを貼り付けます。モデルが現在、正確、またはドメイン固有の知識を持っていると仮定しないこと。
3
推論タスクではchain-of-thoughtプロンプティングを使用します。 タスクが複数ステップのロジック、算術、または順序的な決定を含むときに、「ステップバイステップで考える」追加するか、推論段階を番号付けします。
4
モデルに不確実性を示すよう指示します。 「特定の事実について確実でない場合は、推測するのではなく明示的に言う」のような行を追加してください。モデルは自発的に幻覚を起こすよりも高い率でこの指示に従う。
5
出版前に出力を検証します。 すべての重要な数字、日付、引用、および技術仕様を権威ある一次資料に対して確認してください。LLM出力は高品質なドラフトで、一次資料ではありません。

キーター

この記事全体で使用されるコア概念の定義。各用語は、プロンプトエンジニアリング用語集の完全なエントリにリンクしています。

知識カットオフ** — モデルがトレーニングデータを持たない日付。この日付後の任何のイベント、価格変更、またはリリースは、プロンプトに貼り付けない限り、モデルに見えません。GPT-4o：2024年10月；Claude Opus 4.7およびGemini 3.1 Pro：2025年初頭。
幻覚** — 事実的に不正確または捏造された、確信を持った音の出力。統計的なトークン予測ではなく、真実検索による。ソース資料でプロンプトを接地することで削減されますが、排除されません。
コンテキストウィンドウ** — モデルが一度に処理できるトークンの最大数（単語 + 句読点）、システムプロンプト、会話履歴、取得ドキュメントを含む。GPT-4o：128Kトークン；Claude Opus 4.7：1M；Gemini 3.1 Pro：2M。
ツール使用/関数呼び出し** — モデルがテキスト答えを生成する代わりに、外部関数（ウェブ検索、コード実行、データベースクエリ）を呼び出すことができる機能。実世界のアクション制限を回避するために必要。
Chain-of-Thought (CoT)** — モデルに最終的な答えを与える前にステップバイステップで推論するよう指示するプロンプト技術。複数ステップの算術、ロジック、計画タスクの精度を大幅に改善します。
RAG (検索拡張生成)** — 関連するドキュメントが外部知識ベースから取得され、クエリ時にプロンプトに注入されるアーキテクチャ。知識カットオフの主要な回避方法。
トレーニングバイアス** — トレーニングデータのバランス不均衡によるモデル出力の体系的なスキュー — 主に英語、西洋、2025年前のインターネットコンテンツ。非英語とニッチドメインのタスクは、すべての主要なモデル間で構造的に弱い。

LLM制限が地域によって異なる方法

LLM制限は構造的に普遍的ですが、重大度は言語、地域、規制環境によって異なります。 EU AI法（2024）に基づいて運営するEU組織は、高リスク用途に関する危険評価でAI制限を文書化する必要があります — ここで8つの制限を技術的な懸念だけではなく、コンプライアンス要件にしています。

中国では、Baidu ERNIE 4.0とAlibaba Qwen 2.5は同じ構造的な制限を共有していますが、トレーニングデータは標準言語の資料に向かって重み付けされています。これは中国語トピックのパフォーマンスを改善しますが、同じ知識カットオフ、幻覚、推論制約が適用されます。

日本では、Fujitsu TakaneとLine HyperCLOVA Xは汎用的な多言語モデルよりも日本語タスクで強力なパフォーマンスを示していますが、すべての構造的な制限 — カットオフ日、幻覚、コンテキストウィンドウ、実世界のアクションなし — 同一に適用されます。

よくある質問

LLMができない主なことは何ですか?

LLMはリアルタイムデータにアクセスできず、独自の出力を検証できず、セッション間でメモリを保持できず、ツールスキャフォルディングなしで実世界のアクションを実行できず、chain-of-thoughtプロンプトなしで複数ステップのロジックを確実に推論できません。これらは、すべてのモデル（GPT-4o、Claude Opus 4.7、Gemini 3.1 Pro、およびオープンソースの代替案など）に適用される構造的な制限です。

LLMが幻覚を起こすのはなぜですか?

幻覚は構造的です：LLMは確認された真実ではなく、トレーニングデータに基づいて統計的に最も可能性の高い次のトークンを予測します。特定の事実のトレーニング信号が薄い場合（マイナーな数字、最近のイベント、不明瞭な引用）、モデルは不確実性を示さない、もっともらしい音がする捏造を生成します。明示的なソース資料でプロンプトを接地することで、幻覚は減少しますが排除されません。

GPT-4oはインターネットにアクセスできますか?

標準APIのGPT-4oはインターネットにアクセスできません。ChatGPTのインターフェースはオプションのブラウジングツールを提供しますが、ベースモデルAPIは2024年10月のトレーニングカットオフを持っており、ライブ検索はありません。モデルが現在のデータを持っていると仮定する前に、ツール使用レイヤーが特定の統合でアクティブであることを常に確認してください。

GPT-4o、Claude、Geminiの知識カットオフはどのように異なりますか?

2026年現在：OpenAI GPT-4oは2024年10月のトレーニングカットオフを持っています。Anthropic Claude Opus 4.7とGoogle Gemini 3.1 Proは2025年初頭のカットオフを持っています。3つのモデルすべてが、最近数か月のトレーニング情報が希薄であるため、カットオフに近いイベントについて不正確な知識を持つ可能性があります。

より良いプロンプトでLLM制限を修正できますか?

プロンプティングは制限の影響を軽減しますが、排除しません。Chain-of-thoughtプロンプティングは推論精度を改善します。プロンプトに事実を提供することで、知識カットオフを緩和します。明示的な不確実性の指示は、幻覚の信頼度を軽減します。しかし、プロンプティングはモデルにリアルタイムのデータアクセス、真のメモリ、または実世界のアクションを実行する能力を与えることはできません。

ファインチューニングされたモデルは同じ制限を持っていますか?

はい。ファインチューニングはスタイル、ドメインフォーカス、または指示追従の動作を調整します — リアルタイムのデータアクセス、真の推論、または永続的なメモリを追加しません。ファインチューニングされたGPT-4oは、ベースモデルと同じ知識カットオフと幻覚リスクを保持しています。

LLM制限とバグの違いは何ですか?

バグは、ソフトウェアアップデートで修正可能な意図しないエラーです。制限は、モデルがどのように機能するかの構造的な特性です。幻覚、知識カットオフ、およびコンテキストウィンドウの制限は、トランスフォーマーアーキテクチャとトレーニングプロセスから生じ、パッチできず、システム設計でのみ回避できる制限です。

最も制限が少ないLLMはどれですか?

どのモデルも8つの構造的な制限のいずれかを排除することはできません — これらはトランスフォーマーアーキテクチャに普遍的です。Gemini 3.1 Proは最大のコンテキストウィンドウ（200万トークン）を持ち、制限4を最よく緩和します。Claude Opus 4.7は不確実性を回避し、知識カットオフを最も確実に認め、幻覚リスクを緩和します。GPT-4oはツール使用（制限6の回避）で優れています。「最も制限が少ない」モデルではなく、特定の制限のボトルネックに基づいて選択してください。

2026年のオープンソースと専有モデル間で制限はどのように異なりますか?

オープンソースモデル（LLaMA 3.1、Mistral Large、Qwen 2.5）と専有モデル（GPT-4o、Claude Opus 4.7、Gemini 3.1 Pro）は、同じ構造的な制限（知識カットオフ、幻覚、コンテキストウィンドウ、推論の制約）に直面しています。違いは重大度とコストにあります：専有モデルは通常、より大きなコンテキスト（Gemini 3.1 Pro：2Mトークン対Mistral：128K）、より良い指示追従、およびより頻繁なトレーニング更新を持っています。オープンソースモデルは、コストと展開制御のための能力をトレードします。どのカテゴリも8つの制限のいずれかを排除しません。

ソースと参考資料

Ji, Z. et al. (2023). "Survey of Hallucination in Natural Language Generation." ACM Computing Surveys. — LLM幻覚タイプと緩和戦略の包括的な分類
Bubeck, S. et al. (2023). "Sparks of Artificial General Intelligence: Early experiments with GPT-4." arXiv:2303.12528. — GPT-4の能力と制限の体系的な評価
Liu, N. et al. (2023). "Lost in the Middle: How Language Models Use Long Contexts." arXiv:2307.03172. — コンテキストの中間検索のパフォーマンス低下の証拠

AI制限：2026年にLLMができないこと

ビジュアルサマリー: AI制限：2026年にLLMができないこと