Skip to main content
PromptQuorumPromptQuorum
ホーム/プロンプトエンジニアリング/LLMは実際にどのように機能するか:トークン、注意、推論
Fundamentals

LLMは実際にどのように機能するか:トークン、注意、推論

·12分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

大規模言語モデルは確率分布経由で次のトークンを予測します — 理解や取得ではなく。トークン化、注意、RLHF、推論パラメータを学んでください。

重要なポイント

  • LLMはトークンを予測し、回答を予測しません。 これらは統計的に可能性の高いテキストシーケンスを生成します — 取得された事実、論理的推論、または検証された情報ではありません。
  • 1トークン≈0.75英語単語。 1,000語のドキュメントは〜1,300トークンを使用します。中国語と日本語は〜50%密です。
  • 温度は創造性対決定性を制御します。** 温度0 =決定的。温度1.0 =比例サンプリング。1.5以上 =高い幻覚リスク。
  • コンテキストウィンドウはメモリではありません。** GPT-5.5:128kトークン。Claude Opus 4.8:200kトークン。Gemini 3.1 Pro:200万トークン。セッション間で何も保持されません。
  • 位置は決定的です。 トランスフォーマー注意メカニズムは、コンテキストの開始と終了の方が中央より重い。重要な指示を最初と最後に配置してください — 中央ではありません。
  • RLHFは動作を形作る、機能ではない。** 拒否、トーン、有用性はポストトレーニングの微調整から生じます — ベースアーキテクチャではなく。

ビジュアルサマリー: LLMは実際にどのように機能するか:トークン、注意、推論

読むよりスライドを好みますか?すべての主要概念、設定、ユースケースをカバーするこのインタラクティブなプレゼンテーションをクリックして — PDFとして保存。

以下のスライドデッキは次をカバーします:テキストをトークンIDに変換するトークン化、トランスフォーマーアテンションが「中間で失われる」効果を作成する方法、RLHFと事前学習の違い、推論パラメータ参照表(温度0.0~2.0、Top-p、最大トークン数)。PDFをLLMアーキテクチャリファレンスカードとしてダウンロードしてください。

Download LLMは実際にどのように機能するか:トークン、注意、推論 Reference Card (PDF)

LLMが本当に何であるか

LLM(大規模言語モデル)は、トランスフォーマーベースのニューラルネットワークで、与えられた入力シーケンスの最も可能性の高い次のトークンを予測するように訓練されています — データベース、検索エンジン、推論システムではありません。 このモデルは、トレーニング中にWebページ、書籍、コード、その他のテキストから数百億語を処理することで、トークン間の統計的な関係を学習します。

プロンプトを入力すると、モデルはテキストを数値トークンIDのシーケンスに変換し、数十のトランスフォーマーレイヤーを通して渡し、そのボキャブラリー全体(通常50,000〜100,000トークン)上の確率分布を出力します。その分布からトークンを選択し、シーケンスに追加し、停止トークンが生成されるか出力制限に達するまで繰り返します。

このアーキテクチャは、ユーザーを混乱させるいくつかの動作を説明します。なぜLLMは信じ得るが間違った事実「幻覚」するのか(検証された真実ではなく、可能性の高いテキストを予測)、なぜ算術に失敗できるのか(トークンパターン、実際の計算ではない)、そしてなぜプロンプトを言い換えると出力が変わるのか(異なるトークンシーケンスが異なる確率分布をトリガー)。

特性LLM古典的なソフトウェア
動作方法学習された確率分布経由で次のトークンを予測決定的な命令を実行
出力の決定性確率的 — 同じ入力が異なる出力を生成できます決定的 — 同じ入力は常に同じ出力を生成
知識の出所トレーニング中にモデルウェイトに保存されたパターン実行時にデータベースまたはファイルから読み取ります
エラータイプ自信を持って、しかし間違って(幻覚)クラッシュまたはエラーコード
更新メカニズム再トレーニングまたはファインチューニングが必要コード変更またはデータベース更新

トークン化:テキストが数字になる方法

**LLMがテキストを処理する前に、それを整数トークンIDのシーケンスに変換する必要があります — トークン化と呼ばれるプロセス。** GPT-5.5はバイトペアエンコーディング(BPE)を使用し、テキストを一般的な部分単語ユニットに分割します。Claude Opus 4.8とGemini 3.1 Proは同様のサブワードトークン化スキームを使用します。

トークン化は言語に依存しています。英語のテキストは平均1トークンあたり0.75単語です。中国語と日本語は1トークンあたり0.5単語になります — 同じドキュメントは中国語では英語の約2倍のトークンがかかり、APIコストとコンテキストウィンドウの使用法に直接影響します。

入力テキストトークントークン数
"Hello, world!""Hello", ",", " world", "!"4
"Tokenization""Token", "ization"2
"GPT-5.5""G", "PT", "-", "4", "o"5
"你好世界"(こんにちは世界、中国語)"你好", "世界"モデルに応じて2–4

トランスフォーマー注意メカニズムがどのように機能するか

トランスフォーマーアーキテクチャはセルフアテンションと呼ばれるメカニズムを使用して、シーケンス内のすべての他のトークンに「注意を払う」各トークンの程度を決定します。 各トークンのために、モデルは3つのベクトル — クエリ(Q)、キー(K)、値(V) — を計算し、QとKのドット積として注意スコアを決定し、ソフトマックスでスケーリングと正規化します。

マルチヘッド注意は複数の「ヘッド」にわたってこのプロセスを並列に実行します(GPT-5.5は最大層で96注意ヘッドを使用)。各ヘッドは異なる関係パターンを学習します。いくつかのヘッドは構文関係(主語-動詞)に専門化し、他は意味論的な類似性に、他は照応(代名詞を名詞に関連付ける)。

重要な実際の結果:「Lost in the Middle」効果。Stanford Universityの Liu et al.(2023)の研究は、LLMが長いコンテキストの真ん中の情報を体系的に下重することを示しています。プロンプトに〜2,000を超えるトークンがある場合、重要な指示をシステムプロンプト(開始)に配置し、最も重要な制約をユーザーメッセージの終わりで繰り返します。

LLMがトレーニングされる方法:事前トレーニングとRLHF

LLMトレーニングは2つの明確に分離された段階で行われます。事前トレーニング(生のテキストから言語パターンを学習する)およびポストトレーニングアライメント(人的フィードバックを通じて動作を調整する)。 これらの段階は異なる機能を作成し、異なるラボからのモデルが同様のベンチマーク結果でも異なる反応をする理由を説明します。

事前トレーニング中、モデルは大量のコーパスを処理します — Llama 3.3は約15兆トークンで訓練されました;GPT-4は推定1~2兆トークン。目標は単純です。次のトークンを予測してください。明示的な知識は保存されません;すべての情報がモデルウェイトの統計的パターンとしてエンコードされます。

ポストトレーニングアライメント — 通常、強化学習から人的フィードバック(RLHF)またはその変種(RLAIF、DPO) — がモデルを有用なアシスタントに形作ります。人間の評価者は、有用性、無害性、誠実さの出力を評価します。報酬モデルはこれらの評価で訓練され、ベースLLMはその後、報酬を最大化するために微調整されます。RLHFは拒否動作、トーン、セキュリティメカニズムを決定します — ベースアーキテクチャではなく。

  • 事前トレーニング: Webスケールデータの教師なし次トークン予測。言語パターン、世界知識、推論のショートカットをモデルウェイト(フロンティアモデルで70B〜405Bパラメータ)にエンコードします。
  • 監視されたファインチューニング(SFT): モデルは、純粋なテキスト予測器ではなくアシスタントとして動作するために、キュートされた指示応答ペアで訓練されます。
  • RLHF / DPO: 人的嗜好がモデルを有用で無害で誠実な出力に向かって導きます。DPO(Direct Preference Optimization)はLlamaおよびMistralモデルで使用される、より計算効率の高い代替手段です。
  • Constitutional AI(Anthropic): Claudeは、エッジケースで人的フィードバックへの依存性を減らすために、原則のセット(「憲法」)を使って追加でトレーニングされます — Claude Opus 4.8はこのアプローチを使用します。

推論がどのように機能するか:サンプリングと復号化

推論中、モデルはトークンごとに出力を生成します — 語彙全体にわたって確率分布を計算し、制御するデコーディングパラメータに従ってそこから選択します。 3つの主なパラメータは温度トップp(核サンプリング)、最大トークンです。

パラメータ範囲効果推奨される用途
温度0.0 – 2.0確率分布を鋭くする(低)または平坦化する(高)コード/事実については0;テキストについては0.7;創造的なタスクについては1.0
トップp(核)0.0 – 1.0サンプリングを、累積確率がpに達するトークンに制限ほとんどのタスク0.9–0.95;非常に制限された出力については0.5
トップk1 –ボキャブラリーサイズサンプリングを最も可能性の高い次のkトークンに制限めったに使用されない;トップpは一般的に好まれます
最大トークン1 –コンテキスト制限出力長のハードストップ切断を避けるために、予想出力長の2×に設定
頻度ペナルティ-2.0 – 2.0すでに生成されたトークンの繰り返しを低減長いドキュメント0.1–0.3;コード0

コンテキストウィンドウ:モデルが見ることができるもの

コンテキストウィンドウは、単一の推論呼び出しでモデルが処理できる最大トークン数です — システムプロンプト、会話履歴、ドキュメント、現在のユーザーメッセージを組み合わせたもの。** セッション間で何も保持されません;モデルは毎回最初からリセットされます。

コンテキストウィンドウのサイズはモデルによって大きく異なり、どのユースケースが実践的であるかに直接影響します。

モデルコンテキストウィンドウ概算単語相当実用的なドキュメント制限
GPT-5.5(OpenAI)128,000トークン〜96,000単語〜200ページのPDF
Claude Opus 4.8(Anthropic)200,000トークン〜150,000単語〜300ページのPDF
Gemini 3.1 Pro(Google DeepMind)2,000,000トークン〜1,500,000単語〜3,000ページのPDF
LLaMA 3.1 70B(Meta、Ollamaより)128,000トークン〜96,000単語〜200ページのPDF

プロンプトエンジニアリングにとってこれが意味するもの

LLMアーキテクチャを理解することは、プロンプト品質を直接向上させます — トークン位置、温度、コンテキストウィンドウ使用法、出力長は出力信頼性に測定可能な影響を与えます。

  • 重要な指示を最初に配置してください。 システムプロンプトは各ユーザーメッセージの前に処理されます。長いプロンプトに深く埋められた指示は、「Lost in the Middle」効果のため下重されます。制約とロール定義をシステムプロンプトに配置します。
  • 温度はオンオフスイッチではありません。 コード生成と事実関連タスクについて0。コンテンツ生成については0.5〜0.7。1.0を超えると、多様性が増加しますが、幻覚リスクは大幅に増加します。
  • トークン数はコストと遅延に線形に影響します。 APIの価格設定はトークンごとに行われます(入力と出力)。100日の100日ユーザーを持つ10,000トークンのシステムプロンプトは、入力だけで100万トークン/日を費用します — 手段を容赦なく圧縮します。
  • モデルは彼らが間違っていることを「知らない」。 幻覚はトークン予測の構造的特性です — モデルは統計的に可能性の高いもの、検証されたもの、ではなく、出力します。重要なアプリケーションでは、常に事実的な主張を検証します。
  • コンテキストウィンドウ≠注意品質。 200,000トークンのコンテキストウィンドウは、モデルが同じように200,000トークンすべてに注意を払っていることを意味しません。〜50,000トークンを超えるドキュメントの場合、完全なコンテキスト詰め込みの代わりにRAGを使用してチャンキングを考慮してください。

一般的なLLM誤解

これらのLLMに関する誤解は広く普及しており、しばしば不十分に設計されたプロンプトにつながります。

誤解実際に何が起こるかプロンプトエンジニアリングへの影響
"モデルが私のドキュメントを読んで理解します"モデルはトークンシーケンスを処理し、継続を予測します — 読む理解はありません何を抽出するかを明示的に述べます;モデルが目的を推測することを想定しないでください
"モデルは私たちの最後の会話を覚えています"すべてのAPI呼び出しはステートレスです;履歴はコンテキストウィンドウに明示的に含まれる必要がありますシステムプロンプトまたは会話履歴に関連する以前のコンテキストを含めます
"モデルは今日の日付を知っています"モデルにはトレーニングカットオフがあり、今日の日付が伝えられない限り知りません日付に敏感なタスクのシステムプロンプトに現在の日付を挿入してください
"より高い温度=より賢い出力"温度はサンプリングのランダム性を制御し、能力やパフォーマンスではありませんより高い温度ではなく、分析タスクについて低温度(0.0–0.3)を使用;創造的なバリエーションに関して高い
"モデルは確実に文字を数えることができます"トークン境界はサブワードユニットです;正確な文字またはワード数はネイティブ機能ではありませんモデルに正確なワード数を信頼しないでください;後処理またはコードを使用してください

PromptQuorumを使用したモデル全体の温度効果をテストします

PromptQuorumでテスト済み — 温度0対温度0.9の同じ創造的なブリーフィングをGPT-5.5、Claude Opus 4.8、Gemini 3.1 Proに送信すると、Claude Opus 4.8は気温の間で出力の変動が最も低く、Gemini 3.1 Proは最も高いです。 温度0.9では、Gemini 3.1 Proは温度0での平均出力より平均34%長い出力を生成しました。

PromptQuorumのマルチモデルディスパッチを使用すると、特定の温度で利用可能なすべてのモデルに対して同時に各プロンプトを実行し、側次に出力を比較できます — これは特定のタスクの温度設定をキャリブレートし、モデルのデフォルトを信頼する代わりに、実用的にします。

LLMアーキテクチャ地域別の違い

LLMアーキテクチャとパフォーマンスは、トレーニングデータの構成、トークン化戦略、地域全体の規制要件によって大きく異なります。 グローバルモデルを展開するチームにとって、これらの違いを理解することは重要です。

Qwen 3はCJKスクリプト(中国語、日本語、韓国語)の優れたトークン化効率を達成しています** — 標準中国語で約0.3トークン/文字対GPT-5.5の0.5トークン/文字。このトークンの40%削減は、アジア言語のアプリケーションのAPIコストと遅延を直接削減します。Qwenのトレーニングデータには20%のCJK含量が含まれており、文字対セマンティック密度が最も高いスクリプトのトークン化器を最適化します。

Mistral SmallおよびMistral LargeはEU展開用に明示的に設計されており、GDPR、フランスのAI法、およびデータストレージとモデルの透明性に関するEU規制のコンプライアンスのためにフィルターされたトレーニングデータがあります。 主に無フィルタWebデータで訓練されたモデルとは異なり、Mistralはデータの出所を文書化し、トレーニングからEU市民の個人データを除外しており、ヨーロッパの規制産業(銀行、医療、法務技術)の標準選択になります。

DeepSeekのアーキテクチャはトレーニング構成に反映されています:事前訓練データの70%は中国語と英語、15%はコード、15%は他の言語です。この比率は、中国語の言語流暢性とコード生成速度を優先するモデルを作成し、リソース貧弱言語で明らかに低いパフォーマンスがあります。トークン分布と注意パターンは、英語ではなく標準中国語の周波数パターンに対して最適化されています。

関連する読み物

よくある質問

LLMは人間のようにテキストを理解していますか?

いいえ。LLMは人間の意味でテキストを理解しません。彼らは、トレーニング中に学習したパターンに基づいて、以前のトークンに基づいて統計的に最も可能性の高い次のトークンを予測します。理解、意図、意識はありません — ボキャブラリーが約50,000〜100,000トークンである加重確率分布のみ。

LLMのトークンは何ですか?

トークンはLLMが処理する最小単位です — 英語では約0.75単語であり、中国語または日本語では約0.5単語です。単語、部分単語、句読点、スペースはすべてトークンです。GPT-5.5はバイトペアエンコーディング(BPE)を使用してテキストをトークンに分割します。1,000語のドキュメントは英語で約1,300トークンを生成します。

LLMの温度は何をしますか?

温度はモデルが確率分布からサンプリングする方法をランダムに制御します。温度0は最高確率トークンを常に選択します(決定的)。温度1.0は分布に比例してサンプル。1.5を超えると、分布が平坦化され、幻覚リスクが増加します。ほとんどの本番アプリケーションは0.1から0.7の間で最適に機能します。

プロンプトで情報の位置が重要なのはなぜですか?

トランスフォーマー注意メカニズムは、コンテキストウィンドウの開始と終了でトークンにより多くの重みを付け、中央のトークンより — Liu et al.による「Lost in the Middle」効果として文書化されたパターン(2023)。〜2,000を超えるトークンのプロンプトの場合、最も重要な指示を開始時に配置し、キーの制約をユーザーメッセージの終わりで繰り返します。

RLHFは何ですか、そしてそれはモデル出力にどのように影響しますか?

強化学習から人的フィードバック(RLHF)は、人間の評価者がモデル出力を評価し、報酬モデルがこれらの評価で訓練されるポストトレーニングステップです。ベースLLMはその後、報酬を最大化するために微調整されます。RLHFは拒否動作、トーン、有用性、セキュリティ — ベースアーキテクチャに対して、異なるラボからのモデルが同じプロンプトで異なる反応をする理由。

コンテキストウィンドウとメモリの違いは何ですか?

コンテキストウィンドウは、推論呼び出し中にモデルが見ることができるすべてのテキストをカバーしています — システムプロンプト、履歴、現在のメッセージ。永続的なメモリではありません。会話が終わると、モデルは何も保持します。GPT-5.5:128,000トークン。Claude Opus 4.8:200,000トークン。Gemini 3.1 Pro:2,000,000トークン。

「Lost in the Middle」効果は何ですか、そしてどのようにそれを避けますか?

Stanford Universityのパパラ Liu et al.(2023)によって文書化される「Lost in the Middle」効果は、トランスフォーマー注意が長いコンテキストの中央の情報を体系的に下重することを示しています。回避するには:システムプロンプトに重要な指示を配置し、入力の最初の10〜15%に重要なコンテキストを保持し、ユーザーメッセージの終わりで最も重要な制約を繰り返します。〜50,000トークン以上のドキュメント場合、完全なコンテキスト詰め込みの代わりにRAGを使用してください。

RLHFとConstitutional AIはどのように異なりますか?

RLHFは、人間の評価者がモデル出力を評価し、報酬モデルが訓練され、LLMがその報酬を最大化するために微調整されるポストトレーニング技術です。Constitutional AI(ClaudeのAnthropicによって)は、モデルの動作をガイドする書き込みの原則(「憲法」)のセットでRLHFを拡張します — これにより、エッジケースで人的フィードバックへの依存性が低下します。

アーキテクチャのGPT-5.5、Claude、Geminはどのように異なりますか?

3つはすべてトランスフォーマーベースのLLMですが、スケーリング、コンテキストウィンドウ、ポストトレーニングが異なります。GPT-5.5(OpenAI):128,000トークン。Claude Opus 4.8(Anthropic):200,000トークン、Constitutional AIを使用します。Gemini 3.1 Pro(Google DeepMind):2,000,000トークン。これらの違いはコスト、遅延、適合性に影響を与えます — GPT-5.5は推論で輝き、長コンテキストではClaude、Geminは非常に長いドキュメント処理に適しています。

1,000文字のテキストにはいくつのトークンがありますか?

英語では、1,000語は約1,300–1,350トークンに相当します。約1トークン= 0.75単語。中国語または日本語:1トークン≈0.5単語 — 1,000の中国語単語≈2,000トークン。トークン数はAPIコストとコンテキストウィンドウ消費に直接影響します。

温度とトップpの違いは何ですか?

温度は全体の確率分布を鋭くまたは平坦化します — 温度0 =決定的、温度1.0 =標準、温度2.0 =非常にランダム。トップp(核サンプリング)は、累積確率がpに達する最小の トークン集合にサンプリングを制限します。ほとんどのタスク場合は温度ではなくトップpを調整することをお勧めします(0.8–0.95);温度は創造性を制御するのに最適です。

ソースと詳細読み物

これらのテクニックをローカルLLMまたは独自のAPIキーで適用しましょう — PromptQuorumはあらゆるバックエンドに対応します。

PromptQuorumを無料で試す →

← プロンプトエンジニアリングに戻る