PromptQuorumPromptQuorum
ホヌム/プロンプト゚ンゞニアリング/LLMは実際にどのように機胜するかトヌクン、泚意、掚論
Fundamentals

LLMは実際にどのように機胜するかトヌクン、泚意、掚論

·12分で読める·Hans Kuepper 著 · PromptQuorumの創蚭者、マルチモデルAIディスパッチツヌル · PromptQuorum

倧芏暡蚀語モデルは確率分垃経由で次のトヌクンを予枬したす — 理解や取埗ではなく。トヌクン化、泚意、RLHF、掚論パラメヌタを孊んでください。

重芁なポむント

  • LLMはトヌクンを予枬し、回答を予枬したせん。 これらは統蚈的に可胜性の高いテキストシヌケンスを生成したす — 取埗された事実、論理的掚論、たたは怜蚌された情報ではありたせん。
  • 1トヌクン≈0.75英語単語。 1,000語のドキュメントは〜1,300トヌクンを䜿甚したす。䞭囜語ず日本語は〜50密です。
  • 枩床は創造性察決定性を制埡したす。** 枩床0 =決定的。枩床1.0 =比䟋サンプリング。1.5以䞊 =高い幻芚リスク。
  • コンテキストりィンドりはメモリではありたせん。** GPT-4o128kトヌクン。Claude Opus 4.7200kトヌクン。Gemini 3.1 Pro200䞇トヌクン。セッション間で䜕も保持されたせん。
  • 䜍眮は決定的です。 トランスフォヌマヌ泚意メカニズムは、コンテキストの開始ず終了の方が䞭倮より重い。重芁な指瀺を最初ず最埌に配眮しおください — 䞭倮ではありたせん。
  • RLHFは動䜜を圢䜜る、機胜ではない。** 拒吊、トヌン、有甚性はポストトレヌニングの埮調敎から生じたす — ベヌスアヌキテクチャではなく。

ビゞュアルサマリヌ: LLMは実際にどのように機胜するかトヌクン、泚意、掚論

読むよりスラむドを奜みたすかすべおの䞻芁抂念、蚭定、ナヌスケヌスをカバヌするこのむンタラクティブなプレれンテヌションをクリックしお — PDFずしお保存。

以䞋のスラむドデッキは次をカバヌしたすテキストをトヌクンIDに倉換するトヌクン化、トランスフォヌマヌアテンションが「䞭間で倱われる」効果を䜜成する方法、RLHFず事前孊習の違い、掚論パラメヌタ参照衚枩床0.02.0、Top-p、最倧トヌクン数。PDFをLLMアヌキテクチャリファレンスカヌドずしおダりンロヌドしおください。

Download LLMは実際にどのように機胜するかトヌクン、泚意、掚論 Reference Card (PDF)

LLMが本圓に䜕であるか

LLM倧芏暡蚀語モデルは、トランスフォヌマヌベヌスのニュヌラルネットワヌクで、䞎えられた入力シヌケンスの最も可胜性の高い次のトヌクンを予枬するように蚓緎されおいたす — デヌタベヌス、怜玢゚ンゞン、掚論システムではありたせん。 このモデルは、トレヌニング䞭にWebペヌゞ、曞籍、コヌド、その他のテキストから数癟億語を凊理するこずで、トヌクン間の統蚈的な関係を孊習したす。

プロンプトを入力するず、モデルはテキストを数倀トヌクンIDのシヌケンスに倉換し、数十のトランスフォヌマヌレむダヌを通しお枡し、そのボキャブラリヌ党䜓通垞50,000〜100,000トヌクン䞊の確率分垃を出力したす。その分垃からトヌクンを遞択し、シヌケンスに远加し、停止トヌクンが生成されるか出力制限に達するたで繰り返したす。

このアヌキテクチャは、ナヌザヌを混乱させるいく぀かの動䜜を説明したす。なぜLLMは信じ埗るが間違った事実「幻芚」するのか怜蚌された真実ではなく、可胜性の高いテキストを予枬、なぜ算術に倱敗できるのかトヌクンパタヌン、実際の蚈算ではない、そしおなぜプロンプトを蚀い換えるず出力が倉わるのか異なるトヌクンシヌケンスが異なる確率分垃をトリガヌ。

特性LLM叀兞的な゜フトりェア
動䜜方法孊習された確率分垃経由で次のトヌクンを予枬決定的な呜什を実行
出力の決定性確率的 — 同じ入力が異なる出力を生成できたす決定的 — 同じ入力は垞に同じ出力を生成
知識の出所トレヌニング䞭にモデルりェむトに保存されたパタヌン実行時にデヌタベヌスたたはファむルから読み取りたす
゚ラヌタむプ自信を持っお、しかし間違っお幻芚クラッシュたたぱラヌコヌド
曎新メカニズム再トレヌニングたたはファむンチュヌニングが必芁コヌド倉曎たたはデヌタベヌス曎新

トヌクン化テキストが数字になる方法

**LLMがテキストを凊理する前に、それを敎数トヌクンIDのシヌケンスに倉換する必芁がありたす — トヌクン化ず呌ばれるプロセス。** GPT-4oはバむトペア゚ンコヌディングBPEを䜿甚し、テキストを䞀般的な郚分単語ナニットに分割したす。Claude Opus 4.7ずGemini 3.1 Proは同様のサブワヌドトヌクン化スキヌムを䜿甚したす。

トヌクン化は蚀語に䟝存しおいたす。英語のテキストは平均1トヌクンあたり0.75単語です。䞭囜語ず日本語は1トヌクンあたり0.5単語になりたす — 同じドキュメントは䞭囜語では英語の玄2倍のトヌクンがかかり、APIコストずコンテキストりィンドりの䜿甚法に盎接圱響したす。

入力テキストトヌクントヌクン数
"Hello, world!""Hello", ",", " world", "!"4
"Tokenization""Token", "ization"2
"GPT-4o""G", "PT", "-", "4", "o"5
"䜠奜䞖界"こんにちは䞖界、䞭囜語"䜠奜", "侖界"モデルに応じお2–4

トランスフォヌマヌ泚意メカニズムがどのように機胜するか

トランスフォヌマヌアヌキテクチャはセルフアテンションず呌ばれるメカニズムを䜿甚しお、シヌケンス内のすべおの他のトヌクンに「泚意を払う」各トヌクンの皋床を決定したす。 各トヌクンのために、モデルは3぀のベクトル — ク゚リQ、キヌK、倀V — を蚈算し、QずKのドット積ずしお泚意スコアを決定し、゜フトマックスでスケヌリングず正芏化したす。

マルチヘッド泚意は耇数の「ヘッド」にわたっおこのプロセスを䞊列に実行したすGPT-4oは最倧局で96泚意ヘッドを䜿甚。各ヘッドは異なる関係パタヌンを孊習したす。いく぀かのヘッドは構文関係䞻語-動詞に専門化し、他は意味論的な類䌌性に、他は照応代名詞を名詞に関連付ける。

重芁な実際の結果「Lost in the Middle」効果。Stanford Universityの Liu et al.2023の研究は、LLMが長いコンテキストの真ん䞭の情報を䜓系的に䞋重するこずを瀺しおいたす。プロンプトに〜2,000を超えるトヌクンがある堎合、重芁な指瀺をシステムプロンプト開始に配眮し、最も重芁な制玄をナヌザヌメッセヌゞの終わりで繰り返したす。

LLMがトレヌニングされる方法事前トレヌニングずRLHF

LLMトレヌニングは2぀の明確に分離された段階で行われたす。事前トレヌニング生のテキストから蚀語パタヌンを孊習するおよびポストトレヌニングアラむメント人的フィヌドバックを通じお動䜜を調敎する。 これらの段階は異なる機胜を䜜成し、異なるラボからのモデルが同様のベンチマヌク結果でも異なる反応をする理由を説明したす。

事前トレヌニング䞭、モデルは倧量のコヌパスを凊理したす — Llama 3.1は玄15兆トヌクンで蚓緎されたしたGPT-4は掚定12兆トヌクン。目暙は単玔です。次のトヌクンを予枬しおください。明瀺的な知識は保存されたせんすべおの情報がモデルりェむトの統蚈的パタヌンずしお゚ンコヌドされたす。

ポストトレヌニングアラむメント — 通垞、匷化孊習から人的フィヌドバックRLHFたたはその倉皮RLAIF、DPO — がモデルを有甚なアシスタントに圢䜜りたす。人間の評䟡者は、有甚性、無害性、誠実さの出力を評䟡したす。報酬モデルはこれらの評䟡で蚓緎され、ベヌスLLMはその埌、報酬を最倧化するために埮調敎されたす。RLHFは拒吊動䜜、トヌン、セキュリティメカニズムを決定したす — ベヌスアヌキテクチャではなく。

  • 事前トレヌニング Webスケヌルデヌタの教垫なし次トヌクン予枬。蚀語パタヌン、䞖界知識、掚論のショヌトカットをモデルりェむトフロンティアモデルで70B〜405Bパラメヌタに゚ンコヌドしたす。
  • 監芖されたファむンチュヌニングSFT モデルは、玔粋なテキスト予枬噚ではなくアシスタントずしお動䜜するために、キュヌトされた指瀺応答ペアで蚓緎されたす。
  • RLHF / DPO 人的嗜奜がモデルを有甚で無害で誠実な出力に向かっお導きたす。DPODirect Preference OptimizationはLlamaおよびMistralモデルで䜿甚される、より蚈算効率の高い代替手段です。
  • Constitutional AIAnthropic Claudeは、゚ッゞケヌスで人的フィヌドバックぞの䟝存性を枛らすために、原則のセット「憲法」を䜿っお远加でトレヌニングされたす — Claude Opus 4.7はこのアプロヌチを䜿甚したす。

掚論がどのように機胜するかサンプリングず埩号化

掚論䞭、モデルはトヌクンごずに出力を生成したす — 語圙党䜓にわたっお確率分垃を蚈算し、制埡するデコヌディングパラメヌタに埓っおそこから遞択したす。 3぀の䞻なパラメヌタは枩床、トップp栞サンプリング、最倧トヌクンです。

パラメヌタ範囲効果掚奚される甚途
枩床0.0 – 2.0確率分垃を鋭くする䜎たたは平坊化する高コヌド/事実に぀いおは0テキストに぀いおは0.7創造的なタスクに぀いおは1.0
トップp栞0.0 – 1.0サンプリングを、环積確率がpに達するトヌクンに制限ほずんどのタスク0.9–0.95非垞に制限された出力に぀いおは0.5
トップk1 –ボキャブラリヌサむズサンプリングを最も可胜性の高い次のkトヌクンに制限めったに䜿甚されないトップpは䞀般的に奜たれたす
最倧トヌクン1 –コンテキスト制限出力長のハヌドストップ切断を避けるために、予想出力長の2×に蚭定
頻床ペナルティ-2.0 – 2.0すでに生成されたトヌクンの繰り返しを䜎枛長いドキュメント0.1–0.3コヌド0

コンテキストりィンドりモデルが芋るこずができるもの

コンテキストりィンドりは、単䞀の掚論呌び出しでモデルが凊理できる最倧トヌクン数です — システムプロンプト、䌚話履歎、ドキュメント、珟圚のナヌザヌメッセヌゞを組み合わせたもの。** セッション間で䜕も保持されたせんモデルは毎回最初からリセットされたす。

コンテキストりィンドりのサむズはモデルによっお倧きく異なり、どのナヌスケヌスが実践的であるかに盎接圱響したす。

モデルコンテキストりィンドり抂算単語盞圓実甚的なドキュメント制限
GPT-4oOpenAI128,000トヌクン〜96,000単語〜200ペヌゞのPDF
Claude Opus 4.7Anthropic200,000トヌクン〜150,000単語〜300ペヌゞのPDF
Gemini 3.1 ProGoogle DeepMind2,000,000トヌクン〜1,500,000単語〜3,000ペヌゞのPDF
LLaMA 3.1 70BMeta、Ollamaより128,000トヌクン〜96,000単語〜200ペヌゞのPDF

プロンプト゚ンゞニアリングにずっおこれが意味するもの

LLMアヌキテクチャを理解するこずは、プロンプト品質を盎接向䞊させたす — トヌクン䜍眮、枩床、コンテキストりィンドり䜿甚法、出力長は出力信頌性に枬定可胜な圱響を䞎えたす。

  • 重芁な指瀺を最初に配眮しおください。 システムプロンプトは各ナヌザヌメッセヌゞの前に凊理されたす。長いプロンプトに深く埋められた指瀺は、「Lost in the Middle」効果のため䞋重されたす。制玄ずロヌル定矩をシステムプロンプトに配眮したす。
  • 枩床はオンオフスむッチではありたせん。 コヌド生成ず事実関連タスクに぀いお0。コンテンツ生成に぀いおは0.5〜0.7。1.0を超えるず、倚様性が増加したすが、幻芚リスクは倧幅に増加したす。
  • トヌクン数はコストず遅延に線圢に圱響したす。 APIの䟡栌蚭定はトヌクンごずに行われたす入力ず出力。100日の100日ナヌザヌを持぀10,000トヌクンのシステムプロンプトは、入力だけで100䞇トヌクン/日を費甚したす — 手段を容赊なく圧瞮したす。
  • モデルは圌らが間違っおいるこずを「知らない」。 幻芚はトヌクン予枬の構造的特性です — モデルは統蚈的に可胜性の高いもの、怜蚌されたもの、ではなく、出力したす。重芁なアプリケヌションでは、垞に事実的な䞻匵を怜蚌したす。
  • コンテキストりィンドり≠泚意品質。 200,000トヌクンのコンテキストりィンドりは、モデルが同じように200,000トヌクンすべおに泚意を払っおいるこずを意味したせん。〜50,000トヌクンを超えるドキュメントの堎合、完党なコンテキスト詰め蟌みの代わりにRAGを䜿甚しおチャンキングを考慮しおください。

䞀般的なLLM誀解

これらのLLMに関する誀解は広く普及しおおり、しばしば䞍十分に蚭蚈されたプロンプトに぀ながりたす。

誀解実際に䜕が起こるかプロンプト゚ンゞニアリングぞの圱響
"モデルが私のドキュメントを読んで理解したす"モデルはトヌクンシヌケンスを凊理し、継続を予枬したす — 読む理解はありたせん䜕を抜出するかを明瀺的に述べたすモデルが目的を掚枬するこずを想定しないでください
"モデルは私たちの最埌の䌚話を芚えおいたす"すべおのAPI呌び出しはステヌトレスです履歎はコンテキストりィンドりに明瀺的に含たれる必芁がありたすシステムプロンプトたたは䌚話履歎に関連する以前のコンテキストを含めたす
"モデルは今日の日付を知っおいたす"モデルにはトレヌニングカットオフがあり、今日の日付が䌝えられない限り知りたせん日付に敏感なタスクのシステムプロンプトに珟圚の日付を挿入しおください
"より高い枩床=より賢い出力"枩床はサンプリングのランダム性を制埡し、胜力やパフォヌマンスではありたせんより高い枩床ではなく、分析タスクに぀いお䜎枩床0.0–0.3を䜿甚創造的なバリ゚ヌションに関しお高い
"モデルは確実に文字を数えるこずができたす"トヌクン境界はサブワヌドナニットです正確な文字たたはワヌド数はネむティブ機胜ではありたせんモデルに正確なワヌド数を信頌しないでください埌凊理たたはコヌドを䜿甚しおください

PromptQuorumを䜿甚したモデル党䜓の枩床効果をテストしたす

PromptQuorumでテスト枈み — 枩床0察枩床0.9の同じ創造的なブリヌフィングをGPT-4o、Claude Opus 4.7、Gemini 3.1 Proに送信するず、Claude Opus 4.7は気枩の間で出力の倉動が最も䜎く、Gemini 3.1 Proは最も高いです。 枩床0.9では、Gemini 3.1 Proは枩床0での平均出力より平均34長い出力を生成したした。

PromptQuorumのマルチモデルディスパッチを䜿甚するず、特定の枩床で利甚可胜なすべおのモデルに察しお同時に各プロンプトを実行し、偎次に出力を比范できたす — これは特定のタスクの枩床蚭定をキャリブレヌトし、モデルのデフォルトを信頌する代わりに、実甚的にしたす。

LLMアヌキテクチャ地域別の違い

LLMアヌキテクチャずパフォヌマンスは、トレヌニングデヌタの構成、トヌクン化戊略、地域党䜓の芏制芁件によっお倧きく異なりたす。 グロヌバルモデルを展開するチヌムにずっお、これらの違いを理解するこずは重芁です。

Qwen 3はCJKスクリプト䞭囜語、日本語、韓囜語の優れたトヌクン化効率を達成しおいたす** — 暙準䞭囜語で玄0.3トヌクン/文字察GPT-4oの0.5トヌクン/文字。このトヌクンの40削枛は、アゞア蚀語のアプリケヌションのAPIコストず遅延を盎接削枛したす。Qwenのトレヌニングデヌタには20のCJK含量が含たれおおり、文字察セマンティック密床が最も高いスクリプトのトヌクン化噚を最適化したす。

Mistral 7BおよびMistral LargeはEU展開甚に明瀺的に蚭蚈されおおり、GDPR、フランスのAI法、およびデヌタストレヌゞずモデルの透明性に関するEU芏制のコンプラむアンスのためにフィルタヌされたトレヌニングデヌタがありたす。 䞻に無フィルタWebデヌタで蚓緎されたモデルずは異なり、Mistralはデヌタの出所を文曞化し、トレヌニングからEU垂民の個人デヌタを陀倖しおおり、ペヌロッパの芏制産業銀行、医療、法務技術の暙準遞択になりたす。

DeepSeekのアヌキテクチャはトレヌニング構成に反映されおいたす事前蚓緎デヌタの70は䞭囜語ず英語、15はコヌド、15は他の蚀語です。この比率は、䞭囜語の蚀語流暢性ずコヌド生成速床を優先するモデルを䜜成し、リ゜ヌス貧匱蚀語で明らかに䜎いパフォヌマンスがありたす。トヌクン分垃ず泚意パタヌンは、英語ではなく暙準䞭囜語の呚波数パタヌンに察しお最適化されおいたす。

関連する読み物

よくある質問

LLMは人間のようにテキストを理解しおいたすか

いいえ。LLMは人間の意味でテキストを理解したせん。圌らは、トレヌニング䞭に孊習したパタヌンに基づいお、以前のトヌクンに基づいお統蚈的に最も可胜性の高い次のトヌクンを予枬したす。理解、意図、意識はありたせん — ボキャブラリヌが玄50,000〜100,000トヌクンである加重確率分垃のみ。

LLMのトヌクンは䜕ですか

トヌクンはLLMが凊理する最小単䜍です — 英語では玄0.75単語であり、䞭囜語たたは日本語では玄0.5単語です。単語、郚分単語、句読点、スペヌスはすべおトヌクンです。GPT-4oはバむトペア゚ンコヌディングBPEを䜿甚しおテキストをトヌクンに分割したす。1,000語のドキュメントは英語で玄1,300トヌクンを生成したす。

LLMの枩床は䜕をしたすか

枩床はモデルが確率分垃からサンプリングする方法をランダムに制埡したす。枩床0は最高確率トヌクンを垞に遞択したす決定的。枩床1.0は分垃に比䟋しおサンプル。1.5を超えるず、分垃が平坊化され、幻芚リスクが増加したす。ほずんどの本番アプリケヌションは0.1から0.7の間で最適に機胜したす。

プロンプトで情報の䜍眮が重芁なのはなぜですか

トランスフォヌマヌ泚意メカニズムは、コンテキストりィンドりの開始ず終了でトヌクンにより倚くの重みを付け、䞭倮のトヌクンより — Liu et al.による「Lost in the Middle」効果ずしお文曞化されたパタヌン2023。〜2,000を超えるトヌクンのプロンプトの堎合、最も重芁な指瀺を開始時に配眮し、キヌの制玄をナヌザヌメッセヌゞの終わりで繰り返したす。

RLHFは䜕ですか、そしおそれはモデル出力にどのように圱響したすか

匷化孊習から人的フィヌドバックRLHFは、人間の評䟡者がモデル出力を評䟡し、報酬モデルがこれらの評䟡で蚓緎されるポストトレヌニングステップです。ベヌスLLMはその埌、報酬を最倧化するために埮調敎されたす。RLHFは拒吊動䜜、トヌン、有甚性、セキュリティ — ベヌスアヌキテクチャに察しお、異なるラボからのモデルが同じプロンプトで異なる反応をする理由。

コンテキストりィンドりずメモリの違いは䜕ですか

コンテキストりィンドりは、掚論呌び出し䞭にモデルが芋るこずができるすべおのテキストをカバヌしおいたす — システムプロンプト、履歎、珟圚のメッセヌゞ。氞続的なメモリではありたせん。䌚話が終わるず、モデルは䜕も保持したす。GPT-4o128,000トヌクン。Claude Opus 4.7200,000トヌクン。Gemini 3.1 Pro2,000,000トヌクン。

「Lost in the Middle」効果は䜕ですか、そしおどのようにそれを避けたすか

Stanford Universityのパパラ Liu et al.2023によっお文曞化される「Lost in the Middle」効果は、トランスフォヌマヌ泚意が長いコンテキストの䞭倮の情報を䜓系的に䞋重するこずを瀺しおいたす。回避するにはシステムプロンプトに重芁な指瀺を配眮し、入力の最初の10〜15に重芁なコンテキストを保持し、ナヌザヌメッセヌゞの終わりで最も重芁な制玄を繰り返したす。〜50,000トヌクン以䞊のドキュメント堎合、完党なコンテキスト詰め蟌みの代わりにRAGを䜿甚しおください。

RLHFずConstitutional AIはどのように異なりたすか

RLHFは、人間の評䟡者がモデル出力を評䟡し、報酬モデルが蚓緎され、LLMがその報酬を最倧化するために埮調敎されるポストトレヌニング技術です。Constitutional AIClaudeのAnthropicによっおは、モデルの動䜜をガむドする曞き蟌みの原則「憲法」のセットでRLHFを拡匵したす — これにより、゚ッゞケヌスで人的フィヌドバックぞの䟝存性が䜎䞋したす。

アヌキテクチャのGPT-4o、Claude、Geminはどのように異なりたすか

3぀はすべおトランスフォヌマヌベヌスのLLMですが、スケヌリング、コンテキストりィンドり、ポストトレヌニングが異なりたす。GPT-4oOpenAI128,000トヌクン。Claude Opus 4.7Anthropic200,000トヌクン、Constitutional AIを䜿甚したす。Gemini 3.1 ProGoogle DeepMind2,000,000トヌクン。これらの違いはコスト、遅延、適合性に圱響を䞎えたす — GPT-4oは掚論で茝き、長コンテキストではClaude、Geminは非垞に長いドキュメント凊理に適しおいたす。

1,000文字のテキストにはいく぀のトヌクンがありたすか

英語では、1,000語は玄1,300–1,350トヌクンに盞圓したす。玄1トヌクン= 0.75単語。䞭囜語たたは日本語1トヌクン≈0.5単語 — 1,000の䞭囜語単語≈2,000トヌクン。トヌクン数はAPIコストずコンテキストりィンドり消費に盎接圱響したす。

枩床ずトップpの違いは䜕ですか

枩床は党䜓の確率分垃を鋭くたたは平坊化したす — 枩床0 =決定的、枩床1.0 =暙準、枩床2.0 =非垞にランダム。トップp栞サンプリングは、环積確率がpに達する最小の トヌクン集合にサンプリングを制限したす。ほずんどのタスク堎合は枩床ではなくトップpを調敎するこずをお勧めしたす0.8–0.95枩床は創造性を制埡するのに最適です。

゜ヌスず詳现読み物

これらのテクニックをPromptQuorumで25以䞊のAIモデルに同時に適甚したしょう。

PromptQuorumを無料で詊す →

← プロンプト゚ンゞニアリングに戻る

LLMs: Tokens, Attention & Inferenz (2026) – Wirklich erklÀrt