Große Sprachmodelle sagen das nächste Token per Wahrscheinlichkeitsverteilung voraus — kein Verstehen, kein Abrufen. Lerne Tokenisierung, Attention, RLHF und Inferenzparameter.

Was ein LLM wirklich ist

Ein LLM (Large Language Model) ist ein transformerbasiertes neuronales Netz, das darauf trainiert wurde, das wahrscheinlichste nächste Token für eine gegebene Eingabesequenz vorherzusagen — es ist keine Datenbank, keine Suchmaschine und kein Reasoning-System. Das Modell lernt statistische Beziehungen zwischen Tokens, indem es während des Trainings hunderte Milliarden Wörter aus Webseiten, Büchern, Code und anderen Texten verarbeitet.

Wenn du einen Prompt eingibst, wandelt das Modell deinen Text in eine Folge numerischer Token-IDs um, leitet sie durch dutzende Transformer-Schichten und gibt eine Wahrscheinlichkeitsverteilung über sein gesamtes Vokabular aus (typischerweise 50.000–100.000 Tokens). Es wählt einen Token aus dieser Verteilung aus, hängt ihn an die Sequenz an und wiederholt diesen Vorgang, bis ein Stop-Token erzeugt wird oder das Ausgabelimit erreicht ist.

Diese Architektur erklärt mehrere Verhaltensweisen, die Nutzer verwirren: warum LLMs plausible, aber falsche Fakten "halluzinieren" (sie sagen wahrscheinlichen Text voraus, keine verifizierten Wahrheiten), warum sie bei Arithmetik versagen können (Token-Muster, keine echte Berechnung), und warum eine Umformulierung des Prompts die Ausgabe verändert (verschiedene Token-Sequenzen lösen andere Wahrscheinlichkeitsverteilungen aus).

Eigenschaft	LLM	Klassische Software
Funktionsweise	Sagt nächsten Token via gelernte Wahrscheinlichkeitsverteilungen voraus	Führt deterministische Anweisungen aus
Ausgabe-Determinismus	Probabilistisch — gleiche Eingabe kann unterschiedliche Ausgaben erzeugen	Deterministisch — gleiche Eingabe ergibt stets gleiche Ausgabe
Wissensquelle	Muster, die während des Trainings in Modellgewichten gespeichert wurden	Liest zur Laufzeit aus Datenbanken oder Dateien
Fehlertyp	Zuversichtlich, aber falsch (Halluzination)	Absturz oder Fehlercode
Aktualisierungsmechanismus	Erfordert Neutraining oder Fine-Tuning	Code-Änderung oder Datenbankaktualisierung

Tokenisierung: Wie Text zu Zahlen wird

**Bevor ein LLM Text verarbeiten kann, muss er diesen in eine Folge ganzzahliger Token-IDs umwandeln — ein Prozess, der als Tokenisierung bezeichnet wird.** GPT-4o verwendet Byte Pair Encoding (BPE), das Text in häufig vorkommende Subwort-Einheiten zerlegt. Claude Opus 4.7 und Gemini 3.1 Pro verwenden ähnliche Subwort-Tokenisierungsverfahren.

Tokenisierung ist sprachabhängig. Englischer Text umfasst durchschnittlich 1 Token pro 0,75 Wörtern. Chinesisch und Japanisch kommen auf 1 Token pro 0,5 Wörtern — dasselbe Dokument kostet auf Chinesisch also etwa doppelt so viele Tokens wie auf Englisch, was sich direkt auf API-Kosten und die Nutzung des Kontextfensters auswirkt.

Eingabetext	Tokens	Anzahl Tokens
"Hello, world!"	"Hello", ",", " world", "!"	4
"Tokenization"	"Token", "ization"	2
"GPT-4o"	"G", "PT", "-", "4", "o"	5
"你好世界" (Hallo Welt, Chinesisch)	"你好", "世界"	2–4 je nach Modell

Wie der Transformer-Attention-Mechanismus funktioniert

Die Transformer-Architektur verwendet einen Mechanismus namens Self-Attention, um zu bestimmen, wie stark jedes Token bei der Berechnung seiner Repräsentation auf alle anderen Tokens in der Sequenz "achten" soll. Für jedes Token berechnet das Modell drei Vektoren — Query (Q), Key (K) und Value (V) — und ermittelt Attention-Scores als Skalarprodukte von Q und K, skaliert und normiert mit Softmax.

Multi-Head-Attention führt diesen Prozess parallel über mehrere "Heads" aus (GPT-4o verwendet 96 Attention-Heads in seinen größten Schichten), wobei jeder Head unterschiedliche Beziehungsmuster erlernt. Einige Heads spezialisieren sich auf syntaktische Beziehungen (Subjekt-Verb), andere auf semantische Ähnlichkeit, wieder andere auf Koreferenzen (Pronomen auf Substantive beziehen).

Eine wichtige praktische Konsequenz: der "Lost in the Middle"-Effekt. Forschungen von Liu et al. (2023) an der Stanford University zeigen, dass LLMs Informationen in der Mitte langer Kontexte systematisch untergewichten. Bei Prompts mit mehr als ~2.000 Tokens sollten kritische Anweisungen im System-Prompt (Anfang) platziert und die wichtigste Einschränkung am Ende der Nutzernachricht wiederholt werden.

Wie LLMs trainiert werden: Vortraining und RLHF

Das LLM-Training findet in zwei klar getrennten Phasen statt: Vortraining (Sprachmuster aus Rohtexten lernen) und Post-Training-Alignment (Verhalten durch menschliches Feedback anpassen). Diese Phasen erzeugen unterschiedliche Fähigkeiten und erklären, warum Modelle verschiedener Labore selbst bei ähnlichen Benchmark-Ergebnissen unterschiedlich reagieren.

Während des Vortrainings verarbeitet das Modell ein massives Korpus — Llama 3.1 wurde auf etwa 15 Billionen Tokens trainiert; GPT-4 auf geschätzte 1–2 Billionen Tokens. Das Ziel ist einfach: das nächste Token vorhersagen. Kein explizites Wissen wird gespeichert; alle Informationen werden als statistische Muster in den Modellgewichten kodiert.

Post-Training-Alignment — typischerweise Reinforcement Learning from Human Feedback (RLHF) oder seine Varianten (RLAIF, DPO) — formt das Modell zu einem hilfreichen Assistenten. Menschliche Bewerter beurteilen Ausgaben nach Hilfsbereitschaft, Harmlosigkeit und Ehrlichkeit. Ein Belohnungsmodell wird auf diesen Bewertungen trainiert, und das Basis-LLM wird daraufhin fine-getuned, den Reward zu maximieren. RLHF bestimmt Ablehnungsverhalten, Ton und Sicherheitsmechanismen — nicht die Basisarchitektur.

Vortraining: Unüberwachte Vorhersage des nächsten Tokens auf webskalierten Daten. Kodiert Sprachmuster, Weltwissen und Reasoning-Abkürzungen in Modellgewichte (~70B–405B Parameter bei Frontier-Modellen).
Supervised Fine-Tuning (SFT): Das Modell wird auf kuratierten Anweisungs-Antwort-Paaren trainiert, um sich wie ein Assistent zu verhalten statt wie ein reiner Textprediktor.
RLHF / DPO: Menschliche Präferenzen steuern das Modell in Richtung hilfreicher, harmloser und ehrlicher Ausgaben. DPO (Direct Preference Optimization) ist eine recheneffizientere Alternative, die von Llama- und Mistral-Modellen genutzt wird.
Constitutional AI (Anthropic): Claude wird zusätzlich mit einem Satz von Prinzipien ("Verfassung") trainiert, um die Abhängigkeit von menschlichem Feedback bei Randfällen zu reduzieren — Claude Opus 4.7 verwendet diesen Ansatz.

Wie Inferenz funktioniert: Sampling und Decoding

Während der Inferenz erzeugt das Modell die Ausgabe Token für Token — berechnet eine Wahrscheinlichkeitsverteilung über das gesamte Vokabular und wählt gemäß den von dir kontrollierten Decoding-Parametern daraus. Die drei wichtigsten Parameter sind Temperatur, Top-p (Nucleus Sampling) und Max Tokens.

Parameter	Bereich	Wirkung	Empfohlen für
Temperatur	0,0 – 2,0	Schärft (niedrig) oder verflacht (hoch) die Wahrscheinlichkeitsverteilung	0 für Code/Fakten; 0,7 für Texte; 1,0 für kreative Aufgaben
Top-p (Nucleus)	0,0 – 1,0	Beschränkt Sampling auf Tokens, deren kumulierte Wahrscheinlichkeit p erreicht	0,9–0,95 für die meisten Aufgaben; 0,5 für stark eingeschränkte Ausgaben
Top-k	1 – Vokabular-Größe	Beschränkt Sampling auf die k wahrscheinlichsten nächsten Tokens	Selten verwendet; Top-p ist generell bevorzugt
Max Tokens	1 – Kontextlimit	Harter Stopp für die Ausgabelänge	Auf 2× die erwartete Ausgabelänge setzen, um Abschneiden zu vermeiden
Frequency Penalty	-2,0 – 2,0	Reduziert Wiederholung bereits erzeugter Tokens	0,1–0,3 für lange Dokumente; 0 für Code

Kontextfenster: Was das Modell sehen kann

**Das Kontextfenster ist die maximale Anzahl von Tokens, die das Modell in einem einzelnen Inferenzaufruf verarbeiten kann — kombiniert aus System-Prompt, Gesprächsverlauf, Dokumenten und der aktuellen Nutzernachricht.** Nichts bleibt zwischen Sitzungen erhalten; das Modell startet jedes Mal neu.

Die Größe des Kontextfensters variiert je nach Modell erheblich und beeinflusst direkt, welche Anwendungsfälle praktikabel sind:

Modell	Kontextfenster	Ungefähres Wortäquivalent	Praktisches Dokumentenlimit
GPT-4o (OpenAI)	128.000 Tokens	~96.000 Wörter	~200-seitiges PDF
Claude Opus 4.7 (Anthropic)	200.000 Tokens	~150.000 Wörter	~300-seitiges PDF
Gemini 3.1 Pro (Google DeepMind)	2.000.000 Tokens	~1.500.000 Wörter	~3.000-seitiges PDF
LLaMA 3.1 70B (Meta, via Ollama)	128.000 Tokens	~96.000 Wörter	~200-seitiges PDF

Was das für Prompt Engineering bedeutet

Das Verständnis der LLM-Architektur verbessert die Prompt-Qualität direkt — Token-Position, Temperatur, Kontextfenster-Nutzung und Ausgabelänge haben messbare Auswirkungen auf die Ausgabezuverlässigkeit.

Wichtige Anweisungen zuerst platzieren. Der System-Prompt wird vor jeder Nutzernachricht verarbeitet. Anweisungen, die tief in langen Prompts vergraben sind, werden aufgrund des "Lost in the Middle"-Effekts untergewichtet. Beschränkungen und Rollendefinitionen in den System-Prompt legen.
Temperatur ist kein An-/Ausschalter. Temperatur 0 für Code-Generierung und sachliche Aufgaben. 0,5–0,7 für Content-Generierung. Über 1,0 erhöht die Vielfalt, steigert aber das Halluzinationsrisiko erheblich.
Token-Anzahl beeinflusst Kosten und Latenz linear. API-Preisgestaltung erfolgt pro Token (Eingabe und Ausgabe). Ein 10.000-Token-System-Prompt mit 100 täglichen Nutzern kostet allein durch Eingaben 1.000.000 Tokens/Tag — Anweisungen kompromisslos komprimieren.
Modelle "wissen" nicht, dass sie falsch liegen. Halluzination ist eine strukturelle Eigenschaft der Token-Vorhersage — das Modell gibt aus, was statistisch wahrscheinlich ist, nicht was verifiziert ist. Bei kritischen Anwendungen immer sachliche Behauptungen validieren.
Kontextfenster ≠ Aufmerksamkeitsqualität. Ein 200.000-Token-Kontextfenster bedeutet nicht, dass das Modell alle 200.000 Tokens gleich stark beachtet. Bei Dokumenten über ~50.000 Tokens Chunking mit RAG statt vollständigem Kontext-Stuffing erwägen.

Häufige LLM-Missverständnisse

Diese Missverständnisse über LLMs sind weit verbreitet und führen häufig zu schlecht konzipierten Prompts:

Missverständnis	Was tatsächlich passiert	Bedeutung für Prompt Engineering
"Das Modell liest und versteht mein Dokument"	Das Modell verarbeitet Token-Sequenzen und sagt Fortsetzungen voraus — kein Leseverständnis	Explizit angeben, was extrahiert werden soll; nicht davon ausgehen, dass das Modell das Ziel ableitet
"Das Modell erinnert sich an unser letztes Gespräch"	Jeder API-Aufruf ist zustandslos; der Verlauf muss explizit im Kontextfenster eingeschlossen werden	Relevanten früheren Kontext im System-Prompt oder Gesprächsverlauf einbeziehen
"Das Modell kennt das aktuelle Datum"	Das Modell hat einen Trainings-Cutoff und weiß nicht, welcher Tag heute ist, wenn es nicht mitgeteilt wird	Aktuelles Datum im System-Prompt für datumssensitive Aufgaben einfügen
"Höhere Temperatur = klügere Ausgabe"	Temperatur steuert Sampling-Zufälligkeit, nicht Leistungsfähigkeit oder Genauigkeit	Niedrige Temperatur (0,0–0,3) für analytische Aufgaben; höhere für kreative Variationen
"Das Modell kann Zeichen zuverlässig zählen"	Token-Grenzen sind Subwort-Einheiten; präzises Zeichen- oder Wortzählen ist keine native Fähigkeit	Nicht auf das Modell für präzises Wortzählen verlassen; Nachbearbeitung oder Code verwenden

Temperature-Effekte über Modelle hinweg in PromptQuorum testen

Getestet in PromptQuorum — das Senden desselben kreativen Briefings an GPT-4o, Claude Opus 4.7 und Gemini 3.1 Pro bei Temperatur 0 vs. Temperatur 0,9 zeigte, dass Claude Opus 4.7 die geringste Ausgabevariation zwischen Temperaturen aufweist, während Gemini 3.1 Pro die höchste Variation zeigt. Bei Temperatur 0,9 erzeugte Gemini 3.1 Pro im Durchschnitt 34 % längere Ausgaben als bei Temperatur 0.

Mit PromptQuorums Multi-Modell-Dispatch kannst du jeden Prompt gleichzeitig gegen alle verfügbaren Modelle bei einer bestimmten Temperatur ausführen und Ausgaben nebeneinander vergleichen — was es praktisch macht, Temperatureinstellungen für eine bestimmte Aufgabe zu kalibrieren statt auf Modell-Standardeinstellungen zu vertrauen.

LLM-Architekturunterschiede nach Region

LLM-Architektur und -Leistung variieren je nach Trainingsdatenzusammensetzung, Tokenisierungsstrategie und regulatorischen Anforderungen erheblich zwischen Regionen. Das Verstehen dieser Unterschiede ist entscheidend für Teams, die Modelle global einsetzen.

Qwen 3 erreicht überlegene Tokenisierungseffizienz für CJK-Skripte (Chinesisch, Japanisch, Koreanisch)** — mit etwa 0,3 Tokens pro Zeichen für Mandarin-Chinesisch im Vergleich zu GPT-4os 0,5 Tokens pro Zeichen. Diese 40-prozentige Reduktion der Token-Anzahl senkt direkt die API-Kosten und Latenz für asiatischsprachige Anwendungen. Qwens Trainingsdaten umfassen 20 % CJK-Inhalte und optimieren den Tokenizer für Skripte, bei denen die Zeichen-zu-Semantik-Dichte am höchsten ist.

Mistral 7B und Mistral Large sind explizit für den europäischen Einsatz konzipiert, mit Trainingsdaten, die für die Einhaltung der DSGVO, des französischen KI-Gesetzes und der EU-Vorschriften zu Datenspeicherung und Modelltransparenz gefiltert wurden. Im Gegensatz zu Modellen, die primär auf ungefilterten Webdaten trainiert wurden, dokumentiert Mistral die Datenherkunft und schließt personenbezogene Daten von EU-Bürgern aus dem Training aus, was es zur Standardwahl für regulierte Branchen in Europa (Banken, Gesundheitswesen, Legal Tech) macht.

DeepSeeks Architektur spiegelt seine Trainingszusammensetzung wider: 70 % der Vortrainingsdaten sind auf Chinesisch und Englisch, 15 % auf Code, 15 % auf anderen Sprachen. Dieses Verhältnis erzeugt ein Modell mit Bias zugunsten chinesischer Sprachflüssigkeit und Code-Generierungsgeschwindigkeit, mit deutlich geringerer Leistung bei ressourcenarmen Sprachen. Die Token-Verteilung und Attention-Muster sind für die Frequenzmuster im Mandarin-Chinesischen optimiert, nicht für Englisch.

Weiterführende Lektüre

Grundlagen: Was ist Prompt Engineering? — wie man das Wissen über LLM-Architektur auf systematisches Prompt-Design anwendet
Grundlagen: Kontextfenster erklärt — Warum KI vergisst — Tiefgang zu Kontextfensterlimits und Retrieval-Strategien
Grundlagen: Tokens, Kosten & Limits: Die Ökonomie des KI-Promptings — Token-Preisgestaltung, Rate Limits und Kostenoptimierung über GPT-4o, Claude und Gemini
Grundlagen: KI-Halluzinationen erklärt — Warum LLMs Dinge erfinden — wie Token-Vorhersage und fehlende Faktenabrufung zu Konfidenzfehlern führen

Häufig gestellte Fragen

Verstehen LLMs Text so wie Menschen?

Nein. LLMs verstehen Text nicht im menschlichen Sinne. Sie sagen das statistisch wahrscheinlichste nächste Token auf Basis der vorherigen Tokens voraus, basierend auf während des Trainings gelernten Mustern. Es gibt kein Verstehen, keine Absicht, kein Bewusstsein — nur gewichtete Wahrscheinlichkeitsverteilungen über ein Vokabular von etwa 50.000–100.000 Tokens.

Was ist ein Token in einem LLM?

Ein Token ist die kleinste Einheit, die ein LLM verarbeitet — etwa 0,75 Wörter auf Englisch und 0,5 Wörter auf Chinesisch oder Japanisch. Wörter, Subwörter, Satzzeichen und Leerzeichen werden alle zu Tokens. GPT-4o verwendet BPE (Byte Pair Encoding), um Text in Tokens aufzuteilen. Ein 1.000-Wort-Dokument ergibt auf Englisch etwa 1.300 Tokens.

Was bewirkt die Temperatur in einem LLM?

Die Temperatur steuert, wie zufällig das Modell aus seiner Wahrscheinlichkeitsverteilung sampelt. Temperatur 0 wählt stets den Token mit der höchsten Wahrscheinlichkeit (deterministisch). Temperatur 1,0 sampelt proportional aus der Verteilung. Über 1,5 wird die Verteilung abgeflacht und das Halluzinationsrisiko steigt. Die meisten Produktionsanwendungen funktionieren am besten zwischen 0,1 und 0,7.

Warum ist die Position von Informationen in einem Prompt wichtig?

Der Transformer-Attention-Mechanismus gewichtet Tokens am Anfang und Ende des Kontextfensters stärker als Tokens in der Mitte — ein Muster, das als "Lost in the Middle"-Effekt von Liu et al. (2023) dokumentiert wurde. Bei Prompts mit mehr als ~2.000 Tokens die wichtigste Anweisung an den Anfang stellen und Schlüsseleinschränkungen am Ende wiederholen.

Was ist RLHF und wie beeinflusst es Modellausgaben?

Reinforcement Learning from Human Feedback (RLHF) ist ein Post-Training-Schritt, bei dem menschliche Bewerter Modellausgaben beurteilen und ein Belohnungsmodell auf diesen Bewertungen trainiert wird. Das Basis-LLM wird dann fine-getuned, den Reward zu maximieren. RLHF formt Ablehnungen, Ton, Hilfsbereitschaft und Sicherheitsverhalten — deshalb verhalten sich Modelle verschiedener Labore unterschiedlich auf denselben Prompt, selbst bei ähnlichen Benchmark-Ergebnissen.

Was ist der Unterschied zwischen einem Kontextfenster und Gedächtnis?

Das Kontextfenster umfasst den gesamten Text, den das Modell während eines Inferenzaufrufs sehen kann — System-Prompt, Verlauf und aktuelle Nachricht. Es ist kein persistentes Gedächtnis: Wenn das Gespräch endet, behält das Modell nichts. GPT-4o: 128.000 Tokens. Claude Opus 4.7: 200.000 Tokens. Gemini 3.1 Pro: 2.000.000 Tokens.

Was ist der "Lost in the Middle"-Effekt und wie vermeide ich ihn?

Der "Lost in the Middle"-Effekt, dokumentiert von Liu et al. (2023) an der Stanford University, zeigt, dass Transformer-Attention Informationen in der Mitte langer Kontexte systematisch untergewichtet. Zur Vermeidung: Kritische Anweisungen im System-Prompt platzieren, wichtigen Kontext in den ersten 10–15 % der Eingabe halten und die wichtigste Einschränkung am Ende der Nutzernachricht wiederholen. Bei Dokumenten länger als ~50.000 Tokens RAG statt vollständigem Kontext-Stuffing verwenden.

Wie unterscheidet sich RLHF von Constitutional AI?

RLHF ist eine Post-Training-Technik, bei der menschliche Bewerter Modellausgaben beurteilen, ein Belohnungsmodell trainiert wird und das LLM fine-getuned wird, den Reward zu maximieren. Constitutional AI (von Anthropic für Claude) erweitert RLHF durch einen Satz schriftlicher Prinzipien ("Verfassung"), die das Modellverhalten leiten — dies reduziert die Abhängigkeit von menschlichem Feedback bei Randfällen.

Was ist der Unterschied zwischen GPT-4o, Claude und Gemini in der Architektur?

Alle drei sind transformerbasierte LLMs, unterscheiden sich aber in Skalierung, Kontextfenster und Post-Training. GPT-4o (OpenAI): 128.000 Tokens. Claude Opus 4.7 (Anthropic): 200.000 Tokens, verwendet Constitutional AI. Gemini 3.1 Pro (Google DeepMind): 2.000.000 Tokens. Diese Unterschiede beeinflussen Kosten, Latenz und Eignung — GPT-4o glänzt beim Reasoning, Claude bei langem Kontext, Gemini bei der Verarbeitung extrem langer Dokumente.

Wie viele Tokens hat ein Text von 1.000 Wörtern?

Auf Englisch entsprechen 1.000 Wörter ungefähr 1.300–1.350 Tokens. Etwa 1 Token = 0,75 Wörter. Für Chinesisch oder Japanisch gilt: 1 Token ≈ 0,5 Wörter — 1.000 chinesische Wörter ≈ 2.000 Tokens. Die Token-Anzahl beeinflusst direkt API-Kosten und Kontextfenster-Verbrauch.

Was ist der Unterschied zwischen Temperatur und Top-p?

Die Temperatur schärft oder verflacht die gesamte Wahrscheinlichkeitsverteilung — Temperatur 0 = deterministisch, Temperatur 1,0 = Standard, Temperatur 2,0 = sehr zufällig. Top-p (Nucleus Sampling) beschränkt das Sampling auf die kleinste Menge von Tokens, deren kumulierte Wahrscheinlichkeit p erreicht. Für die meisten Aufgaben empfiehlt sich die Anpassung von Top-p (0,8–0,95) statt der Temperatur; die Temperatur eignet sich am besten zur Steuerung von Kreativität.

Quellen und weiterführende Literatur

Vaswani et al., 2017. "Attention Is All You Need" — das originale Transformer-Paper, das den Self-Attention-Mechanismus einführte, der allen modernen LLMs zugrunde liegt
Liu et al., 2023. "Lost in the Middle: How Language Models Use Long Contexts" — Stanford-Forschung, die den positionsabhängigen Attention-Bias in Long-Context-LLMs dokumentiert
Ouyang et al., 2022. "Training language models to follow instructions with human feedback" — das InstructGPT-Paper, das RLHF für GPT-3 einführte, die Grundlage für ChatGPT und moderne ausgerichtete LLMs
OpenAI. Tokenizer-Dokumentation — interaktiver Leitfaden zur Token-Zählung und wie der Tokenizer Text für GPT-Modelle kodiert
Touvron et al., 2023. "Llama 2: Open Foundation and Fine-Tuned Chat Models" — Metas umfassendes Paper zu LLaMA-2-Architektur, Trainings-Pipeline und Instruction-Tuning-Methodik
Anthropic. Constitutional AI: Harmlessness from AI Feedback — Anthropics Forschung zur Verwendung einer "Verfassung" zur Steuerung des Modellverhaltens als Alternative zu reinem RLHF
HuggingFace. Tokenizers Library & Summary — technischer Tiefen-Einblick in BPE, WordPiece, SentencePiece und andere Tokenisierungsalgorithmen moderner LLMs
Google DeepMind. Gemini 1.5 Technical Report — Architektur- und Leistungsanalyse eines Frontier-Modells mit 1-Mio.-Token-Kontextfenster
EleutherAI. GPT-NeoX-20B: An Open-Source Autoregressive Language Model — Open-Source-Modell-Trainingsdokumentation und Analyse architektonischer Entscheidungen bei der LLM-Entwicklung
OpenAI. Improving Language Models by Segmenting, Attending, and Predicting with Structured State Space Models — Forschung zu Alternativen zur reinen Transformer-Attention für effiziente Long-Context-Verarbeitung

Wie LLMs wirklich funktionieren: Tokens, Attention und Inferenz

Visuelle Zusammenfassung: Wie LLMs wirklich funktionieren: Tokens, Attention und Inferenz