Les grands modèles de langage prédisent le prochain token par distribution de probabilités — sans comprendre ni récupérer. Apprenez la tokenisation, l'attention, le RLHF et les paramètres d'inférence.

Ce qu'est vraiment un LLM

Un LLM (grand modèle de langage) est un réseau de neurones basé sur l'architecture transformer, entraîné pour prédire le token le plus probable suivant une séquence de tokens en entrée — ce n'est pas une base de données, un moteur de recherche ou un système de raisonnement. Le modèle apprend des relations statistiques entre les tokens en traitant des centaines de milliards de mots issus de pages web, de livres, de code et d'autres textes pendant l'entraînement.

Lorsque vous saisissez un prompt, le modèle convertit votre texte en une séquence d'identifiants de tokens numériques, les fait passer à travers des dizaines de couches transformer et produit une distribution de probabilités sur l'ensemble de son vocabulaire (typiquement 50 000 à 100 000 tokens). Il sélectionne un token dans cette distribution, l'ajoute à la séquence et répète jusqu'à générer un token d'arrêt ou atteindre la limite de sortie.

Cette architecture explique plusieurs comportements qui désorientent les utilisateurs : pourquoi les LLMs "hallucinent" des faits plausibles mais faux (ils prédisent un texte probable, pas des vérités vérifiées), pourquoi ils peuvent échouer en arithmétique (patterns de tokens, pas de calcul réel), et pourquoi reformuler un prompt change la sortie (des séquences de tokens différentes déclenchent des distributions de probabilités différentes).

Propriété	LLM	Logiciel classique
Fonctionnement	Prédit le prochain token via des distributions de probabilités apprises	Exécute des instructions déterministes
Déterminisme de la sortie	Probabiliste — la même entrée peut produire des sorties différentes	Déterministe — la même entrée produit toujours la même sortie
Source de connaissance	Patterns encodés dans les poids du modèle pendant l'entraînement	Lit depuis des bases de données ou des fichiers à l'exécution
Type d'erreur	Confiant mais faux (hallucination)	Plantage ou code d'erreur
Mécanisme de mise à jour	Nécessite un réentraînement ou un fine-tuning	Modification du code ou mise à jour de la base de données

Tokenisation : comment le texte devient des nombres

**Avant qu'un LLM puisse traiter du texte, il doit le convertir en une séquence d'identifiants de tokens entiers — un processus appelé tokenisation.** GPT-4o utilise le Byte Pair Encoding (BPE), qui décompose le texte en unités de sous-mots fréquents. Claude Opus 4.7 et Gemini 3.1 Pro utilisent des schémas de tokenisation par sous-mots similaires.

La tokenisation dépend de la langue. Le texte anglais représente en moyenne 1 token pour 0,75 mots. Le chinois et le japonais atteignent 1 token pour 0,5 mots — le même document coûte donc environ deux fois plus de tokens en chinois qu'en anglais, ce qui affecte directement le coût de l'API et l'utilisation de la fenêtre de contexte.

Texte d'entrée	Tokens	Nombre de tokens
"Hello, world!"	"Hello", ",", " world", "!"	4
"Tokenization"	"Token", "ization"	2
"GPT-4o"	"G", "PT", "-", "4", "o"	5
"你好世界" (Bonjour monde, chinois)	"你好", "世界"	2–4 selon le modèle

Comment fonctionne le mécanisme d'attention transformer

L'architecture transformer utilise un mécanisme appelé self-attention pour déterminer dans quelle mesure chaque token doit « faire attention » à tous les autres tokens de la séquence lors du calcul de sa représentation. Pour chaque token, le modèle calcule trois vecteurs — Query (Q), Key (K) et Value (V) — et calcule les scores d'attention comme des produits scalaires entre Q et K, mis à l'échelle et normalisés avec softmax.

L'attention multi-têtes exécute ce processus en parallèle sur plusieurs « têtes » (GPT-4o utilise 96 têtes d'attention dans ses plus grandes couches), chacune apprenant différents patterns de relations. Certaines têtes se spécialisent dans les relations syntaxiques (sujet-verbe), d'autres dans la similarité sémantique, d'autres encore dans la coréférence (faire correspondre les pronoms aux noms).

Une implication pratique majeure : l'effet « lost in the middle ». Les recherches de Liu et al. (2023) à Stanford montrent que les LLMs sous-pondèrent systématiquement les informations au milieu des longs contextes. Pour les prompts dépassant ~2 000 tokens, placez les instructions critiques dans le system prompt (début) et répétez la contrainte la plus importante à la fin du message utilisateur.

Comment les LLMs sont entraînés : pré-entraînement et RLHF

L'entraînement des LLMs se déroule en deux phases distinctes : le pré-entraînement (apprendre les patterns du langage à partir de textes bruts) et l'alignement post-entraînement (façonner le comportement grâce aux retours humains). Ces phases produisent des capacités différentes et expliquent pourquoi les modèles de différents laboratoires se comportent différemment même avec des scores de benchmark similaires.

Pendant le pré-entraînement, le modèle traite un corpus massif — Llama 3.1 a été entraîné sur environ 15 billions de tokens ; GPT-4 sur un estimé de 1 à 2 billions de tokens. L'objectif est simple : prédire le prochain token. Aucune connaissance explicite n'est stockée ; toutes les informations sont encodées comme des patterns statistiques dans les poids du modèle.

L'alignement post-entraînement — typiquement le Reinforcement Learning from Human Feedback (RLHF) ou ses variantes (RLAIF, DPO) — façonne le modèle en assistant utile. Des évaluateurs humains notent les sorties sur l'utilité, l'innocuité et l'honnêteté. Un modèle de récompense est entraîné sur ces évaluations, et le LLM de base est ensuite fine-tuné pour maximiser la récompense. Le RLHF détermine le comportement de refus, le ton et les garde-fous de sécurité — pas l'architecture de base.

Pré-entraînement : Prédiction non supervisée du prochain token sur des données à l'échelle du web. Encode les patterns linguistiques, les connaissances du monde et les raccourcis de raisonnement dans les poids du modèle (~70B–405B paramètres pour les modèles frontier).
Supervised Fine-Tuning (SFT) : Le modèle est entraîné sur des paires instruction-réponse soigneusement sélectionnées pour se comporter comme un assistant plutôt que comme un simple prédicteur de texte.
RLHF / DPO : Les préférences humaines orientent le modèle vers des sorties utiles, inoffensives et honnêtes. Le DPO (Direct Preference Optimization) est une alternative plus efficace en calcul utilisée par les modèles Llama et Mistral.
Constitutional AI (Anthropic) : Claude est en plus entraîné avec un ensemble de principes (« constitution ») pour réduire la dépendance aux retours humains pour chaque cas limite — Claude Opus 4.7 utilise cette approche.

Comment fonctionne l'inférence : échantillonnage et décodage

Pendant l'inférence, le modèle génère la sortie token par token — calcule une distribution de probabilités sur l'ensemble du vocabulaire et échantillonne selon les paramètres de décodage que vous contrôlez. Les trois paramètres les plus importants sont la température, le top-p (nucleus sampling) et le nombre maximum de tokens.

Paramètre	Plage	Effet	Recommandé pour
Température	0,0 – 2,0	Affûte (bas) ou aplatit (haut) la distribution de probabilités	0 pour code/faits ; 0,7 pour textes ; 1,0 pour tâches créatives
Top-p (nucleus)	0,0 – 1,0	Limite l'échantillonnage aux tokens dont la probabilité cumulée atteint p	0,9–0,95 pour la plupart des tâches ; 0,5 pour les sorties très contraintes
Top-k	1 – taille du vocabulaire	Limite l'échantillonnage aux k tokens suivants les plus probables	Peu utilisé ; le top-p est généralement préféré
Max tokens	1 – limite du contexte	Arrêt strict de la longueur de sortie	Régler à 2× la longueur de sortie attendue pour éviter la troncature
Frequency penalty	-2,0 – 2,0	Réduit la répétition des tokens déjà générés	0,1–0,3 pour les longs documents ; 0 pour le code

Fenêtres de contexte : ce que le modèle peut voir

**La fenêtre de contexte est le nombre maximum de tokens que le modèle peut traiter en un seul appel d'inférence — combinant le system prompt, l'historique de conversation, les documents et le message utilisateur actuel.** Rien ne persiste entre les sessions ; le modèle repart à zéro à chaque fois.

La taille de la fenêtre de contexte varie considérablement selon les modèles et affecte directement quels cas d'usage sont pratiques :

Modèle	Fenêtre de contexte	Équivalent en mots approximatif	Limite pratique pour les documents
GPT-4o (OpenAI)	128 000 tokens	~96 000 mots	~200 pages PDF
Claude Opus 4.7 (Anthropic)	200 000 tokens	~150 000 mots	~300 pages PDF
Gemini 3.1 Pro (Google DeepMind)	2 000 000 tokens	~1 500 000 mots	~3 000 pages PDF
LLaMA 3.1 70B (Meta, via Ollama)	128 000 tokens	~96 000 mots	~200 pages PDF

Ce que cela signifie pour l'ingénierie de prompt

Comprendre l'architecture des LLMs améliore directement la qualité des prompts — la position des tokens, la température, l'utilisation de la fenêtre de contexte et la longueur de sortie ont toutes des effets mesurables sur la fiabilité des sorties.

Placez les instructions critiques en premier. Le system prompt est traité avant tout message utilisateur. Les instructions enfouies au milieu de longs prompts sont sous-pondérées en raison de l'effet « lost in the middle ». Placez les contraintes et les définitions de rôle dans le system prompt.
La température est un réglage graduel, pas un interrupteur. Température 0 pour la génération de code et les tâches factuelles. 0,5–0,7 pour la génération de contenu. Au-dessus de 1,0, la diversité augmente mais le risque d'hallucination aussi.
Le nombre de tokens affecte le coût et la latence de façon linéaire. La tarification API est par token (entrée et sortie). Un system prompt de 10 000 tokens avec 100 utilisateurs quotidiens coûte 1 000 000 tokens/jour en entrée seule — compressez les instructions sans compromis.
Les modèles ne « savent » pas qu'ils ont tort. L'hallucination est une propriété structurelle de la prédiction de tokens — le modèle produit ce qui est statistiquement probable, pas ce qui est vérifié. Validez toujours les affirmations factuelles pour les cas d'usage à enjeux élevés.
Fenêtre de contexte ≠ qualité d'attention. Une fenêtre de contexte de 200 000 tokens ne signifie pas que le modèle accorde une attention égale aux 200 000 tokens. Pour les documents de plus de ~50 000 tokens, envisagez le chunking avec RAG plutôt que le context stuffing complet.

Idées reçues courantes sur les LLMs

Ces idées reçues sur les LLMs sont répandues et conduisent fréquemment à des prompts mal conçus :

Idée reçue	Ce qui se passe réellement	Implication pour l'ingénierie de prompt
"Le modèle lit et comprend mon document"	Le modèle traite des séquences de tokens et prédit des continuations — pas de compréhension de lecture	Indiquez explicitement ce que vous voulez extraire ; ne supposez pas que le modèle infère votre objectif
"Le modèle se souvient de notre dernière conversation"	Chaque appel API est sans état ; l'historique doit être explicitement inclus dans la fenêtre de contexte	Incluez le contexte précédent pertinent dans le system prompt ou l'historique de conversation
"Le modèle connaît la date actuelle"	Le modèle a une date de coupure d'entraînement et ne sait pas quelle date il est sauf si on le lui dit	Injectez la date actuelle dans le system prompt pour les tâches sensibles à la date
"Température plus élevée = sortie plus intelligente"	La température contrôle l'aléatoire de l'échantillonnage, pas la capacité ou la précision	Utilisez une température basse (0,0–0,3) pour les tâches analytiques ; plus élevée pour les variations créatives
"Le modèle peut compter les caractères de façon fiable"	Les frontières des tokens sont des unités de sous-mots ; compter précisément les caractères ou les mots n'est pas une compétence native	Ne vous fiez pas au modèle pour compter les mots précisément ; utilisez un post-traitement ou du code

Tester les effets de température entre modèles dans PromptQuorum

Testé dans PromptQuorum — l'envoi du même brief créatif à GPT-4o, Claude Opus 4.7 et Gemini 3.1 Pro à température 0 vs température 0,9 a montré que Claude Opus 4.7 présente la plus faible variation de sortie entre températures, tandis que Gemini 3.1 Pro affiche la plus grande variation. À température 0,9, Gemini 3.1 Pro a produit des sorties en moyenne 34 % plus longues qu'à température 0.

Avec le dispatch multi-modèle de PromptQuorum, vous pouvez exécuter n'importe quel prompt simultanément contre tous les modèles disponibles à une température spécifiée et comparer les sorties côte à côte — ce qui rend pratique le calibrage des paramètres de température pour votre tâche spécifique plutôt que de s'appuyer sur les valeurs par défaut des modèles.

Différences d'architecture LLM par région

L'architecture et les performances des LLMs varient considérablement selon la composition des données d'entraînement, la stratégie de tokenisation et les contraintes réglementaires d'une région à l'autre. Comprendre ces différences est crucial pour les équipes déployant des modèles à l'échelle mondiale.

Qwen 3 atteint une efficacité de tokenisation supérieure pour les scripts CJK (chinois, japonais, coréen)** — utilisant environ 0,3 token par caractère pour le mandarin comparé à 0,5 token par caractère pour GPT-4o. Cette réduction de 40 % du nombre de tokens réduit directement les coûts API et la latence pour les applications en langues asiatiques. Les données d'entraînement de Qwen comprennent 20 % de contenu CJK, optimisant le tokeniseur pour les scripts où la densité caractère-sémantique est la plus élevée.

Mistral 7B et Mistral Large sont explicitement conçus pour le déploiement européen, avec des données d'entraînement filtrées pour respecter le RGPD, la loi française sur l'IA et les réglementations de l'UE sur la conservation des données et la transparence des modèles. Contrairement aux modèles entraînés principalement sur des données web non filtrées, Mistral documente les sources de données et exclut les informations personnelles des citoyens de l'UE de l'entraînement, ce qui en fait le choix par défaut pour les secteurs réglementés en Europe (banque, santé, legal tech).

L'architecture de DeepSeek reflète sa composition d'entraînement : 70 % des données de pré-entraînement sont en chinois et en anglais, 15 % en code, 15 % dans d'autres langues. Ce ratio produit un modèle biaisé vers la fluidité en langue chinoise et la vitesse de génération de code, avec des performances nettement inférieures sur les langues à faibles ressources. La distribution des tokens et les patterns d'attention sont optimisés pour les patterns de fréquence du mandarin, pas de l'anglais.

Lectures complémentaires

Fondamentaux : Qu'est-ce que l'ingénierie de prompt ? — comment appliquer les connaissances sur l'architecture LLM à la conception systématique de prompts
Fondamentaux : Fenêtres de contexte expliquées — Pourquoi l'IA oublie — exploration approfondie des limites des fenêtres de contexte et des stratégies de récupération
Fondamentaux : Tokens, coûts et limites : l'économie du prompting IA — tarification des tokens, limites de débit et optimisation des coûts pour GPT-4o, Claude et Gemini
Fondamentaux : Hallucinations IA expliquées — Pourquoi les LLMs inventent — comment la prédiction de tokens et l'absence de récupération de faits conduisent à des erreurs de confiance

Questions fréquemment posées

Les LLMs comprennent-ils le texte comme les humains ?

Non. Les LLMs ne comprennent pas le texte au sens humain. Ils prédisent le prochain token statistiquement le plus probable sur la base des tokens précédents, selon des patterns appris pendant l'entraînement. Il n'y a ni compréhension, ni intention, ni conscience — seulement des distributions de probabilités pondérées sur un vocabulaire d'environ 50 000 à 100 000 tokens.

Qu'est-ce qu'un token dans un LLM ?

Un token est la plus petite unité traitée par un LLM — environ 0,75 mot en anglais et 0,5 mot en chinois ou japonais. Les mots, sous-mots, ponctuation et espaces deviennent tous des tokens. GPT-4o utilise le BPE (Byte Pair Encoding) pour diviser le texte en tokens. Un document de 1 000 mots représente environ 1 300 tokens en anglais.

Que fait la température dans un LLM ?

La température contrôle avec quelle aléatoire le modèle échantillonne dans sa distribution de probabilités. Température 0 sélectionne toujours le token de probabilité maximale (déterministe). Température 1,0 échantillonne proportionnellement à la distribution. Au-dessus de 1,5, la distribution s'aplatit et le risque d'hallucination augmente. La plupart des cas d'usage en production fonctionnent mieux entre 0,1 et 0,7.

Pourquoi la position des informations dans un prompt est-elle importante ?

Le mécanisme d'attention transformer pondère davantage les tokens au début et à la fin de la fenêtre de contexte qu'au milieu — l'effet « lost in the middle » documenté par Liu et al. (2023). Pour les prompts de plus de ~2 000 tokens, placez l'instruction la plus critique au début et répétez les contraintes clés à la fin.

Qu'est-ce que le RLHF et comment affecte-t-il les sorties du modèle ?

Le Reinforcement Learning from Human Feedback (RLHF) est une étape post-entraînement où des évaluateurs humains notent les sorties du modèle et un modèle de récompense est entraîné sur ces évaluations. Le LLM de base est ensuite fine-tuné pour maximiser la récompense. Le RLHF façonne les refus, le ton, la serviabilité et le comportement de sécurité — c'est pourquoi les modèles de différents laboratoires se comportent différemment sur le même prompt malgré des scores de benchmark similaires.

Quelle est la différence entre une fenêtre de contexte et la mémoire ?

La fenêtre de contexte englobe tout le texte que le modèle peut voir lors d'un appel d'inférence — system prompt, historique et message actuel. Ce n'est pas de la mémoire persistante : lorsque la conversation se termine, le modèle ne retient rien. GPT-4o : 128 000 tokens. Claude Opus 4.7 : 200 000 tokens. Gemini 3.1 Pro : 2 000 000 tokens.

Qu'est-ce que l'effet « lost in the middle » et comment l'éviter ?

L'effet « lost in the middle », documenté par Liu et al. (2023) à Stanford, montre que l'attention transformer sous-pondère systématiquement les informations au milieu des longs contextes. Pour l'éviter : placez les instructions critiques dans le system prompt, gardez le contexte important dans les 10–15 premiers % de l'entrée et répétez la contrainte la plus importante à la fin du message utilisateur. Pour les documents de plus de ~50 000 tokens, utilisez le RAG avec chunking plutôt que le context stuffing complet.

En quoi le RLHF diffère-t-il du Constitutional AI ?

Le RLHF est une technique post-entraînement où des évaluateurs humains notent les sorties, un modèle de récompense est entraîné et le LLM est fine-tuné pour maximiser la récompense. Le Constitutional AI (utilisé par Anthropic pour Claude) étend le RLHF en ajoutant un ensemble de principes écrits (« constitution ») qui guident le comportement du modèle — ce qui réduit la dépendance aux retours humains pour chaque cas limite.

Quelle est la différence architecturale entre GPT-4o, Claude et Gemini ?

Tous trois sont des LLMs basés sur transformer mais diffèrent en taille, fenêtre de contexte et post-entraînement. GPT-4o (OpenAI) : 128 000 tokens. Claude Opus 4.7 (Anthropic) : 200 000 tokens, utilise le Constitutional AI. Gemini 3.1 Pro (Google DeepMind) : 2 000 000 tokens. Ces différences influencent le coût, la latence et l'adéquation — GPT-4o excelle en raisonnement, Claude sur les longs contextes, Gemini pour le traitement de documents extrêmement longs.

Combien de tokens représentent 1 000 mots ?

En anglais, 1 000 mots représentent environ 1 300–1 350 tokens. Soit ~1 token = 0,75 mot. Pour le chinois ou le japonais : 1 token ≈ 0,5 mot — 1 000 mots chinois ≈ 2 000 tokens. Le nombre de tokens affecte directement le coût API et la consommation de la fenêtre de contexte.

Quelle est la différence entre la température et le top-p ?

La température affûte ou aplatit l'ensemble de la distribution de probabilités — température 0 = déterministe, température 1,0 = standard, température 2,0 = très aléatoire. Le top-p (nucleus sampling) limite l'échantillonnage au plus petit ensemble de tokens dont la probabilité cumulée atteint p. Pour la plupart des tâches, ajustez le top-p (0,8–0,95) plutôt que la température ; la température est mieux réservée au contrôle de la créativité.

Sources et lectures complémentaires

Vaswani et al., 2017. « Attention Is All You Need » — le paper original sur le transformer introduisant le mécanisme de self-attention qui sous-tend tous les LLMs modernes
Liu et al., 2023. « Lost in the Middle: How Language Models Use Long Contexts » — recherche de Stanford documentant le biais d'attention dépendant de la position dans les LLMs à long contexte
Ouyang et al., 2022. « Training language models to follow instructions with human feedback » — le paper InstructGPT introduisant le RLHF appliqué à GPT-3, base de ChatGPT et des LLMs alignés modernes
OpenAI. Documentation du tokeniseur — guide interactif sur le comptage des tokens et la façon dont le tokeniseur encode le texte pour les modèles GPT
Touvron et al., 2023. « Llama 2: Open Foundation and Fine-Tuned Chat Models » — paper complet de Meta sur l'architecture LLaMA 2, le pipeline d'entraînement et la méthodologie d'instruction-tuning
Anthropic. Constitutional AI: Harmlessness from AI Feedback — recherche d'Anthropic sur l'utilisation d'une « constitution » pour guider le comportement du modèle comme alternative au RLHF pur
HuggingFace. Tokenizers Library & Summary — plongée technique dans BPE, WordPiece, SentencePiece et autres algorithmes de tokenisation des LLMs modernes
Google DeepMind. Gemini 1.5 Technical Report — analyse d'architecture et de performances d'un modèle frontier avec une fenêtre de contexte de 1 M de tokens
EleutherAI. GPT-NeoX-20B: An Open-Source Autoregressive Language Model — documentation d'entraînement de modèle open-source et analyse des choix architecturaux dans le développement de LLMs à grande échelle
OpenAI. Improving Language Models by Segmenting, Attending, and Predicting with Structured State Space Models — recherche sur les alternatives à l'attention transformer pure pour le traitement efficace des longs contextes

Comment fonctionnent vraiment les LLMs : tokens, attention et inférence

Résumé visuel: Comment fonctionnent vraiment les LLMs : tokens, attention et inférence