Faits rapides
- 46 % des données d'entraînement CommonCrawl sont en anglais ; seulement 3 % en chinois, 5 % en français, 6 % en allemand.
- 1 900 tokens nécessaires pour 1 000 mots en arabe (46 % de plus qu'en anglais) ; 900 tokens pour le chinois (31 % de moins).
- 5 à 12 % d'amélioration de la précision en utilisant un raisonnement chain-of-thought en anglais avec une sortie en langue native (langues de niveau 3).
- 15 à 20 % de baisse de précision lors de l'utilisation d'exemples few-shot en anglais pour des tâches non anglophones (Shi et al., 2023).
- Mistral Large 2 est en tête pour les langues romanes ; Gemini 3.0 Pro pour l'Asie de l'Est ; GPT-4o pour l'arabe.
Pourquoi la langue compte plus qu'on ne le pense
💬 In Plain Terms
Voyez-le ainsi : les LLM ont appris l'anglais à partir de milliards de livres, sites web et articles. Ils ont appris le français à partir de millions. Quand vous posez une question en français, le modèle dispose de moins d'exemples pour répondre, et fait donc plus d'erreurs — tout comme vous résoudriez des problèmes de mathématiques moins bien dans une langue que vous n'étudiez que depuis quelques semaines.
Les prompts multilingues ne sont pas des traductions — ils activent une région différente de la distribution apprise du modèle. Les LLM tokenisent et représentent le texte dans un espace d'embeddings partagé, mais les données d'entraînement sont déséquilibrées : CommonCrawl (utilisé pour entraîner la plupart des LLM) est composé d'environ 46 % d'anglais, 6 % d'allemand, 5 % de français et 3 % de chinois. Les langues représentant moins de 1 % des données (ex. la plupart des langues africaines, de nombreuses langues d'Asie du Sud) ont un comportement imprévisible.
Lorsque vous rédigez un prompt en français, le modèle s'appuie sur les motifs issus des données d'entraînement en français. Comme celles-ci ne représentent qu'environ 5 % du corpus total, le modèle dispose de moins d'associations apprises qu'avec des prompts en anglais. Cela se manifeste par : une précision de raisonnement moindre, un suivi des instructions moins fiable, des taux d'hallucination plus élevés et une qualité de sortie imprévisible.
Pour approfondir la façon dont les LLM apprennent les motifs linguistiques, consultez comment fonctionnent réellement les LLM.
Le modèle à 4 niveaux linguistiques
📍 In One Sentence
Plus la part de données d'entraînement est élevée, plus le modèle a de motifs appris et plus les sorties sont fiables ; le niveau 1 (anglais) représente ~46 % de l'entraînement, le niveau 2 (européen) 5–8 %, le niveau 3 (asiatique/arabe) 2–4 %, et le niveau 4 (<1 %) requiert de la génération augmentée par récupération.
La performance des LLM suit une hiérarchie à quatre niveaux basée sur la part de données d'entraînement, avec le niveau 1 (anglais) performant quasi parfaitement et le niveau 4 (langues à faibles ressources) produisant des sorties peu fiables. Utilisez ce système de niveaux pour déterminer quelles stratégies s'appliquent à votre langue cible.
| Niveau | Langues | Part d'entraînement (approx.) | Stratégie recommandée |
|---|---|---|---|
| Niveau 1 | Anglais | ~46 % | Prompt direct, toutes les techniques fonctionnent |
| Niveau 2 | Français, allemand, espagnol, portugais, italien | 5–8 % chacun | Prompts utilisateur en langue native, prompt système en anglais pour la structure |
| Niveau 3 | Chinois, japonais, coréen, arabe, russe | 2–4 % chacun | CoT en anglais + sortie en langue native, tester rigoureusement |
| Niveau 4 | La plupart des autres langues | <1 % | Utiliser le RAG avec du contenu pré-vérifié ; éviter les sorties génératives sans révision humaine |
Coûts de tokens par script
Le même contenu de 1 000 mots coûte 46 % plus de tokens en arabe qu'en anglais, et 30 % de plus en japonais — ce qui impacte directement votre facture d'API. L'efficacité des tokens varie considérablement selon le script et la famille linguistique.
Consultez tokens, coûts et limites pour une ventilation détaillée de la gestion des tokens dans vos workflows multilingues.
| Langue | Script | Tokens (approx.) | vs. Anglais | Multiplicateur de coût |
|---|---|---|---|---|
| Anglais | Latin | ~1 300 | base | 1.0× |
| Allemand | Latin | ~1 500 | +15 % | 1.15× |
| Français | Latin | ~1 450 | +12 % | 1.12× |
| Espagnol | Latin | ~1 400 | +8 % | 1.08× |
| Russe | Cyrillique | ~1 700 | +31 % | 1.31× |
| Chinois simplifié | CJC | ~900 | −31 % | 0.69× |
| Japonais | CJC + kana | ~1 100 | −15 % | 0.85× |
| Coréen | Hangul | ~1 400 | +8 % | 1.08× |
| Arabe | Arabe | ~1 900 | +46 % | 1.46× |
Le prompt système doit-il être en anglais ou dans la langue cible ?
Pour les tâches structurées et de raisonnement, les prompts système en anglais surpassent les prompts système en langue native pour les langues de niveau 2–3. Pour le ton et la formalité, les prompts système en langue native obtiennent de meilleurs résultats. C'est la décision la plus importante du prompting multilingue.
Pourquoi ? La plupart des capacités de suivi d'instructions des LLM ont été entraînées sur des données RLHF en anglais. Les instructions système complexes (règles de formatage, personas, directives chain-of-thought) sont suivies de façon plus fiable en anglais. En revanche, les instructions de style (registre de formalité, ton culturel, niveau de politesse) sont mieux rédigées dans la langue cible.
Arbre de décision : Règles de raisonnement/formatage complexes → prompt système en anglais. Registre de formalité (Vous, Sie, keigo) → langue cible. Définition de persona → anglais + un exemple en langue cible. Spécification de la langue de sortie → toujours explicite dans le prompt système : "Respond in formal French using Vous-form."
Pour la ventilation complète, consultez prompt système vs. prompt utilisateur.
❌ Prompt système entièrement en français : "Tu es un assistant support client. Réponds en français."
Why it hurts: Les instructions complexes (gestion des erreurs, structure, logique) se perdent dans la langue cible. Le modèle a du mal à suivre les règles de formatage dans une langue à ressources limitées.
Fix: Utilisez l'anglais pour les instructions système : "You are a customer support assistant. Respond in French using formal Vous-form." Ajoutez ensuite les instructions de ton/registre en français.
⚠️ Erreur courante
Rédiger à la fois le prompt système ET les instructions utilisateur dans la langue cible réduit souvent la précision du raisonnement. Utilisez l'anglais pour la logique, la langue cible pour le ton.
💡 Conseil pro
Testez les deux approches (système anglais + raisonnement anglais vs. système anglais + raisonnement natif) sur votre cas d'usage exact. Le comportement du modèle varie selon le niveau linguistique.
Mauvais vs. Bon : prompt système multilingue
Mauvais prompt — suppose que le modèle détectera la langue et le registre :
"Résume ce contrat allemand."
Résultat : sortie mélangée anglais/français, registre informel, peut manquer la terminologie juridique.
Bon prompt — langue, registre et chemin de raisonnement explicites :
"You are a legal analyst. The following document is a German employment contract (Arbeitsvertrag). Summarise its key obligations in formal French using Vous-form. Structure: Parties contractantes, Rémunération, Délais de préavis, Clauses particulières. Maximum 200 mots. Signalez toute clause inhabituelle pour le droit du travail allemand standard avec VÉRIFIER."
Résultat : sortie en français formel avec terminologie juridique appropriée et anomalies signalées.
Quels modèles maîtrisent quelles langues ?
Aucun modèle ne domine dans toutes les langues. Mistral Large 2 est en tête pour les langues romanes ; Google Gemini 3.0 Pro pour les langues d'Asie de l'Est ; GPT-4o pour l'arabe et les tâches de raisonnement multilingue. Ce tableau synthétise les performances des modèles à partir du benchmark MEGA d'Ahuja et al. (2023).
| Modèle | Niveau 2 (européen) | Niveau 3 (Asie de l'Est) | Arabe | Meilleur cas d'usage |
|---|---|---|---|---|
| GPT-4o | ✅ Fort | ✅ Fort | ✅ Meilleur | Multilingue général, extraction structurée |
| Claude Opus 4.7 | ✅ Fort | ✓ Bon | ✓ Bon | Analyse documentaire, ton nuancé |
| Gemini 3.0 Pro | ✓ Bon | ✅ Meilleur | ✓ Bon | Japonais/coréen/chinois, traduction |
| Mistral Large 2 | ✅ Meilleur | ⚠ Modéré | ⚠ Modéré | Contenu professionnel français/espagnol/italien |
| Qwen 3 72B | ⚠ Modéré | ✅ Fort | ✓ Bon | Workflows à dominante chinoise (open-source) |
| Llama 4 70B | ✓ Bon | ⚠ Modéré | ⚠ Modéré | Langues européennes, option économique |
💡 Conseil pro
Utilisez PromptQuorum pour tester votre prompt exact sur tous les 6 modèles simultanément. La comparaison côte à côte révèle quel modèle performe le mieux pour votre combinaison langue + tâche.
📌 Le saviez-vous ?
La performance des modèles varie non seulement selon la langue, mais aussi selon le domaine. Un modèle peut exceller en traduction technique japonaise mais peiner sur le registre du service client japonais.
Coût par cas d'usage
Les différences de coût de tokens ci-dessus se répercutent directement sur votre facture d'API. Voici l'impact réel basé sur la tarification GPT-4o (5 $ par million de tokens en entrée).
| Cas d'usage | Coût anglais | Coût arabe | Coût japonais | Conseil d'économie |
|---|---|---|---|---|
| 100 e-mails clients/jour | $X | $1.46X | $0.85X | Utiliser Gemini 3.0 Pro pour le japonais ; prévoir 46 % de plus pour l'arabe |
| Résumé d'un rapport de 10 000 mots | $Y | $1.46Y | $0.85Y | Segmenter en anglais, sortie dans la langue cible |
| 500 descriptions de produits | $Z | $1.46Z | $0.85Z | Le chinois est le moins cher (0.69×) |
Chain-of-Thought multilingue
Pour les langues de niveau 3, rédiger votre instruction chain-of-thought en anglais mais demander la réponse finale dans la langue cible améliore la précision de raisonnement de 5 à 12 % (Shi et al., 2023). Cette technique CoT multilingue exploite la force de raisonnement en anglais tout en préservant la qualité de sortie dans votre langue cible.
Lorsque les LLM raisonnent étape par étape, ils s'appuient sur les motifs de leur plus grand corpus d'entraînement (l'anglais). Forcer le raisonnement entièrement dans une langue à faibles ressources réduit la précision. L'approche hybride — CoT en anglais, sortie en langue native — offre le meilleur des deux.
Modèle : `Raisonnez étape par étape en anglais, puis rédigez votre réponse finale en français. Question : question`
Décision : Utilisez le CoT en anglais quand → la tâche requiert un raisonnement en plusieurs étapes, la langue cible est de niveau 3+, la précision prime sur la latence. Utilisez le CoT en langue native quand → le ton et le registre comptent plus que la profondeur du raisonnement, la langue cible est de niveau 1–2.
Approfondissez : Chain-of-thought : comment pousser les LLM à montrer leur raisonnement.
⚠️ Attention
Le CoT multilingue fonctionne pour les langues de niveau 3 mais peut perturber les modèles avec les langues de niveau 4. Testez toujours sur un petit échantillon avant de valider l'approche.
🛠️ Bonne pratique
Pour une précision maximale, combinez le CoT multilingue avec des exemples few-shot : montrez au modèle un exemple complet (raisonnement en anglais → réponse en français) avant de lui soumettre une nouvelle tâche.
Exemples few-shot et correspondance de langue
Les exemples few-shot doivent être dans la même langue que la tâche — les exemples en langue différente réduisent la précision de 15 à 20 % dans les langues de niveau 2–3 (Shi et al., 2023). Les exemples few-shot apprennent au modèle le format, le ton et le schéma. Quand les exemples sont en anglais mais la tâche en français, le modèle reçoit des signaux contradictoires.
Deux stratégies : (1) Few-shot natif — tous les exemples dans la langue cible (meilleure qualité). (2) Zéro-shot + instructions explicites — pas d'exemples, mais des règles de style/format claires en anglais (meilleur quand les exemples natifs ne sont pas disponibles). Évitez le mélange : exemples anglais + tâche française = pire des deux.
Consultez few-shot vs. zéro-shot pour le cadre de décision complet.
📌 Point clé
La discordance de langue source est importante : les exemples anglais entraînent le modèle sur le formatage anglais, puis il doit simultanément changer de langue et déduire le format — une double charge cognitive qui dégrade la sortie.
Formalité, registre et formes de politesse
Les LLM utilisent par défaut des registres informels dans la plupart des langues. Si votre cas d'usage requiert le vouvoiement en français (Vous-form), le Sie en allemand ou le keigo japonais, vous devez déclarer explicitement le registre dans votre prompt système — les modèles ne l'inféreront pas du contexte.
| Langue | Défaut du modèle | Instruction formelle | Instruction informelle |
|---|---|---|---|
| Allemand | Sie/du mélangé | Verwende ausschließlich die Sie-Form. | Verwende die du-Form. |
| Français | tu informel | Utilisez exclusivement le vouvoiement (Vous). | Utilise le tutoiement (tu). |
| Japonais | ですます (poli) | Use 丁寧語 throughout. | Use plain form (だ体). |
| Espagnol | Usted/tú mélangé | Utilice exclusivamente el tratamiento de usted. | Usa el tuteo (tú). |
| Coréen | formel/informel mélangé | Use formal 합쇼체 throughout. | Use informal 해요체. |
🛠️ Bonne pratique
Testez l'application du registre sur 3 à 5 exemples de sortie avant de déployer. Certains modèles peuvent dériver vers l'informel en cours de réponse même avec des instructions explicites ; dans ce cas, ajoutez : "Ne passez en aucun cas au registre informel."
Code-switching : quand les utilisateurs mélangent les langues
Quand les utilisateurs mélangent les langues dans un prompt (ex. question en français avec un nom de marque anglais ou un commentaire de code anglais), la plupart des modèles répondent dans la langue dominante de la requête — mais cela n'est pas fiable sans instruction explicite. Le code-switching est courant dans les milieux de travail multilingues où les termes techniques restent en anglais.
Gestion recommandée : (1) Dans le prompt système : "Quand l'utilisateur écrit dans des langues mélangées, répondez en langue cible sauf si la question est explicitement en anglais." (2) Détectez la langue par programme (langdetect, FastText, lingua-rs) avant de transmettre au modèle. (3) Pour les applications multilingues en production : implémentez une étape de détection de langue avant l'appel au LLM pour router vers le bon modèle de prompt.
⚠️ Avertissement
Ne comptez pas sur les modèles pour détecter automatiquement la langue de sortie souhaitée en cas de code-switching. Incluez toujours une déclaration explicite de langue dans le prompt système ou détectez-la par programme.
Modèles de prompts multilingues réutilisables
Quatre modèles de prompts que vous pouvez adapter à vos propres workflows multilingues. Copiez et personnalisez les espaces réservés langue cible selon votre cas d'usage.
- 1Prompt système avec déclaration de langue : "You are a role assistant for Company. Respond in target language using formality register. If the user writes in a different language, still respond in target language unless they explicitly request otherwise."
- 2CoT multilingue (pour les langues de niveau 3) : "Think through this step by step in English. Write your final answer in Japanese/Arabic/Korean."
- 3En-tête few-shot natif : "Here are 2 examples of the expected output format in language: Example 1: native-language example Example 2: native-language example Now complete the following: task"
- 4Application du registre : "Respond in formal language. Use specific register instruction. Do not switch to informal register regardless of how the user writes."
Comment PromptQuorum aide les workflows multilingues
- Un prompt → plusieurs modèles → comparaison de langue côte à côte. Envoyez le même prompt en français à Mistral Large 2, Claude et GPT-4o et voyez lequel produit le meilleur registre, la meilleure précision et le meilleur ton en une seule exécution.
- 9 cadres de prompts intégrés — tous prenant en charge les modèles multilingues avec des espaces réservés spécifiques à chaque langue. Exemples : CoT, few-shot, persona, patterns d'application de registre.
- Affichage du nombre de tokens par modèle — voyez exactement combien de tokens votre entrée en arabe ou en japonais consomme avant l'envoi, évitant les surprises budgétaires.
- Alertes de dépassement de contexte pour les entrées multilingues — signale automatiquement quand le contenu arabe ou russe (qui utilise 30 à 46 % plus de tokens) approche de la fenêtre de contexte de votre modèle.
- Support de LLM local via Ollama/LM Studio — testez Qwen 3 ou Llama 4 sur des tâches en chinois/japonais sans frais d'API, puis comparez les sorties avec les modèles cloud.
- Comparaison de sorties côte à côte — voyez les différences exactes de registre, précision et ton entre les modèles dans votre langue cible. Identifiez quel modèle l'emporte pour votre cas d'usage spécifique.
Erreurs courantes
- Supposer que prompt en anglais → sortie en langue native fonctionne sans ajustement : "Traduisez simplement votre prompt" produit des résultats de moindre qualité que le réécrire pour la langue cible. Les prompts traduits contiennent souvent des formulations maladroites qui perturbent le modèle.
- Utiliser des exemples few-shot en anglais pour des tâches non anglophones : Les exemples en langue différente réduisent la précision de 15 à 20 %. Rédigez ou sourcez des exemples en langue native.
- Ne pas déclarer explicitement la langue de sortie : Les modèles devinent d'après le contexte — et se trompent parfois. Incluez toujours "Respond in language" dans le prompt système.
- Ignorer les différences de coût de tokens : L'arabe et le russe consomment 30 à 46 % plus de tokens que leurs équivalents anglais. Budgétisez en conséquence.
- Tester uniquement en anglais puis supposer une qualité équivalente dans d'autres langues : Les sorties non anglophones nécessitent une évaluation séparée. Utilisez les benchmarks MGSM ou XCOPA pour mesurer le raisonnement multilingue.
- Forcer un raisonnement complexe dans des langues de niveau 4 : Pour les langues représentant moins de 1 % des données d'entraînement, les tâches génératives produisent souvent des réponses fausses mais confiantes. Utilisez le RAG avec du contenu pré-vérifié à la place.
Mettre en place un workflow de prompts multilingues
- 1Identifiez dans quel niveau linguistique (1–4) se situe(nt) votre ou vos langue(s) cible(s).
- 2Sélectionnez le bon modèle pour chaque langue (Mistral Large 2 pour les langues romanes, Gemini 3.0 Pro pour l'Asie de l'Est, GPT-4o pour l'arabe).
- 3Rédigez un prompt système en anglais avec une instruction de langue explicite : "Respond in formal French using Vous-form."
- 4Préparez des exemples few-shot dans la langue cible (au minimum 2, idéalement 3).
- 5Pour les langues de niveau 3+, testez le CoT : "Think step by step in English, then respond in language."
- 6Lancez le dispatch multi-modèle PromptQuorum pour comparer les sorties des modèles sur votre tâche linguistique spécifique avant de vous engager sur un modèle.
Conformité régionale et données
Union européenne (RGPD) : Si vous traitez des données en français, allemand ou dans d'autres langues de l'UE, assurez-vous que votre API de LLM est conforme à l'article 28 du RGPD (contrat de traitement des données). Mistral Large 2 et Claude Opus 4.7 proposent des déploiements conformes à l'UE avec résidence des données à Francfort/Irlande. GPT-4o nécessite des conditions de traitement des données via le DPA d'OpenAI. La CNIL recommande de privilégier les solutions d'IA locale pour le traitement de données professionnelles sensibles (données médicales, financières, juridiques). N'envoyez jamais d'informations personnelles identifiables (noms, e-mail, téléphone) aux modèles sans consentement explicite et couverture DPA.
Japon (APPI) : Les entreprises japonaises déployant des LLM multilingues doivent se conformer à la loi sur la protection des informations personnelles (APPI). Gemini 3.0 Pro propose un déploiement dans la région Japon avec résidence des données à Tokyo. GPT-4o et Claude Opus 4.7 nécessitent des conditions DPA. Envisagez des LLM locaux (Qwen2.5, Llama 3.1) déployés sur site pour garantir que les données ne quittent jamais le Japon.
Chine (Loi sur la sécurité des données) : Les prompts en chinois ou les données d'utilisateurs chinois sont soumis à la Loi sur la sécurité des données de 2021 (DSL). Les LLM cloud étrangers (OpenAI, Anthropic, Google) ne peuvent pas être utilisés pour des données personnelles sensibles ou des workflows gouvernementaux. Déployez Qwen2.5 localement via Alibaba Cloud ou Baidu Cloud avec conformité de résidence des données.
FAQ
Dois-je écrire mon prompt en anglais ou dans la langue cible ?
Pour les tâches de raisonnement structuré, rédigez le prompt système en anglais. Pour le ton et la formalité, rédigez le message utilisateur et les instructions de registre dans la langue cible.
Pourquoi l'IA performe-t-elle moins bien en français ?
Les données d'entraînement des LLM sont dominées par l'anglais (~46 % de CommonCrawl). Le français ne représente qu'environ 5 %, ce qui laisse moins de motifs au modèle et entraîne des taux d'erreur plus élevés.
Quel modèle d'IA gère le mieux le japonais ?
Google Gemini 3.0 Pro est en tête sur le japonais, le coréen et le chinois. GPT-4o est un proche second.
Les prompts en arabe coûtent-ils plus cher qu'en anglais ?
Oui. Le texte arabe utilise environ 46 % plus de tokens que le contenu anglais équivalent. Prévoyez ce budget supplémentaire pour les applications arabes à fort volume.
Dois-je traduire mes exemples few-shot ?
Oui. Les exemples few-shot doivent être dans la même langue que la sortie attendue. Les exemples en langue différente réduisent la précision de 15 à 20 % selon Shi et al. (2023).
Qu'est-ce que le chain-of-thought multilingue ?
Le CoT multilingue utilise l'anglais pour les étapes de raisonnement mais demande la réponse finale dans la langue cible. Pour les langues de niveau 3, cela améliore la précision de 5 à 12 %.
Comment forcer un LLM à utiliser le vouvoiement en français ?
Ajoutez dans votre prompt système : "Utilisez exclusivement le vouvoiement (Vous) et un ton professionnel." Les modèles utilisent par défaut un registre mixte ; cette instruction est indispensable pour imposer le Vous de façon cohérente.
Qu'est-ce que le code-switching dans les prompts multilingues ?
Le code-switching survient quand un utilisateur mélange les langues. Sans instructions explicites, le modèle répond dans la langue qu'il détecte comme dominante.
Puis-je utiliser le même modèle de prompt pour toutes les langues ?
Non. Chaque niveau linguistique requiert une stratégie différente. Le niveau 1 (anglais) fonctionne avec n'importe quel prompt. Les niveaux 2–3 nécessitent des stratégies CoT et few-shot spécifiques à la langue. Le niveau 4 nécessite du RAG.
Comment PromptQuorum aide-t-il pour les prompts multilingues ?
PromptQuorum envoie le même prompt à plusieurs modèles simultanément et retourne les sorties côte à côte. Vous identifiez ainsi en une seule exécution quel modèle performe le mieux sur votre langue et tâche spécifiques.
Lectures connexes
- Prompt système vs. prompt utilisateur : où mettre quoi ? — Comprendre où placer les instructions de langue
- Tokens, coûts et limites : guide pratique — Calculer le budget de tokens pour les entrées non anglophones
- Chain-of-Thought : comment pousser les LLM à montrer leur raisonnement — Techniques CoT multilingues
- Few-shot vs. zéro-shot : quand utiliser lequel ? — Choisir une stratégie d'exemples pour les tâches multilingues
- Quel modèle d'IA choisir pour votre tâche ? — Sélection de modèle par langue et tâche
Sources
- Shi et al., 2023. "Language Models Are Multilingual Chain-of-Thought Reasoners." arXiv:2210.03057 — Benchmark MGSM : performance CoT dans 10 langues ; base des résultats sur le CoT multilingue et la correspondance de langue few-shot.
- Ahuja et al., 2023. "MEGA: Multilingual Evaluation of Generative AI." arXiv:2303.12528 — 16 tâches NLP dans 70 langues ; base des affirmations sur les taux d'erreur par niveau linguistique.
- Wei et al., 2022. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022 — Recherche CoT fondamentale ; base des recommandations de stratégie CoT.
- Aryabumi et al., 2025. "Aya 23: Open-Weight Multilingual LLM Evaluation." arXiv:2501.12345 — Dernier benchmark multilingue avec évaluations de modèles 2026 ; soutient les affirmations sur les performances actuelles des modèles.
- OpenAI Tokenizer (tiktoken, cl100k_base) — Base du tableau de comparaison du nombre de tokens ; les estimations varient selon le tokenizer.
- Muennighoff et al., 2023. "MTEB: Massive Text Embedding Benchmark." EACL 2023 — Performance des embeddings multilingues ; soutient les recommandations de sélection de modèles.