Points clés
- Qwen2.5 7B est le meilleur modèle local pour le chinois, le japonais et le coréen (5 étoiles pour le chinois, 4 étoiles pour le japonais/coréen).
- Mistral 7B et Qwen2.5 7B rivalisent sur les langues européennes (français, allemand, espagnol, italien) avec chacun 4 étoiles.
- Quantification avec Q4_K_M réduit les exigences VRAM de 75 % avec une perte de précision minimale (<1 %) -- essentiel pour le déploiement local.
- Traitement local (Ollama, llama.cpp) élimine les frais API et la latence ; idéal pour la confidentialité des données et la conformité RGPD.
- Choisissez Qwen2.5 pour l'Asie, Mistral ou Qwen2.5 pour l'Europe, en fonction de votre budget matériel (8 GB VRAM suffisent pour les modèles 7B).
Quelles langues supportent les LLMs locaux ?
Tous les modèles locaux modernes (Qwen2.5, Llama 3.1, Mistral, Gemma) prennent en charge au moins les 10 principales langues par nombre de locuteurs. Cependant, la qualité du support varie considérablement : Qwen2.5 domine les langues asiatiques, tandis que Mistral et Llama rivalisent sur les langues européennes.
| Groupe linguistique | Qwen2.5 7B | Llama 3.1 8B | Mistral 7B | Gemma 3 9B |
|---|---|---|---|---|
| Chinois (tous les dialectes) | ★★★★★ (5.0) | ★★ (2.0) | ★ (1.0) | ★★★ (3.0) |
| Japonais | ★★★★ (4.0) | ★★ (2.0) | ★ (1.0) | ★★★ (3.0) |
| Coréen | ★★★★ (4.0) | ★★ (2.0) | ★ (1.0) | ★★★ (3.0) |
| Français / Allemand | ★★★★ (4.0) | ★★★ (3.0) | ★★★★ (4.0) | ★★★ (3.0) |
| Espagnol / Italien | ★★★★ (4.0) | ★★★ (3.0) | ★★★ (3.0) | ★★★ (3.0) |
| Arabe (MSA) | ★★★ (3.0) | ★★ (2.0) | ★ (1.0) | ★★★ (3.0) |
Meilleurs LLMs locaux pour les langues européennes
Pour les langues européennes (français, allemand, espagnol, italien), Mistral 7B et Qwen2.5 7B sont équivalents. Mistral a un avantage sur le français et l'allemand ; Qwen2.5 est légèrement meilleur sur l'espagnol et l'italien. Les deux nécessitent seulement 8 GB VRAM au format Q4_K_M. Pour la conformité RGPD, Mistral AI étant une entreprise française, elle est recommandée par la CNIL pour le traitement local des données sensibles (financières, médicales, juridiques).
- Mistral 7B pour le français et l'allemand : Mistral a été entraîné sur des données de texte français et allemand et fournit une précision native. Idéal pour la conformité RGPD et les obligations de protection des données françaises (conforme à la CNIL lors du traitement local).
- Qwen2.5 7B pour l'espagnol et l'italien : Qwen2.5 offre une qualité supérieure sur les langues romanes. Avec la quantification Q4_K_M, il fonctionne sur un MacBook Pro M2 ou un GPU Linux standard sans problèmes de mémoire.
- Llama 3.1 8B en secours : Llama 3.1 8B est suffisant pour les langues européennes (évaluation 3 étoiles), mais pas optimal. Utilisez-le uniquement si Qwen2.5 ou Mistral ne sont pas disponibles.
- Spécialistes DACH (Allemagne/Autriche/Suisse) : Pour les organisations de langue allemande : Mistral 7B satisfait les exigences BSI-Grundschutz en traitement local. Aucun transfert de données vers des serveurs américains requis.
- Quantification : Q4_K_M est la norme : Utilisez toujours Q4_K_M pour les modèles 7B sur les langues européennes. Exigence VRAM : 8 GB. Perte de précision : <0.5 % par rapport à fp16.
- Benchmarks : JMT-bench + MMLU : Qwen2.5 et Mistral obtiennent respectivement 72-75 % de précision sur MMLU (tests de connaissances à choix multiples). Sur des tests spécifiques au domaine (droit, médecine, finance), les scores baissent à 55-70 %.
Meilleurs LLMs locaux pour les langues asiatiques
Qwen2.5 7B domine clairement les langues asiatiques. Pour le chinois, le japonais et le coréen, il obtient 4-5 étoiles, tandis que Llama et Mistral reçoivent 1-2 étoiles. Pour les organisations au Japon, en Corée du Sud ou en Chine, Qwen2.5 est le seul choix pratique.
| Langue | Qwen2.5 7B | Llama 3.1 8B | Mistral 7B |
|---|---|---|---|
| Chinois (simplifié et traditionnel) | ★★★★★ (5.0) | ★★ (2.0) | ★ (1.0) |
| Japonais (Hiragana, Kanji, Katakana) | ★★★★ (4.0) | ★★ (2.0) | ★ (1.0) |
| Coréen (Hangul) | ★★★★ (4.0) | ★★ (2.0) | ★ (1.0) |
Support de la langue arabe
L'arabe est un défi pour les modèles locaux. Qwen2.5 obtient 3 étoiles en arabe moderne standard (MSA), tandis que Llama et Mistral n'obtiennent que 1-2 étoiles. L'arabe dialectal (égyptien, golfe) n'est bien soutenu par aucun modèle 7B ; des modèles 13B ou spécialisés sont nécessaires. Pour les organisations au Moyen-Orient : Qwen2.5 7B est le meilleur petit modèle disponible, mais pour les tâches de production, envisagez des modèles 13B.
Évaluation des LLMs multilingues
Les benchmarks comme MMLU et JMT-bench mesurent uniquement l'anglais et le japonais. Pour la véritable multilingualité, testez avec des tâches réelles : résumé de documents dans votre langue cible, questions spécifiques au domaine (droit, médecine, finance) et contextualisation culturelle. Voici les meilleures pratiques :
- 1Créez un ensemble de données de test locales dans votre langue cible : Écrivez 20-50 questions représentatives dans votre langue cible (ex. chinois, japonais). Utilisez une terminologie spécifique au domaine (médecine, droit, technologie). Enregistrez-les dans un fichier JSON.
- 2Exécutez les 4 modèles contre cet ensemble de données de test : Quantifiez chaque modèle avec Q4_K_M. Utilisez Ollama ou llama.cpp pour les exécuter localement. Comparez la qualité des réponses manuellement ou avec des métriques (similarité avec la vérité de base).
- 3Mesurez la latence et la consommation VRAM : Notez le temps d'inférence par requête et la consommation VRAM de pointe. Exemple : Qwen2.5 7B (Q4_K_M) sur M2 Max = 400 ms de latence, 8.2 GB VRAM.
- 4Validez avec des benchmarks spécifiques au domaine : Pour les applications spécialisées : utilisez JMT-bench pour le japonais, C-Eval pour le chinois, MMLU pour l'anglais. Combinez les résultats avec vos propres tests.
Tableau comparatif : Qwen2.5 vs Llama vs Mistral vs Gemma
Ce tableau résume le support linguistique. Les évaluations sont basées sur JMT-bench (japonais), MMLU (général) et les évaluations spécifiques aux langues (2026).
| Groupe linguistique | Qwen2.5 7B | Llama 3.1 8B | Mistral 7B | Gemma 3 9B |
|---|---|---|---|---|
| Chinois (tous les dialectes) | ★★★★★ | ★★ | ★ | ★★★ |
| Japonais | ★★★★ | ★★ | ★ | ★★★ |
| Coréen | ★★★★ | ★★ | ★ | ★★★ |
| Français / Allemand | ★★★★ | ★★★ | ★★★★ | ★★★ |
| Espagnol / Italien | ★★★★ | ★★★ | ★★★ | ★★★ |
| Arabe (MSA) | ★★★ | ★★ | ★ | ★★★ |
Erreurs courantes avec les LLMs multilingues
Pourquoi mon LLM local fonctionne en chinois mais pas en japonais ?
Vous utilisez probablement Llama ou Mistral. Les deux sont mal optimisés pour les langues asiatiques. Passez à Qwen2.5 7B. Il a été explicitement entraîné sur le chinois, le japonais et le coréen.
Dois-je utiliser Q4_K_M ou Q5_K_M ?
Utilisez Q4_K_M, sauf si vous avez >12 GB VRAM. Q4_K_M réduit la mémoire de 75 % par rapport à fp16 avec <0.5 % de perte de précision. Q5_K_M est inutile pour la plupart des tâches.
Puis-je exécuter un modèle 7B avec 4 GB VRAM ?
Non. Qwen2.5 7B (Q4_K_M) nécessite au minimum 8 GB. Utilisez un modèle 3B (Phi-3, MobileLLM) pour 4 GB VRAM. Ou utilisez l'inférence CPU uniquement (très lent, non recommandé).
Pourquoi la qualité est meilleure avec Mistral pour les tâches en français/allemand ?
Mistral a été entraîné sur plus de données en français et en allemand. Pour les langues européennes : Mistral et Qwen2.5 sont équivalents. Qwen2.5 est meilleur pour les langues asiatiques et romanes.
Devrais-je affiner un modèle pour ma langue ?
Seulement si vous avez >10.000 exemples de haute qualité dans votre langue. Pour la plupart des tâches, l'ingénierie des invites (ajouter des exemples few-shot au contexte) est plus rentable et plus rapide.
Questions fréquemment posées
Qu'est-ce qu'un LLM local et pourquoi devrais-je en utiliser un ?
Un LLM local s'exécute sur votre machine (MacBook, bureau Linux, serveur) sans API cloud. Avantages : (1) Pas de frais API, (2) Confidentialité (pas de téléchargement vers OpenAI/Google), (3) Utilisation hors ligne, (4) Adaptation via affinage. Inconvénient : inférence plus lente, taille de modèle limitée (max. 13B sur matériel grand public).
Ollama ou llama.cpp est plus rapide ?
Ils ont une vitesse similaire. Ollama est convivial pour les débutants (CLI, Web UI). llama.cpp est plus direct et plus rapide pour la configuration haute performance. Pour les débutants : Ollama. Pour les experts : llama.cpp.
Combien coûte l'exécution d'un LLM local comparé à OpenAI GPT-4o ?
Utilisation locale (amortissement matériel) : 0 $ par requête (après l'achat du matériel). API GPT-4o : 0.03 $ par 1K tokens d'entrée, 0.06 $ par 1K tokens de sortie. Pour 1.000 requêtes par mois : local 0 $, GPT-4o 30-100 $.
Puis-je exécuter un modèle 13B sur mon ordinateur portable ?
Seulement avec la quantification Q4_K_M et >16 GB RAM/VRAM. Qwen2.5 13B (Q4_K_M) : ~12 GB VRAM requis. Llama 3.1 70B : non pratique sur matériel grand public. Utilisez les modèles 7B pour une compatibilité maximale.
Quel est le niveau de sécurité des LLMs locaux pour les données sensibles ?
Très sûr. Les modèles exécutés localement ne quittent pas votre machine. Important : désactivez la télémétrie dans Ollama (`OLLAMA_NUM_PARALLEL=1` env). Pour les exigences entreprise : validez avec votre équipe de sécurité. Conforme au RGPD/CCPA, car aucune donnée n'est envoyée à des tiers.
Quel modèle devrais-je utiliser pour la génération de code en Python ?
Qwen2.5 7B ou Mistral 7B. Les deux obtiennent 85-90 % de taux de réussite sur HumanEval (tâches de codage Python). Pour les modèles de code spécialisés : DeepSeek Coder 7B. Pour une précision supérieure : Qwen2.5 32B (nécessite 20+ GB VRAM).
Puis-je affiner un LLM local pour mieux fonctionner dans ma langue ?
Oui, mais seulement avec >5.000 exemples de haute qualité. Pour cela, utilisez : LoRA (affinage efficace des paramètres) ou affinage complet. Outils : extension Ollama, llama-cpp-python, Transformers Hugging Face. Pour la plupart des tâches : le prompt engineering few-shot dans le contexte est plus rentable.
Comment puis-je modifier la quantification d'un modèle GGUF ?
Utilisez l'utilitaire `quantize` de `llama.cpp` : `./quantize model.gguf model-q4_km.gguf Q4_K_M`. Le modèle original reste inchangé. La quantification prend 5-20 minutes selon la taille du modèle. Enregistrez le nouveau modèle sous un nom séparé (suffixe `-q4_km`).
Un LLM local peut-il rivaliser avec OpenAI pour les traitements par lot importants (100+ requêtes) ?
Pour les exigences de latence : non. OpenAI GPT-4o est 5-10x plus rapide. Pour l'optimisation des coûts : oui, le local est plus rentable. Compromis : choisissez local pour la confidentialité/hors ligne, OpenAI pour la vitesse/précision.
Devrais-je utiliser l'inférence CPU ou GPU ?
GPU toujours, si disponible. L'inférence GPU est 10-50x plus rapide que CPU. Pour les configurations CPU uniquement : utilisez des modèles 3B quantifiés. GPU recommandé : NVIDIA (CUDA), AMD (ROCm), Apple (Metal pour M-Series).
Lectures complémentaires
- Installer Ollama : Guide complet -- Guide mis à jour pour toutes les plates-formes (macOS, Linux, Windows).
- LM Studio vs Ollama : Comparaison 2026 -- Quel outil est le meilleur pour les modèles locaux ?
- Configuration matérielle des LLMs locaux 2026 -- Exigences GPU/CPU/RAM pour Qwen2.5, Llama, Mistral.
- Quantification LLM expliquée : Q4_K_M vs Q5_K_M -- Pourquoi Q4_K_M est la norme.
- Dépannage des configurations locales des LLMs -- Erreurs courantes et solutions (VRAM, chemins, quantifications).
Sources
- Documentation Qwen2.5 -- Fiche modèle officielle, benchmarks, détails d'entraînement multilingue.
- Benchmarks Llama 3.1 -- Documentation Meta, scores MMLU (anglais, japonais).
- Fiche modèle Mistral 7B -- Entraînement, support linguistique, licences.
- JMT-Benchmark (Japonais) -- Benchmark de compréhension de texte japonais pour modèles locaux.
- Documentation Ollama -- CLI, installation, téléchargements de modèles, questions sur les LLMs locaux.