Points clés
- Qwen3 8B est le meilleur choix pratique : fonctionne avec 8 Go de VRAM via Ollama (`ollama run qwen3:8b`), sortie solide en portugais brésilien
- Qwen3 14B / 32B pour une qualité supérieure si vous disposez de 16 Go+ de VRAM (`ollama run qwen3:14b` / `ollama run qwen3:32b`)
- Llama 3.1 8B est compétitif pour le portugais et natif Ollama (`ollama run llama3.1:8b`)
- Sabiá-3 (Maritaca AI) atteint une qualité en portugais proche de GPT-4o, mais n'est PAS sur Ollama — téléchargement HuggingFace requis
- Testez vous-même la qualité PT-BR : rédigez le prompt en PT-BR, vérifiez l'usage de você/tu, le vocabulaire et la grammaire
- Évitez les modèles entraînés principalement en anglais pour un usage en production orienté PT
Pourquoi le choix du modèle compte pour le portugais brésilien
Le choix du modèle a un impact démesuré sur la qualité de la sortie en portugais brésilien. Les modèles entraînés principalement sur des données anglaises produisent des erreurs grammaticales, du vocabulaire du portugais européen (ficheiro au lieu d'arquivo, ecrã au lieu de tela) et des formes pronominales erronées (tu au lieu de você comme pronom sujet standard en portugais brésilien).
Trois facteurs déterminent la qualité PT-BR : le volume de texte portugais dans les données d'entraînement, l'efficacité de la tokenisation pour le vocabulaire portugais et le fait que le modèle ait été affiné sur des instructions en portugais. Les modèles comportant moins de 5 % de données d'entraînement en portugais produisent généralement une sortie rigide qui sonne comme une traduction.
Qwen3 a été entraîné sur environ 36 billions de tokens dans 119 langues, ce qui lui confère une solide couverture multilingue. Sabiá-3 de Maritaca AI a été conçu spécifiquement pour le portugais et atteint des performances proches de GPT-4o sur les tâches en portugais.
📍 En une phrase
Pour le portugais brésilien, choisissez un modèle avec des données d'entraînement multilingues documentées — Qwen3, Llama 3.1 ou Sabiá-3 — afin d'éviter le vocabulaire du portugais européen et les formes pronominales incorrectes.
💬 En termes simples
Le portugais possède deux variantes principales : le portugais brésilien (PT-BR) et le portugais européen (PT-PT). Ils diffèrent par le vocabulaire, la grammaire et l'usage des pronoms. "Você" est standard au Brésil ; "tu" est plus courant au Portugal. "Arquivo" (fichier) et "tela" (écran) sont brésiliens ; "ficheiro" et "ecrã" sont européens. Un modèle qui utilise par défaut le portugais européen paraît peu naturel aux utilisateurs brésiliens et peut entraîner des erreurs dans les documents professionnels.
Meilleurs LLM locaux pour le portugais brésilien 2026
Les modèles ci-dessous sont classés selon une combinaison de qualité de sortie en portugais brésilien, d'efficacité VRAM et de facilité d'installation. Tous les modèles compatibles Ollama peuvent être téléchargés et exécutés avec une seule commande.
| Modèle | Taille | VRAM (Q4) | Qualité PT-BR | Sur Ollama ? | Idéal pour |
|---|---|---|---|---|---|
| Qwen3 8B | 8B | ~7 Go | Très bonne | Oui (ollama run qwen3:8b) | Meilleur choix PT local polyvalent |
| Qwen3 14B | 14B | ~9 Go | Excellente | Oui (ollama run qwen3:14b) | Qualité supérieure, plus de nuances |
| Qwen3 32B | 32B | ~20 Go | Excellente+ | Oui (ollama run qwen3:32b) | Meilleure qualité avec 24 Go de VRAM |
| Llama 3.1 8B | 8B | ~7 Go | Bonne | Oui (ollama run llama3.1:8b) | PT général, compétitif |
| Gemma 3 27B | 27B | ~18 Go | Bonne | Oui (ollama run gemma3:27b) | Large prise en charge des langues (plus de 35) |
| Sabiá-3 | ~7B | ~7 Go | Proche de GPT-4o | Non (HuggingFace uniquement) | Meilleure qualité PT, plus difficile à exécuter |
Sabiá-3 n'est PAS disponible sur Ollama. Il doit être téléchargé depuis HuggingFace (https://huggingface.co/maritaca-ai) et exécuté avec llama.cpp ou LM Studio. Tous les autres modèles peuvent être installés avec une seule commande ollama pull.
Guide VRAM pour les utilisateurs de portugais brésilien
Votre VRAM disponible détermine les modèles que vous pouvez exécuter. Toutes les recommandations supposent une quantification Q4_K_M via Ollama ou llama.cpp.
- 8 Go de VRAM / 16 Go de RAM : Qwen3 8B (~7 Go), Llama 3.1 8B (~7 Go), Sabiá-3 (~7 Go via llama.cpp avec téléchargement GGUF)
- 12 Go de VRAM : Tous les modèles 8B confortablement ; Qwen3 14B en Q4_K_M (~9 Go)
- 16 Go de VRAM : Qwen3 14B avec de la marge ; Gemma 3 12B
- 24 Go de VRAM : Qwen3 32B (~20 Go), Gemma 3 27B (~18 Go)
- CPU uniquement (16 Go de RAM) : Qwen3 8B à environ 2–4 tokens/s via Ollama ; utilisable pour des tâches par lots, lent pour le chat interactif
Comment exécuter Sabiá-3 (pas sur Ollama)
Sabiá-3 est développé par Maritaca AI, une entreprise brésilienne spécialisée dans les modèles de langue portugaise. Il atteint des performances proches de GPT-4o sur les tâches en portugais et constitue le modèle à poids ouverts le plus performant pour le portugais brésilien.
Sabiá-3 n'est pas disponible dans la bibliothèque de modèles d'Ollama. Pour l'exécuter en local, téléchargez les fichiers GGUF depuis la page HuggingFace de Maritaca AI à l'adresse https://huggingface.co/maritaca-ai et exécutez-les avec llama.cpp ou LM Studio. LM Studio prend en charge le chargement direct de GGUF depuis HuggingFace avec une interface de recherche intégrée — recherchez "maritaca" dans le navigateur de modèles de LM Studio.
La première génération de Sabiá (Sabiá-7B et Sabiá-65B) reposait sur l'architecture Llama. Sabiá-3 perpétue cette tradition d'affinage axé sur le portugais sur un modèle de base solide.
- Chemin de téléchargement : https://huggingface.co/maritaca-ai
- Exécuter avec : llama.cpp (CLI) ou LM Studio (GUI, recommandé pour les débutants)
- Besoin en VRAM : environ 7 Go en quantification Q4
- Remarque : aucune commande `ollama run sabia` n'existe — Sabiá n'est pas dans la bibliothèque Ollama
Comment tester la qualité du portugais brésilien
Il n'existe pas de benchmark standardisé unique pour le portugais brésilien équivalent aux benchmarks anglais. PoETa v2 est un benchmark d'évaluation en portugais, mais le contrôle de qualité le plus fiable est le test pratique avec de vraies tâches en PT-BR.
Signes d'une mauvaise sortie PT-BR : utilisation de "tu" comme pronom sujet (convention du portugais européen), utilisation de "ficheiro" au lieu d'"arquivo", utilisation d'"ecrã" au lieu de "tela", formulations maladroites qui sonnent comme une traduction de l'anglais, conjugaisons verbales incorrectes.
- Test d'e-mail professionnel : Demandez au modèle de rédiger un e-mail professionnel formel en "português formal do Brasil" — vérifiez la forme você, "Prezado/a", le vocabulaire commercial brésilien
- Vérification du vocabulaire : Demandez "Como se chama um arquivo de computador em português do Brasil?" — un bon modèle répond "arquivo" ; un modèle mal réglé peut répondre "ficheiro"
- Forme pronominale : Rédigez le prompt avec "Como você está?" — vérifiez que les réponses suivantes utilisent "você" de manière cohérente, et non "tu"
- Registre juridique/formel : Demandez une brève clause contractuelle en PT-BR — vérifiez les formes correctes du subjonctif et le vocabulaire juridique brésilien
- Conscience régionale : Demandez "Qual é a diferença entre português do Brasil e português de Portugal?" — le modèle doit donner des distinctions précises et assurées
FAQ
Quel est le meilleur LLM local pour le portugais brésilien en 2026 ?
Qwen3 8B est le meilleur choix pratique : fonctionne avec 8 Go de VRAM via Ollama, entraîné sur 36 billions de tokens dans 119 langues. Pour une qualité PT-BR maximale, Sabiá-3 de Maritaca AI se rapproche des performances de GPT-4o, mais nécessite un téléchargement depuis HuggingFace.
Puis-je exécuter des LLM locaux sur un ordinateur portable standard ?
Oui. La plupart des ordinateurs portables modernes dotés de 16 Go de RAM peuvent exécuter Qwen3 8B via Ollama à 2–4 tokens/s sur CPU uniquement. Avec un GPU dédié (8 Go de VRAM), la vitesse augmente à 15–20 tokens/s.
Qu'est-ce que Sabiá et où puis-je le télécharger ?
Sabiá-3 est un modèle spécialisé en portugais de Maritaca AI, une entreprise brésilienne. Téléchargez les fichiers GGUF depuis https://huggingface.co/maritaca-ai et exécutez-les avec llama.cpp ou LM Studio. Il n'est pas disponible dans la bibliothèque Ollama.
Qwen3 comprend-il le portugais brésilien différemment du portugais européen ?
Qwen3 gère les deux variantes. Lorsqu'il reçoit un prompt en PT-BR (avec "você" et le vocabulaire brésilien), il répond en PT-BR. Indiquez explicitement la variante souhaitée pour de meilleurs résultats.
Llama 3.1 est-il bon pour le portugais ?
Oui, Llama 3.1 8B figure parmi les trois meilleurs modèles locaux pour le portugais en 2026. Il est disponible via Ollama et produit une bonne sortie PT-BR pour un usage général.
Comment installer Ollama pour un usage en portugais brésilien ?
Installez Ollama depuis ollama.com (même procédure pour toutes les langues), puis exécutez : ollama run qwen3:8b. Consultez le guide d'installation complet d'Ollama sur /fr/local-llms/how-to-install-ollama.
L'utilisation d'un LLM local aide-t-elle à la conformité LGPD ?
Oui. Exécuter des LLM en local signifie que les données restent sur votre propre infrastructure et ne sont pas envoyées à des fournisseurs cloud tiers, ce qui simplifie la conformité LGPD. Consultez l'article complémentaire sur la LGPD pour plus de détails.
Quel benchmark teste les LLM en portugais ?
PoETa v2 est un benchmark d'évaluation en portugais. Pour un usage pratique, les tests manuels avec de vraies tâches en PT-BR constituent le contrôle de qualité le plus fiable, car il n'existe pas de benchmark standardisé unique pour le portugais brésilien équivalent aux benchmarks anglais.
Qwen3 peut-il gérer la rédaction commerciale formelle en portugais brésilien ?
Oui. Rédigez le prompt avec "escreva em português formal do Brasil" ou "português brasileiro formal" pour obtenir une sortie commerciale formelle et cohérente en forme você.
Qu'est-ce que Tucano ?
Tucano est un modèle de langue portugaise à poids ouverts de C4AI-USP (Université de São Paulo). Il est conçu spécifiquement pour le portugais et est efficace dans les environnements à ressources limitées. Disponible sur HuggingFace.
Lectures complémentaires
- Conformité LGPD avec les LLM locaux (Brésil 2026) — Comment les LLM locaux simplifient la conformité des données LGPD
- Meilleurs LLM locaux pour le portugais brésilien — Versão em Português
- LLM locaux multilingues — Guide pour exécuter des LLM dans plusieurs langues
- Que sont les LLM locaux ?
- Comment installer Ollama
- Meilleurs LLM locaux 2026
- Conformité LGPD — Version portugaise
Sources
- SiliconFlow (2026). "Best Open-Source LLM for Portuguese Language Tasks." — Top 3 des modèles pour le portugais, dont Qwen3 et Llama 3.1 8B
- Maritaca AI. "Sabiá-3 Model Card." HuggingFace — https://huggingface.co/maritaca-ai
- Qwen Team (2024). "Qwen Technical Report." arXiv — Données d'entraînement de Qwen3 : 36 billions de tokens, 119 langues
- PoETa v2 benchmark — Boîte à outils d'évaluation de la langue portugaise pour les LLM
- C4AI-USP. "Tucano: Open-weight Portuguese LLM." HuggingFace