Key Takeaways
- Mejor familia multilingue: Qwen2.5 -- 29 idiomas nativos, las puntuaciones de benchmark más altas en idiomas no ingleses en cada tamaño de modelo.
- Idiomas europeos (alemán, francés, español, italiano): Mistral y Llama 3.x son competitivos con Qwen2.5 para idiomas de la UE; Qwen2.5 sigue liderando en tareas de registro formal y código mixto.
- Japonés y coreano: Qwen2.5 es significativamente más fuerte -- 15-25% mejor en benchmarks específicos de idioma que Llama 3.x en el mismo tamaño.
- Chino (simplificado y tradicional): Qwen2.5 es el modelo dominante -- entrenado con el mayor corpus chino de cualquier modelo de pesos abiertos.
- A partir de abril de 2026, ningún modelo ejecutable localmente iguala la calidad de GPT-4o o Claude Opus 4.7 en japonés o coreano para tareas complejas. Qwen2.5 es la mejor opción disponible localmente.
¿Qué LLM locales admiten realmente varios idiomas?
"Admitir" un idioma significa más que generar texto en ese idioma. El soporte multilingue real requiere: datos de entrenamiento en el idioma (no solo traducción), tokenización optimizada para el script del idioma, y ajuste fino en el seguimiento de instrucciones en ese idioma.
Los modelos que afirman soporte multilingue pero fueron entrenados principalmente en inglés producen salidas de menor calidad en otros idiomas -- errores gramaticales, inconsistencias culturales y menor precisión en el seguimiento de instrucciones. A partir de abril de 2026, solo Qwen2.5 ofrece soporte de calidad nativa genuina para idiomas asiáticos de forma local.
| Familia de modelo | Idiomas nativos | Soporte asiático fuerte | Soporte europeo fuerte | Soporte árabe |
|---|---|---|---|---|
| Qwen2.5 | 29 | Sí | Sí | Sí |
| Llama 3.x | 8 | Limitado | Bueno | Limitado |
| Mistral | 5 | No | Bueno | Limitado |
| Gemma 3 | 35+ | Moderado | Bueno | Moderado |
| Phi-4 | ~10 | Limitado | Moderado | Limitado |
¿Qué LLM locales funcionan mejor para idiomas europeos?
Para alemán, francés, español, italiano, portugués, neerlandés y polaco -- Qwen2.5, Mistral y Llama 3.x producen resultados aceptables. Mistral tiene una fortaleza particular en francés porque Mistral AI es una empresa francesa con énfasis en datos de entrenamiento en francés. A partir de abril de 2026, los benchmarks en alemán muestran que Qwen2.5 7B supera a Mistral 7B en un 8-12% en tareas de seguimiento de instrucciones en alemán.
Para casos de uso sensibles al GDPR en la UE, ejecutar un modelo local (de cualquier familia) es preferible a las APIs en la nube por razones de residencia de datos. Las empresas alemanas que usan IA bajo el Reglamento de IA de la UE (vigente desde febrero de 2025) se benefician de la inferencia local para aplicaciones de IA de alto riesgo. Mistral AI, al ser una empresa de la UE, es preferida por algunas organizaciones europeas por razones de gobernanza independientemente del benchmark.
- Alemán: Qwen2.5 7B lidera en seguimiento de instrucciones; Mistral 7B competitivo en texto formal.
- Francés: Mistral 7B es competitivo con Qwen2.5 7B; ambos muy por encima de Llama 3.1 8B.
- Español, italiano, portugués: Qwen2.5 7B ligeramente adelante; Llama 3.1 8B competitivo.
- Polaco, checo, rumano: Qwen2.5 7B lidera; caída de calidad significativa para Mistral 7B.
¿Qué LLM locales funcionan mejor para japonés, coreano y chino?
Qwen2.5 domina el rendimiento en idiomas asiáticos. La familia de modelos fue desarrollada por Alibaba con datos masivos de entrenamiento en chino y ajuste fino multilingue explícito para japonés y coreano.
Para japonés: Qwen2.5 7B puntúa 15-20% más alto que Llama 3.1 8B en JMT-bench (benchmark de seguimiento de instrucciones en japonés). Para coreano: Qwen2.5 supera a las alternativas por márgenes similares. Para chino (simplificado): Qwen2.5 está en una clase propia entre los modelos ejecutables localmente.
A partir de abril de 2026, el METI de Japón (Ministerio de Economía, Comercio e Industria) ha estado promoviendo el desarrollo doméstico de IA, y algunas empresas japonesas prefieren modelos desplegados localmente por soberanía de datos. Qwen2.5 es la opción práctica para la inferencia local en japonés.
| Idioma | Mejor modelo | Segundo mejor | Notas |
|---|---|---|---|
| Chino (simplificado) | Qwen2.5 (cualquier tamaño) | Gemma 3 | Qwen2.5 domina -- mayor corpus de entrenamiento en chino |
| Japonés | Qwen2.5 7B+ | Gemma 3 9B | Diferencia del 15-20% sobre Llama en JMT-bench |
| Coreano | Qwen2.5 7B+ | Gemma 3 9B | Qwen2.5 significativamente más fuerte |
| Chino tradicional | Qwen2.5 | Llama 3.1 8B | Qwen2.5 entrenado en simplificado y tradicional |
¿Qué LLM locales funcionan mejor para el árabe?
El árabe presenta un desafío único por su escritura de derecha a izquierda, su complejidad morfológica y la gran cantidad de dialectos (árabe estándar moderno vs. egipcio, del Golfo, levantino). A partir de abril de 2026, Qwen2.5 y Gemma 3 son los modelos árabes ejecutables localmente más potentes.
Para el seguimiento de instrucciones en MSA (árabe estándar moderno), Qwen2.5 14B y versiones más grandes producen calidad aceptable. Para el árabe dialectal, todos los modelos locales rinden significativamente peor que los modelos en la nube como GPT-4o, que tiene mayor cobertura de dialectos árabes.
¿Cómo evaluar la calidad multilingue en LLM locales?
Los benchmarks estándar (MMLU, HumanEval) son solo en inglés. Para evaluar la calidad multilingue, usa estos enfoques:
- 1Ejecuta MGSM (Multilingual Grade School Math) -- prueba el razonamiento matemático en 10 idiomas. Disponible en Hugging Face: datasets/juletxara/mgsm.
- 2Ejecuta m-MMLU -- la versión multilingue de MMLU que cubre 57 materias en varios idiomas.
- 3Para calidad conversacional: escribe 10 prompts de prueba en tu idioma objetivo que abarquen distintos tipos de tarea (resumen, preguntas y respuestas, traducción, escritura creativa). Evalúa las respuestas manualmente o con un hablante nativo.
- 4Para japonés específicamente: usa JMT-bench (github.com/Stability-AI/lm-evaluation-harness), que cubre el seguimiento de instrucciones en japonés.
- 5Compara tu modelo local con APIs en la nube usando PromptQuorum -- envía el mismo prompt multilingue a tu modelo Ollama local y a GPT-4o simultáneamente para cuantificar la diferencia de calidad en tu caso de uso específico.
Comparativa de LLM locales multilingues: Qwen2.5 vs Llama 3.x vs Mistral vs Gemma 3
| Grupo de idioma | Qwen2.5 7B | Llama 3.1 8B | Mistral 7B | Gemma 3 9B |
|---|---|---|---|---|
| Chino (cualquier dialecto) | ★★★★★ | ★★ | ★ | ★★★ |
| Japonés | ★★★★ | ★★ | ★ | ★★★ |
| Coreano | ★★★★ | ★★ | ★ | ★★★ |
| Francés / Alemán | ★★★★ | ★★★ | ★★★★ | ★★★ |
| Español / Italiano | ★★★★ | ★★★ | ★★★ | ★★★ |
| Árabe (MSA) | ★★★ | ★★ | ★ | ★★★ |
¿Cuáles son los errores comunes al usar LLM locales multilingues?
Usar un modelo con primacía en inglés para tareas en japonés o chino
Llama 3.1 8B y Mistral 7B producen salidas en japonés y chino gramaticalmente plausibles pero semánticamente inconsistentes. Los errores no son evidentes sin conocimiento nativo del idioma. Para tareas en japonés o chino, usa siempre Qwen2.5 -- la diferencia de calidad es significativa y medible.
Escribir los prompts en inglés cuando la tarea es en otro idioma
Los modelos locales con soporte multilingue nativo producen mejores resultados cuando el prompt de sistema, las instrucciones del usuario y el contenido están todos en el mismo idioma objetivo. Mezclar instrucciones en inglés con contenido en chino produce salidas de menor calidad que un prompt completamente en chino. Escribe los prompts de sistema en el idioma objetivo para obtener los mejores resultados.
Asumir que la misma etiqueta de modelo maneja todos los scripts igual
La eficiencia de tokenización varía según el script. Los scripts latinos usan ~3-4 caracteres por token; los caracteres chinos suelen ser 1 carácter por token. Un "contexto de 4K" significa cantidades diferentes de contenido según el idioma. Un contexto de 4096 tokens contiene aproximadamente 3.000 palabras en inglés pero solo unas 2.000 caracteres chinos -- planifica las longitudes de contexto en consecuencia.
Preguntas frecuentes sobre LLM locales multilingues
¿Puedo ejecutar localmente un modelo ajustado solo para japonés?
Sí -- la comunidad de IA japonesa mantiene varios ajustes finos específicos para japonés de modelos Qwen2.5 y Llama en Hugging Face. Busca "Japanese instruct GGUF" en Hugging Face para ver las opciones actuales. Cárgalos en LM Studio o mediante `ollama create` con un Modelfile personalizado.
¿La capacidad multilingue reduce la calidad en inglés?
No de manera significativa para Qwen2.5. Los benchmarks muestran que Qwen2.5 7B puntúa 74% en MMLU en inglés -- comparable a Llama 3.1 8B con 73%. El entrenamiento multilingue no degrada de forma significativa el rendimiento en inglés en este tamaño de modelo.
¿Qué modelo es mejor para tareas de traducción de forma local?
Qwen2.5 14B o superior para traducción de alta calidad entre inglés, chino, japonés y coreano. Para traducción entre idiomas europeos, Mistral Small 3.1 24B produce resultados fiables. Para cargas de trabajo de traducción en producción a escala, las APIs en la nube (DeepL, Google Translate) siguen superando a los modelos ejecutables localmente para la mayoría de los pares de idiomas.
¿Cómo configuro el idioma en Ollama?
Escribe tu prompt en el idioma objetivo. No se necesita ningún parámetro de idioma especial -- el modelo detecta el idioma de entrada. Para obtener salidas consistentes en un idioma específico, añade un prompt de sistema: "Eres un asistente útil. Responde siempre en español." Usa el parámetro system de Ollama: `ollama run qwen2.5:7b --system "Responde siempre en japonés."`
¿Existen LLM locales multilingues que cumplan con el GDPR para organizaciones de la UE?
Sí. Ejecutar Qwen2.5 o Mistral localmente con Ollama mantiene todos los datos en las instalaciones y completamente sin conexión. Para el cumplimiento del Reglamento de IA de la UE (vigente desde febrero de 2025), la inferencia local elimina la preocupación del procesador de datos de terceros para aplicaciones de IA de alto riesgo. Mistral AI, con sede en Francia, es preferida por algunas organizaciones de la UE por razones de gobernanza de datos incluso para modelos desplegados localmente.
Fuentes
- Informe técnico de Qwen2.5 -- qwenlm.github.io/blog/qwen2.5/
- Benchmark MGSM -- huggingface.co/datasets/juletxara/mgsm
- Evaluación japonesa JMT-bench -- github.com/Stability-AI/lm-evaluation-harness
- GDPR de la UE e IA local -- artificialintelligenceact.eu