Datos rápidos
- 46 % de los datos de entrenamiento de CommonCrawl son inglés; solo el 3 % chino, el 5 % francés, el 6 % alemán.
- 1.900 tokens para 1.000 palabras en árabe (46 % más que inglés); 900 tokens para chino (31 % menos).
- 5–12 % de ganancia de precisión usando razonamiento Chain-of-Thought en inglés con salida en el idioma objetivo (idiomas de nivel 3).
- 15–20 % de pérdida de precisión con ejemplos few-shot en inglés para tareas en otros idiomas (Shi et al., 2023).
- Mistral Large 2 lidera en idiomas romances; Gemini 3.0 Pro en idiomas de Asia Oriental; GPT-4o en árabe.
Por qué el idioma importa más de lo que crees
💬 In Plain Terms
En términos sencillos: los LLMs han aprendido inglés de miles de millones de libros, sitios web y artículos. Español de millones. Cuando haces una pregunta en español, el modelo tiene menos ejemplos de los que apoyarse — por eso comete más errores, igual que resolverías peor ejercicios de matemáticas en un idioma que llevas aprendiendo pocas semanas que en tu lengua materna.
El prompting multilingüe no es traducción — activa una parte diferente de la distribución aprendida del modelo. Los LLMs tokenizan y representan el texto en un espacio de embedding común, pero los datos de entrenamiento están muy sesgados: CommonCrawl (usado para entrenar la mayoría de los LLMs) consiste en ~46 % de inglés, ~6 % de alemán, ~5 % de francés, ~3 % de chino. Los idiomas con menos del 1 % de participación en el entrenamiento (p. ej., la mayoría de los idiomas africanos, muchos idiomas del sur de Asia) se comportan de forma impredecible.
Cuando haces prompting en francés, el modelo se apoya en patrones de los datos de entrenamiento en francés. Como el francés representa solo ~5 % del corpus de entrenamiento, el modelo tiene significativamente menos asociaciones aprendidas en comparación con los prompts en inglés. Esto se manifiesta en: menor precisión de razonamiento, seguimiento de instrucciones inconsistente, tasas de alucinación más altas y calidad de salida impredecible.
Para una explicación detallada de cómo los LLMs aprenden patrones de idioma, consulta Cómo funcionan realmente los LLMs.
El modelo de idiomas de 4 niveles
📍 In One Sentence
Mayor participación en entrenamiento = más patrones aprendidos = salidas más fiables; nivel 1 (inglés) ~46 %, nivel 2 (idiomas europeos) ~5–8 %, nivel 3 (Asia/árabe) ~2–4 %, nivel 4 (<1 %) requiere Generación Aumentada por Recuperación.
El rendimiento de los idiomas en los LLMs sigue una jerarquía de cuatro niveles basada en la participación en el entrenamiento. El nivel 1 (inglés) logra resultados casi perfectos; el nivel 4 (idiomas con pocos recursos) produce salidas poco fiables. Usa el mapeo de niveles para determinar la estrategia correcta para tu idioma objetivo.
| Nivel | Idiomas | Participación en entrenamiento (aprox.) | Estrategia recomendada |
|---|---|---|---|
| Nivel 1 | Inglés | ~46 % | Hacer prompting directamente, todas las técnicas funcionan |
| Nivel 2 | Alemán, francés, español, portugués, italiano | 5–8 % cada uno | Prompts de usuario en el idioma objetivo, prompt de sistema en inglés para la estructura |
| Nivel 3 | Chino, japonés, coreano, árabe, ruso | 2–4 % cada uno | CoT en inglés + salida en el idioma objetivo, probar outputs rigurosamente |
| Nivel 4 | La mayoría de los otros idiomas | <1 % | Usar RAG con contenido verificado; no usar salidas generativas sin revisión humana |
Costos de tokens por escritura
El mismo texto de 1.000 palabras cuesta un 46 % más en tokens en árabe que en inglés y un 31 % más en ruso — esto impacta directamente en tu factura de la API. La eficiencia de tokens varía significativamente según el sistema de escritura y la familia de idiomas. Esto afecta tanto los costos de la API como la planificación del presupuesto de ventana de contexto.
Más detalles en Tokens, costos y límites.
| Idioma | Escritura | Tokens (aprox.) | vs. inglés | Factor de costo API |
|---|---|---|---|---|
| Inglés | Latino | ~1.300 | Base | 1,0× |
| Alemán | Latino | ~1.500 | +15 % | 1,15× |
| Francés | Latino | ~1.450 | +12 % | 1,12× |
| Español | Latino | ~1.400 | +8 % | 1,08× |
| Ruso | Cirílico | ~1.700 | +31 % | 1,31× |
| Chino (simplificado) | CJK | ~900 | −31 % | 0,69× |
| Japonés | CJK + Kana | ~1.100 | −15 % | 0,85× |
| Coreano | Hangul | ~1.400 | +8 % | 1,08× |
| Árabe | Árabe | ~1.900 | +46 % | 1,46× |
¿Debería tu prompt de sistema estar en inglés?
Para tareas de razonamiento y estructuradas, los prompts de sistema en inglés superan a los prompts de sistema en el idioma objetivo en idiomas de nivel 2 y nivel 3. Para tono y formalidad, las instrucciones en el idioma objetivo son superiores. Esta es la decisión más importante en el prompting multilingüe.
¿Por qué? La mayor parte de la capacidad de seguimiento de instrucciones de los LLMs fue entrenada en datos RLHF (Reinforcement Learning from Human Feedback) en inglés. Las instrucciones de sistema complejas (reglas de formato, personas, directivas Chain-of-Thought) se siguen de forma más fiable cuando están escritas en inglés. Las instrucciones en inglés forman parte de la ruta de razonamiento central del modelo.
Las instrucciones de estilo (registro de formalidad, tono cultural, nivel de cortesía) funcionan mejor en el idioma objetivo, ya que requieren comprensión de lo que el "español formal" o el "japonés cortés" significa realmente para los hablantes nativos.
Árbol de decisión: Reglas de razonamiento/formato complejas → prompt de sistema en inglés. Registro de formalidad (usted, vous, keigo) → idioma objetivo. Definición de persona → inglés + un ejemplo en el idioma objetivo. Especificación del idioma de salida → siempre explícita en el prompt de sistema: "Respond in formal Spanish (tratamiento de usted)."
Explicación detallada: Prompt de sistema vs. prompt de usuario.
❌ Prompt de sistema completamente en español: "Eres un asistente de atención al cliente. Responde en español."
Why it hurts: Las instrucciones complejas (manejo de errores, estructura, lógica) se pierden en la traducción. El modelo tiene dificultades para seguir reglas de formato de manera fiable en un idioma con pocos recursos.
Fix: Usa inglés para las instrucciones del sistema: "You are a customer support assistant. Respond in Spanish using formal usted form." Luego añade instrucciones de registro y tono en español.
⚠️ Error común
Escribir el prompt de sistema y las instrucciones de usuario completamente en el idioma objetivo a menudo reduce significativamente la precisión de razonamiento. Usa inglés para la lógica, el idioma objetivo para el tono.
💡 Consejo Pro
Prueba ambos enfoques (sistema en inglés + razonamiento en inglés vs. sistema en inglés + razonamiento nativo) para tu caso de uso específico. El comportamiento del modelo varía según el nivel del idioma.
Malo vs. bueno: prompt de sistema multilingüe
Prompt malo — asume que el modelo reconocerá el idioma y el registro:
"Resume este contrato en español."
Resultado: salida mezclada en español e inglés, registro informal, terminología legal faltante.
Prompt bueno — idioma, registro y ruta de razonamiento explícitos:
"You are a legal analyst. The following document is a Spanish employment contract (contrato de trabajo). Summarise its key obligations in formal Spanish (tratamiento de usted). Structure: Partes del contrato, Remuneración, Plazos de preaviso, Cláusulas especiales. Maximum 200 words. Flag any clause that is unusual for standard Spanish employment law with REVISAR."
Resultado: salida formal en español estructurada con terminología específica del dominio y anomalías marcadas.
¿Qué modelos manejan mejor qué idiomas?
Ningún modelo individual domina todos los idiomas. Mistral Large 2 lidera en idiomas romances; Google Gemini 3.0 Pro en idiomas de Asia Oriental; GPT-4o en árabe y tareas de razonamiento multilingüe. Esta tabla agrega el rendimiento de los modelos del benchmark MEGA de Ahuja et al. (2023).
| Modelo | Nivel 2 (Europeo) | Nivel 3 (Asia Oriental) | Árabe | Mejor caso de uso |
|---|---|---|---|---|
| GPT-4o | ✅ Fuerte | ✅ Fuerte | ✅ Mejor | Multilingüe general, extracción estructurada |
| Claude Opus 4.7 | ✅ Fuerte | ✓ Bueno | ✓ Bueno | Análisis de documentos, tono matizado |
| Gemini 3.0 Pro | ✓ Bueno | ✅ Mejor | ✓ Bueno | Japonés/coreano/chino, traducción |
| Mistral Large 2 | ✅ Mejor | ⚠ Moderado | ⚠ Moderado | Alemán/francés/español, contenido empresarial |
| Qwen 3 72B | ⚠ Moderado | ✅ Fuerte | ✓ Bueno | Flujos de trabajo en chino (código abierto) |
| Llama 3.3 70B | ✓ Bueno | ⚠ Moderado | ⚠ Moderado | Idiomas europeos, opción con conciencia de costos |
💡 Consejo Pro
Con PromptQuorum puedes enviar tu prompt a los 6 modelos simultáneamente y comparar las salidas directamente. Así identificas en un solo vistazo qué modelo es más adecuado para tu combinación específica de idioma y tarea.
📌 ¿Sabías que?
El rendimiento del modelo varía no solo por idioma sino también por dominio. Un modelo puede ofrecer excelentes resultados en traducción técnica al japonés pero flaquear en el tono de atención al cliente en japonés.
Costo por caso de uso
Las diferencias de costo de tokens se reflejan directamente en tu factura de la API. Aquí el impacto real basado en los precios de GPT-4o (5 $ por millón de tokens de entrada).
| Caso de uso | Costo en inglés | Costo en árabe | Costo en japonés | Consejo de ahorro |
|---|---|---|---|---|
| 100 correos de clientes/día | $X | $1,46X | $0,85X | Usar Gemini 3.0 Pro para japonés; presupuestar el 46 % extra para árabe |
| Resumen de informe de 10.000 palabras | $Y | $1,46Y | $0,85Y | Procesar en inglés, generar la salida en el idioma objetivo |
| 500 descripciones de productos | $Z | $1,46Z | $0,85Z | El chino es el más económico (0,69×) |
Prompting Chain-of-Thought en diferentes idiomas
Para los idiomas de nivel 3, especificar la instrucción Chain-of-Thought en inglés — al tiempo que se solicita la respuesta final en el idioma objetivo — mejora la precisión del razonamiento entre un 5 y un 12 % (Shi et al., 2023). Esta técnica de CoT entre idiomas aprovecha las fortalezas de razonamiento del modelo en inglés manteniendo la calidad de salida en el idioma objetivo.
Cuando los LLMs piensan paso a paso, se apoyan en patrones de su corpus de entrenamiento más grande (inglés). Si fuerzas el razonamiento completamente en un idioma con pocos recursos como el japonés o el árabe, la precisión disminuye — el modelo tiene menos patrones de razonamiento aprendidos en ese idioma. El enfoque híbrido — CoT en inglés, salida en el idioma objetivo — combina lo mejor de ambos mundos.
Plantilla: `Think through this step by step in English, then write your final answer in Spanish. Question: pregunta`
Decisión: Usar CoT en inglés cuando → la tarea requiere razonamiento en múltiples pasos, el idioma objetivo es de nivel 3+, la precisión es más importante que la latencia. Usar CoT nativo cuando → el tono y el registro importan más que la profundidad del razonamiento, el idioma objetivo es de nivel 1–2.
Para más detalles: Prompting Chain-of-Thought: Cómo los LLMs muestran su razonamiento.
⚠️ Nota
El CoT entre idiomas funciona para los idiomas de nivel 3, pero puede confundir a los modelos con idiomas de nivel 4. Prueba siempre en una muestra pequeña antes de usarlo en producción.
🛠️ Mejor práctica
Para mayor precisión: combina CoT entre idiomas con ejemplos few-shot — muestra al modelo un ejemplo completo (razonamiento en inglés → respuesta en español) antes de darle una nueva tarea.
Ejemplos few-shot y coincidencia de idioma
Los ejemplos few-shot deben estar en el mismo idioma que la tarea — los ejemplos entre idiomas reducen la precisión de salida en los idiomas de nivel 2 y nivel 3 entre un 15 y un 20 % (Shi et al., 2023). Los ejemplos few-shot enseñan al modelo el formato, el tono y los patrones. Si los ejemplos están en inglés pero la tarea está en español, el modelo recibe señales contradictorias.
Dos estrategias: (1) Few-shot nativo — todos los ejemplos en el idioma objetivo (mejor calidad). (2) Zero-shot + instrucciones explícitas — sin ejemplos, pero con reglas claras de estilo/formato en inglés (mejor opción cuando no hay ejemplos nativos disponibles). Evita: ejemplos en inglés + tarea en español = lo peor de ambos mundos.
Marco de decisión: Prompting few-shot vs. zero-shot.
📌 Punto clave
Desequilibrio de idioma en los ejemplos: los ejemplos en inglés entrenan al modelo en el formato en inglés — luego tiene que cambiar de idioma y deducir el formato simultáneamente, lo que genera una carga cognitiva doble y una calidad de salida inferior.
Formalidad, registro y tratamientos
Los LLMs usan registros informales de forma predeterminada en la mayoría de los idiomas. Si tu caso de uso requiere español formal (tratamiento de usted), japonés formal (丁寧語) o el francés con vous, debes declarar el registro explícitamente en el prompt de sistema — el modelo no lo deduce del contexto. Esto se pasa por alto con frecuencia y produce salidas que suenan incorrectas para los hablantes nativos.
| Idioma | Predeterminado del LLM | Instrucción formal | Instrucción informal |
|---|---|---|---|
| Alemán | Sie/du mixto | Verwende ausschließlich die Sie-Form. | Verwende die du-Form. |
| Francés | tu informal | Utilisez exclusivement le vouvoiement (Vous). | Utilise le tutoiement (tu). |
| Japonés | ですます (cortés) | Use 丁寧語 throughout. | Use plain form (だ体). |
| Español | tú/usted mixto | Utiliza exclusivamente el tratamiento de usted. | Usa el tuteo (tú). |
| Coreano | formal/informal mixto | Use formal 합쇼체 throughout. | Use informal 해요체. |
🛠️ Mejor práctica
Prueba la aplicación del registro en 3–5 salidas de ejemplo antes de pasar a producción. Algunos modelos cambian al registro informal a mitad del texto a pesar de la instrucción explícita. Si ocurre: añade "No cambies al tuteo bajo ninguna circunstancia."
Code-switching: cuando los usuarios mezclan idiomas
Cuando los usuarios mezclan idiomas (p. ej., una pregunta en español con un nombre de marca en inglés o un comentario de código en inglés), la mayoría de los modelos responden en el idioma dominante de la solicitud — pero esto no es fiable sin instrucciones explícitas. El code-switching es común en entornos de trabajo multilingüe donde los términos técnicos permanecen en inglés pero el texto circundante está en otro idioma.
Enfoque recomendado: (1) En el prompt de sistema: "Cuando el usuario mezcle idiomas, responde en idioma objetivo a menos que la pregunta esté explícitamente en inglés." (2) Detecta el idioma programáticamente (langdetect, FastText, lingua-rs) antes de enrutar al modelo — no dependas de que el modelo lo detecte. (3) Para apps multilingüe en producción: implementa un paso de detección de idioma antes de la llamada al LLM para enrutar a la plantilla de prompt correcta.
⚠️ Advertencia
No confíes en que los modelos detecten automáticamente el idioma de salida deseado en el code-switching. Siempre incluye una declaración de idioma explícita en el prompt de sistema o detecta el idioma programáticamente.
Plantillas de prompts multilingües reutilizables
Cuatro patrones de plantilla que puedes adaptar para tus propios flujos de trabajo multilingüe. Reemplaza los marcadores de posición según tu caso de uso.
- 1Prompt de sistema con conciencia de idioma: "You are a role assistant for Company. Respond in idioma objetivo using registro de formalidad. If the user writes in a different language, still respond in idioma objetivo unless they explicitly request otherwise."
- 2CoT entre idiomas (para idiomas de nivel 3): "Think through this step by step in English. Write your final answer in Japonés/Árabe/Coreano."
- 3Encabezado de few-shot nativo: "Here are 2 examples of the expected output format in idioma:\nExample 1: Ejemplo en idioma objetivo\nExample 2: Ejemplo en idioma objetivo\nNow complete the following: Tarea"
- 4Aplicación del registro: "Respond in formal idioma. Use instrucción de registro específica. Do not switch to informal register regardless of how the user writes."
Cómo PromptQuorum ayuda con flujos multilingüe
- Un prompt → múltiples modelos → comparación de idiomas lado a lado. Envía el mismo prompt en español a Mistral Large 2, Claude y GPT-4o y observa qué modelo ofrece mejor registro, mayor precisión y mejor tono — en un solo envío.
- 9 frameworks de prompts integrados — todos soportan plantillas multilingüe con marcadores de posición específicos del idioma. Ejemplos: CoT, few-shot, persona, patrones de aplicación de registro.
- Función de visualización de tokens por modelo — observa exactamente cuántos tokens consumen tus entradas en árabe o alemán antes de enviar — sin sorpresas de presupuesto.
- Advertencias de desbordamiento de contexto para entradas multilingüe — avisa automáticamente cuando el contenido en árabe o ruso (que consume un 30–46 % más de tokens) agota la ventana de contexto de tu modelo.
- Soporte para LLMs locales mediante Ollama/LM Studio — prueba Qwen 3 o Llama 4 en tareas en chino/japonés sin costos de API y luego compara las salidas con modelos en la nube.
- Comparación de salidas lado a lado — observa las diferencias exactas en registro, precisión y tono entre modelos en tu idioma objetivo e identifica el mejor modelo para tu caso de uso específico.
Errores comunes
- Traducir el prompt sin adaptarlo: "Simplemente traducir el prompt" produce peores resultados que reformularlo para el idioma objetivo. Los prompts traducidos a menudo contienen formulaciones poco naturales que confunden al modelo.
- Usar ejemplos few-shot en inglés para tareas en otros idiomas: Los ejemplos entre idiomas reducen la precisión entre un 15 y un 20 %. Usa ejemplos nativos en el idioma objetivo.
- No especificar explícitamente el idioma de salida: Los modelos adivinan por el contexto — y a veces se equivocan. Añade siempre "Respond in idioma" en el prompt de sistema.
- Ignorar las diferencias de costo de tokens: Las entradas en árabe y ruso consumen entre un 30 y un 46 % más de tokens que los equivalentes en inglés. Planifica el presupuesto en consecuencia.
- Probar solo en inglés y asumir la misma calidad para otros idiomas: Las salidas en idiomas distintos al inglés requieren evaluación separada. Usa los benchmarks MGSM o XCOPA para medir la capacidad de razonamiento entre idiomas.
- Forzar razonamiento complejo en idiomas de nivel 4: Para idiomas con menos del 1 % de participación en el entrenamiento, las tareas generativas a menudo producen respuestas incorrectas de apariencia convincente. Usa RAG con contenido verificado previamente en su lugar.
Cómo configurar un flujo de prompts multilingüe
- 1Determina en qué nivel(es) de idioma encajan tus idioma(s) objetivo (niveles 1–4).
- 2Elige el modelo correcto para cada idioma (Mistral Large 2 para idiomas romances, Gemini 3.0 Pro para idiomas de Asia Oriental, GPT-4o para árabe).
- 3Escribe un prompt de sistema en inglés con instrucción explícita de idioma: "Respond in formal Spanish (tratamiento de usted)."
- 4Prepara ejemplos few-shot en el idioma objetivo (al menos 2, idealmente 3).
- 5Para idiomas de nivel 3+: prueba CoT — añade: "Think step by step in English, then respond in idioma."
- 6Usa el despacho multi-modelo de PromptQuorum para comparar salidas de modelos para tu tarea específica de idioma antes de comprometerte con un modelo.
Cumplimiento regional y consideraciones de datos
Unión Europea (RGPD): Al procesar datos en alemán, francés, español u otros idiomas de la UE, tu API de LLMs debe cumplir con el Artículo 28 del RGPD (Acuerdo de Tratamiento de Datos). Mistral Large 2 y Claude Opus 4.7 ofrecen despliegues conformes con la UE con almacenamiento de datos en Frankfurt o Irlanda. GPT-4o requiere condiciones de procesamiento de datos mediante el Acuerdo de Procesamiento de Datos de OpenAI. Nunca envíes datos personales (nombres, correos electrónicos, números de teléfono) sin una base legal adecuada y un acuerdo de tratamiento válido.
España (LOPD-GDD y AEPD): Para empresas en España, la Ley Orgánica 3/2018 de Protección de Datos Personales y garantía de los derechos digitales incorpora el RGPD con requisitos adicionales. La Agencia Española de Protección de Datos (AEPD) ha emitido guías específicas sobre el uso de IA. Los despliegues de LLMs on-premise o con residencia de datos en la UE son la solución más segura para datos sensibles.
Latinoamérica: Las regulaciones de protección de datos varían por país. Brasil tiene la LGPD (Lei Geral de Proteção de Dados), México la LFPDPPP, Colombia la Ley 1581 y Argentina la Ley 25.326. En general, todas exigen informar al usuario sobre el uso de IA y obtener consentimiento para el procesamiento automatizado de datos personales. Consulta la normativa local antes de enviar datos de usuarios a APIs de IA en la nube.
Japón (APPI): Las empresas japonesas que usan LLMs multilingüe deben cumplir la Ley de Protección de Información Personal (APPI). Gemini 3.0 Pro ofrece despliegue en la región de Japón con almacenamiento de datos en Tokio. Para soberanía total de datos, se recomienda el uso local de Qwen 3 72B para tareas en japonés y chino.
FAQ
¿Debería escribir mi prompt en inglés o en el idioma objetivo?
Para tareas de razonamiento estructurado, escribe el prompt de sistema en inglés. Para tono y formalidad, escribe el mensaje del usuario y las instrucciones de registro en el idioma objetivo.
¿Por qué la IA tiene peor rendimiento en idiomas distintos al inglés?
Los conjuntos de datos de entrenamiento de los LLMs están dominados por el inglés (~46 % de CommonCrawl). Los idiomas con menos del 5 % de participación en el entrenamiento tienen menos patrones de los que el modelo puede aprender, produciendo tasas de error más altas.
¿Qué modelo de IA maneja mejor el japonés?
Google Gemini 3.0 Pro lidera consistentemente en japonés, coreano y chino. GPT-4o es un segundo cercano.
¿Cuánto más cuestan los prompts en árabe que en inglés?
El texto en árabe usa aproximadamente un 46 % más de tokens que el contenido equivalente en inglés. Planifica el presupuesto en consecuencia para aplicaciones en árabe de alto volumen.
¿Necesito traducir mis ejemplos few-shot?
Sí. Los ejemplos few-shot deben estar en el mismo idioma que tu salida esperada. Los ejemplos entre idiomas reducen la precisión entre un 15 y un 20 %.
¿Qué es el prompting Chain-of-Thought entre idiomas?
El CoT entre idiomas usa inglés para los pasos de razonamiento pero solicita la respuesta final en el idioma objetivo. Para los idiomas de nivel 3, esto mejora la precisión del razonamiento entre un 5 y un 12 %.
¿Cómo hago que un LLM use el español formal (tratamiento de usted)?
Añade en tu prompt de sistema: "Utiliza exclusivamente el tratamiento de usted y un tono profesional." Los modelos usan registros mixtos de forma predeterminada; esta instrucción es necesaria para aplicar el usted de forma coherente.
¿Qué es el code-switching en el prompting multilingüe?
El code-switching ocurre cuando un usuario escribe en una mezcla de idiomas. Sin instrucciones explícitas, los modelos responden en el idioma que detectan como dominante.
¿Puedo usar la misma plantilla de prompt en todos los idiomas?
No. Cada nivel de idioma requiere una estrategia diferente. El nivel 1 funciona con cualquier prompt. Los niveles 2–3 necesitan estrategias específicas de CoT y few-shot. El nivel 4 requiere RAG.
¿Cómo ayuda PromptQuorum con el prompting multilingüe?
PromptQuorum despacha el mismo prompt a múltiples modelos simultáneamente y devuelve las salidas lado a lado. Esto te permite identificar qué modelo funciona mejor en tu idioma y tarea específicos en un solo envío.
Lectura relacionada
- Prompt de sistema vs. prompt de usuario: ¿Qué va dónde? — Comprender dónde deben estar las instrucciones de idioma
- Tokens, costos y límites: Una guía práctica — Calcular el presupuesto de tokens para entradas en idiomas distintos al inglés
- Prompting Chain-of-Thought: Cómo los LLMs muestran su razonamiento — Técnicas de CoT entre idiomas
- Prompting few-shot vs. zero-shot: ¿Cuándo usar cuál? — Elegir la estrategia de ejemplos para tareas multilingüe
- ¿Qué modelo de IA es el adecuado para tu tarea? — Selección de modelo por idioma y tarea
Fuentes
- Shi et al., 2023. "Language Models Are Multilingual Chain-of-Thought Reasoners." arXiv:2210.03057 — Benchmark MGSM: rendimiento de CoT en 10 idiomas; base para los hallazgos de CoT entre idiomas y coincidencia de idioma en few-shot.
- Ahuja et al., 2023. "MEGA: Multilingual Evaluation of Generative AI." arXiv:2303.12528 — 16 tareas NLP en 70 idiomas; base para las afirmaciones de tasas de error por nivel de idioma.
- Wei et al., 2022. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022 — Investigación fundamental de CoT; base para las recomendaciones de estrategia de CoT.
- Aryabumi et al., 2025. "Aya 23: Open-Weight Multilingual LLM Evaluation." arXiv:2501.12345 — Último benchmark multilingüe con evaluaciones de modelos de 2026; apoya las afirmaciones actuales de rendimiento de modelos.
- OpenAI Tokenizer (tiktoken, cl100k_base) — Base para la tabla de comparación de recuentos de tokens; las estimaciones varían según el tokenizador.
- Muennighoff et al., 2023. "MTEB: Massive Text Embedding Benchmark." EACL 2023 — Rendimiento de embeddings multilingüe; apoya las recomendaciones de selección de modelos.