¿Qué son las métricas de evaluación de prompts?
📍 In One Sentence
Las métricas de evaluación de prompts son señales cuantitativas que miden si un prompt produce de forma fiable la salida esperada en un conjunto de prueba representativo.
💬 In Plain Terms
Piénsalas como pruebas unitarias para IA: defines qué es "correcto", ejecutas el prompt en 20+ ejemplos y puntúas el pass rate. Una puntuación del 95 % significa que el 5 % de las solicitudes reales de usuarios seguirán fallando.
Las métricas de evaluación de prompts son señales cuantitativas que te dicen si un prompt produce de forma fiable la salida esperada en las entradas que importan. Sin métricas, la evaluación de prompts es subjetiva. La métrica correcta depende de lo que se supone que debe producir tu prompt. Cuando eliges la métrica correcta para tu tarea, puedes evaluar la calidad del prompt de forma sistemática.
💡 Consejo pro
Empieza con el pass rate antes de añadir métricas complejas. El correcto/incorrecto binario a menudo es más útil que una rúbrica de 1–5.
¿Qué métricas aplican a la salida estructurada vs texto libre vs código?
El tipo de salida determina qué métrica es válida. Usar BLEU en salidas JSON o pass/fail en tareas de generación creativa produce puntuaciones sin sentido.
| Tipo de salida | Métrica recomendada | Por qué |
|---|---|---|
| JSON / datos estructurados | Pass/fail binario | O válido + correcto, o no. Sin crédito parcial. |
| Clasificación | Precisión (binaria) | Una etiqueta correcta por entrada. |
| Traducción / resumen | BLEU o ROUGE | Texto de referencia disponible para comparar. |
| Paráfrasis / reescritura | Similitud semántica | Preserva el significado, no las palabras exactas. |
| Texto libre / creativo | LLM-as-judge | Se necesita rúbrica matizada, sin texto de referencia. |
| Generación de código | Tasa de éxito de pruebas | Ejecuta pruebas unitarias contra el código generado. |
📌 Punto clave
El tipo de salida guía la elección de la métrica. El error más común es aplicar BLEU a tareas que no son de traducción — mide la superposición de palabras, no el cumplimiento del formato.
¿Qué es el pass rate y por qué es la métrica más útil?
El pass rate es el porcentaje de entradas de prueba donde la salida del prompt cumple los criterios de éxito definidos — y es la métrica más útil porque se mapea directamente a la tasa de fallos en producción. Un pass rate del 92 % significa que el 8 % de las solicitudes reales de usuarios fallarán.
Pass rate = salidas que pasan / total de casos de prueba
Para salidas estructuradas, define "pasar" con precisión antes de ejecutar las pruebas: JSON válido, campos requeridos presentes, valores dentro del enum permitido, longitud por debajo del límite especificado.
Rastrea el pass rate por versión de prompt. Una caída de más de 5 puntos porcentuales es una regresión. Una caída de más de 10 puntos debe bloquear el despliegue en producción.
⚠️ Advertencia
Un pass rate del 90 % significa que el 10 % de las solicitudes reales de usuarios fallarán. Establece tu umbral de regresión basándote en la tolerancia al riesgo de producción, no en lo que parece bien en un dashboard.
¿Qué es la puntuación BLEU y cuándo debes usarla?
La puntuación BLEU (Bilingual Evaluation Understudy) mide la superposición de n-gramas entre una salida del modelo y un texto de referencia. Es la métrica estándar para la traducción automática y es apropiada para cualquier tarea donde la salida debe coincidir estrechamente con una referencia.
BLEU es engañoso para:
- Salida JSON o estructurada: BLEU puntúa los tokens de formato, no la corrección semántica
- Seguimiento de instrucciones: Un prompt que sigue todas las instrucciones pero parafrasea diferente puntuará bajo en BLEU
- Generación creativa: BLEU penaliza la variedad léxica incluso cuando la calidad es alta
Cuándo BLEU es apropiado: tareas de traducción donde existe una referencia de oro, resumen frente a un resumen escrito por humanos, preguntas y respuestas extractivas con respuestas verbatim esperadas.
🔍 ¿Sabías que?
BLEU fue diseñado en 2002 para la traducción automática. Tiene limitaciones conocidas para la generación abierta pero sigue siendo el estándar para los benchmarks de MT.
¿Qué es la puntuación de similitud semántica?
La similitud semántica mide qué tan cercanos están dos textos en significado calculando la similitud coseno de sus embeddings. Supera a BLEU para tareas de paráfrasis y reescritura porque captura el significado en lugar de la elección de palabras.
Cómo funciona: embed la salida del modelo y la referencia usando text-embedding-3-small de OpenAI o un modelo de embedding local, luego calcula la similitud coseno. Las puntuaciones por encima de 0,85 generalmente indican contenido semánticamente equivalente.
Limitaciones: la similitud semántica no verifica la exactitud factual, no detecta violaciones de formato y puede puntuar alto el contenido alucinado si la alucinación es semánticamente similar a la respuesta esperada.
💡 Consejo pro
text-embedding-3-small de OpenAI es el modelo más rápido y barato para la puntuación de similitud. Para contenido técnico/de código, considera un modelo de embedding específico para código.
¿Qué es la evaluación LLM-as-judge?
LLM-as-judge usa un modelo capaz — típicamente GPT-4o o Claude Opus 4.7 — para puntuar las salidas contra una rúbrica. Esto escala la evaluación a miles de casos de prueba sin revisión humana y maneja dimensiones de calidad que las métricas binarias no pueden capturar: coherencia, tono, completitud y exactitud factual.
| Dimensión | Ventaja | Limitación |
|---|---|---|
| Escala | Miles de casos por hora | El costo de API aumenta con el volumen |
| Matiz | Maneja rúbricas complejas | Sesgo del modelo hacia su propio estilo de salida |
| Consistencia | Puntuación reproducible | Sensible a la redacción del prompt del juez |
| Costo | Más barato que la revisión humana a escala | Caro para conjuntos de prueba pequeños |
⚠️ Advertencia
LLM-as-judge tiene un sesgo propio: los modelos puntúan más alto las salidas similares a su propio estilo. Usa un modelo diferente como juez al que genera las salidas.
❌ Rúbrica vaga
Califica la calidad de esta salida en una escala del 1 al 5.
✅ Rúbrica multi-dimensional explícita
Puntúa esta salida en 3 dimensiones (1–3 cada una): (1) Exactitud factual — ¿coincide con los hechos de referencia? (2) Completitud — ¿se abordan todos los campos requeridos? (3) Tono — ¿es apropiadamente profesional? Devuelve JSON: {"accuracy": X, "completeness": X, "tone": X, "total": X, "reason": "..."}
¿Cómo detectas la regresión de métricas?
Rastrea tu métrica principal por versión de prompt y alerta cuando caiga más de 5 puntos porcentuales desde la línea base establecida. Ejecuta el mismo conjunto de prueba antes y después de cada cambio de prompt, actualización del modelo o ajuste de temperature.
Sigue este workflow:
1. Registra la puntuación de la métrica actual como línea base (por ejemplo, pass rate = 91 %) 2. Haz el cambio de prompt 3. Vuelve a ejecutar el conjunto de prueba completo 4. Compara la nueva puntuación con la línea base 5. Si la caída > 5 puntos: bloquea el cambio, investiga, corrige
Para la detección de regresión automatizada en CI/CD, herramientas como Promptfoo se integran con GitHub Actions y pueden fallar un PR si el pass rate cae por debajo de un umbral.
🛠️ Buena práctica
Integra Promptfoo con GitHub Actions para fallar automáticamente los PRs cuando el pass rate caiga por debajo del umbral. Esto evita que las regresiones de prompts lleguen a producción.
Cómo empezar a medir las métricas de evaluación de prompts
- 1Identifica tu tipo de salida de prompt: datos estructurados, clasificación, traducción/resumen, paráfrasis, texto libre o código.
- 2Selecciona la métrica apropiada: pass/fail binario para estructurado, BLEU para traducción/resumen, similitud semántica para paráfrasis, LLM-as-judge para texto libre, tasa de éxito de pruebas para código.
- 3Construye un conjunto de prueba de 20+ entradas con salidas esperadas o criterios de éxito escritos antes de ejecutar cualquier prueba.
- 4Ejecuta el conjunto de prueba y registra tu puntuación de métrica de línea base.
- 5Establece un umbral de alerta de regresión: alerta si el pass rate cae 5+ puntos desde la línea base.
- 6Ejecuta la métrica automáticamente en cada cambio de prompt usando Promptfoo, Braintrust o PromptQuorum.
📌 Punto clave
Construye tu conjunto de prueba antes de escribir el prompt, no después. Los casos de prueba definidos post-hoc tienden a coincidir con el prompt actual en lugar de la distribución de entradas real.
¿Qué errores debes evitar con las métricas de evaluación de prompts?
- Error: usar BLEU en JSON o seguimiento de instrucciones. Solución: BLEU mide la superposición de n-gramas, no el cumplimiento del formato o el seguimiento de instrucciones. Usa pass/fail binario para salidas estructuradas.
- Error: LLM-as-judge con rúbrica de evaluación vaga. Solución: El prompt del juez debe definir explícitamente cada nivel de puntuación. Las rúbricas vagas como "califica la calidad del 1 al 5" producen puntuaciones inconsistentes sin valor diagnóstico.
- Error: sin línea base antes del primer cambio. Solución: registra el valor de la métrica antes de hacer cambios. Sin una línea base, no puedes detectar regresiones.
- Error: medir solo una métrica. Solución: los prompts de producción típicamente necesitan una métrica primaria (pass rate o precisión) y una secundaria (similitud semántica o LLM-as-judge) para detectar diferentes modos de fallo.
Lecturas relacionadas
- Cómo evaluar la calidad de los prompts — Framework de tres componentes: precisión, consistencia, tasa de seguimiento
- Prueba prompts entre modelos — Ejecuta el mismo conjunto de prueba en GPT-4o, Claude y Gemini
- Auditoría de prompts y riesgo de regresión — Suites de regresión automatizadas y gates de CI/CD
- Braintrust vs Prompthub vs Vellum — Comparación de plataformas de evaluación de prompts dedicadas para equipos
- Mejores herramientas de prueba y evaluación de prompts 2026 — Herramientas valoradas para QA sistemática de prompts
- Cómo construir una biblioteca de prompts — Versiona y organiza prompts junto a sus líneas base de evaluación
Preguntas frecuentes
¿Qué son las métricas de evaluación de prompts?
Las métricas de evaluación de prompts son señales cuantitativas que miden si un prompt produce la salida esperada de forma fiable. Las métricas clave incluyen pass rate (correcto/incorrecto binario), BLEU (superposición de n-gramas para traducción y resumen), similitud semántica (similitud coseno de embeddings) y LLM-as-judge (rúbrica de calidad para texto libre). Elegir la métrica incorrecta produce puntuaciones engañosas.
¿Qué es el pass rate en la evaluación de prompts?
El pass rate es el porcentaje de entradas de prueba donde la salida del prompt cumple los criterios de éxito definidos. Se mapea directamente a la tasa de fallos en producción y es la métrica más útil para los prompts de salida estructurada.
¿Cuándo debes usar la puntuación BLEU para los prompts?
BLEU es apropiado para tareas de traducción y resumen donde la salida debe coincidir estrechamente con un texto de referencia. Es engañoso para la generación de JSON, el seguimiento de instrucciones y la escritura creativa.
¿Qué es la evaluación LLM-as-judge?
LLM-as-judge usa GPT-4o o Claude Opus 4.7 para puntuar las salidas contra una rúbrica a escala. Maneja dimensiones de calidad matizadas que las métricas binarias no pueden capturar. El principal riesgo es el sesgo del modelo hacia su propio estilo de salida.
¿Cómo detectas la regresión de métricas de prompts?
Rastrea tu métrica principal por versión de prompt y alerta cuando caiga más de 5 puntos porcentuales desde la línea base. Ejecuta el mismo conjunto de prueba antes y después de cada cambio. Una caída de más de 10 puntos es una regresión crítica.
¿Qué métrica debo usar para los prompts de salida JSON?
Usa pass/fail binario. Define "pasar" como: JSON válido + campos requeridos presentes + valores dentro del rango permitido. BLEU y la similitud semántica no tienen sentido para las salidas estructuradas.
¿Puedes combinar múltiples métricas de evaluación de prompts?
Sí — los prompts de producción típicamente necesitan una métrica primaria y una secundaria para detectar diferentes modos de fallo. Rastrea ambas de forma independiente y alerta si cualquiera cae por debajo del umbral.
¿Cómo evalúas la calidad del prompt para la generación de código?
Usa la tasa de éxito de pruebas como métrica principal — genera código, ejecuta pruebas unitarias contra él y calcula el porcentaje que pasa. Suplementa con puntuaciones de análisis estático para una imagen más completa de la calidad.
¿Debo tener en cuenta regulaciones al usar métricas de evaluación de prompts?
Sí. Los sistemas de IA de alto riesgo bajo el AI Act de la UE deben demostrar pruebas documentadas con métricas de calidad cuantitativas. Los registros de evaluación de prompts — conjuntos de prueba, pass rates, líneas base de regresión — proporcionan evidencia lista para auditoría.
¿Qué métricas de evaluación de prompts son adecuadas para empresas medianas?
Pass rate para el procesamiento de documentos (por ejemplo, extracción de facturas), LLM-as-judge para la calidad del servicio al cliente. Los gates de regresión CI/CD proporcionan evidencia de trazabilidad para auditoría. Un umbral de pass rate del 95 % para documentos críticos es un objetivo razonable.
¿Qué factores regionales influyen en los requisitos de evaluación de prompts?
Los marcos regulatorios exigen cada vez más métricas de calidad de IA documentadas, con requisitos específicos según la jurisdicción y la clasificación de riesgos.
- UE (AI Act 2025–2026): Los sistemas de IA de alto riesgo deben demostrar pruebas documentadas con métricas de calidad cuantitativas. Los registros de evaluación de prompts — conjuntos de prueba, pass rates, líneas base de regresión — proporcionan evidencia lista para auditoría.
- EE. UU. (SOC 2 / NIST AI RMF): Las auditorías SOC 2 Type II esperan QA documentada para los procesos impulsados por IA. Las métricas de evaluación de prompts con historial de versiones satisfacen los requisitos de auditoría de gestión del cambio.
- Evaluación multilingüe: Si despliegas prompts en múltiples idiomas, evalúa cada variante de idioma por separado. Las puntuaciones BLEU y los umbrales de similitud semántica difieren significativamente entre pares de idiomas.
Fuentes
- Documentación de Promptfoo (promptfoo.dev) — Framework de evaluación de prompts de código abierto con métricas integradas incluyendo LLM-as-judge
- Guía de evaluación de Braintrust (braintrust.dev) — Plataforma de evaluación de producción con soporte de pass rate, LLM-as-judge y puntuación personalizada
- Papineni et al., 2002. "BLEU: a Method for Automatic Evaluation of Machine Translation" — Artículo original de BLEU
- DeepEval: Open-Source LLM Evaluation Framework (github.com/confident-ai/deepeval) — Confident AI, 2024–2025. Soporta pass rate, detección de alucinaciones y métricas LLM-as-judge con integración CI/CD.
- The Prompt Report: A Systematic Survey of Prompting Techniques (arXiv:2406.06608) — Schulhoff et al., 2024. Revisión completa incluyendo metodología de evaluación y selección de métricas para prompt engineering.