Inicio/Prompt Engineering/Métricas de evaluación de prompts: qué medir y cómo

Techniques

Métricas de evaluación de prompts: qué medir y cómo

Última actualización: April 2026·8 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es

Elegir la métrica de evaluación incorrecta para tu prompt produce resultados engañosos que ocultan fallos reales en producción. Las puntuaciones BLEU carecen de sentido para las salidas JSON. El pass/fail binario no dice nada sobre la calidad matizada de la generación. La métrica que funciona depende completamente de lo que produce tu prompt.

Las métricas de evaluación de prompts son señales cuantitativas que miden si un prompt produce de forma fiable la salida esperada. La métrica correcta depende del tipo de salida: pass rate para datos estructurados, BLEU para traducción, similitud semántica para tareas de paráfrasis y LLM-as-judge para generación de texto libre matizada.

Puntos clave

El pass rate (salidas correctas / total) es la métrica más útil para los prompts de producción con salidas estructuradas
La puntuación BLEU mide la superposición de n-gramas y solo tiene sentido para tareas de traducción y resumen
La similitud semántica (similitud coseno de embeddings) supera a BLEU para tareas de paráfrasis y reescritura
LLM-as-judge usa GPT-4o o Claude Opus 4.7 para puntuar salidas de texto libre matizadas a escala
Rastrea el pass rate por versión de prompt y alerta con caídas de más de 5 puntos porcentuales
Ninguna métrica única cubre todos los tipos de salida — elige según el formato de salida esperado de tu prompt

⚡ Quick Facts

·El pass rate se mapea directamente a la tasa de fallos en producción: 90 % = 10 % de las solicitudes fallan
·La puntuación BLEU fue diseñada en 2002 para la traducción automática, no para la salida de IA en general
·La similitud semántica por encima de 0,85 generalmente indica contenido semánticamente equivalente
·LLM-as-judge escala a miles de evaluaciones por hora
·Una caída de 5 puntos en el pass rate es el umbral estándar de alerta de regresión
·Los modelos GPT-4o y Claude pueden diferir entre 10 y 20 puntos en el mismo conjunto de prueba de prompts

¿Qué son las métricas de evaluación de prompts?

📍 In One Sentence

Las métricas de evaluación de prompts son señales cuantitativas que miden si un prompt produce de forma fiable la salida esperada en un conjunto de prueba representativo.

💬 In Plain Terms

Piénsalas como pruebas unitarias para IA: defines qué es "correcto", ejecutas el prompt en 20+ ejemplos y puntúas el pass rate. Una puntuación del 95 % significa que el 5 % de las solicitudes reales de usuarios seguirán fallando.

Las métricas de evaluación de prompts son señales cuantitativas que te dicen si un prompt produce de forma fiable la salida esperada en las entradas que importan. Sin métricas, la evaluación de prompts es subjetiva. La métrica correcta depende de lo que se supone que debe producir tu prompt. Cuando eliges la métrica correcta para tu tarea, puedes evaluar la calidad del prompt de forma sistemática.

💡 Consejo pro

Empieza con el pass rate antes de añadir métricas complejas. El correcto/incorrecto binario a menudo es más útil que una rúbrica de 1–5.

¿Qué métricas aplican a la salida estructurada vs texto libre vs código?

El tipo de salida determina qué métrica es válida. Usar BLEU en salidas JSON o pass/fail en tareas de generación creativa produce puntuaciones sin sentido.

Tipo de salida	Métrica recomendada	Por qué
JSON / datos estructurados	Pass/fail binario	O válido + correcto, o no. Sin crédito parcial.
Clasificación	Precisión (binaria)	Una etiqueta correcta por entrada.
Traducción / resumen	BLEU o ROUGE	Texto de referencia disponible para comparar.
Paráfrasis / reescritura	Similitud semántica	Preserva el significado, no las palabras exactas.
Texto libre / creativo	LLM-as-judge	Se necesita rúbrica matizada, sin texto de referencia.
Generación de código	Tasa de éxito de pruebas	Ejecuta pruebas unitarias contra el código generado.

📌 Punto clave

El tipo de salida guía la elección de la métrica. El error más común es aplicar BLEU a tareas que no son de traducción — mide la superposición de palabras, no el cumplimiento del formato.

¿Qué es el pass rate y por qué es la métrica más útil?

El pass rate es el porcentaje de entradas de prueba donde la salida del prompt cumple los criterios de éxito definidos — y es la métrica más útil porque se mapea directamente a la tasa de fallos en producción. Un pass rate del 92 % significa que el 8 % de las solicitudes reales de usuarios fallarán.

Pass rate = salidas que pasan / total de casos de prueba

Para salidas estructuradas, define "pasar" con precisión antes de ejecutar las pruebas: JSON válido, campos requeridos presentes, valores dentro del enum permitido, longitud por debajo del límite especificado.

Rastrea el pass rate por versión de prompt. Una caída de más de 5 puntos porcentuales es una regresión. Una caída de más de 10 puntos debe bloquear el despliegue en producción.

⚠️ Advertencia

Un pass rate del 90 % significa que el 10 % de las solicitudes reales de usuarios fallarán. Establece tu umbral de regresión basándote en la tolerancia al riesgo de producción, no en lo que parece bien en un dashboard.

¿Qué es la puntuación BLEU y cuándo debes usarla?

La puntuación BLEU (Bilingual Evaluation Understudy) mide la superposición de n-gramas entre una salida del modelo y un texto de referencia. Es la métrica estándar para la traducción automática y es apropiada para cualquier tarea donde la salida debe coincidir estrechamente con una referencia.

BLEU es engañoso para:

Salida JSON o estructurada: BLEU puntúa los tokens de formato, no la corrección semántica
Seguimiento de instrucciones: Un prompt que sigue todas las instrucciones pero parafrasea diferente puntuará bajo en BLEU
Generación creativa: BLEU penaliza la variedad léxica incluso cuando la calidad es alta

Cuándo BLEU es apropiado: tareas de traducción donde existe una referencia de oro, resumen frente a un resumen escrito por humanos, preguntas y respuestas extractivas con respuestas verbatim esperadas.

🔍 ¿Sabías que?

BLEU fue diseñado en 2002 para la traducción automática. Tiene limitaciones conocidas para la generación abierta pero sigue siendo el estándar para los benchmarks de MT.

¿Qué es la puntuación de similitud semántica?

La similitud semántica mide qué tan cercanos están dos textos en significado calculando la similitud coseno de sus embeddings. Supera a BLEU para tareas de paráfrasis y reescritura porque captura el significado en lugar de la elección de palabras.

Cómo funciona: embed la salida del modelo y la referencia usando text-embedding-3-small de OpenAI o un modelo de embedding local, luego calcula la similitud coseno. Las puntuaciones por encima de 0,85 generalmente indican contenido semánticamente equivalente.

Limitaciones: la similitud semántica no verifica la exactitud factual, no detecta violaciones de formato y puede puntuar alto el contenido alucinado si la alucinación es semánticamente similar a la respuesta esperada.

💡 Consejo pro

text-embedding-3-small de OpenAI es el modelo más rápido y barato para la puntuación de similitud. Para contenido técnico/de código, considera un modelo de embedding específico para código.

¿Qué es la evaluación LLM-as-judge?

LLM-as-judge usa un modelo capaz — típicamente GPT-4o o Claude Opus 4.7 — para puntuar las salidas contra una rúbrica. Esto escala la evaluación a miles de casos de prueba sin revisión humana y maneja dimensiones de calidad que las métricas binarias no pueden capturar: coherencia, tono, completitud y exactitud factual.

Dimensión	Ventaja	Limitación
Escala	Miles de casos por hora	El costo de API aumenta con el volumen
Matiz	Maneja rúbricas complejas	Sesgo del modelo hacia su propio estilo de salida
Consistencia	Puntuación reproducible	Sensible a la redacción del prompt del juez
Costo	Más barato que la revisión humana a escala	Caro para conjuntos de prueba pequeños

⚠️ Advertencia

LLM-as-judge tiene un sesgo propio: los modelos puntúan más alto las salidas similares a su propio estilo. Usa un modelo diferente como juez al que genera las salidas.

❌ Rúbrica vaga

Califica la calidad de esta salida en una escala del 1 al 5.

✅ Rúbrica multi-dimensional explícita

Puntúa esta salida en 3 dimensiones (1–3 cada una): (1) Exactitud factual — ¿coincide con los hechos de referencia? (2) Completitud — ¿se abordan todos los campos requeridos? (3) Tono — ¿es apropiadamente profesional? Devuelve JSON: {"accuracy": X, "completeness": X, "tone": X, "total": X, "reason": "..."}

¿Cómo detectas la regresión de métricas?

Rastrea tu métrica principal por versión de prompt y alerta cuando caiga más de 5 puntos porcentuales desde la línea base establecida. Ejecuta el mismo conjunto de prueba antes y después de cada cambio de prompt, actualización del modelo o ajuste de temperature.

Sigue este workflow:

1. Registra la puntuación de la métrica actual como línea base (por ejemplo, pass rate = 91 %) 2. Haz el cambio de prompt 3. Vuelve a ejecutar el conjunto de prueba completo 4. Compara la nueva puntuación con la línea base 5. Si la caída > 5 puntos: bloquea el cambio, investiga, corrige

Para la detección de regresión automatizada en CI/CD, herramientas como Promptfoo se integran con GitHub Actions y pueden fallar un PR si el pass rate cae por debajo de un umbral.

🛠️ Buena práctica

Integra Promptfoo con GitHub Actions para fallar automáticamente los PRs cuando el pass rate caiga por debajo del umbral. Esto evita que las regresiones de prompts lleguen a producción.

Cómo empezar a medir las métricas de evaluación de prompts

1
Identifica tu tipo de salida de prompt: datos estructurados, clasificación, traducción/resumen, paráfrasis, texto libre o código.
2
Selecciona la métrica apropiada: pass/fail binario para estructurado, BLEU para traducción/resumen, similitud semántica para paráfrasis, LLM-as-judge para texto libre, tasa de éxito de pruebas para código.
3
Construye un conjunto de prueba de 20+ entradas con salidas esperadas o criterios de éxito escritos antes de ejecutar cualquier prueba.
4
Ejecuta el conjunto de prueba y registra tu puntuación de métrica de línea base.
5
Establece un umbral de alerta de regresión: alerta si el pass rate cae 5+ puntos desde la línea base.
6
Ejecuta la métrica automáticamente en cada cambio de prompt usando Promptfoo, Braintrust o PromptQuorum.

📌 Punto clave

Construye tu conjunto de prueba antes de escribir el prompt, no después. Los casos de prueba definidos post-hoc tienden a coincidir con el prompt actual en lugar de la distribución de entradas real.

¿Qué errores debes evitar con las métricas de evaluación de prompts?

Error: usar BLEU en JSON o seguimiento de instrucciones. Solución: BLEU mide la superposición de n-gramas, no el cumplimiento del formato o el seguimiento de instrucciones. Usa pass/fail binario para salidas estructuradas.
Error: LLM-as-judge con rúbrica de evaluación vaga. Solución: El prompt del juez debe definir explícitamente cada nivel de puntuación. Las rúbricas vagas como "califica la calidad del 1 al 5" producen puntuaciones inconsistentes sin valor diagnóstico.
Error: sin línea base antes del primer cambio. Solución: registra el valor de la métrica antes de hacer cambios. Sin una línea base, no puedes detectar regresiones.
Error: medir solo una métrica. Solución: los prompts de producción típicamente necesitan una métrica primaria (pass rate o precisión) y una secundaria (similitud semántica o LLM-as-judge) para detectar diferentes modos de fallo.

Lecturas relacionadas

Cómo evaluar la calidad de los prompts — Framework de tres componentes: precisión, consistencia, tasa de seguimiento
Prueba prompts entre modelos — Ejecuta el mismo conjunto de prueba en GPT-4o, Claude y Gemini
Auditoría de prompts y riesgo de regresión — Suites de regresión automatizadas y gates de CI/CD
Braintrust vs Prompthub vs Vellum — Comparación de plataformas de evaluación de prompts dedicadas para equipos
Mejores herramientas de prueba y evaluación de prompts 2026 — Herramientas valoradas para QA sistemática de prompts
Cómo construir una biblioteca de prompts — Versiona y organiza prompts junto a sus líneas base de evaluación

Preguntas frecuentes

¿Qué son las métricas de evaluación de prompts?

Las métricas de evaluación de prompts son señales cuantitativas que miden si un prompt produce la salida esperada de forma fiable. Las métricas clave incluyen pass rate (correcto/incorrecto binario), BLEU (superposición de n-gramas para traducción y resumen), similitud semántica (similitud coseno de embeddings) y LLM-as-judge (rúbrica de calidad para texto libre). Elegir la métrica incorrecta produce puntuaciones engañosas.

¿Qué es el pass rate en la evaluación de prompts?

El pass rate es el porcentaje de entradas de prueba donde la salida del prompt cumple los criterios de éxito definidos. Se mapea directamente a la tasa de fallos en producción y es la métrica más útil para los prompts de salida estructurada.

¿Cuándo debes usar la puntuación BLEU para los prompts?

BLEU es apropiado para tareas de traducción y resumen donde la salida debe coincidir estrechamente con un texto de referencia. Es engañoso para la generación de JSON, el seguimiento de instrucciones y la escritura creativa.

¿Qué es la evaluación LLM-as-judge?

LLM-as-judge usa GPT-4o o Claude Opus 4.7 para puntuar las salidas contra una rúbrica a escala. Maneja dimensiones de calidad matizadas que las métricas binarias no pueden capturar. El principal riesgo es el sesgo del modelo hacia su propio estilo de salida.

¿Cómo detectas la regresión de métricas de prompts?

Rastrea tu métrica principal por versión de prompt y alerta cuando caiga más de 5 puntos porcentuales desde la línea base. Ejecuta el mismo conjunto de prueba antes y después de cada cambio. Una caída de más de 10 puntos es una regresión crítica.

¿Qué métrica debo usar para los prompts de salida JSON?

Usa pass/fail binario. Define "pasar" como: JSON válido + campos requeridos presentes + valores dentro del rango permitido. BLEU y la similitud semántica no tienen sentido para las salidas estructuradas.

¿Puedes combinar múltiples métricas de evaluación de prompts?

Sí — los prompts de producción típicamente necesitan una métrica primaria y una secundaria para detectar diferentes modos de fallo. Rastrea ambas de forma independiente y alerta si cualquiera cae por debajo del umbral.

¿Cómo evalúas la calidad del prompt para la generación de código?

Usa la tasa de éxito de pruebas como métrica principal — genera código, ejecuta pruebas unitarias contra él y calcula el porcentaje que pasa. Suplementa con puntuaciones de análisis estático para una imagen más completa de la calidad.

¿Debo tener en cuenta regulaciones al usar métricas de evaluación de prompts?

Sí. Los sistemas de IA de alto riesgo bajo el AI Act de la UE deben demostrar pruebas documentadas con métricas de calidad cuantitativas. Los registros de evaluación de prompts — conjuntos de prueba, pass rates, líneas base de regresión — proporcionan evidencia lista para auditoría.

¿Qué métricas de evaluación de prompts son adecuadas para empresas medianas?

Pass rate para el procesamiento de documentos (por ejemplo, extracción de facturas), LLM-as-judge para la calidad del servicio al cliente. Los gates de regresión CI/CD proporcionan evidencia de trazabilidad para auditoría. Un umbral de pass rate del 95 % para documentos críticos es un objetivo razonable.

¿Qué factores regionales influyen en los requisitos de evaluación de prompts?

Los marcos regulatorios exigen cada vez más métricas de calidad de IA documentadas, con requisitos específicos según la jurisdicción y la clasificación de riesgos.

UE (AI Act 2025–2026): Los sistemas de IA de alto riesgo deben demostrar pruebas documentadas con métricas de calidad cuantitativas. Los registros de evaluación de prompts — conjuntos de prueba, pass rates, líneas base de regresión — proporcionan evidencia lista para auditoría.

EE. UU. (SOC 2 / NIST AI RMF): Las auditorías SOC 2 Type II esperan QA documentada para los procesos impulsados por IA. Las métricas de evaluación de prompts con historial de versiones satisfacen los requisitos de auditoría de gestión del cambio.

Evaluación multilingüe: Si despliegas prompts en múltiples idiomas, evalúa cada variante de idioma por separado. Las puntuaciones BLEU y los umbrales de similitud semántica difieren significativamente entre pares de idiomas.

Fuentes

Documentación de Promptfoo (promptfoo.dev) — Framework de evaluación de prompts de código abierto con métricas integradas incluyendo LLM-as-judge
Guía de evaluación de Braintrust (braintrust.dev) — Plataforma de evaluación de producción con soporte de pass rate, LLM-as-judge y puntuación personalizada
Papineni et al., 2002. "BLEU: a Method for Automatic Evaluation of Machine Translation" — Artículo original de BLEU
DeepEval: Open-Source LLM Evaluation Framework (github.com/confident-ai/deepeval) — Confident AI, 2024–2025. Soporta pass rate, detección de alucinaciones y métricas LLM-as-judge con integración CI/CD.
The Prompt Report: A Systematic Survey of Prompting Techniques (arXiv:2406.06608) — Schulhoff et al., 2024. Revisión completa incluyendo metodología de evaluación y selección de métricas para prompt engineering.

Aplica estas técnicas en más de 25 modelos de IA simultáneamente con PromptQuorum.

Prueba PromptQuorum gratis →

← Volver a Prompt Engineering