¿Qué es Prompt Engineering?
Prompt engineering es optimizar el texto del prompt para obtener mejores respuestas del LLM. No cambias el modelo ni añades datos externos. Cambias el prompt en sí: claridad de instrucciones, ejemplos, formato de salida, tono, razonamiento paso a paso. Ejemplos: "Responde en formato JSON" (formato), "Aquí hay 3 ejemplos" (few-shot), "Piensa paso a paso" (estructura de razonamiento). Prompt engineering funciona porque los LLMs son sensibles a la formulación — la misma pregunta formulada de manera diferente produce respuestas de diferente calidad.
¿Qué es RAG?
RAG (Retrieval-Augmented Generation) recupera documentos relevantes de una base de conocimiento externa, luego los introduce en el prompt del LLM. El LLM genera una respuesta basándose tanto en el prompt como en el contexto recuperado. Ejemplo: el usuario pregunta "¿Cuál es nuestra política de devoluciones?" → RAG recupera documentos de política → el LLM genera respuesta basada en esos documentos. RAG resuelve el problema de "alucinación en hechos": en lugar de que el LLM adivine, referencia un documento.
Comparación lado a lado
Aquí hay una comparación directa:
| Aspecto | Prompt Engineering | RAG |
|---|---|---|
| Qué hace | Optimiza el texto del prompt | Recupera + genera |
| Datos externos requeridos | No | Sí (base de conocimiento) |
| Costo por solicitud | $0.001-0.01 | $0.005-0.05 |
| Latencia | ~200ms | ~1-3s |
| Riesgo de alucinación | Alto (si al LLM le falta conocimiento) | Bajo (fundamentado en documentos) |
| Infraestructura necesaria | Ninguna | Vector DB, modelo de embedding, recuperación |
| Mejor para | Razonamiento, creatividad, preguntas generales | Intensivo en conocimiento, basado en hechos, datos propietarios |
Prompt Engineering: Fortalezas y Límites
Fortalezas: (1) Sin infraestructura externa — solo un prompt y un LLM. (2) Costo bajo — una sola llamada de API, tokens mínimos. (3) Rápido — ~200ms de extremo a extremo. (4) Bueno para razonamiento — los LLMs son fuertes en lógica y creatividad. (5) Flexible — puede añadir ejemplos, instrucciones paso a paso, formato de salida sobre la marcha.
Límites: (1) Alucinación en hechos — si el LLM no conoce un hecho, lo inventa. (2) Límite de conocimiento — los datos de entrenamiento solo llegan hasta cierta fecha. (3) Ventana de contexto limitada — no puede referenciar millones de documentos. (4) Sin personalización — no puede adaptarse a datos específicos del usuario sin reentrenamiento.
RAG: Fortalezas y Límites
Fortalezas: (1) Elimina la alucinación — las respuestas están fundamentadas en documentos recuperados. (2) Conocimiento en tiempo real — la recuperación puede obtener datos actuales, reportes financieros, emails. (3) Personalización — puede recuperar documentos específicos del usuario. (4) Cumplimiento — controlas qué datos accede el modelo. (5) Explicabilidad — puedes mostrar qué documentos fueron citados.
Límites: (1) La calidad de recuperación importa — recuperación deficiente → respuestas deficientes. (2) Mayor costo — recuperación + embedding + prompts más largos = incremento de costo 2-5x. (3) Mayor latencia — añade 500ms-2s para la recuperación. (4) Complejidad de infraestructura — requiere vector DB, modelo de embedding, lógica de recuperación. (5) Aún puede alucinar — si los documentos recuperados son incompletos o contradictorios.
Tradeoffs de Costo y Latencia
Costo: Prompt engineering solo tiene costos de tokens del LLM ($0.001-0.01 por solicitud). RAG añade: (1) API de embedding ($0.0001-0.001 por 1K tokens), (2) almacenamiento de vector DB ($0.01-0.10 por consulta), (3) prompts más largos (más tokens en la ventana de contexto). Costo total de RAG: $0.005-0.05 por solicitud (2-5x más). Para 1M solicitudes/mes: PE cuesta $1,000-10,000. RAG cuesta $5,000-50,000.
Latencia: PE es ~200ms (una sola llamada al LLM). RAG es ~1-3s: (1) Embedding de consulta: 100-300ms, (2) Búsqueda en vector DB: 10-100ms, (3) Recuperación de documentos: 100-500ms, (4) Generación del LLM: 500-2000ms. Tradeoff: RAG es más lento pero más preciso en tareas de conocimiento.
Framework de Decisión
Hazte 3 preguntas:
1. ¿El LLM ya tiene el conocimiento? Si la tarea es razonamiento general (matemáticas, lógica, escritura creativa, código), el LLM probablemente ya sabe suficiente. Usa prompt engineering.
Si la tarea requiere: documentos de la empresa, datos en tiempo real, experiencia de dominio, info propietaria — el LLM no lo tiene. Usa RAG.
2. ¿Cuál es tu tolerancia a costo/latencia? Si necesitas respuestas en <500ms y costo mínimo (por ejemplo, API pública de alto volumen), usa prompt engineering. Si puedes permitirte 1-3s y un incremento de costo 2-5x, usa RAG.
3. ¿Qué tan importante es la precisión en hechos? Si la alucinación es inaceptable (asesoría legal, financiera, médica), usa RAG. Si algo de alucinación es tolerable (lluvia de ideas, escritura creativa), usa prompt engineering.
Árbol de decisión: - ¿Tarea de conocimiento + precisión crítica? → RAG - ¿Razonamiento general? → Prompt engineering - ¿Necesitas ambos? → RAG + Prompt engineering (recuperar contexto, luego optimizar cómo se presenta)
Errores comunes
- Usar RAG para tareas donde prompt engineering es suficiente — añade costo y latencia innecesarios. Ejemplo: preguntar a un LLM "¿Cuál es la capital de Francia?" no necesita RAG.
- Usar prompt engineering para tareas de conocimiento — lleva a alucinación. Ejemplo: pedir a un LLM que cite las políticas de tu empresa sin proporcionarlas via RAG.
- Construir RAG sin invertir en calidad de recuperación — un sistema de recuperación es tan bueno como su indexación y ranking. Recuperación deficiente → respuestas deficientes.
- Pensar que RAG elimina la alucinación completamente — RAG reduce la alucinación pero no la elimina. Si la recuperación encuentra documentos incompletos o contradictorios, el LLM aún puede cometer errores.
- No medir la latencia de extremo a extremo — la latencia de RAG incluye recuperación + embedding + LLM. La latencia total importa para la experiencia del usuario, no solo el tiempo de respuesta del LLM.
- Usar RAG sin un plan de respaldo — si la recuperación falla o no encuentra nada, el LLM recibe contexto mínimo. Ten un plan de respaldo (respuesta predeterminada, nueva consulta con búsqueda más amplia).
¿Puedes combinarlos?
Sí — y deberías. El enfoque óptimo para aplicaciones intensivas en conocimiento es: (1) RAG (recuperar documentos relevantes), (2) Prompt engineering (optimizar cómo se presenta el contexto al LLM). Ejemplo: Recuperar docs de soporte → Aplicar prompt engineering al formato del contexto → el LLM genera una respuesta útil. Esto combina la precisión de RAG con la claridad de prompt engineering. La mayoría de los sistemas en producción usan ambos.
Lecturas relacionadas
- ¿Qué es Prompt Engineering? Una guía para principiantes
- Las mejores herramientas de Prompt Engineering 2026: clasificadas por caso de uso
- Arquitectura RAG: Construyendo sistemas de Retrieval-Augmented Generation
- Fine-Tuning vs Prompt Engineering: Cuándo usar cada uno
- Cómo construir una biblioteca de prompts para equipos
- Alucinación en LLMs: Causas y soluciones
FAQ
¿Qué es prompt engineering?
Prompt engineering es optimizar el texto del prompt que envías a un LLM para obtener mejores respuestas. Incluye claridad de instrucciones, ejemplos (few-shot), formato de salida y tono. No requiere datos externos.
¿Qué es RAG?
RAG recupera documentos relevantes de una base de conocimiento, luego los introduce al LLM. El LLM genera una respuesta fundamentada en esos documentos.
¿Cuándo debo usar prompt engineering?
Úsalo para razonamiento, creatividad y tareas de conocimiento general donde el LLM ya sabe suficiente. Es rápido, económico y no requiere infraestructura.
¿Cuándo debo usar RAG?
Úsalo para tareas intensivas en conocimiento: documentos de la empresa, datos en tiempo real, experiencia de dominio. Esencial cuando la alucinación es inaceptable.
¿Cuál es la diferencia de costo?
PE: $0.001-0.01 por solicitud. RAG: $0.005-0.05 por solicitud (2-5x mayor debido a recuperación, embedding, prompts más largos).
¿Cuál es más rápido?
PE: ~200ms. RAG: ~1-3s (incluye búsqueda, embedding, recuperación de documentos, generación del LLM).
¿Puedo usar ambos juntos?
Sí. Recupera contexto con RAG, luego usa prompt engineering para optimizar cómo se presenta ese contexto. Es el enfoque más potente.
¿Cuál es más preciso?
RAG es más preciso para hechos (fundamentado en documentos). PE es suficiente para razonamiento y creatividad.
¿Qué pasa si falla la recuperación de RAG?
Si la base de conocimiento no tiene documentos relevantes, el LLM obtiene contexto mínimo y puede alucinar. La calidad de RAG depende de la calidad de la recuperación.
¿Debería hacer fine-tuning en su lugar?
Fine-tuning enseña cambios de estilo/formato. Para conocimiento, RAG es más económico y rápido. RAG para hechos, fine-tuning para comportamiento.