Datos rápidos
- 1Tasa de éxito del prompt engineering: 80–90% de los casos de uso reales (soporte al cliente, resumen, clasificación, extracción de datos).
- 2Coste por 1M tokens (GPT-4o): prompt engineering $25, inferencia con fine-tuning $50–100.
- 3Requisito de datos para fine-tuning: mínimo 100 ejemplos, idealmente 500+ para resultados estables.
- 4Tiempo hasta resultado: prompt engineering 2 horas (10 iteraciones), fine-tuning 7 días (incluida la recopilación de datos).
- 5Disponibilidad del modelo: el prompt engineering funciona en GPT-4o, Claude, Gemini, Llama, modelos locales. El fine-tuning varía por proveedor.
- 6Coste de reversión: cambiar un prompt = $0. Migrar de un modelo con fine-tuning al modelo base = reescribir todo el sistema.
Por qué importa esta decisión
📍 In One Sentence
El prompt engineering es tu primera opción (gratis, instantáneo); el fine-tuning es tu respaldo cuando el prompting falla (caro, permanente).
💬 In Plain Terms
Escribir una instrucción mejor a una IA no cuesta nada y tarda minutos. Entrenar la IA cuesta cientos o miles de dólares y tarda días. Prueba la opción barata primero.
Tienes dos caminos para mejorar el output de la IA: cambiar cómo preguntas (prompt engineering) o cambiar la propia IA (fine-tuning). La elección incorrecta cuesta tiempo y dinero. Esta guía te muestra qué camino tomar.
¿Qué es el prompt engineering?
El prompt engineering significa escribir instrucciones claras y detalladas a un modelo de IA. En lugar de decir "resume esto", escribes: "Resume el siguiente texto en 2–3 oraciones. Céntrate en la decisión principal y quién la tomó. Evita la jerga."
Cada prompt es un experimento. Lo pruebas, ves el output, ajustas la redacción y vuelves a intentarlo. El prompt engineering es gratis porque no estás entrenando el modelo — solo le estás hablando mejor.
- Gratis: sin costes de entrenamiento, solo inferencia (uso del modelo)
- Instantáneo: tarda minutos a horas en refinar, no días ni semanas
- Reversible: ¿mal prompt? Solo bórralo y prueba uno nuevo
- Testeable: puedes hacer A/B testing de múltiples versiones rápidamente
- Portable: el mismo prompt suele funcionar en distintos modelos
- Agnóstico al modelo: las técnicas funcionan consistentemente en modelos propietarios y open-source
¿Qué es el fine-tuning?
El fine-tuning significa reentrenar el modelo con tus propios datos. Proporcionas cientos o miles de ejemplos de entradas y outputs deseados, y el modelo aprende de ellos. Cambia permanentemente los pesos del modelo.
El fine-tuning solo es necesario cuando el prompt engineering falla en problemas sistemáticos que afectan al 10%+ de los casos. Razones comunes: terminología específica del dominio, formateo de output muy estricto o patrones de razonamiento especializados que el modelo base nunca ha visto.
- Caro: requiere una inversión significativa por ejecución de entrenamiento
- Lento: tarda un tiempo considerable en completarse
- Permanente: cambia los pesos del modelo — muy difícil de deshacer
- Hambre de datos: requiere cientos o miles de ejemplos etiquetados
- Inferencia costosa: usar (inferencia) el modelo también cuesta más
- Bloqueado a versión: cada versión del modelo puede requerir fine-tuning separado
🔍 El fine-tuning no es RAG
La Generación Aumentada por Recuperación (RAG) y el fine-tuning resuelven problemas diferentes. RAG inserta contexto relevante en el prompt — es una técnica de prompt engineering. El fine-tuning reentrena el modelo. Usa RAG primero. Solo haz fine-tuning si RAG y el prompt engineering ambos fallan.
Comparativa lado a lado
| Factor | Prompt Engineering | Fine-Tuning |
|---|---|---|
| Coste | $0 (solo inferencia) | $500–$5.000+ por ejecución |
| Velocidad | Minutos a horas | Días a semanas |
| Reversibilidad | Borrar y empezar de nuevo | Cambios permanentes |
| Datos necesarios | 3–10 ejemplos para testing | 100–10.000+ ejemplos etiquetados |
| Experiencia | Cualquiera puede hacerlo | Requiere conocimientos de ML |
| Portabilidad del modelo | Funciona en GPT, Claude, modelos locales | Bloqueado a un modelo/versión |
| Tasa de éxito | Resuelve el 80–90% de los casos | Resuelve el 10–20% restante |
| Mantenimiento | Ajusta el prompt cuando el modelo se actualiza | Reentrena todo el modelo por versión |
| Testing | Testea 10 versiones en 1 hora | Testea 10 versiones en 10 días |
| Coste de inferencia | Precios estándar | Precios personalizados (normalmente más altos) |
Diagrama de decisión: cuándo usar cada enfoque
Sigue este diagrama para decidir si usar prompt engineering o fine-tuning.
- 1Empieza con una declaración clara del problema. Ejemplo: "Resume las reseñas de clientes en exactamente 2 oraciones."
- 2Escribe 10–20 prompts de ejemplo y testea con el modelo base en 10 ejemplos. Si 8/10 tienen éxito, para. Has terminado con el prompt engineering.
- 3Si menos de 8/10 tienen éxito, intenta mejorar el prompt. Añade contexto, ejemplos, restricciones y formato de output. Ejecuta otros 10 casos de test.
- 4Tras 3–5 iteraciones de prompts, si la tasa de éxito sigue por debajo del 80%, considera el fine-tuning.
- 5Si haces fine-tuning: recopila 100–500 ejemplos etiquetados (pares entrada-salida). Entrena un modelo personalizado. Testea en un conjunto de hold-out.
- 6Elige el enfoque con la mejor relación coste-calidad.
🔍 El test del 90%
Pregúntate: ¿necesito corregir el 90% de los casos, o solo el 10%? Si el 90% de los casos funciona con prompt engineering, para. Si el 90% falla, tienes un problema más grande del que el fine-tuning por sí solo puede resolver.
Cinco escenarios reales
Aquí hay cinco decisiones realistas a las que se enfrentan los equipos y cómo abordar cada una.
- 1Extraer datos estructurados de PDFs desordenados: prueba el prompt engineering con ejemplos primero. Si la tasa de éxito supera el 85%, para. Si se estanca en el 60%, añade fine-tuning en variaciones específicas del dominio.
- 2Clasificar tickets de soporte al cliente en categorías: usa prompt engineering con ejemplos de cada categoría. Coste: $0. Esfuerzo: 2 horas. El fine-tuning costaría $1.000+ y tardaría 1 semana.
- 3Generar cláusulas legales especializadas: el prompt engineering falla porque el modelo base es demasiado genérico. Haz fine-tuning en 500 documentos históricos en el estilo de tu empresa. Coste justificado: $2.000.
- 4Resumir artículos de investigación largos en insights clave: el prompt engineering funciona bien. Chain-of-thought prompting + ejemplos = 92% de precisión. No se necesita fine-tuning.
- 5Traducir documentos técnicos a inglés llano: el prompt engineering + ejemplos few-shot cubre el 88% de los casos. Haz fine-tuning en el 12% restante de edge cases.
Usar ambos: cuándo y cómo combinar
Mejor práctica: empieza con prompt engineering. Si alcanza un techo (alrededor del 80–85% de éxito), añade fine-tuning encima.
Flujo de trabajo: usa un modelo con fine-tuning dentro de un bucle de prompt engineering. El modelo con fine-tuning maneja tareas especializadas, mientras un prompt engineer añade contexto y lógica de enrutamiento.
- Usa prompt engineering para enrutar peticiones: "¿Es esto un documento legal, una nota médica o un informe financiero?"
- Usa fine-tuning para modelos especializados: un modelo legal con fine-tuning, un modelo médico con fine-tuning, un modelo financiero con fine-tuning.
- Usa prompt engineering para el formato del output: incluso un modelo con fine-tuning se beneficia de instrucciones claras de formato.
- Combina para coste: haz fine-tuning en el 10% de los edge cases, enruta el 90% a través de prompt engineering más barato.
🔍 La trampa del mantenimiento
Cada vez que se lanza una nueva versión del modelo, los modelos con fine-tuning quedan obsoletos. Debes reentrenarlos. El prompt engineering solo requiere ajustes. Presupuesta para los costes anuales de reentrenamiento de fine-tuning — se acumulan.
Comparativa de estructura de costes
| Tipo de proveedor | Coste de Prompt Engineering | Coste de Fine-Tuning | Coste de Inferencia |
|---|---|---|---|
| Modelos propietarios | Bajo por inferencia | Inversión inicial significativa | Más alto para modelos con fine-tuning |
| Open-source en la nube | Bajo por inferencia | Inversión moderada | Variable por proveedor |
| Self-hosted local | Mínimo (tu hardware) | Coste de hardware + tiempo | Inversión única en hardware |
| Enfoque híbrido | Bajo coste inicial | Distribuido en el tiempo | Relación coste-beneficio equilibrada |
🔍 Estructura de costes
Los costes del prompt engineering son variables (por inferencia). Los costes del fine-tuning son front-loaded (entrenamiento) más inferencia continua. La relación coste-beneficio favorece el prompt engineering para la mayoría de casos, con el fine-tuning añadiendo valor solo cuando el rendimiento especializado es crítico.
Cinco errores comunes
❌ Hacer fine-tuning antes de testear prompts
Why it hurts: Los equipos saltan al fine-tuning sin iterar seriamente sobre los prompts. Resultado: $3.000 gastados en fine-tuning cuando $0 de prompt engineering habría funcionado.
Fix: Testea el prompt engineering primero. Ejecuta 30–50 ejemplos con 3–5 variaciones de prompts. Solo haz fine-tuning si el mejor prompt sigue fallando el 20%+ del tiempo.
❌ Entrenar en datasets pequeños
Why it hurts: Fine-tuning en 20 ejemplos por clase. Resultado: overfitting, el modelo falla en nuevos ejemplos.
Fix: Recopila al menos 100 ejemplos por categoría. Idealmente 500+. Verifica que tus distribuciones de entrenamiento y test coincidan con datos del mundo real.
❌ Olvidar los costes de inferencia
Why it hurts: Los equipos calculan el coste del fine-tuning ($2.000) pero olvidan que los modelos con fine-tuning cuestan 2–3× más en ejecución.
Fix: Calcula el coste total de propiedad: entrenamiento + (coste de inferencia por llamada × volumen esperado × horizonte temporal).
❌ Ignorar el versionado del modelo
Why it hurts: Un modelo con fine-tuning funciona genial, luego GPT-4o se actualiza. El modelo con fine-tuning está ahora desactualizado y debe reentrenarse.
Fix: Presupuesta para reentrenamiento anual o migración a nuevos modelos. Documenta en qué versión del modelo base está cada fine-tune.
❌ Fine-tuning del modelo incorrecto
Why it hurts: Fine-tuning de un modelo demasiado pequeño para la tarea (p.ej. un modelo 7B para razonamiento complejo).
Fix: Empieza con el modelo más grande que puedas permitirte. Haz fine-tuning para optimizar costes, no para arreglar un modelo base débil.
Preguntas frecuentes
¿Qué enfoque debo probar primero?
Siempre empieza con prompt engineering. Es gratis, instantáneo y reversible. Solo pasa al fine-tuning si el prompt engineering falla en intentos repetidos.
¿Cómo obtengo datos de entrenamiento para el fine-tuning?
Recopila tus propios ejemplos, usa datasets existentes o contrata anotadores. La calidad de los datos importa más que la cantidad.
¿Puedo hacer fine-tuning de un modelo ya con fine-tuning?
Técnicamente sí, pero raramente es necesario. Normalmente haz fine-tuning una vez con tus mejores datos.
¿Qué es el fine-tuning LoRA?
La Adaptación de Bajo Rango es una técnica que hace fine-tuning solo de una parte del modelo, reduciendo los requisitos de recursos y coste.
¿Debo hacer fine-tuning localmente o en la nube?
El fine-tuning en la nube es más fácil y rápido. El fine-tuning local te da control sobre la privacidad de datos y la infraestructura.
¿Cuánto tiempo lleva el fine-tuning?
El fine-tuning lleva un tiempo considerable — semanas a meses dependiendo del tamaño de los datos, el tamaño del modelo y el hardware.
¿Y si el fine-tuning no ayuda?
Puede que tengas el modelo base incorrecto, datos de entrenamiento insuficientes o expectativas poco realistas. Prueba primero un modelo más grande o más datos.
¿Puedo combinar prompt engineering con fine-tuning?
Sí, esta es la mejor práctica. Usa fine-tuning para la competencia core y prompt engineering para flexibilidad y lógica de enrutamiento.
Artículos relacionados
Contexto global
El prompt engineering y el fine-tuning tienen implicaciones de coste y cumplimiento diferentes en distintas regiones. En EE.UU. y Europa, el prompt engineering domina debido a los beneficios de coste y la simplicidad regulatoria. En los mercados Asia-Pacífico, el fine-tuning ofrece ventajas únicas para la localización (tareas en japonés, chino, coreano) donde los modelos base suelen estar entrenados principalmente en inglés.