Key Takeaways
- Fine-tuning (recomendado): 8 GB VRAM, 500+ ejemplos de entrenamiento, 1–4 horas. Costo: $100–500.
- Pre-training: 8+ GPU, 100B+ tokens, semanas de entrenamiento. Costo: $50K–500K.
- La mayoría de las organizaciones debería hacer fine-tuning, no pre-training. Rendimientos decrecientes para el pre-training personalizado.
- Mejor enfoque: Empieza con fine-tuning en tus datos de dominio, luego evalúa si el pre-training está justificado.
- A partir de abril de 2026, el pre-training rara vez está justificado a menos que necesites un modelo propietario.
Fine-Tuning vs Pre-Training
| Aspecto | Fine-Tuning | Pre-Training |
|---|---|---|
| Tiempo de entrenamiento | 1–4 horas | Semanas–meses |
| VRAM requerida | 8 GB | 100+ GB (multi-GPU) |
| Datos requeridos | 500–5k ejemplos | 100B+ tokens |
| Costo | $100–500 | $50K–500K |
| Personalización | Conocimiento de dominio | Modelo propietario |
| Cuándo usar | 99% de los casos | Necesidades especializadas raras |
Camino de Fine-Tuning (Recomendado)
- 1Recolecta 500–5,000 ejemplos específicos del dominio (la calidad importa).
- 2Elige el modelo base (Llama 3.1 8B, Qwen 7B, etc.).
- 3Usa LoRA para entrenamiento eficiente (4× más rápido, misma calidad).
- 4Entrena durante 3–5 epochs en GPU.
- 5Evalúa en el conjunto de prueba (precisión, recall, métricas personalizadas).
- 6Fusiona el adaptador LoRA en el modelo base.
- 7Despliega como modelo de producción.
LoRA vs Fine-Tuning Completo: ¿Cuál elegir?
LoRA (Low-Rank Adaptation) actualiza solo el 1–2% de los pesos del modelo, haciéndolo 4× más rápido y requiriendo 80–90% menos VRAM que el fine-tuning completo. El fine-tuning completo actualiza todos los pesos y ofrece resultados marginalmente mejores (2–5% de mejora en precisión) pero requiere 64+ GB VRAM y cómputo significativo.
Requisitos de VRAM por Tamaño de Modelo
No todos los modelos caben en 8 GB VRAM para fine-tuning con LoRA. Esto es lo que puedes ejecutar:
Desplegando tu Modelo Personalizado en Ollama
Después de fusionar el adaptador LoRA, despliega en Ollama en 3 pasos:
- 1Paso 1 — Exportar a GGUF: Usa el script de conversión de llama.cpp para convertir tu modelo fusionado del formato PyTorch/safetensors a GGUF. Esto es esencial para la compatibilidad con Ollama y llama.cpp. ```bash python convert_hf_to_gguf.py \ --model ./merged-model \ --outfile ./my-custom-model.gguf \ --outtype q4_k_m ```
- 2Paso 2 — Crear el Ollama Modelfile: Define el system prompt, parámetros y configuración de inferencia de tu modelo. ``` FROM ./my-custom-model.gguf SYSTEM "You are a [your domain] expert..." PARAMETER temperature 0.4 PARAMETER num_ctx 4096 ```
- 3Paso 3 — Registrar y ejecutar: Carga tu modelo en Ollama para acceso local o vía API. ```bash ollama create my-custom-model -f Modelfile ollama run my-custom-model ``` Tu modelo con fine-tuning ahora es accesible a través de la API compatible con OpenAI de Ollama en localhost:11434 — idéntico a cualquier modelo estándar de Ollama. Úsalo con Continue.dev, Open WebUI o tu propia aplicación mediante el SDK OpenAI de Python/Node.js.
Pre-Training: Cuándo y Por Qué
El pre-training significa aprender de datos en bruto (libros, documentos, código). Solo está justificado si:
1. Tienes más de 10 mil millones de tokens de datos únicos y valiosos.
2. Los modelos pre-entrenados fallan consistentemente en tu dominio.
3. El presupuesto es mayor a $50K (costo realista).
4. Necesitas un modelo propietario (ventaja competitiva).
Ejemplo: Una empresa de genómica con 500 GB de datos de investigación privados podría justificar el pre-training personalizado.
Matriz de Decisión: ¿Qué Enfoque Usar?
Existen tres enfoques principales para modelos personalizados. Elige según tus datos, presupuesto y plazos:
Estrategias de Adaptación de Dominio
Sin hacer pre-training completo, mejora el rendimiento del modelo en tu dominio:
- Pre-training continuado: Toma el modelo base, entrena en tus datos de dominio (10B+ tokens). Más barato que el pre-training completo.
- Fine-tuning con LoRA: El más práctico. Ajusta con 500+ ejemplos.
- Prompt engineering: Diseña buenos prompts. Gratis, pero limitado.
- RAG: Recupera documentos, proporciona contexto. Funciona sin reentrenamiento.
- Ensemble: Combina múltiples modelos.
Métricas de Evaluación
Mide la calidad del modelo:
- Métricas específicas de la tarea: Precisión, F1 score, BLEU (para generación de texto).
- Pruebas de benchmark: Ejecuta en benchmarks estándar (MMLU, HumanEval).
- Evaluación humana: Puntuación manual (consume tiempo pero es precisa).
- Métricas de negocio: ¿El modelo mejora los resultados reales del negocio?
Errores Comunes
- Pre-training sin datos suficientes. Menos de 10B tokens es cómputo desperdiciado. Haz fine-tuning en su lugar.
- No evaluar correctamente. Solo la pérdida de entrenamiento es engañosa. Prueba con datos no vistos.
- Esperar que el modelo personalizado iguale a GPT-4. La brecha entre modelos abiertos y modelos de frontera es grande.
- Ignorar los costos de inferencia. Modelos personalizados más grandes = costos de inferencia más altos. Considera el compromiso.
- Omitir el paso de conversión a GGUF. Después de hacer fine-tuning con Unsloth o HuggingFace, tu modelo está en formato PyTorch/safetensors. Ollama y llama.cpp requieren GGUF. Usa `convert_hf_to_gguf.py` de llama.cpp para convertir. Sin este paso, tu modelo con fine-tuning no puede ejecutarse en Ollama, LM Studio ni ningún motor de inferencia basado en GGUF. Siempre cuantiza durante la conversión (se recomienda Q4_K_M) para reducir el tamaño del archivo 3–4×.
Preguntas Frecuentes
¿Puede el fine-tuning igualar la calidad de un modelo pre-entrenado?
Los modelos con fine-tuning pueden superar el rendimiento del modelo base en tu dominio específico, pero no alcanzarán la amplitud de conocimiento de un modelo pre-entrenado más grande. Llama 3.1 8B con fine-tuning en documentos legales superará a Llama 3.1 70B en tareas legales, pero tendrá peor desempeño en conocimiento general. Haz fine-tuning cuando la precisión específica del dominio importa más que la amplitud.
¿Cuántos datos necesito para hacer fine-tuning de manera efectiva?
Mínimo 500–1,000 ejemplos para un modelo utilizable; 5,000+ para calidad de producción. La calidad de los datos importa más que la cantidad — 1,000 ejemplos de alta calidad superan a 50,000 de baja calidad. Usa LoRA para datasets pequeños (500–2,000 ejemplos) y fine-tuning completo solo con 10,000+ ejemplos.
¿Cuál es la diferencia entre LoRA y el fine-tuning completo?
LoRA (Low-Rank Adaptation) actualiza solo una pequeña fracción de los pesos (~1–2% del tamaño del modelo), haciéndolo 4× más rápido y requiriendo 80–90% menos VRAM. El fine-tuning completo actualiza todos los pesos y da resultados marginalmente mejores (~2–5% de mejora en precisión) pero requiere cómputo significativo. Usa LoRA para la mayoría de los proyectos; fine-tuning completo solo cuando tengas el presupuesto.
¿Cuándo debería considerar el pre-training en lugar del fine-tuning?
Solo si: (1) tienes más de 10 mil millones de tokens de datos únicos, (2) el fine-tuning falla consistentemente en alcanzar tu objetivo de precisión, (3) el presupuesto es mayor a $50,000, y (4) necesitas un modelo propietario para ventaja competitiva. Para el 99% de las organizaciones, el fine-tuning es la elección correcta.
¿Cómo evalúo si mi modelo personalizado está listo para producción?
Prueba en 3 dimensiones: (1) Métricas específicas de la tarea (precisión, F1, BLEU), (2) Comparación con benchmarks (ejecuta en MMLU o HumanEval para comparar contra el modelo base), (3) Métricas de negocio (¿mejora los resultados reales?). Si tu modelo con fine-tuning supera al modelo base en un 5–10% en tu tarea, está listo para producción.
¿Puedo combinar fine-tuning con prompt engineering para mejores resultados?
Sí — esta es la mejor práctica. El fine-tuning maneja cambios estructurales (lenguaje del dominio, formato); el prompt engineering maneja casos de uso específicos. Un modelo legal con fine-tuning + buen prompt engineering superará a cualquiera de los dos por separado. Empieza con optimización de prompts (gratis), luego haz fine-tuning si es necesario.
¿Qué framework debería usar para el fine-tuning?
Unsloth (más rápido), Axolotl (flexible) y Hugging Face Transformers (oficial, más documentado) son las principales opciones. Unsloth es recomendado por velocidad; Axolotl para configuraciones multi-GPU. Todos soportan LoRA y funcionan con Ollama para el despliegue.
¿Cómo sé si el pre-training vale el costo?
Haz este cálculo: (1) Estima la brecha de calidad entre fine-tuning y pre-training en tu tarea (ej. fine-tuning llega al 85%, pre-training podría llegar al 92%). (2) Cuantifica el valor de negocio por punto de precisión (ej. +1% de precisión = $10k de ingresos). (3) Si ($50k costo de pre-training) < (valor de la mejora del 7%), entonces haz pre-training. Si no, haz fine-tuning.
Consideraciones Regionales para Modelos Personalizados
Los modelos personalizados presentan implicaciones de privacidad de datos y cumplimiento normativo que varían por región. Antes de desplegar un modelo con fine-tuning o pre-entrenado, comprende los requisitos de cumplimiento de tu región:
- Europa (RGPD/GDPR): El fine-tuning con datos personales requiere consentimiento de los titulares y acuerdos documentados de procesamiento. El artículo 5 del RGPD (minimización de datos) sugiere hacer fine-tuning con datos anonimizados o sintéticos siempre que sea posible. Los modelos pre-entrenados en datos fuera de la UE pueden requerir gobernanza adicional antes del despliegue en regiones de la UE.
- México (LFPDPPP): La Ley Federal de Protección de Datos Personales en Posesión de los Particulares exige el consentimiento explícito para el entrenamiento con datos personales. Para modelos en sectores de salud y finanzas, se recomiendan infraestructuras locales y documentación del propósito del tratamiento.
- Argentina (Ley 25.326) y Colombia (Ley 1581): Ambas legislaciones de protección de datos establecen principios de finalidad, calidad y seguridad. El fine-tuning con datos de ciudadanos requiere bases legales claras y registro ante la autoridad competente. Se recomienda el fine-tuning on-premises para modelos que procesen datos sensibles.
- Estados Unidos: Sin regulación federal de LLM (a partir de abril de 2026). Las reglas a nivel estatal varían; las leyes de California se centran en la transparencia algorítmica. Para modelos financieros o de salud, los organismos reguladores (SEC, FDA, CMS) pueden imponer requisitos de documentación. Considera auditorías de los cambios en el modelo.
Fuentes
- Chinchilla Scaling Laws -- Asignación óptima de cómputo para entrenamiento e inferencia.
- Instruction Tuning Survey -- Revisión exhaustiva de enfoques de fine-tuning.
- LoRA: Low-Rank Adaptation -- Método de fine-tuning eficiente.
- Hugging Face Fine-Tuning Guide -- Documentación oficial de fine-tuning.