Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/Crear LLMs Locales Personalizados 2026: Fine-Tuning vs Pre-Training con Unsloth y Ollama
Advanced Techniques

Crear LLMs Locales Personalizados 2026: Fine-Tuning vs Pre-Training con Unsloth y Ollama

·12 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Crear LLMs locales personalizados significa hacer fine-tuning de un modelo existente o pre-entrenar desde cero. A partir de abril de 2026, el fine-tuning con LoRA es práctico en hardware de consumo: 500 ejemplos, 8 GB VRAM, 1–2 horas, $100–500. El pre-training cuesta $50K–500K y requiere más de 10B tokens — justificado solo para necesidades propietarias excepcionales. Esta guía cubre ambos enfoques: el camino de fine-tuning en 7 pasos con Unsloth, la matriz de decisión entre fine-tuning vs pre-training vs RAG, y el despliegue en Ollama.

Crear LLMs locales personalizados significa hacer fine-tuning de un modelo existente o pre-entrenar desde cero. A partir de abril de 2026, el fine-tuning con LoRA es práctico en hardware de consumo: 500 ejemplos, 8 GB VRAM, 1–2 horas, $100–500. El pre-training cuesta $50K–500K y requiere más de 10B tokens — justificado solo para necesidades propietarias excepcionales. Esta guía cubre ambos enfoques: el camino de fine-tuning en 7 pasos con Unsloth, la matriz de decisión entre fine-tuning vs pre-training vs RAG, y el despliegue en Ollama.

Slide Deck: Crear LLMs Locales Personalizados 2026: Fine-Tuning vs Pre-Training con Unsloth y Ollama

Las diapositivas cubren: análisis fine-tuning vs pre-training, el camino de 7 pasos con Unsloth, despliegue GGUF y métricas de preparación para producción. Descarga como tarjeta de referencia de fine-tuning de LLM personalizado.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

  • Fine-tuning (recomendado): 8 GB VRAM, 500+ ejemplos de entrenamiento, 1–4 horas. Costo: $100–500.
  • Pre-training: 8+ GPU, 100B+ tokens, semanas de entrenamiento. Costo: $50K–500K.
  • La mayoría de las organizaciones debería hacer fine-tuning, no pre-training. Rendimientos decrecientes para el pre-training personalizado.
  • Mejor enfoque: Empieza con fine-tuning en tus datos de dominio, luego evalúa si el pre-training está justificado.
  • A partir de abril de 2026, el pre-training rara vez está justificado a menos que necesites un modelo propietario.

Fine-Tuning vs Pre-Training

AspectoFine-TuningPre-Training
Tiempo de entrenamiento1–4 horasSemanas–meses
VRAM requerida8 GB100+ GB (multi-GPU)
Datos requeridos500–5k ejemplos100B+ tokens
Costo$100–500$50K–500K
PersonalizaciónConocimiento de dominioModelo propietario
Cuándo usar99% de los casosNecesidades especializadas raras
Fine-tuning (1–4 horas, $100–500, 8 GB VRAM) vs pre-training (semanas–meses, $50K–500K, 100+ GB): comparación de tiempo de entrenamiento, costo, requisitos de datos y cuándo usar cada enfoque.
Fine-tuning (1–4 horas, $100–500, 8 GB VRAM) vs pre-training (semanas–meses, $50K–500K, 100+ GB): comparación de tiempo de entrenamiento, costo, requisitos de datos y cuándo usar cada enfoque.

Camino de Fine-Tuning (Recomendado)

  1. 1
    Recolecta 500–5,000 ejemplos específicos del dominio (la calidad importa).
  2. 2
    Elige el modelo base (Llama 3.1 8B, Qwen 7B, etc.).
  3. 3
    Usa LoRA para entrenamiento eficiente (4× más rápido, misma calidad).
  4. 4
    Entrena durante 3–5 epochs en GPU.
  5. 5
    Evalúa en el conjunto de prueba (precisión, recall, métricas personalizadas).
  6. 6
    Fusiona el adaptador LoRA en el modelo base.
  7. 7
    Despliega como modelo de producción.
Flujo de trabajo de fine-tuning en 7 pasos: recolectar datos → elegir modelo base → entrenar con LoRA (3–5 epochs, 8 GB VRAM) → evaluar → fusionar → convertir a GGUF → desplegar en Ollama. Tiempo total: 1–4 horas.
Flujo de trabajo de fine-tuning en 7 pasos: recolectar datos → elegir modelo base → entrenar con LoRA (3–5 epochs, 8 GB VRAM) → evaluar → fusionar → convertir a GGUF → desplegar en Ollama. Tiempo total: 1–4 horas.

LoRA vs Fine-Tuning Completo: ¿Cuál elegir?

LoRA (Low-Rank Adaptation) actualiza solo el 1–2% de los pesos del modelo, haciéndolo 4× más rápido y requiriendo 80–90% menos VRAM que el fine-tuning completo. El fine-tuning completo actualiza todos los pesos y ofrece resultados marginalmente mejores (2–5% de mejora en precisión) pero requiere 64+ GB VRAM y cómputo significativo.

LoRA (4× más rápido, 8 GB VRAM, 95–98% de precisión) vs fine-tuning completo (velocidad base, 64+ GB VRAM, +2–5% de ganancia): comparación del compromiso velocidad-precisión y requisitos de VRAM.
LoRA (4× más rápido, 8 GB VRAM, 95–98% de precisión) vs fine-tuning completo (velocidad base, 64+ GB VRAM, +2–5% de ganancia): comparación del compromiso velocidad-precisión y requisitos de VRAM.

Requisitos de VRAM por Tamaño de Modelo

No todos los modelos caben en 8 GB VRAM para fine-tuning con LoRA. Esto es lo que puedes ejecutar:

Compatibilidad de VRAM para fine-tuning: modelos 3B–8B ✓ funcionan en 8 GB, 13B ✓ funciona pero ajustado, 32B requiere 64+ GB, 70B no es viable. LoRA añade ~25% de overhead para entrenamiento por lotes.
Compatibilidad de VRAM para fine-tuning: modelos 3B–8B ✓ funcionan en 8 GB, 13B ✓ funciona pero ajustado, 32B requiere 64+ GB, 70B no es viable. LoRA añade ~25% de overhead para entrenamiento por lotes.

Desplegando tu Modelo Personalizado en Ollama

Después de fusionar el adaptador LoRA, despliega en Ollama en 3 pasos:

  1. 1
    Paso 1 — Exportar a GGUF: Usa el script de conversión de llama.cpp para convertir tu modelo fusionado del formato PyTorch/safetensors a GGUF. Esto es esencial para la compatibilidad con Ollama y llama.cpp. ```bash python convert_hf_to_gguf.py \ --model ./merged-model \ --outfile ./my-custom-model.gguf \ --outtype q4_k_m ```
  2. 2
    Paso 2 — Crear el Ollama Modelfile: Define el system prompt, parámetros y configuración de inferencia de tu modelo. ``` FROM ./my-custom-model.gguf SYSTEM "You are a [your domain] expert..." PARAMETER temperature 0.4 PARAMETER num_ctx 4096 ```
  3. 3
    Paso 3 — Registrar y ejecutar: Carga tu modelo en Ollama para acceso local o vía API. ```bash ollama create my-custom-model -f Modelfile ollama run my-custom-model ``` Tu modelo con fine-tuning ahora es accesible a través de la API compatible con OpenAI de Ollama en localhost:11434 — idéntico a cualquier modelo estándar de Ollama. Úsalo con Continue.dev, Open WebUI o tu propia aplicación mediante el SDK OpenAI de Python/Node.js.

Pre-Training: Cuándo y Por Qué

El pre-training significa aprender de datos en bruto (libros, documentos, código). Solo está justificado si:

1. Tienes más de 10 mil millones de tokens de datos únicos y valiosos.

2. Los modelos pre-entrenados fallan consistentemente en tu dominio.

3. El presupuesto es mayor a $50K (costo realista).

4. Necesitas un modelo propietario (ventaja competitiva).

Ejemplo: Una empresa de genómica con 500 GB de datos de investigación privados podría justificar el pre-training personalizado.

Matriz de Decisión: ¿Qué Enfoque Usar?

Existen tres enfoques principales para modelos personalizados. Elige según tus datos, presupuesto y plazos:

Matriz de decisión: usa RAG si no tienes datos de entrenamiento ($0), fine-tuning si tienes 500+ ejemplos ($100–500, 1–4 horas), o pre-training si tienes 100B+ tokens ($50K–500K, semanas–meses).
Matriz de decisión: usa RAG si no tienes datos de entrenamiento ($0), fine-tuning si tienes 500+ ejemplos ($100–500, 1–4 horas), o pre-training si tienes 100B+ tokens ($50K–500K, semanas–meses).

Estrategias de Adaptación de Dominio

Sin hacer pre-training completo, mejora el rendimiento del modelo en tu dominio:

  • Pre-training continuado: Toma el modelo base, entrena en tus datos de dominio (10B+ tokens). Más barato que el pre-training completo.
  • Fine-tuning con LoRA: El más práctico. Ajusta con 500+ ejemplos.
  • Prompt engineering: Diseña buenos prompts. Gratis, pero limitado.
  • RAG: Recupera documentos, proporciona contexto. Funciona sin reentrenamiento.
  • Ensemble: Combina múltiples modelos.

Métricas de Evaluación

Mide la calidad del modelo:

  • Métricas específicas de la tarea: Precisión, F1 score, BLEU (para generación de texto).
  • Pruebas de benchmark: Ejecuta en benchmarks estándar (MMLU, HumanEval).
  • Evaluación humana: Puntuación manual (consume tiempo pero es precisa).
  • Métricas de negocio: ¿El modelo mejora los resultados reales del negocio?

Errores Comunes

  • Pre-training sin datos suficientes. Menos de 10B tokens es cómputo desperdiciado. Haz fine-tuning en su lugar.
  • No evaluar correctamente. Solo la pérdida de entrenamiento es engañosa. Prueba con datos no vistos.
  • Esperar que el modelo personalizado iguale a GPT-4. La brecha entre modelos abiertos y modelos de frontera es grande.
  • Ignorar los costos de inferencia. Modelos personalizados más grandes = costos de inferencia más altos. Considera el compromiso.
  • Omitir el paso de conversión a GGUF. Después de hacer fine-tuning con Unsloth o HuggingFace, tu modelo está en formato PyTorch/safetensors. Ollama y llama.cpp requieren GGUF. Usa `convert_hf_to_gguf.py` de llama.cpp para convertir. Sin este paso, tu modelo con fine-tuning no puede ejecutarse en Ollama, LM Studio ni ningún motor de inferencia basado en GGUF. Siempre cuantiza durante la conversión (se recomienda Q4_K_M) para reducir el tamaño del archivo 3–4×.

Preguntas Frecuentes

¿Puede el fine-tuning igualar la calidad de un modelo pre-entrenado?

Los modelos con fine-tuning pueden superar el rendimiento del modelo base en tu dominio específico, pero no alcanzarán la amplitud de conocimiento de un modelo pre-entrenado más grande. Llama 3.1 8B con fine-tuning en documentos legales superará a Llama 3.1 70B en tareas legales, pero tendrá peor desempeño en conocimiento general. Haz fine-tuning cuando la precisión específica del dominio importa más que la amplitud.

¿Cuántos datos necesito para hacer fine-tuning de manera efectiva?

Mínimo 500–1,000 ejemplos para un modelo utilizable; 5,000+ para calidad de producción. La calidad de los datos importa más que la cantidad — 1,000 ejemplos de alta calidad superan a 50,000 de baja calidad. Usa LoRA para datasets pequeños (500–2,000 ejemplos) y fine-tuning completo solo con 10,000+ ejemplos.

¿Cuál es la diferencia entre LoRA y el fine-tuning completo?

LoRA (Low-Rank Adaptation) actualiza solo una pequeña fracción de los pesos (~1–2% del tamaño del modelo), haciéndolo 4× más rápido y requiriendo 80–90% menos VRAM. El fine-tuning completo actualiza todos los pesos y da resultados marginalmente mejores (~2–5% de mejora en precisión) pero requiere cómputo significativo. Usa LoRA para la mayoría de los proyectos; fine-tuning completo solo cuando tengas el presupuesto.

¿Cuándo debería considerar el pre-training en lugar del fine-tuning?

Solo si: (1) tienes más de 10 mil millones de tokens de datos únicos, (2) el fine-tuning falla consistentemente en alcanzar tu objetivo de precisión, (3) el presupuesto es mayor a $50,000, y (4) necesitas un modelo propietario para ventaja competitiva. Para el 99% de las organizaciones, el fine-tuning es la elección correcta.

¿Cómo evalúo si mi modelo personalizado está listo para producción?

Prueba en 3 dimensiones: (1) Métricas específicas de la tarea (precisión, F1, BLEU), (2) Comparación con benchmarks (ejecuta en MMLU o HumanEval para comparar contra el modelo base), (3) Métricas de negocio (¿mejora los resultados reales?). Si tu modelo con fine-tuning supera al modelo base en un 5–10% en tu tarea, está listo para producción.

¿Puedo combinar fine-tuning con prompt engineering para mejores resultados?

Sí — esta es la mejor práctica. El fine-tuning maneja cambios estructurales (lenguaje del dominio, formato); el prompt engineering maneja casos de uso específicos. Un modelo legal con fine-tuning + buen prompt engineering superará a cualquiera de los dos por separado. Empieza con optimización de prompts (gratis), luego haz fine-tuning si es necesario.

¿Qué framework debería usar para el fine-tuning?

Unsloth (más rápido), Axolotl (flexible) y Hugging Face Transformers (oficial, más documentado) son las principales opciones. Unsloth es recomendado por velocidad; Axolotl para configuraciones multi-GPU. Todos soportan LoRA y funcionan con Ollama para el despliegue.

¿Cómo sé si el pre-training vale el costo?

Haz este cálculo: (1) Estima la brecha de calidad entre fine-tuning y pre-training en tu tarea (ej. fine-tuning llega al 85%, pre-training podría llegar al 92%). (2) Cuantifica el valor de negocio por punto de precisión (ej. +1% de precisión = $10k de ingresos). (3) Si ($50k costo de pre-training) < (valor de la mejora del 7%), entonces haz pre-training. Si no, haz fine-tuning.

Consideraciones Regionales para Modelos Personalizados

Los modelos personalizados presentan implicaciones de privacidad de datos y cumplimiento normativo que varían por región. Antes de desplegar un modelo con fine-tuning o pre-entrenado, comprende los requisitos de cumplimiento de tu región:

  • Europa (RGPD/GDPR): El fine-tuning con datos personales requiere consentimiento de los titulares y acuerdos documentados de procesamiento. El artículo 5 del RGPD (minimización de datos) sugiere hacer fine-tuning con datos anonimizados o sintéticos siempre que sea posible. Los modelos pre-entrenados en datos fuera de la UE pueden requerir gobernanza adicional antes del despliegue en regiones de la UE.
  • México (LFPDPPP): La Ley Federal de Protección de Datos Personales en Posesión de los Particulares exige el consentimiento explícito para el entrenamiento con datos personales. Para modelos en sectores de salud y finanzas, se recomiendan infraestructuras locales y documentación del propósito del tratamiento.
  • Argentina (Ley 25.326) y Colombia (Ley 1581): Ambas legislaciones de protección de datos establecen principios de finalidad, calidad y seguridad. El fine-tuning con datos de ciudadanos requiere bases legales claras y registro ante la autoridad competente. Se recomienda el fine-tuning on-premises para modelos que procesen datos sensibles.
  • Estados Unidos: Sin regulación federal de LLM (a partir de abril de 2026). Las reglas a nivel estatal varían; las leyes de California se centran en la transparencia algorítmica. Para modelos financieros o de salud, los organismos reguladores (SEC, FDA, CMS) pueden imponer requisitos de documentación. Considera auditorías de los cambios en el modelo.

Fuentes

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Crear LLMs Locales Personalizados 2026: Fine-Tune por $500 vs Pre-Training $50K