Home/Local LLMs/Crear LLMs Locales Personalizados 2026: Fine-Tuning vs Pre-Training con Unsloth y Ollama

Advanced Techniques

Crear LLMs Locales Personalizados 2026: Fine-Tuning vs Pre-Training con Unsloth y Ollama

Last updated: 14 de junio de 2026·12 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Crear LLMs locales personalizados significa hacer fine-tuning de un modelo existente o pre-entrenar desde cero. A partir de abril de 2026, el fine-tuning con LoRA es práctico en hardware de consumo: 500 ejemplos, 8 GB VRAM, 1–2 horas, $100–500. El pre-training cuesta $50K–500K y requiere más de 10B tokens — justificado solo para necesidades propietarias excepcionales. Esta guía cubre ambos enfoques: el camino de fine-tuning en 7 pasos con Unsloth, la matriz de decisión entre fine-tuning vs pre-training vs RAG, y el despliegue en Ollama.

Slide Deck: Crear LLMs Locales Personalizados 2026: Fine-Tuning vs Pre-Training con Unsloth y Ollama

Las diapositivas cubren: análisis fine-tuning vs pre-training, el camino de 7 pasos con Unsloth, despliegue GGUF y métricas de preparación para producción. Descarga como tarjeta de referencia de fine-tuning de LLM personalizado.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

Fine-tuning (recomendado): 8 GB VRAM, 500+ ejemplos de entrenamiento, 1–4 horas. Costo: $100–500.
Pre-training: 8+ GPU, 100B+ tokens, semanas de entrenamiento. Costo: $50K–500K.
La mayoría de las organizaciones debería hacer fine-tuning, no pre-training. Rendimientos decrecientes para el pre-training personalizado.
Mejor enfoque: Empieza con fine-tuning en tus datos de dominio, luego evalúa si el pre-training está justificado.
A partir de abril de 2026, el pre-training rara vez está justificado a menos que necesites un modelo propietario.

Fine-Tuning vs Pre-Training

Aspecto	Fine-Tuning	Pre-Training
Tiempo de entrenamiento	1–4 horas	Semanas–meses
VRAM requerida	8 GB	100+ GB (multi-GPU)
Datos requeridos	500–5k ejemplos	100B+ tokens
Costo	$100–500	$50K–500K
Personalización	Conocimiento de dominio	Modelo propietario
Cuándo usar	99% de los casos	Necesidades especializadas raras

Fine-tuning (1–4 horas, $100–500, 8 GB VRAM) vs pre-training (semanas–meses, $50K–500K, 100+ GB): comparación de tiempo de entrenamiento, costo, requisitos de datos y cuándo usar cada enfoque.

Camino de Fine-Tuning (Recomendado)

1
Recolecta 500–5,000 ejemplos específicos del dominio (la calidad importa).
2
Elige el modelo base (Llama 3.3 8B, Qwen 7B, etc.).
3
Usa LoRA para entrenamiento eficiente (4× más rápido, misma calidad).
4
Entrena durante 3–5 epochs en GPU.
5
Evalúa en el conjunto de prueba (precisión, recall, métricas personalizadas).
6
Fusiona el adaptador LoRA en el modelo base.
7
Despliega como modelo de producción.

Flujo de trabajo de fine-tuning en 7 pasos: recolectar datos → elegir modelo base → entrenar con LoRA (3–5 epochs, 8 GB VRAM) → evaluar → fusionar → convertir a GGUF → desplegar en Ollama. Tiempo total: 1–4 horas.

LoRA vs Fine-Tuning Completo: ¿Cuál elegir?

LoRA (Low-Rank Adaptation) actualiza solo el 1–2% de los pesos del modelo, haciéndolo 4× más rápido y requiriendo 80–90% menos VRAM que el fine-tuning completo. El fine-tuning completo actualiza todos los pesos y ofrece resultados marginalmente mejores (2–5% de mejora en precisión) pero requiere 64+ GB VRAM y cómputo significativo.

LoRA (4× más rápido, 8 GB VRAM, 95–98% de precisión) vs fine-tuning completo (velocidad base, 64+ GB VRAM, +2–5% de ganancia): comparación del compromiso velocidad-precisión y requisitos de VRAM.

Requisitos de VRAM por Tamaño de Modelo

No todos los modelos caben en 8 GB VRAM para fine-tuning con LoRA. Esto es lo que puedes ejecutar:

Compatibilidad de VRAM para fine-tuning: modelos 3B–8B ✓ funcionan en 8 GB, 13B ✓ funciona pero ajustado, 32B requiere 64+ GB, 70B no es viable. LoRA añade ~25% de overhead para entrenamiento por lotes.

Desplegando tu Modelo Personalizado en Ollama

Después de fusionar el adaptador LoRA, despliega en Ollama en 3 pasos:

1
Paso 1 — Exportar a GGUF: Usa el script de conversión de llama.cpp para convertir tu modelo fusionado del formato PyTorch/safetensors a GGUF. Esto es esencial para la compatibilidad con Ollama y llama.cpp. ```bash python convert_hf_to_gguf.py \ --model ./merged-model \ --outfile ./my-custom-model.gguf \ --outtype q4_k_m ```
2
Paso 2 — Crear el Ollama Modelfile: Define el system prompt, parámetros y configuración de inferencia de tu modelo. ``` FROM ./my-custom-model.gguf SYSTEM "You are a [your domain] expert..." PARAMETER temperature 0.4 PARAMETER num_ctx 4096 ```
3
Paso 3 — Registrar y ejecutar: Carga tu modelo en Ollama para acceso local o vía API. ```bash ollama create my-custom-model -f Modelfile ollama run my-custom-model ``` Tu modelo con fine-tuning ahora es accesible a través de la API compatible con OpenAI de Ollama en localhost:11434 — idéntico a cualquier modelo estándar de Ollama. Úsalo con Continue.dev, Open WebUI o tu propia aplicación mediante el SDK OpenAI de Python/Node.js.

Pre-Training: Cuándo y Por Qué

El pre-training significa aprender de datos en bruto (libros, documentos, código). Solo está justificado si:

1. Tienes más de 10 mil millones de tokens de datos únicos y valiosos.

2. Los modelos pre-entrenados fallan consistentemente en tu dominio.

3. El presupuesto es mayor a $50K (costo realista).

4. Necesitas un modelo propietario (ventaja competitiva).

Ejemplo: Una empresa de genómica con 500 GB de datos de investigación privados podría justificar el pre-training personalizado.

Matriz de Decisión: ¿Qué Enfoque Usar?

Existen tres enfoques principales para modelos personalizados. Elige según tus datos, presupuesto y plazos:

Matriz de decisión: usa RAG si no tienes datos de entrenamiento ($0), fine-tuning si tienes 500+ ejemplos ($100–500, 1–4 horas), o pre-training si tienes 100B+ tokens ($50K–500K, semanas–meses).

Estrategias de Adaptación de Dominio

Sin hacer pre-training completo, mejora el rendimiento del modelo en tu dominio:

Pre-training continuado: Toma el modelo base, entrena en tus datos de dominio (10B+ tokens). Más barato que el pre-training completo.
Fine-tuning con LoRA: El más práctico. Ajusta con 500+ ejemplos.
Prompt engineering: Diseña buenos prompts. Gratis, pero limitado.
RAG: Recupera documentos, proporciona contexto. Funciona sin reentrenamiento.
Ensemble: Combina múltiples modelos.

Métricas de Evaluación

Mide la calidad del modelo:

Métricas específicas de la tarea: Precisión, F1 score, BLEU (para generación de texto).
Pruebas de benchmark: Ejecuta en benchmarks estándar (MMLU, HumanEval).
Evaluación humana: Puntuación manual (consume tiempo pero es precisa).
Métricas de negocio: ¿El modelo mejora los resultados reales del negocio?

Errores Comunes

Pre-training sin datos suficientes. Menos de 10B tokens es cómputo desperdiciado. Haz fine-tuning en su lugar.
No evaluar correctamente. Solo la pérdida de entrenamiento es engañosa. Prueba con datos no vistos.
Esperar que el modelo personalizado iguale a GPT-4. La brecha entre modelos abiertos y modelos de frontera es grande.
Ignorar los costos de inferencia. Modelos personalizados más grandes = costos de inferencia más altos. Considera el compromiso.
Omitir el paso de conversión a GGUF. Después de hacer fine-tuning con Unsloth o HuggingFace, tu modelo está en formato PyTorch/safetensors. Ollama y llama.cpp requieren GGUF. Usa `convert_hf_to_gguf.py` de llama.cpp para convertir. Sin este paso, tu modelo con fine-tuning no puede ejecutarse en Ollama, LM Studio ni ningún motor de inferencia basado en GGUF. Siempre cuantiza durante la conversión (se recomienda Q4_K_M) para reducir el tamaño del archivo 3–4×.

Preguntas Frecuentes

¿Puede el fine-tuning igualar la calidad de un modelo pre-entrenado?

Los modelos con fine-tuning pueden superar el rendimiento del modelo base en tu dominio específico, pero no alcanzarán la amplitud de conocimiento de un modelo pre-entrenado más grande. Llama 3.3 8B con fine-tuning en documentos legales superará a Llama 3.3 70B en tareas legales, pero tendrá peor desempeño en conocimiento general. Haz fine-tuning cuando la precisión específica del dominio importa más que la amplitud.

¿Cuántos datos necesito para hacer fine-tuning de manera efectiva?

Mínimo 500–1,000 ejemplos para un modelo utilizable; 5,000+ para calidad de producción. La calidad de los datos importa más que la cantidad — 1,000 ejemplos de alta calidad superan a 50,000 de baja calidad. Usa LoRA para datasets pequeños (500–2,000 ejemplos) y fine-tuning completo solo con 10,000+ ejemplos.

¿Cuál es la diferencia entre LoRA y el fine-tuning completo?

LoRA (Low-Rank Adaptation) actualiza solo una pequeña fracción de los pesos (~1–2% del tamaño del modelo), haciéndolo 4× más rápido y requiriendo 80–90% menos VRAM. El fine-tuning completo actualiza todos los pesos y da resultados marginalmente mejores (~2–5% de mejora en precisión) pero requiere cómputo significativo. Usa LoRA para la mayoría de los proyectos; fine-tuning completo solo cuando tengas el presupuesto.

¿Cuándo debería considerar el pre-training en lugar del fine-tuning?

Solo si: (1) tienes más de 10 mil millones de tokens de datos únicos, (2) el fine-tuning falla consistentemente en alcanzar tu objetivo de precisión, (3) el presupuesto es mayor a $50,000, y (4) necesitas un modelo propietario para ventaja competitiva. Para el 99% de las organizaciones, el fine-tuning es la elección correcta.

¿Cómo evalúo si mi modelo personalizado está listo para producción?

Prueba en 3 dimensiones: (1) Métricas específicas de la tarea (precisión, F1, BLEU), (2) Comparación con benchmarks (ejecuta en MMLU o HumanEval para comparar contra el modelo base), (3) Métricas de negocio (¿mejora los resultados reales?). Si tu modelo con fine-tuning supera al modelo base en un 5–10% en tu tarea, está listo para producción.

¿Puedo combinar fine-tuning con prompt engineering para mejores resultados?

Sí — esta es la mejor práctica. El fine-tuning maneja cambios estructurales (lenguaje del dominio, formato); el prompt engineering maneja casos de uso específicos. Un modelo legal con fine-tuning + buen prompt engineering superará a cualquiera de los dos por separado. Empieza con optimización de prompts (gratis), luego haz fine-tuning si es necesario.

¿Qué framework debería usar para el fine-tuning?

Unsloth (hasta 2× más rápido, según unsloth.ai), Axolotl (flexible) y Hugging Face Transformers (oficial, más documentado) son las principales opciones. Unsloth es recomendado por velocidad; Axolotl para configuraciones multi-GPU. Todos soportan LoRA y funcionan con Ollama para el despliegue.

¿Cómo sé si el pre-training vale el costo?

Haz este cálculo: (1) Estima la brecha de calidad entre fine-tuning y pre-training en tu tarea (ej. fine-tuning llega al 85%, pre-training podría llegar al 92%). (2) Cuantifica el valor de negocio por punto de precisión (ej. +1% de precisión = $10k de ingresos). (3) Si ($50k costo de pre-training) < (valor de la mejora del 7%), entonces haz pre-training. Si no, haz fine-tuning.

Consideraciones Regionales para Modelos Personalizados

Los modelos personalizados presentan implicaciones de privacidad de datos y cumplimiento normativo que varían por región. Antes de desplegar un modelo con fine-tuning o pre-entrenado, comprende los requisitos de cumplimiento de tu región:

Europa (RGPD/GDPR): El fine-tuning con datos personales requiere consentimiento de los titulares y acuerdos documentados de procesamiento. El artículo 5 del RGPD (minimización de datos) sugiere hacer fine-tuning con datos anonimizados o sintéticos siempre que sea posible. Los modelos pre-entrenados en datos fuera de la UE pueden requerir gobernanza adicional antes del despliegue en regiones de la UE.
México (LFPDPPP): La Ley Federal de Protección de Datos Personales en Posesión de los Particulares exige el consentimiento explícito para el entrenamiento con datos personales. Para modelos en sectores de salud y finanzas, se recomiendan infraestructuras locales y documentación del propósito del tratamiento.
Argentina (Ley 25.326) y Colombia (Ley 1581): Ambas legislaciones de protección de datos establecen principios de finalidad, calidad y seguridad. El fine-tuning con datos de ciudadanos requiere bases legales claras y registro ante la autoridad competente. Se recomienda el fine-tuning on-premises para modelos que procesen datos sensibles.
Estados Unidos: Sin regulación federal de LLM (a partir de abril de 2026). Las reglas a nivel estatal varían; las leyes de California se centran en la transparencia algorítmica. Para modelos financieros o de salud, los organismos reguladores (SEC, FDA, CMS) pueden imponer requisitos de documentación. Considera auditorías de los cambios en el modelo.

Fuentes

Chinchilla Scaling Laws -- Asignación óptima de cómputo para entrenamiento e inferencia.
Instruction Tuning Survey -- Revisión exhaustiva de enfoques de fine-tuning.
LoRA: Low-Rank Adaptation -- Método de fine-tuning eficiente.
Hugging Face Fine-Tuning Guide -- Documentación oficial de fine-tuning.

Nota sobre hechos de terceros

Este artículo hace referencia a modelos de IA, benchmarks, precios y licencias de terceros. El panorama de la IA cambia rápidamente. Las puntuaciones de benchmark, los términos de licencia, los nombres de modelos y los precios de API pueden cambiar entre el momento en que se escribió y cuando usted lo lee. Antes de tomar decisiones de despliegue o cumplimiento basadas en este artículo, verifique las cifras actuales en la fuente oficial de cada proveedor: tarjetas de modelos de Hugging Face para licencias y benchmarks, sitios web de proveedores para precios de API y EUR-Lex para el texto actualizado del RGPD y la Ley de IA de la UE. Este artículo refleja información públicamente disponible a mayo de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs