PromptQuorumPromptQuorum
Accueil/LLMs locaux/Créer des LLMs locaux personnalisés en 2026 : Fine-tuning vs. Pre-training avec Unsloth et Ollama
Techniques avancées

Créer des LLMs locaux personnalisés en 2026 : Fine-tuning vs. Pre-training avec Unsloth et Ollama

·12 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Créer des LLMs locaux personnalisés signifie affiner un modèle existant ou pré-entraîner à partir de zéro. En avril 2026, le fine-tuning avec LoRA est pratique sur du matériel grand public : 500 exemples, 8 GB VRAM, 1–2 heures, 100–500 €.

Créer des LLMs locaux personnalisés signifie affiner un modèle existant ou pré-entraîner à partir de zéro. En avril 2026, le fine-tuning avec LoRA est pratique sur du matériel grand public : 500 exemples, 8 GB VRAM, 1–2 heures, 100–500 €. Le pré-entraînement coûte 50 000–500 000 € et nécessite 10 milliards+ tokens — justifié uniquement pour les besoins propriétaires rares. Ce guide couvre les deux approches : le chemin de fine-tuning en 7 étapes avec Unsloth, la matrice de décision fine-tuning vs. pré-entraînement vs. RAG, et le déploiement sur Ollama.

Présentation: Créer des LLMs locaux personnalisés en 2026 : Fine-tuning vs. Pre-training avec Unsloth et Ollama

Le diaporama couvre : analyse fine-tuning vs pre-training, chemin 7 étapes Unsloth, déploiement GGUF, métriques prêt production. Téléchargez comme carte référence fine-tuning LLM personnalisé.

Parcourez les diapositives ci-dessous ou téléchargez en PDF. Télécharger la fiche de référence (PDF)

Points clés

  • Fine-tuning (recommandé) : 8 GB VRAM, 500+ exemples d'entraînement, 1-4 heures. Coût : 100-500 €.
  • Pre-training : 8+ GPUs, 100B+ tokens, semaines d'entraînement. Coût : 50 000-500 000 €.
  • Plupart organisations devraient fine-tuner, pas pre-trainer. Rendements décroissants pre-training personnalisé.
  • Meilleure approche : Commencez fine-tuning données domaine, puis évaluez si pre-training justifié.
  • Avril 2026, pre-training rarement justifié sauf si vous avez besoin modèle propriétaire.

Fine-Tuning vs Pre-Training

AspectFine-TuningPre-Training
Temps entraînement1-4 heuresSemaines-mois
VRAM requis8 GB100+ GB (multi-GPU)
Données requises500-5k exemples100B+ tokens
Coût100-500 €50 000-500 000 €
PersonnalisationConnaissance domaineModèle propriétaire
Quand l'utiliser99% casBesoins spécialisés rares
Fine-tuning (1–4 heures, 100–500 €, 8 GB VRAM) vs pre-training (semaines–mois, 50 000–500 000 €, 100+ GB) : comparaison temps, coût, exigences données et quand utiliser chaque approche.
Fine-tuning (1–4 heures, 100–500 €, 8 GB VRAM) vs pre-training (semaines–mois, 50 000–500 000 €, 100+ GB) : comparaison temps, coût, exigences données et quand utiliser chaque approche.

Chemin Fine-Tuning (Recommandé)

  1. 1
    Collectez 500-5 000 exemples spécifiques domaine (qualité importe).
  2. 2
    Choisissez modèle base (Llama 3.1 8B, Qwen 7B, etc.).
  3. 3
    Utilisez LoRA entraînement efficace (4× plus rapide, même qualité).
  4. 4
    Entraînez 3-5 epochs sur GPU.
  5. 5
    Évaluez sur ensemble test (précision, rappel, métriques personnalisées).
  6. 6
    Fusionnez adaptateur LoRA dans modèle base.
  7. 7
    Déployez comme modèle production.
Workflow fine-tuning 7 étapes : collecter données → choisir modèle base → entraîner LoRA (3–5 epochs, 8 GB VRAM) → évaluer → fusionner → convertir GGUF → déployer Ollama. Temps total : 1–4 heures.
Workflow fine-tuning 7 étapes : collecter données → choisir modèle base → entraîner LoRA (3–5 epochs, 8 GB VRAM) → évaluer → fusionner → convertir GGUF → déployer Ollama. Temps total : 1–4 heures.

LoRA vs Fine-Tuning Complet : Lequel Choisir ?

LoRA (Low-Rank Adaptation) met à jour seulement 1–2% poids modèle, le rendant 4× plus rapide et nécessitant 80–90% moins VRAM que fine-tuning complet. Fine-tuning complet met à jour tous poids et offre meilleurs résultats marginaux (2–5% amélioration précision) mais nécessite 64+ GB VRAM compute significatif.

LoRA (4× plus rapide, 8 GB VRAM, 95–98% précision) vs fine-tuning complet (vitesse baseline, 64+ GB VRAM, +2–5% gain) : tradeoff vitesse-précision exigences VRAM comparaison.
LoRA (4× plus rapide, 8 GB VRAM, 95–98% précision) vs fine-tuning complet (vitesse baseline, 64+ GB VRAM, +2–5% gain) : tradeoff vitesse-précision exigences VRAM comparaison.

Exigences VRAM par Taille Modèle

Pas tous modèles correspondent 8 GB VRAM pour LoRA fine-tuning. Voici ce que vous pouvez exécuter :

Compatibilité VRAM fine-tuning : modèles 3B–8B ✓ travaillent sur 8 GB, 13B ✓ travaille mais serré, 32B nécessite 64+ GB, 70B non faisable. LoRA ajoute ~25% surcharge entraînement batch.
Compatibilité VRAM fine-tuning : modèles 3B–8B ✓ travaillent sur 8 GB, 13B ✓ travaille mais serré, 32B nécessite 64+ GB, 70B non faisable. LoRA ajoute ~25% surcharge entraînement batch.

Déployez Votre Modèle Personnalisé sur Ollama

Après fusionner adaptateur LoRA, déployez sur Ollama en 3 étapes :

  1. 1
    Étape 1 — Exportez vers GGUF : Utilisez script conversion llama.cpp pour convertir modèle fusionné format PyTorch/safetensors vers GGUF. Essentiel compatibilité Ollama llama.cpp. ```bash python convert_hf_to_gguf.py \ --model ./merged-model \ --outfile ./my-custom-model.gguf \ --outtype q4_k_m ```
  2. 2
    Étape 2 — Créez Ollama Modelfile : Définissez system prompt, paramètres, settings inférence modèle. ``` FROM ./my-custom-model.gguf SYSTEM "Vous êtes expert [votre domaine]..." PARAMETER temperature 0.4 PARAMETER num_ctx 4096 ```
  3. 3
    Étape 3 — Enregistrez exécutez : Chargez votre modèle Ollama accès local ou API. ```bash ollama create my-custom-model -f Modelfile ollama run my-custom-model ``` Votre modèle fine-tuné maintenant accessible via API compatible OpenAI Ollama localhost:11434 — identique tout modèle Ollama standard. Utilisez avec Continue.dev, Open WebUI, ou votre application via SDK OpenAI Python/Node.js.

Pre-Training : Quand et Pourquoi

Pre-training signifie apprendre données brutes (livres, documents, code). Justifié seulement si :

1. Vous avez >10 milliards tokens données uniques, précieuses.

2. Modèles pré-entraînés échouent régulièrement votre domaine.

3. Budget >50 000 € (coût réaliste).

4. Vous avez besoin modèle propriétaire (avantage compétitif).

Exemple : Entreprise génomique avec 500GB données recherche privées pourrait justifier pre-training personnalisé.

Matrice Décision : Quelle Approche Utiliser ?

Trois approches principales existent modèles personnalisés. Choisissez selon vos données, budget, timeline :

Matrice décision : utilisez RAG pas données entraînement (0 €), fine-tuning si 500+ exemples (100–500 €, 1–4 heures), ou pre-training si 100B+ tokens (50 000–500 000 €, semaines–mois).
Matrice décision : utilisez RAG pas données entraînement (0 €), fine-tuning si 500+ exemples (100–500 €, 1–4 heures), ou pre-training si 100B+ tokens (50 000–500 000 €, semaines–mois).

Stratégies Adaptation Domaine

Sans pre-training complet, améliorez performance modèle votre domaine :

  • Pre-training continuée : Prenez modèle base, entraînez données domaine (10B+ tokens). Moins cher que pre-training complet.
  • LoRA fine-tuning : Plus pratique. Tune sur 500+ exemples.
  • Prompt engineering : Créez prompts. Gratuit, mais limité.
  • RAG : Récupérez documents, fournissez contexte. Travaille sans retraining.
  • Ensemble : Combinez modèles multiples.

Métriques Évaluation

Mesurez qualité modèle :

  • Métriques spécifiques tâche : Précision, score F1, BLEU (génération texte).
  • Tests benchmark : Exécutez sur benchmarks standards (MMLU, HumanEval).
  • Évaluation humaine : Scoring manuel (consomme temps mais précis).
  • Métriques métier : Le modèle améliore-t-il vraiment résultats métier ?

Erreurs Courantes

  • Pre-training données insuffisantes. <10B tokens compute gaspillé. Fine-tuner plutôt.
  • Pas évaluer correctement. Loss entraînement seul trompeur. Testez données non vues.
  • Attendre modèle personnalisé correspondre GPT-4. Écart modèles ouverts vs frontier models grand.
  • Ignorer coûts inférence. Plus grands modèles personnalisés = coûts inférence plus élevés. Considérez tradeoff.
  • Sauter étape conversion GGUF. Après fine-tuning Unsloth ou HuggingFace, modèle format PyTorch/safetensors. Ollama llama.cpp requièrent GGUF. Utilisez llama.cpp `convert_hf_to_gguf.py` convertir. Sans cette étape, modèle fine-tuné ne peut pas exécuter Ollama, LM Studio, ou moteur inférence basé GGUF. Toujours quantifiez pendant conversion (Q4_K_M recommandé) réduire taille fichier 3–4×.

Questions Fréquemment Posées

Le fine-tuning peut-il égaler la qualité d'un modèle pré-entraîné ?

Les modèles fine-tunés peuvent surpasser modèle base votre domaine spécifique, mais ne correspondent pas largeur connaissance modèle pré-entraîné plus grand. Llama 3.1 8B fine-tuné sur documents juridiques surpassera Llama 3.1 70B sur tâches juridiques, mais sous-performera sur connaissances générales. Fine-tuner quand précision domaine compte plus que largeur.

Combien de données me dois-je utiliser pour fine-tuner efficacement ?

Minimum 500–1 000 exemples modèle utilisable ; 5 000+ qualité production. Qualité données compte plus quantité — 1 000 exemples haute qualité dépassent 50 000 faible qualité. Utilisez LoRA petits ensembles (500–2 000 exemples) et fine-tuning complet seulement 10 000+ exemples.

Quelle est la différence entre LoRA et le fine-tuning complet ?

LoRA (Low-Rank Adaptation) met à jour seulement 1–2% poids modèle, le rendant 4× plus rapide et nécessitant 80–90% moins VRAM. Fine-tuning complet met à jour tous poids et offre meilleurs résultats marginaux (~2–5% amélioration) mais nécessite calcul significatif. Utilisez LoRA plupart projets ; fine-tuning complet seulement budget.

Quand devrais-je considérer le pre-training au lieu du fine-tuning ?

Seulement si : (1) vous avez >10 milliards tokens données uniques, (2) fine-tuning échoue régulièrement atteindre votre cible précision, (3) budget >50 000 €, (4) vous avez besoin modèle propriétaire avantage compétitif. Pour 99% organisations, fine-tuning est le bon choix.

Comment évaluer si mon modèle personnalisé est prêt production ?

Testez sur 3 dimensions : (1) Métriques spécifiques tâche (précision, F1, BLEU), (2) Comparaison benchmark (exécutez sur MMLU ou HumanEval pour comparer modèle base), (3) Métriques métier (améliore-t-il vraiment résultats ?). Si votre modèle fine-tuné surpasse modèle base 5–10% votre tâche, c'est prêt production.

Puis-je combiner fine-tuning et prompt engineering pour meilleurs résultats ?

Oui — c'est meilleure pratique. Fine-tuning gère changements structurels (langage domaine, format) ; prompt engineering gère cas spécifiques. Modèle juridique fine-tuné + bonne ingénierie prompt surpassera l'un ou l'autre seul. Commencez optimisation prompt (gratuit), puis fine-tuning si nécessaire.

Quel framework devrais-je utiliser pour fine-tuning ?

Unsloth (plus rapide), Axolotl (flexible), et Hugging Face Transformers (officiel, très documenté) sont options principales. Unsloth recommandé pour vitesse ; Axolotl pour configurations multi-GPU. Tous supportent LoRA et fonctionnent avec Ollama déploiement.

Comment savoir si pre-training vaut le coût ?

Faites ce calcul : (1) Estimez écart qualité fine-tuning votre tâche (ex. fine-tuning atteint 85%, pre-training pourrait 92%). (2) Quantifiez valeur métier par point précision (ex. +1% = 10 000€ revenue). (3) Si (50 000€ coût pre-training) < (valeur 7% amélioration), pré-entraîner. Sinon, fine-tuner.

Considérations Régionales pour Modèles Personnalisés

Modèles personnalisés présentent implications privacy données et conformité réglementaire varient par région. Avant déployer modèle fine-tuné ou pré-entraîné, comprenez exigences conformité régionale :

  • Europe (RGPD) : Fine-tuning modèle données personnelles requiert consentement sujets données et accords traitement documentés. RGPD Article 5 (minimisation données) suggère fine-tuning données anonymisées ou synthétiques si possible. Modèles pré-entraînés données non-UE peuvent requérir gouvernance supplémentaire avant déploiement régions UE.
  • Japon (APPI) : Loi Protection Informations Personnelles Japon requiert consentement explicite pour entraînement données personnelles. Modèles personnalisés services santé ou financiers requièrent résidence données (traitement doit occurrence au Japon). Considérez fine-tuning on-premises et déploiement.
  • Chine (DSL + CAC) : Loi Sécurité Données Chine et règles Administration Cyberespace requièrent traitement local données personnelles et industrielles. Modèles personnalisés entraînés données chinoises doivent entraînés infrastructure chinoise. Modèles pré-entraînement pour déploiement Chine requièrent enregistrement CAC.
  • États-Unis : Pas régulation LLM fédérale (avril 2026). Règles niveau état varient ; lois Californie focus transparence algorithmique. Pour modèles finance/santé, organismes réglementaires (SEC, FDA, CMS) peuvent imposer exigences documentation. Considérez pistes audit pour changements modèle.

Sources

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Créer des LLMs locaux 2026 : Fine-Tuning 500 $ vs Pré-entraînement 50K $