Points clés
- Les benchmarks standard ne mesurent pas la qualité créative -- testez directement avec vos propres prompts.
- Meilleure prose: Llama 3.3 70B -- style narratif anglais le plus naturel à l'échelle locale.
- Meilleur 16 GB RAM: Mistral Small 3.1 24B -- sortie créative forte, nettement supérieur aux modèles 7B.
- Meilleur 8 GB RAM: Llama 3.1 8B -- meilleur suivi d'instructions créatives que Qwen2.5 7B.
- Les fine-tunes spécialisés surpassent les modèles de base sur les tâches narratives longues.
Comment évaluer la qualité des LLMs locaux
Les benchmarks objectifs mesurent les connaissances, pas la créativité. Testez directement avec vos prompts :
- Test continuité: donnez les deux premiers paragraphes d'une scène, demandez 500 mots. Ton cohérent?
- Test style: "écrivez dans le style de McCarthy" vs "écrivez de la littérature". Adapte-t-il le style?
- Test cohérence long format: demandez une histoire 1000 mots avec fin surprise. Logique narrative solide?
- Test dialogue: deux personnages différents. Voix distinctes ou uniformes?
#1 Llama 3.3 70B -- meilleure prose localement
Llama 3.3 70B produit la prose anglaise la plus naturelle. Entraîné sur corpus textuels divers, range stylistique très large. Cohérence long format (1K-3K mots) supérieure aux modèles 7B/13B.
Contrainte hardware : 40 GB RAM (Q4_K_M). Pour sessions créatives, vitesse génération lente (8-15 tok/sec CPU) acceptable. Apple M2 Ultra/M5 Max : 20-35 tok/sec.
| Spec | Value |
|---|---|
| Meilleur pour | Fiction long format, prose riche |
| RAM (Q4_K_M) | ~40 GB |
| Plage stylistique | Plus large des modèles locaux |
| Cohérence long | Forte (1K-3K mots) |
| Ollama | ollama run llama3.3:70b |
#2 Mistral Small 3.1 24B -- meilleur 16 GB RAM
Mistral Small 3.1 24B qualité créative notable, entre dans 14 GB RAM. Suivi instructions précis, gère spécifications détaillées sans dérives.
Pour narratif long format sans workstation, c'est le choix pratique.
#3 Llama 3.1 8B -- meilleur 8 GB RAM
À 8 GB RAM, Llama 3.1 8B surpasse Qwen2.5 7B et Mistral 7B. Qwen2.5 plus fort coding, mais prose moins fluide narratif.
Fiable jusqu'à 500 mots. Au-delà 1K mots, cohérence dégrade. Limitation fondamentale 8B pour long format.
#4 Fine-tunes spécialisés fiction/roleplay
Communauté maintient fine-tunes entraînés corpus fiction, surpassent modèles base. Disponibles Hugging Face, chargeable LM Studio/Ollama :
- Fimbulvetr-11B -- fantasy/SF haute qualité. Détails sensoriels, voix personnage cohérente.
- Midnight-Rose-70B -- Llama 3.3 70B fine-tune créatif. Cohérence narrative supérieure.
- Noromaid/Openhermes -- roleplay conversationnel. Qualité prose inférieure, plus réactif.
- Télécharger Hugging Face ("creative writing GGUF"), charger LM Studio ou via `ollama create` Modelfile.
Conseils pour meilleure créativité
- Style concret: "McCarthy -- dialogues épars, longues phrases, sans guillemets" > "fiction littéraire".
- Rôle model: "Vous êtes romancier professionnel." Identité définie améliore instructions.
- Température 0.9-1.1: créatif bénéficie randomness. Ollama défaut 0.8, LM Studio 0.7.
- System prompt: instruction style persistante. "Vous écrivez horreur gothique. Prose sombre atmosphérique."
- Tâches sections: chapitre 3K mots → 6 sections 500 mots. Maintient cohérence fiable.
- Compare local/cloud: PromptQuorum même prompt local + cloud simultané.
Questions fréquentes
Remplace local LLM Claude/GPT-4o fiction?
Court format (<500 mots) : 13B+ local indistinguible blind test. Long format (romans) : Claude Opus 4.7 et GPT-4o cohérence plus fiable. 70B local réduit l'écart.
Modèle se souvient parties antérieures?
Contexte actuel uniquement. Au-delà limit (4K-128K tokens), détails oubliés. Longs projets : résumé début session.
Sources
- Papiers génération story IA -- Recherche cohérence narrative
- Mistral documentation -- Benchmarks créatifs
- Llama 3.1 benchmark -- Évaluation écriture créative
Erreurs courantes
- Modèles optimisés code ≠ créativité -- entraînement différent.
- Attendre narratives multi-romans -- excèlle textes courts.
- Oublier température/sampling pour créativité.