Key Takeaways
- Os benchmarks padrão (MMLU, HumanEval) não medem a qualidade de escrita criativa — avalie os modelos com os seus próprios prompts de amostra.
- Melhor prosa geral: Llama 3.3 70B — o estilo narrativo em inglês mais natural em escala executável localmente.
- Melhor para 16 GB de RAM: Mistral Small 3.1 24B — forte saída criativa, notavelmente melhor que os modelos de 7B para narrativa de formato longo.
- Melhor para 8 GB de RAM: Llama 3.3 8B — melhor seguimento de instruções criativas que o Qwen3 7B para tarefas de ficção em inglês.
- Os fine-tunes da comunidade (Fimbulvetr-11B, Midnight-Rose-70B) treinados especificamente em ficção criativa superam os modelos base em tarefas narrativas sustentadas.
Como avaliar a qualidade de um LLM local para escrita criativa?
A partir de abril de 2026, o desempenho em escrita criativa não é bem medido pelos benchmarks padrão (MMLU, HumanEval). Para avaliar um modelo para escrita criativa, teste-o diretamente com os tipos de prompts que você planeja usar:
- Teste de continuidade de prosa: dê ao modelo os dois primeiros parágrafos de uma cena e peça que continue por 500 palavras. Ele mantém um tom, voz de personagem e lógica narrativa consistentes?
- Teste de instrução de estilo: peça ao modelo para escrever um parágrafo "no estilo de Raymond Carver" ou "com o ritmo de um romance de suspense". O estilo muda de forma demonstrável, ou produz uma saída genérica?
- Teste de coerência em formato longo: peça um conto de 1.000 palavras com uma reviravolta final específica. O modelo prepara a antecipação de forma natural e entrega o desfecho?
- Teste de diálogo: escreva uma cena com dois personagens com padrões de fala diferentes. Cada personagem soa distinto, ou o diálogo parece uniforme?
#1 Meta Llama 3.3 70B -- Melhor qualidade de prosa localmente
O Llama 3.3 70B produz a prosa em inglês mais natural e variada de qualquer modelo executável localmente. Seu treinamento em um corpus diverso de texto em inglês lhe dá o maior alcance estilístico — da ficção literária minimalista ao ritmo do thriller de gênero. A coerência em formato longo (1.000-3.000 palavras) é notavelmente melhor que a de qualquer modelo de 7B ou 13B.
A limitação é o hardware: 40 GB de RAM com Q4_K_M. Para sessões de escrita criativa (em vez de geração em lote), a velocidade de geração mais lenta (8-15 tok/seg na CPU) é tolerável. Em Apple M2 Ultra ou M5 Max com 64+ GB de memória unificada, a geração alcança 20-35 tok/seg.
| Especificação | Valor |
|---|---|
| Melhor para | Ficção de formato longo, prosa rica |
| RAM necessária (Q4_K_M) | ~40 GB |
| Alcance de estilo de prosa | O mais amplo dos modelos locais |
| Coerência em formato longo | Forte (cenas de 1K-3K palavras) |
| Comando do Ollama | ollama run llama3.3:70b |
#2 Mistral Small 3.1 24B -- Melhor escrita criativa para 16 GB de RAM
O Mistral Small 3.1 24B oferece uma qualidade de escrita criativa notavelmente superior à de qualquer modelo de 7B, enquanto cabe em 14 GB de RAM. Seu seguimento de instruções é preciso o suficiente para lidar com especificações de estilo detalhadas ("escreva em segunda pessoa, tempo presente, com frases curtas e diretas") sem se desviar após alguns parágrafos.
Para os usuários que querem uma capacidade narrativa genuína de formato longo sem uma máquina de classe workstation, o Mistral Small 3.1 é a escolha prática.
| Especificação | Valor |
|---|---|
| Melhor para | Narrativa de formato longo, instrução de estilo |
| RAM necessária (Q4_K_M) | ~14 GB |
| Alcance de estilo de prosa | Forte — notavelmente superior à classe 7B |
| Coerência em formato longo | Boa (cenas de 500-1.500 palavras) |
| Comando do Ollama | ollama run mistral-small3.1 |
#3 Llama 3.3 8B -- Melhor escrita criativa para 8 GB de RAM
No nível de 8 GB de RAM, o Llama 3.3 8B supera o Qwen3 7B e o Mistral Small para escrita criativa em inglês. O Qwen3 é mais forte em codificação e tarefas estruturadas, mas a geração de prosa em inglês dele é menos fluida para fins narrativos.
O Llama 3.3 8B dá conta de ficção curta (até 500 palavras) de forma confiável. Para histórias de mais de 1.000 palavras, a consistência da qualidade se degrada — o modelo tende a se desviar dos detalhes narrativos estabelecidos. Essa é uma limitação fundamental dos modelos de escala 8B para o trabalho criativo de formato longo.
#4 Fine-tunes da comunidade para ficção e roleplay
A comunidade de LLM local mantém fine-tunes especializados treinados em corpora de ficção, que superam os modelos base em tarefas narrativas sustentadas. Eles estão disponíveis no Hugging Face e podem ser carregados no LM Studio ou no Ollama (via Modelfiles personalizados):
- Fimbulvetr-11B — fine-tuned em prosa de fantasia e ficção científica de alta qualidade. Produz detalhes sensoriais mais vívidos e uma voz de personagem mais consistente que o Llama 3.3 8B base.
- Midnight-Rose-70B — um fine-tune do Llama 3.3 70B focado em escrita criativa e cenários de roleplay. Melhor coerência narrativa de formato longo que o modelo base.
- Noromaid / variantes do Openhermes — fine-tunes da comunidade focados em roleplay conversacional. Menor qualidade de prosa que o Fimbulvetr, mas mais receptivos à direção do personagem.
- Baixe-os do Hugging Face (busque "creative writing GGUF") e carregue-os no navegador de modelos do LM Studio ou via `ollama create` com um Modelfile personalizado.
Dicas de prompting que melhoram a escrita criativa com LLMs locais
- Especifique o estilo de forma concreta: "Escreva no estilo de Cormac McCarthy — diálogo escasso, frases descritivas longas, sem aspas" supera "escreva ficção literária."
- Dê um papel ao modelo: "Você é um romancista profissional. Continue esta cena sem resumir, apenas mostrando." O seguimento de instruções melhora quando o modelo tem uma identidade definida.
- Configure a temperatura entre 0.9 e 1.1: as tarefas criativas se beneficiam de uma temperatura mais alta (mais aleatoriedade). A temperatura padrão do Ollama é 0.8; a do LM Studio é 0.7. Aumente-a pelo controle deslizante de parâmetros.
- Use um system prompt: defina uma instrução de estilo persistente em nível de sessão. "Você está escrevendo um romance de terror gótico. Mantenha uma prosa sombria e atmosférica em todas as respostas."
- Divida as tarefas longas em seções: para um capítulo de 3.000 palavras, gere-o em seções de 500 palavras. Isso mantém o modelo dentro do seu alcance de coerência confiável.
- Compare saídas locais e em nuvem: use o PromptQuorum para enviar o mesmo prompt criativo ao seu modelo local do Ollama e a modelos em nuvem simultaneamente — útil para calibrar quando a qualidade local é suficiente.
Prompt ruim vs prompt bom
- ❌ "Escreva uma história de fantasia" → ✅ "Escreva uma cena de fantasia de 500 palavras em que um contrabandista negocia com um dragão sobre artefatos antigos. Use detalhes sensoriais e deixe o diálogo tenso."
- ❌ "Escreva algo interessante" → ✅ "Escreva uma cena de abertura de 300 palavras de um assalto que dá errado. O protagonista descobre que o parceiro o traiu no meio da missão. Use frases curtas e diretas para igualar o ritmo."
- ❌ "Escreva um mistério" → ✅ "Continue esta cena de detetive: [texto anterior]. O detetive percebe que o suspeito está mentindo por um detalhe. Mostre — não conte — como ela descobre a inconsistência."
- ❌ "Deixe mais interessante" → ✅ "Reescreva o parágrafo anterior para parecer mais noir: diálogo escasso, monólogo interior cínico, detalhes sensoriais específicos (sons, cheiros, texturas)."
Escrita criativa com LLMs locais: Contexto regional
Europa (GDPR) e Brasil (LGPD): O GDPR exige que os dados pessoais sensíveis (histórias de fundo de personagens, conteúdo ficcional para publicação) permaneçam dentro das fronteiras da UE quando processados; a LGPD brasileira impõe princípios equivalentes. Rodar modelos locais em hardware sediado na UE (ou no Brasil) garante a conformidade. O LM Studio e o Ollama implantados em servidores alemães, franceses, austríacos ou brasileiros cumprem os acordos de operador do Artigo 28 (e a LGPD) sem dependência de nuvem.
Japão (Localização e codificação de caracteres): A escrita criativa em japonês usa scripts mistos (hiragana, katakana, kanji), pontuação complexa e regras sutis de espaçamento. Os modelos com fine-tuning em literatura japonesa lidam com esses padrões melhor que os modelos otimizados para inglês. O LM Studio suporta UTF-8 e Unicode; o Ollama funciona com modelos japoneses como Shisa-7B-v1 e Weblab-10B.
China (Política de conteúdo e acesso a modelos): A China continental restringe os serviços de IA em nuvem e exige conformidade de moderação de conteúdo. Rodar localmente com Qwen3 ou Qwen1.5 evita as restrições geopolíticas. A implantação local é adequada para editoras chinesas, desenvolvedores de jogos e empresas que gerenciam IP de histórias proprietárias.
Um LLM local pode substituir um assistente de escrita como o Claude ou o GPT-5.5 para ficção?
Para conteúdo de formato curto (menos de 500 palavras), um modelo local de 13B+ bem prompado produz uma saída difícil de distinguir dos modelos em nuvem em testes cegos. Para ficção de formato longo (romances, contos completos), o Claude Opus 4.8 e o GPT-5.5 mantêm a coerência narrativa de forma mais confiável em qualquer nível de hardware. Um modelo local de 70B reduz significativamente essa diferença.
O modelo lembra de partes anteriores da minha história?
Só dentro da janela de contexto atual. Se o histórico de conversa ultrapassar o limite de contexto do modelo (geralmente 4K-128K tokens), os detalhes anteriores são esquecidos. Para projetos longos, forneça periodicamente um resumo da história no início de cada sessão para restabelecer o contexto.
Qual modelo local produz a prosa mais vívida?
O Llama 3.3 70B com quantização Q5_K_M produz os detalhes sensoriais mais vívidos e um fluxo de diálogo natural de forma consistente. O Mistral Small 3.1 24B alcança 80-85% dessa qualidade com 14 GB de RAM ante 45 GB para o 70B. O fine-tune Fimbulvetr-11B sobre uma base de 13B também se destaca em riqueza de prosa dentro de orçamentos de recursos menores.
Como lido com inconsistências na voz do personagem ao longo dos capítulos?
Forneça uma ficha de personagem detalhada (nome, antecedentes, padrões de fala, motivações) no seu system prompt. Para cada novo capítulo, comece a sessão com: "Você está escrevendo como [Personagem]. Mantenha a seguinte voz e perspectiva..." Depois cole a ficha do personagem. Isso mantém a coerência para seções de 500-2.000 palavras.
A quantização (Q4, Q5, Q8) é perceptível na escrita criativa?
Sim, de forma mensurável. FP16 (precisão completa) e Q8 produzem prosa quase idêntica. O Q5 introduz um leve achatamento — menos adjetivos únicos, frases um pouco repetitivas (5-10% dos usuários notam). O Q4 cria uma perda de qualidade óbvia: descrições genéricas, falta de detalhes sensoriais. Para ficção, o Q5_K_M é o mínimo recomendado; o Q8_K_M é o ideal.
Posso fazer fine-tune de um LLM local com o meu próprio estilo de escrita?
Sim. Reúna 500-2.000 exemplos da sua prosa no formato .jsonl (pares entrada/saída), depois use as bibliotecas Unsloth ou Axolotl em uma GPU de 24 GB para fazer fine-tune de um modelo de 13B em 4-8 horas. Custo: ~US$ 5-15 em GPU na nuvem. Resultado: um modelo que imita a sua voz. O fine-tuning com LoRA (adaptação de baixo posto) é mais rápido e econômico que o fine-tuning completo.
Qual é a diferença entre a qualidade de escrita criativa e a qualidade de *diálogo* criativo?
O diálogo exige uma economia de palavras mais apertada e vozes de personagens distintas; a prosa exige riqueza sensorial e fluxo narrativo. O Llama 3.3 70B se destaca em ambos. Os modelos menores (7B, 8B) muitas vezes produzem diálogos planos e genéricos. Se a ficção com muito diálogo é o seu foco, priorize modelos com bom seguimento de instruções sobre a qualidade da prosa; a qualidade de diálogo do Mistral Small rivaliza com o Llama 8B.
Quanto contexto (tokens) preciso para um esboço de romance completo?
Um esboço detalhado de um romance de 80.000 palavras (trama, personagens, capítulos, conflitos) tem tipicamente 3.000-6.000 tokens. Um modelo com contexto de 128K (Llama 3.2, Phi-4) permite carregar todo o esboço + capítulos anteriores em uma única sessão. Para modelos com contexto de 4K-8K, forneça um resumo rotativo: resumo do capítulo anterior + esboço dos próximos 3 capítulos.
Preciso de uma GPU para rodar um LLM local otimizado para escrita criativa?
Não, mas ela acelera drasticamente a geração. Um modelo de 13B na CPU (8 núcleos): 10-15 tokens/seg. O mesmo modelo em uma GPU de 10GB (RTX 3060): 80-100 tokens/seg. Para escrita criativa iterativa (testar variações, reescrever), a GPU reduz o tempo de sessão de 2 horas para 15 minutos. A CPU é viável para geração de tentativa única ou para esboços.
Qual LLM local é melhor para a construção de mundos de ficção científica?
Llama 3.3 70B para consistência em esboços de mais de 50 páginas. Qwen3 14B-32B para precisão técnica (física, mecânica orbital, química). Fimbulvetr-11B para detalhes descritivos ricos do mundo. Para configurações com orçamento apertado, o Mistral Small 3.1 24B equilibra coerência do mundo e uso de recursos. Teste os três com uma descrição de amostra antes de decidir.
Fontes
- Anúncio de lançamento do Llama 3.3 — Artigo oficial do modelo da Meta com resultados de benchmarks de escrita criativa
- Fichas de modelo da Mistral AI — Especificação do Mistral Small 3.1 e guias de quantização
- O projeto Fimbulvetr — Coleção de fine-tunes de escrita criativa mantida pela comunidade
Erros comuns no prompting para escrita criativa
- Prompts genéricos para objetivos específicos: "Escreva uma história" produz saída genérica. Em vez disso: "Escreva uma cena de abertura de 800 palavras de um assalto. O protagonista descobre que o cofre já está vazio. Mostre — não conte — a reação emocional dele pela descrição física."
- Ignorar os efeitos da quantização: rodar um modelo de 13B em Q4 e esperar uma qualidade de prosa equivalente à precisão completa. O Q4 achata a prosa de forma notável. Use Q5_K_M no mínimo para escrita criativa; Q8 para qualidade publicável.
- Negligenciar a temperatura e os parâmetros de amostragem: usar a temperatura padrão (0.7-0.8) para tarefas criativas. Aumente-a para 0.95-1.1 e configure top_p para 0.85-0.9 para uma prosa mais variada e interessante. Alto demais (>1.2) produz incoerência.
- Esquecer a degradação do contexto: após 2.000-4.000 tokens em uma conversa, até os modelos de 70B perdem o rastro dos detalhes dos personagens anteriores. Reintroduza periodicamente resumos de personagens ou comece sessões novas.
- Tratar os modelos locais como modelos em nuvem: os modelos em nuvem como o Claude 4 se destacam em planejamento de formato longo e tarefas de várias etapas. Os modelos locais se destacam na geração cena por cena com prompts estritos. Use locais para a execução, nuvem para os esboços.