PromptQuorumPromptQuorum
主页/本地LLM/2026年最佳创意写作本地LLM:小说、诗歌和长篇内容排名
Best Models

2026年最佳创意写作本地LLM:小说、诗歌和长篇内容排名

·8分钟阅读·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

2026年最佳创意写作本地LLM是Meta Llama 3.3 70B(最佳散文质量)、Mistral Small 3.1 24B(16GB RAM以下最佳质量)以及Fimbulvetr和Midnight-Rose等社区微调模型(专门针对小说和角色扮演)。创意写作性能并未被标准基准测试准确衡量----需要评估叙事连贯性、文体多样性以及对开放式提示的指令遵循。

关键要点

  • 标准基准(MMLU、HumanEval)无法测量创意写作质量----直接用自己的示例提示测试模型。
  • 整体最佳散文:Llama 3.3 70B----本地可运行规模中最自然的英文叙事风格。
  • 16GB RAM最佳选择:Mistral Small 3.1 24B----强大的创意输出,长篇叙事中明显优于7B模型。
  • 8GB RAM最佳选择:Llama 3.1 8B----英文小说任务中创意指令遵循优于Qwen2.5 7B。
  • 社区微调模型(Fimbulvetr-11B、Midnight-Rose-70B)专门针对创意小说训练,在长篇叙事任务中优于基础模型。

如何评估本地LLM的创意写作质量

客观基准测试衡量的是知识和推理,而非创意质量。 要评估一个模型的创意写作能力,需要直接用你计划使用的提示进行测试。

实用建议:不要依赖基准分数。您需要自己运行这四个测试,才能找到适合您创意写作风格的模型。

  • 散文连贯性测试:给模型一个场景的前两段,要求继续写500字。它是否保持了一致的语调、人物声音和叙事逻辑?
  • 风格指令测试:要求模型"用雷蒙德·卡弗的风格"或"用惊悚小说的节奏"写一段。它是否明显改变了风格,还是产生了泛化输出?
  • 长篇连贯性测试:要求写一篇1000字的短篇故事,有特定的反转结局。模型是否自然地铺垫设置并交付转折?
  • 对话测试:写一个包含两个有不同讲话模式角色的场景。每个角色听起来是否不同,还是对话显得单调?
创意写作本地LLM对比: Llama 3.3 70B(40GB,最佳散文)、Mistral 24B(14GB,16GB级)、Llama 3.1 8B(6GB,入门级)。
创意写作本地LLM对比: Llama 3.3 70B(40GB,最佳散文)、Mistral 24B(14GB,16GB级)、Llama 3.1 8B(6GB,入门级)。

#1 Meta Llama 3.3 70B - 本地最佳散文质量

Llama 3.3 70B生成任何本地可运行模型中最自然、最多样的英文散文。其在多样化英文文本语料库上的训练赋予了它最广泛的文体范围----从极简主义文学小说到类型化惊悚小说的节奏。长篇连贯性(1000-3000字)明显优于任何7B或13B模型。

实用建议:虽然需要40GB内存,但在Apple M2 Ultra或M5 Max上运行时,您可以获得每秒20-35令牌的速度,使实时创意会话成为可能。这为长篇小说创作者提供了最佳权衡。

SpecValue
最适合长篇小说、丰富散文
RAM需求(Q4_K_M)~40 GB
散文风格范围所有本地模型中最广
长篇连贯性强大(1K-3K字场景)
Ollama命令ollama run llama3.3:70b
创意写作质量谱: 8B处理500字故事,24B支持2K字,70B维持1K-3K字场景,风格范围最广。
创意写作质量谱: 8B处理500字故事,24B支持2K字,70B维持1K-3K字场景,风格范围最广。

#2 Mistral Small 3.1 24B - 16GB RAM最佳创意写作

Mistral Small 3 .1 24B提供的创意写作质量明显优于任何7B模型,同时适配14GB内存。其指令遵循足够精确,可以处理详细的风格规范("用第二人称、现在时、短而有力的句子写作")而不会在几段后偏离。

实用建议:对于希望获得真正长篇叙事能力但没有工作站级硬件的用户,这是最佳实际选择。您可以在标准笔记本电脑上运行此模型。

#3 Llama 3.1 8B - 8GB RAM最佳创意写作

在8GB内存级别,Llama 3 .1 8B在英文创意写作中优于Qwen2.5 7B和Mistral 7B。Qwen2.5在编码和结构化任务中更强,但其英文散文生成对叙事目的来说流畅性较低。

实用建议:Llama 3.1 8B能可靠处理短篇小说(最多500字)。对于超过1000字的故事,质量开始下降。如果您需要长篇小说,请升级到16GB RAM的Mistral Small或40GB的Llama 3.3。

#4 小说和角色扮演社区微调模型

本地LLM社区维护在小说语料库上训练的专门微调模型,在长篇叙事任务中优于基础模型。 这些在Hugging Face上可用,可在LM Studio或Ollama中加载。

实用建议:使用这些微调模型,您可以获得更好的创意输出,同时保持完全本地化。对于特定的创意写作风格(例如幻想小说或网络文学),这些微调提供了优越的性能。

  • Fimbulvetr-11B - 在高质量奇幻和科幻散文上微调。比基础Llama 3.1 8B产生更生动的感觉细节和一致的角色声音。
  • Midnight-Rose-70B - Llama 3.3 70B微调版本,专注于创意写作和角色扮演场景。长篇叙事连贯性优于基础模型。
  • Noromaid / Openhermes变体 - 社区微调模型,专注于对话式角色扮演。散文质量低于Fimbulvetr,但对角色指导响应性更强。
  • 从Hugging Face下载这些(搜索"creative writing GGUF")并在LM Studio的模型浏览器中加载,或通过自定义Modelfile的`ollama create`加载。

改进本地LLM创意写作的提示技巧

  • 具体指定风格:"用Cormac McCarthy的风格写作----稀疏对话、长描述句子、无引号"优于"写文学小说"。
  • 给模型分配角色:"你是一位专业小说家。继续这个场景,只显示不总结。"当模型有明确身份时,指令遵循改进。
  • 将温度设置为0.9-1.1:创意任务受益于更高温度(更多随机性)。默认Ollama温度为0.8;LM Studio默认为0.7。通过参数滑块增加。
  • 使用系统提示:在会话级别设置持久风格指令。"你在写哥特式恐怖小说。在所有响应中保持深色、大气散文。"
  • 将长任务分解为各部分:对于3000字章节,分500字部分生成。这使模型保持在其可靠连贯性范围内。
  • 比较本地和云输出:使用PromptQuorum同时向本地Ollama模型和云模型发送相同的创意提示。有助于判断本地质量何时足够。
创意写作LLM温度指南: 0.7默认太单调,0.9-1.05最适合小说,超过1.1输出不连贯。
创意写作LLM温度指南: 0.7默认太单调,0.9-1.05最适合小说,超过1.1输出不连贯。

关于本地LLM创意写作的常见问题

本地LLM能否取代Claude或GPT-4o等写作助手?

对于短篇内容(500字以下),经过良好提示的13B+本地模型生成的输出在盲测中难以与云模型区分。对于长篇小说(小说、完整短篇故事),Claude Opus 4.7和GPT-4o在任何硬件级别都能更可靠地保持叙事连贯性。70B本地模型显著缩小了这一差距。

模型能否记住我故事的早期部分?

仅在当前上下文窗口内。如果对话历史超过模型的上下文限制(通常4K-128K标记),早期细节会被遗忘。对于长期项目,在每个会话开始时定期提供故事摘要以重新建立上下文。

信息来源

  • 神经故事生成论文 - 关于叙事连贯性的学术研究
  • 创意任务的Mistral 7B - 模型文档和创意基准
  • Llama 3.1 8B创意基准 - 创意写作任务评估

创意写作提示的常见错误

  • 对创意任务使用代码优化模型----创意模型训练方式不同。
  • 期望本地模型生成多部小说叙事----它们在短篇创意文本中表现出色。
  • 不为创意输出调整温度和采样参数。

相关阅读

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

使用PromptQuorum将您的本地LLM与25+个云模型同时进行比较。

加入PromptQuorum等待列表 →

← 返回本地LLM

2026年最佳创意写作本地LLM | PromptQuorum