Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/2026年最佳创意写作本地LLM:小说、诗歌和长篇内容排名
Best Models

2026年最佳创意写作本地LLM:小说、诗歌和长篇内容排名

·8分钟阅读·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

2026年最佳创意写作本地LLM是Meta Llama 3.3 70B(最佳散文质量)、Mistral Small 3.1 24B(16GB RAM以下最佳质量)以及Fimbulvetr和Midnight-Rose等社区微调模型(专门针对小说和角色扮演)。创意写作性能并未被标准基准测试准确衡量----需要评估叙事连贯性、文体多样性以及对开放式提示的指令遵循。

关键要点

  • 标准基准(MMLU、HumanEval)无法测量创意写作质量----直接用自己的示例提示测试模型。
  • 整体最佳散文:Llama 3.3 70B----本地可运行规模中最自然的英文叙事风格。
  • 16GB RAM最佳选择:Mistral Small 3.1 24B----强大的创意输出,长篇叙事中明显优于7B模型。
  • 8GB RAM最佳选择:Llama 3.3 8B----英文小说任务中创意指令遵循优于Qwen3 7B。
  • 社区微调模型(Fimbulvetr-11B、Midnight-Rose-70B)专门针对创意小说训练,在长篇叙事任务中优于基础模型。

如何评估本地LLM的创意写作质量

客观基准测试衡量的是知识和推理,而非创意质量。 要评估一个模型的创意写作能力,需要直接用你计划使用的提示进行测试。

实用建议:不要依赖基准分数。您需要自己运行这四个测试,才能找到适合您创意写作风格的模型。

  • 散文连贯性测试:给模型一个场景的前两段,要求继续写500字。它是否保持了一致的语调、人物声音和叙事逻辑?
  • 风格指令测试:要求模型"用雷蒙德·卡弗的风格"或"用惊悚小说的节奏"写一段。它是否明显改变了风格,还是产生了泛化输出?
  • 长篇连贯性测试:要求写一篇1000字的短篇故事,有特定的反转结局。模型是否自然地铺垫设置并交付转折?
  • 对话测试:写一个包含两个有不同讲话模式角色的场景。每个角色听起来是否不同,还是对话显得单调?
创意写作本地LLM对比: Llama 3.3 70B(40GB,最佳散文)、Mistral 24B(14GB,16GB级)、Llama 3.3 8B(6GB,入门级)。
创意写作本地LLM对比: Llama 3.3 70B(40GB,最佳散文)、Mistral 24B(14GB,16GB级)、Llama 3.3 8B(6GB,入门级)。

#1 Meta Llama 3.3 70B - 本地最佳散文质量

Llama 3.3 70B生成任何本地可运行模型中最自然、最多样的英文散文。其在多样化英文文本语料库上的训练赋予了它最广泛的文体范围----从极简主义文学小说到类型化惊悚小说的节奏。长篇连贯性(1000-3000字)明显优于任何7B或13B模型。

实用建议:虽然需要40GB内存,但在Apple M2 Ultra或M5 Max上运行时,您可以获得每秒20-35令牌的速度,使实时创意会话成为可能。这为长篇小说创作者提供了最佳权衡。

SpecValue
最适合长篇小说、丰富散文
RAM需求(Q4_K_M)~40 GB
散文风格范围所有本地模型中最广
长篇连贯性强大(1K-3K字场景)
Ollama命令ollama run llama3.3:70b
创意写作质量谱: 8B处理500字故事,24B支持2K字,70B维持1K-3K字场景,风格范围最广。
创意写作质量谱: 8B处理500字故事,24B支持2K字,70B维持1K-3K字场景,风格范围最广。

#2 Mistral Small 3.1 24B - 16GB RAM最佳创意写作

Mistral Small 3 .1 24B提供的创意写作质量明显优于任何7B模型,同时适配14GB内存。其指令遵循足够精确,可以处理详细的风格规范("用第二人称、现在时、短而有力的句子写作")而不会在几段后偏离。

实用建议:对于希望获得真正长篇叙事能力但没有工作站级硬件的用户,这是最佳实际选择。您可以在标准笔记本电脑上运行此模型。

#3 Llama 3.3 8B - 8GB RAM最佳创意写作

在8GB内存级别,Llama 3 .1 8B在英文创意写作中优于Qwen3 7B和Mistral Small。Qwen3在编码和结构化任务中更强,但其英文散文生成对叙事目的来说流畅性较低。

实用建议:Llama 3.3 8B能可靠处理短篇小说(最多500字)。对于超过1000字的故事,质量开始下降。如果您需要长篇小说,请升级到16GB RAM的Mistral Small或40GB的Llama 3.3。

#4 小说和角色扮演社区微调模型

本地LLM社区维护在小说语料库上训练的专门微调模型,在长篇叙事任务中优于基础模型。 这些在Hugging Face上可用,可在LM Studio或Ollama中加载。

实用建议:使用这些微调模型,您可以获得更好的创意输出,同时保持完全本地化。对于特定的创意写作风格(例如幻想小说或网络文学),这些微调提供了优越的性能。

  • Fimbulvetr-11B - 在高质量奇幻和科幻散文上微调。比基础Llama 3.3 8B产生更生动的感觉细节和一致的角色声音。
  • Midnight-Rose-70B - Llama 3.3 70B微调版本,专注于创意写作和角色扮演场景。长篇叙事连贯性优于基础模型。
  • Noromaid / Openhermes变体 - 社区微调模型,专注于对话式角色扮演。散文质量低于Fimbulvetr,但对角色指导响应性更强。
  • 从Hugging Face下载这些(搜索"creative writing GGUF")并在LM Studio的模型浏览器中加载,或通过自定义Modelfile的`ollama create`加载。

改进本地LLM创意写作的提示技巧

  • 具体指定风格:"用Cormac McCarthy的风格写作----稀疏对话、长描述句子、无引号"优于"写文学小说"。
  • 给模型分配角色:"你是一位专业小说家。继续这个场景,只显示不总结。"当模型有明确身份时,指令遵循改进。
  • 将温度设置为0.9-1.1:创意任务受益于更高温度(更多随机性)。默认Ollama温度为0.8;LM Studio默认为0.7。通过参数滑块增加。
  • 使用系统提示:在会话级别设置持久风格指令。"你在写哥特式恐怖小说。在所有响应中保持深色、大气散文。"
  • 将长任务分解为各部分:对于3000字章节,分500字部分生成。这使模型保持在其可靠连贯性范围内。
  • 比较本地和云输出:使用PromptQuorum同时向本地Ollama模型和云模型发送相同的创意提示。有助于判断本地质量何时足够。
创意写作LLM温度指南: 0.7默认太单调,0.9-1.05最适合小说,超过1.1输出不连贯。
创意写作LLM温度指南: 0.7默认太单调,0.9-1.05最适合小说,超过1.1输出不连贯。

关于本地LLM创意写作的常见问题

本地LLM能否取代Claude或GPT-5.5等写作助手?

对于短篇内容(500字以下),经过良好提示的13B+本地模型生成的输出在盲测中难以与云模型区分。对于长篇小说(小说、完整短篇故事),Claude Opus 4.8和GPT-5.5在任何硬件级别都能更可靠地保持叙事连贯性。70B本地模型显著缩小了这一差距。

模型能否记住我故事的早期部分?

仅在当前上下文窗口内。如果对话历史超过模型的上下文限制(通常4K-128K标记),早期细节会被遗忘。对于长期项目,在每个会话开始时定期提供故事摘要以重新建立上下文。

信息来源

  • 神经故事生成论文 - 关于叙事连贯性的学术研究
  • 创意任务的Mistral Small - 模型文档和创意基准
  • Llama 3.3 8B创意基准 - 创意写作任务评估

创意写作提示的常见错误

  • 对创意任务使用代码优化模型----创意模型训练方式不同。
  • 期望本地模型生成多部小说叙事----它们在短篇创意文本中表现出色。
  • 不为创意输出调整温度和采样参数。

相关阅读

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM