关键要点
- 标准基准(MMLU、HumanEval)无法测量创意写作质量----直接用自己的示例提示测试模型。
- 整体最佳散文:Llama 3.3 70B----本地可运行规模中最自然的英文叙事风格。
- 16GB RAM最佳选择:Mistral Small 3.1 24B----强大的创意输出,长篇叙事中明显优于7B模型。
- 8GB RAM最佳选择:Llama 3.1 8B----英文小说任务中创意指令遵循优于Qwen2.5 7B。
- 社区微调模型(Fimbulvetr-11B、Midnight-Rose-70B)专门针对创意小说训练,在长篇叙事任务中优于基础模型。
如何评估本地LLM的创意写作质量
客观基准测试衡量的是知识和推理,而非创意质量。 要评估一个模型的创意写作能力,需要直接用你计划使用的提示进行测试。
实用建议:不要依赖基准分数。您需要自己运行这四个测试,才能找到适合您创意写作风格的模型。
- 散文连贯性测试:给模型一个场景的前两段,要求继续写500字。它是否保持了一致的语调、人物声音和叙事逻辑?
- 风格指令测试:要求模型"用雷蒙德·卡弗的风格"或"用惊悚小说的节奏"写一段。它是否明显改变了风格,还是产生了泛化输出?
- 长篇连贯性测试:要求写一篇1000字的短篇故事,有特定的反转结局。模型是否自然地铺垫设置并交付转折?
- 对话测试:写一个包含两个有不同讲话模式角色的场景。每个角色听起来是否不同,还是对话显得单调?
#1 Meta Llama 3.3 70B - 本地最佳散文质量
Llama 3.3 70B生成任何本地可运行模型中最自然、最多样的英文散文。其在多样化英文文本语料库上的训练赋予了它最广泛的文体范围----从极简主义文学小说到类型化惊悚小说的节奏。长篇连贯性(1000-3000字)明显优于任何7B或13B模型。
实用建议:虽然需要40GB内存,但在Apple M2 Ultra或M5 Max上运行时,您可以获得每秒20-35令牌的速度,使实时创意会话成为可能。这为长篇小说创作者提供了最佳权衡。
| Spec | Value |
|---|---|
| 最适合 | 长篇小说、丰富散文 |
| RAM需求(Q4_K_M) | ~40 GB |
| 散文风格范围 | 所有本地模型中最广 |
| 长篇连贯性 | 强大(1K-3K字场景) |
| Ollama命令 | ollama run llama3.3:70b |
#2 Mistral Small 3.1 24B - 16GB RAM最佳创意写作
Mistral Small 3 .1 24B提供的创意写作质量明显优于任何7B模型,同时适配14GB内存。其指令遵循足够精确,可以处理详细的风格规范("用第二人称、现在时、短而有力的句子写作")而不会在几段后偏离。
实用建议:对于希望获得真正长篇叙事能力但没有工作站级硬件的用户,这是最佳实际选择。您可以在标准笔记本电脑上运行此模型。
#3 Llama 3.1 8B - 8GB RAM最佳创意写作
在8GB内存级别,Llama 3 .1 8B在英文创意写作中优于Qwen2.5 7B和Mistral 7B。Qwen2.5在编码和结构化任务中更强,但其英文散文生成对叙事目的来说流畅性较低。
实用建议:Llama 3.1 8B能可靠处理短篇小说(最多500字)。对于超过1000字的故事,质量开始下降。如果您需要长篇小说,请升级到16GB RAM的Mistral Small或40GB的Llama 3.3。
#4 小说和角色扮演社区微调模型
本地LLM社区维护在小说语料库上训练的专门微调模型,在长篇叙事任务中优于基础模型。 这些在Hugging Face上可用,可在LM Studio或Ollama中加载。
实用建议:使用这些微调模型,您可以获得更好的创意输出,同时保持完全本地化。对于特定的创意写作风格(例如幻想小说或网络文学),这些微调提供了优越的性能。
- Fimbulvetr-11B - 在高质量奇幻和科幻散文上微调。比基础Llama 3.1 8B产生更生动的感觉细节和一致的角色声音。
- Midnight-Rose-70B - Llama 3.3 70B微调版本,专注于创意写作和角色扮演场景。长篇叙事连贯性优于基础模型。
- Noromaid / Openhermes变体 - 社区微调模型,专注于对话式角色扮演。散文质量低于Fimbulvetr,但对角色指导响应性更强。
- 从Hugging Face下载这些(搜索"creative writing GGUF")并在LM Studio的模型浏览器中加载,或通过自定义Modelfile的`ollama create`加载。
改进本地LLM创意写作的提示技巧
- 具体指定风格:"用Cormac McCarthy的风格写作----稀疏对话、长描述句子、无引号"优于"写文学小说"。
- 给模型分配角色:"你是一位专业小说家。继续这个场景,只显示不总结。"当模型有明确身份时,指令遵循改进。
- 将温度设置为0.9-1.1:创意任务受益于更高温度(更多随机性)。默认Ollama温度为0.8;LM Studio默认为0.7。通过参数滑块增加。
- 使用系统提示:在会话级别设置持久风格指令。"你在写哥特式恐怖小说。在所有响应中保持深色、大气散文。"
- 将长任务分解为各部分:对于3000字章节,分500字部分生成。这使模型保持在其可靠连贯性范围内。
- 比较本地和云输出:使用PromptQuorum同时向本地Ollama模型和云模型发送相同的创意提示。有助于判断本地质量何时足够。
关于本地LLM创意写作的常见问题
本地LLM能否取代Claude或GPT-4o等写作助手?
对于短篇内容(500字以下),经过良好提示的13B+本地模型生成的输出在盲测中难以与云模型区分。对于长篇小说(小说、完整短篇故事),Claude Opus 4.7和GPT-4o在任何硬件级别都能更可靠地保持叙事连贯性。70B本地模型显著缩小了这一差距。
模型能否记住我故事的早期部分?
仅在当前上下文窗口内。如果对话历史超过模型的上下文限制(通常4K-128K标记),早期细节会被遗忘。对于长期项目,在每个会话开始时定期提供故事摘要以重新建立上下文。
信息来源
- 神经故事生成论文 - 关于叙事连贯性的学术研究
- 创意任务的Mistral 7B - 模型文档和创意基准
- Llama 3.1 8B创意基准 - 创意写作任务评估
创意写作提示的常见错误
- 对创意任务使用代码优化模型----创意模型训练方式不同。
- 期望本地模型生成多部小说叙事----它们在短篇创意文本中表现出色。
- 不为创意输出调整温度和采样参数。
相关阅读
- 2026年最佳本地LLM - 跨用例的总体排名
- 如何在笔记本电脑上运行本地LLM - 作者性能优化
- 最佳初学者本地LLM模型 - 创意写作基础模型
- 本地LLM限制 - 理解模型约束