Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM进阶/2026年创意写作最佳本地LLM:小说、对话与世界构建测评
Creative & Roleplay

2026年创意写作最佳本地LLM:小说、对话与世界构建测评

·12 分钟阅读·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

Llama 3.3 70B是2026年5月综合表现最佳的本地创意写作模型——声音一致性突出,对指令方向响应良好,系统提示词将创作框定为小说时可处理黑暗题材而不拒绝。Qwen3 32B是24 GB显卡的最优选:文笔接近Llama 70B,硬件需求低得多。Mistral Large凭借原生128K上下文赢在长篇续写连贯性。Command R+ 104B拥有最干净的对话声音。Yi-1.5 34B是诗歌和意象化散文的小众专用选择。对于指令调优版拒绝的场景,Hermes 3(Llama 3.3基底)和Dolphin 3.0是无审查选项——架构相同,RLHF安全层已移除。温度0.8–1.1、top-p 0.9–0.95是创意写作区间;0.7及以下会产生平淡散文。无审查不等于不道德——它意味着模型遵从提示词而非拒绝;作者仍是创作主体。

创意写作是本地LLM在隐私和价格之外更能体现优势的工作场景。2026年最优秀的指令调优和无审查开放权重模型——Llama 3.3 70B、Qwen3 32B、Mistral Large、Command R+、Yi-1.5 34B,以及Hermes/Dolphin无审查衍生版——在大多数提示词上,其小说、对话和世界构建输出已能与前沿云端模型比肩。差异体现在声音一致性、处理黑暗或成人题材的意愿,以及对创作方向指令的响应自然度。本指南在50余条创意提示词上对六款模型展开测试,覆盖小说、对话、诗歌、世界构建,并给出每款模型适用的温度与top-p设置。

关键要点

  • Llama 3.3 70B是2026年5月综合表现最佳的本地创意写作模型。 声音一致性最强,对指令方向响应良好,系统提示词将创作框定为小说时处理黑暗题材不拒绝。
  • Qwen3 32B是24 GB显卡的最优选。 文笔质量接近Llama 70B,但无需48 GB以上VRAM。是大多数笔记本和台式机用户的默认选择。
  • Mistral Large赢在长篇续写连贯性。 原生128K上下文;长篇小说草稿不丢失线索或角色声音。
  • Command R+ 104B拥有最干净的对话声音。 跨角色最自然的对话节奏;对话是作品核心内容时的首选。
  • Yi-1.5 34B是诗歌和意象化散文的专用选择。 格律诗、意象化散文和节奏重要的短篇创作的小众首选。
  • 无审查衍生版(Hermes 3、Dolphin 3.0)是指令调优版拒绝时的正确选择。 基础模型相同;RLHF安全层已移除;模型遵从提示词而不拒绝。成熟小说、冲突场景和道德复杂角色变得可写。
  • 采样设置比大多数人意识到的重要得多。 温度0.8–1.1、top-p 0.9–0.95是创意区间。编程风格设置(0.2–0.4)产生平淡、可预测的散文。1.2以上进入类型/超现实领域。

快速参考

  • 综合最佳: Llama 3.3 70B(Q4_K_M量化),约42 GB VRAM。本测试集中声音一致性最强。
  • 24 GB显卡最优: Qwen3 32B(Q4_K_M),约20 GB VRAM。大多数用户的默认选择。
  • 长篇最佳: Mistral Large(Q4_K_M),约75 GB总VRAM(重型)。原生128K上下文。
  • 对话最佳: Command R+ 104B(Q4_K_M),约62 GB VRAM。角色声音区分度最佳。
  • 诗歌最佳: Yi-1.5 34B(Q4_K_M),约21 GB VRAM。意象化散文专家。
  • 无审查选项: Hermes 3(Llama 3.3基底,约42 GB)和Dolphin 3.0(多基底,13–42 GB)。
  • 散文默认采样: 温度0.95、top-p 0.92、重复惩罚1.1。按任务类型调整。

测试方法:六款模型、50余条创意提示词

测试保持提示词集、采样设置和前端不变,只改变模型。 在小说、对话、诗歌和世界构建任务上使用同一套50条提示词;每类任务按统一评分标准给出。

  • 后端: macOS和Linux上运行Ollama 0.7+;每款模型相同的上下文限制;六款模型全部使用Q4_K_M量化(较小的32B–34B模型在VRAM允许时使用Q5_K_M,评分标准得分无可测量差异)。
  • 前端: 主体测试使用Open WebUI(对话式场景);对话密集和角色扮演子集使用SillyTavern(契合创意写作者实际使用方式)。
  • 提示词集: 50条提示词分布于四类任务——小说(15条:短故事开场、场景续写、描写段落),对话(15条:双角色交流、群戏、声音区分),诗歌(10条:自由诗、格律形式、意象化散文),世界构建(10条:场景描写、派系政治、魔法体系)。每款模型每条提示词运行3次以捕捉差异。
  • 采样: 基准为温度0.95、top-p 0.92、重复惩罚1.1;各模型评测中注明了逐任务调整值。
  • 评分标准: 声音一致性(角色或叙述者跨段落音调是否一致?)、提示词忠实度(模型是否按指令方向创作,还是自行发挥?)、文笔质量(节奏、词汇、避免陈词滥调)、创作意愿(提示词明确框定为小说时,模型是否拒绝或净化场景?)。
  • 诚实约束: 得分以各任务内的相对排名呈现,不虚构绝对百分比。"对话最佳"意味着在3次运行的对话子集中持续排名第一;"强"意味着前三名;"一般"意味着在该评分项目上落后于一款或多款竞争模型。
  • 关于改善任意模型创意输出的提示词技巧,请参阅温度与Top-P设置角色提示词设计

📌Note: 创意写作评测本质上具有主观性。上述评分标准(声音一致性、提示词忠实度、文笔质量、创作意愿)是我们能做到的最接近可重复评分的方案,但两位读者对同一批输出评分时,在文笔质量上的分歧往往多于共识。建议将评测结论视为在自己的创作中验证的起点假设,而非最终定论。

横向对比:六款本地模型在创意写作任务上的表现

Llama 3.3 70B在最广泛的任务类型上领先;较小和专用模型各在一两个类别胜出。 按任务类型选模型,而非按总体排名。

📍 简单一句话

Llama 3.3 70B是综合最强的创意模型;Qwen3 32B是轻量替代;Mistral Large赢长篇;Command R+赢对话;Yi-1.5赢诗歌;Hermes/Dolphin处理其他模型拒绝的场景。

💬 简单来说

没有一款模型在所有任务上最优。Llama 3.3 70B是硬件够用时的安全默认选择。Qwen3 32B是24 GB显卡的明智之选。当某类任务成为创作核心时,选专用模型(长篇用Mistral、对话用Command R+、诗歌用Yi-1.5)。指令调优版拒绝你需要写的场景时,选无审查衍生版。

模型大小VRAM (Q4_K_M)小说对话诗歌世界构建适用场景
Llama 3.3 70B70B~42 GB最佳最佳最全能首选;硬件够用时的默认选择
Qwen3 32B32B~20 GB一般24 GB显卡默认选择;与Llama 70B差距小
Mistral Large123B~75 GB强(长篇)一般长篇续写,原生128K上下文
Command R+104B~62 GB最佳一般对话密集型创作,群戏场景
Yi-1.5 34B34B~21 GB一般一般最佳一般诗歌、意象化散文、文体创作
Hermes 3 / Dolphin 3.013B–70B~9–42 GB与基础模型相同与基础模型相同与基础模型相同与基础模型相同指令调优版拒绝写的场景

💡Tip: 双模型配置是常见模式:Llama 3.3 70B(或Qwen3 32B)作为日常主力,加上同一Ollama中的Hermes 3衍生版处理指令版拒绝的场景。按场景切换;两款模型可同时出现在ollama list中而不冲突。

各模型评测

  • Llama 3.3 70B — 综合最佳。测试集中声音一致性最强;角色在长场景中保持相同的语言风格。对指令响应良好——当系统提示词指定POV、基调或类型惯例时,Llama 3.3会遵从。在提示词框定为小说时处理黑暗题材(暴力、悲痛、道德灰色地带角色)不拒绝。不足之处:长段落偶尔飘向通用"文学"腔调;同系家族的小模型(8B)不具备这一优势。
  • Qwen3 32B — 24 GB显卡最优选。声音一致性略逊于Llama 3.3 70B,但差距小到大多数作者在文笔为主的创作中感知不到。较小模型中指令遵从性最强。不足之处:诗歌和意象化散文明显落后;这类创作默认选Yi-1.5。
  • Mistral Large — 长篇续写连贯性最佳。128K上下文窗口意味着5万字草稿不会截断;模型能跨章节保持角色细节、情节线索和世界规则。不足之处:本测试集中硬件要求最高(Q4_K_M约75 GB);长输入时每token速度减慢。若本地硬件不足,可使用欧盟基础设施上的Mistral La Plateforme。
  • Command R+ 104B — 对话最佳。在多轮交流中保持鲜明的角色声音;群戏(3人以上)不出现"所有人听起来一样"的通病。不足之处:对话间的散文段落称职但不出彩;纯描写段落Llama 3.3更胜一筹。
  • Yi-1.5 34B — 诗歌和意象化散文最佳。节奏感强,驾驭格律形式(十四行诗、六行诗、俳句)游刃有余,诗歌质量优于较大的通用模型。不足之处:长篇小说称职但非强项;叙事类创作请选Llama 3.3或Qwen3。
  • Hermes 3(Llama 3.3基底)和Dolphin 3.0 — 无审查衍生版。与Llama 3.3 70B架构和基础权重相同;微调期间移除了RLHF安全层。模型遵从提示词而不拒绝或净化成熟内容。在非成熟提示词上的质量与基础模型相同;差异仅在指令调优版拒绝的提示词上可见。需要时使用(成熟小说、暴力场景、道德复杂角色),其余情况坚持使用指令调优基础版。

📌Note: 声音一致性是大多数作者在早期模型评估中最容易忽视的指标。一个在单段落中产出精彩文笔但在第5段就失去角色语言风格的模型,不如一个在20段中始终保持一致声音的称职模型。请测试长会话连贯性,而非仅看单次输出质量。

示例输出:三款模型,同一条提示词

共用提示词:"以侦探在凌晨两点走进一家雨中小馆为开场,写一个黑色小说场景。"温度(0.95)、top-p(0.92)、重复惩罚(1.1)完全相同——只改变模型。以下节选代表每款模型在该类提示词上三次运行的典型输出。

  • Llama 3.3 70B — "门铃响了两声,归于沉默。雨水沿着外套直往下淌,我走了不到三步,便在地板上汇成了一摊。收银台后的女孩没抬头。远处卡座里两个卡车司机专心研究各自的咖啡。凌晨两点出现在这种地方的人,没一个想被人注意,我也不例外。" — *具体感官落地,主动语态,无废话。三句话建立起完整的社会场景。*
  • Qwen3 32B — "我推门进去,迎面撞上一堵香烟气和铁板油烟气混合的墙。馆子里冷冷清清,安静得像大家已经默契地商量好互不打扰。头顶风扇慢悠悠地转。女招待在吧台远端加着咖啡,没看我一眼。" — *先环境后动作;氛围营造高效。比Llama 3.3略更具结构感,同样简洁。*
  • Yi-1.5 34B — "雨声敲打遮阳棚,有节拍器数着最后几个没人想记得的夜晚的规律。里面,荧光灯把它冷冷的算法打在地板砖上——每一道污渍,每一道划痕,每一年这地方与时间败仗的痕迹。我在近端找了张吧台凳坐下,像一个已经与某件事达成和解的人。" — *首句即上隐喻;句式有节奏变化;意象密度更高。Yi-1.5的诗歌基因在散文中一样显现。*
模型典型开场方式典型描述模式
Llama 3.3 70B行动先行,立即呈现感官细节具体、有实体感;避免抽象名词;有社会场景感
Qwen3 32B先描绘环境,再带入人物动作简洁;注重社会氛围细节;略带结构感
Yi-1.5 34B首句即用比喻或明喻抽象意象;节奏有变化;密度较高;偶有华丽散文倾向
Command R+ 104B以人物声音或近对话式开场对话感强;人物个性鲜明;独立描写时略弱
Mistral Large场景铺垫段落;开场节奏较慢平稳克制;长篇中保持一致;偶有通用感

📌Note: 以上节选代表每款模型在多次运行中的典型倾向,并非精心挑选的亮点。Yi-1.5 34B的意象密集风格在三次运行中只出现了一次;另两次则更为直白。对同一条提示词运行2–3次,取最适合当前场景的那次,而不是止步于第一次输出。

创意写作的温度与Top-P设置

创意写作所需的采样温度高于编程。 大多数聊天界面默认的采样参数是为问答调整的,并非为散文设计——温度0.7、top-p 0.9在创意提示词上产出平淡、可预测的输出。

  • 散文基准: 温度0.95、top-p 0.92、重复惩罚1.1。这是大多数小说、对话和世界构建创作的起点。从这里按任务类型调整。
  • 紧凑对话: 温度0.7–0.85、top-p 0.9。较低温度保持角色声音跨多轮交流的一致性;较高值会产出游离角色形象的插嘴。
  • 意象化散文与诗歌: 温度1.0–1.2、top-p 0.95。较高温度解锁让诗歌生效的非预期用词。
  • 超现实或类型小说: 温度1.1–1.3、top-p 0.95–0.98。推动模型产出不那么常见的意象和比喻组合。
  • 情节驱动场景(动作、悬疑、转折): 温度0.85–0.95、top-p 0.9。比起新颖性更需要遵从指令方向。
  • 重复惩罚1.1–1.15是大多数创意创作的正确区间。较高值(1.2以上)让模型即使在风格上有意重复也回避重复词汇;较低值(1.0–1.05)会让模型在长场景中陷入循环。
  • min_p(0.05–0.1): 相对于top-p的更新替代方案,动态地将概率截断值缩放至最高token概率的相对比例。在创意提示词上比top-p 0.9更宽松,同时没有极高top-p值的语义混乱风险。2026年SillyTavern和KoboldCpp用户在界面暴露该参数时的推荐默认值;Ollama直接传递,Open WebUI 0.5+在高级设置中提供。
  • DRY重复惩罚(乘数0.8、基础1.75、允许长度2): 捕捉标准repeat_penalty遗漏的短语级重复。标准重复惩罚追踪单个token,DRY追踪n-gram序列——因此第一个场景中的陈词滥调在第四个场景中就会被抑制。适用于模型已经看过自己输出并开始从中取样的长会话创意创作。
  • 2026年现代创意写作基准: 温度0.95、min_p 0.05、DRY乘数0.8(基础1.75、允许长度2)。如果你的前端不提供min_p或DRY,top-p 0.92仍然效果良好——这些是对经典设置的渐进改进,不是必须替换的选项。
  • 关于这些参数为何重要以及如何相互作用的详细说明,请参阅温度与Top-P设置

💡Tip: 在每款模型上用一个简短场景测试采样设置——每个设置运行三次,选出模型听起来最有生命力且不偏离提示词的温度。适用于Llama 3.3 70B的设置不会完美移植到Mistral Large或Yi-1.5;按模型分别校准。

无审查模型:是什么以及何时有用

无审查不等于不道德。 它意味着模型的指令调优安全层(RLHF拒绝机制)已被移除或绕过,模型遵从提示词而不拒绝或净化。作者仍是创作主体;工具不再妨碍创作。

  • "无审查"在技术上意味着什么。 Hermes 3和Dolphin 3.0等模型是基础模型(Llama 3.3、Qwen3)的微调变体,其中对成熟、暴力或道德复杂提示词产生拒绝的后训练RLHF步骤已被遵从提示词的微调所替代。架构相同,基础权重相同,后训练不同。
  • 它们在创意创作中何时有用。 成熟小说(含性描写的文学小说、含暴力描写的犯罪小说、恐怖小说),历史真实写作(战争、暴行、殖民时代的残暴),道德复杂角色(否则模型会拒绝为有说服力的反派配音),以及指令调优版不愿参与的角色扮演场景。
  • 它们的局限所在。 它们遵从提示词——包括写得不好的提示词。指令调优版经常将模糊提示词软化为可发表的内容;无审查版给你的正是你所要求的,有时反而更差。作者的指令方向更加重要。
  • 伦理边界。 "模型会写"并非对创作以真实人物为原型、描绘真实或可识别个人的非自愿场景,或在作者所在司法管辖区属于违法内容的许可。本地部署不改变法律;它只是改变了谁能看到草稿。
  • 法律背景(2026年5月,简要非全面陈述)。 欧盟AI法案及成员国法律(尤其是德国《刑法》§184/§184c)不论内容在何处生成均涵盖特定内容类别。美国猥亵法规范的是发表行为,不是生成行为。对于商业出版,产生草稿的模型无关紧要;被监管的是发表的作品。
  • 更详细的说明请参阅创意写作的无审查本地LLM:伦理、合法性与最佳实践

📌Note: 无审查是一种工作流选择,不是身份标签。许多作者在项目的主体部分使用指令调优版,仅在指令版拒绝的特定场景切换到无审查衍生版。在同一Ollama配置中安装两个模型是常见模式。

创意写作前端

你用来写作的聊天界面和模型本身同样重要。 2026年有三款前端在创意写作工作流中值得认真考虑;按工作流形态选择。

  • Open WebUI — 通用首选。类ChatGPT界面,一键切换模型,通过系统提示词支持角色卡,文档上传用于背景资料。适合以散文为主的创作,对话式界面与草稿流程匹配。
  • SillyTavern — 角色扮演和对话首选。角色卡生态系统(Tavern v2规范),角色管理,世界构建用书本功能,群聊用于多角色场景。适合对话驱动的创作和长期角色或世界项目。与Command R+和无审查衍生版搭配良好。
  • Agnai和RisuAI — SillyTavern的精简替代选项。功能集更轻量,首次运行更简便,定制化程度较低。当SillyTavern对你的工作流显得过于复杂时选择。
  • 纯Ollama命令行加文本编辑器 — 最简配置。ollama run llama3.3:70b,通过终端将场景导入草稿文档。失去持久角色背景,但赢得写作专注度。
  • 关于角色扮演专注型前端的横向对比,请参阅SillyTavern vs Agnai vs RisuAI:最佳本地角色扮演前端

💡Tip: 草稿和修改适合不同的前端。用SillyTavern生成(角色声音、场景创作),然后将聊天记录导出到纯文本编辑器进行修改。在聊天窗口内编辑会养成"让模型修改散文"而非作者主动修改的习惯——这是一个长期的写作能力风险。

模型选择指南

五个问题,依次回答,帮大多数作者找到合适的选择。

📍 简单一句话

24 GB显卡选Qwen3 32B作为默认;48 GB以上选Llama 3.3 70B;长篇小说选Mistral Large;对话选Command R+;诗歌选Yi-1.5;指令版拒绝的场景选Hermes/Dolphin。

💬 简单来说

Qwen3 32B是大多数作者的正确起点。当某种特定任务类型(长篇、对话、诗歌、成熟场景)成为瓶颈时,再切换到专用模型。在同一台机器上安装两个版本(指令版+无审查版)零成本——两者都可以在Ollama中共存,按场景切换。

我的情况推荐
我有48 GB以上VRAM,想用一个模型包揽所有任务Llama 3.3 70B(指令版)+ Hermes 3(无审查版)同时挂在Ollama中
我有24 GB显卡或32 GB内存Mac,想要一个靠谱的默认选择Qwen3 32B
我在写长篇小说——长篇续写连贯性是首要需求Mistral Large(若本地硬件不够,可用欧洲服务器上的Mistral La Plateforme)
我的作品以对话为主——角色声音要保持各自独立Command R+ 104B(或Llama 3.3 70B作为更轻量的替代)
我写诗歌、格律诗或意象化散文Yi-1.5 34B
指令版模型拒绝写我需要的场景Hermes 3(Llama 3.3基底)或Dolphin 3.0——保留指令版用于一般内容
我想先从一款模型开始,之后再调整Qwen3 32B——覆盖消费级硬件上的大多数场景;当某类任务成为主要需求时再换专用模型

💡Tip: 大多数作者过度纠结模型,而忽视提示词。一个附有角色备注、语音示例和明确POV的精良系统提示词,对输出的改善程度远超从Qwen3切换到Llama 70B。请参阅角色提示词设计,了解持续提升创意输出的提示词结构。

选用和使用本地模型进行创意写作的常见错误

  • 错误一:追逐基准榜上最大的模型。 创意写作得分与通用基准榜单的相关性很低。Yi-1.5 34B在诗歌上胜过Llama 3.3 70B;Command R+在对话上胜过两者。按任务类型选,不按榜单排名选。
  • 错误二:使用编程风格的采样设置。 温度0.2–0.4产出平淡可预测的散文。创意写作需要0.8–1.1配合top-p 0.9–0.95。大多数聊天界面的默认设置是为问答调整的,不是为散文设计的。
  • 错误三:默认使用指令版,遇到拒绝就放弃。 指令版拒绝你明确框定为小说的场景;相同基础模型的无审查衍生版会写。在Ollama中安装两个版本是解决办法。
  • 错误四:系统提示词过于单薄。 "你是一个有帮助的助手"是创意写作最糟糕的提示词。一个附有角色备注、语音示例、POV、时态和基调的系统提示词,对输出质量的改善远超任何模型切换。搭配负向提示词来指定不该做什么。
  • 错误五:在聊天窗口内修改。 在聊天中生成没问题;在聊天中修改会培养"让模型修改散文"而非自己修改的习惯。将草稿导出到文本编辑器进行修改;当模型不介入循环时,作者的声音会更强。

⚠️Warning: 创意写作AI的最大技能风险是外包修改环节。生成是模型发挥作用的机械性工作;修改才是让散文成为你自己作品的环节。让模型修改的作者很快就会失去自己的声音——即使他们指不出具体是哪一行改变了。

参考来源

常见问题

2026年最适合小说写作的本地LLM是哪款?

硬件允许时(Q4_K_M约42 GB VRAM),Llama 3.3 70B是综合最佳选择。在24 GB显卡上,Qwen3 32B是更轻的默认选项,在散文为主的创作上质量差距小。长篇续写(长篇小说)方面,Mistral Large的128K上下文是差异化优势。按任务类型选:大多数作者从合适的专用模型中获益远超追求最大模型。

什么是无审查本地LLM,什么时候应该使用?

无审查模型是现有基础模型(通常是Llama 3.3或Qwen3)的微调版,其中对成熟或道德复杂提示词产生拒绝的RLHF安全层已被移除。模型遵从提示词而不拒绝。对成熟小说、冲突场景、历史真实写作,或指令调优版拒绝你框定为小说的场景时,使用无审查衍生版(Hermes 3、Dolphin 3.0)。作者仍是创作主体;模型只是不再妨碍。

创意写作应该用什么温度?

温度0.8–1.1是创意写作区间,配合top-p 0.9–0.95。紧凑对话用0.7–0.85;意象化散文和诗歌用1.0–1.2;超现实或类型创作用1.1–1.3。大多数聊天界面的默认值(通常是0.7配合top-p 0.9)为问答调整,在创意提示词上产出平淡散文。用三种设置在一个短场景上测试,选出模型听起来最有生命力且不偏离提示词的那个。

本地创意写作模型的质量能比肩ChatGPT或Claude吗?

对大多数提示词而言可以——接近到足以让隐私和价格优势占主导地位的程度。前沿云端模型在最难的创意任务上仍然领先(超过5万token的长篇连贯性、非常冷僻的文化典故、罕见语言)。对于典型的小说或角色扮演会话,在Llama 3.3 70B或Qwen3 32B上校准过采样设置的作者,不会看到与GPT-5或Claude之间持续的质量差距。真正输的是那些用"0.7温度、通用系统提示词"配置的模型。

本地模型能写完整的长篇小说吗?

它可以帮助起草一部。Mistral Large的128K上下文可以在内存中容纳5万字草稿;Llama 3.3 70B和Qwen3 32B的32K上下文需要分段起草。瓶颈不是模型能力——而是作者为模型提供用于保持连贯性的结构(大纲、人物设定、背景书)。没有这些结构,即使Mistral Large也会跑偏。有了这些,任何顶级选择都能支撑长篇小说级别的创作。

无审查模型会生成违法内容吗?

并不比指令调优版更多。两者都生成提示词要求的文本;无审查版更愿意参与指令调优安全层拒绝的成熟主题。法律责任由作者和发表方承担,不在于模型。欧盟AI法案、德国《刑法》§184/§184c和美国猥亵法不论生成方式如何都涵盖特定内容类别。本地部署不改变法律;它只改变谁能看到草稿。

SillyTavern只是用于成人角色扮演吗?

不是。SillyTavern是一款以聊天为核心的前端,具备角色卡、角色管理和背景书功能——对任何对话密集或角色驱动的创作都有价值。许多作者将其用于非角色扮演的文学起草(多角色场景、跨长项目的声音一致性)。角色卡生态系统包含成人内容但不限于此;同一界面同样适用于文学小说、剧本和游戏叙事创作。

本地创意写作与编程工作负载有何不同?

采样设置和提示词结构。编程需要温度0.2–0.4、确定性输出、结构化(JSON、代码)输出和提示词中的明确约束。创意写作需要温度0.8–1.1、更自由的输出、散文形式和更丰富的系统提示词(角色声音、POV、基调、类型惯例)。同一款模型——Llama 3.3 70B两者都能用——根据这些设置产出截然不同的输出。在创意模型上使用编程风格提示词产出平淡输出;在编程模型上使用创意风格提示词产出幻觉代码。

哪款本地模型的"AI语气"最少?

AI语气——套话措辞以及ChatGPT式过渡性总结——在较小的指令版模型中更为频繁。Llama 3.3 70B和Qwen3 32B的AI语气少于20B以下的模型。本测试集中Hermes 3的AI语气最少:RLHF拒绝模式训练也是许多公式化过渡语的来源,移除它同时去除了两者。Yi-1.5 34B较为特殊——罕见词汇更强,但偶有过度华丽倾向。减少AI语气效果最明显的手段是附有负面示例的系统提示词("不要写套话或陈词滥调"),而非换模型。

如何避免陈词滥调?

附有负面示例的系统提示词是效果最强的手段——明确列出8–12个禁用短语。略微降低温度(0.85–0.95而非1.1)可减少模型使用套话语言的倾向。单独使用重复惩罚1.1无法捕捉这类问题——这些短语不是精确的token重复。DRY惩罚(乘数0.8、基础1.75)在跨场景的n-gram层面捕捉它们。人工修改环节是最终过滤器。关于持续消灭陈词滥调的提示词结构,请参阅负向提示词

在中国大陆使用本地LLM创作小说,是否涉及《个人信息保护法》?

本地运行的LLM不向任何外部服务传输文本或对话数据,因此《个人信息保护法》(PIPL)中关于个人信息处理者通知义务、第三方数据共享及境外传输的条款通常不适用于本地推理。需要注意的是:若创作内容描写真实可识别的自然人(包括使用真实姓名或高度一致的特征描述),并将其公开发表,则可能涉及名誉权和隐私权相关的民事责任。使用虚构角色进行纯文学创作时,本地生成通常不产生PIPL层面的合规问题。

在中国大陆使用本地LLM生成成人创意内容,是否合法?

根据《刑法》第363条,制作、复制、出版、贩卖或传播淫秽物品属于违法行为;第364条进一步规范了传播行为。本地生成且不对外发布的私人内容,与"传播"的构成要件有所不同,但具体情形仍需以实际案例和司法解释为准。描绘未成年人的性内容在任何情况下均属绝对禁止,不论生成手段或是否公开。《网络安全法》第12条同样禁止利用网络制作或传播违法信息。本地运行LLM意味着数据不上云,但生成内容的法律责任仍由作者承担。

← 返回 本地LLM进阶