2026年最适合创意写作的本地LLM是哪款？

Llama 3.3 70B是综合表现最佳的本地选择——在文笔、对话和世界构建上均表现突出，跨长会话的声音一致性持续稳定。在24 GB硬件上Qwen3 32B是质量损失极小的轻量替代。Mistral Large是长篇草稿的长上下文首选（原生128K）。Command R+ 104B拥有最自然的对话声音。Yi-1.5 34B是诗歌和意象化散文的专用选择。对于触发指令调优安全层的场景，Hermes 3和Dolphin 3.0衍生版使用相同的基础模型但移除了安全RLHF层——它们遵从提示词而不拒绝。温度0.8–1.1、top-p 0.9–0.95是创意写作区间；编程风格设置（0.2–0.4）会产生平淡散文。

主页/本地LLM进阶/2026年创意写作最佳本地LLM：小说、对话与世界构建测评

Creative & Roleplay

2026年创意写作最佳本地LLM：小说、对话与世界构建测评

最后更新: 2026-06-21·12 分钟阅读·Hans Kuepper 作者 · PromptQuorum创始人，多模型AI调度工具 · PromptQuorum

选择语言:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Llama 3.3 70B是2026年5月综合表现最佳的本地创意写作模型——声音一致性突出，对指令方向响应良好，系统提示词将创作框定为小说时可处理黑暗题材而不拒绝。Qwen3 32B是24 GB显卡的最优选：文笔接近Llama 70B，硬件需求低得多。Mistral Large凭借原生128K上下文赢在长篇续写连贯性。Command R+ 104B拥有最干净的对话声音。Yi-1.5 34B是诗歌和意象化散文的小众专用选择。对于指令调优版拒绝的场景，Hermes 3（Llama 3.3基底）和Dolphin 3.0是无审查选项——架构相同，RLHF安全层已移除。温度0.8–1.1、top-p 0.9–0.95是创意写作区间；0.7及以下会产生平淡散文。无审查不等于不道德——它意味着模型遵从提示词而非拒绝；作者仍是创作主体。

创意写作是本地LLM在隐私和价格之外更能体现优势的工作场景。2026年最优秀的指令调优和无审查开放权重模型——Llama 3.3 70B、Qwen3 32B、Mistral Large、Command R+、Yi-1.5 34B，以及Hermes/Dolphin无审查衍生版——在大多数提示词上，其小说、对话和世界构建输出已能与前沿云端模型比肩。差异体现在声音一致性、处理黑暗或成人题材的意愿，以及对创作方向指令的响应自然度。本指南在50余条创意提示词上对六款模型展开测试，覆盖小说、对话、诗歌、世界构建，并给出每款模型适用的温度与top-p设置。

关键要点

Llama 3.3 70B是2026年5月综合表现最佳的本地创意写作模型。 声音一致性最强，对指令方向响应良好，系统提示词将创作框定为小说时处理黑暗题材不拒绝。
Qwen3 32B是24 GB显卡的最优选。 文笔质量接近Llama 70B，但无需48 GB以上VRAM。是大多数笔记本和台式机用户的默认选择。
Mistral Large赢在长篇续写连贯性。 原生128K上下文；长篇小说草稿不丢失线索或角色声音。
Command R+ 104B拥有最干净的对话声音。 跨角色最自然的对话节奏；对话是作品核心内容时的首选。
Yi-1.5 34B是诗歌和意象化散文的专用选择。 格律诗、意象化散文和节奏重要的短篇创作的小众首选。
无审查衍生版（Hermes 3、Dolphin 3.0）是指令调优版拒绝时的正确选择。 基础模型相同；RLHF安全层已移除；模型遵从提示词而不拒绝。成熟小说、冲突场景和道德复杂角色变得可写。
采样设置比大多数人意识到的重要得多。 温度0.8–1.1、top-p 0.9–0.95是创意区间。编程风格设置（0.2–0.4）产生平淡、可预测的散文。1.2以上进入类型/超现实领域。

快速参考

综合最佳： Llama 3.3 70B（Q4_K_M量化），约42 GB VRAM。本测试集中声音一致性最强。
24 GB显卡最优： Qwen3 32B（Q4_K_M），约20 GB VRAM。大多数用户的默认选择。
长篇最佳： Mistral Large（Q4_K_M），约75 GB总VRAM（重型）。原生128K上下文。
对话最佳： Command R+ 104B（Q4_K_M），约62 GB VRAM。角色声音区分度最佳。
诗歌最佳： Yi-1.5 34B（Q4_K_M），约21 GB VRAM。意象化散文专家。
无审查选项： Hermes 3（Llama 3.3基底，约42 GB）和Dolphin 3.0（多基底，13–42 GB）。
散文默认采样： 温度0.95、top-p 0.92、重复惩罚1.1。按任务类型调整。

测试方法：六款模型、50余条创意提示词

测试保持提示词集、采样设置和前端不变，只改变模型。 在小说、对话、诗歌和世界构建任务上使用同一套50条提示词；每类任务按统一评分标准给出。

后端： macOS和Linux上运行Ollama 0.7+；每款模型相同的上下文限制；六款模型全部使用Q4_K_M量化（较小的32B–34B模型在VRAM允许时使用Q5_K_M，评分标准得分无可测量差异）。
前端： 主体测试使用Open WebUI（对话式场景）；对话密集和角色扮演子集使用SillyTavern（契合创意写作者实际使用方式）。
提示词集： 50条提示词分布于四类任务——小说（15条：短故事开场、场景续写、描写段落），对话（15条：双角色交流、群戏、声音区分），诗歌（10条：自由诗、格律形式、意象化散文），世界构建（10条：场景描写、派系政治、魔法体系）。每款模型每条提示词运行3次以捕捉差异。
采样： 基准为温度0.95、top-p 0.92、重复惩罚1.1；各模型评测中注明了逐任务调整值。
评分标准： 声音一致性（角色或叙述者跨段落音调是否一致？）、提示词忠实度（模型是否按指令方向创作，还是自行发挥？）、文笔质量（节奏、词汇、避免陈词滥调）、创作意愿（提示词明确框定为小说时，模型是否拒绝或净化场景？）。
诚实约束： 得分以各任务内的相对排名呈现，不虚构绝对百分比。"对话最佳"意味着在3次运行的对话子集中持续排名第一；"强"意味着前三名；"一般"意味着在该评分项目上落后于一款或多款竞争模型。
关于改善任意模型创意输出的提示词技巧，请参阅温度与Top-P设置和角色提示词设计。

📌Note: 创意写作评测本质上具有主观性。上述评分标准（声音一致性、提示词忠实度、文笔质量、创作意愿）是我们能做到的最接近可重复评分的方案，但两位读者对同一批输出评分时，在文笔质量上的分歧往往多于共识。建议将评测结论视为在自己的创作中验证的起点假设，而非最终定论。

横向对比：六款本地模型在创意写作任务上的表现

Llama 3.3 70B在最广泛的任务类型上领先；较小和专用模型各在一两个类别胜出。 按任务类型选模型，而非按总体排名。

📍 简单一句话

Llama 3.3 70B是综合最强的创意模型；Qwen3 32B是轻量替代；Mistral Large赢长篇；Command R+赢对话；Yi-1.5赢诗歌；Hermes/Dolphin处理其他模型拒绝的场景。

💬 简单来说

没有一款模型在所有任务上最优。Llama 3.3 70B是硬件够用时的安全默认选择。Qwen3 32B是24 GB显卡的明智之选。当某类任务成为创作核心时，选专用模型（长篇用Mistral、对话用Command R+、诗歌用Yi-1.5）。指令调优版拒绝你需要写的场景时，选无审查衍生版。

模型	大小	VRAM (Q4_K_M)	小说	对话	诗歌	世界构建	适用场景
Llama 3.3 70B	70B	~42 GB	最佳	强	强	最佳	最全能首选；硬件够用时的默认选择
Qwen3 32B	32B	~20 GB	强	强	一般	强	24 GB显卡默认选择；与Llama 70B差距小
Mistral Large	123B	~75 GB	强（长篇）	强	一般	强	长篇续写，原生128K上下文
Command R+	104B	~62 GB	强	最佳	一般	强	对话密集型创作，群戏场景
Yi-1.5 34B	34B	~21 GB	一般	一般	最佳	一般	诗歌、意象化散文、文体创作
Hermes 3 / Dolphin 3.0	13B–70B	~9–42 GB	与基础模型相同	与基础模型相同	与基础模型相同	与基础模型相同	指令调优版拒绝写的场景

💡Tip: 双模型配置是常见模式：Llama 3.3 70B（或Qwen3 32B）作为日常主力，加上同一Ollama中的Hermes 3衍生版处理指令版拒绝的场景。按场景切换；两款模型可同时出现在ollama list中而不冲突。

各模型评测

Llama 3.3 70B — 综合最佳。测试集中声音一致性最强；角色在长场景中保持相同的语言风格。对指令响应良好——当系统提示词指定POV、基调或类型惯例时，Llama 3.3会遵从。在提示词框定为小说时处理黑暗题材（暴力、悲痛、道德灰色地带角色）不拒绝。不足之处：长段落偶尔飘向通用"文学"腔调；同系家族的小模型（8B）不具备这一优势。
Qwen3 32B — 24 GB显卡最优选。声音一致性略逊于Llama 3.3 70B，但差距小到大多数作者在文笔为主的创作中感知不到。较小模型中指令遵从性最强。不足之处：诗歌和意象化散文明显落后；这类创作默认选Yi-1.5。
Mistral Large — 长篇续写连贯性最佳。128K上下文窗口意味着5万字草稿不会截断；模型能跨章节保持角色细节、情节线索和世界规则。不足之处：本测试集中硬件要求最高（Q4_K_M约75 GB）；长输入时每token速度减慢。若本地硬件不足，可使用欧盟基础设施上的Mistral La Plateforme。
Command R+ 104B — 对话最佳。在多轮交流中保持鲜明的角色声音；群戏（3人以上）不出现"所有人听起来一样"的通病。不足之处：对话间的散文段落称职但不出彩；纯描写段落Llama 3.3更胜一筹。
Yi-1.5 34B — 诗歌和意象化散文最佳。节奏感强，驾驭格律形式（十四行诗、六行诗、俳句）游刃有余，诗歌质量优于较大的通用模型。不足之处：长篇小说称职但非强项；叙事类创作请选Llama 3.3或Qwen3。
Hermes 3（Llama 3.3基底）和Dolphin 3.0 — 无审查衍生版。与Llama 3.3 70B架构和基础权重相同；微调期间移除了RLHF安全层。模型遵从提示词而不拒绝或净化成熟内容。在非成熟提示词上的质量与基础模型相同；差异仅在指令调优版拒绝的提示词上可见。需要时使用（成熟小说、暴力场景、道德复杂角色），其余情况坚持使用指令调优基础版。

📌Note: 声音一致性是大多数作者在早期模型评估中最容易忽视的指标。一个在单段落中产出精彩文笔但在第5段就失去角色语言风格的模型，不如一个在20段中始终保持一致声音的称职模型。请测试长会话连贯性，而非仅看单次输出质量。

示例输出：三款模型，同一条提示词

共用提示词："以侦探在凌晨两点走进一家雨中小馆为开场，写一个黑色小说场景。"温度（0.95）、top-p（0.92）、重复惩罚（1.1）完全相同——只改变模型。以下节选代表每款模型在该类提示词上三次运行的典型输出。

Llama 3.3 70B — "门铃响了两声，归于沉默。雨水沿着外套直往下淌，我走了不到三步，便在地板上汇成了一摊。收银台后的女孩没抬头。远处卡座里两个卡车司机专心研究各自的咖啡。凌晨两点出现在这种地方的人，没一个想被人注意，我也不例外。" — *具体感官落地，主动语态，无废话。三句话建立起完整的社会场景。*
Qwen3 32B — "我推门进去，迎面撞上一堵香烟气和铁板油烟气混合的墙。馆子里冷冷清清，安静得像大家已经默契地商量好互不打扰。头顶风扇慢悠悠地转。女招待在吧台远端加着咖啡，没看我一眼。" — *先环境后动作；氛围营造高效。比Llama 3.3略更具结构感，同样简洁。*
Yi-1.5 34B — "雨声敲打遮阳棚，有节拍器数着最后几个没人想记得的夜晚的规律。里面，荧光灯把它冷冷的算法打在地板砖上——每一道污渍，每一道划痕，每一年这地方与时间败仗的痕迹。我在近端找了张吧台凳坐下，像一个已经与某件事达成和解的人。" — *首句即上隐喻；句式有节奏变化；意象密度更高。Yi-1.5的诗歌基因在散文中一样显现。*

模型	典型开场方式	典型描述模式
Llama 3.3 70B	行动先行，立即呈现感官细节	具体、有实体感；避免抽象名词；有社会场景感
Qwen3 32B	先描绘环境，再带入人物动作	简洁；注重社会氛围细节；略带结构感
Yi-1.5 34B	首句即用比喻或明喻	抽象意象；节奏有变化；密度较高；偶有华丽散文倾向
Command R+ 104B	以人物声音或近对话式开场	对话感强；人物个性鲜明；独立描写时略弱
Mistral Large	场景铺垫段落；开场节奏较慢	平稳克制；长篇中保持一致；偶有通用感

📌Note: 以上节选代表每款模型在多次运行中的典型倾向，并非精心挑选的亮点。Yi-1.5 34B的意象密集风格在三次运行中只出现了一次；另两次则更为直白。对同一条提示词运行2–3次，取最适合当前场景的那次，而不是止步于第一次输出。

创意写作的温度与Top-P设置

创意写作所需的采样温度高于编程。 大多数聊天界面默认的采样参数是为问答调整的，并非为散文设计——温度0.7、top-p 0.9在创意提示词上产出平淡、可预测的输出。

散文基准： 温度0.95、top-p 0.92、重复惩罚1.1。这是大多数小说、对话和世界构建创作的起点。从这里按任务类型调整。
紧凑对话： 温度0.7–0.85、top-p 0.9。较低温度保持角色声音跨多轮交流的一致性；较高值会产出游离角色形象的插嘴。
意象化散文与诗歌： 温度1.0–1.2、top-p 0.95。较高温度解锁让诗歌生效的非预期用词。
超现实或类型小说： 温度1.1–1.3、top-p 0.95–0.98。推动模型产出不那么常见的意象和比喻组合。
情节驱动场景（动作、悬疑、转折）： 温度0.85–0.95、top-p 0.9。比起新颖性更需要遵从指令方向。
重复惩罚1.1–1.15是大多数创意创作的正确区间。较高值（1.2以上）让模型即使在风格上有意重复也回避重复词汇；较低值（1.0–1.05）会让模型在长场景中陷入循环。
min_p（0.05–0.1）： 相对于top-p的更新替代方案，动态地将概率截断值缩放至最高token概率的相对比例。在创意提示词上比top-p 0.9更宽松，同时没有极高top-p值的语义混乱风险。2026年SillyTavern和KoboldCpp用户在界面暴露该参数时的推荐默认值；Ollama直接传递，Open WebUI 0.5+在高级设置中提供。
DRY重复惩罚（乘数0.8、基础1.75、允许长度2）： 捕捉标准repeat_penalty遗漏的短语级重复。标准重复惩罚追踪单个token，DRY追踪n-gram序列——因此第一个场景中的陈词滥调在第四个场景中就会被抑制。适用于模型已经看过自己输出并开始从中取样的长会话创意创作。
2026年现代创意写作基准： 温度0.95、min_p 0.05、DRY乘数0.8（基础1.75、允许长度2）。如果你的前端不提供min_p或DRY，top-p 0.92仍然效果良好——这些是对经典设置的渐进改进，不是必须替换的选项。
关于这些参数为何重要以及如何相互作用的详细说明，请参阅温度与Top-P设置。

💡Tip: 在每款模型上用一个简短场景测试采样设置——每个设置运行三次，选出模型听起来最有生命力且不偏离提示词的温度。适用于Llama 3.3 70B的设置不会完美移植到Mistral Large或Yi-1.5；按模型分别校准。

无审查模型：是什么以及何时有用

无审查不等于不道德。 它意味着模型的指令调优安全层（RLHF拒绝机制）已被移除或绕过，模型遵从提示词而不拒绝或净化。作者仍是创作主体；工具不再妨碍创作。

"无审查"在技术上意味着什么。 Hermes 3和Dolphin 3.0等模型是基础模型（Llama 3.3、Qwen3）的微调变体，其中对成熟、暴力或道德复杂提示词产生拒绝的后训练RLHF步骤已被遵从提示词的微调所替代。架构相同，基础权重相同，后训练不同。
它们在创意创作中何时有用。 成熟小说（含性描写的文学小说、含暴力描写的犯罪小说、恐怖小说），历史真实写作（战争、暴行、殖民时代的残暴），道德复杂角色（否则模型会拒绝为有说服力的反派配音），以及指令调优版不愿参与的角色扮演场景。
它们的局限所在。 它们遵从提示词——包括写得不好的提示词。指令调优版经常将模糊提示词软化为可发表的内容；无审查版给你的正是你所要求的，有时反而更差。作者的指令方向更加重要。
伦理边界。 "模型会写"并非对创作以真实人物为原型、描绘真实或可识别个人的非自愿场景，或在作者所在司法管辖区属于违法内容的许可。本地部署不改变法律；它只是改变了谁能看到草稿。
法律背景（2026年5月，简要非全面陈述）。 欧盟AI法案及成员国法律（尤其是德国《刑法》§184/§184c）不论内容在何处生成均涵盖特定内容类别。美国猥亵法规范的是发表行为，不是生成行为。对于商业出版，产生草稿的模型无关紧要；被监管的是发表的作品。
更详细的说明请参阅创意写作的无审查本地LLM：伦理、合法性与最佳实践。

📌Note: 无审查是一种工作流选择，不是身份标签。许多作者在项目的主体部分使用指令调优版，仅在指令版拒绝的特定场景切换到无审查衍生版。在同一Ollama配置中安装两个模型是常见模式。

创意写作前端

你用来写作的聊天界面和模型本身同样重要。 2026年有三款前端在创意写作工作流中值得认真考虑；按工作流形态选择。

Open WebUI — 通用首选。类ChatGPT界面，一键切换模型，通过系统提示词支持角色卡，文档上传用于背景资料。适合以散文为主的创作，对话式界面与草稿流程匹配。
SillyTavern — 角色扮演和对话首选。角色卡生态系统（Tavern v2规范），角色管理，世界构建用书本功能，群聊用于多角色场景。适合对话驱动的创作和长期角色或世界项目。与Command R+和无审查衍生版搭配良好。
Agnai和RisuAI — SillyTavern的精简替代选项。功能集更轻量，首次运行更简便，定制化程度较低。当SillyTavern对你的工作流显得过于复杂时选择。
纯Ollama命令行加文本编辑器 — 最简配置。ollama run llama3.3:70b，通过终端将场景导入草稿文档。失去持久角色背景，但赢得写作专注度。
关于角色扮演专注型前端的横向对比，请参阅SillyTavern vs Agnai vs RisuAI：最佳本地角色扮演前端。

💡Tip: 草稿和修改适合不同的前端。用SillyTavern生成（角色声音、场景创作），然后将聊天记录导出到纯文本编辑器进行修改。在聊天窗口内编辑会养成"让模型修改散文"而非作者主动修改的习惯——这是一个长期的写作能力风险。

模型选择指南

五个问题，依次回答，帮大多数作者找到合适的选择。

📍 简单一句话

24 GB显卡选Qwen3 32B作为默认；48 GB以上选Llama 3.3 70B；长篇小说选Mistral Large；对话选Command R+；诗歌选Yi-1.5；指令版拒绝的场景选Hermes/Dolphin。

💬 简单来说

Qwen3 32B是大多数作者的正确起点。当某种特定任务类型（长篇、对话、诗歌、成熟场景）成为瓶颈时，再切换到专用模型。在同一台机器上安装两个版本（指令版+无审查版）零成本——两者都可以在Ollama中共存，按场景切换。

我的情况	推荐
我有48 GB以上VRAM，想用一个模型包揽所有任务	Llama 3.3 70B（指令版）+ Hermes 3（无审查版）同时挂在Ollama中
我有24 GB显卡或32 GB内存Mac，想要一个靠谱的默认选择	Qwen3 32B
我在写长篇小说——长篇续写连贯性是首要需求	Mistral Large（若本地硬件不够，可用欧洲服务器上的Mistral La Plateforme）
我的作品以对话为主——角色声音要保持各自独立	Command R+ 104B（或Llama 3.3 70B作为更轻量的替代）
我写诗歌、格律诗或意象化散文	Yi-1.5 34B
指令版模型拒绝写我需要的场景	Hermes 3（Llama 3.3基底）或Dolphin 3.0——保留指令版用于一般内容
我想先从一款模型开始，之后再调整	Qwen3 32B——覆盖消费级硬件上的大多数场景；当某类任务成为主要需求时再换专用模型

💡Tip: 大多数作者过度纠结模型，而忽视提示词。一个附有角色备注、语音示例和明确POV的精良系统提示词，对输出的改善程度远超从Qwen3切换到Llama 70B。请参阅角色提示词设计，了解持续提升创意输出的提示词结构。

选用和使用本地模型进行创意写作的常见错误

错误一：追逐基准榜上最大的模型。 创意写作得分与通用基准榜单的相关性很低。Yi-1.5 34B在诗歌上胜过Llama 3.3 70B；Command R+在对话上胜过两者。按任务类型选，不按榜单排名选。
错误二：使用编程风格的采样设置。 温度0.2–0.4产出平淡可预测的散文。创意写作需要0.8–1.1配合top-p 0.9–0.95。大多数聊天界面的默认设置是为问答调整的，不是为散文设计的。
错误三：默认使用指令版，遇到拒绝就放弃。 指令版拒绝你明确框定为小说的场景；相同基础模型的无审查衍生版会写。在Ollama中安装两个版本是解决办法。
错误四：系统提示词过于单薄。 "你是一个有帮助的助手"是创意写作最糟糕的提示词。一个附有角色备注、语音示例、POV、时态和基调的系统提示词，对输出质量的改善远超任何模型切换。搭配负向提示词来指定不该做什么。
错误五：在聊天窗口内修改。 在聊天中生成没问题；在聊天中修改会培养"让模型修改散文"而非自己修改的习惯。将草稿导出到文本编辑器进行修改；当模型不介入循环时，作者的声音会更强。

⚠️Warning: 创意写作AI的最大技能风险是外包修改环节。生成是模型发挥作用的机械性工作；修改才是让散文成为你自己作品的环节。让模型修改的作者很快就会失去自己的声音——即使他们指不出具体是哪一行改变了。

参考来源

Hugging Face上的Llama 3.3、Qwen3、Mistral Large、Command R+、Yi-1.5模型卡 — 官方模型文档和许可证。
Hermes 3（NousResearch）GitHub及模型卡 — 基于Llama 3.3的无审查微调版。
Dolphin 3.0（Cognitive Computations）模型卡 — 多基础模型的无审查微调版。
Ollama模型库 — 可用模型、量化选项、上文引用的工具调用支持标志。
SillyTavern文档 — 角色卡规范、角色系统、群聊功能。

常见问题

2026年最适合小说写作的本地LLM是哪款？

硬件允许时（Q4_K_M约42 GB VRAM），Llama 3.3 70B是综合最佳选择。在24 GB显卡上，Qwen3 32B是更轻的默认选项，在散文为主的创作上质量差距小。长篇续写（长篇小说）方面，Mistral Large的128K上下文是差异化优势。按任务类型选：大多数作者从合适的专用模型中获益远超追求最大模型。

什么是无审查本地LLM，什么时候应该使用？

无审查模型是现有基础模型（通常是Llama 3.3或Qwen3）的微调版，其中对成熟或道德复杂提示词产生拒绝的RLHF安全层已被移除。模型遵从提示词而不拒绝。对成熟小说、冲突场景、历史真实写作，或指令调优版拒绝你框定为小说的场景时，使用无审查衍生版（Hermes 3、Dolphin 3.0）。作者仍是创作主体；模型只是不再妨碍。

创意写作应该用什么温度？

温度0.8–1.1是创意写作区间，配合top-p 0.9–0.95。紧凑对话用0.7–0.85；意象化散文和诗歌用1.0–1.2；超现实或类型创作用1.1–1.3。大多数聊天界面的默认值（通常是0.7配合top-p 0.9）为问答调整，在创意提示词上产出平淡散文。用三种设置在一个短场景上测试，选出模型听起来最有生命力且不偏离提示词的那个。

本地创意写作模型的质量能比肩ChatGPT或Claude吗？

对大多数提示词而言可以——接近到足以让隐私和价格优势占主导地位的程度。前沿云端模型在最难的创意任务上仍然领先（超过5万token的长篇连贯性、非常冷僻的文化典故、罕见语言）。对于典型的小说或角色扮演会话，在Llama 3.3 70B或Qwen3 32B上校准过采样设置的作者，不会看到与GPT-5或Claude之间持续的质量差距。真正输的是那些用"0.7温度、通用系统提示词"配置的模型。

本地模型能写完整的长篇小说吗？

它可以帮助起草一部。Mistral Large的128K上下文可以在内存中容纳5万字草稿；Llama 3.3 70B和Qwen3 32B的32K上下文需要分段起草。瓶颈不是模型能力——而是作者为模型提供用于保持连贯性的结构（大纲、人物设定、背景书）。没有这些结构，即使Mistral Large也会跑偏。有了这些，任何顶级选择都能支撑长篇小说级别的创作。

无审查模型会生成违法内容吗？

并不比指令调优版更多。两者都生成提示词要求的文本；无审查版更愿意参与指令调优安全层拒绝的成熟主题。法律责任由作者和发表方承担，不在于模型。欧盟AI法案、德国《刑法》§184/§184c和美国猥亵法不论生成方式如何都涵盖特定内容类别。本地部署不改变法律；它只改变谁能看到草稿。

SillyTavern只是用于成人角色扮演吗？

不是。SillyTavern是一款以聊天为核心的前端，具备角色卡、角色管理和背景书功能——对任何对话密集或角色驱动的创作都有价值。许多作者将其用于非角色扮演的文学起草（多角色场景、跨长项目的声音一致性）。角色卡生态系统包含成人内容但不限于此；同一界面同样适用于文学小说、剧本和游戏叙事创作。

本地创意写作与编程工作负载有何不同？

采样设置和提示词结构。编程需要温度0.2–0.4、确定性输出、结构化（JSON、代码）输出和提示词中的明确约束。创意写作需要温度0.8–1.1、更自由的输出、散文形式和更丰富的系统提示词（角色声音、POV、基调、类型惯例）。同一款模型——Llama 3.3 70B两者都能用——根据这些设置产出截然不同的输出。在创意模型上使用编程风格提示词产出平淡输出；在编程模型上使用创意风格提示词产出幻觉代码。

哪款本地模型的"AI语气"最少？

AI语气——套话措辞以及ChatGPT式过渡性总结——在较小的指令版模型中更为频繁。Llama 3.3 70B和Qwen3 32B的AI语气少于20B以下的模型。本测试集中Hermes 3的AI语气最少：RLHF拒绝模式训练也是许多公式化过渡语的来源，移除它同时去除了两者。Yi-1.5 34B较为特殊——罕见词汇更强，但偶有过度华丽倾向。减少AI语气效果最明显的手段是附有负面示例的系统提示词（"不要写套话或陈词滥调"），而非换模型。

如何避免陈词滥调？

附有负面示例的系统提示词是效果最强的手段——明确列出8–12个禁用短语。略微降低温度（0.85–0.95而非1.1）可减少模型使用套话语言的倾向。单独使用重复惩罚1.1无法捕捉这类问题——这些短语不是精确的token重复。DRY惩罚（乘数0.8、基础1.75）在跨场景的n-gram层面捕捉它们。人工修改环节是最终过滤器。关于持续消灭陈词滥调的提示词结构，请参阅负向提示词。

在中国大陆使用本地LLM创作小说，是否涉及《个人信息保护法》？

本地运行的LLM不向任何外部服务传输文本或对话数据，因此《个人信息保护法》（PIPL）中关于个人信息处理者通知义务、第三方数据共享及境外传输的条款通常不适用于本地推理。需要注意的是：若创作内容描写真实可识别的自然人（包括使用真实姓名或高度一致的特征描述），并将其公开发表，则可能涉及名誉权和隐私权相关的民事责任。使用虚构角色进行纯文学创作时，本地生成通常不产生PIPL层面的合规问题。

在中国大陆使用本地LLM生成成人创意内容，是否合法？

根据《刑法》第363条，制作、复制、出版、贩卖或传播淫秽物品属于违法行为；第364条进一步规范了传播行为。本地生成且不对外发布的私人内容，与"传播"的构成要件有所不同，但具体情形仍需以实际案例和司法解释为准。描绘未成年人的性内容在任何情况下均属绝对禁止，不论生成手段或是否公开。《网络安全法》第12条同样禁止利用网络制作或传播违法信息。本地运行LLM意味着数据不上云，但生成内容的法律责任仍由作者承担。

← 返回本地LLM进阶