关键要点
- Llama 3.3 70B是2026年5月综合表现最佳的本地创意写作模型。 声音一致性最强,对指令方向响应良好,系统提示词将创作框定为小说时处理黑暗题材不拒绝。
- Qwen3 32B是24 GB显卡的最优选。 文笔质量接近Llama 70B,但无需48 GB以上VRAM。是大多数笔记本和台式机用户的默认选择。
- Mistral Large赢在长篇续写连贯性。 原生128K上下文;长篇小说草稿不丢失线索或角色声音。
- Command R+ 104B拥有最干净的对话声音。 跨角色最自然的对话节奏;对话是作品核心内容时的首选。
- Yi-1.5 34B是诗歌和意象化散文的专用选择。 格律诗、意象化散文和节奏重要的短篇创作的小众首选。
- 无审查衍生版(Hermes 3、Dolphin 3.0)是指令调优版拒绝时的正确选择。 基础模型相同;RLHF安全层已移除;模型遵从提示词而不拒绝。成熟小说、冲突场景和道德复杂角色变得可写。
- 采样设置比大多数人意识到的重要得多。 温度0.8–1.1、top-p 0.9–0.95是创意区间。编程风格设置(0.2–0.4)产生平淡、可预测的散文。1.2以上进入类型/超现实领域。
快速参考
- 综合最佳: Llama 3.3 70B(Q4_K_M量化),约42 GB VRAM。本测试集中声音一致性最强。
- 24 GB显卡最优: Qwen3 32B(Q4_K_M),约20 GB VRAM。大多数用户的默认选择。
- 长篇最佳: Mistral Large(Q4_K_M),约75 GB总VRAM(重型)。原生128K上下文。
- 对话最佳: Command R+ 104B(Q4_K_M),约62 GB VRAM。角色声音区分度最佳。
- 诗歌最佳: Yi-1.5 34B(Q4_K_M),约21 GB VRAM。意象化散文专家。
- 无审查选项: Hermes 3(Llama 3.3基底,约42 GB)和Dolphin 3.0(多基底,13–42 GB)。
- 散文默认采样: 温度0.95、top-p 0.92、重复惩罚1.1。按任务类型调整。
测试方法:六款模型、50余条创意提示词
测试保持提示词集、采样设置和前端不变,只改变模型。 在小说、对话、诗歌和世界构建任务上使用同一套50条提示词;每类任务按统一评分标准给出。
- 后端: macOS和Linux上运行Ollama 0.7+;每款模型相同的上下文限制;六款模型全部使用Q4_K_M量化(较小的32B–34B模型在VRAM允许时使用Q5_K_M,评分标准得分无可测量差异)。
- 前端: 主体测试使用Open WebUI(对话式场景);对话密集和角色扮演子集使用SillyTavern(契合创意写作者实际使用方式)。
- 提示词集: 50条提示词分布于四类任务——小说(15条:短故事开场、场景续写、描写段落),对话(15条:双角色交流、群戏、声音区分),诗歌(10条:自由诗、格律形式、意象化散文),世界构建(10条:场景描写、派系政治、魔法体系)。每款模型每条提示词运行3次以捕捉差异。
- 采样: 基准为温度0.95、top-p 0.92、重复惩罚1.1;各模型评测中注明了逐任务调整值。
- 评分标准: 声音一致性(角色或叙述者跨段落音调是否一致?)、提示词忠实度(模型是否按指令方向创作,还是自行发挥?)、文笔质量(节奏、词汇、避免陈词滥调)、创作意愿(提示词明确框定为小说时,模型是否拒绝或净化场景?)。
- 诚实约束: 得分以各任务内的相对排名呈现,不虚构绝对百分比。"对话最佳"意味着在3次运行的对话子集中持续排名第一;"强"意味着前三名;"一般"意味着在该评分项目上落后于一款或多款竞争模型。
- 关于改善任意模型创意输出的提示词技巧,请参阅温度与Top-P设置和角色提示词设计。
📌Note: 创意写作评测本质上具有主观性。上述评分标准(声音一致性、提示词忠实度、文笔质量、创作意愿)是我们能做到的最接近可重复评分的方案,但两位读者对同一批输出评分时,在文笔质量上的分歧往往多于共识。建议将评测结论视为在自己的创作中验证的起点假设,而非最终定论。
横向对比:六款本地模型在创意写作任务上的表现
Llama 3.3 70B在最广泛的任务类型上领先;较小和专用模型各在一两个类别胜出。 按任务类型选模型,而非按总体排名。
📍 简单一句话
Llama 3.3 70B是综合最强的创意模型;Qwen3 32B是轻量替代;Mistral Large赢长篇;Command R+赢对话;Yi-1.5赢诗歌;Hermes/Dolphin处理其他模型拒绝的场景。
💬 简单来说
没有一款模型在所有任务上最优。Llama 3.3 70B是硬件够用时的安全默认选择。Qwen3 32B是24 GB显卡的明智之选。当某类任务成为创作核心时,选专用模型(长篇用Mistral、对话用Command R+、诗歌用Yi-1.5)。指令调优版拒绝你需要写的场景时,选无审查衍生版。
| 模型 | 大小 | VRAM (Q4_K_M) | 小说 | 对话 | 诗歌 | 世界构建 | 适用场景 |
|---|---|---|---|---|---|---|---|
| Llama 3.3 70B | 70B | ~42 GB | 最佳 | 强 | 强 | 最佳 | 最全能首选;硬件够用时的默认选择 |
| Qwen3 32B | 32B | ~20 GB | 强 | 强 | 一般 | 强 | 24 GB显卡默认选择;与Llama 70B差距小 |
| Mistral Large | 123B | ~75 GB | 强(长篇) | 强 | 一般 | 强 | 长篇续写,原生128K上下文 |
| Command R+ | 104B | ~62 GB | 强 | 最佳 | 一般 | 强 | 对话密集型创作,群戏场景 |
| Yi-1.5 34B | 34B | ~21 GB | 一般 | 一般 | 最佳 | 一般 | 诗歌、意象化散文、文体创作 |
| Hermes 3 / Dolphin 3.0 | 13B–70B | ~9–42 GB | 与基础模型相同 | 与基础模型相同 | 与基础模型相同 | 与基础模型相同 | 指令调优版拒绝写的场景 |
💡Tip: 双模型配置是常见模式:Llama 3.3 70B(或Qwen3 32B)作为日常主力,加上同一Ollama中的Hermes 3衍生版处理指令版拒绝的场景。按场景切换;两款模型可同时出现在ollama list中而不冲突。
各模型评测
- Llama 3.3 70B — 综合最佳。测试集中声音一致性最强;角色在长场景中保持相同的语言风格。对指令响应良好——当系统提示词指定POV、基调或类型惯例时,Llama 3.3会遵从。在提示词框定为小说时处理黑暗题材(暴力、悲痛、道德灰色地带角色)不拒绝。不足之处:长段落偶尔飘向通用"文学"腔调;同系家族的小模型(8B)不具备这一优势。
- Qwen3 32B — 24 GB显卡最优选。声音一致性略逊于Llama 3.3 70B,但差距小到大多数作者在文笔为主的创作中感知不到。较小模型中指令遵从性最强。不足之处:诗歌和意象化散文明显落后;这类创作默认选Yi-1.5。
- Mistral Large — 长篇续写连贯性最佳。128K上下文窗口意味着5万字草稿不会截断;模型能跨章节保持角色细节、情节线索和世界规则。不足之处:本测试集中硬件要求最高(Q4_K_M约75 GB);长输入时每token速度减慢。若本地硬件不足,可使用欧盟基础设施上的Mistral La Plateforme。
- Command R+ 104B — 对话最佳。在多轮交流中保持鲜明的角色声音;群戏(3人以上)不出现"所有人听起来一样"的通病。不足之处:对话间的散文段落称职但不出彩;纯描写段落Llama 3.3更胜一筹。
- Yi-1.5 34B — 诗歌和意象化散文最佳。节奏感强,驾驭格律形式(十四行诗、六行诗、俳句)游刃有余,诗歌质量优于较大的通用模型。不足之处:长篇小说称职但非强项;叙事类创作请选Llama 3.3或Qwen3。
- Hermes 3(Llama 3.3基底)和Dolphin 3.0 — 无审查衍生版。与Llama 3.3 70B架构和基础权重相同;微调期间移除了RLHF安全层。模型遵从提示词而不拒绝或净化成熟内容。在非成熟提示词上的质量与基础模型相同;差异仅在指令调优版拒绝的提示词上可见。需要时使用(成熟小说、暴力场景、道德复杂角色),其余情况坚持使用指令调优基础版。
📌Note: 声音一致性是大多数作者在早期模型评估中最容易忽视的指标。一个在单段落中产出精彩文笔但在第5段就失去角色语言风格的模型,不如一个在20段中始终保持一致声音的称职模型。请测试长会话连贯性,而非仅看单次输出质量。
示例输出:三款模型,同一条提示词
共用提示词:"以侦探在凌晨两点走进一家雨中小馆为开场,写一个黑色小说场景。"温度(0.95)、top-p(0.92)、重复惩罚(1.1)完全相同——只改变模型。以下节选代表每款模型在该类提示词上三次运行的典型输出。
- Llama 3.3 70B — "门铃响了两声,归于沉默。雨水沿着外套直往下淌,我走了不到三步,便在地板上汇成了一摊。收银台后的女孩没抬头。远处卡座里两个卡车司机专心研究各自的咖啡。凌晨两点出现在这种地方的人,没一个想被人注意,我也不例外。" — *具体感官落地,主动语态,无废话。三句话建立起完整的社会场景。*
- Qwen3 32B — "我推门进去,迎面撞上一堵香烟气和铁板油烟气混合的墙。馆子里冷冷清清,安静得像大家已经默契地商量好互不打扰。头顶风扇慢悠悠地转。女招待在吧台远端加着咖啡,没看我一眼。" — *先环境后动作;氛围营造高效。比Llama 3.3略更具结构感,同样简洁。*
- Yi-1.5 34B — "雨声敲打遮阳棚,有节拍器数着最后几个没人想记得的夜晚的规律。里面,荧光灯把它冷冷的算法打在地板砖上——每一道污渍,每一道划痕,每一年这地方与时间败仗的痕迹。我在近端找了张吧台凳坐下,像一个已经与某件事达成和解的人。" — *首句即上隐喻;句式有节奏变化;意象密度更高。Yi-1.5的诗歌基因在散文中一样显现。*
| 模型 | 典型开场方式 | 典型描述模式 |
|---|---|---|
| Llama 3.3 70B | 行动先行,立即呈现感官细节 | 具体、有实体感;避免抽象名词;有社会场景感 |
| Qwen3 32B | 先描绘环境,再带入人物动作 | 简洁;注重社会氛围细节;略带结构感 |
| Yi-1.5 34B | 首句即用比喻或明喻 | 抽象意象;节奏有变化;密度较高;偶有华丽散文倾向 |
| Command R+ 104B | 以人物声音或近对话式开场 | 对话感强;人物个性鲜明;独立描写时略弱 |
| Mistral Large | 场景铺垫段落;开场节奏较慢 | 平稳克制;长篇中保持一致;偶有通用感 |
📌Note: 以上节选代表每款模型在多次运行中的典型倾向,并非精心挑选的亮点。Yi-1.5 34B的意象密集风格在三次运行中只出现了一次;另两次则更为直白。对同一条提示词运行2–3次,取最适合当前场景的那次,而不是止步于第一次输出。
创意写作的温度与Top-P设置
创意写作所需的采样温度高于编程。 大多数聊天界面默认的采样参数是为问答调整的,并非为散文设计——温度0.7、top-p 0.9在创意提示词上产出平淡、可预测的输出。
- 散文基准: 温度0.95、top-p 0.92、重复惩罚1.1。这是大多数小说、对话和世界构建创作的起点。从这里按任务类型调整。
- 紧凑对话: 温度0.7–0.85、top-p 0.9。较低温度保持角色声音跨多轮交流的一致性;较高值会产出游离角色形象的插嘴。
- 意象化散文与诗歌: 温度1.0–1.2、top-p 0.95。较高温度解锁让诗歌生效的非预期用词。
- 超现实或类型小说: 温度1.1–1.3、top-p 0.95–0.98。推动模型产出不那么常见的意象和比喻组合。
- 情节驱动场景(动作、悬疑、转折): 温度0.85–0.95、top-p 0.9。比起新颖性更需要遵从指令方向。
- 重复惩罚1.1–1.15是大多数创意创作的正确区间。较高值(1.2以上)让模型即使在风格上有意重复也回避重复词汇;较低值(1.0–1.05)会让模型在长场景中陷入循环。
- min_p(0.05–0.1): 相对于top-p的更新替代方案,动态地将概率截断值缩放至最高token概率的相对比例。在创意提示词上比top-p 0.9更宽松,同时没有极高top-p值的语义混乱风险。2026年SillyTavern和KoboldCpp用户在界面暴露该参数时的推荐默认值;Ollama直接传递,Open WebUI 0.5+在高级设置中提供。
- DRY重复惩罚(乘数0.8、基础1.75、允许长度2): 捕捉标准repeat_penalty遗漏的短语级重复。标准重复惩罚追踪单个token,DRY追踪n-gram序列——因此第一个场景中的陈词滥调在第四个场景中就会被抑制。适用于模型已经看过自己输出并开始从中取样的长会话创意创作。
- 2026年现代创意写作基准: 温度0.95、min_p 0.05、DRY乘数0.8(基础1.75、允许长度2)。如果你的前端不提供min_p或DRY,top-p 0.92仍然效果良好——这些是对经典设置的渐进改进,不是必须替换的选项。
- 关于这些参数为何重要以及如何相互作用的详细说明,请参阅温度与Top-P设置。
💡Tip: 在每款模型上用一个简短场景测试采样设置——每个设置运行三次,选出模型听起来最有生命力且不偏离提示词的温度。适用于Llama 3.3 70B的设置不会完美移植到Mistral Large或Yi-1.5;按模型分别校准。
无审查模型:是什么以及何时有用
无审查不等于不道德。 它意味着模型的指令调优安全层(RLHF拒绝机制)已被移除或绕过,模型遵从提示词而不拒绝或净化。作者仍是创作主体;工具不再妨碍创作。
- "无审查"在技术上意味着什么。 Hermes 3和Dolphin 3.0等模型是基础模型(Llama 3.3、Qwen3)的微调变体,其中对成熟、暴力或道德复杂提示词产生拒绝的后训练RLHF步骤已被遵从提示词的微调所替代。架构相同,基础权重相同,后训练不同。
- 它们在创意创作中何时有用。 成熟小说(含性描写的文学小说、含暴力描写的犯罪小说、恐怖小说),历史真实写作(战争、暴行、殖民时代的残暴),道德复杂角色(否则模型会拒绝为有说服力的反派配音),以及指令调优版不愿参与的角色扮演场景。
- 它们的局限所在。 它们遵从提示词——包括写得不好的提示词。指令调优版经常将模糊提示词软化为可发表的内容;无审查版给你的正是你所要求的,有时反而更差。作者的指令方向更加重要。
- 伦理边界。 "模型会写"并非对创作以真实人物为原型、描绘真实或可识别个人的非自愿场景,或在作者所在司法管辖区属于违法内容的许可。本地部署不改变法律;它只是改变了谁能看到草稿。
- 法律背景(2026年5月,简要非全面陈述)。 欧盟AI法案及成员国法律(尤其是德国《刑法》§184/§184c)不论内容在何处生成均涵盖特定内容类别。美国猥亵法规范的是发表行为,不是生成行为。对于商业出版,产生草稿的模型无关紧要;被监管的是发表的作品。
- 更详细的说明请参阅创意写作的无审查本地LLM:伦理、合法性与最佳实践。
📌Note: 无审查是一种工作流选择,不是身份标签。许多作者在项目的主体部分使用指令调优版,仅在指令版拒绝的特定场景切换到无审查衍生版。在同一Ollama配置中安装两个模型是常见模式。
创意写作前端
你用来写作的聊天界面和模型本身同样重要。 2026年有三款前端在创意写作工作流中值得认真考虑;按工作流形态选择。
- Open WebUI — 通用首选。类ChatGPT界面,一键切换模型,通过系统提示词支持角色卡,文档上传用于背景资料。适合以散文为主的创作,对话式界面与草稿流程匹配。
- SillyTavern — 角色扮演和对话首选。角色卡生态系统(Tavern v2规范),角色管理,世界构建用书本功能,群聊用于多角色场景。适合对话驱动的创作和长期角色或世界项目。与Command R+和无审查衍生版搭配良好。
- Agnai和RisuAI — SillyTavern的精简替代选项。功能集更轻量,首次运行更简便,定制化程度较低。当SillyTavern对你的工作流显得过于复杂时选择。
- 纯Ollama命令行加文本编辑器 — 最简配置。
ollama run llama3.3:70b,通过终端将场景导入草稿文档。失去持久角色背景,但赢得写作专注度。 - 关于角色扮演专注型前端的横向对比,请参阅SillyTavern vs Agnai vs RisuAI:最佳本地角色扮演前端。
💡Tip: 草稿和修改适合不同的前端。用SillyTavern生成(角色声音、场景创作),然后将聊天记录导出到纯文本编辑器进行修改。在聊天窗口内编辑会养成"让模型修改散文"而非作者主动修改的习惯——这是一个长期的写作能力风险。
模型选择指南
五个问题,依次回答,帮大多数作者找到合适的选择。
📍 简单一句话
24 GB显卡选Qwen3 32B作为默认;48 GB以上选Llama 3.3 70B;长篇小说选Mistral Large;对话选Command R+;诗歌选Yi-1.5;指令版拒绝的场景选Hermes/Dolphin。
💬 简单来说
Qwen3 32B是大多数作者的正确起点。当某种特定任务类型(长篇、对话、诗歌、成熟场景)成为瓶颈时,再切换到专用模型。在同一台机器上安装两个版本(指令版+无审查版)零成本——两者都可以在Ollama中共存,按场景切换。
| 我的情况 | 推荐 |
|---|---|
| 我有48 GB以上VRAM,想用一个模型包揽所有任务 | Llama 3.3 70B(指令版)+ Hermes 3(无审查版)同时挂在Ollama中 |
| 我有24 GB显卡或32 GB内存Mac,想要一个靠谱的默认选择 | Qwen3 32B |
| 我在写长篇小说——长篇续写连贯性是首要需求 | Mistral Large(若本地硬件不够,可用欧洲服务器上的Mistral La Plateforme) |
| 我的作品以对话为主——角色声音要保持各自独立 | Command R+ 104B(或Llama 3.3 70B作为更轻量的替代) |
| 我写诗歌、格律诗或意象化散文 | Yi-1.5 34B |
| 指令版模型拒绝写我需要的场景 | Hermes 3(Llama 3.3基底)或Dolphin 3.0——保留指令版用于一般内容 |
| 我想先从一款模型开始,之后再调整 | Qwen3 32B——覆盖消费级硬件上的大多数场景;当某类任务成为主要需求时再换专用模型 |
💡Tip: 大多数作者过度纠结模型,而忽视提示词。一个附有角色备注、语音示例和明确POV的精良系统提示词,对输出的改善程度远超从Qwen3切换到Llama 70B。请参阅角色提示词设计,了解持续提升创意输出的提示词结构。
选用和使用本地模型进行创意写作的常见错误
- 错误一:追逐基准榜上最大的模型。 创意写作得分与通用基准榜单的相关性很低。Yi-1.5 34B在诗歌上胜过Llama 3.3 70B;Command R+在对话上胜过两者。按任务类型选,不按榜单排名选。
- 错误二:使用编程风格的采样设置。 温度0.2–0.4产出平淡可预测的散文。创意写作需要0.8–1.1配合top-p 0.9–0.95。大多数聊天界面的默认设置是为问答调整的,不是为散文设计的。
- 错误三:默认使用指令版,遇到拒绝就放弃。 指令版拒绝你明确框定为小说的场景;相同基础模型的无审查衍生版会写。在Ollama中安装两个版本是解决办法。
- 错误四:系统提示词过于单薄。 "你是一个有帮助的助手"是创意写作最糟糕的提示词。一个附有角色备注、语音示例、POV、时态和基调的系统提示词,对输出质量的改善远超任何模型切换。搭配负向提示词来指定不该做什么。
- 错误五:在聊天窗口内修改。 在聊天中生成没问题;在聊天中修改会培养"让模型修改散文"而非自己修改的习惯。将草稿导出到文本编辑器进行修改;当模型不介入循环时,作者的声音会更强。
⚠️Warning: 创意写作AI的最大技能风险是外包修改环节。生成是模型发挥作用的机械性工作;修改才是让散文成为你自己作品的环节。让模型修改的作者很快就会失去自己的声音——即使他们指不出具体是哪一行改变了。
参考来源
- Hugging Face上的Llama 3.3、Qwen3、Mistral Large、Command R+、Yi-1.5模型卡 — 官方模型文档和许可证。
- Hermes 3(NousResearch)GitHub及模型卡 — 基于Llama 3.3的无审查微调版。
- Dolphin 3.0(Cognitive Computations)模型卡 — 多基础模型的无审查微调版。
- Ollama模型库 — 可用模型、量化选项、上文引用的工具调用支持标志。
- SillyTavern文档 — 角色卡规范、角色系统、群聊功能。
常见问题
2026年最适合小说写作的本地LLM是哪款?
硬件允许时(Q4_K_M约42 GB VRAM),Llama 3.3 70B是综合最佳选择。在24 GB显卡上,Qwen3 32B是更轻的默认选项,在散文为主的创作上质量差距小。长篇续写(长篇小说)方面,Mistral Large的128K上下文是差异化优势。按任务类型选:大多数作者从合适的专用模型中获益远超追求最大模型。
什么是无审查本地LLM,什么时候应该使用?
无审查模型是现有基础模型(通常是Llama 3.3或Qwen3)的微调版,其中对成熟或道德复杂提示词产生拒绝的RLHF安全层已被移除。模型遵从提示词而不拒绝。对成熟小说、冲突场景、历史真实写作,或指令调优版拒绝你框定为小说的场景时,使用无审查衍生版(Hermes 3、Dolphin 3.0)。作者仍是创作主体;模型只是不再妨碍。
创意写作应该用什么温度?
温度0.8–1.1是创意写作区间,配合top-p 0.9–0.95。紧凑对话用0.7–0.85;意象化散文和诗歌用1.0–1.2;超现实或类型创作用1.1–1.3。大多数聊天界面的默认值(通常是0.7配合top-p 0.9)为问答调整,在创意提示词上产出平淡散文。用三种设置在一个短场景上测试,选出模型听起来最有生命力且不偏离提示词的那个。
本地创意写作模型的质量能比肩ChatGPT或Claude吗?
对大多数提示词而言可以——接近到足以让隐私和价格优势占主导地位的程度。前沿云端模型在最难的创意任务上仍然领先(超过5万token的长篇连贯性、非常冷僻的文化典故、罕见语言)。对于典型的小说或角色扮演会话,在Llama 3.3 70B或Qwen3 32B上校准过采样设置的作者,不会看到与GPT-5或Claude之间持续的质量差距。真正输的是那些用"0.7温度、通用系统提示词"配置的模型。
本地模型能写完整的长篇小说吗?
它可以帮助起草一部。Mistral Large的128K上下文可以在内存中容纳5万字草稿;Llama 3.3 70B和Qwen3 32B的32K上下文需要分段起草。瓶颈不是模型能力——而是作者为模型提供用于保持连贯性的结构(大纲、人物设定、背景书)。没有这些结构,即使Mistral Large也会跑偏。有了这些,任何顶级选择都能支撑长篇小说级别的创作。
无审查模型会生成违法内容吗?
并不比指令调优版更多。两者都生成提示词要求的文本;无审查版更愿意参与指令调优安全层拒绝的成熟主题。法律责任由作者和发表方承担,不在于模型。欧盟AI法案、德国《刑法》§184/§184c和美国猥亵法不论生成方式如何都涵盖特定内容类别。本地部署不改变法律;它只改变谁能看到草稿。
SillyTavern只是用于成人角色扮演吗?
不是。SillyTavern是一款以聊天为核心的前端,具备角色卡、角色管理和背景书功能——对任何对话密集或角色驱动的创作都有价值。许多作者将其用于非角色扮演的文学起草(多角色场景、跨长项目的声音一致性)。角色卡生态系统包含成人内容但不限于此;同一界面同样适用于文学小说、剧本和游戏叙事创作。
本地创意写作与编程工作负载有何不同?
采样设置和提示词结构。编程需要温度0.2–0.4、确定性输出、结构化(JSON、代码)输出和提示词中的明确约束。创意写作需要温度0.8–1.1、更自由的输出、散文形式和更丰富的系统提示词(角色声音、POV、基调、类型惯例)。同一款模型——Llama 3.3 70B两者都能用——根据这些设置产出截然不同的输出。在创意模型上使用编程风格提示词产出平淡输出;在编程模型上使用创意风格提示词产出幻觉代码。
哪款本地模型的"AI语气"最少?
AI语气——套话措辞以及ChatGPT式过渡性总结——在较小的指令版模型中更为频繁。Llama 3.3 70B和Qwen3 32B的AI语气少于20B以下的模型。本测试集中Hermes 3的AI语气最少:RLHF拒绝模式训练也是许多公式化过渡语的来源,移除它同时去除了两者。Yi-1.5 34B较为特殊——罕见词汇更强,但偶有过度华丽倾向。减少AI语气效果最明显的手段是附有负面示例的系统提示词("不要写套话或陈词滥调"),而非换模型。
如何避免陈词滥调?
附有负面示例的系统提示词是效果最强的手段——明确列出8–12个禁用短语。略微降低温度(0.85–0.95而非1.1)可减少模型使用套话语言的倾向。单独使用重复惩罚1.1无法捕捉这类问题——这些短语不是精确的token重复。DRY惩罚(乘数0.8、基础1.75)在跨场景的n-gram层面捕捉它们。人工修改环节是最终过滤器。关于持续消灭陈词滥调的提示词结构,请参阅负向提示词。
在中国大陆使用本地LLM创作小说,是否涉及《个人信息保护法》?
本地运行的LLM不向任何外部服务传输文本或对话数据,因此《个人信息保护法》(PIPL)中关于个人信息处理者通知义务、第三方数据共享及境外传输的条款通常不适用于本地推理。需要注意的是:若创作内容描写真实可识别的自然人(包括使用真实姓名或高度一致的特征描述),并将其公开发表,则可能涉及名誉权和隐私权相关的民事责任。使用虚构角色进行纯文学创作时,本地生成通常不产生PIPL层面的合规问题。
在中国大陆使用本地LLM生成成人创意内容,是否合法?
根据《刑法》第363条,制作、复制、出版、贩卖或传播淫秽物品属于违法行为;第364条进一步规范了传播行为。本地生成且不对外发布的私人内容,与"传播"的构成要件有所不同,但具体情形仍需以实际案例和司法解释为准。描绘未成年人的性内容在任何情况下均属绝对禁止,不论生成手段或是否公开。《网络安全法》第12条同样禁止利用网络制作或传播违法信息。本地运行LLM意味着数据不上云,但生成内容的法律责任仍由作者承担。