RISEN框架是什么?
📍 In One Sentence
RISEN是一个5步的迭代循环 — Refine、Inspect、Summarize、Evaluate、Next Steps — 把"把这个改得更好"变成一个结构化、可重复的改进工作流,带有完整的审计记录。
💬 In Plain Terms
与其说"改进这个"然后希望最好的结果,不如告诉AI修复它(Refine)、列出它改了什么(Inspect)、解释新版本是什么(Summarize)、给自己打分(Evaluate),然后建议下一步改什么(Next Steps)。重复直到完成。
RISEN框架是一个迭代Prompt模式,通过多个改进循环来改进现有的草稿、分析和计划。 与其把每个Prompt当作一次性任务,不如引导GPT-4o、Claude 4.6 Sonnet或Gemini 2.5 Pro这样的模型通过一个结构化、可重复的改进循环。这使得您的工作流程更像持续编辑而不是随机试错。
RISEN尤其在您已经有初稿的时候有用 — 例如一篇草稿文章、策略笔记、代码片段或分析 — 您想让模型以受控、可审计的方式改进它。每个RISEN步骤都有不同的目的,这使得修订集中且可追踪。
框架得名于其五个阶段:Refine(改进草稿)、Inspect(识别变更)、Summarize(解释改了什么)、Evaluate(按标准打分),Next steps(推荐改进)。
RISEN的五个组成部分
一个强大的RISEN Prompt明确要求模型通过五个阶段,每个都有不同的输出。 您可以把这些阶段组合到一个更长的Prompt中,或者分成连续的Prompt,取决于您想要多少控制和反馈。
- Refine: 根据您的目标改进现有的草稿(清晰度、结构、准确性、简洁性、受众一致性、语调等)。模型重写或增强原始材料。
- Inspect: 识别做出的具体改动 — 确切改写了什么、添加了什么细节、修复了什么问题。这建立了审计记录。要求5-7个具体的编辑及其理由。
- Summarize: 提供对新版本现在说什么或做什么的简洁解释 — 不是内容的重复,而是对其重点和强调的元级描述。
- Evaluate: 根据明确的标准(语调、准确性、完整性、受众一致性、清晰度)批评结果。使用1-5的数字比例,每个标准需要一句话的理由。
- Next steps: 为下一个迭代推荐3个重点改进,这样您总是有明确的方向进行进一步的改进。
为什么RISEN有用
RISEN框架在三个关键方面与标准改进工作流不同:可追踪性、可控制性和可重复性。
- 可追踪性: Inspect步骤强制模型记录每一个变更。您可以看到改了什么、为什么改。这对于文档、合规性和跨部门合作至关重要。
- 可控制性: 不是让模型一下子改进所有内容,RISEN把改进分成五个离散的、可管理的步骤。您可以在任何阶段暂停、调整或重新指导。
- 可重复性: 一旦您有了有效的RISEN模板,您可以对任何类似的文档、代码或分析重复使用。在PromptQuorum中,您甚至可以在多个模型上并行测试相同的循环。
- 团队协作: Inspect和Evaluate步骤天生支持多人评审。一个人可以Refine,另一个人可以Inspect,第三个人可以Evaluate。
- 成本效益: RISEN有针对性的改进比反复的"再试一次"要便宜,因为您确切知道您在改什么以及为什么。
何时使用RISEN
- ✅ 使用RISEN当: 您已经有初稿(文章、分析、代码);您想改进它,但需要可追踪的变更;您想测试多个模型的改进方法;您在多人团队中工作,需要审计跟踪。
- ❌ 不使用RISEN当: 您从零开始生成内容(使用CO-STAR或CRAFT);您需要快速一次性答案(使用标准Prompt);您在处理结构化数据或代码,需要特定的编程框架。
糟糕示例 vs 优秀RISEN Prompt示例
❌ ❌ 糟糕 — 模糊且无Inspect
Please improve this article.
✅ ✅ 优秀 — 完整的RISEN循环
请按照RISEN框架改进这篇文章。 **Refine:** 改进以下文章。重点是清晰度、结构和简洁性。重写任何冗长或不清楚的句子。 **Inspect:** 列出您做出的确切5-7个改动。对每一个改动,解释您为什么改。 **Summarize:** 在一段话中,总结改进后的版本现在说什么。 **Evaluate:** 根据以下标准给新版本打分:清晰度、准确性、完整性(每个1-5)。解释每个分数。 **Next Steps:** 推荐下一轮改进的3个重点改进。 [粘贴原始文章]
如何编写RISEN Prompt
- 1陈述问题和预期成果。 "您是角色。您的任务是使用RISEN过程改进材料类型。"
- 2明确定义Refine目标。 "改进具体标准:清晰度、准确性、简洁性、语调、受众对齐。目标长度或格式。"
- 3要求具体的Inspect输出。 "列出5-7个具体的编辑。对每一个,说明您更改了什么以及为什么。"
- 4指定Evaluate标准。 "在3-5个命名维度,如清晰度、准确性、说服力上评分(1-5)。用一句话解释每个评分。"
- 5要求可行的Next Steps。 "建议3个下一次迭代的重点改进。"
关键提示
🔍 Inspect步骤是秘密武器
Inspect步骤正是使RISEN在框架中独特的原因。大多数框架生成输出。RISEN强制模型记录每个具体的变更,创建永久的审计记录。没有其他框架有这种内置的责任制——这就是为什么RISEN对受管制行业、学术工作和需要可追溯性的团队协作至关重要。
🔍 为什么"改进这个"会失败
像"改进这个"或"把这个改好"这样含糊的改进请求给模型零约束。没有明确的标准和结构,模型会漫无目的,产生不一致的结果。RISEN之所以有效,是因为每个步骤都有特定的、有名字的、受约束的输出。具体性驱动质量。
⚠️ 何时不应使用RISEN
不要在初期草稿生成中使用RISEN。RISEN需要现有的材料来改进。如果您需要从零开始创建东西,请先使用CO-STAR、CRAFT或Single Step。然后切换到RISEN进行迭代改进。在不存在的材料上使用RISEN会浪费代币并产生无意义的Inspect输出。
🔍 两框架工作流
最优模式:使用CO-STAR或CRAFT生成初期草稿。然后切换到RISEN进行迭代精化和自我批评。这种分离防止了模型将两个根本不同的认知任务——"创建"和"改进"——混在一起。每个框架在其特定的阶段都表现出色。
比较表(CoT vs 单次提示 vs RISEN)
| 维度 | 链式思维(CoT) | 单次提示 | RISEN框架 |
|---|---|---|---|
| 结构 | 线性(单一路径) | 一次性生成 | 5步迭代循环 |
| 核心操作 | "逐步思考" | 生成 | Refine → Inspect → Summarize → Evaluate → Next Steps → 重复 |
| 审计跟踪 | 无变更跟踪 | 无 | 是 — Inspect记录所有变更 |
| 最佳用途 | 数学、逻辑、解释 | 快速任务、一次性答案 | 迭代改进和团队评审 |
| 相对于基准的Token成本 | 1.5-2倍 | 1倍基准 | 2-5倍/循环 |
| 多个Prompt | 否 | 否 | 一个长的或5个连续的 |
| 模型比较 | 否 | 否 | 是 — 在GPT、Claude、Gemini上并行 |
使用RISEN时的常见错误
❌ 跳过Inspect步骤
Why it hurts: Inspect步骤是RISEN独特的。如果不做Inspect,您就失去了审计记录 — 您无法看到改了什么。
Fix: 始终要求特定的变更列表。这建立了可追踪性。
❌ 在Evaluate中过于宽泛
Why it hurts: "好"不是一个标准。这给模型没有明确的评估目标。
Fix: 说"清晰度1-5"或"准确性1-5"。具体的标准产生具体的改进。
❌ 在Refine中试图改进一切
Why it hurts: 如果您说"改进所有内容",模型会做随机改动,没有焦点。
Fix: 集中在一个或两个明确的目标。说"改进清晰度和简洁性"。
❌ 对所有内容都使用RISEN
Why it hurts: RISEN对迭代改进很好,但对初期生成来说太冗长。
Fix: 使用CO-STAR或CRAFT生成初稿,然后RISEN改进它。
❌ 忽视模型能力
Why it hurts: 小模型可能无法在一个Prompt中处理五个RISEN步骤。
Fix: 7B模型可能需要分离的Prompt。13B以上可以在一个中处理所有。
PromptQuorum中的RISEN
PromptQuorum把RISEN变成了一个一级公民功能。您可以写一个RISEN循环,把它发送给GPT-4o、Claude 4.6 Sonnet和Gemini 2.5 Pro同时,比较它们各自的改进方法。这让您可以看到不同的模型如何以不同的方式处理相同的改进任务。
选择产生最相关改进的模型进行后续迭代,或者在多个模型的改进中综合最好的部分。对于寻求多模型共识或想要优化模型选择的团队来说,这是强大的。
将RISEN与其他框架组合
RISEN + CO-STAR: 使用CO-STAR生成初稿,然后使用RISEN进行迭代改进。CO-STAR处理创建,RISEN处理精化。
RISEN + TRACE: 对于需要推理和改进的复杂任务,使用TRACE进行初期思考,然后RISEN逐步改进输出。
RISEN + 少样本提示: 在Refine步骤中包括改进的示例。模型将学习您想要的改进风格。
RISEN + 受限Prompt: 在Evaluate步骤中添加具体的输出约束(长度、格式、技术水平)来强制质量。
常见问题
RISEN代表什么?
RISEN代表Refine、Inspect、Summarize、Evaluate、Next Steps。这是一个5步框架,用于通过多个改进循环来改进现有的草稿、文档或分析。
RISEN与CO-STAR或CRAFT有什么不同?
CO-STAR和CRAFT是生成框架 — 用于创建初稿。RISEN是改进框架 — 用于以可追踪的迭代方式改进现有的材料。
何时选择使用RISEN而不是其他框架?
当您已经有初稿并想以受控的、可追踪的方式改进它时,使用RISEN。如果您从零开始,使用CO-STAR生成初稿,然后RISEN改进它。
一个RISEN循环需要多少步骤?
通常2-4个循环就能从粗糙草稿达到生产质量。当Evaluate分数稳定(连续循环中相同)且Next Steps建议变得微小时,停止。
我可以在本地模型上使用RISEN吗?
是的。任何遵守指令的LLM都可以 — 包括通过Ollama或LM Studio的本地模型。13B及以上的模型在处理多步结构时表现更好。
Inspect步骤为什么特别?
Inspect强制模型记录每个具体的变更并解释为什么。这创建了一个审计记录 — 您可以看到版本之间改了什么以及为什么。
我可以把RISEN与多模型测试组合吗?
是的。在PromptQuorum中,将同一个RISEN循环同时发送给GPT-4o、Claude 4.6 Sonnet和Gemini 2.5 Pro。比较它们各自如何改进。
RISEN会增加Token成本吗?
是的。每个循环产生2-5倍基准Prompt的输出Token。在战略选择是否使用RISEN,或分阶段实施它。
处理敏感材料时有监管考虑吗?
在改进机密文件时,注意云端API使用。对于监管敏感的工作,考虑本地推理(Ollama、LM Studio)或Anthropic的欧盟选项。
RISEN对多人团队评审有帮助吗?
是的。您可以让初始作者做Refine,高级评审者做Inspect,决策者做Evaluate。这种分工增加了客观性。
信息来源
- Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T. L., Cao, Y., & Narasimhan, K. (2023). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." arXiv:2305.10601
- Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
- Anthropic. (2026). "Prompt Engineering Guide." https://www.anthropic.com