PromptQuorumPromptQuorum
主页/提示词工程/RISEN框架:Refine、Inspect、Summarize、Evaluate、Next Steps(2026)
Frameworks

RISEN框架:Refine、Inspect、Summarize、Evaluate、Next Steps(2026)

·阅读约13分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

RISEN框架是一个5阶段的迭代系统,用来通过结构化的修订循环来系统性地改进AI生成的内容。与其接受初稿或从零开始重写,不如使用RISEN进行受控改进,建立完整的审计记录。每个阶段都有不同的目的:Refine改进草稿,Inspect记录每一个变更,Summarize解释新版本是什么,Evaluate用标准打分,Next Steps推荐进一步改进。RISEN把"把这个改得更好"转变为一个透明、可重复的工作流程。

RISEN是一个5阶段的迭代优化框架:Refine改进草稿,Inspect列举每一个变更及其理由,Summarize解释新版本的作用,Evaluate按标准打分(1-5分),Next Steps推荐下一阶段的3个重点改进。在已经有初稿的时候使用RISEN,通过可跟踪的改进获得受控的、可审计的升级。Inspect步骤的独特之处在于强制模型记录所有变更——让修订变成可追踪的。在2026年,RISEN内置于PromptQuorum中,成为多模型分发选项,让您可以在GPT-4o、Claude 4.6 Sonnet、Gemini 2.5 Pro上同时测试RISEN循环,比较不同的改进方法。

关键要点

  • RISEN是一个5步的迭代循环 — Refine、Inspect、Summarize、Evaluate、Next Steps — 把"把这个改得更好"变成一个结构化、可重复、带有审计记录的改进工作流。
  • 使用RISEN进行迭代改进(改进现有草稿)。不要用于初期草稿生成 — 结合CO-STAR或CRAFT来处理那个阶段。
  • Inspect步骤是独特的:强制模型列出每一个具体变更及其理由。这建立了审计记录 — 您可以确切看到改了什么以及为什么。
  • 典型工作流:2-4个RISEN循环达到生产质量。每个循环产生改进内容、变更日志和下一阶段的建议。
  • RISEN适用于任何模型:GPT-4o、Claude 4.6 Sonnet、Gemini 2.5 Pro、Ollama、LM Studio。13B以上的大模型更好地处理多步结构。
  • 在PromptQuorum中,RISEN是内置的。把同一个RISEN循环同时发送给多个模型,比较每个模型如何以不同的方式改进。
  • 使用PromptQuorum测试跨模型的RISEN模式 — 看哪个模型的改进方法最符合你的目标。

⚡ Quick Facts

  • ·RISEN = Refine、Inspect、Summarize、Evaluate、Next Steps — 一个5步的迭代循环,用于受控的内容改进
  • ·使用RISEN当您已经有初稿、文档或计划。不要用于初期草稿生成 — 那种情况结合CO-STAR或CRAFT。
  • ·Inspect步骤是独特的:强制模型列出每一个具体变更及其理由,建立审计记录。其他框架都没有这个内置的问责制。
  • ·典型工作流:从粗糙草稿到生产质量需要2-4个RISEN循环。每个循环产生3个输出:改进内容、变更日志(Inspect)、行动计划(Next Steps)。
  • ·适用于任何模型:GPT-4o、Claude 4.6 Sonnet、Gemini 2.5 Pro,以及通过Ollama或LM Studio的本地模型。13B以上的大模型能更好地处理多步结构;7B模型可能需要分离步骤。
  • ·RISEN + CO-STAR组合模式:使用CO-STAR进行初期草稿生成,然后切换到RISEN进行迭代改进。分离"创建"和"改进" — 两个根本不同的任务。

RISEN框架是什么?

📍 In One Sentence

RISEN是一个5步的迭代循环 — Refine、Inspect、Summarize、Evaluate、Next Steps — 把"把这个改得更好"变成一个结构化、可重复的改进工作流,带有完整的审计记录。

💬 In Plain Terms

与其说"改进这个"然后希望最好的结果,不如告诉AI修复它(Refine)、列出它改了什么(Inspect)、解释新版本是什么(Summarize)、给自己打分(Evaluate),然后建议下一步改什么(Next Steps)。重复直到完成。

RISEN框架是一个迭代Prompt模式,通过多个改进循环来改进现有的草稿、分析和计划。 与其把每个Prompt当作一次性任务,不如引导GPT-4o、Claude 4.6 Sonnet或Gemini 2.5 Pro这样的模型通过一个结构化、可重复的改进循环。这使得您的工作流程更像持续编辑而不是随机试错。

RISEN尤其在您已经有初稿的时候有用 — 例如一篇草稿文章、策略笔记、代码片段或分析 — 您想让模型以受控、可审计的方式改进它。每个RISEN步骤都有不同的目的,这使得修订集中且可追踪。

框架得名于其五个阶段:Refine(改进草稿)、Inspect(识别变更)、Summarize(解释改了什么)、Evaluate(按标准打分),Next steps(推荐改进)。

RISEN的五个组成部分

一个强大的RISEN Prompt明确要求模型通过五个阶段,每个都有不同的输出。 您可以把这些阶段组合到一个更长的Prompt中,或者分成连续的Prompt,取决于您想要多少控制和反馈。

  • Refine: 根据您的目标改进现有的草稿(清晰度、结构、准确性、简洁性、受众一致性、语调等)。模型重写或增强原始材料。
  • Inspect: 识别做出的具体改动 — 确切改写了什么、添加了什么细节、修复了什么问题。这建立了审计记录。要求5-7个具体的编辑及其理由。
  • Summarize: 提供对新版本现在说什么或做什么的简洁解释 — 不是内容的重复,而是对其重点和强调的元级描述。
  • Evaluate: 根据明确的标准(语调、准确性、完整性、受众一致性、清晰度)批评结果。使用1-5的数字比例,每个标准需要一句话的理由。
  • Next steps: 为下一个迭代推荐3个重点改进,这样您总是有明确的方向进行进一步的改进。

为什么RISEN有用

RISEN框架在三个关键方面与标准改进工作流不同:可追踪性、可控制性和可重复性。

  • 可追踪性: Inspect步骤强制模型记录每一个变更。您可以看到改了什么、为什么改。这对于文档、合规性和跨部门合作至关重要。
  • 可控制性: 不是让模型一下子改进所有内容,RISEN把改进分成五个离散的、可管理的步骤。您可以在任何阶段暂停、调整或重新指导。
  • 可重复性: 一旦您有了有效的RISEN模板,您可以对任何类似的文档、代码或分析重复使用。在PromptQuorum中,您甚至可以在多个模型上并行测试相同的循环。
  • 团队协作: Inspect和Evaluate步骤天生支持多人评审。一个人可以Refine,另一个人可以Inspect,第三个人可以Evaluate。
  • 成本效益: RISEN有针对性的改进比反复的"再试一次"要便宜,因为您确切知道您在改什么以及为什么。

何时使用RISEN

  • 使用RISEN当: 您已经有初稿(文章、分析、代码);您想改进它,但需要可追踪的变更;您想测试多个模型的改进方法;您在多人团队中工作,需要审计跟踪。
  • 不使用RISEN当: 您从零开始生成内容(使用CO-STAR或CRAFT);您需要快速一次性答案(使用标准Prompt);您在处理结构化数据或代码,需要特定的编程框架。

糟糕示例 vs 优秀RISEN Prompt示例

❌ 糟糕 — 模糊且无Inspect

Please improve this article.

✅ 优秀 — 完整的RISEN循环

请按照RISEN框架改进这篇文章。 **Refine:** 改进以下文章。重点是清晰度、结构和简洁性。重写任何冗长或不清楚的句子。 **Inspect:** 列出您做出的确切5-7个改动。对每一个改动,解释您为什么改。 **Summarize:** 在一段话中,总结改进后的版本现在说什么。 **Evaluate:** 根据以下标准给新版本打分:清晰度、准确性、完整性(每个1-5)。解释每个分数。 **Next Steps:** 推荐下一轮改进的3个重点改进。 [粘贴原始文章]

如何编写RISEN Prompt

  1. 1
    陈述问题和预期成果。 "您是角色。您的任务是使用RISEN过程改进材料类型。"
  2. 2
    明确定义Refine目标。 "改进具体标准:清晰度、准确性、简洁性、语调、受众对齐。目标长度或格式。"
  3. 3
    要求具体的Inspect输出。 "列出5-7个具体的编辑。对每一个,说明您更改了什么以及为什么。"
  4. 4
    指定Evaluate标准。 "在3-5个命名维度,如清晰度、准确性、说服力上评分(1-5)。用一句话解释每个评分。"
  5. 5
    要求可行的Next Steps。 "建议3个下一次迭代的重点改进。"

关键提示

🔍 Inspect步骤是秘密武器

Inspect步骤正是使RISEN在框架中独特的原因。大多数框架生成输出。RISEN强制模型记录每个具体的变更,创建永久的审计记录。没有其他框架有这种内置的责任制——这就是为什么RISEN对受管制行业、学术工作和需要可追溯性的团队协作至关重要。

🔍 为什么"改进这个"会失败

像"改进这个"或"把这个改好"这样含糊的改进请求给模型零约束。没有明确的标准和结构,模型会漫无目的,产生不一致的结果。RISEN之所以有效,是因为每个步骤都有特定的、有名字的、受约束的输出。具体性驱动质量。

⚠️ 何时不应使用RISEN

不要在初期草稿生成中使用RISEN。RISEN需要现有的材料来改进。如果您需要从零开始创建东西,请先使用CO-STAR、CRAFT或Single Step。然后切换到RISEN进行迭代改进。在不存在的材料上使用RISEN会浪费代币并产生无意义的Inspect输出。

🔍 两框架工作流

最优模式:使用CO-STAR或CRAFT生成初期草稿。然后切换到RISEN进行迭代精化和自我批评。这种分离防止了模型将两个根本不同的认知任务——"创建"和"改进"——混在一起。每个框架在其特定的阶段都表现出色。

比较表(CoT vs 单次提示 vs RISEN)

维度链式思维(CoT)单次提示RISEN框架
结构线性(单一路径)一次性生成5步迭代循环
核心操作"逐步思考"生成Refine → Inspect → Summarize → Evaluate → Next Steps → 重复
审计跟踪无变更跟踪是 — Inspect记录所有变更
最佳用途数学、逻辑、解释快速任务、一次性答案迭代改进和团队评审
相对于基准的Token成本1.5-2倍1倍基准2-5倍/循环
多个Prompt一个长的或5个连续的
模型比较是 — 在GPT、Claude、Gemini上并行

使用RISEN时的常见错误

跳过Inspect步骤

Why it hurts: Inspect步骤是RISEN独特的。如果不做Inspect,您就失去了审计记录 — 您无法看到改了什么。

Fix: 始终要求特定的变更列表。这建立了可追踪性。

在Evaluate中过于宽泛

Why it hurts: "好"不是一个标准。这给模型没有明确的评估目标。

Fix: 说"清晰度1-5"或"准确性1-5"。具体的标准产生具体的改进。

在Refine中试图改进一切

Why it hurts: 如果您说"改进所有内容",模型会做随机改动,没有焦点。

Fix: 集中在一个或两个明确的目标。说"改进清晰度和简洁性"。

对所有内容都使用RISEN

Why it hurts: RISEN对迭代改进很好,但对初期生成来说太冗长。

Fix: 使用CO-STAR或CRAFT生成初稿,然后RISEN改进它。

忽视模型能力

Why it hurts: 小模型可能无法在一个Prompt中处理五个RISEN步骤。

Fix: 7B模型可能需要分离的Prompt。13B以上可以在一个中处理所有。

PromptQuorum中的RISEN

PromptQuorum把RISEN变成了一个一级公民功能。您可以写一个RISEN循环,把它发送给GPT-4o、Claude 4.6 Sonnet和Gemini 2.5 Pro同时,比较它们各自的改进方法。这让您可以看到不同的模型如何以不同的方式处理相同的改进任务。

选择产生最相关改进的模型进行后续迭代,或者在多个模型的改进中综合最好的部分。对于寻求多模型共识或想要优化模型选择的团队来说,这是强大的。

将RISEN与其他框架组合

RISEN + CO-STAR: 使用CO-STAR生成初稿,然后使用RISEN进行迭代改进。CO-STAR处理创建,RISEN处理精化。

RISEN + TRACE: 对于需要推理和改进的复杂任务,使用TRACE进行初期思考,然后RISEN逐步改进输出。

RISEN + 少样本提示: 在Refine步骤中包括改进的示例。模型将学习您想要的改进风格。

RISEN + 受限Prompt: 在Evaluate步骤中添加具体的输出约束(长度、格式、技术水平)来强制质量。

常见问题

RISEN代表什么?

RISEN代表Refine、Inspect、Summarize、Evaluate、Next Steps。这是一个5步框架,用于通过多个改进循环来改进现有的草稿、文档或分析。

RISEN与CO-STAR或CRAFT有什么不同?

CO-STAR和CRAFT是生成框架 — 用于创建初稿。RISEN是改进框架 — 用于以可追踪的迭代方式改进现有的材料。

何时选择使用RISEN而不是其他框架?

当您已经有初稿并想以受控的、可追踪的方式改进它时,使用RISEN。如果您从零开始,使用CO-STAR生成初稿,然后RISEN改进它。

一个RISEN循环需要多少步骤?

通常2-4个循环就能从粗糙草稿达到生产质量。当Evaluate分数稳定(连续循环中相同)且Next Steps建议变得微小时,停止。

我可以在本地模型上使用RISEN吗?

是的。任何遵守指令的LLM都可以 — 包括通过Ollama或LM Studio的本地模型。13B及以上的模型在处理多步结构时表现更好。

Inspect步骤为什么特别?

Inspect强制模型记录每个具体的变更并解释为什么。这创建了一个审计记录 — 您可以看到版本之间改了什么以及为什么。

我可以把RISEN与多模型测试组合吗?

是的。在PromptQuorum中,将同一个RISEN循环同时发送给GPT-4o、Claude 4.6 Sonnet和Gemini 2.5 Pro。比较它们各自如何改进。

RISEN会增加Token成本吗?

是的。每个循环产生2-5倍基准Prompt的输出Token。在战略选择是否使用RISEN,或分阶段实施它。

处理敏感材料时有监管考虑吗?

在改进机密文件时,注意云端API使用。对于监管敏感的工作,考虑本地推理(Ollama、LM Studio)或Anthropic的欧盟选项。

RISEN对多人团队评审有帮助吗?

是的。您可以让初始作者做Refine,高级评审者做Inspect,决策者做Evaluate。这种分工增加了客观性。

信息来源

  • Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T. L., Cao, Y., & Narasimhan, K. (2023). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." arXiv:2305.10601
  • Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
  • Anthropic. (2026). "Prompt Engineering Guide." https://www.anthropic.com

使用PromptQuorum将这些技术同时应用于25+个AI模型。

免费试用PromptQuorum →

← 返回提示词工程

RISEN框架2026:5步迭代优化提示词的完整方案 | PromptQuorum