主页/提示词工程/RISEN框架：Refine、Inspect、Summarize、Evaluate、Next Steps（2026）

Frameworks

RISEN框架：Refine、Inspect、Summarize、Evaluate、Next Steps（2026）

最后更新: 2026年5月·阅读约13分钟·Hans Kuepper 作者 · PromptQuorum创始人，多模型AI调度工具 · PromptQuorum

选择语言:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

RISEN框架是一个5阶段的迭代系统，用来通过结构化的修订循环来系统性地改进AI生成的内容。与其接受初稿或从零开始重写，不如使用RISEN进行受控改进，建立完整的审计记录。每个阶段都有不同的目的：Refine改进草稿，Inspect记录每一个变更，Summarize解释新版本是什么，Evaluate用标准打分，Next Steps推荐进一步改进。RISEN把"把这个改得更好"转变为一个透明、可重复的工作流程。

RISEN是一个5阶段的迭代优化框架：Refine改进草稿，Inspect列举每一个变更及其理由，Summarize解释新版本的作用，Evaluate按标准打分（1-5分），Next Steps推荐下一阶段的3个重点改进。在已经有初稿的时候使用RISEN，通过可跟踪的改进获得受控的、可审计的升级。Inspect步骤的独特之处在于强制模型记录所有变更——让修订变成可追踪的。在2026年，RISEN内置于PromptQuorum中，成为多模型分发选项，让您可以在GPT-5.5、Claude 4.6 Sonnet、Gemini 2.5 Pro上同时测试RISEN循环，比较不同的改进方法。

关键要点

RISEN是一个5步的迭代循环 — Refine、Inspect、Summarize、Evaluate、Next Steps — 把"把这个改得更好"变成一个结构化、可重复、带有审计记录的改进工作流。
使用RISEN进行迭代改进（改进现有草稿）。不要用于初期草稿生成 — 结合CO-STAR或CRAFT来处理那个阶段。
Inspect步骤是独特的：强制模型列出每一个具体变更及其理由。这建立了审计记录 — 您可以确切看到改了什么以及为什么。
典型工作流：2-4个RISEN循环达到生产质量。每个循环产生改进内容、变更日志和下一阶段的建议。
RISEN适用于任何模型：GPT-5.5、Claude 4.6 Sonnet、Gemini 2.5 Pro、Ollama、LM Studio。13B以上的大模型更好地处理多步结构。
在PromptQuorum中，RISEN是内置的。把同一个RISEN循环同时发送给多个模型，比较每个模型如何以不同的方式改进。
使用PromptQuorum测试跨模型的RISEN模式 — 看哪个模型的改进方法最符合你的目标。

⚡ 快速事实

·RISEN = Refine、Inspect、Summarize、Evaluate、Next Steps — 一个5步的迭代循环，用于受控的内容改进
·使用RISEN当您已经有初稿、文档或计划。不要用于初期草稿生成 — 那种情况结合CO-STAR或CRAFT。
·Inspect步骤是独特的：强制模型列出每一个具体变更及其理由，建立审计记录。其他框架都没有这个内置的问责制。
·典型工作流：从粗糙草稿到生产质量需要2-4个RISEN循环。每个循环产生3个输出：改进内容、变更日志（Inspect）、行动计划（Next Steps）。
·适用于任何模型：GPT-5.5、Claude 4.6 Sonnet、Gemini 2.5 Pro，以及通过Ollama或LM Studio的本地模型。13B以上的大模型能更好地处理多步结构；7B模型可能需要分离步骤。
·RISEN + CO-STAR组合模式：使用CO-STAR进行初期草稿生成，然后切换到RISEN进行迭代改进。分离"创建"和"改进" — 两个根本不同的任务。

RISEN框架是什么？

📍 In One Sentence

RISEN是一个5步的迭代循环 — Refine、Inspect、Summarize、Evaluate、Next Steps — 把"把这个改得更好"变成一个结构化、可重复的改进工作流，带有完整的审计记录。

💬 In Plain Terms

与其说"改进这个"然后希望最好的结果，不如告诉AI修复它（Refine）、列出它改了什么（Inspect）、解释新版本是什么（Summarize）、给自己打分（Evaluate），然后建议下一步改什么（Next Steps）。重复直到完成。

RISEN框架是一个迭代Prompt模式，通过多个改进循环来改进现有的草稿、分析和计划。 与其把每个Prompt当作一次性任务，不如引导GPT-5.5、Claude 4.6 Sonnet或Gemini 2.5 Pro这样的模型通过一个结构化、可重复的改进循环。这使得您的工作流程更像持续编辑而不是随机试错。

RISEN尤其在您已经有初稿的时候有用 — 例如一篇草稿文章、策略笔记、代码片段或分析 — 您想让模型以受控、可审计的方式改进它。每个RISEN步骤都有不同的目的，这使得修订集中且可追踪。

框架得名于其五个阶段：Refine（改进草稿）、Inspect（识别变更）、Summarize（解释改了什么）、Evaluate（按标准打分），Next steps（推荐改进）。

RISEN的五个组成部分

一个强大的RISEN Prompt明确要求模型通过五个阶段，每个都有不同的输出。 您可以把这些阶段组合到一个更长的Prompt中，或者分成连续的Prompt，取决于您想要多少控制和反馈。

Refine： 根据您的目标改进现有的草稿（清晰度、结构、准确性、简洁性、受众一致性、语调等）。模型重写或增强原始材料。
Inspect： 识别做出的具体改动 — 确切改写了什么、添加了什么细节、修复了什么问题。这建立了审计记录。要求5-7个具体的编辑及其理由。
Summarize： 提供对新版本现在说什么或做什么的简洁解释 — 不是内容的重复，而是对其重点和强调的元级描述。
Evaluate： 根据明确的标准（语调、准确性、完整性、受众一致性、清晰度）批评结果。使用1-5的数字比例，每个标准需要一句话的理由。
Next steps： 为下一个迭代推荐3个重点改进，这样您总是有明确的方向进行进一步的改进。

为什么RISEN有用

RISEN框架在三个关键方面与标准改进工作流不同：可追踪性、可控制性和可重复性。

可追踪性： Inspect步骤强制模型记录每一个变更。您可以看到改了什么、为什么改。这对于文档、合规性和跨部门合作至关重要。
可控制性： 不是让模型一下子改进所有内容，RISEN把改进分成五个离散的、可管理的步骤。您可以在任何阶段暂停、调整或重新指导。
可重复性： 一旦您有了有效的RISEN模板，您可以对任何类似的文档、代码或分析重复使用。在PromptQuorum中，您甚至可以在多个模型上并行测试相同的循环。
团队协作： Inspect和Evaluate步骤天生支持多人评审。一个人可以Refine，另一个人可以Inspect，第三个人可以Evaluate。
成本效益： RISEN有针对性的改进比反复的"再试一次"要便宜，因为您确切知道您在改什么以及为什么。

何时使用RISEN

✅ 使用RISEN当： 您已经有初稿（文章、分析、代码）；您想改进它，但需要可追踪的变更；您想测试多个模型的改进方法；您在多人团队中工作，需要审计跟踪。
❌ 不使用RISEN当： 您从零开始生成内容（使用CO-STAR或CRAFT）；您需要快速一次性答案（使用标准Prompt）；您在处理结构化数据或代码，需要特定的编程框架。

糟糕示例 vs 优秀RISEN Prompt示例

❌ ❌ 糟糕 — 模糊且无Inspect

Please improve this article.

✅ ✅ 优秀 — 完整的RISEN循环

请按照RISEN框架改进这篇文章。 **Refine:** 改进以下文章。重点是清晰度、结构和简洁性。重写任何冗长或不清楚的句子。 **Inspect:** 列出您做出的确切5-7个改动。对每一个改动，解释您为什么改。 **Summarize:** 在一段话中，总结改进后的版本现在说什么。 **Evaluate:** 根据以下标准给新版本打分：清晰度、准确性、完整性（每个1-5）。解释每个分数。 **Next Steps:** 推荐下一轮改进的3个重点改进。 [粘贴原始文章]

如何编写RISEN Prompt

1
陈述问题和预期成果。 "您是角色。您的任务是使用RISEN过程改进材料类型。"
2
明确定义Refine目标。 "改进具体标准：清晰度、准确性、简洁性、语调、受众对齐。目标长度或格式。"
3
要求具体的Inspect输出。 "列出5-7个具体的编辑。对每一个，说明您更改了什么以及为什么。"
4
指定Evaluate标准。 "在3-5个命名维度，如清晰度、准确性、说服力上评分（1-5）。用一句话解释每个评分。"
5
要求可行的Next Steps。 "建议3个下一次迭代的重点改进。"

关键提示

🔍 Inspect步骤是秘密武器

Inspect步骤正是使RISEN在框架中独特的原因。大多数框架生成输出。RISEN强制模型记录每个具体的变更，创建永久的审计记录。没有其他框架有这种内置的责任制——这就是为什么RISEN对受管制行业、学术工作和需要可追溯性的团队协作至关重要。

🔍 为什么"改进这个"会失败

像"改进这个"或"把这个改好"这样含糊的改进请求给模型零约束。没有明确的标准和结构，模型会漫无目的，产生不一致的结果。RISEN之所以有效，是因为每个步骤都有特定的、有名字的、受约束的输出。具体性驱动质量。

⚠️ 何时不应使用RISEN

不要在初期草稿生成中使用RISEN。RISEN需要现有的材料来改进。如果您需要从零开始创建东西，请先使用CO-STAR、CRAFT或Single Step。然后切换到RISEN进行迭代改进。在不存在的材料上使用RISEN会浪费代币并产生无意义的Inspect输出。

🔍 两框架工作流

最优模式：使用CO-STAR或CRAFT生成初期草稿。然后切换到RISEN进行迭代精化和自我批评。这种分离防止了模型将两个根本不同的认知任务——"创建"和"改进"——混在一起。每个框架在其特定的阶段都表现出色。

比较表（CoT vs 单次提示 vs RISEN）

维度	链式思维（CoT）	单次提示	RISEN框架
结构	线性（单一路径）	一次性生成	5步迭代循环
核心操作	"逐步思考"	生成	Refine → Inspect → Summarize → Evaluate → Next Steps → 重复
审计跟踪	无变更跟踪	无	是 — Inspect记录所有变更
最佳用途	数学、逻辑、解释	快速任务、一次性答案	迭代改进和团队评审
相对于基准的Token成本	1.5-2倍	1倍基准	2-5倍/循环
多个Prompt	否	否	一个长的或5个连续的
模型比较	否	否	是 — 在GPT、Claude、Gemini上并行

使用RISEN时的常见错误

❌ 跳过Inspect步骤

Why it hurts: Inspect步骤是RISEN独特的。如果不做Inspect，您就失去了审计记录 — 您无法看到改了什么。

Fix: 始终要求特定的变更列表。这建立了可追踪性。

❌ 在Evaluate中过于宽泛

Why it hurts: "好"不是一个标准。这给模型没有明确的评估目标。

Fix: 说"清晰度1-5"或"准确性1-5"。具体的标准产生具体的改进。

❌ 在Refine中试图改进一切

Why it hurts: 如果您说"改进所有内容"，模型会做随机改动，没有焦点。

Fix: 集中在一个或两个明确的目标。说"改进清晰度和简洁性"。

❌ 对所有内容都使用RISEN

Why it hurts: RISEN对迭代改进很好，但对初期生成来说太冗长。

Fix: 使用CO-STAR或CRAFT生成初稿，然后RISEN改进它。

❌ 忽视模型能力

Why it hurts: 小模型可能无法在一个Prompt中处理五个RISEN步骤。

Fix: 7B模型可能需要分离的Prompt。13B以上可以在一个中处理所有。

PromptQuorum中的RISEN

PromptQuorum把RISEN变成了一个一级公民功能。您可以写一个RISEN循环，把它发送给GPT-5.5、Claude 4.6 Sonnet和Gemini 2.5 Pro同时，比较它们各自的改进方法。这让您可以看到不同的模型如何以不同的方式处理相同的改进任务。

选择产生最相关改进的模型进行后续迭代，或者在多个模型的改进中综合最好的部分。对于寻求多模型共识或想要优化模型选择的团队来说，这是强大的。

将RISEN与其他框架组合

RISEN + CO-STAR： 使用CO-STAR生成初稿，然后使用RISEN进行迭代改进。CO-STAR处理创建，RISEN处理精化。

RISEN + TRACE： 对于需要推理和改进的复杂任务，使用TRACE进行初期思考，然后RISEN逐步改进输出。

RISEN + 少样本提示： 在Refine步骤中包括改进的示例。模型将学习您想要的改进风格。

RISEN + 受限Prompt： 在Evaluate步骤中添加具体的输出约束（长度、格式、技术水平）来强制质量。

常见问题

RISEN代表什么？

RISEN代表Refine、Inspect、Summarize、Evaluate、Next Steps。这是一个5步框架，用于通过多个改进循环来改进现有的草稿、文档或分析。

RISEN与CO-STAR或CRAFT有什么不同？

CO-STAR和CRAFT是生成框架 — 用于创建初稿。RISEN是改进框架 — 用于以可追踪的迭代方式改进现有的材料。

何时选择使用RISEN而不是其他框架？

当您已经有初稿并想以受控的、可追踪的方式改进它时，使用RISEN。如果您从零开始，使用CO-STAR生成初稿，然后RISEN改进它。

一个RISEN循环需要多少步骤？

通常2-4个循环就能从粗糙草稿达到生产质量。当Evaluate分数稳定（连续循环中相同）且Next Steps建议变得微小时，停止。

我可以在本地模型上使用RISEN吗？

是的。任何遵守指令的LLM都可以 — 包括通过Ollama或LM Studio的本地模型。13B及以上的模型在处理多步结构时表现更好。

Inspect步骤为什么特别？

Inspect强制模型记录每个具体的变更并解释为什么。这创建了一个审计记录 — 您可以看到版本之间改了什么以及为什么。

我可以把RISEN与多模型测试组合吗？

是的。在PromptQuorum中，将同一个RISEN循环同时发送给GPT-5.5、Claude 4.6 Sonnet和Gemini 2.5 Pro。比较它们各自如何改进。

RISEN会增加Token成本吗？

是的。每个循环产生2-5倍基准Prompt的输出Token。在战略选择是否使用RISEN，或分阶段实施它。

处理敏感材料时有监管考虑吗？

在改进机密文件时，注意云端API使用。对于监管敏感的工作，考虑本地推理（Ollama、LM Studio）或Anthropic的欧盟选项。

RISEN对多人团队评审有帮助吗？

是的。您可以让初始作者做Refine，高级评审者做Inspect，决策者做Evaluate。这种分工增加了客观性。

信息来源

Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T. L., Cao, Y., & Narasimhan, K. (2023). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." arXiv:2305.10601
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903
Anthropic. (2026). "Prompt Engineering Guide." https://www.anthropic.com

使用本地LLM或您自己的API密钥应用这些技术 — PromptQuorum适用于任何后端。

免费试用PromptQuorum →

← 返回提示词工程