本次查询:Reflexion
中文解释:反思机制
常见场景:大语言模型驱动的自主Agent(如代码生成 / 游戏博弈 / 任务规划)
一句话解释
Reflexion是一种让AI智能体在完成一次任务后,主动回顾自己的决策过程、找出错误原因,并形成改进提示的推理机制。它不依赖外部标注数据,而是通过「行动→反思→修正」的循环,让模型从自己的失败中学习,提升后续任务的成功率。
为什么会被关注
传统LLM在单次推理中无法利用过往错误经验,遇到类似问题可能重复犯错。Reflexion让Agent具备“复盘”能力,显著提升代码调试、复杂推理等任务的准确率,同时减少对人工反馈的依赖,成为构建可靠自主Agent的关键技术之一。
核心逻辑
这种机制与强化学习中的经验回放类似,但使用自然语言作为反思载体,无需数值奖励。反思内容可以包含具体错误步骤、正确推理路径、以及通用规则,帮助模型在推理时避免重蹈覆辙。
常见场景
4. 问答与事实核查:模型回答被验证为错误后,反思是知识缺失还是推理偏差,从而在后续回答中提高准确性。5. 对话系统:客服Agent从用户不满反馈中反思沟通策略,优化响应方式。
容易混淆的点
Reflexion与CoT(思维链)不同:CoT是在回答前展示推理步骤,属于一次性的显式推理;Reflexion是任务后的回顾与调整,涉及多次迭代和记忆。它也不等于强化学习中的“经验回放”,后者依赖状态-动作价值函数,而Reflexion使用自然语言作为反思媒介,更适合大语言模型。
