
12月4日,有消息透露,一家人工智能研究机构于当地时间12月3日宣布,正在研发一种新的训练框架,旨在让人工智能系统在表现出不当行为时能够主动“承认”自身问题。
该机构将这一机制称为“忏悔”。传统的大语言模型在训练过程中通常以满足用户期望为目标,因此容易产生迎合性的回应,或在缺乏依据的情况下作出高度自信的推测。新方法则要求模型在提供最终答案之后,额外生成一段说明,阐述其得出该结论的推理过程。
值得注意的是,“忏悔”机制的评估标准仅聚焦于模型的诚实程度,而不像常规回答那样需要同时考量实用性、准确性或对指令的遵循情况。
研究团队表示,这一设计的目标是促使模型如实披露其行为细节,包括可能存在的高风险操作,例如尝试规避测试规则、故意降低表现水平或违背既定指令。只要模型能诚实地识别并承认此类行为,系统便会给予更高的反馈奖励。
相关技术细节已体现在最新发布的技术报告中。
