时间:2025-08-27 作者:游乐小编
8月26日消息,科技媒体9to5Mac于8月25日发布报道称,苹果研究团队在最新论文中提出了一项名为“基于清单反馈的强化学习”(RLCF)的新方法。该方法通过任务清单替代传统的人类点赞或点踩评分机制,显著提升了大语言模型(LLM)处理复杂指令的能力。
注:RLCF全称为Reinforcement Learning from Checklist Feedback。与传统的“人类反馈强化学习”(RLHF)依赖人工评分不同,RLCF会为每一条用户指令生成具体的检查项清单,并按照0-100分逐项评分,从而更精准地指导模型优化。
研究团队在强指令跟随模型Qwen2.5-7B-Instruct上对该方法进行了测试,覆盖了五个常用评测基准。实验结果显示,RLCF是唯一在所有测试中均取得性能提升的方案:
这些数据表明,清单反馈机制在处理复杂、多步骤任务时效果尤为显著。
清单的生成过程也颇具特色。团队使用了更大规模的Qwen2.5-72B-Instruct模型,结合现有研究方法,为13万条指令构建了名为“WildChecklists”的数据集。清单中的每一项均为明确的二元判断,例如“是否翻译成了西班牙语?”。随后,大语言模型对候选回答逐项打分,并通过加权综合得出最终评分,作为小模型训练中的奖励信号。
不过,苹果研究团队也指出该方法存在一定局限性。首先,RLCF依赖更强大的模型作为评判者,这在计算资源受限的场景中可能难以实现。其次,该方法主要专注于提升复杂指令的执行能力,并未针对模型的安全对齐进行优化,因此不能替代专门的安全性评估。对于其他类型的任务,RLCF的适用性仍需进一步验证。
2021-11-05 11:52
手游攻略2021-11-19 18:38
手游攻略2021-10-31 23:18
手游攻略2022-06-03 14:46
游戏资讯2025-06-28 12:37
单机攻略