当前位置: 首页 > 科技 > 文章内容页

苹果AI新突破:大模型指导小模型精准执行复杂指令

时间:2025-08-27    作者:游乐小编    

8月26日消息,科技媒体9to5Mac于8月25日发布报道称,苹果研究团队在最新论文中提出了一项名为“基于清单反馈的强化学习”(RLCF)的新方法。该方法通过任务清单替代传统的人类点赞或点踩评分机制,显著提升了大语言模型(LLM)处理复杂指令的能力。

注:RLCF全称为Reinforcement Learning from Checklist Feedback。与传统的“人类反馈强化学习”(RLHF)依赖人工评分不同,RLCF会为每一条用户指令生成具体的检查项清单,并按照0-100分逐项评分,从而更精准地指导模型优化。

苹果创新“清单法”:用

研究团队在强指令跟随模型Qwen2.5-7B-Instruct上对该方法进行了测试,覆盖了五个常用评测基准。实验结果显示,RLCF是唯一在所有测试中均取得性能提升的方案:

  • FollowBench 硬性满意率提升4个百分点
  • InFoBench 提高6点
  • Arena-Hard 胜率增加3点
  • 某些任务最高提升达到8.2%

这些数据表明,清单反馈机制在处理复杂、多步骤任务时效果尤为显著。

苹果创新“清单法”:用

苹果创新“清单法”:用

清单的生成过程也颇具特色。团队使用了更大规模的Qwen2.5-72B-Instruct模型,结合现有研究方法,为13万条指令构建了名为“WildChecklists”的数据集。清单中的每一项均为明确的二元判断,例如“是否翻译成了西班牙语?”。随后,大语言模型对候选回答逐项打分,并通过加权综合得出最终评分,作为小模型训练中的奖励信号。

不过,苹果研究团队也指出该方法存在一定局限性。首先,RLCF依赖更强大的模型作为评判者,这在计算资源受限的场景中可能难以实现。其次,该方法主要专注于提升复杂指令的执行能力,并未针对模型的安全对齐进行优化,因此不能替代专门的安全性评估。对于其他类型的任务,RLCF的适用性仍需进一步验证。

苹果创新“清单法”:用

热门推荐

更多

热门文章

更多

首页  返回顶部

本站所有软件都由网友上传,如有侵犯您的版权,请发邮件youleyoucom@outlook.com