游乐游手机版
首页/AI热点日报/热点详情

ICLR紧急勘误:苹果论文30%基准数据出错的背后与应对

类型:热点整理2025-12-01
ICLR2025一轮审稿刚结束,苹果一篇号称“小模型超越GPT-5”的视觉推理论文即遭公开“处刑”。阶跃星辰研究员Lei Yang在复现过程中发现:最新代码漏掉图片输入,修复后准确率反而暴跌;随即抽

正当ICLR 2025首轮审稿落幕的节点,苹果一篇号称“小模型超越GPT-5”的视觉推理论文突遭公开“审判”。跃星实验室研究员Lei Yang在复现过程中惊讶地发现:最新代码竟遗漏了图像输入模块,待团队修复漏洞后,模型准确率不升反降;随机抽取的20道测试题目中,更有6道参考答案存在标签错误——综合推算整组测试集的Ground Truth错误率已逼近30%。

Lei Yang随后在GitHub提交issue说明问题,仅收获两句官方回复便被火速关闭讨论,促使他连夜撰写长文向审稿人发出警示。事件持续发酵后,研究团队次日迅速发布声明,承认存在“数据生成流程设计缺陷”,并紧急上架修正版基准代码,承诺重新开展实验并更新结果。这场风波再次引发学界对数据质量的深度反思:在大模型自动生成数据集渐成主流的当下,若缺乏人工核验环节,纵使顶尖团队的成果也可能面临“翻车”风险。Lei Yang更以亲身经历提醒同行:“复现前务必对小样本数据进行‘体检’,别让错误标签白白消耗珍贵的算力与时间”。

参考资料:https://x.com/diyerxx/status/1994042370376032701

来源:https://www.itbear.com.cn/html/2025-12/1035029.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。