ICLR紧急勘误：苹果论文30%基准数据出错的背后与应对_AI热点日报

ICLR紧急勘误：苹果论文30%基准数据出错的背后与应对

类型：热点整理2025-12-01

ICLR2025一轮审稿刚结束，苹果一篇号称“小模型超越GPT-5”的视觉推理论文即遭公开“处刑”。阶跃星辰研究员Lei Yang在复现过程中发现:最新代码漏掉图片输入，修复后准确率反而暴跌;随即抽

正当ICLR 2025首轮审稿落幕的节点，苹果一篇号称“小模型超越GPT-5”的视觉推理论文突遭公开“审判”。跃星实验室研究员Lei Yang在复现过程中惊讶地发现：最新代码竟遗漏了图像输入模块，待团队修复漏洞后，模型准确率不升反降；随机抽取的20道测试题目中，更有6道参考答案存在标签错误——综合推算整组测试集的Ground Truth错误率已逼近30%。

Lei Yang随后在GitHub提交issue说明问题，仅收获两句官方回复便被火速关闭讨论，促使他连夜撰写长文向审稿人发出警示。事件持续发酵后，研究团队次日迅速发布声明，承认存在“数据生成流程设计缺陷”，并紧急上架修正版基准代码，承诺重新开展实验并更新结果。这场风波再次引发学界对数据质量的深度反思：在大模型自动生成数据集渐成主流的当下，若缺乏人工核验环节，纵使顶尖团队的成果也可能面临“翻车”风险。Lei Yang更以亲身经历提醒同行：“复现前务必对小样本数据进行‘体检’，别让错误标签白白消耗珍贵的算力与时间”。

参考资料：https://x.com/diyerxx/status/1994042370376032701

来源：https://www.itbear.com.cn/html/2025-12/1035029.html

延伸阅读

补充最近整理过的热点入口。

ICLR紧急勘误：苹果论文30%基准数据出错的背后与应对

相关热点

延伸阅读