正当ICLR 2025首轮审稿落幕的节点,苹果一篇号称“小模型超越GPT-5”的视觉推理论文突遭公开“审判”。跃星实验室研究员Lei Yang在复现过程中惊讶地发现:最新代码竟遗漏了图像输入模块,待团队修复漏洞后,模型准确率不升反降;随机抽取的20道测试题目中,更有6道参考答案存在标签错误——综合推算整组测试集的Ground Truth错误率已逼近30%。
Lei Yang随后在GitHub提交issue说明问题,仅收获两句官方回复便被火速关闭讨论,促使他连夜撰写长文向审稿人发出警示。事件持续发酵后,研究团队次日迅速发布声明,承认存在“数据生成流程设计缺陷”,并紧急上架修正版基准代码,承诺重新开展实验并更新结果。这场风波再次引发学界对数据质量的深度反思:在大模型自动生成数据集渐成主流的当下,若缺乏人工核验环节,纵使顶尖团队的成果也可能面临“翻车”风险。Lei Yang更以亲身经历提醒同行:“复现前务必对小样本数据进行‘体检’,别让错误标签白白消耗珍贵的算力与时间”。
参考资料:https://x.com/diyerxx/status/1994042370376032701
