首页 游戏 软件 资讯 排行榜 专题
首页
AI
谢赛宁团队新作iREPA:三行代码引爆推特论文热辩

谢赛宁团队新作iREPA:三行代码引爆推特论文热辩

热心网友
50
转载
2025-12-16

henry 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

要说真学术,还得看推特。

刚刚,谢赛宁自曝团队新作iREPA其实来自4个多月前的,一次与网友的辩论。



这场短暂的线上辩论虽然以谢赛宁被网友说服告终,但在3个多月后,居然有了意料之外的后续——

多个团队合作,沿着这一思路写出了一篇完整的论文,而且核心框架仅需3行代码。



致谢部分还感谢了当时参与讨论的网友。



一篇推特引发的学术论文

事情是这样的。

一位网友在8月份表示:

别再痴迷于ImageNet-1K的分类分数了!自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务真正依赖的是patch tokens中的空间和局部信息,而不是[CLS]token所代表的全局分类性能。



(注:稠密任务就是要求模型对图像中的“每一个像素”或“每一个局部区域”都做出预测的计算机视觉任务,这类任务需要精确的空间和局部细节信息,而不仅仅是全局分类标签)

对于网友的观点,谢赛宁表示:

不,使用patch token并不意味着就是在做稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关,而与patch级别的对应关系只有很弱的关联。这并不是[CLS]token的问题,而是高层语义与低层像素相似性之间的差别。



对于谢赛宁的反驳,网友举出了SigLIPv2和PE-core优于DINOv2 for REPA的例子。



与此同时,另一位网友也加入了战斗:

这是个合理的问题。为了做直接对比,在没有DINOv3早期checkpoint的情况下,或许可以用REPA来比较PEspatial和PEcore。其中,PEspatial可以理解为:将PEcore的Gram-anchor对齐到更早的网络层,并结合SAM2.1。



对此,谢赛宁表示:

非常好!感谢你的指路/提示。我很喜欢这个方案。否则干扰因素会太多了。两个checkpoint都已经有了(G/14,448 分辨率),希望我们很快就能拿到一些结果。



3个多月后,谢赛宁表示自己之前的判断站不住脚,而且这次的论文反而带来了更深入的理解。

还有贴心小贴士,提示网友可以看看致谢部分。



对于自己在致谢中被提到,参与讨论的网友之一表示很有意思:

也谢谢你一路跟进!被致谢提到我也很受宠若惊。



谢赛宁还表示,这次讨论本身就是一次小实验——他想看看,一种新的“线上茶水间效应”是否真的能够发生。

他很享受这种状态:先有分歧、有争论,再通过真正的实验和投入,把直觉拉回到可被验证的科学结论上。

不得不说,这样开放、即时、可纠错的学术讨论,确实值得多来一些。

接下来,我们就一起来看看由此催生的最新论文。

空间结构才是驱动目标表征生成性能的主要因素

承接上面的讨论,这篇最新论文探讨了一个核心的基础问题:

在用预训练视觉编码器表征来指导生成模型时,究竟是表征的哪一部分在决定生成质量?

是其全局语义信息(ImageNet-1K上的分类准确率)还是其空间结构(即补丁tokens之间的成对余弦相似度)?

论文给出的结论是:更好的全局语义信息并不等于更好的生成,空间结构(而非全局语义)才是表征生成性能的驱动力。

传统观念(包括谢赛宁本人)认为具有更强全局语义性能的表征会带来更好的生成效果,但研究却表明更大的视觉编码器反而可能带来更差的生成性能

其中,线性检测准确率只有约20%的视觉编码器,反而可以超过准确率>80%的编码器。

而且,如果试图通过CLS token向patch token注入更多全局语义,生成性能还会被拉低。



与此同时,研究还发现生成效果更好的表征,往往具有更强的空间结构(可通过空间自相似性指标来衡量)

也就是说,图像中某一部分的token会如何关注图像中其他区域的token。



在具体的研究方法上,研究通过一次大规模的定量相关性分析对这一观察进行了细化验证:分析覆盖了27 种不同的视觉编码器(包括 DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP 等)以及3种模型规模(B、L、XL)。



而在进一步的评测中,空间信息的重要性被进一步拔高:即便是像SIFT、HOG这样的经典空间特征,也能带来与PE-G等现代、更大规模视觉编码器相当、具有竞争力的提升。



在测试得出结论后,论文又基于现有的表征对齐(REPA)框架进行分析和修改,提出了iREPA。

投影层改进: 将REPA中标准的MLP投影层替换为一个简单的卷积层。空间规范化: 为外部表征引入一个空间规范化层。



这些简单的修改(如在DeCo框架下的实现)旨在保留并强化空间结构信息,相比原始的REPA方法能显著提升性能。

值得一提的是iREPA,只需3行代码即可添加到任何表示对齐方法中,并且在各种训练方案(如REPA、REPA-E、Meanflow 以及最近推出的 JiT)中都能实现持续更快的收敛。



[1]https://x.com/YouJiacheng/status/1957073253769380258

[2]https://arxiv.org/abs/2512.10794

[3]https://x.com/sainingxie/status/2000709656491286870

[4]https://x.com/1jaskiratsingh/status/2000701128431034736

来源:https://www.163.com/dy/article/KGTJQHFO0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

7月25日外媒科学网站摘要:科学家警告,人类正无意间向宇宙泄露“地球坐标”
科技数码
7月25日外媒科学网站摘要:科学家警告,人类正无意间向宇宙泄露“地球坐标”

《自然》:一桩悬案了结? “砷基生命”论文终遭撤稿,但争议远未结束 科学界一桩持续了15年的公案,最近有了新进展。顶级期刊《科学》(Science)正式撤回了那篇曾引发轰动的争议性论文——该研究当年声称,在美国加州莫诺湖发现的一种细菌,能够用有毒的砷元素替代生命必需的磷来构建DNA,这直接挑战了我们

热心网友
04.17
科研产出占全球40%,顶刊数量却不足4%:中国学术期刊如何突围?
科技数码
科研产出占全球40%,顶刊数量却不足4%:中国学术期刊如何突围?

中国科研产出激增背后:学术出版话语权与经济成本的双重挑战 近期,在上海科学会堂举行的Insight Press(睿见出版)首批高质量学术期刊创刊仪式暨第十一期“好望角科学沙龙”上,科学家、出版机构负责人与期刊主编们齐聚一堂,共同探讨中国一流学术期刊的未来发展路径。当前,中国科学家正以前所未有的速度产

热心网友
04.16
中国科协:2026年NeurIPS会议资助调整与学者参会指引
科技数码
中国科协:2026年NeurIPS会议资助调整与学者参会指引

中国科学技术协会2026年3月31日发布告示:中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清晰、适当的,没有发生变化。现就

热心网友
03.31
康奈尔大学将离开全球最大论文预印本平台arXiv
科技数码
康奈尔大学将离开全球最大论文预印本平台arXiv

Cornell University 图源:wikipedia撰文|张天如果有一天,全球科研人员突然无法访问arXiv,许多领域的研究节奏可能会被打乱。每天清晨刷新论文列表,已经成为部分数学家、物理

热心网友
03.31
中国科协重申新冠病毒源头结论:持续科学调查未发现变异
科技数码
中国科协重申新冠病毒源头结论:持续科学调查未发现变异

据微信公众号“中国科协之声”消息,3月31日,中国科学技术协会发布告示: 中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清

热心网友
03.31

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

AIToolCap
AI
AIToolCap

AI工具集是什么 当我们谈论利用人工智能提升效率时,一个绕不开的话题就是:去哪里找到这些好用的工具?答案可能就在一个名为AI工具集的平台里。本质上,它是一个由多家机构与开发者共同维护的综合性AI工具导航站。它的“仓库”里汇集了超过1000款国内外AI工具,从帮你写文章、生成图片、剪辑视频,到转录音频

热心网友
04.20
OKX欧易官方App版本升级 v6.190.0 安卓版安装流程指南
web3.0
OKX欧易官方App版本升级 v6.190.0 安卓版安装流程指南

OKX欧易官方App版本升级 v6 190 0 安卓版安装流程指南 对于全球数字资产交易者而言,一个功能全面、运行稳定的交易平台App至关重要。OKX欧易作为国际化的主流交易平台,其官方App的每一次版本升级,都意味着更流畅的体验和更完善的功能。本文将手把手带你完成最新版v6 190 0安卓App的

热心网友
04.20
centos 6.2 市场观察:品牌影响力与发展路线分析
系统平台
centos 6.2 市场观察:品牌影响力与发展路线分析

CentOS 6 2的时代背景与市场定位CentOS 6 2作为Red Hat Enterprise Linux 6 2的社区免费重建版本,发布于2011年底,正值企业级Linux市场格局相对稳定的时期。彼时,云计算方兴未艾,虚拟化技术广泛应用,企业对操作系统的稳定性、安全性和长期支持有着极高的要求

热心网友
04.20
《识质存在》中央停泊点玩法详解-中央停泊点位置与攻略
游戏攻略
《识质存在》中央停泊点玩法详解-中央停泊点位置与攻略

《识质存在》中央停泊点探索全攻略:细节成就完美体验 在《识质存在》这款游戏中,其世界结构错综复杂,地图场景极为广阔,其中散布着众多至关重要的枢纽站点。中央停泊点便是这样一个需要玩家格外留意的核心区域——它通常与实验室正门存档点、数条隐蔽的捷径通道,以及门后的重要保险箱和楼梯下方的隐藏秘密紧密相连。将

热心网友
04.20
改名卡只需99ms!魔域口袋版周年福利集合
游戏攻略
改名卡只需99ms!魔域口袋版周年福利集合

《魔域口袋版》周年庆盛大开启,懂玩家的诚意回馈来了 一年一度的庆典盛宴再度来袭!《魔域口袋版》周年庆活动正式拉开帷幕,福利阵容空前豪华。在所有诚意举措中,“改名卡仅需99魔石”这一项,无疑精准击中了广大玩家的核心需求。消息一经公布,迅速引爆玩家社区,被众多老铁盛赞为“官方终于懂我们了”。 改名卡福利

热心网友
04.20