首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
密歇根NEPA研究:AI获游戏化人类视觉理解能力

密歇根NEPA研究:AI获游戏化人类视觉理解能力

热心网友
93
转载
2025-12-23


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由密歇根大学的徐思翰、马子乔,纽约大学的谢赛宁、于星,以及普林斯顿大学的柴文浩、弗吉尼亚大学的陈绪威、金伟阳等研究者合作完成的研究,发表于2025年12月的arXiv预印本平台(论文编号:arXiv:2512.16922v1)。有兴趣深入了解技术细节的读者可以通过这个编号查询完整论文。

过去几年里,人工智能在理解图片方面取得了惊人进步,但这种进步往往依赖复杂的训练方法。研究团队突然意识到一个问题:为什么不能像人类学语言那样,让机器通过简单的"预测下一个"游戏来学会看懂图片呢?这个看似简单的想法,却带来了一场视觉人工智能领域的革命。

当我们看一张图片时,大脑会自然地从一个区域移动到另一个区域,预测接下来会看到什么内容。研究团队受到这种认知过程的启发,开发了一种名为NEPA(Next-Embedding Predictive Autoregression,下一嵌入预测自回归)的技术。这个技术的核心思想就像教孩子认字一样简单:给机器看图片的一部分,让它猜测下一部分会是什么样子。

整个过程可以比作拼图游戏。当你拿到一盒拼图时,通常会先找边缘部分,然后根据已经拼好的部分来预测下一块应该放在哪里。NEPA技术也是这样工作的:它把一张完整的图片切割成许多小块,就像把拼图分成若干片段,然后让机器按顺序观察这些片段,每看到一片就预测下一片应该是什么样子。

这种方法的巧妙之处在于,机器不需要重新构建整张图片的每个像素点,而是在一种叫做"嵌入空间"的抽象层面进行预测。可以把嵌入空间想象成一个翻译器,它把复杂的图像信息转换成机器更容易理解的数字表示。就像我们在心里描述一张图片时,会用"蓝色的天空"、"绿色的草地"这样的概念,而不是记住每个像素的确切颜色值。

更令人印象深刻的是,NEPA技术只需要在ImageNet-1K这个包含一百多万张图片的数据集上进行训练,就能达到令人满意的效果。这就像一个学生只需要看过一百多万张图片,就能掌握识别各种物体的能力。相比之下,以往的技术往往需要更复杂的训练过程,包括对比不同图片的相似性,或者试图重建图片的每个细节。

研究团队在实验中发现,使用NEPA技术训练的机器在ImageNet-1K图片分类任务上达到了83.8%的准确率(使用ViT-B模型)和85.3%的准确率(使用ViT-L模型)。这个成绩与目前最先进的方法相当,但训练过程却简单得多。

为了验证这种技术的通用性,研究团队还在语义分割任务上测试了NEPA技术。语义分割就像给图片中的每个像素贴标签,比如这个像素属于"天空",那个像素属于"汽车"。在ADE20K这个复杂的场景解析数据集上,NEPA技术同样表现出色,基础模型达到了48.3%的平均交并比,大型模型达到了54.0%。

NEPA技术的架构设计也体现出简约之美。它采用标准的Vision Transformer作为骨干网络,这是目前最成功的图像处理架构之一。但与其他方法不同的是,NEPA不需要额外的解码器或复杂的预测头,整个系统就像一个精简的预测引擎。

在训练过程中,研究团队采用了一种叫做"停止梯度"的技巧。这就像在学习过程中给答案加上一层保护膜,防止机器偷懒地直接复制答案,而是真正学会预测的能力。同时,他们使用因果掩码确保机器在预测下一个图片块时,只能看到之前的内容,不能偷看后面的部分,这样才能真正学会预测能力。

研究团队还在架构中融入了几个现代化的改进技巧。他们使用了旋转位置编码(RoPE)来帮助机器更好地理解图片中各个部分的空间关系,就像给拼图的每一块标注上它在整幅画中的相对位置。层级缩放(LayerScale)技术则像调节学习的步伐,确保训练过程稳定进行。SwiGLU激活函数和查询键标准化(QK-Norm)则进一步提升了模型的性能和稳定性。

当机器经过NEPA技术训练后,研究团队发现了一个有趣的现象:机器学会了像人类一样关注图片中的重要区域。通过分析注意力图,他们发现机器在预测下一个图片块时,会自动将注意力集中在语义相关的区域上。比如,当看到动物的头部时,机器会自动关注身体的其他部分;当看到建筑物的一角时,会关注建筑的整体结构。

这种行为完全是机器自发学习到的,没有人为设计。这表明NEPA技术不仅能够识别图片,还能理解图片中对象之间的关系和整体结构。更有趣的是,当研究团队分析机器预测的嵌入向量时,发现这些向量在相似物体之间表现出高度相似性,在不相关物体之间则差异明显,这说明机器真正学会了抽象的视觉概念。

从计算效率角度来看,NEPA技术也表现出明显优势。传统的对比学习方法需要在每个训练步骤中处理大量的正负样本对,而掩码重建方法需要复杂的解码器来重建图片细节。相比之下,NEPA技术只需要一次前向传播,不需要额外的解码器或复杂的采样策略,这使得整个训练过程更加高效。

研究团队还发现,NEPA技术在不同规模的模型上都表现出良好的扩展性。随着模型参数量的增加和训练时间的延长,性能持续提升,没有出现过拟合现象。这种良好的扩展特性意味着,随着计算资源的增加,NEPA技术有望达到更高的性能水平。

在实际应用中,经过NEPA预训练的模型可以很容易地适配到各种下游任务。对于图像分类任务,只需要在模型输出层添加一个简单的线性分类器。对于语义分割任务,可以连接标准的UperNet解码器。这种灵活性使得NEPA技术能够广泛应用于各种计算机视觉任务。

值得注意的是,研究团队在微调阶段发现了一个有趣的现象:虽然NEPA是用因果注意力训练的(即只能看到前面的内容),但在微调时使用双向注意力(可以看到全部内容)能够进一步提升性能。这说明自回归预训练学到的表示具有很好的泛化能力,能够适应不同的注意力模式。

当前的研究还揭示了NEPA技术的一些局限性。在线性探测实验中,NEPA的表现不如一些专门设计的表示学习方法。这是因为NEPA的输出表示非常接近原始的嵌入层特征,主要的表示能力存储在预测器部分。这种设计选择是有意为之的,因为它使得整个系统更加简洁统一。

研究团队还分析了一些失败案例,发现NEPA技术在处理包含复杂反射、阴影和遮挡的场景时仍有改进空间。在多物体重叠的复杂场景中,模型有时会产生不一致的预测。这些问题反映了当前训练数据集的局限性,也为未来的改进指明了方向。

从更宏观的角度来看,NEPA技术代表了计算机视觉领域的一个重要转变。传统的方法往往专注于学习静态的视觉表示,而NEPA技术将重点转向学习预测模型本身。这种范式转变与自然语言处理领域的发展轨迹相呼应,语言模型的成功正是基于这种生成式预训练的思想。

这种统一的预训练范式还暗示着更广阔的可能性。研究团队指出,现代大型语言模型越来越多地采用绑定嵌入的设计,即输入和输出嵌入矩阵共享参数。这种设计本质上就是在嵌入空间中进行下一个token预测,与NEPA的核心思想完全一致。这意味着,不同模态的数据可能可以在统一的框架下进行训练,为多模态人工智能的发展开辟了新的道路。

展望未来,NEPA技术还具有向生成式建模扩展的潜力。通过与合适的图像解码器或扩散模型结合,同一个自回归嵌入预测器可以用于图像生成或编辑任务。这种统一的架构能够在表示学习和生成建模之间架起桥梁,为构建更加通用的视觉智能系统提供可能。

归根结底,NEPA技术的成功证明了一个重要观点:有时候,最简单的想法往往最有效。通过回归到最基本的预测原理,研究团队创造出了一种既简单又强大的视觉学习方法。这种方法不需要复杂的工程技巧或者精巧的理论设计,只是忠实地模仿了人类视觉认知的基本过程。正如研究团队在论文中所说,他们提供的不仅仅是一个新算法,更是一种新的视角:自回归预测的简洁性,当恰当地应用于视觉领域时,能够帮助统一不同模态之间的预训练范式。这种统一性可能是人工智能向更通用智能发展的关键一步。

Q&A

Q1:NEPA技术是如何工作的?

A:NEPA技术像拼图游戏一样工作,把图片切成小块,让机器按顺序观察这些片段,每看到一片就预测下一片应该是什么样子。机器不需要重建每个像素,而是在抽象的"嵌入空间"进行预测,就像我们用概念描述图片而不是记住每个细节。

Q2:NEPA技术比其他图像识别方法有什么优势?

A:NEPA最大的优势是简单高效。它只需要一次前向传播,不需要复杂的解码器或对比学习的负样本,训练过程比传统方法简单得多。同时它在ImageNet分类上达到了83.8%到85.3%的准确率,与最先进方法相当,但架构更简洁。

Q3:NEPA技术能应用到哪些实际场景中?

A:NEPA技术可以广泛应用于各种计算机视觉任务。它已经在图像分类和语义分割任务上取得优秀表现,未来还可能扩展到图像生成和编辑领域。由于其简洁的架构设计,它可以很容易地适配到不同的应用场景中。

来源:https://www.163.com/dy/article/KHDO33F50511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

美剧续作越拍越好的反常识密码
娱乐
美剧续作越拍越好的反常识密码

续集魔咒是 Hollywood 铁律——《Beef》第二季却打破了它 说来有趣,这部口碑不降反升的亚裔复仇剧续作,让观众印象最深的,往往不是那些戏剧性的剧情转折,而是每一集里一闪而过的怪诞画作。这本身,就挺反常的。 正方:视觉符号才是续作的灵魂 通常来说,续集为了维持热度,要么堆砌新角色,要么制造更

热心网友
04.26
港中大突破:单GPU实现对话驱动多镜头好莱坞级视频生成能力提升
科技数码
港中大突破:单GPU实现对话驱动多镜头好莱坞级视频生成能力提升

从单镜头到电影叙事:交互式AI视频生成的技术突破 这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究,已于2026年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者,可以通过该编号查阅完整的学术论文。 当前的AI视频生成

热心网友
04.17
原生Steam Link应用登陆苹果Vision Pro头显,支持4K游戏串流
科技数码
原生Steam Link应用登陆苹果Vision Pro头显,支持4K游戏串流

原生Steam Link应用正式登陆苹果Vision Pro,实现4K高清游戏串流体验 游戏玩家们迎来重磅消息。根据知名科技媒体9to5Mac的报道,Valve已正式推出专为visionOS系统开发的原生Steam Link应用测试版。苹果Vision Pro用户现在即可通过TestFlight平台

热心网友
04.14
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法
AI
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法

头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智

热心网友
04.07
苹果iOS 26液态玻璃设计展示库更新,展示第三方应用适配效果
礼仪与书信
苹果iOS 26液态玻璃设计展示库更新,展示第三方应用适配效果

IT之家 4 月 7 日消息,苹果正持续推广其在 iOS 26、iPadOS 26 与 macOS 26 中推出的液态玻璃视觉设计风格。该公司发布了更新版的液态玻璃设计展示库,展示了这一设计在第三方

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

蔚来4月销量同比增22.8% ES9将于5月下旬上市
业界动态
蔚来4月销量同比增22.8% ES9将于5月下旬上市

蔚来2026年4月交付数据发布:多品牌齐头并进,累计交付突破110万台 最新数据显示,2026年4月,蔚来公司整体交付新车达到29,356台,实现了22 8%的同比增长。这份成绩单背后,是旗下多品牌矩阵的共同发力。 具体来看,作为基石的蔚来品牌交付了19,024台;而面向主流家庭市场的乐道品牌表现稳

热心网友
05.06
新增“保护正版 人人有责”提示!广电总局集中处理电视剧侵权、盗版等传播
业界动态
新增“保护正版 人人有责”提示!广电总局集中处理电视剧侵权、盗版等传播

集中治理电视剧侵权传播动员会召开,行业版权保护再升级 近日,国家广播电视总局的一场动员会,为视听行业的版权保护工作按下了加速键。这场聚焦于集中治理电视剧侵权传播的会议,传递出的信号明确而有力:打击侵权盗版,维护健康生态,已成行业共识与当务之急。 侵权之害:动摇行业根基 会议一针见血地指出,电视剧乃至

热心网友
05.06
维信诺携全尺寸创新成果闪耀SID DW 2026
业界动态
维信诺携全尺寸创新成果闪耀SID DW 2026

维信诺闪耀SID DW 2026:以“屏台”技术硬核实力,定义下一代显示升级方向 五月初的洛杉矶,再次成为全球显示技术的焦点。当地时间5月5日至7日,国际显示周(SID Display Week)如期而至,这场行业顶级盛会向来是窥探未来显示趋势的绝佳窗口。今年,维信诺携其全尺寸创新成果亮相,可谓阵容

热心网友
05.06
全球手机销量榜最新出炉!苹果彻底杀疯了
业界动态
全球手机销量榜最新出炉!苹果彻底杀疯了

2026年Q1全球手机市场:苹果的“统治力”与安卓的“哑铃困境” 5月6日,市场研究机构Counterpoint发布了2026年第一季度的全球智能手机销量榜单。数据揭示了一个近乎“单方面碾压”的格局:苹果在高端市场展现出绝对的统治力,而安卓阵营则显得有些“无力招架”。 仔细看这份TOP10榜单,iP

热心网友
05.06
丢失7年的手机突然发定位和照片 机主成功找回!魅族客服回应
业界动态
丢失7年的手机突然发定位和照片 机主成功找回!魅族客服回应

快科技5月6日消息:7年前丢的手机发回定位,机主成功找回 今天,一则“7年前丢的手机发回定位,机主找回”的消息,冲上了网络热搜榜。 事件引发广泛讨论后,魅族客服方面向媒体做出了最新回应:只要机主曾在系统中挂失过手机,并且这部手机处于开机联网状态、同时登录了原机主的魅族Flyme账号,手机确实会自动拍

热心网友
05.06