密歇根NEPA研究：AI获游戏化人类视觉理解能力

时间：2025-12-23 10:43

这项由密歇根大学的徐思翰、马子乔，纽约大学的谢赛宁、于星，以及普林斯顿大学的柴文浩、弗吉尼亚大学的陈绪威、金伟阳等研究者合作完成的研究，发表于2025年12月的arXiv预印本平台（论文编号：arX

这项由密歇根大学的徐思翰、马子乔，纽约大学的谢赛宁、于星，以及普林斯顿大学的柴文浩、弗吉尼亚大学的陈绪威、金伟阳等研究者合作完成的研究，发表于2025年12月的arXiv预印本平台（论文编号：arXiv:2512.16922v1）。有兴趣深入了解技术细节的读者可以通过这个编号查询完整论文。

过去几年里，人工智能在理解图片方面取得了惊人进步，但这种进步往往依赖复杂的训练方法。研究团队突然意识到一个问题：为什么不能像人类学语言那样，让机器通过简单的"预测下一个"游戏来学会看懂图片呢？这个看似简单的想法，却带来了一场视觉人工智能领域的革命。

当我们看一张图片时，大脑会自然地从一个区域移动到另一个区域，预测接下来会看到什么内容。研究团队受到这种认知过程的启发，开发了一种名为NEPA（Next-Embedding Predictive Autoregression，下一嵌入预测自回归）的技术。这个技术的核心思想就像教孩子认字一样简单：给机器看图片的一部分，让它猜测下一部分会是什么样子。

整个过程可以比作拼图游戏。当你拿到一盒拼图时，通常会先找边缘部分，然后根据已经拼好的部分来预测下一块应该放在哪里。NEPA技术也是这样工作的：它把一张完整的图片切割成许多小块，就像把拼图分成若干片段，然后让机器按顺序观察这些片段，每看到一片就预测下一片应该是什么样子。

这种方法的巧妙之处在于，机器不需要重新构建整张图片的每个像素点，而是在一种叫做"嵌入空间"的抽象层面进行预测。可以把嵌入空间想象成一个翻译器，它把复杂的图像信息转换成机器更容易理解的数字表示。就像我们在心里描述一张图片时，会用"蓝色的天空"、"绿色的草地"这样的概念，而不是记住每个像素的确切颜色值。

更令人印象深刻的是，NEPA技术只需要在ImageNet-1K这个包含一百多万张图片的数据集上进行训练，就能达到令人满意的效果。这就像一个学生只需要看过一百多万张图片，就能掌握识别各种物体的能力。相比之下，以往的技术往往需要更复杂的训练过程，包括对比不同图片的相似性，或者试图重建图片的每个细节。

研究团队在实验中发现，使用NEPA技术训练的机器在ImageNet-1K图片分类任务上达到了83.8%的准确率（使用ViT-B模型）和85.3%的准确率（使用ViT-L模型）。这个成绩与目前最先进的方法相当，但训练过程却简单得多。

为了验证这种技术的通用性，研究团队还在语义分割任务上测试了NEPA技术。语义分割就像给图片中的每个像素贴标签，比如这个像素属于"天空"，那个像素属于"汽车"。在ADE20K这个复杂的场景解析数据集上，NEPA技术同样表现出色，基础模型达到了48.3%的平均交并比，大型模型达到了54.0%。

NEPA技术的架构设计也体现出简约之美。它采用标准的Vision Transformer作为骨干网络，这是目前最成功的图像处理架构之一。但与其他方法不同的是，NEPA不需要额外的解码器或复杂的预测头，整个系统就像一个精简的预测引擎。

在训练过程中，研究团队采用了一种叫做"停止梯度"的技巧。这就像在学习过程中给答案加上一层保护膜，防止机器偷懒地直接复制答案，而是真正学会预测的能力。同时，他们使用因果掩码确保机器在预测下一个图片块时，只能看到之前的内容，不能偷看后面的部分，这样才能真正学会预测能力。

研究团队还在架构中融入了几个现代化的改进技巧。他们使用了旋转位置编码（RoPE）来帮助机器更好地理解图片中各个部分的空间关系，就像给拼图的每一块标注上它在整幅画中的相对位置。层级缩放（LayerScale）技术则像调节学习的步伐，确保训练过程稳定进行。SwiGLU激活函数和查询键标准化（QK-Norm）则进一步提升了模型的性能和稳定性。

当机器经过NEPA技术训练后，研究团队发现了一个有趣的现象：机器学会了像人类一样关注图片中的重要区域。通过分析注意力图，他们发现机器在预测下一个图片块时，会自动将注意力集中在语义相关的区域上。比如，当看到动物的头部时，机器会自动关注身体的其他部分；当看到建筑物的一角时，会关注建筑的整体结构。

这种行为完全是机器自发学习到的，没有人为设计。这表明NEPA技术不仅能够识别图片，还能理解图片中对象之间的关系和整体结构。更有趣的是，当研究团队分析机器预测的嵌入向量时，发现这些向量在相似物体之间表现出高度相似性，在不相关物体之间则差异明显，这说明机器真正学会了抽象的视觉概念。

从计算效率角度来看，NEPA技术也表现出明显优势。传统的对比学习方法需要在每个训练步骤中处理大量的正负样本对，而掩码重建方法需要复杂的解码器来重建图片细节。相比之下，NEPA技术只需要一次前向传播，不需要额外的解码器或复杂的采样策略，这使得整个训练过程更加高效。

研究团队还发现，NEPA技术在不同规模的模型上都表现出良好的扩展性。随着模型参数量的增加和训练时间的延长，性能持续提升，没有出现过拟合现象。这种良好的扩展特性意味着，随着计算资源的增加，NEPA技术有望达到更高的性能水平。

在实际应用中，经过NEPA预训练的模型可以很容易地适配到各种下游任务。对于图像分类任务，只需要在模型输出层添加一个简单的线性分类器。对于语义分割任务，可以连接标准的UperNet解码器。这种灵活性使得NEPA技术能够广泛应用于各种计算机视觉任务。

值得注意的是，研究团队在微调阶段发现了一个有趣的现象：虽然NEPA是用因果注意力训练的（即只能看到前面的内容），但在微调时使用双向注意力（可以看到全部内容）能够进一步提升性能。这说明自回归预训练学到的表示具有很好的泛化能力，能够适应不同的注意力模式。

当前的研究还揭示了NEPA技术的一些局限性。在线性探测实验中，NEPA的表现不如一些专门设计的表示学习方法。这是因为NEPA的输出表示非常接近原始的嵌入层特征，主要的表示能力存储在预测器部分。这种设计选择是有意为之的，因为它使得整个系统更加简洁统一。

研究团队还分析了一些失败案例，发现NEPA技术在处理包含复杂反射、阴影和遮挡的场景时仍有改进空间。在多物体重叠的复杂场景中，模型有时会产生不一致的预测。这些问题反映了当前训练数据集的局限性，也为未来的改进指明了方向。

从更宏观的角度来看，NEPA技术代表了计算机视觉领域的一个重要转变。传统的方法往往专注于学习静态的视觉表示，而NEPA技术将重点转向学习预测模型本身。这种范式转变与自然语言处理领域的发展轨迹相呼应，语言模型的成功正是基于这种生成式预训练的思想。

这种统一的预训练范式还暗示着更广阔的可能性。研究团队指出，现代大型语言模型越来越多地采用绑定嵌入的设计，即输入和输出嵌入矩阵共享参数。这种设计本质上就是在嵌入空间中进行下一个token预测，与NEPA的核心思想完全一致。这意味着，不同模态的数据可能可以在统一的框架下进行训练，为多模态人工智能的发展开辟了新的道路。

展望未来，NEPA技术还具有向生成式建模扩展的潜力。通过与合适的图像解码器或扩散模型结合，同一个自回归嵌入预测器可以用于图像生成或编辑任务。这种统一的架构能够在表示学习和生成建模之间架起桥梁，为构建更加通用的视觉智能系统提供可能。

归根结底，NEPA技术的成功证明了一个重要观点：有时候，最简单的想法往往最有效。通过回归到最基本的预测原理，研究团队创造出了一种既简单又强大的视觉学习方法。这种方法不需要复杂的工程技巧或者精巧的理论设计，只是忠实地模仿了人类视觉认知的基本过程。正如研究团队在论文中所说，他们提供的不仅仅是一个新算法，更是一种新的视角：自回归预测的简洁性，当恰当地应用于视觉领域时，能够帮助统一不同模态之间的预训练范式。这种统一性可能是人工智能向更通用智能发展的关键一步。

Q&A

Q1：NEPA技术是如何工作的？

A：NEPA技术像拼图游戏一样工作，把图片切成小块，让机器按顺序观察这些片段，每看到一片就预测下一片应该是什么样子。机器不需要重建每个像素，而是在抽象的"嵌入空间"进行预测，就像我们用概念描述图片而不是记住每个细节。

Q2：NEPA技术比其他图像识别方法有什么优势？

A：NEPA最大的优势是简单高效。它只需要一次前向传播，不需要复杂的解码器或对比学习的负样本，训练过程比传统方法简单得多。同时它在ImageNet分类上达到了83.8%到85.3%的准确率，与最先进方法相当，但架构更简洁。

Q3：NEPA技术能应用到哪些实际场景中？

A：NEPA技术可以广泛应用于各种计算机视觉任务。它已经在图像分类和语义分割任务上取得优秀表现，未来还可能扩展到图像生成和编辑领域。由于其简洁的架构设计，它可以很容易地适配到不同的应用场景中。

来源：https://www.163.com/dy/article/KHDO33F50511DTVV.html

视觉密歇根大学

上一篇港大团队新突破：“炼金术”算法让AI更聪明 下一篇罗永浩痛批电信宽带缩水，用户应如何维权到底

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

密歇根NEPA研究：AI获游戏化人类视觉理解能力

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

密歇根NEPA研究：AI获游戏化人类视觉理解能力

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足 盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

罗永浩批苹果iOS 27创新不足盼新CEO改进