亚马逊Perceptio技术:赋予AI立体视觉的突破性进展

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这项由亚马逊团队领导的研究发表于2026年3月19日的计算机视觉会议论文集,论文编号为arXiv:2603.18795v1。感兴趣的读者可以通过该编号查询完整论文。这项突破性研究首次让大型视觉语言模型拥有了类似人类的"立体视觉"能力,能够同时理解图片中"是什么"和"在哪里"的问题。
当我们看到一张照片时,大脑会自动分析出画面中有什么物体,这些物体分别在什么位置,哪个离我们更近,哪个更远。这种能力对人类来说轻而易举,但对AI来说却一直是个巨大挑战。目前的AI视觉模型虽然能够准确识别出照片中有什么东西,却很难判断这些物体的空间位置关系。
亚马逊研究团队开发的Perceptio模型就像给AI安装了一套全新的"视觉系统"。这套系统不仅能识别物体,还能生成详细的深度图和分割图,告诉我们每个物体的精确轮廓和距离信息。这就好比给AI戴上了特殊的眼镜,让它既能看清楚"这是什么",又能判断"这在哪里",甚至能回答"哪个更近"这样的问题。
研究团队的创新在于让AI学会了一种特殊的"思考方式"。当AI看到一张图片并收到问题时,它不再直接回答,而是先在内部生成一系列特殊的"感知标记"——包括物体轮廓标记和深度标记。这些标记就像是AI的"内心独白",帮助它理解空间关系后再给出答案。这种方法被称为"感知增强的思维链",让AI的推理过程更加接近人类的视觉认知过程。
一、AI视觉的"近视眼"问题
现代的大型视觉语言模型就像是非常聪明但有些"近视"的学生。它们在语义理解方面表现出色,能够准确识别图片中的各种物体,描述复杂的场景,甚至进行深入的对话。然而,一旦涉及到空间关系的判断,这些模型就显得力不从心。
亚马逊研究团队通过一个名为BLINK的测试发现了这个问题的严重性。BLINK测试包含一些人类"眨眼间"就能完成的简单空间判断任务,比如指出照片中哪个物体离相机更近。令人惊讶的是,即使是目前最先进的AI模型,在这些测试中的表现也仅仅比随机猜测稍好一些。这就像让一个博学的教授去判断桌子上哪个杯子离他更近,结果他却答不上来一样尴尬。
这种"语义强、空间弱"的现象其实有其深层原因。传统的AI训练主要依靠互联网上的图片和文字描述,这些描述往往关注的是"是什么"而不是"在哪里"。模型学会了将视觉特征转换为语言描述,但在这个过程中,精确的空间信息往往被压缩或丢失了。
更具体来说,目前的模型架构通常将图片编码成固定长度的特征向量,然后直接用这些向量来生成文字回答。这个过程就像把一幅立体的油画压缩成一行文字描述一样,虽然能保留主要内容,但空间层次信息却被抹平了。研究发现,即使是拥有260亿参数的InternVL2.5模型,在HardBLINK的"距离判断"任务中也只能达到33.1%的准确率,远低于人类的表现水平。
二、给AI装上"立体眼镜"
Perceptio的核心创新就像给AI装上了一副特殊的"立体眼镜"。这副眼镜有两个特殊的镜片:一个负责看清物体的精确轮廓,另一个负责感知深度距离。这两个"镜片"分别对应着语义分割和深度感知两大核心技术。
语义分割"镜片"的工作原理类似于给照片中的每个物体描边。当AI看到一张包含多个物体的复杂场景时,这个功能会自动为每个物体生成精确的轮廓线,就像用不同颜色的笔在透明纸上勾勒出每个物体的边界一样。这种精确的轮廓信息帮助AI理解物体的确切形状和边界,为后续的空间推理提供了重要基础。
深度感知"镜片"则负责构建场景的三维结构。它会为图片中的每个像素分配一个深度值,生成类似于地形图的深度图。在这张"地形图"中,不同的颜色或亮度代表不同的距离,近处的物体显示为高地,远处的物体显示为低地。通过这种方式,AI能够理解场景的立体结构,判断物体之间的前后关系。
研究团队在实现这两个功能时采用了一种巧妙的"标记化"策略。他们将复杂的分割图和深度图转换成特殊的标记序列,就像把图片信息"翻译"成AI能够理解的特殊语言。这些标记被直接嵌入到AI的文字生成过程中,形成了"分割标记-深度标记-文字回答"的特殊序列。
这种设计的精妙之处在于它遵循了人类视觉认知的自然规律。当人们看到一个复杂场景并被问及相关问题时,大脑会首先快速分析场景结构,识别物体轮廓,感知空间关系,然后基于这些感知信息来组织语言回答。Perceptio正是模拟了这个过程,让AI在回答问题之前先"看清楚"场景的详细结构。
三、深度信息的"数字化翻译"
将连续的深度信息转换成AI能理解的离散标记,这个过程就像把一幅连续色彩的油画转换成像素画一样。研究团队采用了一种叫做VQ-VAE(矢量量化变分自编码器)的技术来完成这个"翻译"工作。
这个翻译过程分为几个步骤。首先,研究团队使用专门的深度估计模型为每张训练图片生成高质量的深度图。这些深度图就像是场景的"等高线地图",准确记录了每个位置到相机的距离。然后,VQ-VAE会学习将这些连续的深度值"打包"成一本特殊的"词典",这本词典包含128个不同的深度"词汇",每个词汇代表一种特定的深度模式。
当AI需要描述一个场景的深度信息时,它会将深度图分割成若干小块,每个小块都用词典中最合适的"词汇"来表示。这就像用有限的颜色块来拼出一幅复杂的马赛克画一样。虽然丢失了一些连续性的细节,但保留了足够的信息来重构出原始深度图的主要结构。
为了让这个翻译过程更加稳定可靠,研究团队设计了三个特殊的训练目标。第一个叫做"标记损失",确保AI生成正确的深度标记序列。第二个是"计数损失",保证生成的标记数量符合预期。第三个是"定位损失",确保深度标记出现在序列中的正确位置。这三个目标就像三个严格的老师,从不同角度监督AI学习正确的深度表达方式。
研究团队还创新性地引入了"软融合"技术来解决训练过程中的一个技术难题。在传统方法中,从连续深度图到离散标记的转换过程是不可微分的,这意味着训练信号无法有效地传递回去改进模型。软融合技术通过计算加权平均的方式,让这个转换过程变得平滑可微,从而实现了端到端的训练优化。
四、多任务协同训练的智慧
Perceptio的训练过程就像培养一个全能型选手,需要在多个不同领域同时练习并达到专业水准。研究团队设计了一套多任务协同训练策略,让AI同时学习语言理解、物体分割和深度感知三项核心技能。
这种训练方式的挑战在于平衡不同任务的重要性。研究团队为每个任务设定了不同的权重,就像调配营养餐一样精心搭配各种"营养元素"。语言生成任务作为基础能力保持较高权重,而分割和深度任务的权重则根据实验结果精心调节。最终的配方是:语言损失权重为1.0,分割重建损失权重为1.0,深度标记损失权重为1.0,深度重建损失权重也为1.0。
训练数据的准备工作同样精细入微。研究团队构建了一个包含110万样本的综合数据集,这个数据集就像一个丰富的"经验库",涵盖了各种不同类型的视觉推理任务。其中包括66.5万个来自LLaVA-1.5的图像问答对话样本,21.4万个用于图像级文本驱动分割的对话生成样本,还有6万个专门的感知标记数据集样本。此外,团队还特别制作了5.6万个结合了分割、深度和文本的联合数据集样本。
在这个联合数据集中,每个样本都包含完整的"感知链条":原始图片、对应的分割掩码、深度信息和自然语言描述。这样的设计让AI能够学习到这些不同模态信息之间的内在联系,理解它们是如何相互支撑、共同构成完整视觉理解的。
训练硬件配置也体现了这项研究的规模和复杂性。整个训练过程在64块NVIDIA A100 GPU上进行,持续约24小时。研究团队采用了AdamW优化器,学习率设置为4×10??,有效批次大小为512。这些参数经过精心调试,确保模型能够稳定地同时学习多个复杂任务。
五、令人瞩目的性能突破
Perceptio在各项测试中的表现就像一个突然开窍的学生,在多个维度都实现了显著提升。在最具挑战性的referring expression segmentation(指称表达分割)任务中,Perceptio-8B模型在RefCOCO、RefCOCO+和RefCOCOg三个数据集上分别达到了82.7%、77.9%和80.0%的cIoU得分,相比之前的最佳模型Sa2VA-8B分别提升了1.1、1.7和1.3个百分点。
这种提升的意义可以通过一个具体场景来理解:当你指着一张复杂的街道照片说"找出右边穿红衣服的那个人"时,Perceptio能够更准确地定位并勾勒出该人物的精确轮廓。这种精确性的提升在实际应用中意味着更好的用户体验和更可靠的系统性能。
在空间推理能力方面,Perceptio的表现更是令人印象深刻。在HardBLINK的相对深度判断任务中,当面对包含3个、4个和5个标记点的复杂场景时,Perceptio-8B分别达到了75.8%、71.0%和66.1%的准确率,平均准确率为71.0%。这相比之前的最佳模型LLaVA-Aurora提升了8.9、10.5和11.3个百分点,平均提升达到了10.3个百分点。这种大幅提升表明,显式的深度感知确实为空间推理带来了根本性改善。
在通用视觉语言理解任务上,Perceptio也保持了优秀表现。在MME基准测试中,Perceptio-8B在感知和认知两个维度分别获得了1654和628分的成绩。在MMBench测试中达到了83.4%的准确率,在SEED-Bench中获得75.7%的分数。这些结果表明,增加感知能力并没有以牺牲原有语言理解能力为代价,反而在某种程度上增强了模型的综合表现。
特别值得一提的是,Perceptio-4B这个较小的变体同样表现出色,在多个测试中的成绩甚至超过了一些更大参数量的竞争模型。这表明Perceptio的架构设计是高效的,不仅能在大模型中发挥作用,也能在资源受限的环境中提供良好性能。
六、创新方法的深入剖析
Perceptio的技术创新可以比作一套精密的视觉处理流水线。当一张图片进入系统时,它会被分发到三个并行的处理通道:标准的图像编码通道、专门的分割感知通道和深度量化通道。这三个通道就像三个专业的技师,各自负责提取不同类型的视觉信息。
标准图像编码通道负责提取语义外观特征,这些特征包含了物体的类别、颜色、纹理等基本视觉属性。分割感知通道则使用冻结的SAM编码器来生成分割感知的表示,这些表示特别擅长捕捉物体边界和形状信息。深度量化通道利用预训练的VQ-VAE编码器将图片转换成离散的深度标记序列。
这三路信息最终汇聚到核心的大语言模型中,形成一个统一的多模态表示。语言模型学会了如何协调使用这些不同类型的信息,在生成回答时首先输出特殊的感知控制标记,然后基于这些"内部感知"来生成最终的文字回答。
损失函数的设计体现了研究团队的深思熟虑。除了标准的语言建模损失外,系统还包含了分割重建损失和一套创新的深度损失函数。深度损失函数由三个组成部分:标记损失确保正确的深度标记被生成,计数损失保证标记序列长度的一致性,定位损失确保标记出现在正确的位置。这种多重约束的设计就像给AI安装了多个"质量检查员",从不同角度确保输出的质量。
软重建技术是另一个重要创新。传统的离散化过程会阻断梯度传播,使得端到端训练变得困难。研究团队通过加权平均的方式创造了一个可微分的"软"重建过程,让训练信号能够有效地从最终的深度重建损失传播回语言模型的参数。这种技术细节的创新虽然看似微小,却是实现整个系统有效训练的关键。
七、全面的实验验证与分析
研究团队进行了详尽的消融实验来验证每个设计组件的作用。这些实验就像拆解一台精密机器,逐一检验每个零件的功能和重要性。
首先,团队验证了双重感知能力的必要性。当移除深度感知功能只保留2D分割时,模型在HardBLINK深度推理任务上的平均准确率从71.0%暴跌到45.2%,下降了25.8个百分点。这个巨大的性能落差清楚地表明,3D深度信息对于空间推理确实至关重要。
相反,当移除分割功能只保留3D深度感知时,模型在通用VQA任务上的表现出现了普遍下降:MME得分从1654/628下降到1620/585,MMBench准确率下降了1.6个百分点,SEED-Bench得分下降了2.3个百分点。这表明2D语义分割信息对于全面的视觉理解同样不可或缺。
损失函数组件的消融实验进一步证实了设计的合理性。移除深度重建损失后,MME得分下降到1625/613,MMBench准确率降至81.9%。移除深度标记生成损失时,MMBench准确率下降到82.4%,SEED-Bench得分从75.7%降至74.3%。这些结果表明,每个损失组件都在系统的整体性能中发挥着重要作用。
有趣的是,实验还揭示了一个优化权衡的现象。当移除深度标记时,某些通用VQA指标实际上出现了轻微提升(如MMBench提升0.4%)。这表明深度标记生成与纯文本任务之间存在一定的优化竞争。不过,考虑到深度感知带来的巨大空间推理优势,这种微小的通用任务性能波动是完全可以接受的。
推理效率的测试显示,尽管Perceptio需要生成额外的感知标记,但实际的计算开销极其有限。在密集标题生成任务中,Perceptio-8B每100个标记的生成时间为3.52秒,与Sa2VA-8B的3.53秒几乎相同。浮点运算量对比也显示了类似的结果(4.06T vs 4.66T FLOPs)。这意味着性能提升是通过更好的架构设计而非更多的计算资源实现的。
八、实际应用场景的广阔前景
Perceptio的技术突破为多个实际应用领域打开了新的可能性。在自动驾驶领域,这种增强的空间感知能力可以帮助AI更准确地判断道路上各种物体的距离和位置关系,从而做出更安全的驾驶决策。当AI能够精确区分前方是一个真实的行人还是广告牌上的人像时,这对行车安全的意义是不言而喻的。
在机器人导航和操作任务中,Perceptio的能力同样具有重要价值。家用服务机器人需要准确理解家居环境中物体的空间排列,才能安全有效地完成诸如整理房间、端茶送水等任务。有了精确的深度感知和物体分割能力,机器人就能更好地规划路径,避免碰撞,并精确操作各种物品。
在增强现实和虚拟现实应用中,Perceptio技术可以实现更自然的人机交互。用户可以通过自然语言描述来选择和操作虚拟环境中的特定物体,而AI能够准确理解用户的意图并定位到相应的虚拟物品。这种精确的空间理解能力将使AR/VR体验变得更加直观和沉浸。
医疗影像分析是另一个潜在的应用领域。虽然医疗影像通常需要专门的训练,但Perceptio展示的空间推理能力为开发更智能的医疗AI助手提供了新思路。能够准确分割和定位病灶区域的AI系统将为医生提供更有价值的诊断支持。
在电商和零售领域,这种技术可以改善商品搜索和推荐体验。消费者可以上传一张包含多个物品的照片,然后用自然语言描述想要购买的特定物品,AI就能准确识别和定位目标商品。这种精确的视觉理解能力将使购物体验变得更加便捷。
九、技术局限与未来发展方向
尽管Perceptio取得了显著进展,但研究团队也诚实地指出了当前方法的一些局限性。最明显的是在优化权衡方面,深度标记生成与纯文本任务之间存在轻微的竞争关系。这表明在多任务学习中仍需要更精细的平衡策略,可能需要开发任务自适应的课程学习方法来解决这个问题。
当前的系统架构还局限于静态图像处理,尚未扩展到视频理解领域。在视频场景中,时间一致性的深度标记和物体跟踪将带来新的技术挑战。如何在保持空间精度的同时处理时间维度的复杂性,是一个值得深入探索的研究方向。
另一个重要局限是对教师模型的依赖。Perceptio目前依赖于冻结的专业教师模型(Depth Anything V2和SAM2),这些模型的误差会传播到学生模型中。开发更鲁棒的学习策略来应对教师模型的噪声,是提高系统实用性的关键。
在更广阔的视角下,这项研究也启发了关于通用空间智能的思考。未来的发展方向可能包括将感知标记扩展到编码表面法线、光流等更丰富的空间信息,朝着统一的空间智能框架发展。这种框架将能够在单一的自回归框架内处理各种空间推理任务。
计算效率的进一步优化也是一个重要方向。虽然当前的额外计算开销很小,但在大规模部署时,任何效率提升都具有重要意义。研究团队提到了任务自适应课程学习的可能性,这种方法可能在保持性能的同时进一步提高训练效率。
最后,如何将这种显式的空间感知能力与更广泛的常识推理相结合,仍然是一个开放的研究问题。真正的视觉智能不仅需要精确的感知能力,还需要理解物体之间的物理关系、功能关系和因果关系。
说到底,Perceptio的出现标志着AI视觉理解领域的一个重要里程碑。它首次成功地将2D语义分割和3D深度感知统一到了单一的自回归语言模型中,让AI获得了更接近人类的视觉认知能力。这种"先感知,后推理"的设计理念不仅带来了实质性的性能提升,更重要的是为构建真正智能的视觉系统指明了方向。
虽然还存在一些局限性,但这项研究已经证明了显式空间感知对于视觉语言模型的重要性。随着技术的不断发展和完善,我们有理由期待看到更多能够真正理解三维世界的AI系统出现。这些系统将不仅能够看到世界的表面,更能够理解世界的深层结构,从而为人类提供更智能、更可靠的视觉AI服务。对于有兴趣深入了解技术细节的读者,建议查阅完整的论文原文,论文编号为arXiv:2603.18795v1。
Q&A
Q1:Perceptio和传统AI视觉模型有什么不同?
A:传统AI视觉模型只能识别图片中的物体类别,就像只能回答"这是什么"的问题。而Perceptio能同时理解"是什么"和"在哪里",它会先生成物体轮廓和深度信息的特殊标记,然后基于这些空间感知来回答问题,就像给AI装上了立体眼镜。
Q2:Perceptio的深度感知能力有多准确?
A:在HardBLINK空间推理测试中,Perceptio-8B达到了71.0%的平均准确率,相比之前最好的模型提升了10.3个百分点。这意味着它能正确判断照片中哪个物体离相机更近的概率超过70%,这是一个显著的突破。
Q3:Perceptio技术什么时候能应用到实际产品中?
A:目前Perceptio还在研究阶段,但其技术原理已经为多个应用领域指明了方向,包括自动驾驶中的距离判断、机器人导航、增强现实交互等。具体的产品化时间表还需要看后续的工程化进展和计算资源优化情况。
相关攻略
今年3月,杨浦区与字节跳动旗下火山引擎共建的火山工场开业,近10家数据标注企业入驻产业园。在人们惯有印象中,标注行业是赛博空间的“流水线”。给数据“打标签”的工作在线上就能完成,并不依赖具体哪座城
这项由东南大学、中山大学、浙江师范大学和伦斯勒理工学院联合开展的研究发表于2026年3月10日的arXiv预印本平台(论文编号:arXiv:2603 09290v1),研究团队开发了一个名为Tool
这项由亚马逊团队领导的研究发表于2026年3月19日的计算机视觉会议论文集,论文编号为arXiv:2603 18795v1。感兴趣的读者可以通过该编号查询完整论文。这项突破性研究首次让大型视觉语言模
“未婚夫”三个字一出口,北京胡同的灰墙都跟着颤了一下。庄庄手里那串糖葫芦啪嗒掉在地上,糖壳碎成渣,像谁也没料到的九十年代——表面亮晶晶,一咬满嘴血碴子。徐胜利当时正掂着两件盗版球衣,盘算着世界杯开幕
IT之家 3 月 30 日消息,阿里千问今晚发布全模态大模型 Qwen3 5-Omni。IT之家附核心亮点如下:无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频 Caption 生
热门专题
热门推荐
Sharkoon旋刚推出双模全配列机械键盘OfficePal K70W 机械键盘市场又添新选择。日前,Sharkoon旋刚正式发布了旗下新款双模全配列机械键盘——OfficePal K70W。这款产品为用户提供了段落有声和线性静音两种轴体选项,值得一提的是,无论是哪种轴体,官方标称的按键寿命都达到了
风车动漫最新在线网入口地址是https: www fcdman com ,该平台提供海量动画资源、流畅观看体验及便捷功能,如多类型番剧、无广告播放、进度记忆和快速更新等。风车动漫
什么是晨星烛台形态?晨星蜡烛图形态详细介绍 什么是晨星烛台形态? 在股票、外汇乃至加密货币市场上,交易者们常常睁大眼睛寻找趋势反转的蛛丝马迹。其中,晨星烛台形态就是一个备受青睐的看涨反转信号。它通常出现在一波下跌行情即将衰竭的末端,像黎明前的第一道曙光,暗示着市场情绪可能正在悄然转变。 典型的晨星形
在当今数字化的时代,社交平台成为了人们生活中不可或缺的一部分。而小红书app,凭借其独特的内容分享模式和丰富多样的生活资讯,吸引了无数用户的关注。你是否想知道如何快速便捷地登录小红
曝苹果2026年还将发布十多款新品 iPhone Fold领衔 本周,随着新款MacBook Air、MacBook Pro以及iPhone 17e等多达七款产品搭载M5芯片亮相,苹果今年的首轮产品攻势算是告一段落了。但这远不是终点,事实上,今年的好戏才刚刚拉开序幕。 目光转向桌面端,Studio





