游乐游手机版
首页/科技数码/文章详情

苹果发布三项AI研究聚焦空间计算与Vision Pro头显技术

时间:2026-05-12 16:55
近期关于苹果Vision Pro项目被搁置的传闻,可以暂时告一段落了。多项最新公开的研究成果显示,苹果在空间计算与头戴显示设备领域的探索不仅未曾停滞,反而正在向更核心、更深层的技术难题发起攻关。 上个月,曾有消息称苹果内部研发重心已从新款Vision Pro转向Siri与AI智能眼镜,这引发了外界对

近期关于苹果Vision Pro项目被搁置的传闻,可以暂时告一段落了。多项最新公开的研究成果显示,苹果在空间计算与头戴显示设备领域的探索不仅未曾停滞,反而正在向更核心、更深层的技术难题发起攻关。

上个月,曾有消息称苹果内部研发重心已从新款Vision Pro转向Siri与AI智能眼镜,这引发了外界对其空间计算战略是否动摇的猜测。然而,最新公示的三项研究论文,为这些疑虑提供了有力的回应。这些研究分别聚焦于多模态大模型的空间功能推理评测、美式手语视频的自动化标注,以及大规模高质量的3D头部重建技术。每一项都精准指向了构建下一代沉浸式空间计算体验所必须攻克的关键瓶颈。

从“物体在哪”到“物体何用”:重新定义空间AI的智能基准

最能体现苹果技术野心的,是其于机器学习博客发布的论文《从物体定位到功能理解:为多模态大模型构建空间功能智能评测基准》。该研究提出了一个名为SFI-Bench的全新评估体系,其目标不再是简单考核AI识别物体与位置的能力,而是评估它是否理解物体的实际功能,以及如何在真实三维场景中规划和使用这些物体。

换言之,传统的测试可能只询问“厨房台面上有什么物品?”,而SFI-Bench则会提出更贴近实际的问题:“如果咖啡机无法制作咖啡,可能的原因有哪些?应如何逐步排查?”或“请从橱柜中找出同品牌且数量最多的一组调料瓶。”该基准包含了134段室内环境扫描视频和1555道由专家标注的问答对,旨在模拟未来家庭智能助手在真实复杂家居场景中可能面临的交互任务。


苹果人工智能研究人员正在测试大语言模型对物理世界的理解能力。图源:苹果公司

评测结果颇具启发性。在参与测试的模型中,Google的Gemini 3.1 Pro综合得分领先,OpenAI的GPT-5.4-High紧随其后。然而,论文也尖锐指出了当前前沿模型的共性短板:几乎所有模型在“带条件的全局计数”(例如“找出所有未开封的饮料”)、长时序空间关系的记忆与推理,以及将视觉信息与外部常识知识灵活结合等方面,表现均未达预期。这恰恰表明,要让AI真正成为可靠的空间计算助手,技术演进仍需跨越重大挑战。

让机器理解手语:推动无障碍技术的普及

另一项研究《利用手语模型自举生成手语视频标注》则展现了苹果对技术普惠性与包容性的关注。该研究探索利用AI模型自动为美式手语视频生成候选文本标注,从而将人工标注者从耗时数百小时的重复性劳动中解放出来。


苹果研究人员正探索利用人工智能实现美国手语视频的自动化标注。图源:苹果公司

研究团队构建了一个包含近500个词汇的初始标注集,并将其成功扩展应用于超过300小时的ASL STEM Wiki数据及7.5小时的FLEURS-ASL数据集。其研发的手指拼写识别模型,在特定测试集上取得了6.7%的字符错误率与74%的Top-1识别准确率。此项技术若得以成熟应用,将极大加速手语翻译与教育资源的创建,为听障群体开启更便捷的信息获取通道,这无疑是空间计算设备融入并赋能社会生活的关键一环。

构建数字化身:3D头像重建技术的重大突破

第三项研究《基于多视角采集的大规模高质量3D高斯头部重建》,则与Vision Pro的用户体验直接相关。苹果提出了一种名为“HeadsUp”的创新方法,能够从大规模多摄像头采集系统中,重建出高质量、高保真度的3D高斯散射头部模型。


苹果人工智能研究人员探索如何从多视角图像中创建高保真3D头部模型。图源:苹果公司。

此项研究的突破性在于其数据规模。团队使用了一个包含超过10000名受试者的内部数据集进行训练与验证,其数据量级比当前公开的多视角人头数据集高出一个数量级。这显然不仅是为了学术创新。它很可能直接指向Vision Pro中“Persona”(虚拟形象)功能的未来升级,旨在实现更自然、更实时的人脸捕捉与微表情渲染,从而让用户在visionOS构建的虚拟空间中的社交与协作体验变得无比真实与生动。

回顾苹果全球营销高级副总裁格雷格·乔斯维亚克此前的表态,这些研究进展便显得顺理成章。他曾强调,Vision Pro所展现的数字世界与物理世界融合的形态是未来的必然趋势。虽然他无法精确预测“空间计算”何时成为主流,但发展方向已然明确。如今,这些在底层技术领域的深耕,正是苹果为那个“不可逆转”的未来,悄然铺设的又一块坚实基石。在市场的喧嚣与传闻之外,扎实的工程实践与前沿研究仍在稳步推进。

来源:https://www.163.com/dy/article/KSNG66TQ0511B8LM.html
上一篇锐龙7 9700X游戏电脑配置推荐 高性能装机方案解析 下一篇苹果iOS 26.5正式版更新:修复50余项漏洞并新增RCS加密支持
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
加油站卖车 全国首座能源汽车综合服务站落地
科技数码 · 2026-06-04

加油站卖车 全国首座能源汽车综合服务站落地

广汽集团与中国石化在广东湛江遂溪建成全国首座“能源+汽车”综合服务站,推出加油站+汽车销售+维保一体化新模式,填补县域市场跨界空白,构建看车、购车、养车、加油一站式用车服务生态圈。

谷歌被曝研发至少8款Googlebook安卓本 今秋发布
科技数码 · 2026-06-04

谷歌被曝研发至少8款Googlebook安卓本 今秋发布

谷歌正在研发至少8款Googlebook安卓笔记本,计划今年秋季发布。其中4款搭载英特尔PantherLake芯片,3款采用高通骁龙X系列,1款配备联发科迅鲲Ultra芯片并支持可拆卸键盘设计。

巴菲特重仓谷歌而非英伟达的投资逻辑
科技数码 · 2026-06-04

巴菲特重仓谷歌而非英伟达的投资逻辑

伯克希尔·哈撒韦重仓谷歌而非英伟达,因其看好AI基础设施的长期价值。谷歌拥有搜索现金流、云服务和数据中心,商业模式可预测。伯克希尔认为投资“卖铲子的人”更具确定性,而非高风险的AI模型公司。

2026年WWDC最值得关注的升级与实操避坑指南
科技数码 · 2026-06-04

2026年WWDC最值得关注的升级与实操避坑指南

2026年苹果全球开发者大会预计将聚焦于人工智能与操作系统的深度融合。iOS18、iPadOS18等系统或将迎来AI原生体验的全面升级,包括更智能的Siri、系统级AI助手以及开发工具的革新。对于开发者和用户而言,了解新特性适配、隐私数据准备以及测试流程是顺利过渡的关键。

iPhone语音备忘录内置AI转写功能iOS 18起无
科技数码 · 2026-06-04

iPhone语音备忘录内置AI转写功能iOS 18起无

你是否也遇到过这样的场景——会议刚结束、课程刚刚听完、采访也收了尾,手机里却躺着一段十几分钟甚至更长的录音,亟待整理成文字? 原本想着快速转成文本,结果反复暂停、回放、快进,三十分钟的音频硬生生耗了一个多小时才逐字敲完。不少人不得不下载第三方转写工具,到头来却发现——付费门槛才是真正的绊脚石。 其实