苹果公司近日正式宣布,将参与2025年10月19日至23日在檀香山举行的国际计算机视觉大会(ICCV)。作为计算机视觉领域的权威学术盛会,ICCV每两年与欧洲计算机视觉会议交替举办,始终聚焦该领域的前沿探索与技术创新。
值得注意的是,苹果此次提交的八篇研究论文全部获得大会录用,并将深度参与多个议程环节。这些论文涉及多模态模型、视频生成、三维空间理解等重要方向,具体包括:探讨多模态大语言模型三维空间认知能力的"MM-Spatial"、研究原生多模态模型扩展规律的论文、提出可扩展文本与图像条件化视频生成方案的"STIV"、基于多模态提示的统一开放世界分割技术,以及适用于统一图像生成与编辑的通用扩散模型"UniVG"等。这些研究成果将在会议期间通过海报展示和口头报告的形式与学界分享。
苹果机器学习应用研究部负责人C. Thomas博士将代表公司出席第三届基于视觉的工业检测研讨会,并发表主旨演讲。具体演讲主题将于近期公布,时间安排在10月19日。此外,苹果研究员Patricia Vitoria Carrera与Tanya Glozman将参加"计算机视觉领域女性研讨会",并在会后举办的交流晚宴中担任导师,为年轻学者提供专业指导。
在评估体系方面,苹果推出了"UINavBench"交互式数字智能体综合评估框架,同时通过"ETVA"方法实现了文本到视频对齐的精细化评估。另一项研究发现,稳定扩散模型在视觉上下文学习中展现出潜在优势,这为多模态模型的优化提供了新的研究方向。
本次参会体现了苹果对计算机视觉领域的持续投入。从基础理论研究到实际应用落地,其成果涵盖了模型架构、生成技术、评估体系等多个维度,展现出公司在跨模态智能领域的全面布局与深入探索。
