首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
赫瑞-瓦特大学AI突破:图像搜索实现“推理驱动”新时代

赫瑞-瓦特大学AI突破:图像搜索实现“推理驱动”新时代

热心网友
82
转载
2026-01-25


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由赫瑞-瓦特大学BCML实验室主导的开创性研究发表于2026年迪拜举办的第26届国际万维网大会(WWW '26),论文编号为979-8-4007-2307-0/26/04,有兴趣深入了解的读者可以通过论文标识码10.1145/3774904.3792276查询完整论文。

在我们的数字生活中,找到一张理想的图片往往像大海捞针一样困难。设想这样一个场景:你手里有一张穿着红色连衣裙的女孩照片,但你真正想要的是同一个女孩穿着蓝色连衣裙的照片。传统的搜索引擎面对这种"我要这张照片,但换成蓝色"的请求往往束手无策,就像一个只会按图索骥的机械助手,缺乏灵活变通的能力。

这正是计算机视觉领域一个被称为"组合图像检索"的经典难题。现有的解决方案就像训练有素但思维僵化的工厂流水线工人,虽然效率很高,但面对复杂多变的需求时常常力不从心。它们要么需要大量的训练数据才能工作,要么在理解细微差别时表现得像色盲一样迟钝。

赫瑞-瓦特大学的研究团队意识到,真正的突破需要让机器具备类似人类的思维能力。当人类寻找目标图片时,我们会在脑海中想象目标的样子,然后从多个角度验证候选图片是否符合要求。受此启发,研究团队开发了一套名为XR的创新系统,这套系统的核心思想是让多个AI代理像一个协作团队一样工作,每个代理都有自己的专长和职责。

整个系统的工作流程就像一个高效的侦探团队破案一样。当接到任务时,首先由"想象代理"根据线索描绘出犯罪嫌疑人的大致轮廓,然后"粗筛代理"从人海中筛选出可能的候选人,最后"精查代理"通过详细询问来验证每个候选人是否真正符合所有特征。这种分工合作的方式不仅提高了准确性,还大大增强了系统的可靠性。

最令人兴奋的是,这套系统完全不需要专门的训练过程,就像一个天生就具备推理能力的智能助手,可以直接应用到各种不同的场景中。实验结果显示,在时尚、自然场景和开放域图片等多个测试环境中,XR系统的表现都超越了现有的最佳方法,最高提升幅度达到38%,这相当于从勉强及格跃升到优秀的水平。

一、打破传统桎梏:从机械匹配到智能推理的飞跃

传统的图像检索就像一个只会对照身份证找人的保安,虽然在处理标准请求时还算称职,但面对"找一个和这个人长得像但头发颜色不同的人"这样的复杂需求时就彻底懵了。现有的组合图像检索方法主要可以分为三大类,每一类都有自己的短板。

第一类方法叫做"联合嵌入法",它试图将图片和文字描述放在同一个"理解空间"里进行比较。这就像把苹果和橘子都榨成果汁然后比较味道,虽然在理论上可行,但在实际操作中往往会丢失很多重要的细节信息。当你想要找一件"和这件红色T恤类似但是蓝色的"衣服时,这种方法可能会因为过度简化而找不准目标。

第二类是"图说生成法",它的工作方式是先根据你的要求写出一段描述理想图片的文字,然后用这段文字去搜索图片。这种方法就像让一个作家根据你的描述写小说,然后再根据小说去找演员。问题在于,从图片到文字再到图片的转换过程中,很多视觉细节会像游戏中的"传话"一样逐渐失真。

第三类"文本比较法"则更进一步,直接在文字描述层面进行比较,完全抛弃了视觉信息。这就像完全依靠书面描述来识别人,而不看照片,显然会错过很多只有通过视觉才能捕捉到的重要特征。

这些传统方法的根本问题在于它们都缺乏真正的"理解"能力。它们就像训练有素的鹦鹉,能够重复学过的内容,但无法灵活应对新情况。更关键的是,它们在处理跨模态信息时往往只能抓住表面特征,无法深入理解图像和文字之间的复杂关系。

研究团队意识到,要解决这个问题,需要从根本上改变思路。与其让机器死记硬背各种模式,不如教会它像人类一样思考和推理。人类在寻找目标图片时,会自然而然地进行多层次的分析:首先在脑海中构建目标图像的心理模型,然后从多个角度评估候选图片,最后通过逻辑推理来验证结果的正确性。

正是基于这样的洞察,XR系统应运而生。它不是一个单一的AI模型,而是一个由多个专门化代理组成的协作团队。每个代理都有自己独特的能力和视角,就像一个多元化的专家团队,能够从不同角度分析同一个问题,最终达成更加准确和可靠的结论。

这种多代理协作的方法带来了前所未有的灵活性。与传统方法不同,XR系统不需要针对特定任务进行专门训练,就像一个经验丰富的侦探,即使面对全新的案件类型,也能运用已有的推理技巧找到线索。这种"举一反三"的能力使得系统可以轻松适应各种不同的应用场景,从时尚搜索到通用图像检索,都能表现出色。

二、三位一体的智能架构:想象、筛选与验证的完美协奏

XR系统的核心创新在于构建了一个类似人类认知过程的三阶段智能架构。整个系统就像一个高效的艺术品鉴定团队,每个阶段都有专门的专家负责不同的任务,最终合力找出最符合要求的目标图片。

想象阶段就像团队中的"构想师",它的任务是根据现有线索在脑海中勾勒出目标图像的轮廓。这个过程涉及两个互补的想象代理:文本想象代理和视觉想象代理。文本想象代理就像一个擅长文字描述的作家,它会仔细分析参考图片的文字描述和修改要求,然后生成一段详细的目标图像描述。与此同时,视觉想象代理则像一个具有丰富视觉经验的画家,它直接观察参考图片,结合修改要求,从视觉角度想象出目标图像的样貌。

这种"双重想象"的设计非常巧妙。文本代理擅长处理抽象的概念转换,比如"把红色改成蓝色"这样的逻辑变化,而视觉代理则更擅长捕捉细节,比如衣服的纹理、人物的姿态等视觉特征。两个代理产生的描述通常相似但不完全相同,就像两个艺术家对同一个场景的不同诠释,这种差异性正是系统鲁棒性的来源。

粗筛阶段则像团队中的"初选专家",负责从海量候选图片中快速筛选出最有希望的一批。这个阶段同样采用了双代理协作模式:文本相似度代理和视觉相似度代理。它们各自从不同角度评估候选图片与想象出的目标图像的匹配程度。文本相似度代理专注于语义层面的匹配,而视觉相似度代理则关注视觉特征的对应关系。

更有趣的是,每个相似度代理都会产生两个不同的评分。以文本相似度代理为例,它不仅会比较候选图片的文字描述与文本想象代理生成的描述,还会将这个描述与视觉想象代理生成的描述进行比较。这种"交叉验证"的机制就像让两个评委分别从不同角度给同一个表演打分,最终的综合得分会更加公正和准确。

系统随后使用一种叫做"倒数排名融合"的技术来合并这些评分。这种方法就像奥运会评分系统一样,不是简单地平均分数,而是根据每个候选图片在不同评委心中的排名来确定最终排序。这样做的好处是能够减少极端分数的影响,让评选结果更加稳定可靠。

精查阶段是整个系统最具创新性的部分,它引入了"质疑代理"的概念。这些代理就像苛刻的评判官,会针对每个候选图片提出一系列尖锐的问题,比如"这张图片中的人真的穿着蓝色衣服吗?"或者"图片中的狗确实是金毛吗?"这些问题都是基于用户的原始修改要求精心设计的,旨在验证候选图片是否真正满足所有细节要求。

质疑过程同样采用双重验证机制。文本质疑代理会仔细分析候选图片的文字描述,看它是否能正确回答这些问题。视觉质疑代理则直接"审视"图片本身,从视觉角度验证每个细节。只有通过了双重质疑的候选图片才能获得高分,这就像法庭上需要人证物证俱全才能定罪一样严格。

最后,系统会将质疑阶段的验证结果与粗筛阶段的相似度评分进行综合,重新排列候选图片的顺序。这个过程就像评选最佳员工时既要看平时表现(相似度评分),又要看专项考核结果(质疑验证),最终选出真正符合标准的优秀候选。

整个三阶段架构的设计哲学体现了一个重要原则:单一视角容易出错,多重验证才能确保准确。每个阶段都从不同角度分析同一个问题,既有广度又有深度,既重视整体匹配又关注细节验证。这种全方位的分析方法使得XR系统能够在复杂多变的搜索场景中保持稳定的高性能表现。

三、跨模态推理的奥秘:让AI真正"理解"图像和文字的关系

XR系统最令人惊叹的特性之一是它的跨模态推理能力,这就像让一个天生的翻译家能够在图像语言和文字语言之间自由切换,不仅能够准确翻译,还能理解两种语言的深层含义和微妙差异。

传统的图像检索系统就像只会一种语言的单语者,当面对需要同时理解图像和文字的复杂任务时,往往会出现理解偏差。比如,当你说"找一张和这个相似但更暖色调的图片"时,传统系统可能会简单地搜索包含"暖色调"关键词的图片,而完全忽略了"和这个相似"这个重要的视觉约束条件。

XR系统的跨模态推理机制则完全不同。它就像一个同时精通多种语言的外交官,能够在不同的信息模态之间建立精确的对应关系。当文本想象代理和视觉想象代理分别从各自的角度"想象"目标图像时,它们实际上是在构建同一个概念的不同表征。这两个表征就像同一座建筑的设计图和效果图,虽然表现形式不同,但描述的是同一个客观存在。

这种双重表征的设计带来了意想不到的好处。在实际应用中,研究团队发现视觉想象代理生成的描述往往更加具体和细致,比如它会注意到"户外环境"、"多只中型犬"这样的具体细节。而文本想象代理则更擅长处理抽象的转换关系,比如"从几只小狗变成一只大狗"这样的概念性变化。两种描述的结合就像立体声音响的左右声道,为系统提供了更加丰富和准确的目标图像信息。

在相似度评估阶段,跨模态推理的优势更加明显。传统系统通常只能进行单一的相似度计算,比如文本对文本或图像对图像的比较。而XR系统则实现了真正的跨模态匹配:它不仅会比较文本描述之间的相似度,还会比较图像与文本描述之间的匹配程度,甚至会分析不同模态生成的描述之间的一致性。

这种多维度的比较就像让一个品酒师不仅要品尝酒的味道,还要观察它的颜色,闻它的香气,甚至要了解它的酿造工艺。每个维度都提供了独特的信息,综合起来就能形成对目标对象更加全面和准确的认知。

系统的跨模态推理能力在处理复杂修改要求时表现得尤为出色。举个例子,当用户要求"找一件和这件红色T恤类似但是深色且有图案的衣服"时,系统需要同时处理三个层面的信息:基本相似性(T恤这个类别)、颜色变化(从红色到深色)和新增特征(添加图案)。传统系统往往会在处理这种多重约束时顾此失彼,而XR系统则能够通过不同代理的协作来确保每个约束都得到适当的处理。

更令人印象深刻的是系统的自适应能力。由于跨模态推理本质上是一个开放性的过程,不依赖于预定义的模式或规则,因此XR系统能够处理它从未见过的全新修改要求。这就像一个有经验的厨师,即使面对全新的食材组合,也能凭借对烹饪原理的深刻理解调制出美味的菜肴。

研究团队通过大量实验验证了跨模态推理的有效性。实验结果显示,当系统的不同代理协同工作时,其性能明显优于任何单一代理的表现。这证明了跨模态信息融合不是简单的信息叠加,而是产生了"一加一大于二"的协同效应。

四、突破性实验成果:在三大权威测试中全面领先

为了验证XR系统的实际效能,研究团队选择了三个在学术界广泛认可的标准测试集进行评估。这些测试集就像不同类型的驾照考试,每个都有自己的特点和难点,全面覆盖了组合图像检索的各种应用场景。

第一个测试环境是FashionIQ数据集,它专门针对时尚领域的图像检索任务。这个测试就像让系统参加一场专业的时装搭配考试,需要准确理解各种服装属性的细微差别。FashionIQ包含三个子类别:衬衫、连衣裙和上衣,每个类别都有自己独特的挑战。比如,对于衬衫类别,系统需要准确区分不同的领型、袖长和图案;对于连衣裙,则需要理解裙长、腰线和材质的差异。

在这个专业性很强的测试中,XR系统表现出了惊人的准确性。以CLIP-ViT-B/32作为基础架构时,系统在平均指标上达到了36.66%的R@10(前10个结果中包含正确答案的比例)和57.10%的R@50(前50个结果中包含正确答案的比例)。这个成绩比之前最好的方法提升了超过8个百分点,相当于从勉强及格跃升到良好水平。

更令人印象深刻的是,XR系统在所有三个服装类别中都实现了一致的性能提升。这表明系统的改进不是偶然现象,而是源于其本质上更优秀的理解和推理能力。就像一个真正优秀的学生,无论考什么科目都能取得好成绩,而不是只在某个特定领域表现突出。

第二个测试环境CIRCO数据集则提出了完全不同的挑战。这个数据集包含了大量的"干扰项"—— 那些看起来相关但实际上不符合要求的图片。这就像在一个嘈杂的派对上寻找特定的朋友,不仅要能识别目标特征,还要能排除大量相似但不正确的选项。

CIRCO测试还有一个独特之处:它允许多个正确答案存在,这更加贴近现实世界的搜索场景。毕竟,当你寻找"一件蓝色的T恤"时,可能存在多件都符合要求的衣服。在这种更加灵活但也更加复杂的评估环境中,XR系统依然表现出色,在mAP@50指标上达到了30.95%,比最佳基准方法提升了超过7个百分点。

第三个测试环境CIRR数据集被认为是最具挑战性的,因为它要求进行极其精细的候选筛选。这就像在一群长相相似的双胞胎中找出特定的一个,需要对细微差别有着敏锐的洞察力。CIRR不仅包含常规的检索任务,还有一个特殊的"子集检索"任务,这个任务就像从预选的一小群候选中挑出最终答案,难度极高。

在这个最严格的测试中,XR系统再次证明了其卓越性能。在CIRR子集检索任务中,系统达到了95.21%的R@3准确率,这意味着在绝大多数情况下,正确答案都会出现在系统给出的前三个推荐中。这个成绩不仅超越了所有对比方法,更重要的是达到了接近实用化的精度水平。

研究团队还进行了详细的组件分析实验,就像汽车工程师测试每个零部件对整车性能的贡献一样。实验结果显示,XR系统的每个组成部分都发挥了重要作用。单独的视觉相似度代理就能将R@10从14.78%提升到32.48%,这证明了视觉信息处理的重要性。当加入文本相似度代理后,性能进一步提升,显示了跨模态协作的价值。

最引人注目的发现是质疑代理的巨大贡献。当系统加入了文本和视觉质疑代理后,CIRR子集的R@3准确率最终达到了95.21%。这表明细致的验证过程对于消除错误匹配、确保结果准确性具有决定性作用。就像法庭审理案件时,不仅要有初步证据,更需要经过严格的质证过程才能得出可靠结论。

研究团队还测试了系统对不同参数设置的敏感性。实验发现,当使用3个验证问题时效果最佳,太少会遗漏重要细节,太多则会引入冗余信息。这个发现很有实际意义,说明系统能够在准确性和效率之间找到最佳平衡点。

五、技术细节的巧妙设计:让AI代理协作如行云流水

XR系统的成功不仅在于其创新的整体架构,更在于无数巧妙的技术细节设计。这些细节就像一部精密手表中的每个齿轮,看似微小但对整体性能至关重要。

首先是倒数排名融合技术的应用。传统的分数合并方法就像简单的算术平均,虽然直观但容易被极端值影响。而倒数排名融合就像奥运会的评分机制,它关注的不是绝对分数,而是相对排名。具体来说,系统会先将每个代理给出的分数转换成排名,然后使用公式RRF(a) = 1/(z + rank(s_a^t)) + 1/(z + rank(s_a^v))来计算最终排名。这里的z是一个平滑参数,研究团队通过实验发现当z=60时效果最佳。

这种设计的优雅之处在于它能够自动平衡不同评分标准的重要性。即使某个代理的评分范围与其他代理差异很大,排名融合也能确保每个代理的贡献得到公平体现。这就像让不同背景的专家组成评审团,虽然他们的评分习惯可能不同,但最终的排名结果会综合反映所有人的意见。

质疑机制的设计同样体现了研究团队的深厚功力。系统不是随意生成问题,而是基于用户的修改要求和想象阶段产生的信息精心构造验证问题。每个问题都采用真假判断的形式,比如"图片中的人是否穿着蓝色衣服?"这样的二元问题比开放式问题更容易获得准确和一致的答案。

更巧妙的是,系统为每个候选图片同时进行文本质疑和视觉质疑。文本质疑代理会分析候选图片的描述文字,而视觉质疑代理则直接"观察"图片本身。只有当两种质疑都给出正面答案时,候选图片才能获得满分。这种"双保险"机制大大提高了验证结果的可靠性,就像重要决策需要两个独立部门同时签字确认一样。

在跨模态信息融合方面,研究团队采用了一种称为"隐式耦合和显式解耦"的策略。简单来说,就是让不同模态的信息既能相互补充,又能保持各自的独特性。比如,文本想象代理生成的描述虽然是文字形式,但其中包含了来自视觉模态的隐含信息。同时,系统又能够明确区分哪些信息来自文本模态,哪些来自视觉模态,避免信息混淆。

系统的模块化设计也值得称赞。每个代理都有明确定义的输入输出接口,这使得系统具有很强的可扩展性和可维护性。如果需要针对特定应用场景进行优化,研究人员可以单独调整某个代理而不影响整个系统的运行。这种设计哲学就像搭积木一样,每个积木块都有标准的接口,可以灵活组合成各种结构。

在效率优化方面,XR系统采用了分层过滤的策略。粗筛阶段会快速处理大量候选图片,只保留最有希望的前k'个候选(研究中设置为100个)进入精查阶段。这种设计在保证全面覆盖的同时显著降低了计算成本,就像先用粗网打捞再用细网筛选的渔业作业方式。

研究团队还特别关注了系统的鲁棒性设计。通过使用多个不同的多模态大语言模型作为底层引擎,他们发现中等规模的模型(如InternVL3-8B和Qwen2.5VL-7B)能够在性能和效率之间取得最佳平衡。过小的模型理解能力不足,过大的模型虽然性能略好但成本过高,这个发现对实际应用具有重要的指导意义。

六、实际应用前景:从研究突破到生活改变

XR系统的成功不仅仅是学术界的一项技术突破,更重要的是它为众多实际应用场景打开了新的可能性。这项技术就像一把万能钥匙,能够解锁许多之前被技术限制束缚的应用领域。

在电子商务领域,XR系统将彻底改变在线购物的体验。传统的购物搜索就像在没有导购员的大型商场中自己寻找商品,消费者往往需要在搜索框中输入准确的关键词才能找到想要的物品。而有了XR系统,购物变得就像有一个非常聪明的私人助理在身边。你只需要说"我想要一件和这个类似但更正式一些的衬衫",系统就能准确理解你的意图并找到合适的商品。

这种智能搜索能力对于时尚电商平台尤其有价值。时尚是一个高度视觉化的领域,消费者的需求往往很难用简单的关键词描述清楚。比如,一个顾客可能喜欢某件连衣裙的款式但希望换个颜色,或者想找一双和现有鞋子风格相似但更适合正式场合的皮鞋。XR系统能够理解这些微妙的需求差异,为消费者提供更加精准的推荐。

在数字内容管理方面,XR系统同样具有巨大潜力。对于拥有海量图片库的媒体公司、广告代理商和内容创作者来说,快速找到符合特定要求的图片一直是个头疼的问题。传统的图片管理系统需要人工给每张图片添加详细标签,这不仅工作量巨大,而且很难涵盖所有可能的搜索需求。

有了XR系统,内容管理变得就像拥有了一个经验丰富的图片编辑。当编辑需要找一张"和这张类似但背景更简洁"的照片时,系统能够准确理解要求并从成千上万张图片中快速定位到合适的候选。这不仅大大提高了工作效率,还能激发创意工作者的灵感,因为他们可以更容易地探索不同的视觉可能性。

在教育和科研领域,XR系统也展现了独特价值。对于需要大量使用图像资料的学科,比如艺术史、生物学、医学等,研究人员经常需要寻找具有特定特征的参考图片。传统的搜索方法往往需要浏览大量不相关的结果,而XR系统能够理解复杂的学术搜索需求,比如"找一幅和这个类似但属于不同艺术流派的画作"或"寻找症状相似但病因不同的病例图片"。

社交媒体和内容平台也是XR系统的重要应用场景。随着用户生成内容的爆发式增长,平台需要更智能的内容发现机制来帮助用户找到感兴趣的内容。XR系统能够理解用户的个性化需求,比如"找一些和这个视频风格相似但更幽默的内容",从而提供更加精准的内容推荐。

从技术发展的角度来看,XR系统代表了人工智能向更高层次推理能力迈进的重要一步。它不再是简单的模式匹配或特征提取,而是具备了类似人类的分析、想象和验证能力。这种能力的提升对整个AI领域都有深远影响,可能会催生更多需要复杂推理的AI应用。

更令人兴奋的是,XR系统采用的多代理协作框架为未来的AI系统设计提供了新的思路。与追求单一模型的全能性不同,多代理系统通过专业化分工和协作来解决复杂问题,这种方法更接近人类团队合作的模式,也更容易实现和优化。

当然,要实现这些应用前景还需要解决一些技术和实践问题。比如,如何在保持高准确性的同时提高处理速度,如何适应不同领域的特殊需求,以及如何与现有系统无缝集成等。但XR系统已经为解决这些挑战提供了坚实的技术基础和明确的发展方向。

研究团队对XR系统的未来发展充满信心。他们认为,随着底层多模态大语言模型的持续改进和多代理协作机制的进一步优化,这种智能搜索技术将很快从实验室走向实际应用,为人们的数字生活带来切实的改善和便利。

结论部分可以这样自然地展开:说到底,XR系统最了不起的地方不在于它使用了多么高深的技术,而在于它真正理解了人类寻找图片时的思维过程。我们寻找目标图片时会先在脑海中想象,然后从多个角度评判,最后通过逻辑推理确认结果,XR系统就是按照这样的思路设计的。

归根结底,这项研究证明了一个重要观点:让AI更像人类思考,比让AI记住更多模式更有价值。传统的图像检索系统就像只会背书的学生,虽然记住了很多内容,但面对新问题时往往束手无策。而XR系统更像是学会了思考方法的学生,即使遇到从未见过的问题,也能运用逻辑推理找到答案。

这种从"记忆"到"推理"的转变对整个人工智能领域都具有深远意义。它告诉我们,未来的AI系统不应该只是更大、更复杂的数据库,而应该是能够灵活思考、协作推理的智能体。XR系统的多代理协作框架为这个方向提供了具体的实现路径,证明了这种思路的可行性和有效性。

对于普通人来说,XR系统预示着一个更加智能和便捷的数字生活。无论是在网上购物、管理照片,还是寻找学习资料,我们都将拥有更加聪明的AI助手,这些助手不仅能理解我们的明确需求,还能洞察我们的潜在意图。这就像从使用古老的图书目录卡片升级到拥有专业图书管理员的帮助。

当然,任何技术突破都不是终点,而是新的起点。XR系统目前主要针对图像和文字的组合搜索,未来还可能扩展到视频、音频等更多媒体类型。多代理协作的思想也可能被应用到其他AI任务中,比如自动驾驶、智能客服、科学发现等领域。

最重要的是,XR系统的成功提醒我们,真正有价值的AI技术不应该让人感到神秘和遥远,而应该像一个好朋友一样理解我们的需求,帮助我们解决实际问题。从这个角度来看,这项由赫瑞-瓦特大学研究团队完成的工作不仅是技术上的突破,更是朝着更人性化AI未来迈出的重要一步。

有兴趣深入了解这项技术细节的读者,可以通过论文标识码10.1145/3774904.3792276查找完整的学术论文,其中包含了更详细的实验数据、技术参数和实现方法。

Q&A

Q1:XR系统是什么?

A:XR系统是由赫瑞-瓦特大学开发的智能图像检索系统,它能像人类一样思考和推理来搜索图片。与传统方法不同,XR使用多个AI代理协作,包括想象代理、相似度代理和质疑代理,通过想象目标图像、粗筛候选和精细验证三个阶段来找到最符合要求的图片。

Q2:XR系统比传统图像搜索好在哪里?

A:传统图像搜索就像只会按图索骥的机械助手,而XR系统更像有经验的侦探团队。它能理解复杂的修改要求,比如"找一件和这个相似但颜色不同的衣服"。系统通过多个专业代理从不同角度分析同一问题,既看重整体匹配又关注细节验证,准确率比现有最佳方法提升最高达38%。

Q3:普通人什么时候能用上XR系统?

A:XR系统已经在学术测试中表现优异,特别适合电商购物、内容管理和教育科研等场景。由于它不需要专门训练就能工作,技术成熟度较高,预计很快就能从实验室走向实际应用,让我们在网购时能更准确地找到想要的商品,在管理照片时有更智能的助手。

来源:https://www.163.com/dy/article/KK4FLGII0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌翻译AI外语外教实测:每日学习督导机制详解
手机教程
谷歌翻译AI外语外教实测:每日学习督导机制详解

12 月 9 日消息,科技媒体 Android Authority 今天(12 月 9 日)发布博文,通过拆解谷歌翻译(Google Translate)安卓版 v9 29 安装包代码,发现了多项

热心网友
04.01
中关村论坛AR+AI翻译系统如何打破国际会议语言壁垒
科技数码
中关村论坛AR+AI翻译系统如何打破国际会议语言壁垒

中关村论坛参会人员佩戴眼镜照片(亮亮视野展台提供)本报(chinatimes net cn)记者张玫 北京报道3月27日,由中国残联、北京市政府主办,北京市残联承办的2026中关村论坛年会科技助残论

热心网友
04.01
甲骨文裁员数千人:AI投入巨大负债下的“回血”之路
业界动态
甲骨文裁员数千人:AI投入巨大负债下的“回血”之路

4月1日消息,经CNBC证实,甲骨文公司(Oracle)已开始向内部员工下发通知,计划裁员数千人。近期,甲骨文因豪赌人工智能基础设施建设而背负巨额资本开支,导致其股价大幅下挫,公司目前正设法应对这一

热心网友
04.01
高端人才为何选择上海?理想城市深度解析
科技数码
高端人才为何选择上海?理想城市深度解析

今年3月,杨浦区与字节跳动旗下火山引擎共建的火山工场开业,近10家数据标注企业入驻产业园。在人们惯有印象中,标注行业是赛博空间的“流水线”。给数据“打标签”的工作在线上就能完成,并不依赖具体哪座城

热心网友
03.31
东南大学团队ToolRosetta:编程工具如同搭积木般简单
科技数码
东南大学团队ToolRosetta:编程工具如同搭积木般简单

这项由东南大学、中山大学、浙江师范大学和伦斯勒理工学院联合开展的研究发表于2026年3月10日的arXiv预印本平台(论文编号:arXiv:2603 09290v1),研究团队开发了一个名为Tool

热心网友
03.31

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化
游戏资讯
《全面战争:中世纪3》:只怀旧做不成好游戏经典需要现代化

《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照

热心网友
04.02
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
科技数码
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀

雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战

热心网友
04.02
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验
科技数码
AWE探展MOVA:31款创新产品集中亮相 重新定义智慧生活新体验

借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动

热心网友
04.02
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情
游戏攻略
DNF2026冰结技能数据是怎样的-2026DNF冰结技能数据详情

冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让

热心网友
04.02
iPhone 18 Pro设计挤牙膏了 继续用前代模具
科技数码
iPhone 18 Pro设计挤牙膏了 继续用前代模具

iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消

热心网友
04.02