苹果DeepMMSearch R1入局:多模态搜索终局已至?
苹果最近再次展现了其高产出能力!
近日,苹果在多模态网络搜索领域取得突破性进展,研发出一种新型多模态大语言模型赋能技术。这项创新有效解决了现有方法在动态信息处理和实时响应方面的局限性。
在现实应用场景中,多模态大语言模型需要调用外部知识源,并对瞬息万变的现实世界信息做出及时反应,以应对信息检索和知识密集型查询的挑战。当前主流技术如检索增强生成、搜索代理以及具备搜索功能的多模态大模型,往往受限于流程固化、搜索调用频繁以及查询构建不精准等问题,最终导致效率低下和结果不尽如人意。
为了突破现有技术瓶颈,苹果团队开发了DeepMMSearch-R1模型。该模型具备按需执行多轮网络搜索的能力,并能针对文本与图像搜索工具动态生成查询语句,具体流程如图1所示。该模型通过自我反思与自我修正机制,在多轮交互中自适应地优化文本搜索查询,同时利用检索内容作为反馈,结合原始问题持续改进搜索策略。

为了提升图像搜索效果,苹果引入了一个中间图像裁剪工具来应对背景噪声和干扰性视觉实体带来的挑战。在搜索过程中,DeepMMSearch-R1首先生成与问题最相关的视觉实体指代表述,随后利用该表述通过裁剪工具动态识别并截取图像中对应的区域。生成的裁剪图像随后被用于图像搜索,以检索与上下文更相关的结果。这种定向搜索方式显著提升了检索质量,并大幅提高了整体性能表现。
苹果采用两阶段训练流程:首先进行有监督微调,随后通过GRPO算法进行在线强化学习。这种训练方式旨在让模型学会在适当时机发起搜索、选择合适的工具、确定搜索内容,以及基于检索结果进行推理决策,从而判断下一步行动:是直接给出最终答案,还是进一步优化查询并开启新一轮搜索。
热门专题
热门推荐
MiniCPM-o 4 5是什么 在探索更自然、更智能的人机交互道路上,我们始终在期待一个“全能型选手”的到来。如今,这个角色或许已经登场。面壁智能最新开源的MiniCPM-o 4 5,一个仅拥有90亿参数的全模态大模型,正致力于重新划定“智能对话”的边界。 它彻底颠覆了传统一问一答的“对讲机”式交
Binance币安 欧易OKX ️ Huobi火币️ 想在2025年安全获取欧易OKX的正版APP?其实秘诀就一个:认准官方网站,避开所有仿冒和可疑的下载渠道。要知道,欧易现已统一更名为欧易OKX,其核心业务始终围绕数字资产交易及相关服务展开。 确认官方网站地址 第一步,打开浏览器,手动输入欧易OK
SecondMe Book是什么 在AI社交这一前沿赛道,一款国产平台正带来独特的解决方案。SecondMe Book,本质上是一个能够让你构建个人AI数字分身的创新平台。它允许用户创建一个能够代表真实自我风格与思维的AI数字身份,并让这个“第二自我”在一个专属的AI社交网络中自主运行——包括主动发
在AI大模型技术快速发展的今天,如何在卓越性能与高效推理成本之间取得最佳平衡,已成为行业关注的核心焦点。近期,由阶跃星辰推出的开源模型Step 3 5 Flash引发了广泛热议。该模型专为智能体(AI Agent)应用场景深度优化,旨在顶尖能力与亲民部署成本之间,构建一个极具竞争力的技术支点。 简而
LongCat-Flash-Lite是什么 在探索大语言模型性能与效率的最佳平衡点时,美团近期推出的LongCat-Flash-Lite提供了一个极具创新性的解决方案。作为新一代高效大语言模型,它凭借其突破性的架构设计,在人工智能领域获得了广泛关注。 简而言之,该模型创新性地融合了“混合专家系统(M





