游乐游手机版
首页/科技数码/文章详情

苹果DeepMMSearch R1入局:多模态搜索终局已至?

时间:2025-10-17 15:09
苹果最近真是「高产」! 这几天,苹果在多模态 web 搜索中发现了赋能多模态大语言模型(MLLM)的新解法。 在现实世界的应用中,MLLM 需要访问外部知识源,并对动态变化的现实世界信息进行实时

苹果最近再次展现了其高产出能力!

近日,苹果在多模态网络搜索领域取得突破性进展,研发出一种新型多模态大语言模型赋能技术。这项创新有效解决了现有方法在动态信息处理和实时响应方面的局限性。

在现实应用场景中,多模态大语言模型需要调用外部知识源,并对瞬息万变的现实世界信息做出及时反应,以应对信息检索和知识密集型查询的挑战。当前主流技术如检索增强生成、搜索代理以及具备搜索功能的多模态大模型,往往受限于流程固化、搜索调用频繁以及查询构建不精准等问题,最终导致效率低下和结果不尽如人意。

为了突破现有技术瓶颈,苹果团队开发了DeepMMSearch-R1模型。该模型具备按需执行多轮网络搜索的能力,并能针对文本与图像搜索工具动态生成查询语句,具体流程如图1所示。该模型通过自我反思与自我修正机制,在多轮交互中自适应地优化文本搜索查询,同时利用检索内容作为反馈,结合原始问题持续改进搜索策略。

为了提升图像搜索效果,苹果引入了一个中间图像裁剪工具来应对背景噪声和干扰性视觉实体带来的挑战。在搜索过程中,DeepMMSearch-R1首先生成与问题最相关的视觉实体指代表述,随后利用该表述通过裁剪工具动态识别并截取图像中对应的区域。生成的裁剪图像随后被用于图像搜索,以检索与上下文更相关的结果。这种定向搜索方式显著提升了检索质量,并大幅提高了整体性能表现。

苹果采用两阶段训练流程:首先进行有监督微调,随后通过GRPO算法进行在线强化学习。这种训练方式旨在让模型学会在适当时机发起搜索、选择合适的工具、确定搜索内容,以及基于检索结果进行推理决策,从而判断下一步行动:是直接给出最终答案,还是进一步优化查询并开启新一轮搜索。

来源:https://36kr.com/p/3512655193463942
上一篇美国区域银行危机重现?警惕信贷"蟑螂"扩散风险 下一篇人工智能如何重塑商业:专家门槛趋近于零的背后
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。