苹果最近再次展现了其高产出能力!
近日,苹果在多模态网络搜索领域取得突破性进展,研发出一种新型多模态大语言模型赋能技术。这项创新有效解决了现有方法在动态信息处理和实时响应方面的局限性。
在现实应用场景中,多模态大语言模型需要调用外部知识源,并对瞬息万变的现实世界信息做出及时反应,以应对信息检索和知识密集型查询的挑战。当前主流技术如检索增强生成、搜索代理以及具备搜索功能的多模态大模型,往往受限于流程固化、搜索调用频繁以及查询构建不精准等问题,最终导致效率低下和结果不尽如人意。
为了突破现有技术瓶颈,苹果团队开发了DeepMMSearch-R1模型。该模型具备按需执行多轮网络搜索的能力,并能针对文本与图像搜索工具动态生成查询语句,具体流程如图1所示。该模型通过自我反思与自我修正机制,在多轮交互中自适应地优化文本搜索查询,同时利用检索内容作为反馈,结合原始问题持续改进搜索策略。

为了提升图像搜索效果,苹果引入了一个中间图像裁剪工具来应对背景噪声和干扰性视觉实体带来的挑战。在搜索过程中,DeepMMSearch-R1首先生成与问题最相关的视觉实体指代表述,随后利用该表述通过裁剪工具动态识别并截取图像中对应的区域。生成的裁剪图像随后被用于图像搜索,以检索与上下文更相关的结果。这种定向搜索方式显著提升了检索质量,并大幅提高了整体性能表现。
苹果采用两阶段训练流程:首先进行有监督微调,随后通过GRPO算法进行在线强化学习。这种训练方式旨在让模型学会在适当时机发起搜索、选择合适的工具、确定搜索内容,以及基于检索结果进行推理决策,从而判断下一步行动:是直接给出最终答案,还是进一步优化查询并开启新一轮搜索。
