腾讯混元AI图像搜索突破港中大联合研究提升失败学习能力

时间：2026-05-13 07:56

这项由腾讯混元、加州大学洛杉矶分校、香港中文大学以及香港大学联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605 05185。研究背景：AI的“眼睛”不够用了想象一下，你手头有一张老照片，想弄清楚画面里的建筑是什么、有什么历史。光凭肉眼，信息有限；直接上网搜索，又不知

这项由腾讯混元、加州大学洛杉矶分校、香港中文大学以及香港大学联合开展的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.05185。

研究背景：AI的“眼睛”不够用了

想象一下，你手头有一张老照片，想弄清楚画面里的建筑是什么、有什么历史。光凭肉眼，信息有限；直接上网搜索，又不知从何下手。这恰恰是当前许多AI助手面临的困境：它们要么只会“看”，要么只会“搜”，很难将两者智能地结合起来。一旦遇到模糊、歪斜或低清晰度的图片，这些系统往往就束手无策了。

上述研究瞄准的正是这个痛点。团队将这类系统称为“多模态深度搜索智能体”——你可以把它看作一个同时配备了“眼睛”和“搜索引擎”的AI侦探。它不仅能解析图像内容，还能主动调用各种工具，一步步追查线索，直到找到答案。

不过，这个领域的发展存在一个明显的壁垒：那些表现顶尖的系统，大多掌握在少数大公司手中，其训练数据、方法流程几乎从不公开。这就好比一场厨艺比赛，参赛者只能看到精美的成品，却拿不到任何食谱。高校研究者和开源社区很难复现或改进这些系统，整个领域的进步因此受限。

为此，研究团队推出了OpenSearch-VL。这不仅仅是一个模型，更是一套完全开源的“完整食谱”，涵盖了训练数据、工具环境和训练算法的所有细节，目标就是让任何人都有能力复现，甚至超越顶级商业系统的表现。

一、训练一个AI侦探，最难的不是算法，而是“案例库”

培养一名优秀的侦探，光讲理论是没用的，必须得有大量真实且棘手的案件供其历练。对AI而言，这就是“训练数据”。但现有的数据集普遍存在一个致命缺陷：题目太简单了。

很多数据集里的问题，AI只需看一眼图、搜一下图就能直接得到答案，根本不需要推理。这就像给侦探练手的全是“监控录像直指凶手”的案子——练得再多，也学不会真正的侦查思维。

研究团队设计了一套精妙的数据构造流程，核心目标就是堵住这些“捷径”。整个过程可以理解为四个关键步骤。

首先是维基百科路径采样。团队把维基百科视作一张巨大的知识地图，文章是地点，超链接是道路。从某个起点出发，沿着链接随机走2到4步，就能形成一条“知识路径”。例如，从“澳大利亚动物园”出发，通过“由谁管理”链接到“史蒂夫·欧文”，再通过“配偶是谁”链接到“特瑞·欧文”，最终的问题可能就是：“特瑞·欧文是哪年成为澳大利亚公民的？”答案是2009年11月20日。

接着是模糊实体改写。如果问题里直接出现实体名称，AI搜索一下就能找到答案，完全绕过了中间的推理步骤。为了堵住这个漏洞，团队会把路径中的实体名称替换成描述性短语。比如，“史蒂夫·欧文”被改写为“那位1991年接管这家动物园的人”，而“澳大利亚动物园”则在最后被一张真实的图片所取代。于是，问题变成了：“图片中这家动物园里，1991年接管它的那个人的妻子，是哪年成为澳大利亚公民的？”这样一来，AI必须先识别图片中的动物园，再追查管理者，最后找到其配偶，才能得出答案。

为了确保改写准确无误，团队设定了三条严格的检验标准：答案必须与改写前完全一致；描述必须在全球范围内唯一指向某个实体；问题中不能出现任何原始实体的名称或别名。

第三步是视觉锚定。每条路径的起点都会被替换成一张具有代表性的真实图片（例如澳大利亚动物园的入口照片），并通过图文相似度算法筛选出最匹配的候选图。这使得视觉信息成为推理链条中不可跳过的第一环，AI必须先“看懂”图，才能开始后续的文字追查。

最后是两阶段难度过滤。构造好的问题还需经过两轮筛选：第一轮，淘汰那些AI不借助任何工具、仅凭自身记忆就能答对的问题；第二轮，淘汰那些只需一次图片搜索就能解决的问题。只有真正需要多步推理、跨工具协作的难题，才会最终进入训练集。

此外，团队还专门准备了10%的数据，对其中的图片进行人为降质处理——比如故意模糊、压缩或扭曲——并配以相应的图像修复工具使用示范。这批数据专门用于训练AI形成“遇烂图，先修图”的本能，而不是一遇到质量差的图片就直接放弃。

经过这套严苛的流程，团队最终生成了36,592条高质量的专家轨迹数据用于有监督微调，以及8,000条专门用于强化学习的训练样本。每条专家轨迹平均包含6.3次工具调用，完整覆盖了从看图、裁剪、增强到搜索的推理全过程。

二、给AI侦探配备一套完整的“侦查工具箱”

现实中的线索往往并不完美：监控录像可能模糊，文件可能拍歪，关键信息可能藏在图表的角落。因此，一个合格的AI侦探，除了搜索能力，还需要一套应对各种情况的“侦查工具箱”。

OpenSearch-VL配备了七种工具，分为三大类。

第一类是负责获取外部情报的检索工具。文本搜索工具的工作流程类似专业情报分析：先通过搜索引擎找到相关网页，再用阅读工具提取内容，最后由一个大语言模型将内容压缩成简洁摘要。图片搜索工具则专攻“以图识图”，输入一张图片，返回视觉上相似的图片及相关网页信息，常用于识别不知名的地标、人物或物品。

第二类是负责修复问题证据的图像增强工具。锐化工具通过算法去除图片模糊感，如同给失焦的照片重新对焦。超分辨率工具利用深度学习模型，将低分辨率图片放大（默认4倍），让充满马赛克的缩略图变得清晰可读。透视矫正工具专门对付“歪斜”的图片，比如随手拍摄的文件或标牌，通过检测边缘并计算透视变换，将其“掰正”。

第三类是负责精确解读证据的感知与解析工具。裁剪工具可以将图片中的特定区域截取并放大观察，就像侦探使用放大镜。OCR工具能读取图片中的文字，并保留文档的层级结构（如标题、正文），而非简单输出混杂的文本。

这七种工具的组合，让AI侦探面对各种“烂证据”时都能从容应对：遇到倾斜的文件，先矫正再OCR；遇到模糊的Logo，先锐化再裁剪；遇到不认识的图标，先图片搜索再文字搜索核实。

三、训练一个会从失败中学习的侦探：Fatal-Aware GRPO算法

有了高质量的案例和完善的工具，下一个核心问题便是：如何让AI真正“学会”使用这些工具？

研究团队采用了两阶段训练策略。第一阶段是有监督微调——相当于让AI侦探研读36,592份专家破案记录，一步步模仿专家的推理和工具调用。这个阶段奠定了扎实的基础。

但仅靠模仿是不够的。模仿只能学会“见过的操作”，无法应对“新的情况”。因此，第二阶段是强化学习——让AI在真实的工具环境中自主探索、试错，通过奖励和惩罚来优化其行为策略。

然而，在多工具、多步骤的场景下进行强化学习，挑战巨大。核心难题在于“连环失败”：一旦AI在某一步调用工具时出错（如格式错误、网络超时），后续的所有推理步骤都将失去意义。这好比侦探在调查中途丢失了关键证据，之后的所有推断都成了空中楼阁。

处理这种失败，有两种极端方式都有缺陷。一种是“直接丢弃”：只要尝试失败，就整个抛弃。这浪费了失败前的所有有效推理。另一种是“照单全收”：将整个失败过程（包括失败后的混乱推理）都用于训练。这等于把噪音当信号，让AI学到错误模式。

研究团队提出了一个更聪明的方案：“致命感知GRPO”算法。该方案包含两个核心机制。

第一个机制是致命状态检测与遮蔽。系统会监控每次尝试中的工具调用错误。如果连续出现3次错误，则判定该尝试进入“致命状态”，并记录下“致命步骤索引”。对于这类尝试，系统会保留失败前的所有推理过程，但将失败后的内容遮蔽，不参与后续计算。这就好比评价一名侦探时，肯定他在迷路前走过的正确路径，但不将迷路后乱走的路程计入评分。

第二个机制是单侧优势截断。在强化学习中，AI的多次尝试会被统一评分，并计算“优势值”（即本次尝试比平均水平好多少或差多少）。对于正常完成的尝试，优势值可正可负。但对于进入致命状态的尝试，负的优势值会带来一个危险副作用：它会暗示AI“你在失败前走的步骤也是错的”，即使那些步骤本身合理。

单侧截断的做法是：对于致命尝试，只保留正优势（优于平均水平时才给予鼓励）；如果优势是负数，则直接设为零，不施加惩罚。换句话说，失败前的好推理会在合适时得到奖励，但绝不会因为后续的失败而受到牵连。从数学上可以证明，这种机制在信息量上严格优于直接丢弃失败尝试的方案：它既不传递噪音，又比丢弃方案保留了更多有效的学习信号。

除了这两个机制，团队还设计了一个三维复合奖励函数来综合评价每次尝试。格式奖励检查输出是否符合规范（如思考过程标签、工具调用格式），一旦格式错误，总分直接清零。准确度奖励由GPT-4o担任裁判，根据最终答案与标准答案的语义一致性给出0或1的评分。查询质量奖励则由更强的GPT-5.4模型担任评委，在0到1之间连续打分，评估整个搜索过程的质量，包括查询的针对性、搜索步骤的递进性、图文搜索的互补性以及信息提取效率。对于致命尝试，这位评委只评价失败前的部分，避免后续混乱拉低对前期工作的评价。

四、实际表现：开源“食谱”做出了媲美商业大厨的水准

研究团队在七个知识密集型测试集上对OpenSearch-VL进行了全面评估，任务类型覆盖视觉实体识别、多跳推理和长尾问答等。

以中等规模的30B-A3B模型版本为例，与同规模的基础模型相比，OpenSearch-VL的平均得分从47.8提升至61.6，涨幅超过13个百分点。具体到任务：在MMSearch（多模态搜索引擎评测）上提升24.5个百分点；在InfoSeek（知识密集型图文问答）上提升16.2个百分点；在VDR（视觉深度研究基准）上提升13.3个百分点；在FVQA（基于事实的视觉问答）上提升10.2个百分点。

更大的32B版本表现更为突出，平均得分达到63.7，在多项指标上超越了谷歌的Gemini-2.5-Pro和Anthropic的Claude-4-Sonnet等商业系统。即便是相对轻量的8B版本，平均得分也有56.6，超过了此前同规模最强的开源智能体近4个百分点。

消融实验进一步验证了每个设计环节的必要性。去掉“视觉锚定”，平均得分下降11.5个百分点；去掉“模糊实体改写”，下降10.3个百分点；去掉“两阶段难度过滤”，下降8.2个百分点。每一项关键设计都贡献了可观的性能提升。

在训练方法对比上，与不进行强化学习相比，加入普通GRPO强化学习能带来约3个百分点的提升；加入致命遮蔽机制可再提升1.5个百分点；而在此基础上加入单侧截断机制，总共能带来4.2个百分点的提升。从训练曲线也能明显看出差异：使用致命感知GRPO训练的模型，在训练中平均尝试步骤更多（探索更积极），同时准确率上升更快、更稳定。

结语：一本终于公开的“顶级食谱”

归根结底，这项研究的价值在于，它将原本仅由少数大公司掌握的“秘密武器”进行了彻底的拆解与公开。

从训练数据的设计思路、工具环境的搭建细节，到强化学习算法的数学推导，每一块积木都清晰地呈现出来，任何人都可以据此重建。这对于推动AI领域的开放研究而言，其意义不亚于将顶级餐厅的招牌菜食谱公之于众。

当然，研究也坦诚指出了当前的几点不足：工具调用的稳定性依赖外部API（如网络搜索、OCR接口），这些服务的延迟或故障会导致训练过程出现随机波动；奖励函数的评价仍依赖商业大语言模型，成本较高，且目前尚无法对裁剪、增强等视觉操作过程进行细致评估；由于实验规模和成本限制，论文也未提供多次重复实验的误差范围。将开放奖励模型的替代方案和完善视觉过程评估列为未来的重要方向。

对于所有关注AI如何更智能地理解图像并主动获取信息的研究者与开发者来说，这套开源资源提供了一个坚实的起点。所有模型、数据集和训练代码均已公开。

Q&A

Q1：OpenSearch-VL和普通的图片识别AI有什么区别？

A：普通图片识别AI通常只能根据图片内容给出直接答案，而OpenSearch-VL是一个能主动“调查”的智能体。它面对图片时，会先理解内容，然后根据需要调用裁剪、增强、搜索等多种工具，一步步追查答案，其工作模式更像侦探破案，而非简单的看图说话。

Q2：Fatal-Aware GRPO算法和普通强化学习有什么区别？

A：普通强化学习处理失败尝试时，要么直接丢弃（浪费失败前的有效推理），要么全部用于训练（将失败后的噪音也当作信号）。Fatal-Aware GRPO的巧妙之处在于：它保留失败前的有效推理并遮蔽失败后的无效内容；同时确保失败前的好推理只受到奖励，而不会因为后续的失败受到惩罚。

Q3：OpenSearch-VL的训练数据是怎么保证“足够难”的？

A：研究团队设计了两层过滤机制。第一层，过滤掉AI不借助任何工具、仅凭自身记忆就能答对的问题；第二层，过滤掉只需一次图片搜索就能解决的问题。只有那些真正需要视觉识别、多步推理和跨工具协作才能解答的难题，才会进入最终训练集，从而确保AI在训练中无法走“捷径”。

来源：https://www.163.com/dy/article/KSOQITE80511DTVV.html

腾讯混元

上一篇中科大快手联合研发AI视频评分系统实现先思考后打分 下一篇谷歌或将Chromebook更名为ChromeOS电脑

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。