小红书剑桥联合推出HyperEyes多模态并行搜索智能体

首页

AI资讯

热心网友

转载

2026-05-21

多模态搜索领域，最近有个新玩家引起了不小的关注。小红书和剑桥大学联手，推出了一个名为HyperEyes的并行多模态搜索智能体。这名字听起来就挺“犀利”的，它的核心，在于做了一件碘伏性的事：把过去“先定位、再搜索”的两步走流程，彻底揉成了一个动作。

简单来说，传统方法就像让你在一张合影里找人，你得先一个个把人脸框出来，再挨个去数据库里比对。而HyperEyes的思路是，我一眼看过去，就能同时把所有人的信息都给找出来。它首创了一种叫“UGS”（统一有依据搜索）的范式，把视觉定位和检索这两个步骤融合成了一个“原子动作”。这意味着，它可以在单轮交互内，并发地定位并搜索图片中的多个实体。

为了实现这种高效率，团队祭出了一个“双粒度效率感知强化学习”框架。效果如何？数据说话：其30B参数版本在六个主流基准测试中，准确率比同规模最强的开源模型高出9.9%，而工具调用轮次却减少了惊人的5.3倍。这基本上是在准确率和效率之间，找到了一个相当漂亮的帕累托最优点。

HyperEyes的主要功能

这个智能体到底能干什么？我们拆开来看：

并行多模态搜索：这是它的看家本领。面对一张包含多个目标的图片，它不再需要像老式流水线那样，先裁剪再一个个串行搜索，而是可以单轮并发搞定所有。
统一有依据搜索：技术实现上的关键。它将视觉定位的“框”直接作为参数，嵌入到检索动作中。一次函数调用，就能携带多个目标框的信息出去搜索。
渐进式拒绝采样：为了训练出这种高效能力，团队设计了一套数据合成方法。通过在递增的轮次预算下提纯高效轨迹，构建了多达3万条、零冗余的并行种子数据。
双粒度效率感知RL：训练的核心机制。包含两部分：TRACE负责动态收紧轨迹级的效率标尺；OPD则在失败轨迹上，注入更精细的Token级纠正信号。
IMEB基准评估：为了公平衡量这类任务，项目还配套发布了一个包含300个实例的多实体视觉评测集，以及一个CAS评分体系，用来联合量化准确率和搜索效率。
多工具协同：它并非单打独斗，而是集成了图像搜索和文本搜索工具，支持同时获取视觉和文字两种证据。

HyperEyes的技术原理

光看功能可能觉得有点“黑箱”，我们稍微深入一下，看看它背后的技术逻辑是如何支撑起这些能力的：

UGS动作空间重构：这是根本性的改变。它将视觉定位从独立的前置步骤，转变为检索动作的内嵌参数，从物理层面打通了单轮多目标并发的通路。
并行数据合成流水线：巧妇难为无米之炊。团队通过拼接图片合成多实体查询场景，并基于知识图谱随机游走构造复杂的多约束问题，同时剔除那些有“捷径”可走的简单样本。
TRACE动态参考奖励：训练中的效率指挥棒。它用当前已知的最优轨迹作为动态标尺，只有模型表现得比这个标尺更高效时，才会给予奖励，而且这个标尺每轮都会自动收紧。
OPD非对称策略蒸馏：一种精准的纠错机制。当轨迹最终答错时，会启动一个更大的235B教师模型，为这段失败轨迹提供密集的、Token级别的监督信号，目的是保护模型已经学会的“高效并发”本能。
联合优化目标：训练时，通过GRPO方法，将轨迹级的效率奖励和Token级的蒸馏损失结合起来，同步优化策略网络的准确率和效率。
CAS成本感知评分：最终的衡量标准。采用一个特定的公式（Acc²×100/(N_tok+2N_tool+1)），将准确率、Token消耗和工具调用轮次统一到一个效率指标下，非常直观。

如何使用HyperEyes

如果你对这项技术感兴趣，想自己上手试试，大致可以遵循以下路径：

获取开源资源：代码和模型已在GitHub上开源。
准备基础模型：你需要下载并部署Qwen3-VL-30B或更大的235B版本作为视觉语言模型的主干。当然，前提是你的GPU显存足够支撑推理。
配置外部检索工具：智能体需要调用外部工具。你需要接入图像搜索和文本搜索的API（例如Bing Image Search或Google Custom Search），作为它执行并行搜索的“手和脚”。
输入多实体查询：使用时就简单了。上传一张包含多个实体的复杂图片，输入你的自然语言问题。接下来，HyperEyes会自动执行UGS，单轮并发定位并检索所有目标。
查看并行搜索结果：模型会返回结构化的结果，包括最终答案，以及为每个实体找到的视觉证据和文本证据。
评估搜索效率：你可以使用项目提供的CAS指标，来量化评估整个过程的综合效率，看看它到底省了多少事。

HyperEyes的核心优势

说了这么多，它到底强在哪里？与现有方案相比，优势是全方位且显著的：

效率飞跃：其30B版本平均工具调用轮次仅需2.2次，这相当于同规模最强开源模型效率的5倍以上（提升5.3倍）。
准确率领先：在六大基准上，准确率领先最强开源对手9.9%。其235B版本更是以仅1.1%的差距，逼近了谷歌的Gemini-3.1-Pro。
抗噪声鲁棒：并行策略有个附带好处，就是能规避过度检索产生的“幻觉”。在真假证据混合的测试中，其准确率提升了3.7%到5.8%。
消除错误级联：UGS范式彻底消除了对串行裁剪的依赖。这意味着，前置步骤的定位偏差，不会再像多米诺骨&牌一样污染后续所有的搜索结果。
帕累托最优：在准确率-效率的二维权衡曲线上，它实现了全面占优。其CAS评分达到了次优开源模型的7.6倍。
全栈效率重塑：它的高效不是某个单点优化，而是从动作空间设计、数据合成到强化学习训练的全栈底层重构，系统性地解决了“串行困局”。

HyperEyes的同类竞品对比

空口无凭，我们把它和市场上其他知名的视觉搜索智能体放在一起对比，差距一目了然：

对比维度	HyperEyes-30B	DeepEyes-V2	VDR
开发团队	小红书/剑桥大学	小红书	未公开
搜索范式	并行并发(UGS)	串行裁剪-搜索	串行深度搜索
平均工具轮次	2.2	3.6	11.6
6基准平均准确率	64.0%	39.1%	54.1%
IMEB准确率	46.7%	18.0%	21.2%
CAS效率评分	0.910	0.119	0.014
核心机制	TRACE+OPD双粒度RL	工具奖励激励	多轮深度推理
错误级联风险	免疫（原子动作）	高风险	中等风险