首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
小红书与剑桥联合推出HyperEyes并行多模态搜索智能体

小红书与剑桥联合推出HyperEyes并行多模态搜索智能体

热心网友
21
转载
2026-05-21
HyperEyes:重新定义多模态搜索的并行智能体

在AI智能体领域,一个长期存在的效率瓶颈在于“看”与“查”的割裂。传统方法需要先裁剪图片中的目标,再逐一搜索,过程繁琐且容易出错。如今,一项名为HyperEyes的技术,正试图从根本上碘伏这一流程。

它由小红书与剑桥大学联合推出,其核心在于一个首创的“UGS范式”。简单来说,它把视觉定位和检索这两个步骤,融合成了一个单一的“原子动作”。这意味着,面对一张包含多个实体的复杂图片,模型可以在单轮交互内,并发地定位并搜索所有目标。这不仅仅是流程上的优化,更是一种底层范式的重构。

HyperEyes – 小红书联合剑桥推出的并行多模态搜索智能体

HyperEyes是什么

HyperEyes是一个并行多模态搜索智能体。它的最大亮点是提出了UGS(统一有依据搜索)范式,将视觉定位与检索融合为单一动作,从而实现了单轮多实体并发搜索。在技术实现上,它采用了双粒度效率感知强化学习框架进行训练。效果如何?其30B参数的版本在6个主流基准测试中,准确率超越了同规模最强的开源模型9.9%,而工具调用轮次更是减少了惊人的5.3倍,真正在准确率与效率之间达到了帕累托最优。

HyperEyes的主要功能

那么,这个智能体具体能做什么?它的功能设计完全围绕“并行”与“高效”展开:

  • 并行多模态搜索:这是核心。传统串行“裁剪-搜索”流程被彻底抛弃,取而代之的是在单轮内并发定位并检索图片中的多个实体。
  • 统一有依据搜索:视觉定位框不再是独立步骤,而是直接嵌入到检索动作的参数中。一次函数调用,就能携带多个目标框信息出去搜索。
  • 渐进式拒绝采样:用于构建高质量训练数据。方法是在递增的轮次预算下,提纯出高效的行动轨迹,最终构建了3万条零冗余的并行种子数据。
  • 双粒度效率感知RL:训练框架的两大支柱。TRACE负责在轨迹级别动态收紧效率标尺;OPD则负责在失败轨迹上注入Token级别的纠正信号。
  • IMEB基准评估:为了公正评估,团队发布了包含300个实例的多实体视觉评测集,并配套了CAS评分,用以联合量化准确率与搜索效率。
  • 多工具协同:它并非单打独斗,而是集成了图像搜索与文本搜索工具,支持同时获取视觉和文字两种证据。

HyperEyes的技术原理

实现上述功能,背后是一套精巧的技术设计。理解其原理,就能明白它为何能突破效率瓶颈:

  • UGS动作空间重构:这是基石。将视觉定位从独立的前置步骤,转化为检索动作的内嵌参数,从物理层面打通了单轮多目标并发的通路。
  • 并行数据合成流水线:巧妇难为无米之炊。通过多类图片拼接来合成多实体查询场景,并基于知识图谱随机游走构造复杂的多约束问题,同时剔除那些有“捷径”可走的简单样本。
  • TRACE动态参考奖励:训练中的效率“教练”。它以当前已知的最优轨迹为动态标尺,只有模型表现得比这个标尺更高效时,才会给予奖励,并且每轮自动收紧标准,推动模型不断进化。
  • OPD非对称策略蒸馏:训练中的精准“纠错”。当轨迹最终答错时,会启动一个235B参数的“教师模型”,为这段失败轨迹提供密集的Token级监督,目的是保护模型已经学会的高效并发本能,只修正错误部分。
  • 联合优化目标:采用GRPO方法,结合轨迹级的效率奖励和Token级的蒸馏损失,同步优化策略网络的准确率与效率,两手抓,两手都要硬。
  • CAS成本感知评分:评估的“指挥棒”。其公式为 Acc²×100/(N_tok+2N_tool+1),巧妙地将准确率、Token消耗和工具调用轮次统一为一个综合效率指标,引导模型向真正实用的方向发展。

如何使用HyperEyes

如果你对这项技术感兴趣,想要亲自尝试,可以遵循以下步骤:

  • 获取开源资源:项目已在GitHub上开源,仓库地址为 https://github.com/DeepExperience/HyperEyes 。
  • 准备基础模型:需要下载并部署Qwen3-VL-30B或235B作为视觉语言模型的主干网络,并确保GPU显存满足相应的推理需求。
  • 配置外部检索工具:接入图像搜索与文本搜索的API(例如Bing Image Search、Google Custom Search),这些将作为智能体执行UGS并行搜索的外部工具。
  • 输入多实体查询:上传一张包含多个实体的复杂图片,并输入自然语言问题。HyperEyes会自动执行UGS搜索,单轮并发定位并检索所有目标。
  • 查看并行搜索结果:模型会返回结构化的检索结果与最终答案,其中包含每个实体的视觉证据与文本证据。
  • 评估搜索效率:可以使用前述的CAS(成本感知评分)指标,来量化评估整个过程的准确率、Token消耗与工具调用轮次的综合效率。

HyperEyes的核心优势

与现有方案相比,HyperEyes的优势是全方位的,主要体现在以下几个维度:

  • 效率飞跃:其30B版本平均工具调用轮次仅需2.2次,这仅仅是同规模最强开源模型的五分之一,实现了5.3倍的效率提升。
  • 准确率领先:在6个基准测试上,它超越了最强的开源同规模模型9.9%。其235B版本更是以仅1.1%的微小差距,逼近了Gemini-3.1-Pro的水平。
  • 抗噪声鲁棒:并行策略有效规避了过度检索导致的幻觉问题。在真假证据混合的测试中,其准确率提升了3.7%到5.8%。
  • 消除错误级联:UGS范式彻底消除了对串行裁剪的依赖,这意味着前置的定位偏差不会再污染后续的搜索结果,从根本上切断了错误传递链。
  • 帕累托最优:在准确率-效率的联合优化前沿上,它实现了全面占优,其CAS评分达到了次优开源模型的7.6倍。
  • 全栈效率重塑:这不是某个模块的修修补补,而是从动作空间定义、数据合成到强化学习训练的全栈底层重构,系统性地解决了串行困局。

HyperEyes的项目地址

  • GitHub仓库:https://github.com/DeepExperience/HyperEyes
  • arXiv技术论文:https://arxiv.org/abs/2605.07177

HyperEyes的同类竞品对比

口说无凭,我们将其与市场上同类型的智能体放在一起对比,优势便一目了然:

对比维度 HyperEyes-30B DeepEyes-V2 VDR
开发团队 小红书/剑桥大学 小红书 未公开
搜索范式 并行并发(UGS) 串行裁剪-搜索 串行深度搜索
平均工具轮次 2.2 3.6 11.6
6基准平均准确率 64.0% 39.1% 54.1%
IMEB准确率 46.7% 18.0% 21.2%
CAS效率评分 0.910 0.119 0.014
核心机制 TRACE+OPD双粒度RL 工具奖励激励 多轮深度推理
错误级联风险 免疫(原子动作) 高风险 中等风险

HyperEyes的应用场景

如此强大的并发搜索能力,能用在哪些地方?其应用场景非常广泛:

  • 多人物视觉推理:识别合影中特定人物的身份、职业与历史事件,并发检索多人的生平信息。
  • 电商商品比对:对包含多个商品的复杂场景图进行并发搜索,一次性获取所有商品的价格、品牌与用户评价信息。
  • 跨模态知识问答:回答涉及图片中多个物体、地标、艺术品之间关系的复杂查询,例如“这幅画中左侧的雕塑和右侧的建筑分别建于什么时代?”。
  • 新闻事实核查:对包含多人物、多场景的新闻图片进行并发检索,快速验证事件真实性、人物身份及背景信息。
  • 学术图表解析:对论文截图中的多个图表、公式、引用进行并行定位与内容检索,辅助快速阅读和理解。
  • 社交媒体审核:对复杂图片中的多个实体(如文字、logo、人物)进行并发搜索,快速判断是否存在违规或误导性内容。

总的来说,HyperEyes不仅仅是一个效率更高的工具,它代表了一种解决多模态搜索问题的新思路。通过将定位与检索原子化,它打破了串行处理的固有范式,为AI智能体在复杂现实场景中的实用化,推开了一扇新的大门。

来源:https://ai-bot.cn/hypereyes/
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Vidu制作竖屏9比16视频教程 适配抖音小红书发布
AI资讯
Vidu制作竖屏9比16视频教程 适配抖音小红书发布

制作竖屏视频需遵循四个关键步骤。首先,新建项目时直接设置画布为1080×1920。其次,处理横屏素材可通过缩放填充并添加背景。再次,利用AI智能竖构图功能自动跟踪主体。最后,导出时锁定分辨率与宽高比,并选择对应平台预设。

热心网友
05.21
小红书与剑桥联合推出HyperEyes并行多模态搜索智能体
AI资讯
小红书与剑桥联合推出HyperEyes并行多模态搜索智能体

HyperEyes:重新定义多模态搜索的并行智能体 在AI智能体领域,一个长期存在的效率瓶颈在于“看”与“查”的割裂。传统方法需要先裁剪图片中的目标,再逐一搜索,过程繁琐且容易出错。如今,一项名为HyperEyes的技术,正试图从根本上碘伏这一流程。 它由小红书与剑桥大学联合推出,其核心在于一个首创

热心网友
05.21
小红书剑桥联合推出HyperEyes多模态并行搜索智能体
AI资讯
小红书剑桥联合推出HyperEyes多模态并行搜索智能体

多模态搜索领域,最近有个新玩家引起了不小的关注。小红书和剑桥大学联手,推出了一个名为HyperEyes的并行多模态搜索智能体。这名字听起来就挺“犀利”的,它的核心,在于做了一件碘伏性的事:把过去“先定位、再搜索”的两步走流程,彻底揉成了一个动作。 简单来说,传统方法就像让你在一张合影里找人,你得先一

热心网友
05.21
小红书进军娱乐行业能否建立新秩序面临哪些挑战
AI资讯
小红书进军娱乐行业能否建立新秩序面临哪些挑战

3月27日,四川峨眉山。 小红书在此举办了第二届REDGALA年度娱乐盛典。相较于去年杭州首秀的春日游园会风格,今年的活动全面升级,选址峨眉山云上剧场,规模与野心同步放大。 为期两天的活动,不仅包含了面向大众的沉浸式IP展览,也设置了面向行业内部的娱乐伙伴圆桌会议及颁奖典礼。其意图非常明确:小红书希

热心网友
05.20
小红书发布AI治理框架与生态规范
AI资讯
小红书发布AI治理框架与生态规范

AI技术正全面变革内容创作生态。对于内容创作者而言,AI不仅是突破创作瓶颈、激发灵感的强大助手,同时也引发了关于内容真实性及社区氛围维护的新挑战。 今日,小红书正式发布其「AI治理主张」,为平台内AI技术与内容创作的深度融合明确了规范与方向。该主张主要围绕三个核心层面展开,彼此协同,共同构建健康的创

热心网友
05.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

加密货币市场全线重挫超160万人爆仓原因与应对策略
web3.0
加密货币市场全线重挫超160万人爆仓原因与应对策略

加密货币市场剧烈震荡,比特币等主流币种价格集体下挫,导致超160万投资者被强制平仓。此次暴跌由宏观紧缩、高杠杆连锁平仓及市场恐慌情绪共同引发,形成下跌与抛售相互强化的恶性循环。建议通过降杠杆、设止损及分散资产组合以应对风险。

热心网友
05.23
币安官网安全登录入口 最新官方网址一键直达注册与交易
web3.0
币安官网安全登录入口 最新官方网址一键直达注册与交易

币安Binance官方APP下载与使用全指南 说起全球领先的加密货币交易平台,币安(Binance)无疑是许多用户的首选。它为用户提供安全、便捷的数字资产交易服务,支持多种主流加密货币,并涵盖了现货交易、合约交易、理财等丰富的金融产品。下面这份指南,将手把手带你完成从下载到开始使用的全过程。 币安B

热心网友
05.23
瑞波币XRP价格跌破3美元后走势分析 未来还会继续下跌吗
web3.0
瑞波币XRP价格跌破3美元后走势分析 未来还会继续下跌吗

目录 要点介绍:XRP走势预警:15%回调或将触发超5亿美元多头仓位面临清算风险 一个关键信号正在浮现:在2 89至2 73美元区间,聚集了超过5亿美元的多头清算资金。这意味着,如果XRP无法重返3美元上方,市场或将面临大规模抛压的考验。 要点介绍: 当前局面相当清晰:若XRP失守3美元这一关键心理

热心网友
05.23
止损单与限价止损单详解:类型区别、使用场景及优缺点全解析
web3.0
止损单与限价止损单详解:类型区别、使用场景及优缺点全解析

止损单与限价止损单是两种重要的交易工具。止损单在价格达到预设水平时自动转为市价单,能有效控制亏损但可能产生滑点。限价止损单则结合了限价单特性,在触发后以限定价格成交,可避免滑点但存在无法成交的风险。两者各有适用场景,投资者需根据市场状况与交易目标合理选择。

热心网友
05.23
2025年币安Binance官网最新入口 官方认证安全访问地址
web3.0
2025年币安Binance官网最新入口 官方认证安全访问地址

本文针对2025年币安官网地址查询需求,提供了三种优化标题方案:直接询问具体操作步骤、回应寻找过程中的常见疑虑,以及采用口语化表达进行可靠引导。用户可根据自身平台特点与目标受众选择适用方案。

热心网友
05.23