百度DuMate登顶PinchBench,超越Anthropic夺全球龙虾执行赛冠军
5月8日凌晨,智能体评测领域迎来里程碑式突破:百度推出的智能体框架“搭子”DuMate,在业界公认的权威基准PinchBench上成功登顶,并在榜单前五名中强势占据三席。这一成绩标志着其综合执行能力已超越Anthropic与OpenAI的同类模型,问鼎全球智能体执行力竞赛榜首。与此同时,在另一项聚焦深度研究能力的DeepResearch榜单中,DuMate同样表现卓越,位列第一。
登顶PinchBench:执行力见真章
PinchBench为何被视为衡量智能体真实工作能力的黄金标准?该基准通过高度仿真的23个办公场景与147项具体任务,全面考察智能体在多步骤复杂推理、精准工具调用及完整任务闭环方面的综合实力。其最终排名并非单一指标,而是综合考量任务成功率、执行速度与计算成本后的加权结果,极具参考价值。
最新榜单数据显示,DuMate以93.3%与93.2%的优异总成绩包揽前两名。相比之下,Anthropic与OpenAI的同类模型在相同评测条件下的成绩分别为89.0%与91.6%。这一对比清晰地揭示:即便基于相同的底层大模型,在DuMate先进的框架体系赋能下,也能显著激发出更强的任务执行潜力与稳定性。

技术内核:端云协同的Harness架构
那么,DuMate实现超越模型原生表现的技术核心是什么?答案在于其独创的“端云协同Harness架构”。该系统如同一个智能决策中枢:当用户发起任务时,它首先进行意图理解与隐私敏感度分析。涉及个人隐私的简单操作由本地设备高效处理,而需要复杂认知与海量计算的任务则无缝流转至云端完成,整个过程无需用户手动干预,体验流畅自然。
更为精妙的是,该架构具备“上下文按需组装”能力。它能依据任务语义,结合用户的历史行为偏好,智能预判并精准注入必要的背景信息,从而有效过滤无关干扰,使模型能够聚焦于核心决策逻辑。此外,Harness架构与其丰富的技能库能够基于历史执行数据进行持续迭代优化,确保各类底层大模型均能在接近其性能上限的状态下,实现稳定、高效的输出。
深度研究能力:双引擎驱动
除了强大的任务执行力,深度研究能力是评判智能体综合价值的另一关键维度。DeepResearch Bench正是目前对该能力覆盖最全面的评测体系,它从洞察深度、信息准确性、逻辑严谨性及内容可读性等多个层面,系统评估智能体处理复杂研究课题的综合水平。
DuMate能够以58.03的综合高分位居榜首,其背后依托的是自研技能体系中的“深度搜索”与“深度研究”双引擎协同机制。简而言之,“深度搜索”引擎扮演着顶尖信息侦察兵的角色,负责跨平台进行语义级检索与高价值信息精准定位;而“深度研究”引擎则在此基础上,进一步融合多轮推理与因果分析能力,如同一位专业研究员,将碎片化信息进行深度提炼、交叉验证与结构化整合,最终产出逻辑清晰、论据扎实的研究成果。

自2026年3月正式发布以来,DuMate保持着“一日一迭代”的快速更新节奏,持续优化用户体验与能力边界。在安全层面,其已成功通过中国信息通信研究院两项权威安全测评,并均获最高安全等级认证。这为其在追求极致效率与智能的同时,奠定了坚实可靠的安全基石。
相关攻略
当人工智能技术以前所未有的速度重塑全球产业格局时,一个核心议题正引发广泛关注:如何将这些尖端能力有效赋能公益事业,特别是在医疗健康与基础教育等关乎人类长远发展的关键领域?近期,一项具有里程碑意义的合作给出了重要回应——人工智能领军企业Anthropic与比尔及梅琳达·盖茨基金会联合宣布,将共同启动一
马斯克旗下xAI公司推出编程智能体GrokBuild,正式进军开发者市场。该工具处于早期测试阶段,面向付费用户,旨在通过理解复杂指令自动编程。xAI明确对标行业标杆Claude,正通过外部合作与内部优化加速追赶技术差距,近期与Cursor的战略合作有助于能力提升,但核心人员离职也为未来带来不确定性。
Anthropic公司高达90%的代码由其AI系统Claude编写,AI已深入核心业务流程。例如,财务报告生成时间从数小时缩短至约30分钟。AI并未取代人类,反而通过处理重复任务解放人力,使员工角色转向监督与决策。公司因此招聘更多员工,以审核AI产出并制定战略,推动工作性质升级与人机协同。
想象一下这样的场景:你身边有一位天赋卓越、知识储备惊人的智能助手,它能够快速处理海量信息,但在伦理边界与社会常识方面,却如同一张未经描绘的白纸。如果你向它询问某些敏感或具有潜在风险的制作方法,它可能会为了展示自己的信息完整性,不加筛选地将所有细节全盘托出。为了避免它在回应中产生误导或危害,研发人员不
5月中旬,一则消息在科技圈内引起了不小的波澜:英伟达的H200显卡在对华出口方面取得了关键进展。据透露,国内预计将有至少10家厂商采购总计约75万块该型号显卡。这对于英伟达而言,无疑是个积极的信号,意味着其AI生态体系在中国市场重新获得了实质性的支持。 然而,就在美国方面宣布对H200“开绿灯”之后
热门专题
热门推荐
近日,中国汽车流通协会联合精真估发布了《2026年4月纯电动车型一年车龄保值率排行榜》。这份数据对于正在选购新能源车的消费者具有重要参考价值,能帮助大家更清晰地了解当前热门电动车的残值表现。 该榜单统计的是车龄满一年的纯电动车型。位居榜首的是问界M9,其一年保值率高达80 4%。这一夺冠成绩含金量十
科技行业近期迎来一场备受瞩目的创新盛宴。以智能清洁机器人闻名的追觅科技(Dreame),在旧金山隆重举办了“Dreame Next 2026”未来愿景发布会。活动不仅前瞻性地展示了涵盖智能手机、智能穿戴乃至概念电动车的全系列产品,更邀请到苹果联合创始人史蒂夫·沃兹尼亚克亲临助阵。这场为期四天的盛会,
SpaceX最快下周披露招股书,6月初启动全球路演,估值或达1 75万亿美元,募资规模有望创纪录。公司以垂直整合与成本控制为核心优势,布局商业航天、AI基础设施与卫星互联网,其“太空数据中心”构想融合太空太阳能与AI算力,开辟新赛道。此次IPO或引发科技板块资金结构性变动,标志资本正加速拥抱太空与AI融。
NVIDIA在SIGGRAPH上宣布扩展其微服务库,以加速人形机器人开发。其核心是将生成式AI深度集成至OpenUSD语言体系,推出相关模型与NIM微服务,从而提升数字孪生与机器人工作流效率。公司还开放了机器人技术栈,并联合合作伙伴推动OpenUSD的工业应用,为开发者提供从仿真到部署的端到端平台支持。
OKX作为全球领先的数字资产交易平台,其风险主要来源于市场波动、技术安全与合规环境。平台通过多重安全机制、资产储备证明和严格的合规流程来管理风险。用户需理解加密货币的高波动性本质,并采取自主保管资产、启用安全功能等策略,以在参与Web3生态时更好地保护自身权益。





