5月8日凌晨,智能体评测领域迎来里程碑式突破:百度推出的智能体框架“搭子”DuMate,在业界公认的权威基准PinchBench上成功登顶,并在榜单前五名中强势占据三席。这一成绩标志着其综合执行能力已超越Anthropic与OpenAI的同类模型,问鼎全球智能体执行力竞赛榜首。与此同时,在另一项聚焦深度研究能力的DeepResearch榜单中,DuMate同样表现卓越,位列第一。
登顶PinchBench:执行力见真章
PinchBench为何被视为衡量智能体真实工作能力的黄金标准?该基准通过高度仿真的23个办公场景与147项具体任务,全面考察智能体在多步骤复杂推理、精准工具调用及完整任务闭环方面的综合实力。其最终排名并非单一指标,而是综合考量任务成功率、执行速度与计算成本后的加权结果,极具参考价值。
最新榜单数据显示,DuMate以93.3%与93.2%的优异总成绩包揽前两名。相比之下,Anthropic与OpenAI的同类模型在相同评测条件下的成绩分别为89.0%与91.6%。这一对比清晰地揭示:即便基于相同的底层大模型,在DuMate先进的框架体系赋能下,也能显著激发出更强的任务执行潜力与稳定性。

技术内核:端云协同的Harness架构
那么,DuMate实现超越模型原生表现的技术核心是什么?答案在于其独创的“端云协同Harness架构”。该系统如同一个智能决策中枢:当用户发起任务时,它首先进行意图理解与隐私敏感度分析。涉及个人隐私的简单操作由本地设备高效处理,而需要复杂认知与海量计算的任务则无缝流转至云端完成,整个过程无需用户手动干预,体验流畅自然。
更为精妙的是,该架构具备“上下文按需组装”能力。它能依据任务语义,结合用户的历史行为偏好,智能预判并精准注入必要的背景信息,从而有效过滤无关干扰,使模型能够聚焦于核心决策逻辑。此外,Harness架构与其丰富的技能库能够基于历史执行数据进行持续迭代优化,确保各类底层大模型均能在接近其性能上限的状态下,实现稳定、高效的输出。
深度研究能力:双引擎驱动
除了强大的任务执行力,深度研究能力是评判智能体综合价值的另一关键维度。DeepResearch Bench正是目前对该能力覆盖最全面的评测体系,它从洞察深度、信息准确性、逻辑严谨性及内容可读性等多个层面,系统评估智能体处理复杂研究课题的综合水平。
DuMate能够以58.03的综合高分位居榜首,其背后依托的是自研技能体系中的“深度搜索”与“深度研究”双引擎协同机制。简而言之,“深度搜索”引擎扮演着顶尖信息侦察兵的角色,负责跨平台进行语义级检索与高价值信息精准定位;而“深度研究”引擎则在此基础上,进一步融合多轮推理与因果分析能力,如同一位专业研究员,将碎片化信息进行深度提炼、交叉验证与结构化整合,最终产出逻辑清晰、论据扎实的研究成果。

自2026年3月正式发布以来,DuMate保持着“一日一迭代”的快速更新节奏,持续优化用户体验与能力边界。在安全层面,其已成功通过中国信息通信研究院两项权威安全测评,并均获最高安全等级认证。这为其在追求极致效率与智能的同时,奠定了坚实可靠的安全基石。
