AgentIF-OneDay发布全场景长时复杂任务评估_AI热点日报

AgentIF-OneDay发布全场景长时复杂任务评估

类型：热点整理2026-06-07

红杉中国最近亮出了一套全新的评测体系——AgentIF-OneDay。这个动作，有一个很务实的意图：重新衡量Agent在长时间复杂任务中的真实水平，看看它到底能不能从“提问助手”进化成真正的“数字员工”。当Agent遇上“一天的工作” 大模型在单点推理上，已经在向PhD的水平快速靠拢了。但Agen

红杉中国最近亮出了一套全新的评测体系——AgentIF-OneDay。这个动作，有一个很务实的意图：重新衡量Agent在长时间复杂任务中的真实水平，看看它到底能不能从“提问助手”进化成真正的“数字员工”。

AgentIF-OneDay发布，评估全场景长时复杂任务

当Agent遇上“一天的工作”

大模型在单点推理上，已经在向PhD的水平快速靠拢了。但Agent领域却迎来了一道分水岭：短程任务表现惊艳，长程任务却总是力不从心。红杉中国内部的研究团队xbench，接连在两周内发布了两篇论文，核心目标很明确——通过构建更科学的评估基准，预判技术演进的真实方向。

核心理念其实很清晰：一是短时任务与长时任务之间那道能力鸿沟；二是Scaling Context和Scaling Domain两个关键方向；三是一个全新的视角，把任务复杂度和它的经济价值挂上钩。

自从xbench推出ScienceQA与DeepSearch以来，这两个评测集已经迭代了好几个版本。无论是模型本身，还是基于模型构建的Agent系统，在分钟级集中推理任务上已经相当稳定，从最初的human-a verage水平，慢慢逼近了PhD-level。

但问题也随之而来。进入Agent能力评测的深水区后，会发现短时任务与长时任务之间的能力鸿沟是真实存在的。即便单点推理和局部任务水平很高，一旦任务复杂度突破一个人一小时能搞定的范围，Agent的整体完成度就会明显下降。

xbench一直坚持一个判断：更好的评估，应该能反映模型和智能体在实际工作和生活中的价值。所以，这次不只是看知识点有多深，而是提出一个更务实的视角——任务复杂度，也就是完成一个任务所需要的人类时间投入，以及它对应的潜在经济价值。

Agent能力的演进，会沿着两条主线展开：Scaling Context和Scaling Domain。这两条轴线共同决定了Agent能处理的任务上限，也是它从工具走向数字员工的必经之路。

Scaling context，指的是任务在时间维度上的延展。任务越复杂，Agent越需要在更长的执行周期里维持上下文状态、跟踪中间目标，在多次工具调用中保持一致性。从分钟级任务，到一天级，乃至一周级的工作量。
Scaling domain，则强调的是任务类型的扩展。现实世界的工作很少只涉及单一领域，横跨多个语境、多种工具的场景才是常态。Agent要提升能力，就得覆盖更广的任务分布。

所以在设计AgentIF评测体系时，xbench同时沿着这两条路径推进。一方面拉长人类时间尺度，从OneHour走到OneDay；另一方面覆盖更多元的生活、学习和职业场景。

如何构造“一天”的典型任务？

在对大量用户真实工作日志进行分析后，发现尽管具体任务千差万别，但日常工作其实可以抽象为三种类型：工作流执行、范例参考以及迭代式编辑。

场景一：你知道怎么干，就是嫌太烦

用户已经知道完整流程，明确给出操作步骤，Agent只需要精确执行。这就是工作流执行。

例题：
“我计划去NeurIPS 2025，帮我规划一个好的行程方案。请你先去官网确认NeurIPS 2025会议的主会场位置（San Diego Convention Center, San Diego）是否准确，然后用另一个可靠来源交叉验证这个信息。接下来，帮我收集基本信息，比如会议时间、地点和论文提交截止日期。还要确认完整的会议日程是否已经发布——如果还没发布，请明确告诉我。最后，从纽约出发给我两套去圣地亚哥的行程方案：一个最便宜的Cheap Plan，一个最快的Fast Plan。”

Agent如果能在整个流程中保持一致性，逐步完成步骤，在长上下文中维持状态，那就意味着它具备了帮人类把事做完的潜力。这也是大量用户希望Agent替代重复性劳动的核心原因。

场景二：你不知道规则，只能给个参考

用户并不明确知道完整的工作流，只提供若干案例或参考资料。这是范例参考（Latent Instruction Inference）。

例题：
“我现在用的是iPhone13 Pro Max，AT&T套餐每月20美元预付费。我想换iPhone17 Pro Max。基于附件里的购机方案和运营商优惠，帮我找出总成本最低的方式。”

范例参考是人类最自然的工作方式——不会每次从零写起，而是让Agent从提供的示例中挖掘潜在意图。如果Agent具备这种能力，就能真正参与内容生产、报告生成、数据整理这类职业任务。

场景三：需求是动态的，要边做边看

人类的工作普遍是多轮迭代的，开始时不知道完整解法，需要在交互中不断提出新需求。这类任务就是迭代式编辑。

例题：
“拿着这个SVG平面图（venue_layout.svg）和Excel约束表（venue_constraints.xlsx），更新会场布局以满足所有约束条件，同时保持设计的可读性和可行走性。”

过去三个月，xbench按照这三个类型制备了AgentIF第一期题库，总共104道任务，覆盖工作、生活（游戏攻略、旅游规划）和学习。其中62道由文件驱动的合成任务，覆盖了PDF、PPT、Excel、图像、代码文件等15种以上格式，本质上模拟了真实工作流程中常见的跨格式、跨来源模式。

每道任务都配有细粒度的评判标准，总计767个评分点，分为正向指标（格式一致性、结构复现、步骤完整）与负向指标（误删内容、越界生成、错误操作）。评测采用LLM作为裁判（Gemini 3-pro的出现让打分准确度提升到了可用程度），结合网页检索、HTML渲染、多模态比对等方法自动校验。Agent的得分不仅取决于是否完成任务，还包括流程是否干净、操作是否正确、附件是否解析到位、迭代过程中是否保持一致性。

主流Agent的评测结果

在AgentIF框架下，对现有主流Agent系统进行了系统化测试，有几个有趣的发现：

发现一：第一梯队集中在0.62–0.65区间

以Overall完整任务成功率为标准，Manus、Genspark与ChatGPT-Agent都集中在0.62–0.65区间，构成当下能力最强的第一梯队。这意味着，无论是通过模型原生甚至RL训练出来的系统，还是基于API的工具链集成或深度multi-Agent系统，在完成一套真实任务链时，用户侧感受到的能力是比较接近的。这也印证了模型即Agent的判断——在底层模型能力不变、不引入test-time scaling的前提下，不同多智能体框架本身难以拉开数量级上的性能差异。不过，这些系统在任务领域和能力维度上存在明显差异。

发现二：不同产品各有侧重

从任务领域上看，ChatGPT是最优生产力工具，Manus是最佳生活助手，Genspark是最好学习伙伴。三个产品的迭代方向不同：ChatGPT-Agent重点关注专业工作场景，Manus与Genspark则更侧重用户反馈。一个优秀的通用Agent应该兼顾最多样的任务，而不是只擅长某一类。

发现三：能力维度的差异源于框架差异

在能力维度上，GenSpark在隐式指令推断上表现最优，Manus在开放工作流执行上最强，Minimax-Agent则拥有最好的迭代式编辑能力。隐式条件推断是目前Agent普遍最薄弱的能力项。一些任务要求Agent从附件中自动识别格式规则，比如从PPT模板中抽取页眉页脚结构，再迁移到新内容生成中。即便整体表现最好的系统，在这类任务中也很难做到完全正确——要么格式复现正确但覆盖不足，要么内容理解到位但结构不一致。

稳定性、文件处理链路、隐式结构理解能力、跨工具状态管理，这些都是决定Agent能否承担一天工作量的关键。AgentIF-OneDay通过这类任务，揭示了当前Agent在真实使用中的能力边界和常见失效模式，也点明了下一阶段能力演进的方向。

展望：从OneDay、OneWeek到持续学习

随着系统能力的提升，预计在2026年Agent将开始挑战OneWeek的人类工作量。围绕OneWeek的评测集已经在构建中。当一个Agent能在每周稳定的工作量上保持高质量产出，它就具备了承担真实岗位的能力，也会在组织内创造更多的实际价值。

与AgentIF-OneDay相比，OneWeekIF的挑战不只是任务变长，还有评测本身的出题难度显著增加。周尺度的任务往往带有明确的行业语境——金融、医疗、法律——高价值场景数据的获取成本也会大幅上升。

当任务复杂度发展到这一阶段，依赖静态数据集和离线构建的训练与评测方式，开始暴露出难以回避的局限性。一个越来越自然的思路出现了：让Agent在实际运行中具备主动学习的能力——在真实或半真实环境中自主收集经验，对自身行为进行评估与修正，通过长期交互逐步形成稳定策略。

从更长期来看，静态训练与静态评测可能都不是未来Agent系统的最佳路径。近期关于online learning的讨论越来越多，更多研究者倾向于认为，如果模型只在既有的人类知识分布内循环，就无法突破到更高层级的智能。下一步的能力scaling，很可能发生在模型被部署之后，通过不断的real world RL来获取practical的知识——持续学习，持续适应。

用户数据飞轮带来高可靠Agent的出现

一个赢得用户信任的Agent助理必须交付可靠结果。在长程任务中，错误累计效应会指数级放大。可以把长程任务Agent的发展比作自动驾驶：从有限路段走向通用路段，从频繁人工干预走向长时无干预FSD。这个过程依赖于大量用户驾驶数据的积累，用户数据能最大化拓展场景的丰富度，给系统带来最好的泛化性。在长时任务的Agent领域同样如此——有效的数据累计能带来高可靠Agent系统的出现，优先转起数据飞轮的公司，将率先实现通用Agent的FSD时刻。

来源：https://www.53ai.com/news/shuziyuangong/2026012123175.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。