重大消息:国际机器学习大会(International Conference on Machine Learning,简称 ICML)2026 的录用结果正式揭晓,滴滴共有 5 篇高质量学术论文成功入选。此次被收录的论文分别来自滴滴 L Lab 团队与滴滴网约车交易市场技术团队,合作方涵盖中山大学、香港科技大学(广州)、北京大学、上海财经大学等国内知名高校。可以看出,在推动前沿研究与产业需求深度融合方面,滴滴持续推进,并愈发重视与学术界的协同创新。
首先来了解 ICML 本身。作为机器学习领域公认的顶级会议,它也是中国计算机学会(CCF)推荐的 A 类国际学术会议。第 43 届大会将于 2026 年 7 月 6 日至 11 日在韩国首尔举行。本届会议的竞争激烈程度可见一斑:共收到 23918 份投稿,最终仅录用 6352 篇,其中 526 篇被选为 Spotlight Paper。能在如此严苛的筛选率中脱颖而出,足以证明这五篇论文的含金量。
下面逐一介绍这五篇论文(排名不分先后)。
论文一:UltraHorizon: Benchmarking LLM-Agent Capabilities in Ultra Long-Horizon Scenarios
合作方: 滴滴 L-Lab × 中山大学
研究方向: 大模型智能体评估基准 / 长周期(Long-Horizon)任务推理、规划与工具使用

这篇论文直击当前自主智能体评估中的一个明显盲区:现实世界中那些需要持续推理、持续记忆管理以及频繁调用工具的复杂长周期任务,现有基准测试往往难以覆盖。为了让评估更贴近真实应用场景,团队提出了一种全新的跨环境探索基准——UltraHorizon,其特点在于智能体交互轨迹极长、Token消耗极高、工具调用极其频繁。
大规模实验的结果颇为“扎心”:当前最先进的大模型智能体在这些任务上的表现远不及人类,且并非简单靠扩大模型规模就能解决。失败原因主要归结为两点:上下文锁定(in-context locking)与基础能力的缺失。这为后续研究指明了方向,也说明长周期任务领域仍有不少难题需要攻克。
论文二:Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution
合作方: 滴滴 L-Lab(独立完成)
研究方向: 多模态大模型(MLLM)智能体 / GUI 自动化 / 自进化记忆系统

多模态大语言模型(MLLM)在完成复杂的GUI自动化任务时,常面临记忆混乱或上下文过长的困境。针对这一难题,团队提出了达尔文记忆系统(Darwinian Memory System,简称DMS)。该系统的设计思路颇为巧妙:它借鉴了自然选择机制,利用效用驱动的“优胜劣汰”来动态分解任务,同时逐步淘汰次优策略。
简而言之,该系统将记忆系统打造成一个能不断进化的“生态圈”。最令人眼前一亮的是,DMS无需额外进行模型训练——它能在零训练条件下显著提升MLLM智能体的任务成功率、执行稳定性与整体效率。这对实际部署而言意义重大,因为能节省大量计算资源。
论文三:HTAC: Hierarchical Task-Aware Composition for Continual Offline Reinforcement Learning
合作方: 滴滴 L-Lab × 中山大学
研究方向: 持续离线强化学习(Continual Offline RL) / 跨任务知识迁移与隔离 / 层次化任务表示

在持续离线强化学习(CORL)中,如何实现跨任务的知识复用同时避免任务间互相干扰,一直是个研究难点。HTAC(Hierarchical Task-Aware Composition)框架提供了一个优雅的解决方案:通过双层任务编码与软组合机制,将任务解耦为域级与任务级嵌入,再配合按需创建的专家网络与注意力式知识整合,实现了参数高效的知识隔离与复用。
通俗地说,该系统既能记住不同任务的有用经验,又不会在任务切换时“学一个忘一个”。在离线持续世界基准上的测试表明,HTAC在可塑性与稳定性之间取得了良好平衡,显著提升了智能体跨任务泛化与知识迁移的能力。这对自动驾驶、机器人等需要持续学习的应用场景至关重要。
论文四:Agent-Omit: Adaptive Context Omission for Efficient LLM Agents
合作方: 滴滴 L-Lab × 香港科技大学(广州)
研究方向: 大语言模型智能体
大模型智能体在多轮交互中,面临一个朴素但棘手的问题:上下文越来越长,处理成本不断攀升。现有的压缩方法往往是“一刀切”,对思考过程与环境观察进行统一压缩,完全忽略了不同轮次交互间存在巨大的效用差异。
Agent-Omit框架的出发点正是“有的放矢”——根据每个交互轮次的实际价值,有选择性地省略不重要的上下文信息。这样做的好处显而易见:既能保留关键推理线索,又能大幅降低token消耗,从而提升整体执行效率。对于需要长期运行的智能体系统而言,这种“聪明”的省略机制将是提升商业落地可行性的关键。
论文五:Offline Reinforcement Learning with Partially Observed World Model in Autonomous Driving
合作方: 滴滴网约车交易市场技术团队 × 北京大学 × 上海财经大学
研究方向: 离线强化学习 / 自动驾驶场景 / 部分可观测世界模型
自动驾驶决策中的一个核心挑战是:系统必须应对部分可观测的环境(例如某些车辆或行人被遮挡),同时还需在有限的离线数据中学习。这篇论文提出利用部分可观测世界模型来强化离线强化学习的效果,使模型在训练阶段就能更好地模拟和理解不确定环境,从而在真实道路场景中做出更稳健的决策。
整体来看,这五篇论文覆盖的领域相当广泛,从智能体评估基准、GUI自动化到持续强化学习、自动驾驶决策,既有理论深度研究,也有明确的产业应用方向。可以预见,这些研究成果将在滴滴的业务场景(如智能调度、自动驾驶、客服助手等)中逐步发挥实际价值。
归根结底,顶级会议中稿只是起点,真正考验技术团队的是如何让这些前沿探索与产业需求相互激发,最终转化为用户可感知的更好体验。滴滴这几个团队的步伐稳健,接下来要看的就是实际落地效果了。
