滴滴多篇论文入选ICML 2026，值得阅读推荐

时间：2026-06-29 12:12

重大消息：国际机器学习大会（International Conference on Machine Learning，简称 ICML）2026 的录用结果正式揭晓，滴滴共有 5 篇高质量学术论文成功入选。此次被收录的论文分别来自滴滴 L Lab 团队与滴滴网约车交易市场技术团队，合作方涵盖中山大学、

重大消息：国际机器学习大会（International Conference on Machine Learning，简称 ICML）2026 的录用结果正式揭晓，滴滴共有 5 篇高质量学术论文成功入选。此次被收录的论文分别来自滴滴 L Lab 团队与滴滴网约车交易市场技术团队，合作方涵盖中山大学、香港科技大学（广州）、北京大学、上海财经大学等国内知名高校。可以看出，在推动前沿研究与产业需求深度融合方面，滴滴持续推进，并愈发重视与学术界的协同创新。

首先来了解 ICML 本身。作为机器学习领域公认的顶级会议，它也是中国计算机学会（CCF）推荐的 A 类国际学术会议。第 43 届大会将于 2026 年 7 月 6 日至 11 日在韩国首尔举行。本届会议的竞争激烈程度可见一斑：共收到 23918 份投稿，最终仅录用 6352 篇，其中 526 篇被选为 Spotlight Paper。能在如此严苛的筛选率中脱颖而出，足以证明这五篇论文的含金量。

下面逐一介绍这五篇论文（排名不分先后）。

论文一：UltraHorizon: Benchmarking LLM-Agent Capabilities in Ultra Long-Horizon Scenarios

合作方： 滴滴 L-Lab × 中山大学
研究方向： 大模型智能体评估基准 / 长周期（Long-Horizon）任务推理、规划与工具使用

这篇论文直击当前自主智能体评估中的一个明显盲区：现实世界中那些需要持续推理、持续记忆管理以及频繁调用工具的复杂长周期任务，现有基准测试往往难以覆盖。为了让评估更贴近真实应用场景，团队提出了一种全新的跨环境探索基准——UltraHorizon，其特点在于智能体交互轨迹极长、Token消耗极高、工具调用极其频繁。

大规模实验的结果颇为“扎心”：当前最先进的大模型智能体在这些任务上的表现远不及人类，且并非简单靠扩大模型规模就能解决。失败原因主要归结为两点：上下文锁定（in-context locking）与基础能力的缺失。这为后续研究指明了方向，也说明长周期任务领域仍有不少难题需要攻克。

论文二：Darwinian Memory: A Training-Free Self-Regulating Memory System for GUI Agent Evolution

合作方： 滴滴 L-Lab（独立完成）
研究方向： 多模态大模型（MLLM）智能体 / GUI 自动化 / 自进化记忆系统

多模态大语言模型（MLLM）在完成复杂的GUI自动化任务时，常面临记忆混乱或上下文过长的困境。针对这一难题，团队提出了达尔文记忆系统（Darwinian Memory System，简称DMS）。该系统的设计思路颇为巧妙：它借鉴了自然选择机制，利用效用驱动的“优胜劣汰”来动态分解任务，同时逐步淘汰次优策略。

简而言之，该系统将记忆系统打造成一个能不断进化的“生态圈”。最令人眼前一亮的是，DMS无需额外进行模型训练——它能在零训练条件下显著提升MLLM智能体的任务成功率、执行稳定性与整体效率。这对实际部署而言意义重大，因为能节省大量计算资源。

论文三：HTAC: Hierarchical Task-Aware Composition for Continual Offline Reinforcement Learning

合作方： 滴滴 L-Lab × 中山大学
研究方向： 持续离线强化学习（Continual Offline RL） / 跨任务知识迁移与隔离 / 层次化任务表示

在持续离线强化学习（CORL）中，如何实现跨任务的知识复用同时避免任务间互相干扰，一直是个研究难点。HTAC（Hierarchical Task-Aware Composition）框架提供了一个优雅的解决方案：通过双层任务编码与软组合机制，将任务解耦为域级与任务级嵌入，再配合按需创建的专家网络与注意力式知识整合，实现了参数高效的知识隔离与复用。

通俗地说，该系统既能记住不同任务的有用经验，又不会在任务切换时“学一个忘一个”。在离线持续世界基准上的测试表明，HTAC在可塑性与稳定性之间取得了良好平衡，显著提升了智能体跨任务泛化与知识迁移的能力。这对自动驾驶、机器人等需要持续学习的应用场景至关重要。

论文四：Agent-Omit: Adaptive Context Omission for Efficient LLM Agents

合作方： 滴滴 L-Lab × 香港科技大学（广州）
研究方向： 大语言模型智能体

大模型智能体在多轮交互中，面临一个朴素但棘手的问题：上下文越来越长，处理成本不断攀升。现有的压缩方法往往是“一刀切”，对思考过程与环境观察进行统一压缩，完全忽略了不同轮次交互间存在巨大的效用差异。

Agent-Omit框架的出发点正是“有的放矢”——根据每个交互轮次的实际价值，有选择性地省略不重要的上下文信息。这样做的好处显而易见：既能保留关键推理线索，又能大幅降低token消耗，从而提升整体执行效率。对于需要长期运行的智能体系统而言，这种“聪明”的省略机制将是提升商业落地可行性的关键。

论文五：Offline Reinforcement Learning with Partially Observed World Model in Autonomous Driving

合作方： 滴滴网约车交易市场技术团队 × 北京大学 × 上海财经大学
研究方向： 离线强化学习 / 自动驾驶场景 / 部分可观测世界模型

自动驾驶决策中的一个核心挑战是：系统必须应对部分可观测的环境（例如某些车辆或行人被遮挡），同时还需在有限的离线数据中学习。这篇论文提出利用部分可观测世界模型来强化离线强化学习的效果，使模型在训练阶段就能更好地模拟和理解不确定环境，从而在真实道路场景中做出更稳健的决策。

整体来看，这五篇论文覆盖的领域相当广泛，从智能体评估基准、GUI自动化到持续强化学习、自动驾驶决策，既有理论深度研究，也有明确的产业应用方向。可以预见，这些研究成果将在滴滴的业务场景（如智能调度、自动驾驶、客服助手等）中逐步发挥实际价值。

归根结底，顶级会议中稿只是起点，真正考验技术团队的是如何让这些前沿探索与产业需求相互激发，最终转化为用户可感知的更好体验。滴滴这几个团队的步伐稳健，接下来要看的就是实际落地效果了。

来源：https://www.163.com/dy/article/KVI23TUM05118HA4.html

机器学习

上一篇阿里正式发布重磅大模型AI新品 下一篇大疆140W充电头发售 2C1A 219元

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。