美团技术团队ICML 2026学术论文精选

时间：2026-07-01 15:27

机器学习圈的朋友们都知道，ICML（国际机器学习大会）是领域内最具分量的学术会议之一。今年2026届，ICML共收到23918篇投稿，最终接收6352篇，接收率约26 6%，竞争相当激烈。美团技术团队这次有13篇论文入选，覆盖了智能体推理、强化学习训练、复杂任务生成、智能体基准测试、监督微调等方向。

机器学习圈的朋友们都知道，ICML（国际机器学习大会）是领域内最具分量的学术会议之一。今年2026届，ICML共收到23918篇投稿，最终接收6352篇，接收率约26.6%，竞争相当激烈。美团技术团队这次有13篇论文入选，覆盖了智能体推理、强化学习训练、复杂任务生成、智能体基准测试、监督微调等方向。下面就来逐一解读这些工作的核心亮点。

01 MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

MemOCR：面向高效长程推理的版面感知视觉记忆机制

论文下载：PDF

长时间跨度的智能体推理有个绕不开的难题：交互历史越长，上下文窗口越吃紧。现有记忆系统大多把历史序列化成文本，token开销随长度线性增长，效率堪忧。这项工作提出了MemOCR，一种多模态记忆智能体，核心思路是利用视觉布局来“按需分配”记忆空间——面对密集信息区域多给token，稀疏区域则压缩，从而在紧张的上下文预算下依然保持长程推理能力。实验表明，它在长上下文问答任务中全面超越了强文本基线，尤其在极端预算条件下，上下文利用效率提升非常明显。

02 ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

ScaleEnv: 从零开始构建可扩展的环境合成系统用于通用交互式工具使用智能体的训练

论文下载：PDF

要让智能体真正适应多样化场景，关键是为它配备交互式环境和可验证任务，供其自我探索。这篇论文提出了ScaleEnv，一个从零开始构建全交互式环境和可验证任务的框架。它通过程序化测试确保环境可靠性，借助工具依赖图扩展和可执行动作验证来保证任务的完整性和可解性。在未见过的多轮工具使用基准测试上，ScaleEnv展现出了显著的性能提升和强大的泛化能力。

03 V_0: A Generalist Value Model for Any Policy at State Zero

V_0：一种适用于任意策略在初始状态下的通用价值模型

论文下载：PDF

大语言模型强化学习训练中的价值模型有个“耦合困境”——它必须跟随策略同步更新，非常不便。这篇工作提出V_0，一个通用价值模型，思路是把任务重新定义为上下文学习：让它直接预测未见策略的性能，从而将价值估计与特定策略参数解耦。实验结果显示，在GRPO训练过程中，V_0追踪策略演化的效果优于耦合价值模型，还能优化冷启动预算分配，并在推理路由中逼近性能-成本的帕累托前沿。

04 Learning to Self-Verify Makes Language Models Better Reasoners

学习自我验证使语言模型成为更好的推理者

论文下载：PDF

现阶段的大语言模型虽然能为复杂任务生成挺像样的推理路径，但验证自身答案的能力仍然薄弱。这篇论文发现，让模型学习自我验证能有效提升生成性能，产生更高效的推理轨迹。他们提出了一个多任务强化学习框架，把生成和自我验证作为两个独立但又互补的目标联合优化。实验证明，该方法在生成和验证能力上均优于仅做生成训练的方法。

05 AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition

AgentNoiseBench：噪声条件下工具使用型大语言模型智能体的鲁棒性基准评测

论文下载：PDF

随着LLM智能体越来越多地部署到实际工作流中，现有基准测试还不足以刻画它们在“不完美指令”和“不可靠工具反馈”下的表现。AgentNoiseBench应运而生，它系统评估了智能体在交互式噪声下的鲁棒性，建模了用户侧指令噪声和工具侧结果噪声两大来源，并提供模块化噪声注入管道和多维度评估指标。通过对25个工具使用模型的评估，研究团队发现：工具侧噪声通常比用户侧噪声造成更大幅度的性能下降——这个发现相当值得警惕。

06 AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

AJ-Bench：面向环境感知评估的智能体裁判基准

论文下载：PDF

强化学习推动LLM智能体训练规模化，但如何在复杂环境中可靠验证智能体行为，变得日益困难。现有基于规则的验证器或LLM-as-a-Judge模型很难泛化到狭窄领域之外。Agent-as-a-Judge通过主动与环境和工具交互来获取可验证证据，潜力很大，但能力尚未被充分探索。这篇论文提出了AJ-Bench，系统评估“智能体充当评判者”在搜索、数据系统和图形用户界面三个领域的表现，涵盖155个任务和516条标注轨迹。实验表明，相比LLM-as-a-Judge基线，该方法取得了稳定的性能提升，同时也揭示了基于智能体的验证中仍存在的开放性挑战。

07 LUVE : Latent-Cascaded Ultra-High-Resolution Video Generation with Dual Frequency Experts

LUVE：基于双频率专家的潜空间级联超高分辨率视频生成

论文下载：PDF

超高分辨率视频生成长期面临一个两难选择：连贯性与算力难以兼顾。这篇论文提出了基于双频专家的潜空间级联框架LUVE，创新性地采用三阶段架构：先通过低分辨率生成保障运动一致性；再利用潜空间上采样直接提升分辨率，大幅降低内存与计算开销；最后融合高低频专家细化高分辨内容，全面增强全局语义与局部细节。实验显示，LUVE在逼真度和内容保真度上表现卓越，其核心思想已成功应用到美团LongCat-Video模型中。

08 Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

Infinite-World：通过无位姿层次化记忆将交互式世界模型扩展至1000帧

论文下载：PDF

Infinite-World面向真实场景中的长程交互式世界模型，目标是在1000+帧生成中保持稳定的视觉记忆和动作响应。针对真实视频位姿噪声大、视角回访稀少的难题，论文提出了三点创新：用无位姿层级记忆压缩器将历史latent压缩为固定预算记忆，降低长程建模成本；用不确定性感知动作标注提升噪声轨迹下的动作学习；再通过高回访数据微调增强loop closure能力。整体上，它让世界模型更适合从真实视频学习长时空一致性。

09 WildActor: Unconstrained Identity-Preserving Video Generation

WildActor：无约束身份保持视频生成

论文下载：PDF

现有身份保持视频生成方法在动态长镜头和视角剧烈切换时，常常出现全身体态不一致、面部漂移和姿态僵死等伪影。WildActor构建了一个含1.6M视频和18M多视角图像的大规模数据集Actor-18M，有效解决原始数据中的正脸偏置。机制层面，它引入了非对称身份保留注意力（AIPA）来解耦身份与运动生成，结合身份感知3D旋转位置编码（I-ROPE）显式分离时空Token，配合视角自适应蒙特卡洛采样，实现了鲁棒的任意视角条件控制。在新构建的Actor-Bench上，WildActor的全身一致性和文本对齐度显著超越现有开源及商业大模型，在复杂现实场景中保持了物理恒常性。

10 Na vigating the Pareto Frontier of Alignment: Spectrum-Adaptive Fine-Tuning for LLMs

SAFT：面向大语言模型的谱自适应微调方法

论文下载：PDF

监督微调（SFT）常用交叉熵作为目标函数，学习虽然高效，但由于它特别关注预测概率低的样本，容易对噪声过拟合，产生过度自信。DFT则在梯度层面等同优化正确率的光滑近似，提升了鲁棒性，但削弱了对可学习难样本的学习效率。SFT和DFT形成了效率—鲁棒性的两个端点，真实数据应该选择哪种折中，取决于其未知的内在信噪比（SNR）。这篇论文提出了轻量的pre-test protocol：用少量训练数据分别训练SFT和DFT，比较验证集表现——如果SFT更优则判定为高SNR，选择几何插值Geo-SAFT；如果DFT更优则判定为低SNR，选择调和插值Har-SAFT。相比仍保留低置信梯度发散的线性插值，SAFT通过数据自适应的几何/调和非线性插值匹配不同噪声区制，获得了更优的鲁棒性—效率Pareto均衡。

11 TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios

TRIP-Bench：真实场景中长时域交互式智能体的基准评测

论文下载：PDF

TRIP-Bench是一个面向长程交互式Agent的旅行规划评测基准，基于真实世界数据构建，包含18个工具和40多类旅行约束，重点考察模型在多轮对话中保持全局约束、调用工具、处理用户需求变化和方案反复修改的能力。最困难的任务最长可达15轮用户交互、150次以上工具调用，甚至超过20万tokens上下文。实验表明，现有先进模型在该基准上表现仍然有限。论文进一步提出了GTPO多轮强化学习方法，通过奖励归一化和轮次级奖励差分提升模型鲁棒性，使Qwen2.5-32B-Instruct在评测中超过了Gemini-3-Pro。

12 InfVSR: Toward Consistency-Driven Streaming Generative Video Super-Resolution

InfVSR：面向一致性驱动的流式生成视频超分辨率

论文下载：PDF

扩散式视频超分方法在长视频场景中一直存在推理效率低、显存占用大和时序不一致的问题。InfVSR将预训练视频DiT改为因果流式架构，引入滚动KV缓存以维持局部过渡平滑性；同时设计联合视觉引导通过交叉注意力注入全局语义锚点，抑制累积误差漂移。训练阶段结合分块像素监督与跨块分布匹配，双重约束时序一致性，并将扩散过程蒸馏为高效单步推理。实验显示，InfVSR在多项基准上达到SOTA性能，时序一致性显著领先，推理速度提升58倍，且长序列显存占用恒定——这在实际部署中意义非常大。

13 DRIVE: Distributional and Retrieval-Augmented Bidding with Value Evaluation

DRIVE：基于混合分布与检索增强的价值评估出价策略

论文下载：PDF

针对标准Decision Transformer（DT）在复杂竞价环境中的三大痛点——“平均动作”陷阱、长尾幻觉、缺乏推理优化，这篇论文提出了“生成—检索—评估”闭环框架。具体来说：用高斯混合模型替代确定性输出，解决多模态策略坍缩问题；引入检索机制增强长尾场景记忆，避免参数化模型幻觉；通过IQL Critic实现闭环择优，对生成动作与历史动作进行实时评估。该方案显著提升了决策鲁棒性，在竞价场景中表现出扎实的实用价值。

来源：https://juejin.cn/post/7656644387804971046

学术论文

上一篇Claude Tag：AI同事从聊天窗口融入企业工作流 下一篇折腾半年AI编程工作流效率瓶颈竟是显示器

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。