前言
每年都有不少同学关注腾讯的犀牛鸟精英人才计划——这个项目从2017年启动,定位是拔尖科研人才的产学联合培养模式。具体来说,每年他们会把真实研发场景中的关键难题抛出来,选拔一批有科研潜力的学生,安排校企双导师联合指导,在真实的产业场景里做前沿探索和应用创新。说实话,这种“真题真做”的模式,确实比很多纯学术课题更贴近实际需求。
今年入选ICML的三篇论文,就是这种模式下的典型产出。分别涉及高效模型蒸馏、长上下文推理和稀疏视角视频生成这几个技术方向。我们来仔细看看这三篇工作的亮点。
Hybrid Policy Distillation for LLMs
这篇论文由上海交通大学的朱文红同学,在王瑞副教授、刘鹏飞副教授和腾讯混元团队企业导师的联合指导下完成。

知识蒸馏(KD)一直是压缩大语言模型的一把利器,但说到底,它的有效性取决于几个紧密关联的设计选择——发散方向怎么定、优化策略怎么选、数据制度怎么搭。这些变量互相纠缠,让很多人在实际操作中摸不着头脑。这篇文章做了一件漂亮的事:他们系统拆解了现有的KD方法,提出了一个统一的理论视角,把KD重新表述为一个token级别的重加权对数似然目标。
基于这个视角,他们提出了混合策略蒸馏(HPD)。关键思路是把正向和反向KL散度的互补优势结合起来——正向KL擅长模式覆盖,反向KL精于模式搜索,两者一配合,正好平衡了两边。同时,他们把非策略数据和轻量级的近似策略抽样也集成进来了。在长形式数学推理、短形式对话和代码生成等任务上,HPD的表现相当稳健,不同模型族和规模下都能稳定提升优化稳定性、计算效率和最终性能。
完整解读可参考:犀牛鸟前沿|ICML 2026:腾讯混元-上海交大高效模型蒸馏最新成果解读
论文地址:https://arxiv.org/pdf/2604.20244
Many-Shot CoT-ICL: Making In-Context Learning Truly Learn
这篇由香港科技大学的鍾芷婷同学,在楊瓞仁教授和腾讯微信团队企业导师的联合指导下完成。

上下文学习(ICL)通过提示词示例就能适配大模型,不需要更新参数,这确实很方便。但以往大家总结的扩展规律,基本都只适用于非推理任务。这篇文章一上来就发现了一个有意思的现象:在推理任务上,标准扩展规律根本不适用。
通过大量实验,他们得出了三个关键发现:第一,扩展效应是任务依赖的,增加CoT示例主要对推理型的LLM有明显好处;第二,语义相似度检索在推理任务上失灵了——因为语义相似度根本预测不了CoT的兼容性;第三,随着CoT示例增多,性能方差反而显著增大。
这背后的解释很有意思:多示例CoT-ICL本质上是“上下文测试时学习”,而不是简单的模式匹配。基于这个理解,他们提出了两条原则——示例应该容易被模型理解,并按概念递进排列。在此基础上,他们设计了一个CDS方法来优化示例排序,在数学和叙事推理任务上实现了平均3.81%的提升。文章还一句话点出了研究的意义:把长上下文窗口从“检索缓存”重新定义为“上下文测试时学习的结构化课程”。
完整解读可参考:犀牛鸟前沿|ICML 2026:腾讯微信-港科大长上下文推理最新成果解读
论文地址:https://arxiv.org/pdf/2605.13511
CamGeo: Sparse Camera-Conditioned Image-to-Video Generation with 3D Geometry Priors
这篇由北京大学的刘烜奕同学,在马思伟教授和腾讯营销团队企业导师的联合指导下完成。

基于稀疏相机约束的图像到视频生成,一直有个硬骨头要啃:怎么只靠最少量的姿态线索,合成出几何一致的3D运动?现有方法要么依赖密集监督,要么搞简单的插值,结果常常是严重的姿态漂移和运动不连续性。说到底,缺的就是一个可靠的3D先验知识。
CamGeo这个框架的核心思路很清晰:把预训练视频到3D模型(VGGT)里丰富的3D几何知识,直接蒸馏到扩散骨干网络中去。而且为了不增加推理延迟,他们只在训练阶段做蒸馏。具体包含了三个组件:关键帧轨迹蒸馏,通过稀疏输入姿态确保周期一致性;跨帧一致性蒸馏,结合摄像机轨迹和深度约束,在无监督帧之间生成一致的结构;还有一个三阶段从粗到细的课程学习,逐步提升几何复杂度。实验结果表明,在不同稀疏度下,CamGeo都能稳定提升性能。
完整解读可参考:犀牛鸟前沿 | ICML 2026:腾讯营销-北大稀疏视角视频生成最新成果解读
论文地址:https://icml.cc/virtual/2026/poster/63132
