游乐游手机版
首页/科技数码/文章详情

深圳市大数据研究院4项成果被ICML 2026录用

时间:2026-06-17 11:46
深圳市大数据研究院四项科研成果被第43届国际机器学习大会(ICML)录用,涵盖零阶优化、大模型微调及长视频推理等前沿方向,相关方法在内存效率、梯度估计偏差与边云协同等方面取得突破。

近日,深圳市大数据研究院四项重要科研成果被第43届国际机器学习大会(ICML)录用。这四篇论文覆盖了零阶优化、大模型微调、长视频推理等多个前沿方向,方法创新突出。本文将逐一解读,看看这些工作究竟解决了哪些实际难题。

会议介绍

ICML是人工智能领域公认的顶级学术会议,与NeurIPS、ICLR并称机器学习三大顶会,属于CCF A类推荐会议。本届ICML共收到23,918篇有效投稿,录用率约为26.6%,竞争极为激烈。会议涵盖机器学习基础理论、深度学习、优化方法、可信机器学习等核心方向,同时关注计算机视觉、语音识别等应用领域。

论文简介


AdaMeZO: Adam-style Zeroth-Order Optimizer for LLM Fine-tuning Without Maintaining the Moments

关键词:大语言模型微调、零阶优化、优化器、内存效率

摘要:大语言模型微调在特定任务上效果显著,但传统的基于反向传播的一阶优化方法需要计算并存储梯度,显存开销巨大,资源受限设备难以应对。已有的零阶方法MeZO仅通过前向传播就能微调,大幅降低了显存需求,但其更新方式类似SGD,无法感知不同参数维度的损失曲率差异,收敛速度偏慢。直接引入自适应优化器如Adam虽然能提升收敛效率,却需额外存储与模型参数规模相同的动量信息,零阶优化的内存优势不复存在。

针对这一矛盾,论文提出AdaMeZO——一种融合Adam风格的零阶优化器。其核心思路是利用截断历史梯度构造近似的一阶和二阶矩估计,同时引入更细粒度的伪随机数生成器状态缓存机制。仅在更新参数时按块原地重建历史随机方向,无需在显存中长期维护完整动量向量。这样既保留了MeZO的低显存优势,又赋予了类似Adam的自适应预条件更新能力,能更好地适应复杂损失函数中不同曲率的区域。

理论分析表明,在非凸优化假设下,AdaMeZO能以O(1/√T)的速率收敛到平稳点附近。在RoBERTa、OPT、LLaMA等模型及多种NLP任务上的实验显示,AdaMeZO在多个任务上优于MeZO及相关强基线,达到相同终止损失时最多可减少约70%的前向传播次数;实际额外显存仅约7%,远低于需要显式存储矩估计的方法(50%–100%)。这项研究为低显存环境下的LLM高效微调开辟了新途径。


图1:AdaMeZO与MeZO在SST-2任务上的损失曲线对比。AdaMeZO在RoBERTa-large、OPT-1.3B和LLaMA-3B上达到MeZO终止损失时,前向传播次数分别减少69.75%、70.48%和70.90%。


图2:AdaMeZO的分块矩估计机制。基于PRNG状态缓存的分块控制可在计算并释放一、二阶矩后进入下一参数块,从而减少额外显存。

论文第一作者蔡智捷与共同第一作者陈浩泷为深圳市大数据研究院-香港中文大学(深圳)联合培养博士生,通讯作者为深圳市大数据研究院研究员朱光旭博士。


Romberg-Extrapolated Zeroth-Order Gradient Estimator: Higher-Order Bias Reduction with Preserved Leading Directional Variance

关键词:零阶优化、梯度估计、龙贝格外推

摘要:在许多现代学习与优化场景中,梯度计算成本太高甚至不可获得,只能通过函数值查询来估计梯度。标准梯度估计存在偏差与方差之间的权衡,现有改进方法难以同时优化两者。本文提出Romberg-ZOGE方法,通过多尺度两点估计结合Romberg外推,在降低偏差的同时保持方差不增。

理论上,Romberg-ZOGE可实现高阶偏差缩减,且不增加主导方差。对于确定性函数评估,它在多个半径上构造两点估计并加权,将偏差从O(r²)降至O(r^(2R+2)),而主导方向方差与标准两点估计器一致。针对ZO-SGD的随机函数查询,同次梯度估计的多查询共享随机样本,噪声可在差分与外推过程中抵消,避免额外放大,收敛复杂度不劣于基线。

实验覆盖三类场景:合成函数实验中,R=2时偏差呈接近O(r⁶)下降,远优于标准两点估计器的O(r²),且主导方差与基线相近;优化实验中,相同查询预算下收敛更快更稳定;无线网络优化任务中,提升了平滑分位数频谱效率目标值;OPT-1.3B的SST-2黑箱prompt tuning任务中,取得最低训练损失及最高验证、测试准确率。结果表明,Romberg-ZOGE既具备理论优势,又能为实际黑箱优化带来稳定收益。


图3:Romberg-ZOGE在不同半径下的偏差下降曲线(合成函数实验)。

论文第一作者董洪成为深圳市大数据研究院-香港中文大学(深圳)联合培养博士生,通讯作者为深圳市大数据研究院副研究员蒲文强博士,共同作者包括深圳市大数据研究院副研究员赵立成博士、周睿博士,香港中文大学(深圳)人工智能学院尹峰教授。


Think in Cloud, Look at Edges: Semantic-Driven Query Decomposition for Efficient Video Reasoning

关键词:长视频理解、边云协同、语义驱动查询分解、关键帧选择、多模态大模型

摘要:长视频理解长期面临带宽、时延与精度的矛盾:纯云端方案能力强但上传成本高,纯边缘方案响应快但推理能力有限。现有边云协同方法往往将复杂问题压缩成一个单一语义向量进行相似度检索,容易产生“语义淹没”问题——逻辑上关键但不突出的证据被显著的视觉线索所掩盖。本文提出SCOPE框架,采用“云端思考、边缘观察”的范式:云端大模型将用户问题分解成带有依赖关系和重要性权重的DAG观测计划,边缘侧据此进行预算分配、并行语义匹配与关键帧选择,仅上传高价值的证据帧。

在Video-MME和LongVideoBench数据集上的实验显示,SCOPE在严格帧预算下稳定优于Uniform、Top-K、AKS等基线;在16帧设置下能达到与纯云端相同的66.04%准确率,同时将端到端时延从154.22秒降至23.94秒,降幅约85%。这项研究为资源受限场景中的长视频高效推理提供了一种可部署的边云协同新范式。


图4:SCOPE总体框架。云端大模型先生成结构化观测计划,边缘侧依据计划完成预算感知关键帧选择,并将证据帧上传云端进行最终推理。

来源:https://www.163.com/dy/article/KVIGLF5805118HA4.html
上一篇全球近900架飞机停飞 民航业为“明珠”买单 下一篇港中文深圳人工智能学院荆炳义等教授6篇论文入选ICML 2026
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。