首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
小米AI成果入选国际顶会ICASSP 2026,雷军官宣多项创新

小米AI成果入选国际顶会ICASSP 2026,雷军官宣多项创新

热心网友
94
转载
2026-01-22

IT之家 1 月 22 日消息,小米创办人、董事长兼 CEO 雷军今日宣布,小米多项 AI 创新成果入选国际顶级会议 ICASSP 2026,包括音频理解、音乐生成评估、通用音频 - 文本预训练、视频到音频合成等多个 AI 领域的技术研究成果。


IT之家注:ICASSP 是全球音频领域最具权威性与影响力之一的国际顶级学术会议,第一次会议于 1976 年在美国的费城举办,至今已有近 50 年的历史。ICASSP 2026 将于今年 5 月在西班牙巴塞罗那举办。

小米本次入选国际顶级会议 ICASSP 2026 的 AI 创新成果如下:

《ACAVCAPS: ENABLING LARGE-SCALE TRAINING FOR FINE-GRAINED AND DIVERSE AUDIO UNDERSTANDING》

论文作者:牛亚东、王天资、Heinrich Dinkel、孙兴伟、周嘉豪、李罡、刘继忠、张俊博、栾剑 在音频理解领域,高质量数据集一直是提升模型性能的关键瓶颈。当前主流数据集普遍面临“规模大但描述简略”或“描述详尽但规模受限”的局限性。为缓解这一矛盾,我们推出了 ACAVCaps。 该数据集通过创新的自动化管线,从多维度、多视角对音频内容进行精细化刻画,旨在突破现有数据集在规模与描述粒度上难以兼得的瓶颈。 ACAVCaps 构建了一套多级自动化标注框架。该管线利用多个专家模型并行提取原始音频中的声音事件、音乐特征、说话人属性及语音内容等关键元数据。随后,引入大语言模型(LLM)并采用思维链(Chain-of-Thought, CoT)推理策略,将碎片化的结构化信息进行逻辑整合。 这种方法实现了从整体感知、语音细节、音乐元素到特定声音事件的全方位描述,使标注文本从单一的孤立标签进化为具备逻辑层次和上下文信息的自然语言。 ACAVCaps 包含约 470 万条音频-文本对,推动音频 AI 从简单的“特征识别”向深度的“语义理解”发展。ACAVCaps 数据集近期将全面开源。
《FEDERATED JOINT LEARNING FOR DOMAIN AND CLASS GENERALIZATION》
* 表示共同第一作者 论文作者:许浩然 *、李佳泽 *、鞠建忠、罗振波 联邦学习中的域泛化和类别泛化一直是视觉语言模型(如 CLIP)高效微调面临的核心挑战。传统方法通常单独处理未见的类别或未见的域,例如通过提示调优技术优化类别泛化或域泛化,但往往因决策边界混淆、计算资源限制等问题,导致在测试数据同时包含未见类别和未见域的复杂场景下性能受限。 为此,我们提出了一种新颖方法 FedDCG(Federated Joint Learning for Domain and Class Generalization),通过域分组策略和类特定协作训练机制,首次在联邦学习设置下联合解决类别和域泛化问题,显著提升了模型在未知环境中的准确性与鲁棒性。 FedDCG 框架首先采用域分组策略,将客户端数据按域划分,并在每个域组内训练独立的类别泛化网络,以避免类别和领域决策边界之间的混淆。 具体来说,方法包含三大核心机制:在训练阶段,通过类特定域分组协作训练交替优化类别泛化和域解耦知识;在推理阶段,则基于领域相似性进行引导聚合,整合全局和域特定知识。其中,类别泛化网络利用交叉注意力机制学习任务相关的提示向量,而域解耦训练则通过全局提示和域提示分离通用与特定知识,增强泛化能力。 在 Office-Home 和 MiniDomainNet 等数据集上的大量实验表明,FedDCG 在 ImageNet-R 和 ImageNet-A 等零样本评估基准上均优于当前最先进的基线方法(如 FedTPG 和 DiPrompT)。例如,在 Office-Home 数据集上训练、ImageNet-R 测试时,FedDCG 的平均准确率达到 70.30%,比次优方法 DiPrompT 高出近 3%;在低采样率(50%)设置下,FedDCG 仍保持领先,证明了其在数据稀缺场景下的有效性。 FedDCG 不仅推动了联邦学习在复杂泛化任务中的前沿,还为实际应用如跨域图像分类和隐私保护下的模型部署提供了可行路径。该方法的高鲁棒性和效率使其适用于移动端智能处理等资源受限场景。
《FUSEMOS: PERCEPTUAL EVALUATION OF TEXT-TO-MUSIC GENERATION WITH DUAL-ENCODER FUSION AND RANKING-AWARE COMPOSITE LOSS》
论文作者:杨静、王皓宇、潘宁宁、王昭、杨剑轩、黄公平 生成音乐的感知评估对于文本到音乐(TTM)生成系统的发展至关重要。现有自动音乐感知评估方法主要依赖单一音频编码器提取音频特征,以预测人类标注的平均意见分数(MOS)。然而,单一编码器在捕捉音乐中复杂结构与细粒度特征方面能力有限。 为解决这一问题,本文提出 FUSEMOS,一个融合 CLAP 与 MERT 两大预训练模型的双编码器架构,通过优势互补实现更精准、更贴近人类听觉感知的评估。 CLAP 强化音频与文本的语义对齐能力,捕捉“文意匹配”;MERT 则基于大规模音乐数据自监督训练,有效建模旋律、节奏、和声等内在音乐结构特征;采用晚期融合策略,保留各模态独立表征能力,通过专用映射网络在得分层进行融合,避免早期特征干扰,充分挖掘双路径的互补性;同时,引入排名感知复合损失函数,结合截断回归损失与对比排序损失,不仅提升预测精度,更显著增强模型对人类偏好相对顺序的理解能力,有效缓解传统回归损失对绝对评分偏差的敏感性。 在 MusicEval 基准上的实验结果表明,FUSEMOS 在均方误差(MSE)和排序相关性(如 Spearman 相关系数)等关键指标上均显著优于现有方法,验证了其在音乐感知评估中的有效性。
《GLAP: GENERAL CONTRASTIVE AUDIO-TEXT PRETRAINING ACROSS DOMAINS AND LANGUAGES》
论文作者:Heinrich Dinkel、闫志勇、王天资、王永庆、孙兴伟、牛亚东,刘继忠、李罡、张俊博、栾剑 GLAP 实现了跨音频领域(语音 / 音乐 / 环境音)与跨语言的音频-文本对齐,能支持 RAG 形式的音频搜索。它首次通过单一框架同时优化语音、音乐及声音事件的检索与分类性能,解决了传统 CLAP 模型领域割裂的问题。在 LibriSpeech(英文)和 AISHELL-2(中文)语音检索上达到约 94% 与 99% 的 recall@1,同时在 AudioCaps 等声音检索基准保持 SOTA 竞争力。 GLAP 具备多语言泛化能力,无需目标语种微调,即可在 50 种语言的关键词识别(KWS)中展现 Zero-shot 能力。 GLAP 作为预训练模型,可直接赋能小米“人车家全生态”中需跨模态理解的场景,如:复杂声学场景下的鲁棒语音交互、车载多模指令理解、家居异常声音监测、以及音乐 / 音频内容的跨语言检索与生成。该模型将显著降低下游产品线(手机、音箱、汽车、可穿戴设备)的音频 AI 研发门槛,实现技术栈统一与效果提升。
《MEANFLOW-ACCELERATED MULTIMODAL VIDEO-TO-AUDIO SYNTHESIS VIA ONE-STEP GENERATION》
论文作者:杨晓冉、杨剑轩、郭新月、王皓宇、潘宁宁、黄公平 MeanFlow 为多模态音频生成任务构建了高效的基座模型,实现了视频同步音效生成(V2A)场景中推理效率与生成质量的双重突破,同时具备跨任务(视频生音效 / 文本生音效)的稳定泛化能力。 MeanFlow 首次在 V2A 任务中通过平均速度场建模替代传统流匹配(Flow Matching)模型的瞬时速度建模,从根本上解决了多步迭代采样导致的推理速度瓶颈,实现推理阶段的一步生成(one-step generation)。 针对无分类器引导(CFG)应用时易出现的一步生成失真问题,创新引入标量重缩放机制,通过精准平衡有条件与无条件预测,有效缓解失真现象。实验验证表明,该模型在实现推理速度 2×-500× 跃升的同时,可稳定保持优质的音效输出,且确保音视频语义对齐与时间同步性,综合性能处于领域领先水平。 MeanFlow 核心突破“效率与质量不可兼得”的行业痛点,通过平均速度场建模与标量重缩放机制的双重优化,在实现一步生成、推理速度大幅提升(8 秒音频生成仅需 0.056 秒)的同时,精准保障音效生成质量(SOTA)、音频分布匹配及音视频同步性(TOP2)。 基于多模态条件联合训练,该优势可自然延伸至文本生音效任务,无需额外微调适配即可实现音效稳定输出,实现“提效不损质、多场景适配”的核心价值。 MeanFlow 作为高效多模态生成的核心支柱,可直接赋能需实时音视频生成的各类实际场景,如:影视后期无声视频高效配音、短视频平台智能音效生成、虚拟形象实时交互、智能交互设备文本指令音效输出等。 该模型将显著降低下游音视频创作与智能交互产品的研发门槛,推动实时音效生成技术在内容创作、人机交互等领域的规模化落地,实现技术效率与应用体验的双重提升。
《THINK-CLIP-SAMPLE: SLOW-FAST FRAME SELECTION FOR VIDEO UNDERSTANDING》
* 中国人民大学-小米合作项目 论文作者:谭文辉、宋睿华、李佳泽、鞠建忠、罗振波 长视频理解一直是多模态大语言模型(MLLMs)面临的核心挑战。传统方法通常采用均匀帧采样或单一查询驱动的关键帧选择策略,但往往因计算资源限制、语义覆盖不全面等问题,导致对长视频内容的理解效果受限。 为此,小米大模型团队与中国人民大学高瓴人工智能学院联合提出了一种无需训练的帧选择框架 Think-Clip-Sample(TCS),通过多查询推理(Multi-Query Reasoning)和片段级慢快采样(Clip-level Slow-Fast Sampling)两大核心机制,显著提升了 MLLMs 在长视频问答任务中的准确性与效率。 TCS 框架首先通过多查询推理模块,利用 MLLM 从问题中自动生成多个视角的查询(如物体、场景、动作等),替代传统单一问题直接与帧匹配的方式,从而更全面地捕捉视频中的语义信息。 随后,基于 CLIP 模型计算各查询与视频帧的相似度,并通过聚合多视角得分增强帧选择的多样性与相关性。在帧采样阶段,TCS 提出片段级慢快采样策略,将总帧预算划分为“慢采样”与“快采样”两部分:慢采样集中于高相似度片段进行密集采样,以捕捉局部细节;快采样则从非高相关区域均匀抽取部分帧,保持全局上下文覆盖。该策略有效避免了传统 top-k 采样导致的语义重叠与信息遗漏问题,实现了细节与整体之间的平衡。 在 MLVU、LongVideoBench 和 VideoMME 三大主流长视频理解基准上的实验表明,TCS 在 Qwen2-VL-7B 与 MiMo-VL-7B 等主流 MLLM 基础上均取得显著效果提升,其中在 MLVU 数据集上最高提升达 6.9%,且在保持相当性能的前提下,推理时间降低超过 50%。 作为一项无需训练即插即用的增强框架,TCS 不仅显著推进了 MLLM 在长视频场景下的理解能力,也为资源受限的实际应用(如移动端视频分析、短视频智能处理等)提供了可行的技术路径。
《UNIFIED MULTIMODAL AND MULTILINGUAL RETRIEVAL VIA MULTI-TASK LEARNING WITH NLU INTEGRATION》
论文作者:张馨元,张丽娜,陈立崧,刘光耀,聂帅,许家铭,史润宇,黄英,张国全 在传统检索中,“找图、找文、意图理解”通常是三个独立训练的模型。意图理解模型先解析查询,将意图分别送入图像检索和文本检索模型,这会导致同一查询被重复编码检索,且语义空间未对齐,从而增加内存占用、降低运行速度,并影响检索准确性。 本研究提出了一种统的一多任务学习框架,将“找图、找文、意图理解”这三个任务整合到两个模型,一个架构中,在该框架下,文本编码器同时对齐图像和文本的语义空间,并通过跨注意力机制与 NLU 模型进行语义交互。 通过这一设计,一个模型就可以同时完成找文与找图任务,同时通过与 NLU 模型的跨注意力交互,实现意图感知和语义增强,节省模型数量、降低系统内存占用,并增强模型间的语义能力。此外,该框架支持多语言输入,实现跨模态、跨语言的高效语义对齐,为小米手机场景下的多模态检索提供了轻量化、高性能的解决方案。 该框架在找图与找文任务上均达到或超过现有最优方法,在多语言测试中,XTD10 数据集平均召回率达 93.3%,Multi30K 数据集达 94.8%,均超越 Jina-CLIP-v2 等主流模型 1.1%–2.7%,在 COCO-QLTI 文本检索数据集上平均性能达 85.1%,较原始文本编码器提升 48.4%。本方法在降低模型复杂度和存储开销的同时,验证了其在工业级多模态检索场景中的实用性与可扩展性。

来源:https://www.163.com/dy/article/KJSK8NPB0511B8LM.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌最强开源模型仅2B手机可跑免费商用
AI资讯
谷歌最强开源模型仅2B手机可跑免费商用

谷歌DeepMind今天扔下了一颗重磅冲击波:正式开源发布Gemma 4系列模型。根据官方说法,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而生。最引人注目的是,它号称实现了“单位参数下前所未有的智能水平”——换句话说,就是用更小的模型体量,干出更聪明的活儿。 先看几个硬核数据:其3

热心网友
05.20
港科大开源StarVLA视觉大模型 模块化架构大幅降低复现成本
AI资讯
港科大开源StarVLA视觉大模型 模块化架构大幅降低复现成本

当前,视觉语言动作模型(VLA)作为具身智能的核心技术路径,正面临严重的“碎片化”挑战。不同团队采用的动作解码范式各异,数据与训练管线深度绑定,评测标准互不统一,导致研究成果难以横向对比,复现成本高昂,这严重阻碍了领域基础模型的迭代与进步。 针对这一行业痛点,开源项目StarVLA并未选择盲目堆砌算

热心网友
05.19
中国AI独角兽推出龙虾养殖智能方案,助力养殖户高效增产
AI资讯
中国AI独角兽推出龙虾养殖智能方案,助力养殖户高效增产

在OpenClaw应用热潮席卷的当下,一个核心的安全隐患正日益凸显:云端隐私数据保护的缺位。想象一下,你刚向模型输入了一段公司的财务数据,下一秒这条敏感信息可能就已经在云端“裸奔”。这种担忧,正驱使着越来越多的用户将目光投向本地终端,期待能“安全养虾”。然而,端侧设备的有限算力,往往难以高效支撑复杂

热心网友
05.19
MiniMax多模态模型MMX-CLI上线:两行代码快速部署调用
AI资讯
MiniMax多模态模型MMX-CLI上线:两行代码快速部署调用

AI领域再添重磅工具。MiniMax稀宇科技正式推出MMX-CLI,一款专为AI Agent设计的命令行工具。它极大地简化了AI助手调用多模态能力的流程,无论是代码编写、图像创作还是视频生成,都能通过简洁指令轻松完成,显著提升开发与自动化效率。 根据官方发布的信息,MMX-CLI的核心优势在于“开箱

热心网友
05.19
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法
AI资讯
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法

头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

刑事案件电子数据取证密码获取程序拟明确
业界动态
刑事案件电子数据取证密码获取程序拟明确

公安部就电子数据取证规则公开征求意见,拟将网络安全等行政案件纳入适用范围,并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序,需经严格审批并保障当事人权利。配套法律文书也同步优化,以构建更规范且注重权利保障的取证体系。

热心网友
05.23
小鹏G9降价12万背后何小鹏的豪赌与挑战
业界动态
小鹏G9降价12万背后何小鹏的豪赌与挑战

理想L9和LIvis的定价策略刚掀起波澜,小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说,这叫“9系的产品,8系的价格”。 这12万元的下调,效果堪称立竿见影。发布会次日,小鹏集团港股股价一度大涨超8%。更关键的是市场订单:上市12小

热心网友
05.23
魏建军感谢于东来支援环塔拉力赛 红牛千箱胖东来厨师助阵
业界动态
魏建军感谢于东来支援环塔拉力赛 红牛千箱胖东来厨师助阵

5月21日,环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地,与参赛车手及后勤团队进行了深度交流。据悉,于东来此次自驾越野之旅已历时一月,随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比,他对以长城汽车为代表的国产越野车品质给

热心网友
05.23
2026年比特币官方APP下载入口及官网安全访问指南
web3.0
2026年比特币官方APP下载入口及官网安全访问指南

比特币官方入口在哪里?一个核心门户的权威指南 说起比特币,很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清:比特币本质上是一种去中心化的全球数字货币,它不属于任何一家公司或机构,而是由一个庞大的、遍布全球的社区共同维护。因此,它并没有传统意义上由某个企业运营的“官方网站”

热心网友
05.23
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解
AI资讯
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解

Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构

热心网友
05.23