小米AI成果入选国际顶会ICASSP 2026，雷军官宣多项创新

时间：2026-01-22 12:57

IT之家 1 月 22 日消息，小米创办人、董事长兼 CEO 雷军今日宣布，小米多项 AI 创新成果入选国际顶级会议 ICASSP 2026，包括音频理解、音乐生成评估、通用音频 - 文本预训练、视

IT之家 1 月 22 日消息，小米创办人、董事长兼 CEO 雷军今日宣布，小米多项 AI 创新成果入选国际顶级会议 ICASSP 2026，包括音频理解、音乐生成评估、通用音频 - 文本预训练、视频到音频合成等多个 AI 领域的技术研究成果。

IT之家注：ICASSP 是全球音频领域最具权威性与影响力之一的国际顶级学术会议，第一次会议于 1976 年在美国的费城举办，至今已有近 50 年的历史。ICASSP 2026 将于今年 5 月在西班牙巴塞罗那举办。

小米本次入选国际顶级会议 ICASSP 2026 的 AI 创新成果如下：

《ACAVCAPS: ENABLING LARGE-SCALE TRAINING FOR FINE-GRAINED AND DIVERSE AUDIO UNDERSTANDING》

论文作者：牛亚东、王天资、Heinrich Dinkel、孙兴伟、周嘉豪、李罡、刘继忠、张俊博、栾剑在音频理解领域，高质量数据集一直是提升模型性能的关键瓶颈。当前主流数据集普遍面临“规模大但描述简略”或“描述详尽但规模受限”的局限性。为缓解这一矛盾，我们推出了 ACAVCaps。该数据集通过创新的自动化管线，从多维度、多视角对音频内容进行精细化刻画，旨在突破现有数据集在规模与描述粒度上难以兼得的瓶颈。 ACAVCaps 构建了一套多级自动化标注框架。该管线利用多个专家模型并行提取原始音频中的声音事件、音乐特征、说话人属性及语音内容等关键元数据。随后，引入大语言模型（LLM）并采用思维链（Chain-of-Thought, CoT）推理策略，将碎片化的结构化信息进行逻辑整合。这种方法实现了从整体感知、语音细节、音乐元素到特定声音事件的全方位描述，使标注文本从单一的孤立标签进化为具备逻辑层次和上下文信息的自然语言。 ACAVCaps 包含约 470 万条音频-文本对，推动音频 AI 从简单的“特征识别”向深度的“语义理解”发展。ACAVCaps 数据集近期将全面开源。

《FEDERATED JOINT LEARNING FOR DOMAIN AND CLASS GENERALIZATION》

* 表示共同第一作者论文作者：许浩然 *、李佳泽 *、鞠建忠、罗振波联邦学习中的域泛化和类别泛化一直是视觉语言模型（如 CLIP）高效微调面临的核心挑战。传统方法通常单独处理未见的类别或未见的域，例如通过提示调优技术优化类别泛化或域泛化，但往往因决策边界混淆、计算资源限制等问题，导致在测试数据同时包含未见类别和未见域的复杂场景下性能受限。为此，我们提出了一种新颖方法 FedDCG（Federated Joint Learning for Domain and Class Generalization），通过域分组策略和类特定协作训练机制，首次在联邦学习设置下联合解决类别和域泛化问题，显著提升了模型在未知环境中的准确性与鲁棒性。 FedDCG 框架首先采用域分组策略，将客户端数据按域划分，并在每个域组内训练独立的类别泛化网络，以避免类别和领域决策边界之间的混淆。具体来说，方法包含三大核心机制：在训练阶段，通过类特定域分组协作训练交替优化类别泛化和域解耦知识；在推理阶段，则基于领域相似性进行引导聚合，整合全局和域特定知识。其中，类别泛化网络利用交叉注意力机制学习任务相关的提示向量，而域解耦训练则通过全局提示和域提示分离通用与特定知识，增强泛化能力。在 Office-Home 和 MiniDomainNet 等数据集上的大量实验表明，FedDCG 在 ImageNet-R 和 ImageNet-A 等零样本评估基准上均优于当前最先进的基线方法（如 FedTPG 和 DiPrompT）。例如，在 Office-Home 数据集上训练、ImageNet-R 测试时，FedDCG 的平均准确率达到 70.30%，比次优方法 DiPrompT 高出近 3%；在低采样率（50%）设置下，FedDCG 仍保持领先，证明了其在数据稀缺场景下的有效性。 FedDCG 不仅推动了联邦学习在复杂泛化任务中的前沿，还为实际应用如跨域图像分类和隐私保护下的模型部署提供了可行路径。该方法的高鲁棒性和效率使其适用于移动端智能处理等资源受限场景。

《FUSEMOS: PERCEPTUAL EVALUATION OF TEXT-TO-MUSIC GENERATION WITH DUAL-ENCODER FUSION AND RANKING-AWARE COMPOSITE LOSS》

论文作者：杨静、王皓宇、潘宁宁、王昭、杨剑轩、黄公平生成音乐的感知评估对于文本到音乐（TTM）生成系统的发展至关重要。现有自动音乐感知评估方法主要依赖单一音频编码器提取音频特征，以预测人类标注的平均意见分数（MOS）。然而，单一编码器在捕捉音乐中复杂结构与细粒度特征方面能力有限。为解决这一问题，本文提出 FUSEMOS，一个融合 CLAP 与 MERT 两大预训练模型的双编码器架构，通过优势互补实现更精准、更贴近人类听觉感知的评估。 CLAP 强化音频与文本的语义对齐能力，捕捉“文意匹配”；MERT 则基于大规模音乐数据自监督训练，有效建模旋律、节奏、和声等内在音乐结构特征；采用晚期融合策略，保留各模态独立表征能力，通过专用映射网络在得分层进行融合，避免早期特征干扰，充分挖掘双路径的互补性；同时，引入排名感知复合损失函数，结合截断回归损失与对比排序损失，不仅提升预测精度，更显著增强模型对人类偏好相对顺序的理解能力，有效缓解传统回归损失对绝对评分偏差的敏感性。在 MusicEval 基准上的实验结果表明，FUSEMOS 在均方误差（MSE）和排序相关性（如 Spearman 相关系数）等关键指标上均显著优于现有方法，验证了其在音乐感知评估中的有效性。

《GLAP: GENERAL CONTRASTIVE AUDIO-TEXT PRETRAINING ACROSS DOMAINS AND LANGUAGES》

论文作者：Heinrich Dinkel、闫志勇、王天资、王永庆、孙兴伟、牛亚东，刘继忠、李罡、张俊博、栾剑 GLAP 实现了跨音频领域（语音 / 音乐 / 环境音）与跨语言的音频-文本对齐，能支持 RAG 形式的音频搜索。它首次通过单一框架同时优化语音、音乐及声音事件的检索与分类性能，解决了传统 CLAP 模型领域割裂的问题。在 LibriSpeech（英文）和 AISHELL-2（中文）语音检索上达到约 94% 与 99% 的 recall@1，同时在 AudioCaps 等声音检索基准保持 SOTA 竞争力。 GLAP 具备多语言泛化能力，无需目标语种微调，即可在 50 种语言的关键词识别（KWS）中展现 Zero-shot 能力。 GLAP 作为预训练模型，可直接赋能小米“人车家全生态”中需跨模态理解的场景，如：复杂声学场景下的鲁棒语音交互、车载多模指令理解、家居异常声音监测、以及音乐 / 音频内容的跨语言检索与生成。该模型将显著降低下游产品线（手机、音箱、汽车、可穿戴设备）的音频 AI 研发门槛，实现技术栈统一与效果提升。

《MEANFLOW-ACCELERATED MULTIMODAL VIDEO-TO-AUDIO SYNTHESIS VIA ONE-STEP GENERATION》

论文作者：杨晓冉、杨剑轩、郭新月、王皓宇、潘宁宁、黄公平 MeanFlow 为多模态音频生成任务构建了高效的基座模型，实现了视频同步音效生成（V2A）场景中推理效率与生成质量的双重突破，同时具备跨任务（视频生音效 / 文本生音效）的稳定泛化能力。 MeanFlow 首次在 V2A 任务中通过平均速度场建模替代传统流匹配（Flow Matching）模型的瞬时速度建模，从根本上解决了多步迭代采样导致的推理速度瓶颈，实现推理阶段的一步生成（one-step generation）。针对无分类器引导（CFG）应用时易出现的一步生成失真问题，创新引入标量重缩放机制，通过精准平衡有条件与无条件预测，有效缓解失真现象。实验验证表明，该模型在实现推理速度 2×-500× 跃升的同时，可稳定保持优质的音效输出，且确保音视频语义对齐与时间同步性，综合性能处于领域领先水平。 MeanFlow 核心突破“效率与质量不可兼得”的行业痛点，通过平均速度场建模与标量重缩放机制的双重优化，在实现一步生成、推理速度大幅提升（8 秒音频生成仅需 0.056 秒）的同时，精准保障音效生成质量（SOTA）、音频分布匹配及音视频同步性（TOP2）。基于多模态条件联合训练，该优势可自然延伸至文本生音效任务，无需额外微调适配即可实现音效稳定输出，实现“提效不损质、多场景适配”的核心价值。 MeanFlow 作为高效多模态生成的核心支柱，可直接赋能需实时音视频生成的各类实际场景，如：影视后期无声视频高效配音、短视频平台智能音效生成、虚拟形象实时交互、智能交互设备文本指令音效输出等。该模型将显著降低下游音视频创作与智能交互产品的研发门槛，推动实时音效生成技术在内容创作、人机交互等领域的规模化落地，实现技术效率与应用体验的双重提升。

《THINK-CLIP-SAMPLE: SLOW-FAST FRAME SELECTION FOR VIDEO UNDERSTANDING》

* 中国人民大学-小米合作项目论文作者：谭文辉、宋睿华、李佳泽、鞠建忠、罗振波长视频理解一直是多模态大语言模型（MLLMs）面临的核心挑战。传统方法通常采用均匀帧采样或单一查询驱动的关键帧选择策略，但往往因计算资源限制、语义覆盖不全面等问题，导致对长视频内容的理解效果受限。为此，小米大模型团队与中国人民大学高瓴人工智能学院联合提出了一种无需训练的帧选择框架 Think-Clip-Sample（TCS），通过多查询推理（Multi-Query Reasoning）和片段级慢快采样（Clip-level Slow-Fast Sampling）两大核心机制，显著提升了 MLLMs 在长视频问答任务中的准确性与效率。 TCS 框架首先通过多查询推理模块，利用 MLLM 从问题中自动生成多个视角的查询（如物体、场景、动作等），替代传统单一问题直接与帧匹配的方式，从而更全面地捕捉视频中的语义信息。随后，基于 CLIP 模型计算各查询与视频帧的相似度，并通过聚合多视角得分增强帧选择的多样性与相关性。在帧采样阶段，TCS 提出片段级慢快采样策略，将总帧预算划分为“慢采样”与“快采样”两部分：慢采样集中于高相似度片段进行密集采样，以捕捉局部细节；快采样则从非高相关区域均匀抽取部分帧，保持全局上下文覆盖。该策略有效避免了传统 top-k 采样导致的语义重叠与信息遗漏问题，实现了细节与整体之间的平衡。在 MLVU、LongVideoBench 和 VideoMME 三大主流长视频理解基准上的实验表明，TCS 在 Qwen2-VL-7B 与 MiMo-VL-7B 等主流 MLLM 基础上均取得显著效果提升，其中在 MLVU 数据集上最高提升达 6.9%，且在保持相当性能的前提下，推理时间降低超过 50%。作为一项无需训练即插即用的增强框架，TCS 不仅显著推进了 MLLM 在长视频场景下的理解能力，也为资源受限的实际应用（如移动端视频分析、短视频智能处理等）提供了可行的技术路径。

《UNIFIED MULTIMODAL AND MULTILINGUAL RETRIEVAL VIA MULTI-TASK LEARNING WITH NLU INTEGRATION》

论文作者：张馨元，张丽娜，陈立崧，刘光耀，聂帅，许家铭，史润宇，黄英，张国全在传统检索中，“找图、找文、意图理解”通常是三个独立训练的模型。意图理解模型先解析查询，将意图分别送入图像检索和文本检索模型，这会导致同一查询被重复编码检索，且语义空间未对齐，从而增加内存占用、降低运行速度，并影响检索准确性。本研究提出了一种统的一多任务学习框架，将“找图、找文、意图理解”这三个任务整合到两个模型，一个架构中，在该框架下，文本编码器同时对齐图像和文本的语义空间，并通过跨注意力机制与 NLU 模型进行语义交互。通过这一设计，一个模型就可以同时完成找文与找图任务，同时通过与 NLU 模型的跨注意力交互，实现意图感知和语义增强，节省模型数量、降低系统内存占用，并增强模型间的语义能力。此外，该框架支持多语言输入，实现跨模态、跨语言的高效语义对齐，为小米手机场景下的多模态检索提供了轻量化、高性能的解决方案。该框架在找图与找文任务上均达到或超过现有最优方法，在多语言测试中，XTD10 数据集平均召回率达 93.3%，Multi30K 数据集达 94.8%，均超越 Jina-CLIP-v2 等主流模型 1.1%–2.7%，在 COCO-QLTI 文本检索数据集上平均性能达 85.1%，较原始文本编码器提升 48.4%。本方法在降低模型复杂度和存储开销的同时，验证了其在工业级多模态检索场景中的实用性与可扩展性。

来源：https://www.163.com/dy/article/KJSK8NPB0511B8LM.html