首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
复旦×创智团队推出新语音模型,超越GPT与Gemini优势解析

复旦×创智团队推出新语音模型,超越GPT与Gemini优势解析

热心网友
38
转载
2026-01-26



编辑|泽南、杜伟

在语音大模型赛道上,GPT-4o、Gemini 的能力遥遥领先。

近日,由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别(ASR)模型 MOSS-Transcribe-Diarize,不但可以语音转文字,还可以将音频片段与对话中不同的说话者关联起来,性能超过了 GPT-4o、Gemini、豆包等一众模型。

多人说话场景的语音转录是语音识别领域的落地痛点问题。以往模型一旦遇到多人抢着说话就可能听不清、记不准。现在 MOSS-Transcribe-Diarize 摸透了多人说话逻辑,能够轻松应对混乱插话、频繁切话或者重叠说话等复杂场景,真正掌握了「说哪记哪、听声辩人」的技能。

MOSS-Transcribe-Diarize 在语音识别与分析领域具有突破性意义,解决了语音领域最后的落地痛点。MOSS-Transcribe-Diarize 支持 128K 的长上下文窗口,可以一次性输入并处理长达 90 分钟的音频,突出了复杂场景下的抗干扰能力。

MOSS-Transcribe-Diarize 的跑分成绩同样亮眼。在 AISHELL-4、Podcast、Movies 等多个语音基准测试中,模型均取得了业界最优(SOTA)的整体表现。尤其是在影视剧场景下,背景音更杂、多人同时说话、频繁插话、声音重叠,是语音转录里最乱、也最接近真实应用的情况。即便面对这样的复杂语音条件,MOSS-Transcribe-Diarize 依然稳定跑出了当前业界最优的整体成绩:



此处 GPT-4o 特指 gpt-4o-transcribe-diarize

再更具体一点,该模型实现了:

最低的 CER(字错误率)与 cpCER(最优排列字错误率):在多说话人混合与重叠场景下取得业内领先的转录准确率。最佳的 Δcp 指标(说话人分离性能 ):相比于其它因为长音频切片而导致的说话人识别不一致的模型,MOSS-Transcribe-Diarize 保持了最好的说话人标签准确性和一致性。超长音频处理:在面对超长音频时,当前顶尖商业模型(如 GPT-4o Transcribe Diarize、Gemini 3 Pro)受限于输入长度或输出格式的稳定性,而 MOSS-Transcribe-Diarize 能够稳定输出完整的带有说话人以及时间戳的语音转录结果。

实战效果惊艳,经典名场面「华强买瓜」:



Mygo 的飞鸟山公园:



视频链接:https://mp.weixin.qq.com/s/LoP4twE1X5UFSY3G7g42mQ

看起来 AI 模型可以把说话人和每个人所讲的内容识别地清清楚楚,不论是嘈杂的环境音,人物的方言、俚语,还是因为情感波动表现出的喊叫、哭泣等都不会影响 AI 的判断。

首个统一多模态模型,挑战 AI 语音最难题

MOSS-Transcribe-Diarize 的特点不仅在于语音能力,它作为统一的端到端多模态语音转录模型,能够像人类一样,在「听」的过程中同时完成「听懂内容」、「识别是谁说的」以及「记录说话时间」这三件事。

它主要解决的是语音处理中一个经典且极具挑战的问题:SATS,即「带说话人归属和时间戳的转录」。 想象一下,在参加环境嘈杂、一堆人在场的会议时,大家你一言我一语,乱哄哄一片。这种面向多说话人的转录既要求内容准确,也要标明「何人何时发言」。

但是,传统的模块化组件拼接方案(如自动语音识别 + 说话人日志)引入 LLM 的半级联方案(使用自动语音识别和说话人日志生成候选内容,然后利用 LLM 修正错误)以及近期将识别与归属统一在多模态框架下的尝试(如 Sortformer、SpeakerLM、JEDIS-LLM 等)都不同程度地存在着缺陷,比如级联方案对于说话人重叠的音频表现不鲁棒,其他方案对长时间多说话人对话的转录效果不佳,亟需更优的解决方案。

邱锡鹏团队发布的 MOSS-Transcribe-Diarize 一扫现有 SATS 方案的不足,一举解决了三大核心瓶颈,即长上下文窗口受限、长时记忆脆弱和缺乏原生时间戳。相关技术报告已在几天前发布,同时最新也开放了API 接口,目前为限时免费期,感兴趣的同学可自行体验:

技术报告:https://arxiv.org/pdf/2601.01554模型主页:https://mosi.cn/models/moss-transcribe-diarizeAPI 接入:https://studio.mosi.cn/docs/moss-transcribe-diarize

其中展示了新模型的大量技术特点:其作为一个统一的多模态大语言模型,可以通过端到端的方式同时执行语音识别(ASR)、说话人归属和时间戳预测,消除可能产生的误差传播。

为了达成这些效果,MOSS-Transcribe-Diarize 在模型架构、训练数据组成上形成了一套自己的解法。

在架构设计上,它采用了统一的音频 - 文本多模态架构

设计者将多说话人的声学表示投影到预训练文本 LLM 的特征空间中,使得该模型在单一的端到端框架内能够联合建模词汇内容、说话人归属和时间戳预测。

模型在一个推理过程中直接输出带有 [S01]、[S02] 标签和精确时间戳的文本。这种机制利用了语义信息来辅助说话人识别(例如,通过说话内容的连贯性来判断是否换人了),极大地提高了识别准确率。

在训练数据的组成上,采用「虚实结合」的策略

MOSS-Transcribe-Diarize 使用大量真实世界的对话音频以及通过概率模拟器生成的合成数据进行训练,增强了对重叠语音、轮替和声学变化等性能指标的鲁棒性。该模型训练使用的真实数据包含了从公共语料库中采样的大量说话人片段,并覆盖了现实中不同类型的多说话人场景。

得益于架构与数据层面的一系列巧思,MOSS-Transcribe-Diarize 才能够一举攻克行业长期以来面临的长对话和多说话人转录难题。

长短音频、切话叠音,多场景表现最优

在与国内外顶级模型的较量中,MOSS-Transcribe-Diarize 在多个基准测试中拿下 SOTA 成绩。它究竟强在哪些方面呢?我们接下来进行了一番深入探究。

1)在包含近 40 分钟真实世界会议录音的 AISHELL-4 数据集上,MOSS-Transcribe-Diarize 在 CER 和 cpCER 两项指标上大幅优于所有基线模型,并表现出了更低的 Δcp 值。这验证了相较于纯粹的 ASR 错误,由说话人归属错误引入的额外性能衰退要少得多,并由此证明了长上下文、端到端建模在长对话中维持说话人一致性方面的有效性。

相比之下,GPT-4o 和 Gemini 3 Pro 均无法可靠地处理 AISHELL-4 等长音频输入,前者受限于音频输入长度,无法完成完整录音转录;后者无法生成符合既定说话人归属格式的有效输出。



2)在Podcast 数据集(多说话人播客访谈场景)上,MOSS-Transcribe-Diarize 再次取得所有参评模型中最低的 CER 和 cpCER。尽管其他基线模型也达到很高的 ASR 准确率,但在 Δcp 值这点上落败了。这表明,在频繁的话轮转换和长跨度的说话人重现场景下,MOSS-Transcribe-Diarize 能够让说话人归属更加准确。



3)在Movies 数据集(复杂影视剧场景)上,强调短促话语、快速说话人交替以及频繁的语音重叠场景,MOSS-Transcribe-Diarize 面对这种短语音转录任务依然优于所有基线模型。它还在 CER 和 cpCER 两项指标之间保持了相对较小的差距,这意味着不仅能听清说了什么,还能非常精准地判断出是谁说的。



目标:情境智能

MOSS 系列大模型的背后,是国内 AI 领域领军人物,复旦大学教授邱锡鹏带领的团队。在中国 AI 版图中,他们显得极具特色。该团队的 MOSS 模型是国内第一个对标 ChatGPT 并开源的对话式大语言模型,并提出了最早的具有内生语音能力的大模型 SpeechGPT 和原生端到端全模态大模型 AnyGPT。团队组建的模思智能(MOSI AI)则由上海创智学院与复旦大学自主孵化,是一家专注面向情境智能的多模态大模型公司。

他们保持了一条清晰且具有战略眼光的技术路径:让大模型理解复杂的真实世界情境,并以情境多模态实现通用人工智能。在这条路线上,他们一直在不断探索,发布了一系列多模态领域的前沿技术成果:

去年 7 月,模思开源了革命性的对话语音合成模型MOSS-TTSD,能够根据完整的多人对话文本,直接生成高质量对话语音。去年 11 月,MOSS-Speech的发布展现了语音 AI 技术的突破,实现了 SOTA 性能。这是一个无文本引导的真端到端语音大模型,可以在保持模型高智商程度的前提下,解决人机低时延交互的挑战。最近发布的MOSS-Transcribe-Diarize,则攻克了复杂日常多人对话场景的语音识别,对于多模态 AI 的实际落地具有重要意义。

这一系列技术成果可覆盖实时对话交互、复杂场景音频生成、高鲁棒性语音理解、多模态交互等核心能力场景,在流畅度、响应速度、理解能力和可控性方面实现了行业领先表现。

面向未来,模思将持续深耕让 AI「理解用户所处的全局情境」的多模态智能,通过规模化物理世界的复杂真实情境,实现真正自然、连贯、可成长、可信赖的智能交互,推动多模态交互与具身智能的产业化落地。

来源:https://www.163.com/dy/article/KJO3IJ5O0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌最强开源模型仅2B手机可跑免费商用
AI资讯
谷歌最强开源模型仅2B手机可跑免费商用

谷歌DeepMind今天扔下了一颗重磅冲击波:正式开源发布Gemma 4系列模型。根据官方说法,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而生。最引人注目的是,它号称实现了“单位参数下前所未有的智能水平”——换句话说,就是用更小的模型体量,干出更聪明的活儿。 先看几个硬核数据:其3

热心网友
05.20
港科大开源StarVLA视觉大模型 模块化架构大幅降低复现成本
AI资讯
港科大开源StarVLA视觉大模型 模块化架构大幅降低复现成本

当前,视觉语言动作模型(VLA)作为具身智能的核心技术路径,正面临严重的“碎片化”挑战。不同团队采用的动作解码范式各异,数据与训练管线深度绑定,评测标准互不统一,导致研究成果难以横向对比,复现成本高昂,这严重阻碍了领域基础模型的迭代与进步。 针对这一行业痛点,开源项目StarVLA并未选择盲目堆砌算

热心网友
05.19
中国AI独角兽推出龙虾养殖智能方案,助力养殖户高效增产
AI资讯
中国AI独角兽推出龙虾养殖智能方案,助力养殖户高效增产

在OpenClaw应用热潮席卷的当下,一个核心的安全隐患正日益凸显:云端隐私数据保护的缺位。想象一下,你刚向模型输入了一段公司的财务数据,下一秒这条敏感信息可能就已经在云端“裸奔”。这种担忧,正驱使着越来越多的用户将目光投向本地终端,期待能“安全养虾”。然而,端侧设备的有限算力,往往难以高效支撑复杂

热心网友
05.19
MiniMax多模态模型MMX-CLI上线:两行代码快速部署调用
AI资讯
MiniMax多模态模型MMX-CLI上线:两行代码快速部署调用

AI领域再添重磅工具。MiniMax稀宇科技正式推出MMX-CLI,一款专为AI Agent设计的命令行工具。它极大地简化了AI助手调用多模态能力的流程,无论是代码编写、图像创作还是视频生成,都能通过简洁指令轻松完成,显著提升开发与自动化效率。 根据官方发布的信息,MMX-CLI的核心优势在于“开箱

热心网友
05.19
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法
AI资讯
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法

头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

SOL合约持仓量查询指南 如何查看SOL合约持仓数据与市场趋势
web3.0
SOL合约持仓量查询指南 如何查看SOL合约持仓数据与市场趋势

洞察市场先机:SOL合约持仓量深度解析与实战应用 在瞬息万变的加密货币衍生品市场,SOL合约持仓量如同一张实时绘制的“资金热力图”。它不仅揭示了多空双方投入的真实资本规模,更映射出市场情绪的微妙变化与潜在的趋势转折点。对于精明的交易者而言,掌握解读这张“地图”的能力,意味着能在市场博弈中抢占信息高地

热心网友
05.23
像素秘境唤灵师官网下载与正版安装地址获取指南
游戏攻略
像素秘境唤灵师官网下载与正版安装地址获取指南

《像素秘境·唤灵师》可通过九游APP或官网下载。在九游APP搜索游戏名即可预约并获取最新版,官网专区也提供高速与普通下载选项。两种方式均能便捷安装,专区还附有游戏攻略供参考。

热心网友
05.23
告别价格战中国车市迎来高质量发展新阶段
科技数码
告别价格战中国车市迎来高质量发展新阶段

车市价格战正处微妙临界点。二季度起,一股与以往降价潮不同的涨价暗流开始酝酿。截至五月中旬,至少15家主流新能源品牌已释放调价信号,或直接涨价,或收紧优惠,涉及比亚迪、特斯拉、蔚来等传统及新势力车企。

热心网友
05.23
上古卷轴5重制版奥杜因克星主线任务通关全攻略
游戏资讯
上古卷轴5重制版奥杜因克星主线任务通关全攻略

说起《上古卷轴5:重制版》的主线旅程,奥杜因克星任务绝对是一座绕不开的高峰。它不仅是叙事的关键转折点,更是一场对玩家策略、操作与耐心的综合试炼。想要征服这条恶龙,光有勇气可不够,一份清晰的行动路线图至关重要。接下来,我们就一起梳理一下这场终极对决的核心脉络与实用技巧。 一、剑指目标:前往奥杜因克星的

热心网友
05.23
SOL合约限价单最小价格单位详解与设置指南
web3.0
SOL合约限价单最小价格单位详解与设置指南

SOL合约限价单的最小价格单位是0 001美元。该单位是交易时报价的最小变动值,直接影响订单的精确性与灵活性。了解此规则对合约交易者有效设置订单和管理策略至关重要。

热心网友
05.23