首页 游戏 软件 资讯 排行榜 专题
首页
AI
复旦×创智团队推出新语音模型,超越GPT与Gemini优势解析

复旦×创智团队推出新语音模型,超越GPT与Gemini优势解析

热心网友
17
转载
2026-01-26



免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

编辑|泽南、杜伟

在语音大模型赛道上,GPT-4o、Gemini 的能力遥遥领先。

近日,由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别(ASR)模型 MOSS-Transcribe-Diarize,不但可以语音转文字,还可以将音频片段与对话中不同的说话者关联起来,性能超过了 GPT-4o、Gemini、豆包等一众模型。

多人说话场景的语音转录是语音识别领域的落地痛点问题。以往模型一旦遇到多人抢着说话就可能听不清、记不准。现在 MOSS-Transcribe-Diarize 摸透了多人说话逻辑,能够轻松应对混乱插话、频繁切话或者重叠说话等复杂场景,真正掌握了「说哪记哪、听声辩人」的技能。

MOSS-Transcribe-Diarize 在语音识别与分析领域具有突破性意义,解决了语音领域最后的落地痛点。MOSS-Transcribe-Diarize 支持 128K 的长上下文窗口,可以一次性输入并处理长达 90 分钟的音频,突出了复杂场景下的抗干扰能力。

MOSS-Transcribe-Diarize 的跑分成绩同样亮眼。在 AISHELL-4、Podcast、Movies 等多个语音基准测试中,模型均取得了业界最优(SOTA)的整体表现。尤其是在影视剧场景下,背景音更杂、多人同时说话、频繁插话、声音重叠,是语音转录里最乱、也最接近真实应用的情况。即便面对这样的复杂语音条件,MOSS-Transcribe-Diarize 依然稳定跑出了当前业界最优的整体成绩:



此处 GPT-4o 特指 gpt-4o-transcribe-diarize

再更具体一点,该模型实现了:

最低的 CER(字错误率)与 cpCER(最优排列字错误率):在多说话人混合与重叠场景下取得业内领先的转录准确率。最佳的 Δcp 指标(说话人分离性能 ):相比于其它因为长音频切片而导致的说话人识别不一致的模型,MOSS-Transcribe-Diarize 保持了最好的说话人标签准确性和一致性。超长音频处理:在面对超长音频时,当前顶尖商业模型(如 GPT-4o Transcribe Diarize、Gemini 3 Pro)受限于输入长度或输出格式的稳定性,而 MOSS-Transcribe-Diarize 能够稳定输出完整的带有说话人以及时间戳的语音转录结果。

实战效果惊艳,经典名场面「华强买瓜」:



Mygo 的飞鸟山公园:



视频链接:https://mp.weixin.qq.com/s/LoP4twE1X5UFSY3G7g42mQ

看起来 AI 模型可以把说话人和每个人所讲的内容识别地清清楚楚,不论是嘈杂的环境音,人物的方言、俚语,还是因为情感波动表现出的喊叫、哭泣等都不会影响 AI 的判断。

首个统一多模态模型,挑战 AI 语音最难题

MOSS-Transcribe-Diarize 的特点不仅在于语音能力,它作为统一的端到端多模态语音转录模型,能够像人类一样,在「听」的过程中同时完成「听懂内容」、「识别是谁说的」以及「记录说话时间」这三件事。

它主要解决的是语音处理中一个经典且极具挑战的问题:SATS,即「带说话人归属和时间戳的转录」。 想象一下,在参加环境嘈杂、一堆人在场的会议时,大家你一言我一语,乱哄哄一片。这种面向多说话人的转录既要求内容准确,也要标明「何人何时发言」。

但是,传统的模块化组件拼接方案(如自动语音识别 + 说话人日志)引入 LLM 的半级联方案(使用自动语音识别和说话人日志生成候选内容,然后利用 LLM 修正错误)以及近期将识别与归属统一在多模态框架下的尝试(如 Sortformer、SpeakerLM、JEDIS-LLM 等)都不同程度地存在着缺陷,比如级联方案对于说话人重叠的音频表现不鲁棒,其他方案对长时间多说话人对话的转录效果不佳,亟需更优的解决方案。

邱锡鹏团队发布的 MOSS-Transcribe-Diarize 一扫现有 SATS 方案的不足,一举解决了三大核心瓶颈,即长上下文窗口受限、长时记忆脆弱和缺乏原生时间戳。相关技术报告已在几天前发布,同时最新也开放了API 接口,目前为限时免费期,感兴趣的同学可自行体验:

技术报告:https://arxiv.org/pdf/2601.01554模型主页:https://mosi.cn/models/moss-transcribe-diarizeAPI 接入:https://studio.mosi.cn/docs/moss-transcribe-diarize

其中展示了新模型的大量技术特点:其作为一个统一的多模态大语言模型,可以通过端到端的方式同时执行语音识别(ASR)、说话人归属和时间戳预测,消除可能产生的误差传播。

为了达成这些效果,MOSS-Transcribe-Diarize 在模型架构、训练数据组成上形成了一套自己的解法。

在架构设计上,它采用了统一的音频 - 文本多模态架构

设计者将多说话人的声学表示投影到预训练文本 LLM 的特征空间中,使得该模型在单一的端到端框架内能够联合建模词汇内容、说话人归属和时间戳预测。

模型在一个推理过程中直接输出带有 [S01]、[S02] 标签和精确时间戳的文本。这种机制利用了语义信息来辅助说话人识别(例如,通过说话内容的连贯性来判断是否换人了),极大地提高了识别准确率。

在训练数据的组成上,采用「虚实结合」的策略

MOSS-Transcribe-Diarize 使用大量真实世界的对话音频以及通过概率模拟器生成的合成数据进行训练,增强了对重叠语音、轮替和声学变化等性能指标的鲁棒性。该模型训练使用的真实数据包含了从公共语料库中采样的大量说话人片段,并覆盖了现实中不同类型的多说话人场景。

得益于架构与数据层面的一系列巧思,MOSS-Transcribe-Diarize 才能够一举攻克行业长期以来面临的长对话和多说话人转录难题。

长短音频、切话叠音,多场景表现最优

在与国内外顶级模型的较量中,MOSS-Transcribe-Diarize 在多个基准测试中拿下 SOTA 成绩。它究竟强在哪些方面呢?我们接下来进行了一番深入探究。

1)在包含近 40 分钟真实世界会议录音的 AISHELL-4 数据集上,MOSS-Transcribe-Diarize 在 CER 和 cpCER 两项指标上大幅优于所有基线模型,并表现出了更低的 Δcp 值。这验证了相较于纯粹的 ASR 错误,由说话人归属错误引入的额外性能衰退要少得多,并由此证明了长上下文、端到端建模在长对话中维持说话人一致性方面的有效性。

相比之下,GPT-4o 和 Gemini 3 Pro 均无法可靠地处理 AISHELL-4 等长音频输入,前者受限于音频输入长度,无法完成完整录音转录;后者无法生成符合既定说话人归属格式的有效输出。



2)在Podcast 数据集(多说话人播客访谈场景)上,MOSS-Transcribe-Diarize 再次取得所有参评模型中最低的 CER 和 cpCER。尽管其他基线模型也达到很高的 ASR 准确率,但在 Δcp 值这点上落败了。这表明,在频繁的话轮转换和长跨度的说话人重现场景下,MOSS-Transcribe-Diarize 能够让说话人归属更加准确。



3)在Movies 数据集(复杂影视剧场景)上,强调短促话语、快速说话人交替以及频繁的语音重叠场景,MOSS-Transcribe-Diarize 面对这种短语音转录任务依然优于所有基线模型。它还在 CER 和 cpCER 两项指标之间保持了相对较小的差距,这意味着不仅能听清说了什么,还能非常精准地判断出是谁说的。



目标:情境智能

MOSS 系列大模型的背后,是国内 AI 领域领军人物,复旦大学教授邱锡鹏带领的团队。在中国 AI 版图中,他们显得极具特色。该团队的 MOSS 模型是国内第一个对标 ChatGPT 并开源的对话式大语言模型,并提出了最早的具有内生语音能力的大模型 SpeechGPT 和原生端到端全模态大模型 AnyGPT。团队组建的模思智能(MOSI AI)则由上海创智学院与复旦大学自主孵化,是一家专注面向情境智能的多模态大模型公司。

他们保持了一条清晰且具有战略眼光的技术路径:让大模型理解复杂的真实世界情境,并以情境多模态实现通用人工智能。在这条路线上,他们一直在不断探索,发布了一系列多模态领域的前沿技术成果:

去年 7 月,模思开源了革命性的对话语音合成模型MOSS-TTSD,能够根据完整的多人对话文本,直接生成高质量对话语音。去年 11 月,MOSS-Speech的发布展现了语音 AI 技术的突破,实现了 SOTA 性能。这是一个无文本引导的真端到端语音大模型,可以在保持模型高智商程度的前提下,解决人机低时延交互的挑战。最近发布的MOSS-Transcribe-Diarize,则攻克了复杂日常多人对话场景的语音识别,对于多模态 AI 的实际落地具有重要意义。

这一系列技术成果可覆盖实时对话交互、复杂场景音频生成、高鲁棒性语音理解、多模态交互等核心能力场景,在流畅度、响应速度、理解能力和可控性方面实现了行业领先表现。

面向未来,模思将持续深耕让 AI「理解用户所处的全局情境」的多模态智能,通过规模化物理世界的复杂真实情境,实现真正自然、连贯、可成长、可信赖的智能交互,推动多模态交互与具身智能的产业化落地。

来源:https://www.163.com/dy/article/KJO3IJ5O0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI看图能力真伪探秘:它是否真是编出来的?
科技数码
AI看图能力真伪探秘:它是否真是编出来的?

一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回

热心网友
04.01
中信证券:关注大模型迭代带来的模型原厂、应用与基础设施机遇
科技数码
中信证券:关注大模型迭代带来的模型原厂、应用与基础设施机遇

智通财经APP获悉,中信证券发布研报称,2026年以来,国产大模型厂商聚焦Agent及代码能力升级,竞相发布新模型。即将发布的DeepSeek下一代新模型有望延续高性价比开源模型路线,在能力上实现更

热心网友
04.01
超级风口将至:万亿资本竞逐物理AI新赛道
科技数码
超级风口将至:万亿资本竞逐物理AI新赛道

今年兴起的“龙虾”(OpenClaw)热潮展现出人工智能(AI)无所不能的一面,它可以抓数据、写代码、生成大片、接管计算机。然而一旦脱离屏幕,机器人面对现实世界时宛如稚嫩的孩童,仅能完成固定、流程化

热心网友
04.01
万亿资本角逐物理AI赛道:世界模型融资盛宴正酣
科技数码
万亿资本角逐物理AI赛道:世界模型融资盛宴正酣

证券时报记者 陈雨康今年兴起的“龙虾”(OpenClaw)热潮展现出人工智能(AI)无所不能的一面,它可以抓数据、写代码、生成大片、接管计算机。然而一旦脱离屏幕,机器人面对现实世界时宛如稚嫩的孩童,

热心网友
04.01
复旦大学AI突破:视频画面几何直觉永久记忆技术解析
科技数码
复旦大学AI突破:视频画面几何直觉永久记忆技术解析

这项由复旦大学未来信息技术学院和上海创新研究院联合开展的研究发表于2026年3月的计算机视觉顶级会议论文集,论文编号为arXiv:2603 19571v1。对这一前沿技术感兴趣的读者可以通过该编号查

热心网友
03.31

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

G胖退出Valve游戏开发 怕员工不敢反驳
游戏资讯
G胖退出Valve游戏开发 怕员工不敢反驳

V社联合创始人G胖调整角色:从主导开发转向赋能团队,释放创意生产力 近期一则消息引发游戏行业广泛关注:Valve联合创始人加布·纽维尔(“G胖”)在公司内部进行了一次重要角色转型。此次调整的关键原因,与他个人在公司中的特殊影响力息息相关。根据透露,这位创始人决定减少在具体游戏开发工作中的直接深度参与

热心网友
04.05
红魔姜超“冒险爆料”:Pad 新品不是四月就是五月发布,一定不让大家失望
科技数码
红魔姜超“冒险爆料”:Pad 新品不是四月就是五月发布,一定不让大家失望

红魔姜超透露:全新游戏平板将于四月或五月发布,承诺带来惊艳体验 游戏硬件领域即将迎来重磅更新。努比亚红魔游戏手机的产品线负责人姜超,近日通过社交媒体进行了一次颇具悬念的“前瞻剧透”,成功引发了广大游戏玩家和科技爱好者的高度关注。他明确指出,红魔全新一代游戏平板的发布日期已锁定在四月或五月,并使用了“

热心网友
04.05
金铲铲之战S17天煞羁绊效果一览
游戏攻略
金铲铲之战S17天煞羁绊效果一览

金铲铲之战S17天煞羁绊:效果解析与实战应用 在《金铲铲之战》S17赛季中,【天煞】是一个定位独特的专属羁绊,仅由5费英雄“劫”所携带。激活这一羁绊需要特定的前置条件——玩家必须在强化符文选择阶段获得【入侵者劫】。一旦成功解锁,劫将获得全新的技能机制,从而在战局中发挥出颠覆性的作用。 金铲铲之战S1

热心网友
04.05
蓝点工作室被索尼移除 第一方阵容调整
游戏资讯
蓝点工作室被索尼移除 第一方阵容调整

索尼调整第一方工作室阵容,王牌重制团队蓝点工作室正式“退出”核心名单 近日,索尼在其PlayStation Studios官方网站的更新中做出了一项关键调整,引发了游戏玩家和行业观察者的广泛关注:曾凭借《恶魔之魂:重制版》等作品赢得盛誉的蓝点工作室,已不再出现在索尼核心第一方工作室的名单之中。此次页

热心网友
04.05
未来人类 X98W 移动“工作站”笔记本电脑上线官网,4 月内发售
科技数码
未来人类 X98W 移动“工作站”笔记本电脑上线官网,4 月内发售

未来人类X98W移动工作站正式发布:重新定义移动端专业性能的新标杆 在专业移动计算领域,总有一些产品能够打破常规认知。近日,未来人类(TerransForce)正式在其官网上线了全新的X98W高性能移动工作站,并宣布将于本月内全面发售。这款设备的问世,无疑为那些在移动办公环境中仍需要桌面级别强悍性能

热心网友
04.05