开源语音DeepSeek登顶HuggingFace,百万围观引爆多模态热潮

机器之心的发布
随着大模型技术的飞速迭代,语音交互正经历一场深刻变革。过去那种“语音转文本(ASR)——文本理解——文本转语音(TTS)”的串联式架构,正在逐步让位于端到端的实时语音生成技术。这一转变至关重要,它不仅决定了交互的延迟和流畅度,更直接关系到语音系统在真实生产场景中的可用性。
在传统的级联式架构中,语音识别、文本理解和语音合成等任务由不同模块分头负责,这种模式在早期应用中获得了一定成功。然而,随着人们对实时性和低延迟的要求不断提高,端到端语音交互系统逐渐成为主流。这种系统将各个任务深度集成,大幅减少了中间转换步骤,从而显著提升了响应速度,使交互变得更加即时和自然。
近期,FlashLabs 发布并开源了其实时语音模型 Chroma 1.0,该项目定位为全球首个开源的端到端语音到语音模型。
Chroma 1.0 一经发布,便在社交媒体上引发了广泛关注和热烈讨论,相关话题迅速升温。其 X 平台官方帖子的浏览量已轻松突破百万。

多位知名的 X 平台博主对 Chroma 1.0 给出了高度评价。

此外,在 HuggingFace 的多模态榜单中,Chroma(4B 版本)同样表现出色,位列榜首。

该模型的研发负责人是 FlashLabs 创始人石一(Yi Shi):

从公开信息和技术实现来看,Chroma 并非对现有语音模型的简单改进,而是一次围绕“实时性”目标展开的系统级重构。
相关攻略
头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智
智东西编译 陈佳编辑 程茜智东西4月3日消息,今日谷歌DeepMind开源发布Gemma 4系列模型,根据最新博客,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而设计,实现了单位参数
带着 Seedance 2 0 和 ArkClaw 两件新武器,火山引擎开始席卷 MaaS 市场。作者|郑玄两年前,火山引擎说要 All in Token 的时候,很多人觉得这是一句正确但空洞的口号
一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回
智通财经APP获悉,中信证券发布研报称,2026年以来,国产大模型厂商聚焦Agent及代码能力升级,竞相发布新模型。即将发布的DeepSeek下一代新模型有望延续高性价比开源模型路线,在能力上实现更
热门专题
热门推荐
华硕ROG正式发布2026款枪神、魔霸及魔霸新锐系列游戏本并开启预约。枪神系列分为标准版与超竞版,均搭载酷睿Ultra9处理器,超竞版可选RTX5090显卡并配备光显矩阵屏。魔霸系列采用AMD锐龙处理器,高配可选锐龙99955HX3D与RTX5070Ti显卡。魔霸新锐系列主打性价比,配备RTX5060显卡,面向预算有限的玩家。
内存价格高企,单通道DDR5成为高性价比装机方案,但会降低游戏性能。测试显示,锐龙59600X凭借Zen5大核架构及对内存低延迟的优化,在搭配单条DDR56000内存时,游戏性能损失较小。相比之下,酷睿Ultra200SPLUS系列更依赖高带宽,单通道下性能下滑明显。在多款热门电竞网游实测中,锐龙59600X性能领先,且整机性价比优势显著。
神牛发布ML40系列摄影灯,包含ML40Bi和ML40R两款。ML40Bi售价568元,内置锂电池,支持边充边用及NFC快速连接,侧重便携智能。ML40R售价698元,具备更广色温调节范围,侧重专业色彩控制。两者均采用磁吸设计,兼容丰富附件,满足不同布光需求。
华硕TUFGaming系列推出新款850W白金重炮手氮化镓电源,到手价849元。该电源符合ATX3 1规范,长度150mm,采用全模组设计,配备12V-2×6接口支持600W峰值功率。其获得双白金效率认证与A-噪声认证,内部使用氮化镓元件与长寿电容,搭配135mm静音风扇,并提供8年质保,主打高效、安静与持久稳定。
FalconUSD(USDF)是一种与美元挂钩的稳定币,旨在为Web3生态系统提供可靠的交易媒介和价值储存工具。其运作依赖于储备资产支持和透明审计机制,在DeFi、跨境支付等场景有应用潜力。了解其技术原理、市场定位及潜在风险,有助于理性评估这一新兴数字资产的价值与前景。





