AI语音赛道新星Cartesia获英伟达等1亿美元融资,斯坦福团队携Sonic入局
美国语音生成领域迎来重要突破——初创企业Cartesia正式推出新一代语音模型Sonic-3,并宣布完成1亿美元战略融资,英伟达成为核心投资方。这款采用非Transformer架构的模型凭借其低延迟特性在实时语音交互领域引发关注,数千家企业已将其应用于每月数百万次对话处理。
技术团队构成堪称"学术全明星":由5位斯坦福AI实验室研究员创立的Cartesia,其核心成员包括Mamba架构主要开发者Albert Gu、前谷歌大脑工程师Brandon Yang,以及拥有斯坦福与卡内基梅隆双重学术背景的CEO Karan Goel。团队将状态空间模型(SSM)研究成果转化为商业应用,Albert Gu更凭借技术贡献入选《时代》杂志2024年全球影响力人物榜单。
与传统Transformer模型不同,Sonic-3采用的SSM架构通过持续理解对话脉络实现高效预测。实测显示,该模型中文生成响应时间仅2秒,虽流畅度有待提升,但英文表现已达自然水准,纪录片旁白测试中几乎无法分辨AI痕迹。仅90毫秒的模型延迟与190毫秒端到端响应,使系统跻身全球最快实时语音AI之列。
功能层面,Sonic-3支持42种语言与500余种音色选择,中文提供10种声线,英文细分为11种地域口音。通过API参数与SSML标签,用户可精确控制音量、语速及情感表达,甚至实现笑声、语调等微妙情感转换。新增的语音克隆功能支持微调,使生成语音更贴近参考原声,自动缓冲技术则显著提升实时交互的流畅性。
商业应用方面,Cartesia构建的企业级平台集成文本转语音(Sonic)与语音转文本(Ink)模型,支持客户构建具备复杂任务处理能力的语音Agent。ServiceNow等企业已将其用于客户支持、日程管理等场景,产品副总裁Ravi Krishnamurthy评价称:"SSM架构为企业级应用带来了前所未有的速度与质量。"
融资进程显示市场高度认可:2024年12月获Index Ventures领投的2700万美元种子轮融资后,仅隔3个月便完成6400万美元A轮融资。此轮1亿美元战略融资将加速技术迭代,在MiniMax、ElevenLabs等竞争对手环伺的AI音频生成赛道,Cartesia正以SSM架构开辟差异化竞争路径。
热门专题
热门推荐
为庆祝成立50周年,苹果在全球多地门店举办系列庆祝活动。最盛大的庆典在其总部ApplePark举行,员工齐聚草坪,传奇音乐人保罗·麦卡特尼登台献唱,首席执行官蒂姆·库克也参与其中。这场科技与艺术交融的盛会,既是对过往传奇的致敬,也寓意着新篇章的开启。
苹果公司成立五十周年之际,首席执行官蒂姆·库克发布内部信回顾历程。信中指出,公司从车库中的一台原型机起步,如今全球活跃设备已达25亿台。库克强调,未来需主动创造而非等待,并鼓励员工铭记创新精神,共同把握机遇,开创下一个五十年。
苹果CEO库克在专访中回顾了iPod的诞生历程。该产品以口袋装千首歌的能力革新了音乐消费方式。其爆红要求苹果在三个月内生产约1500万台,这极大考验了供应链。此次极限压力测试为苹果锻造出世界级供应链能力奠定了基础。库克还透露,首台原型机播放的第一首歌是《HeyJude》。
知名投资人段永平家族办公室持仓市值升至约200亿美元。本季度清仓阿里,减持苹果、台积电;重仓AI与电动车赛道,大幅增持英伟达并新建仓特斯拉,拼多多获增持。其首次跨足Web3领域,建仓稳定币发行商Circle,显示对合规区块链基础设施的关注。
Mac内置的“缩放”辅助功能可放大屏幕细节。通过系统设置开启该功能后,可选择画中画或全屏模式。用户可使用修饰键配合触控板手势、快捷键组合、双击Control+Option或鼠标智能缩放等多种方式灵活操作,满足不同场景下的查看需求。





