就在9月5日的外滩大会上,西湖心辰扔出了一颗重磅冲击波——国内首个端到端语音大模型「心辰Lingo」正式上线了。
这个「端到端」意味着什么?简单来说,它不是像传统方案那样,先把语音转成文字、理解文字、再合成语音回来,而是直接对语音波形建模,把语气、节奏、情绪这些「弦外之音」一并捕捉,再以语音形式回应。信息损失小了,机器自然更懂人。这才是人机交互从「听懂」到「理解」的关键一跃。

从市场数据来看,这步棋踩在了风口上。IDC预测,到2030年全球智能语音服务市场规模将达到731.6亿美元,年复合增长率27%。全球科技巨头都在押注语音赛道,一场新的交互革命已经点燃了引信。
西湖心辰CEO醒辰在现场提到一个关键词——「高情商」。心辰Lingo能捕捉语音中的细微变化,不仅理解说了什么,更能理解想表达什么。这种对言外之意的洞察力,正是大模型情商能力的一次实质性突破。
那么,这个核心突破背后,都依靠了哪几个技术支撑?
首先是原生的语音理解。作为端到端模型,它不只能提取文字,还能同时识别情感、语气、音调甚至环境音。这意味着AI可以「听到」你的叹息、犹豫或者是声音里的环境噪声,做出更自然的回应。
其次是多样化的语音风格表达。心辰Lingo可以根据上下文和用户指令,实时调整语速、高低、甚至噪声强度。对话、歌唱、相声——不同场景下的语音风格切换,它都能胜任。这就好比一个演员,既能演正剧也能说相声,适应性极强。
第三点是语音模态的超级压缩。心辰Lingo采用了一种数百倍压缩率的语音编解码器,能把语音压到极短长度,大幅降低计算和存储成本。低成本、高质量,这个组合在商用落地时很关键。
市场的反应也印证了这点。开放内测预约不到10天,就有超过1000家企业预约测试,覆盖教育、金融、医疗健康、政府公共服务、媒体娱乐、零售、制造等八大行业,数十个实际场景。
具体怎么用?可以脑补一下:在心理健康咨询场景,某家医院准备用它的语音技术做患者心理干预,通过AI智能对话系统帮病人应对疾病带来的心理压力;在客户服务场景,一家知名产险企业想用它做自动外呼,提升退保挽留和续保服务的效率和满意度。此外,还有游戏语音陪伴、社交辅助助手、语音母婴看护等一堆个性需求涌现出来——这些场景的多样性,本身就是对模型能力的最好背书。
发布会上,醒辰还透露了一个时间表:10月份,西湖心辰将基于心辰Lingo推出3个垂类语音模型——儿童陪伴、心理疏导、销售服务。这意味着通用底座之上,面向具体场景的深度训练要正式铺开了。
最后,有必要交代一下这家公司的底色。西湖心辰背靠西湖大学,创始人蓝振忠在外滩大会期间还拿了首届蚂蚁InTech科技奖。目前公司已获得汤姆猫、蓝驰创投、凯泰资本、百度风投、西湖科创投等知名机构数千万美元投资。从资本和学术的双重背书来看,这显然不是一个轻量级的玩家。
可以预见,心辰Lingo的这次亮相,只是这场语音交互革命的序曲。
