先说几个核心判断:现有的语音辅助设备,真的不够用。

中风、脑瘫,还有大家相对熟悉的渐冻症(肌萎缩侧索硬化症),这些疾病都可能夺走一个人的说话能力。市面上其实已经有一些辅助工具,比如通过追踪眼球运动、或者捕捉面部肌肉的微小动作,一个字一个字地“拼”出想说的话,再由语音合成器朗读出来。最知名的案例,就是已故的物理学家霍金,他晚年就是靠单边脸颊肌肉的抽动来控制语音合成器发声的。
听起来挺酷,但沟通效率实在感人。这种模式,每分钟通常不超过10个单词。相比之下,正常人说话的语速是每分钟150个单词左右。换句话说,你说一句话的功夫,这边可能才蹦出一个词。
所以,加州大学旧金山分校的科学家们这次换了个思路。他们不是先打字再朗读,而是试图直接在脑袋里和声道之间搭一座“信息桥”——也就是直接建立大脑信号与声道(vocal tract)运动之间的映射关系。一旦找到这种关系,理论上就可以把大脑里的指令直接“翻译”成声带的实际运动,然后发出声音。
怎么做到的?
研究人员招募了5名癫痫患者作为志愿者。这些志愿者都能正常说话,而且因为术前需要确定病灶,他们的大脑里临时植入了电极。这就给了科学家一个绝佳的机会:一边让志愿者说话,一边实时监测他们大脑语言中枢的活动情况。
具体操作是这样的:让志愿者大声朗读一些给定的句子。在朗读的同时,脑内语言中枢的活动数据被完整记录了下来。随后,研究人员把这些脑活动记录,与之前已经确定的声道运动数据进行了关联比对。
有了这些数据之后,他们用深度学习算法训练了一个模型,最终把这个模型整合进了一个解码器里。这套解码器的工作流程很清晰:先把大脑信号转成对应的声道运动,再把声道运动翻译成合成语音。
其实,直接搞一个“脑信号→声音”的模型不是更简单吗?但圣地亚哥州立大学的神经学家Stephanie Riès指出,经过“声道运动”这道中间环节生成的语音,要比那种“直接画等号”的方式,更容易被人理解。这确实有点意思。
“实际上,我们中很少有人真正知道当我们说话的时候,我们的嘴巴发生了什么,”论文的通讯作者、神经外科医生Edward Chang说,“大脑把你想说的话转化成声道运动,而这就是我们试图解码的东西。”他还透露,测试者听合成句子后,平均能理解其中约70%的单词。
之前科学家们也尝试过用AI把脑活动“翻译”成单词,但多数只停留在单音节词的层面。从单音节蹦到完整的句子,技术难度是天壤之别。“这也是为什么这项研究让人印象如此深刻,”埃默里大学的神经工程师Chethan Pandarinath评论道。
“说实话,第一次听到实验结果的时候,我们真的被震住了——简直不敢相信自己的耳朵,”论文的共同作者、加州大学旧金山分校的博士生Josh Chartier回忆,“合成出来的语音里,竟然保留了真实语音的很多细节。当然,要让语音变得更自然、更清晰,我们还有很长的路要走。不过,光是能解码出这么多大脑活动,就已经让我们很震撼了。”
他最后补充道:“我们希望这些发现,能给那些表达受阻的人们带去希望。终有一天,我们或许能恢复他们交流的能力——这是我们作为人类最根本的需求之一。”
