融资5.6亿AI语音新星被谷歌收购,核心团队入职DeepMind

智东西
编译|万贵霞
编辑|云鹏
智东西1月23日消息,谷歌正在通过“引入团队+技术授权”的方式,加速补齐Gemini在语音与情感理解上的短板。
据TechCrunch与美国《连线》昨日报道,谷歌旗下DeepMind已与AI语音初创公司Hume AI达成授权合作协议。Hume AI创始人兼CEOAlan Cowen将与约7名核心工程师加入DeepMind,直接参与Gemini语音与情感智能的研发。
这笔交易并非整体收购,根据Hume AI新任CEO Andrew Ettinger的说法,谷歌获得了Hume AI全部知识产权的非独家使用权,相关技术将被整合进谷歌的模型研发流程,而Hume AI公司主体仍将独立运营,并继续向其他AI实验室提供服务。
Hume AI的核心优势在于“情感智能”语音模型,该公司专注于通过语音信号识别用户情绪与心理状态。2024年其推出“共情语音接口”(Empathetic Voice Interface),并已累计融资约8000万美元(约合人民币5.6亿元),预计今年营收可达1亿美元(约合人民币7亿元)。
谷歌此次引入其核心团队,被视为在语音体验上正面迎战ChatGPT语音模式的关键一步。
一、核心团队加入DeepMind,主打“情感智能”的语音模型
据报道,Hume AI创始人兼前CEOAlan Cowen将与多名工程师加入谷歌DeepMind,主要任务是帮助谷歌将语音与情感智能整合进其前沿模型,提升Gemini在自然对话和情绪理解方面的能力。

▲Hume AI创始人Alan Cowen(图源:Alan Cowen个人 )
Cowen本人拥有心理学博士背景,这也被认为是Hume在“情感建模”方向上的重要优势。
此次交易的具体金额尚未披露。Hume AI新任CEO、投资人兼科技高管Andrew Ettinger告诉TechCrunch记者,谷歌获得了Hume AI全部知识产权的非独家使用权,相关技术将被整合进谷歌的研发流程,但公司并未被整体出售。

▲Andrew Ettinger继任Hume AI CEO的消息(图源:领英Andrew Ettinger个人主页)
Hume AI将继续对外提供技术服务,并计划在未来几个月内发布新模型。Ettinger预计,Hume AI有望在今年实现约1亿美元的营收目标。
Hume AI成立以来,始终聚焦一个相对细分但潜力巨大的方向——理解人类语音中的情绪与心理状态。
2024年,Hume AI推出“共情语音接口”,其核心能力在于通过语音信号判断用户的情绪变化,并据此调整回应方式。与传统语音助手侧重指令识别不同,Hume的模型试图解决“用户当下处于什么状态”这一问题。

▲Hume AI正式页面(图源:Hume AI正式)
WIRED报道中提到,Hume AI在模型训练过程中投入了数百万美元,通过专家标注大量真实对话中的情绪线索,使模型能更精细地区分语气、语调与情绪变化。
PitchBook数据显示,Hume AI目前累计融资约8000万美元,投资方包括AEGIS Ventures等机构。
二、谷歌补齐Gemini语音短板,语音赛道全面升温
对谷歌而言,引入Hume AI团队并不意外。近年来,谷歌持续推进Gemini Live功能,允许用户以语音方式与AI进行连续对话。
上个月,谷歌还发布了面向Live API的原生音频模型,强调其在复杂流程处理方面的能力。但在“自然度”和“情感感知”层面,Gemini仍面临来自OpenAI等对手的压力。

▲谷歌Gemini Live API概览(图源:谷歌Cloud)
在此背景下,Hume AI团队被视为一个“即插即用”的补强方案。多位匿名消息人士向WIRED透露,Cowen及其团队将在谷歌内部,专注于将情感智能深度嵌入新一代模型。
Hume AI并非孤例。过去一年,语音能力正在成为AI厂商投入资源最多的方向之一。
本月初,AI语音生成公司ElevenLabs披露,其年度经常性收入(ARR)已突破3.3亿美元(约合人民币23.1亿元),显示出市场对高质量语音技术的真实需求。
与此同时,OpenAI被曝正在与前苹果设计师Jony Ive团队合作开发一款主打音频功能的个人设备,为今年发布做准备。近期泄露的消息说,该设备可能是一款耳塞。
Meta同样在加速布局。去年,Meta收购语音初创公司Play AI,其Ray-Ban智能眼镜已越来越依赖语音输入,在嘈杂环境下实现通话、信息与多媒体控制。投资人Vanessa Larco直言:“在可穿戴设备上,语音几乎是唯一可行的输入方式。”

▲Ray-Ban智能眼镜(图源:Reddit)
结语:“授权+挖人”成为常态,语音成为AI的“下一层接口”
值得注意的是,Hume AI的交易再次触及一个监管敏感问题:“收购式招聘”。与直接并购公司不同,大型科技公司通过引入初创团队、获取技术授权,往往可以绕开传统并购所需的反垄断审查。
类似案例已多次出现,谷歌此前以授权方式引入Character AI相关技术;微软招募了Inflection团队;亚马逊引入Adept核心人员;Meta则挖走了Scale AI的CEO。
从当前趋势来看,语音正在演变为AI与人类交互的核心入口。对科技公司而言,理解“说了什么”只是第一步,更重要的是理解“为什么这样说”“说话时的情绪状态是什么”。
随着语音、情感与多模态能力进一步融合,AI的竞争焦点正在从模型参数规模,转向真实交互体验的细节层面。
来源:《连线》杂志、TechCrunch
相关攻略
人工智能的浪潮里,总有些挑战者试图改写游戏规则。这次,聚光灯打在了一家名为Runway的初创公司身上。它没有选择在硅谷的巨树下乘凉,而是从纽约大学的电影艺术学院起步,凭借对视频生成的独到理解,向传统AI巨头的叙事逻辑发起了正面冲击。 Runway的故事始于一个简单的信念:下一代人工智能的基石,恐怕不
币安账户安全设置指南 在数字资产的世界里,安全永远是第一道,也是最重要的一道防线。你的账户安全设置得是否到位,直接决定了资产是坚如磐石还是危如累卵。今天,我们就来手把手梳理一下,如何在币安平台上构筑一套坚实的安全体系。 通过官网注册并设置安全功能保障账户安全 整个过程其实非常清晰,可以概括为五个核心
就在谷歌I O开发者大会即将开幕之际,一则关于其下一代AI视频模型(可能命名为Veo 4或Gemini Omni)的重磅信息提前泄露,迅速成为科技领域的热门话题。 此前,一段由AI生成的“教授”在黑板上流畅推导公式的视频,其逼真程度已经让全球网友惊叹不已,充分展现了AI视频生成技术的巨大潜力。 而最
谷歌本周宣布了一项重要更新,其旗下的健康追踪应用Fitbit将正式更名为Google Health。自5月7日起,这款应用将启用全新品牌,致力于成为用户管理个人健康与体能数据的核心平台。 全新的Google Health应用采用了经过彻底重构的用户界面,核心功能围绕“今日概览”、“健身训练”、“睡眠
卡尔达诺(Cardano)分析师预测:未来数周或将迎来150%的“强势牛市反弹” 关键要点: ADA价格形成看涨旗形并完成突破,预示未来可能实现100%至150%的上涨。超过150亿枚ADA在过去一年中未发生转移,反映出长期持有者信心达到历史高点。 最近的市场动态,透露出一些相当积极的信号。一方面,
热门专题
热门推荐
机器人行业迎来里程碑式突破。以视频生成模型Vidu著称的生数科技,正式发布了名为Motubrain的“世界动作模型”。这并非一次普通迭代,而是被定位为机器人的“物理大脑”,其核心目标在于:用一个统一的通用模型,彻底取代以往依赖多个专用系统拼凑而成的复杂架构。 正如其“一个大脑,无限可能”的口号所揭示
xAI正式进军AI编程智能体领域,于近日发布了专为软件工程与复杂编程任务设计的Grok Build。 简单来说,Grok Build是一款能在终端里直接跑起来的AI编程助手。它被定位为一个具备智能体能力的命令行工具,开发者用自然语言告诉它要做什么,它就能生成代码,甚至帮你搞定一系列编程和自动化任务。
近日,谷歌对其搜索引擎的核心规则进行了重要更新,此次调整直指当前备受关注的AI搜索领域。具体而言,谷歌在其垃圾内容政策中新增了明确条款,正式将“操纵AI搜索结果”的行为列为违规操作,划定了新的质量红线。 根据权威行业媒体Search Engine Land的报道,本次谷歌算法更新的核心在于,将任何企
硅谷的科技巨头们或许曾以为,自己已经远离了AI数据中心带来的电力压力——毕竟,高昂的地价和电费早就把大型数据中心项目“赶”到了别处。但现实总是出人意料,这场能源危机的涟漪,正悄然涌向他们心爱的度假后院。 没错,说的就是太浩湖。这个湾区精英们钟爱的避世天堂,如今正站在一场电力风暴的边缘。距离它必须找到
这项由高通AI研究院(Qualcomm AI Research)主导的创新研究于2026年5月正式发布,论文预印本编号为arXiv:2605 07721。 研究背景:当AI越想越费内存,我们该怎么办 设想一下,手机导航应用会在出发前规划好整条路线,而一位真正智慧的向导则会边走边思考,遇到路障时灵活应





