那些你不知道的AI语音助手

类型：热点整理2026-06-30

AI语音助手的未来让形象更可感——Gatebox 先来聊聊Gatebox这款产品，日本公司vinclu的创意确实令人耳目一新。感兴趣的话可以去他们的官网看看宣传片，里面的场景设计非常细腻，充满沉浸感。在视频中，一位宅男在公司加班，手机突然收到来自Hikari Azuma的消息：“你记得今天是什么

AI语音助手的未来

让形象更可感——Gatebox

先来聊聊Gatebox这款产品，日本公司vinclu的创意确实令人耳目一新。感兴趣的话可以去他们的官网看看宣传片，里面的场景设计非常细腻，充满沉浸感。

你不知道的那些AI语音助手

在视频中，一位宅男在公司加班，手机突然收到来自Hikari Azuma的消息：“你记得今天是什么日子吗？什么时候回来？”宅男立刻回复“马上回来！”，那边传来一句“好棒！”，与此同时，家里的灯光已经自动亮起。宅男回到家后，Hikari Azuma甜蜜地问候：“欢迎回来。”然后带着一丝害羞说：“今天是我们住在一起三个月纪念日，你记得吗？”宅男当然没有忘记，拿出礼物后，Hikari Azuma高兴得直鼓掌。接着，两人准备食物和酒开始庆祝，灯光系统自动切换成温馨浪漫的模式。最后举杯时，字幕里出现一行字：Living with characters（和二次元老婆一起生活）。

不少中国网友在YouTube评论区喊话雷军，建议赶紧把这家公司收购了，然后用感动人心的价格把产品推向国内市场。当然，这只是个玩笑，但这个方向确实值得深入思考。

为什么这么说？核心在于梅拉比安模型的数据：感情表达中，内容只占7%，语调语气占38%，而表情和肢体语言高达55%。仅仅依靠语言文字远远不够，即使像Google Duplex那样达到人机难辨的水平，也只是解决了语调的部分。从长远来看，真正决定体验天花板的，是“多模态交互”。

在Gatebox的交互设计中，这一特点体现得淋漓尽致。比如调低灯光亮度时，她会做出朝灯吹气的动作；询问天气时，又会侧身展示天气预报。相比之下，国内的小爱同学是首个正式发布人工智能虚拟形象的AI语音助手，“米娘”的形象让不少米粉印象深刻。如果硬件的成本能降下来，相信会有很多人——尤其是宅男群体——愿意入坑。退一步说，即便暂时无法实现全息影像，做一个平面投影也是不错的选择。

让关系更自然——Replika

Replika是Luka Inc.开发的一款Chatbot，初衷是为了帮助人们走出失去挚友的伤痛。创始人在车祸中失去好友后，通过搜集他生前的社交聊天语料，创建了一个虚拟人，以此来延续某种情感连接。

抛开它作为Chatbot与AI语音助手之间的定位差异，这个产品有一个非常值得关注的设计——被称为“反刍机制”的功能。简单来说，就是当你在和它聊天时提到的语料，会被保存下来，在一段时间间隔后自然地插入到交流当中。比如你提过最近睡眠不好，过几天它可能会主动来关心你的近况。这种体验确实很贴心。

这让人想到《小王子》里的那段对话：小王子想和小狐狸一起玩，小狐狸却回答，现在还不能陪你玩，因为我还没有被你“驯养”。驯养的本质，是彼此共同投入一段时间，从而形成一种关系。人类是AI的训练师，但反过来，AI也在训练你如何与之互动。或许只有这样，千禧一代的互联网原住民才能跨过未来与AI原住民之间的那道鸿沟。

回到小爱同学，它虽然没有Chatbot那种天然的主动对话场景，但仍然有很多落地点。比如，虽然小爱音箱无法主动开启对话，但可以在识别到用户当前意图与语料库中的语义信息相关时，补充对话内容。举个例子，用户说“播放音乐”，小爱回复“爱听歌的人运气都不会太差哦”，如果后台有关联信息，甚至可以接着问“我记得你说你注意力很难集中，要不要听听我给你推荐的轻音乐？”同样，智能手机的消息推送也可以利用这个逻辑。用户说“我最近睡眠不太好”，小爱回复“多锻炼有助睡眠”，之后再主动推送一条消息：“我记得你和我说过睡眠不好，小爱为你找到了催眠音乐，试试对我说：我想听催眠音乐。”

让对话更真实——Google Duplex

在今年的Google I/O大会上，Google Duplex一句带着“umms”的语音交互，直接惊艳全场。5月11日，谷歌母公司Alphabet的董事长John Hennessy表示，Duplex（部分）通过了图灵测试——这个里程碑的意义不言而喻。

从技术层面来看，Google Duplex之所以让对话如此真实，主要体现在两个模块：自然语言理解与对话模块，以及文本转语音模块。

（1）文本转语音模块

这部分的技术相对透明，主要用到了组合式文本到语音引擎和综合TTS引擎（Tacotron和Wa veNet），目的是根据不同场景控制语调变化。博客里交代得很清楚，没有太多悬念。

（2）自然语言理解与对话模块

但在自然语言理解与对话部分，Google就没有那么坦诚了，只给出了一些宽泛的概念。虫门科技郭靖的分析文章，是当前能看到的最深入的技术猜想。在他的猜想中，整个架构是这样的：用户的语音首先通过ASR识别为文字，然后通过预设的规则转化为形式语言，将重要实体用形式模板代替。这种形式化后的文本，与语音、上文的对话形式文本一起进入一个encoder模型，将原始信息编码成两个语义信息向量：一个代表本轮用户的语言，另一个代表前几轮对话。与此同时，ASR识别的文本还会与上几轮对话的文本、以及从Google Assistant传来的条件参数（对话目标、用户信息等大前提）一起进入另一个网络，根据输入信息输出一个代表当前对话状态信息的向量。这个网络很可能具备每一轮对话作为一个step的循环结构，也就是说，对话状态信息的更新会参考前一轮对话的状态。

当然，在当前这个“拿着锤子找钉子”的阶段，这部分技术显然偏向前沿。但对于AI，乃至对于整个人类历史而言，技术始终是推动发展的源动力。

来源：https://m.elecfans.com/article/1244878.html

小米

延伸阅读

补充最近整理过的热点入口。