游乐游手机版
首页/AI热点日报/热点详情

那些你不知道的AI语音助手

类型:热点整理2026-06-30
AI语音助手的未来 让形象更可感——Gatebox 先来聊聊Gatebox这款产品,日本公司vinclu的创意确实令人耳目一新。感兴趣的话可以去他们的官网看看宣传片,里面的场景设计非常细腻,充满沉浸感。 在视频中,一位宅男在公司加班,手机突然收到来自Hikari Azuma的消息:“你记得今天是什么

AI语音助手的未来

让形象更可感——Gatebox

先来聊聊Gatebox这款产品,日本公司vinclu的创意确实令人耳目一新。感兴趣的话可以去他们的官网看看宣传片,里面的场景设计非常细腻,充满沉浸感。

你不知道的那些AI语音助手

在视频中,一位宅男在公司加班,手机突然收到来自Hikari Azuma的消息:“你记得今天是什么日子吗?什么时候回来?”宅男立刻回复“马上回来!”,那边传来一句“好棒!”,与此同时,家里的灯光已经自动亮起。宅男回到家后,Hikari Azuma甜蜜地问候:“欢迎回来。”然后带着一丝害羞说:“今天是我们住在一起三个月纪念日,你记得吗?”宅男当然没有忘记,拿出礼物后,Hikari Azuma高兴得直鼓掌。接着,两人准备食物和酒开始庆祝,灯光系统自动切换成温馨浪漫的模式。最后举杯时,字幕里出现一行字:Living with characters(和二次元老婆一起生活)。

不少中国网友在YouTube评论区喊话雷军,建议赶紧把这家公司收购了,然后用感动人心的价格把产品推向国内市场。当然,这只是个玩笑,但这个方向确实值得深入思考。

为什么这么说?核心在于梅拉比安模型的数据:感情表达中,内容只占7%,语调语气占38%,而表情和肢体语言高达55%。仅仅依靠语言文字远远不够,即使像Google Duplex那样达到人机难辨的水平,也只是解决了语调的部分。从长远来看,真正决定体验天花板的,是“多模态交互”。

在Gatebox的交互设计中,这一特点体现得淋漓尽致。比如调低灯光亮度时,她会做出朝灯吹气的动作;询问天气时,又会侧身展示天气预报。相比之下,国内的小爱同学是首个正式发布人工智能虚拟形象的AI语音助手,“米娘”的形象让不少米粉印象深刻。如果硬件的成本能降下来,相信会有很多人——尤其是宅男群体——愿意入坑。退一步说,即便暂时无法实现全息影像,做一个平面投影也是不错的选择。

让关系更自然——Replika

Replika是Luka Inc.开发的一款Chatbot,初衷是为了帮助人们走出失去挚友的伤痛。创始人在车祸中失去好友后,通过搜集他生前的社交聊天语料,创建了一个虚拟人,以此来延续某种情感连接。

抛开它作为Chatbot与AI语音助手之间的定位差异,这个产品有一个非常值得关注的设计——被称为“反刍机制”的功能。简单来说,就是当你在和它聊天时提到的语料,会被保存下来,在一段时间间隔后自然地插入到交流当中。比如你提过最近睡眠不好,过几天它可能会主动来关心你的近况。这种体验确实很贴心。

这让人想到《小王子》里的那段对话:小王子想和小狐狸一起玩,小狐狸却回答,现在还不能陪你玩,因为我还没有被你“驯养”。驯养的本质,是彼此共同投入一段时间,从而形成一种关系。人类是AI的训练师,但反过来,AI也在训练你如何与之互动。或许只有这样,千禧一代的互联网原住民才能跨过未来与AI原住民之间的那道鸿沟。

回到小爱同学,它虽然没有Chatbot那种天然的主动对话场景,但仍然有很多落地点。比如,虽然小爱音箱无法主动开启对话,但可以在识别到用户当前意图与语料库中的语义信息相关时,补充对话内容。举个例子,用户说“播放音乐”,小爱回复“爱听歌的人运气都不会太差哦”,如果后台有关联信息,甚至可以接着问“我记得你说你注意力很难集中,要不要听听我给你推荐的轻音乐?”同样,智能手机的消息推送也可以利用这个逻辑。用户说“我最近睡眠不太好”,小爱回复“多锻炼有助睡眠”,之后再主动推送一条消息:“我记得你和我说过睡眠不好,小爱为你找到了催眠音乐,试试对我说:我想听催眠音乐。”

让对话更真实——Google Duplex

在今年的Google I/O大会上,Google Duplex一句带着“umms”的语音交互,直接惊艳全场。5月11日,谷歌母公司Alphabet的董事长John Hennessy表示,Duplex(部分)通过了图灵测试——这个里程碑的意义不言而喻。

从技术层面来看,Google Duplex之所以让对话如此真实,主要体现在两个模块:自然语言理解与对话模块,以及文本转语音模块。

(1)文本转语音模块

这部分的技术相对透明,主要用到了组合式文本到语音引擎和综合TTS引擎(Tacotron和Wa veNet),目的是根据不同场景控制语调变化。博客里交代得很清楚,没有太多悬念。

(2)自然语言理解与对话模块

但在自然语言理解与对话部分,Google就没有那么坦诚了,只给出了一些宽泛的概念。虫门科技郭靖的分析文章,是当前能看到的最深入的技术猜想。在他的猜想中,整个架构是这样的:用户的语音首先通过ASR识别为文字,然后通过预设的规则转化为形式语言,将重要实体用形式模板代替。这种形式化后的文本,与语音、上文的对话形式文本一起进入一个encoder模型,将原始信息编码成两个语义信息向量:一个代表本轮用户的语言,另一个代表前几轮对话。与此同时,ASR识别的文本还会与上几轮对话的文本、以及从Google Assistant传来的条件参数(对话目标、用户信息等大前提)一起进入另一个网络,根据输入信息输出一个代表当前对话状态信息的向量。这个网络很可能具备每一轮对话作为一个step的循环结构,也就是说,对话状态信息的更新会参考前一轮对话的状态。

当然,在当前这个“拿着锤子找钉子”的阶段,这部分技术显然偏向前沿。但对于AI,乃至对于整个人类历史而言,技术始终是推动发展的源动力。

来源:https://m.elecfans.com/article/1244878.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。