先说几个核心判断:AI语音交互正在经历一次质变,而OpenAI刚刚放了个大招。
就在周二,OpenAI正式官宣了一个大动作——向ChatGPT Plus和Team级别的付费用户,开放高级语音模式,也就是我们常说的A VM。这项功能的核心目标只有一个:让用户和ChatGPT之间的对话,告别那种生硬的机器人感,变得真正像人跟人聊天一样自然。首批吃螃蟹的是Plus和Teams用户,至于企业和教育版本,还得再等一周。
有意思的是,A VM这次还换了张“脸”。原来那个在五月份露面的黑点动态图标,如今被一个蓝色的动态球体取代了。当你打开ChatGPT应用,语音图标旁边会弹出一个窗口,提醒你:嘿,这个新功能现在可以用啦。
功能新增与调整
这次更新不仅仅是换了个图标那么简单。ChatGPT一口气新增了五种声音:Arbor、Maple、Sol、Spruce和Vale。加上之前已有的,现在总共有九种声音可选——这个数量,几乎追平了谷歌的Gemini Live。这些名字清一色都取自大自然,背后的意图其实很明显:要让整个对话体验更自然、更贴近真实的生活场景。
不过,细心的用户可能会发现,之前在春季更新中展示的那个Sky声音消失了。原因大家都懂:好莱坞影星斯嘉丽·约翰逊对此提出了异议,认为那声音和她出演的电影《她》里那个AI角色太过相似。OpenAI的处理速度倒是很快,直接撤下Sky,并声明绝无模仿之意。这个动作至少说明了一件事:对于用户的反馈,团队还是相当在意的。
性能改进与个性化功能
从Alpha测试到现在,A VM其实已经悄悄打磨了好一阵子。OpenAI透露,语音功能现在对各种口音的识别更精准了,对话的流畅度和响应速度也提升了不少。说白了,就是不再像以前那样,稍微带点方言或者语速快一点就卡壳。
更值得注意的是,ChatGPT一些很受欢迎的定制功能,现在也一并扩展到了A VM里。用户可以按照自己的习惯,个性化调整ChatGPT的回应风格,还能增强它的“记忆”——让它在后续对话中准确引用之前聊过的内容。这种连续的上下文理解能力,才是真正提升用户体验的关键所在。
当然,这次更新也不是“全家桶”式的全面上线。那个原本计划让GPT-4同时处理视觉和听觉信息的功能,包括视频和屏幕共享,这次并没有同步推出。至于这些多模态功能什么时候才能正式落地,目前OpenAI还没给出明确的时间表。话说回来,先把核心的语音对话体验打磨到极致,或许才是当下最务实的选择。
