首页 游戏 软件 资讯 排行榜 专题
首页
AI
ChatGPT语音技术创业:打造现实版Her的AI语音助手

ChatGPT语音技术创业:打造现实版Her的AI语音助手

热心网友
70
转载
2026-05-13

还记得电影《她》(Her)里那个迷人的AI语音助手“萨曼莎”吗?对Alexis Conneau来说,那不止是科幻情节,更像是一个等待实现的蓝图。这位技术专家对这部电影的痴迷,甚至延伸到了将主演华金·菲尼克斯的剧照设为自己的社交媒体背景。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

ChatGPT语音创造者创业,致力打造现实版

在OpenAI主导ChatGPT高级语音模式项目期间——此前他在Meta也耕耘过类似领域——Conneau某种程度上已经触摸到了那个蓝图。他参与打造的系统,能够原生处理语音,并以近乎真人的方式回应。

如今,他选择了一条更富野心的道路:创立全新的初创公司Wa veForms AI,目标直指打造更卓越的语音AI技术。

有趣的是,Conneau花了大量时间思考的,恰恰是如何避免电影中描绘的那种反乌托邦未来。《她》所展现的,是一个人类与AI建立亲密关系,却与真实人际交往疏离的世界。

“那部电影本质上是一个警示,而非我们想要的未来,”Conneau坦言。他的愿景是,将这项已然存在且将持续发展的技术,导向造福人类的方向。“我们的目标,可以说与电影里那家公司的做法背道而驰。”

一边构建强大的技术,一边竭力规避其潜在的阴暗面,这听起来像是一场走钢丝般的平衡。但Conneau对此信念坚定。他相信,自己的新公司能让人们率先“用耳朵感受到通用人工智能(AGI)的存在”。

本周一,Wa veForms AI正式亮相。这家公司专注于训练自有的音频大语言模型基础模型,计划在2025年推出音频AI产品,直接与OpenAI和谷歌的同类产品竞争。同日,公司宣布完成4000万美元的种子轮融资,由Andreessen Horowitz领投。Conneau透露,曾撰文呼吁AI深度融入人类生活的Marc Andreessen本人,对这个项目抱有浓厚的个人兴趣。

这里有个不得不提的插曲:Conneau对《她》的这份热情,曾一度给老东家OpenAI带来麻烦。斯嘉丽·约翰逊因此发出法律警告,最终导致OpenAI下架了一款声音酷似其电影角色的ChatGPT语音。尽管OpenAI否认刻意模仿,但这部电影对Conneau的深刻影响,已毋庸置疑。

回望2013年《她》上映时,那还纯粹是天马行空的科幻构想——彼时的Siri功能简陋。而今天,相关技术已触手可及,这种对比本身,就带着一丝令人警醒的意味。

现实是,Character.AI等AI陪伴平台每周已吸引数百万用户与聊天机器人互动,这已成为生成式AI最热门的应用场景之一,尽管其间也不乏令人忧虑的案例。可以想象,那些终日通过文字与AI交流的用户,必然渴望更直接的对话方式,尤其是像ChatGPT高级语音模式那样逼真的技术。

不过,Wa veForms AI的这位掌舵人对纯粹的“AI陪伴”领域态度审慎,这并非公司的核心赛道。虽然他预见用户会以各种新颖方式使用其产品——比如在通勤途中与AI对话二十分钟来学习某个主题——但Conneau更希望公司走“横向平台”路线。

“Wa veForms AI可以成为那位能给人启迪的导师,或许是你现实生活中从未遇到过的那种。”他这样描述产品的潜力。

他深信,与生成式AI进行语音对话,将成为人机交互的主流方式,涵盖从汽车到电脑的各种场景。而Wa veForms的目标,就是提供能贯穿所有这些场景的、“具备情感智能”的AI。

“人机交互不会,也不应该取代人与人之间的交互,”Conneau强调,“如果真有什么影响,那也应该是相辅相成、互为补充的。”

他认为,AI行业应当从社交媒体的发展历程中吸取教训。例如,AI不应将“用户停留时长”作为核心的成功指标——这个在社交应用中常见的标准,往往助长了刷屏上瘾等不健康习惯。从更宏观的视角看,他视确保AI始终服务于人类根本利益为“最重要的工作”。

在技术层面,Conneau指出,OpenAI为其项目命名的“高级语音模式”,并未完全揭示其与旧版语音模式的本质区别。

旧版模式的工作流程实质上是“拼凑式”的:语音转文字,文字交由GPT-4处理,处理结果再转回语音。而在高级语音模式中,GPT-4o直接将音频流解析为Token(据悉每秒音频对应约三个Token),并输入专为音频优化的Transformer模型进行处理。正是这一根本性改变,实现了令人惊叹的低延迟响应。

谈到AI音频模型,“理解情绪”是一个常被提及的说法。但需要厘清的是,与文本大模型通过海量文本学习类似,音频大模型是通过大量标注了情绪标签(如“悲伤”、“兴奋”)的人类语音片段进行训练。它学会的是识别与特定情绪相关的音频特征模式,并能在回应时模仿相应的语调。因此,与其说它“理解”情绪,不如说它系统性地“识别并复现”了情绪的声学特征。

Conneau判断,当前生成式AI的产品体验提升,未必需要底层智能的惊天突破。与OpenAI通过o1系列追求模型“更聪明”的路径不同,Wa veForms专注于让AI“更善于交流”。

“会有一大批用户,他们选择使用哪个生成式AI,标准很简单:哪个交流起来更愉快、更自然。”Conneau点出了用户体验的关键。

正因如此,Wa veForms相信有能力开发出专属的基础模型——理想情况下,是更轻量、成本更低、响应更快的小型模型。考虑到近年来AI模型规模扩展的收益已逐渐放缓,这个判断并非没有依据。

Conneau提到,他在OpenAI的旧同事Ilya Sutskever曾多次与他探讨“感受AGI”的概念——即通过直觉,而非冰冷的测试分数,来判断是否已触及超级智能的门槛。这位Wa veForms的CEO深信,AGI的到来更多是一种“感受”,而音频大语言模型将是触发这种感受的关键钥匙。

“当你能够与AGI对话、聆听它的声音、直接与Transformer本身交流时,那种对AGI的感知将会深刻得多。”这曾是他在一次晚餐上与Sutskever分享的观点。

然而,随着初创公司不断优化AI的对话体验,一个沉重的责任也随之而来:如何防止用户对AI产生过度依赖?对此,领投方Andreessen Horowitz的普通合伙人Martin Casado给出了一个不同的视角。

“在网络上与陌生人聊天,你可能遭遇欺凌或利用;玩某些电子游戏,内容可能充满暴力。而与AI对话,则是另一种性质。”Casado分析道,“这是一个值得深入探讨的重要问题。如果最终研究发现,与AI对话在某些方面反而更健康,我并不会感到意外。”

诚然,对某些公司而言,用户对AI产生情感依赖或许是成功的标志。但从社会整体福祉审视,这同样可能是一种深刻的失败——正如电影《她》所寓言的那样。这恰恰是Wa veForms,以及所有同行,必须小心翼翼行走的那道钢丝。

Q&A

Q1:Wa veForms AI是一家什么样的公司,主要做什么?

这是一家由ChatGPT高级语音模式核心创造者Alexis Conneau创立的音频大语言模型初创公司。它专注于训练自有的音频基础模型,计划在2025年推出旨在实现更自然、流畅人机语音交互的“情感智能”AI产品,并与OpenAI、谷歌等巨头展开竞争。公司目前已获得由Andreessen Horowitz领投的4000万美元种子轮融资。

Q2:ChatGPT高级语音模式和普通语音模式有什么区别?

核心区别在于处理流程的本质。普通语音模式是“拼接式”的:先将语音转成文字,交给GPT-4处理,再把生成的文字转回语音。而高级语音模式(如GPT-4o所用)是“端到端”的:直接将音频流实时解析为Token,并送入专为音频设计的Transformer模型处理,从而实现了极低的延迟和更自然的对话流。

Q3:AI音频模型真的能理解人类情绪吗?

并非人类意义上的“理解”。当前的技术本质是“模式识别与模拟”。音频大模型通过海量标注了情绪标签的人类语音数据进行训练,从而学会识别哪种声音特征(如音调、节奏)通常与“快乐”、“悲伤”等情绪标签相关联。在回应时,它能模仿并生成带有相应声学特征的语音,但这是一种基于统计规律的系统性复现,而非真正的情感共鸣或认知理解。

来源:https://ai.zhiding.cn/2026/0512/3186701.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

千问AI购物助手选购家具指南与全屋软装搭配方案
AI
千问AI购物助手选购家具指南与全屋软装搭配方案

AI购物助手能通过自然语言描述或上传图片推荐家具和搭配方案,并提供AI试穿预览效果。它还可根据人生阶段定制采购清单,通过语音交互分析空间痛点,给出改进建议,从而降低决策成本,提升购物体验。

热心网友
05.13
千问AI购物助手智能比价 帮你省钱省心省时间
AI
千问AI购物助手智能比价 帮你省钱省心省时间

千问AI购物助手能通过搜索或拍照,实时抓取多平台商品价格、促销及评价信息,自动生成可视化比价结果。用户还可设置价格追踪,当商品达到预设价位时,系统会主动推送提醒并附带购买链接,帮助消费者高效省钱。

热心网友
05.13
豆包AI需求文档制作教程与实用方法详解
AI
豆包AI需求文档制作教程与实用方法详解

借助豆包AI构建高质量需求文档,需遵循结构化路径:明确指令与背景,搭建完整框架;分模块校验逻辑,通过反推失败场景暴露漏洞;嵌入业务规则,明确数据契约;将复杂流程转化为带角色与判定节点的可视化脚本;最后生成验收测试用例,确保需求可验证。五步环环相扣,能有效提升文档质量与。

热心网友
05.13
斯坦福研究揭示稀疏自编码器解码AI大脑的局限性
AI
斯坦福研究揭示稀疏自编码器解码AI大脑的局限性

2026年2月,一项由斯坦福大学、莫斯科国立大学等顶尖机构联合发布的研究,给当前火热的人工智能“读心术”领域泼了一盆冷水。论文直指一个核心问题:我们寄予厚望、用来解码AI大脑的“X光机”——稀疏自编码器(Sparse Autoencoders, SAE),其有效性可能远低于我们的想象。 理解大型语言

热心网友
05.12
谷歌披露黑客利用AI开发零日漏洞攻击工具
科技数码
谷歌披露黑客利用AI开发零日漏洞攻击工具

谷歌安全团队近期披露了一起具有里程碑意义的网络攻击事件:一个网络犯罪组织利用人工智能技术,成功开发出一款能够自动探测并试图利用某款主流系统管理软件中未知安全漏洞的黑客工具。 这起事件的性质远超普通网络攻击。根据谷歌发布的详细报告,这是全球首次有确凿证据证实,人工智能被直接用于生成针对“零日漏洞”的自

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

RPA机器人如何应对复杂决策场景
业界动态
RPA机器人如何应对复杂决策场景

当RPA机器人面临复杂决策场景时,企业通常可以采取以下几种经过验证的有效策略来应对,确保自动化流程的顺畅与准确。 借助人工智能技术 一种广泛应用的解决方案是将RPA与人工智能技术深度融合,特别是机器学习与自然语言处理。通过集成AI的预测分析与模式识别能力,RPA能够处理非结构化数据并应对模糊的业务情

热心网友
05.13
智能制造与人工智能融合应用策略指南
业界动态
智能制造与人工智能融合应用策略指南

当智能制造与人工智能技术深度融合,这不仅是两种前沿科技的简单叠加,更是一场旨在重塑全球制造业竞争格局的系统性变革。其核心目标在于,通过深度嵌入人工智能等前沿技术,全面提升制造业的智能化水平、生产效率与国际竞争力。那么,如何有效推进这场深度融合?以下六大关键策略构成了清晰的行动路线图。 1 加强关键

热心网友
05.13
RPA机器人上线后如何持续优化提升性能
业界动态
RPA机器人上线后如何持续优化提升性能

对于已经部署了RPA的企业而言,项目上线远不是终点。要让自动化投资持续产生价值,对机器人性能进行持续优化是关键。这就像保养一台精密的机器,定期维护和调校,才能确保其长期高效、稳定地运行。 那么,具体可以从哪些方面着手呢?以下是一些经过验证的优化方向。 一、并行处理与任务分解 首先,看看任务执行本身。

热心网友
05.13
分布式数据采集系统架构设计与实现方案
业界动态
分布式数据采集系统架构设计与实现方案

面对海量数据源的高效抓取需求,分布式数据采集架构已成为业界公认的核心解决方案。该架构通过精巧的设计,协调多个采集节点并行工作,并将数据汇聚至中央处理单元,最终实现数据的集中分析与深度洞察。这套系统看似复杂,但其核心原理可拆解为几个关键组件的协同运作。 一、系统核心组成 一套典型的分布式数据采集系统,

热心网友
05.13
Gate.io注册奖励与邀请页开户页区别详解 新手必看指南
web3.0
Gate.io注册奖励与邀请页开户页区别详解 新手必看指南

Gate io平台活动页面多样,新手易混淆注册奖励、邀请与正常开户页。本文梳理三者核心区别:注册奖励页通常含专属链接与限时福利;邀请页强调社交分享与返利机制;正常开户页则提供基础功能与安全验证。清晰辨识有助于用户高效参与活动,避免错过权益或操作失误,提升在Web3领域的入门体验。

热心网友
05.13