OpenAI加紧研发音频AI模型,备战无屏幕硬件设备
1月1日消息,北京时间今晚,据The Information报道,OpenAI正在全面强化自身的音频人工智能能力,旨在为未来推出一款以语音为核心的个人AI设备铺路。多位知情人士透露,这款设备将以听觉交互为主要形式,而非依赖屏幕。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

目前,ChatGPT的语音功能与文本回答背后所使用的模型并不相同。OpenAI内部研究人员认为,现有音频模型在准确性和响应速度上明显落后,促使公司在过去两个月内整合工程、产品和研究力量,集中攻克音频模型短板。
这一调整直接指向OpenAI的硬件目标——打造一款可通过自然语音指令操作的消费级设备。此前报道称,首款产品至少还需要一年时间才能面世。
随着新架构的引入,音频模型已能生成更自然、更富情感的语音回应,并具备与人类同时发声、应对打断的能力。OpenAI计划在2026年第一季度正式发布该模型。
在硬件形态上,OpenAI与谷歌、亚马逊、Meta和苹果的判断相似:现有主流设备并非为未来的AI交互而生。OpenAI团队希望用户通过“说话”而非“看屏幕”与设备互动,认为语音才是最贴近人类交流本能的方式。
与OpenAI合作推进硬件项目的乔尼·艾维也强调,无屏幕设计不仅更自然,还有助于避免用户沉迷。他认为,新一代设备应当纠正以往消费电子产品带来的负面影响,并为此承担责任。
不过,OpenAI目前仍面临现实挑战。内部人士指出,不少ChatGPT用户并未习惯使用语音功能,这种情况不仅因为音频模型效果不佳,也与功能认知不足有关。在推出音频优先的AI设备之前,OpenAI必须先改变用户的使用习惯。
在组织层面,OpenAI已组建专门团队推进音频AI战略。来自Character.AI的语音研究员昆丹·库马尔负责整体方向,本·纽豪斯正在重构面向音频的底层架构,多模态ChatGPT的产品经理杰基·香农也参与其中。
OpenAI并不打算只推出一款设备,而是规划了一条产品线,包括智能眼镜和无屏幕智能音箱。公司内部的设想是,这类设备将以“伴随式助手”的形态存在,主动理解环境和用户需求,并在获得授权的情况下,通过音频和视频持续提供帮助。
为支撑这一长期布局,OpenAI已在2025年初斥资近65亿美元(注:现汇率约合455.06亿元人民币)收购乔尼·艾维联合创办的io,并同步推进供应链、工业设计与模型研发等多条工作线。
相关攻略
OpenAI近日为其API平台推出多项语音智能功能。全新语音模型GPT-Realtime-2具备GPT-5级别推理能力,可处理复杂对话。实时翻译功能支持超70种输入语言和13种输出语言。实时转录功能可将语音即时转为文字。这些工具旨在提升客服、教育、媒体等领域的交互体验,并内置安全机制防止滥用。
据外电报道,OpenAI首席执行官萨姆·奥特曼于周二出庭应诉,直面联合创始人兼对手埃隆·马斯克的指控。马斯克此前声称,奥特曼将ChatGPT的制造商转变为营利性巨头,实质上是“窃取了一家慈善机构”。 这场备受瞩目的审判已进入第三周,科技界两位举足轻重的人物在法庭上正面交锋。这场高风险的法律冲突,不仅
特斯拉CEO马斯克起诉OpenAI及其CEO奥尔特曼一案庭审进入第三周。马斯克指控奥尔特曼等人违背创立时造福人类的非营利承诺,要求巨额赔偿并令其辞职。奥尔特曼首次出庭作证,否认指控并透露曾考虑另起炉灶,但最终选择留下。双方各执一词,庭审细节揭示了围绕控制权与理念的激烈冲突。
OpenAI严正声明:所有非官方股权交易渠道均属无效 8500亿美元——这是OpenAI完成新一轮融资后的最新估值。这个天文数字如同一座闪耀的金矿,吸引了全球投资者的目光,却也因其严格的股权限制,筑起了一道难以直接跨越的高墙。正是在这种“可望而不可及”的背景下,一个围绕OpenAI股权的灰色二级交易
图注:奥特曼 埃隆·马斯克与OpenAI之间的法律纠葛,最近又有了新进展。根据《商业内幕》的报道,在马斯克起诉OpenAI的案件审理过程中,其律师团队提交了一份新的法庭文件。文件中的一项关键指控是:OpenAI在去年悄然修改了公司章程,这一改动直接增加了罢免其首席执行官萨姆·奥特曼的难度。 回顾20
热门专题
热门推荐
5月12日,马来西亚吉隆坡成功举办了一场具有前瞻性的行业盛会——中国-马来西亚电动汽车、电池技术与新能源人才创新发展论坛。来自两国政府部门、领军企业、顶尖高校及国际组织的代表共聚一堂,深入交流了在未来产业协同、清洁能源技术创新及高端人才培养等核心领域的合作路径与机遇。 马来西亚第一副总理兼乡村及区域
具身智能要迈过的第一道硬门槛,从来都是量产。 过去几年,全球人形机器人行业反复印证了这一点:舞台演示可以很快,工程验证可以很快,视频传播也可以很快。但当一台机器人要从实验室走向产线,再走向客户现场,问题的复杂度会呈指数级上升。 特斯拉的Optimus就是一个典型的参照系。马斯克多次表达过对Optim
向朋友问路时,如果对方清楚路线,通常会立刻回答“直走然后左转”。但如果对方并不确定,往往会先停顿一下,犹豫地说“呃……好像是……往那边?”。这个开口前的短暂迟疑,往往比最终给出的答案更能说明问题——对方是否真的知道答案。 近期,美国天普大学计算机与信息科学系的一项研究,正是捕捉到了AI回答问题时类似
这项由浙江大学、华南理工大学、南京大学和北京大学联合开展的前沿研究,于2026年4月正式发布,其论文预印本编号为arXiv:2604 24575。 图像分割技术听起来或许有些专业,但它早已深度融入我们的日常生活。无论是智能手机拍摄的背景虚化人像、AI系统在CT影像中精准勾勒病灶轮廓,还是自动驾驶汽车
“大唐”预售热潮尚未平息,“大汉”已蓄势待发,比亚迪王朝系列正以前所未有的攻势,叩响高端市场的大门。 在北京车展引发轰动的比亚迪大唐,预售订单已迅速突破10万台大关,彰显了市场对比亚迪高端产品的强烈期待。而最新信息显示,汉家族即将迎来一位重磅新成员——“大汉”,这款定位D级旗舰的轿车,目标直指20-





