OpenAI推出小型语音模型,强调语音交互在未来人机沟通中的核心地位【附多模态大模型行业市场分析】
2025年10月7日,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)在开发者日活动上宣布,正式通过API推出新一代语言模型GPT-5 Pro及轻量化语音模型“GPT-realtime-mini”,旨在进一步降低开发者集成语音功能的门槛,推动多模态人机交互的普及。
奥尔特曼特别强调了语音交互在未来人机沟通中的核心地位。他指出,随着技术发展,语音将成为用户与AI系统交互的主要方式之一。此次推出的轻量化语音模型,正是为了降低开发者集成语音功能的门槛,推动语音交互技术在更多场景中的普及应用。
此次发布与GPT-5 Pro模型同步推出,后者专注于金融、法律、医疗等高精度推理场景,支持40万tokens上下文长度,但仅通过Responses API提供。同时,OpenAI还发布了视频生成模型Sora 2的API预览版,并上线了AgentKit智能体开发工具,进一步丰富开发者生态。
面对全球AI厂商在API生态领域的竞争,OpenAI通过轻量化模型和降价策略吸引开发者。业内分析指出,API标准化或成为行业下一步焦点,有望降低开发门槛并提升模型互操作性。随着语音交互在智能家居、车载系统等场景的普及,OpenAI此举可能重塑多模态AI市场的竞争格局。
多模态大型语言模型(Multimodal Large Language Models,简称MLLMs)是一类结合了大型语言模型(Large Language Models,简称LLMs)的自然语言处理能力与对其他模态(如视觉、音频等)数据的理解与生成能力的模型。这些模型通过整合文本、图像、声音等多种类型的输入和输出,提供更加丰富和自然的交互体验。
多模态大模型产业链是一个庞大而复杂的系统,涵盖了从硬件设施到软件开发的各个环节,主要包括基础层、模型层和应用层。其中,基础层主要包括硬件和基础软件,模型层主要是多模态大模型的种类,包括CLIP、BLIP、BLIP-2、dreamLLM、LLaMA、LLaVA、flamingo、mini-GPT4等,应用层则是指大模型结合行业的进一步升级应用形成的行业大模型,主要包括生产制造领域、生活娱乐领域和公共服务领域等。
早期大模型的商业模式主要为SaaS模式和PaaS模式,但随着大模型行业的快速发展以及再各行各业的快速拓展应用,以大模型为核心的MaaS模式(模型即服务)出现,MaaS模式允许大模型服务提供商将大模型的特定功能或整个模型封装为API(应用程序接口),并将其作为一种服务,提供给其他开发者或业务合作伙伴使用,是目前大模型行业一种主流的商业模式。
业内分析认为,OpenAI此次双管齐下的产品策略,既保持了其在文本生成领域的领先优势,又通过专用语音模型完善了多模态交互能力。这种技术布局不仅满足了市场对高效AI工具的需求,也为构建更自然的人机交互体验奠定了基础。
前瞻经济学人APP 产业观察组
相关攻略

10月9日消息,AMD CEO 苏姿丰北京时间 7 日接受雅虎财经栏目采访,聊及她对 AI 领域的独到思考。节目中主持人首先复述了某些媒体关于“大规模 AI 投资过于超前,AI 泡沫即将戳破”的担忧

10月9日消息,据IT之家援引应用情报提供商 Appfigures 的新数据,在 OpenAI 的视频生成应用 Sora 冲上美国 App Store 榜首后,严格来说,其在 iOS 平台的首周表现

10 月 7 日消息,美国专注于私募和创投数据的 PitchBook 近日发布报告显示,截至今年第三季度,全球有 22 3% 的初创公司企业进入了 AI 领域,这些企业吸引了全球总创投资金的 55

2025年10月7日,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)在开发者日活动上宣布,正式通过API推出新一代语言模型GPT-5 Pro及轻量化语音模型“GPT-realtime-

10 月 7 日消息,科技媒体 The Decoder 昨日(10 月 6 日)发布博文,报道称在 OpenAI 2025 开发者日上,该公司首席执行官山姆・奥尔特曼(Sam Altman)宣布多
热门专题


最新APP
热门推荐

币安对中国用户的政策与访问现状 币安(Binance)作为全球领先的数字资产交易平台,其对不同国家和地区的用户政策一直备受关注,尤其是对

数字资产世界的通行证:Bitget账户登录与安全验证的深度解析 在数字资产的浩瀚海洋里,我们的账户就像是一艘艘承载着财富的船只。而Bitget