首页 游戏 软件 资讯 排行榜 专题
首页
科技
OpenAI推出小型语音模型,强调语音交互在未来人机沟通中的核心地位【附多模态大模型行业市场分析】

OpenAI推出小型语音模型,强调语音交互在未来人机沟通中的核心地位【附多模态大模型行业市场分析】

热心网友
75
转载
2025-10-08
来源:https://t.qianzhan.com/caijing/detail/251007-6f74f728.html

2025年10月7日,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)在开发者日活动上宣布,正式通过API推出新一代语言模型GPT-5 Pro及轻量化语音模型“GPT-realtime-mini”,旨在进一步降低开发者集成语音功能的门槛,推动多模态人机交互的普及。

奥尔特曼特别强调了语音交互在未来人机沟通中的核心地位。他指出,随着技术发展,语音将成为用户与AI系统交互的主要方式之一。此次推出的轻量化语音模型,正是为了降低开发者集成语音功能的门槛,推动语音交互技术在更多场景中的普及应用。

此次发布与GPT-5 Pro模型同步推出,后者专注于金融、法律、医疗等高精度推理场景,支持40万tokens上下文长度,但仅通过Responses API提供。同时,OpenAI还发布了视频生成模型Sora 2的API预览版,并上线了AgentKit智能体开发工具,进一步丰富开发者生态。

面对全球AI厂商在API生态领域的竞争,OpenAI通过轻量化模型和降价策略吸引开发者。业内分析指出,API标准化或成为行业下一步焦点,有望降低开发门槛并提升模型互操作性。随着语音交互在智能家居、车载系统等场景的普及,OpenAI此举可能重塑多模态AI市场的竞争格局。

多模态大型语言模型(Multimodal Large Language Models,简称MLLMs)是一类结合了大型语言模型(Large Language Models,简称LLMs)的自然语言处理能力与对其他模态(如视觉、音频等)数据的理解与生成能力的模型。这些模型通过整合文本、图像、声音等多种类型的输入和输出,提供更加丰富和自然的交互体验。

图表1:多模态大模型的分类

多模态大模型产业链是一个庞大而复杂的系统,涵盖了从硬件设施到软件开发的各个环节,主要包括基础层、模型层和应用层。其中,基础层主要包括硬件和基础软件,模型层主要是多模态大模型的种类,包括CLIP、BLIP、BLIP-2、dreamLLM、LLaMA、LLaVA、flamingo、mini-GPT4等,应用层则是指大模型结合行业的进一步升级应用形成的行业大模型,主要包括生产制造领域、生活娱乐领域和公共服务领域等。

图表2:中国多模态大模型产业链

早期大模型的商业模式主要为SaaS模式和PaaS模式,但随着大模型行业的快速发展以及再各行各业的快速拓展应用,以大模型为核心的MaaS模式(模型即服务)出现,MaaS模式允许大模型服务提供商将大模型的特定功能或整个模型封装为API(应用程序接口),并将其作为一种服务,提供给其他开发者或业务合作伙伴使用,是目前大模型行业一种主流的商业模式。

图表9:多模态大模型行业的商业模式

业内分析认为,OpenAI此次双管齐下的产品策略,既保持了其在文本生成领域的领先优势,又通过专用语音模型完善了多模态交互能力。这种技术布局不仅满足了市场对高效AI工具的需求,也为构建更自然的人机交互体验奠定了基础。

前瞻经济学人APP 产业观察组

免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

苏姿丰聊AI泡沫,称热潮仍处早期阶段
科技
苏姿丰聊AI泡沫,称热潮仍处早期阶段

10月9日消息,AMD CEO 苏姿丰北京时间 7 日接受雅虎财经栏目采访,聊及她对 AI 领域的独到思考。节目中主持人首先复述了某些媒体关于“大规模 AI 投资过于超前,AI 泡沫即将戳破”的担忧

热心网友
10.09
OpenAI 视频生成应用 Sora 首周 iOS 下载量超 ChatGPT
科技
OpenAI 视频生成应用 Sora 首周 iOS 下载量超 ChatGPT

10月9日消息,据IT之家援引应用情报提供商 Appfigures 的新数据,在 OpenAI 的视频生成应用 Sora 冲上美国 App Store 榜首后,严格来说,其在 iOS 平台的首周表现

热心网友
10.09
AI 产业投资热:今年已有 55.2% 创投资金流入领域,结构分化明显
科技
AI 产业投资热:今年已有 55.2% 创投资金流入领域,结构分化明显

10 月 7 日消息,美国专注于私募和创投数据的 PitchBook 近日发布报告显示,截至今年第三季度,全球有 22 3% 的初创公司企业进入了 AI 领域,这些企业吸引了全球总创投资金的 55

热心网友
10.08
OpenAI推出小型语音模型,强调语音交互在未来人机沟通中的核心地位【附多模态大模型行业市场分析】
科技
OpenAI推出小型语音模型,强调语音交互在未来人机沟通中的核心地位【附多模态大模型行业市场分析】

2025年10月7日,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)在开发者日活动上宣布,正式通过API推出新一代语言模型GPT-5 Pro及轻量化语音模型“GPT-realtime-

热心网友
10.08
OpenAI 奥尔特曼官宣 ChatGPT 终极 OS 入口:8 分钟速搭智能体,周活跃用户破 8 亿
AI
OpenAI 奥尔特曼官宣 ChatGPT 终极 OS 入口:8 分钟速搭智能体,周活跃用户破 8 亿

10 月 7 日消息,科技媒体 The Decoder 昨日(10 月 6 日)发布博文,报道称在 OpenAI 2025 开发者日上,该公司首席执行官山姆・奥尔特曼(Sam Altman)宣布多

热心网友
10.08

最新APP

街球艺术
街球艺术
体育竞技 10-09
街球艺术华为
街球艺术华为
体育竞技 10-09
街球艺术九游渠道服
街球艺术九游渠道服
体育竞技 10-09
街球艺术正
街球艺术正
体育竞技 10-09
PUBGMobile亚服
PUBGMobile亚服
飞行射击 10-09

热门推荐

Huobiapp最新版本
web3.0
Huobiapp最新版本

在这个日新月异的数字资产世界里,技术迭代的速度快得让人有些应接不暇。今天还在用着某个版本,可能明天就听说又有新的升级了。这不,最近

热心网友
10.10
芝麻开门登录二维码在哪?
web3.0
芝麻开门登录二维码在哪?

说到数字资产交易,大家肯定对各种平台都不陌生,其中芝麻开门(Gate io)也算是比较老牌的平台了。不过,最近有朋友问我芝麻开门的登录二

热心网友
10.10
欧昜官方APP下载
web3.0
欧昜官方APP下载

欧易官方应用程序:数字资产世界的便捷入口与安全保障在数字资产日益融入我们生活的今天,选择一个可靠、便捷且安全的交易平台,无疑是每位

热心网友
10.10
Binance对中国用户的政策与访问现状
web3.0
Binance对中国用户的政策与访问现状

币安对中国用户的政策与访问现状 币安(Binance)作为全球领先的数字资产交易平台,其对不同国家和地区的用户政策一直备受关注,尤其是对

热心网友
10.10
Bitget账户登录与安全验证
web3.0
Bitget账户登录与安全验证

数字资产世界的通行证:Bitget账户登录与安全验证的深度解析 在数字资产的浩瀚海洋里,我们的账户就像是一艘艘承载着财富的船只。而Bitget

热心网友
10.10