首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
OpenAI前CTO创业模型首秀与面壁智能技术路线相似

OpenAI前CTO创业模型首秀与面壁智能技术路线相似

热心网友
76
转载
2026-05-20

今天,大模型领域又被点燃了。这次的火花,来自前OpenAI应用研究负责人翁荔(Lilian Weng)创立的Thinking Machines Lab(TML)。他们首次公布的技术愿景,直指人机交互的终极形态——一个能与人类进行“全双工”实时对话的AI模型。

然而,当TML那支展示着无缝、主动交互能力的演示视频在网络上流传时,不少AI领域的从业者却感到一种强烈的“既视感”。原因很简单:TML描绘的那个未来,早在三个月前,就已经被中国公司“面壁智能”以开源的形式,带到了现实世界。

先来看看“边看边听边说”的全模态实时交互效果。

这是面壁智能MiniCPM-o 4.5的效果,模型可以实时观察周围环境并进行描述,主动反应能力一流:

这是TML时隔3个月后发布的模型效果:

这不仅仅是一次简单的“撞车”,更像是一场跨越太平洋的技术共识。它不仅验证了下一代AI交互的技术路径,也让我们重新审视中国AI力量在全球创新版图中的位置。

一场不约而同的交互革命:打破“对讲机”模式

要理解这场技术共识的深刻性,首先要明白TML和面壁智能共同挑战的是什么——那就是延续至今的“回合制”交互范式。

从Siri到各类语音助手,再到GPT-4o的语音模式,我们与AI的交流更像是使用一部“对讲机”:你说完,等待“滴”的一声,然后它再回应。

这背后是一套名为“语音活动检测”的机制在主导,它像一个裁判,严格划分着你和AI的发言轮次。这种模式,与人类自然对话中那种你来我往、信息流交织的状态,相去甚远。

而面壁智能与TML的共同洞察是:真正的自然交互,必须打破这种轮次限制,进入一个“全双工”的流式处理时代。

  • 面壁智能的先行:这正是面壁智能在2月发布并开源MiniCPM-o 4.5时提出的核心理念。在其技术报告中,面壁智能将目标定义为构建一个能够处理和生成“交错多模态信息”的系统,其核心动机就是摆脱“对讲机”的束缚。
  • TML的愿景:在其博客中,翁荔团队明确指出,要从“回合制”转变为处理平行的输入、输出信息流。AI应该能一边听你说话,一边看着周围的环境,同时思考并生成回应,甚至在你话音未落时就能捕捉到意图,进行打断或补充。

这是面壁智能的MiniCPM-o 4.5,打破了传统交互中“对讲机”的模式:

这是TML的模型效果:

双方几乎用不同的语言,描述了同一个未来。这标志着,AI交互的下一次范式革命,已经有了清晰的靶心。

高度重合的技术框架

如果说目标一致是“英雄所见略同”,那么实现路径的高度重合,则让这场技术共识变得无可辩驳。TML与面壁智能,仿佛拿着同一张地图,走向了同一个目的地。

这张“地图”的核心,是一种基于时间对齐的流式处理框架

面壁智能称之为“Omni-Flow”框架。其原理是将连续的音视频流,像切香肠一样,切成以毫秒为单位的细小片段。然后,将同一时间片段内的视觉、听觉和已生成的文本令牌“打包”在一起,形成一个按时间排序的统一序列,喂给大模型。

面壁智能 Omni-Flow 框架示意图

而TML在其博客中提出的,是“基于时间对齐的微轮次”概念。其图示与Omni-Flow的原理如出一辙:同样是将多模态信息流切碎成带有时间戳的微小单元,然后在一条共享的时间轴上对齐融合。

TML 框架示意图

这种设计的精妙之处在于,它将世界从AI视角下离散的、模态各异的数据,还原成了其本来的面目——一个连续不断、多感官信息交织的整体。

正是基于这一共同的底层架构,两者都实现了两个碘伏性的能力:

  • 让模型自己决定“何时说”:由于信息是连续输入的,模型学会了在对话的“流”中寻找最佳发言时机,彻底摆脱了对VAD的依赖。
  • 实现“主动交互”:模型不再是被动等待指令的机器,而是可以主动与周围的环境进行交互,对环境的变动、人物做出反应。

从革命的目标,到核心的实现框架,再到最终呈现的能力,TML的首秀与面壁智能三个月前的工作,形成了完美的闭环印证。

愿景与现实:谁先撞线?

既然技术路线高度一致,那么评判的标尺自然就落在了“执行力”上——谁先将蓝图变成了现实?

答案是清晰的。

  • TML(2026年5月):交付的是一份详尽的技术博客和一支制作精良的演示视频。它成功地将一个激动人心的技术愿景传递给了世界,但截至目前,它仍是一个“期货”。
  • 面壁智能(2026年2月与4月):交付的是一套完整、开源、可立即上手的技术栈。包括了可部署的模型权重、复现所有工作的源代码、长达数十页的详尽技术报告,以及人人可试玩的在线演示。它是一个已经可以触摸和使用的“现货”。

MiniCPM-o 4.5 技术报告地址:https://github.com/OpenBMB/MiniCPM-V/blob/main/docs/MiniCPM_o_45_technical_report.pdf

如果说翁荔团队是向世界宣告“我们发现了新大陆”,那么面壁智能则是早在三个月前就已经登陆,并绘制好了海图,甚至向所有后来者开放了港口。

MiniCPM-o 4.5 视觉主动提醒

这种“交付”形态的差异至关重要。在大模型技术一日千里的今天,三个月的时间差,以及“概念展示”与“开源实物”之间的鸿沟,足以定义谁是先行者,谁是验证者。

一场中国AI的“自我证明”

TML与面壁智能的这次“技术撞车”,与其说是一场竞赛,不如说是一次相互成就。

翁荔以其在全球AI领域的巨大影响力,为这一技术方向带来了聚光灯,让“全双工”AI的概念迅速成为行业焦点。

而面壁智能则以其更早的布局、扎实的工程实现和彻底的开源精神,证明了中国AI团队不仅能跟上世界潮流,更有能力在关键领域领先潮流。

直接的数据佐证就是:面壁智能的MiniCPM-o 4.5在2026年2月就已正式开源,比翁荔TML团队领先了3个月

未来已来,只是分布尚不均匀。这一次,中国AI团队,有幸站在了更早的时区。

来源:https://www.jiqizhixin.com/articles/2026-05-12-12
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenAI推出算力保障服务长期合约享折扣锁定容量应对紧缺
AI资讯
OpenAI推出算力保障服务长期合约享折扣锁定容量应对紧缺

OpenAI近期正式发布了名为“保证容量”(Guaranteed Capacity)的全新服务方案,旨在帮助企业客户提前锁定未来一至三年的AI计算资源。在当前全球算力供应持续紧张的背景下,这项服务相当于为企业提供了一张长期稳定的“算力保障票”。 根据官方披露的细则,该服务的运行机制清晰直接:客户可自

热心网友
05.20
OpenAI内部文件曝光 Ilya Sutskever披露70页机密信息
AI资讯
OpenAI内部文件曝光 Ilya Sutskever披露70页机密信息

一份由OpenAI前首席科学家伊尔亚·苏茨克维秘密备份的70页内部文件,连同他超过200页的私人笔记,近日被《纽约客》杂志曝光。文件披露的细节堪比谍战片:偷拍关键内容、刻意绕过公司内部系统、使用阅后即焚的方式传递信息。而其中最核心的指控,直指公司首席执行官山姆·奥特曼——文件援引多方证据指出,其诚信

热心网友
05.20
OpenAI收购脱口秀公司背后的战略布局
AI资讯
OpenAI收购脱口秀公司背后的战略布局

刚刚拿下史上最大融资的OpenAI,转身就收购了一家视频播客?这操作着实让不少人摸不着头脑。 就在刚刚,OpenAI正式宣布收购科技脱口秀节目「TBPN」。官方给出的理由是,旨在加速全球范围内围绕人工智能的交流与讨论。 单从粉丝体量看,TBPN并非大众意义上的“顶流”:其在推特(X)平台拥有约32

热心网友
05.20
GPT5仅用18分钟破解黑洞方程效率远超人类科学家
AI资讯
GPT5仅用18分钟破解黑洞方程效率远超人类科学家

2026年,科学研究的范式正在悄然改变。人工智能,这位曾经的“辅助工具”,如今正以“合作者”的身份,深度介入从数学证明到黑洞物理的前沿探索。它带来的不仅是效率的提升,更是一种思维模式的拓展——科学加速的时代,已然拉开序幕。 从三个夜晚到一页证明:AI如何成为数学家的“思维翻跟斗” 数学,被誉为科学的

热心网友
05.20
欧盟拟依据数字服务法对OpenAI实施严格监管
AI资讯
欧盟拟依据数字服务法对OpenAI实施严格监管

欧盟的监管目光,正聚焦于ChatGPT。据路透社4月10日报道,欧盟委员会已启动一项评估,核心议题是:ChatGPT是否应被认定为《数字服务法》(DSA)框架下的“大型在线平台”,从而接受更严格的监管。 这一审查的触发点,是OpenAI主动披露的用户规模数据。根据DSA规定,月活跃用户数超过4500

热心网友
05.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Mac Studio M5性能深度解析 五大关键信息助你全面了解
iphone
Mac Studio M5性能深度解析 五大关键信息助你全面了解

苹果MacStudio库存见底,预示新款即将发布。外观预计延续经典紧凑设计,接口布局不变。核心升级为M5Max和M5Ultra芯片,性能大幅提升,但内存供应可能受限。固态硬盘速度有望翻倍。作为苹果专业桌面新旗舰,其起售价可能小幅上调,WWDC大会可能是发布窗口。

热心网友
05.20
尼克尔Z DX 24mm f/1.7镜头 适合C画幅人文扫街售1899元
业界动态
尼克尔Z DX 24mm f/1.7镜头 适合C画幅人文扫街售1899元

对于使用尼康Z卡口APS-C画幅(DX格式)相机(如Z fc、Z30、Z50)的摄影爱好者而言,在套机镜头之外选择一支定焦镜头,是提升创作自由度和画面质量的关键一步。尼克尔 Z DX 24mm f 1 7正是这样一款专为轻量化与大光圈设计的定焦镜头,目前京东售价1899元,为追求便携与画质平衡的用户

热心网友
05.20
彭军直言L3自动驾驶本质仍是L2,现有分级体系亟待重构
业界动态
彭军直言L3自动驾驶本质仍是L2,现有分级体系亟待重构

自动驾驶技术的分级标准正面临行业内部的深度反思与重构。在2026北京车展上,小马智行联合创始人兼CEO彭军发表的观点,将行业关注的焦点从技术参数转向了更为根本的责任归属议题。 彭军明确指出,当前广泛采用的L1至L5自动驾驶分级体系已显得“极其无厘头”。他认为,这些层级划分并非衡量自动驾驶商业化前景的

热心网友
05.20
特斯拉FSD无法升级引车主不满 马斯克承诺遭质疑
业界动态
特斯拉FSD无法升级引车主不满 马斯克承诺遭质疑

4月28日,《商业内幕》发布的一篇深度报道,揭示了特斯拉自动驾驶承诺背后日益凸显的信任危机。多年来,“未来将实现完全自动驾驶”是特斯拉吸引消费者的核心卖点,但对于众多早期支持者而言,这一愿景正变得愈发渺茫。 图1:马斯克确认HW3车型无法升级至无监督版FSD 问题的根源在于硬件代际差异。在近期举行的

热心网友
05.20
龙虾车圈热潮来袭现象深度解析
业界动态
龙虾车圈热潮来袭现象深度解析

当AI智能体不仅能说会道,还能帮你订餐、写报告,甚至用周杰伦的风格唱首歌时,汽车行业的竞争焦点,已经悄然从硬件参数转向了软件生态。这届北京车展,就是最好的证明。 “你能让它用周杰伦那种吐字不清的风格,唱首歌吗?”在火山引擎的展台,一位体验者向工作人员提出了这个有趣的要求。指令下达后,座舱里的“豆包”

热心网友
05.20