Zoom联手联邦AI攻克全球最难AI测试纪录

时间：2026-01-16 18:55

Zoom 的人工智能系统近期在被冠以“人类终极考场”（Humanity s Last Exam，HLE）之称的全球顶级AI能力评估基准中，以48 1%的得分创下新高，一举打破此前由

Zoom 凭借联邦 AI 刷新全球最难 AI 考试纪录

在被称为“人类终极考场”的人工智能评估基准测试中，Zoom最近取得了突破性进展。其AI系统以48.1%的得分刷新了纪录，超越了此前由Google Gemini 3 Pro保持的45.8%的成绩。

面对“一家不自主研发底层大模型的企业，如何实现对头部厂商的技术反超”这一疑问，Zoom首席技术官、前微软AI高管黄学东给出了解释。他表示，Zoom并未投入巨资训练拥有万亿级参数的私有大模型，而是独创了一套高度协同的“联邦式人工智能架构”：

Z评分器：作为整个系统的决策中枢，它能动态分析并比对来自OpenAI、Google、Anthropic等多家主流模型的输出结果，并依据任务需求实时遴选最优响应；
探索-验证-联合机制：这是一种基于多智能体的协作范式，通过让不同AI模型彼此质疑、交叉验证与协同优化，持续提升推理质量与逻辑严谨性；
流量控制器：本质上是一个高度智能化的AI调度枢纽——它不替代模型，而是整合模型；不堆砌算力，而是重构编排。正是这种“集成即能力”的思路，使Zoom实现了单一模型难以企及的综合表现。

这一成果在技术圈内迅速激起了两极评价。以工程师Max Rumpf为首的一批开发者提出，Zoom实质上是依托各大厂商API构建的“高级封装层”，其突破仅体现在脱离真实场景的学术型测试中，对终端用户价值微弱，甚至被质疑为“借他人之力博取虚名”。

但另一些行业观察者，如开发者朱宏成，则持截然不同的观点：在当前的AI评估体系下，“模型联邦”已成为必然路径。这正如Kaggle数据竞赛冠军普遍采用模型融合策略，而非孤注一掷押注单一架构。从商业视角看，该路径极具现实智慧——既规避了天文数字般的训练成本，又赋予Zoom在模型供应商间自由切换的能力，彻底摆脱了生态绑定困局。

在黄学东看来，此次在HLE基准测试中登顶，是对Zoom全栈AI战略的一次关键印证。而对于其全球数亿用户而言，真正的考验将落在即将发布的AI Companion 3.0上。尽管48.1%的HLE成绩反映出当前机器在高等数学、抽象哲学等复杂认知任务上的前沿水位，但用户真正关心的是：当数以亿计的会议记录被自动归纳、行动项被精准提取时，这套“联邦大脑”是否真能比任何单一模型更高效、更可靠、更懂人。

来源：https://www.php.cn/faq/1989250.html?uid=1246273

上一篇长征十二号乙运载火箭静态点火试验圆满成功 下一篇华为ADS车型年内将超80款，车BU CEO靳玉志披露布局

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。