首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
Meta发布Muse Spark:华人天团废墟重建,最恨Llama的果然是小扎自己

Meta发布Muse Spark:华人天团废墟重建,最恨Llama的果然是小扎自己

热心网友
17
转载
2026-04-22

Meta AI“推倒重来”:华人天团交出首份答卷Muse Spark,但更大的战争才刚刚开始


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

作者 | 猫猫头
邮箱 | cathy@pingwest.com

在Llama 4的“崩盘”成为旧闻之后,Meta的AI路线图经历了一场彻底的自我革命。创始人扎克伯格亲手拆解了过去的团队与技术架构,转而押注一条全新的道路。九个月后,在一片关注与质疑声中,由他重金组建、以华人科学家为核心的研发天团,交出了第一个作品——Muse Spark。这不仅仅是一个新模型,更是一次宣告:Meta打算用一套从零搭建的全新AI技术栈,重新回到牌桌。

4月8日,Meta Superintelligence Labs (MSL) 正式发布了其成立以来的首个模型Muse Spark。九个月前,随着Alexandr Wang以首席AI官的身份加入Meta,一场技术重构悄然启动。团队推翻了Llama时代的技术遗产,从基础设施、模型架构到数据管道,全部从头开始。如今,Muse Spark作为这套新栈的首个产出,已直接上线驱动Meta AI。


可以说,在Llama 4因基准测试风波陷入被动后,Muse Spark标志着Meta AI一次不留退路的全面重启。

Muse Spark是什么?

简单来说,这是一个处处与前任Llama“反着来”的模型。它被刻意设计得小巧、轻量,并追求极致的响应速度。本质上,它是一个原生的多模态推理闭源模型。

先看它的几个核心能力:

真正的原生多模态: 不同于将视觉编码器“缝合”到文本模型上的常见做法。Muse Spark从预训练阶段开始,就让文本、图像、语音在同一个高维特征空间里共同学习。这意味着它处理图片时,无需先将其转化为文字描述,而是能直接从像素层面提取和理解信息。

Visual Chain of Thought(视觉思维链): 传统的思维链推理局限于文本领域。Muse Spark将这一机制引入了视觉空间,使其能够在图像内部进行“思考”,自主构建视觉元素之间的空间与逻辑关系。

Contemplating Mode(沉思模式): 对标Gemini的Deep Think和GPT Pro的极限推理模式。但它的独特之处在于非单线串行推理,而是在后台并行启动多个子智能体,各自处理任务的不同维度,最后由主控系统融合结果。在该模式下,其在Humanity‘s Last Exam测试中达到58%,在FrontierScience Research测试中达到38%。

工具调用与多智能体编排: 这些能力均为原生支持,而非后期附加。

目前,Muse Spark已在meta.ai和Meta AI应用上线,沉思模式正逐步灰度开放,同时其私有API也已面向少量合作伙伴提供预览。


技术亮点:效率革命与可预测的扩展

模型发布当日,MSL团队成员几乎集体在社交平台X上发声,透露了几个关键信息。

Meta官方博客披露了一项重要数据:在预训练阶段,新技术栈达到同等能力水平所需的算力,比上一代的Llama 4 Ma verick减少了超过一个数量级。这不是百分之几十的提升,而是十倍以上的效率飞跃。博客原文强调其“显著优于用于对比的领先基座模型”。

Alexandr Wang在推文中提到了一句至关重要的话:“我们在预训练、强化学习和测试时推理三个阶段,都看到了可预测的扩展规律。” 这或许比任何单一的基准测试分数都更有意义。它意味着这套技术栈并非偶然调优成功的“幸运儿”,而是一个具备平滑、可预测扩展曲线的系统性工程。


首席科学家赵晟佳的描述更为形象:模型的训练路径是一次“端到端的教育”——包括“学校教育”(预训练)、“家庭作业”(强化学习)和“在职培训”(产品部署后的持续学习)。他意味深长地补充道:“我们才刚刚开始。”

强化学习部分有一个有趣的技术细节。研究员毕树超提到了训练中最具挑战的部分:大规模强化学习的不稳定性,以及与“奖励机制作弊”作斗争。但最新的博客显示,他们最终将强化学习训练推进到了“平滑、可预测增益”的状态,相关性能指标呈对数线性增长,并且在未见过的评测集上也能平滑泛化。


更有意思的是训练中间出现的“相变”现象:团队引入了“思考时间惩罚”机制。模型起初通过延长“思考”时间来提升表现,随后在惩罚压力下学会了“思想压缩”——用更少的计算资源解决相同问题,之后再次延伸推理以达到更高性能。研究员Ananya Kumar称这个过程“相当巧妙”。

Ananya展示的另一组图表揭示了多智能体推理的关键洞察:多个智能体并行推理,在相同时间延迟下,能达到比单智能体更高的性能。换句话说,沉思模式不仅仅是“让模型想得更久”,更是“让多个模型同时思考不同方面”。


作为多模态底座的总架构师,余家辉的话值得玩味:“这是一段充实的旅程,不仅仅在于构建模型,更在于构建其背后的团队与文化。” 他们在九个月里,同步完成了两件大事。


Jason Wei的回忆则充满了画面感:“第一周,我们在食堂进行了一次漫长的晚餐,畅想研究方向,然后回到桌前写了一个基本的推理脚本。如今,我们拥有了一套相当完整的技术栈,并且发布了第一个模型。”


基准测试:领先与争议并存

那么,Muse Spark在实际测试中表现如何?

在极高难度的医学问答基准HealthBench Hard上,Muse Spark得分42.8,优于GPT-5.4的40.1,更是远超Gemini 3.1 Pro的20.6和Claude Opus 4.6的14.8,领先优势接近两到三倍。

在科研论文图表深度理解测试CharXiv Reasoning上,它以86.4分位居行业榜首。

在真实软件工程任务测试SWE-bench Pro上,达到55.0%,超过了Claude Opus 4.6的51.9%。

然而,在综合性的Artificial Analysis智能指数上,Muse Spark得分为52分,仍落后于GPT-5.4和Gemini 3.1 Pro的57分。

这些数据表明,Muse Spark在需要深度视觉理解的医疗多模态和科研图表领域,已建立起断档式的领先优势,在代码工程上也跻身第一梯队。但其综合能力与纯文本高级推理方面,与顶尖模型尚有差距。

这样的表现也引来了批评。Ndea的联合创始人François Chollet直言Muse Spark“看起来是个令人失望的模型”,他认为模型过度优化了公开基准测试,牺牲了实际可用性。对此,Alexandr Wang的回应显得克制:他承认模型在ARC AGI 2等部分评测上表现不佳,并强调所有数据均已主动公开。

Chollet的质疑并非空xue来风。Llama 4时代,Meta就曾因基准测试争议损伤过信誉。此次Muse Spark在特定领域断档领先,究竟是源于对测试的定向优化,还是其原生多模态架构带来的真实能力突破?这个问题需要更多独立的第三方测试来验证。


更大的图景:一次彻底的技术栈重构

无论如何,Muse Spark的重要性远不止于今天的基准测试分数。

从模型的设计理念,到研发团队重点介绍的技术细节,一切都指向对Llama时代的全面反叛。在扎克伯格看来,Llama 4的溃败必须被彻底翻篇。因此,不仅是开源路线或模型架构需要调整,而是整个训练基础设施都必须推倒重来。此次核心成员们的分享,焦点都集中在底层技术栈的重构上。Muse Spark的发布,也让外界更加明了扎克伯格重金挖来Alexandr Wang及其团队的深层意图。

可以说,最急于告别Llama的,正是Meta自己。它必须在废墟之上,完成重建。

此次发布也是Meta招兵买马后,那支备受瞩目的华人科学家团队交出的首份答卷。余家辉、赵晟佳、任泓宇、毕树超、林纪——这些以前OpenAI核心成员身份被Meta以重金招揽的科学家,在纸面上构成了一个明星阵容。他们的首要任务,就是用一款模型帮助Meta重新在AI竞赛中站稳脚跟。这是扎克伯格的当务之急。

九个月前,扎克伯格交给他们的是一张白纸。如今他们交出的,不仅仅是一个模型,更是一套涵盖了预训练、强化学习、测试时推理的完整技术栈。而最关键的是,这套技术栈的扩展曲线被证明是平滑且可预测的。

这只是一个开始。更大的模型,已经在路上了。


点个“爱心”,再走吧

来源:https://www.163.com/dy/article/KQ2IS4VB0511N33R.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Meta发布Muse Spark:华人天团废墟重建,最恨Llama的果然是小扎自己
科技数码
Meta发布Muse Spark:华人天团废墟重建,最恨Llama的果然是小扎自己

Meta AI“推倒重来”:华人天团交出首份答卷Muse Spark,但更大的战争才刚刚开始 作者 | 猫猫头邮箱 | cathy@pingwest com 在Llama 4的“崩盘”成为旧闻之后,Meta的AI路线图经历了一场彻底的自我革命。创始人扎克伯格亲手拆解了过去的团队与技术架构,转而押注一

热心网友
04.22
扎克伯格AI战略:豪掷6000亿,裁员1.6万背后
科技数码
扎克伯格AI战略:豪掷6000亿,裁员1.6万背后

新智元报道编辑:倾倾【新智元导读】路透社独家:Meta正计划裁员20%,约1 6万人。与此同时,扎克伯格砸6000亿美元建数据中心、20亿买Manus、143亿挖Scale AI创始人。一边疯狂招顶

热心网友
03.25
扎克伯格打造AI分身,计划裁员1.6万
AI
扎克伯格打造AI分身,计划裁员1.6万

机器之心编辑部如果说 Meta 去年的关键词是「砸钱抢人」,今年可能是「为 AI 降本增效」。前两周,路透社援引知情人士消息称,Meta 正在酝酿大规模裁员,可能影响公司 20% 甚至更多员工。按照

热心网友
03.25
28岁王恺:没走!与小扎合照释出职场真谛
AI
28岁王恺:没走!与小扎合照释出职场真谛

新智元报道编辑:桃子 好困【新智元导读】一张合照,小扎击碎了所有谣言。华裔天才、MSL首席AI官Alexandr Wang不会离职,牛油果模型期待一下吧。别猜了,MSL掌门人没走!这几天,坊间传闻,

热心网友
03.10
庞若鸣跳槽OpenAI:放弃Meta14亿年薪,入职仅7个月
AI
庞若鸣跳槽OpenAI:放弃Meta14亿年薪,入职仅7个月

新智元报道编辑:桃子 好困【新智元导读】不过7个月,华人AI巨星庞若明从Meta,直接跳到了OpenAI。小扎曾为他开出高达2亿薪酬包,最终也没留住人才。太劲爆了!入职Meta「超级智能实验室」仅7

热心网友
02.27

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

iPhone16之间如何快速传输App?详细步骤解析
iphone
iPhone16之间如何快速传输App?详细步骤解析

通过AirDrop功能,可在iPhone16之间快速传输已安装的App,无需重新下载。 省去重新下载的等待,直接在两部iPhone 16之间“搬运”已经安装好的App——这个用AirDrop传App的功能,确实方便。不过,想顺利操作,有几个关键前提得先摆正。 准备工作与条件确认 开始之前,最好花一分

热心网友
04.22
iPhone17设备名称怎么修改?详细步骤教程
iphone
iPhone17设备名称怎么修改?详细步骤教程

修改iPhone17设备名称的核心步骤 想给你的iPhone17换个独具特色的名字吗?其实很简单,整个操作的核心路径就在「设置」>「通用」>「关于本机」>「名称」里,几步就能完成自定义。 为什么要修改iPhone17的设备名称? 给iPhone17改个名,可不仅仅是图个新鲜。它在蓝牙配对、使用Air

热心网友
04.22
iPhone14隐藏ID怎么解除?详细步骤与注意事项
iphone
iPhone14隐藏ID怎么解除?详细步骤与注意事项

解除iPhone14隐藏ID的核心方法是联系原机主或提供购买凭证,通过官方渠道重置Apple ID 手里突然多出一台被锁的iPhone 14,用起来处处受限,这事儿确实头疼。好消息是,只要遵循官方路径,问题基本都能解决。关键在于,你得有耐心走完正规流程。 什么是iPhone隐藏ID? 简单来说,iP

热心网友
04.22
怎么查找我的iPhone17位置?
iphone
怎么查找我的iPhone17位置?

通过“查找”应用或iCloud网站,登录Apple ID即可实时定位iPhone 17,即使设备离线也能显示最后已知位置。 使用“查找”应用定位iPhone 17 如果你手边还有别的苹果设备,比如iPad或者Mac,最省事的方法就是直接用上面的“查找”应用。打开应用,登录和iPhone 17同一个

热心网友
04.22
iPhone 16通知权限设置与微信提示音修复指南
iphone
iPhone 16通知权限设置与微信提示音修复指南

iPhone 16通知权限设置与微信提示音修复指南 微信消息突然“静音”了?先别急着怀疑手机坏了。在iPhone 16上,通知体系和声音管理比以往更精细,有时只是某个开关没到位。接下来,咱们就把系统通知中心、应用权限、勿扰模式这几个关键环节捋清楚,帮你快速找回失联的提示音,避免错过重要信息。 iPh

热心网友
04.22