首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
华人天才出走xAI:算力竞争终结,30美元实现AI自动化

华人天才出走xAI:算力竞争终结,30美元实现AI自动化

热心网友
86
转载
2026-02-27


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:倾倾

【新智元导读】2026年2月,Grok的核心成员Jiayi Pan和Toby Pohlen相继离开xAI。这似乎是某种预示,或许通往AGI的路不是算力规模,而是方法的突破。

2月26日,xAI Grok 4团队核心成员Jiayi Pan宣布离职


在离职声明中,他感谢了团队所有成员,给马斯克留足了面子。

几乎同一时间,Grok团队的另一位核心研究员Toby Pohlen也宣布离职。

他在X上阴阳Grok的工作机制,称「没有人能比你们更能熬夜」,然后@最新,公开叫板。


两人都是grok团队的重要贡献者,却在48小时内相继离开,这让外界对xAI内部状况产生了更多猜测。

4年,Jiayi Pan从一个初学者成长为Grok 4的核心贡献者,又选择了一条与巨头算力竞赛截然不同的技术路径。

四年蜕变

从AlphaGo迷弟到Grok 4贡献者

Jiayi Pan的AI之路始于2019年。

他本科就读于密歇根大学,获得计算机科学与电子计算机工程双学位,2024年毕业。

那时,Jiayi Pan对RL还一无所知。据他自己回忆,当导师提到RL时,他下意识想到的还只是AlphaGo。


2024年,他进入加州大学伯克利分校攻读博士,研究语言模型与视觉/机器人学的结合。

在Berkeley的早期项目中,他开发了SWE-Gym,这是一个将RL引入软件工程领域的环境。


代码传送门:https://github.com/SWE-Gym/SWE-Gym

该项目基于SWE-bench数据集的2294个真实GitHub Issue,要求AI不仅能读懂代码,还要生成可通过测试的Patch。

这为他后续的TinyZero研究——让AI学会修正自己,奠定了基础。

2025年5月,Pan加入xAI的Reasoning团队,4开发的核心成员之一。

在xAI的9个月里,他参与了强化学习模块的优化,推动模型从简单预测向自我验证演进。

也正是在这段时间,他启动了TinyZero项目。

30美元的颠覆

TinyZero「羞辱」巨头

2025年,Jiayi Pan在X上宣布开源TinyZero。

这是一个仅需30美元训练成本的3B参数模型,通过纯强化学习实现了自我验证和推理能力。


代码传送门:https://github.com/Jiayi-Pan/TinyZero

TinyZero基于Qwen2.5-3B基础模型,使用veRL框架在Countdown和Multiplication等任务上训练。

实验结果显示,基础模型在Countdown任务上的准确率从0%提升到RL训练后的80%以上。

这验证了一个假设:DeepSeek R1-Zero展现的自我推理能力,不是靠海量参数堆出来的,而是可以通过纯强化学习在小模型上复现的。

通往高级推理能力的路径,可能不需要5000亿美元的基础设施投资。

同一时期,Sam Altman宣布Stargate计划,计划在4年内投资数千亿美元建设AI基础设施,与Microsoft和Oracle合作。

但据报道,该项目因三方利益冲突而陷入停滞,到2025年底,一个数据中心都没建成。


相比之下,TinyZero的性价比拉满。

无需海量数据,无需庞大资金注入,纯靠RL,在极低的算力下完成了关键突破。

这或许也解释了为什么Pan等核心成员相继离职。

当你已经验证了一条不依赖巨头资源的技术路径,留在算力军备竞赛中还有意义吗?

出错了!TinyZero的元认知觉醒

TinyZero最引人注目的不是成本,而是它展现出的「元认知」特征。

在Countdown游戏中,模型不仅会预测答案,还会在输出最终答案前,进行完整的试错与回溯。

训练日志显示,模型会频繁输出 标签,内含自我质疑的语句。

例如,当计算路径偏离目标时,它会自动生成类似「Wait, that's wrong」的中间思维链,并立即启动新一轮推演。

这种行为模式此前只在DeepSeek R1-Zero等大规模模型中观察到。

R1-Zero的训练过程中曾出现「顿悟」式的能力跃迁,而这通常需要数周的迭代。

但TinyZero在3B参数、30美元成本的条件下就复现了这一现象。


Countdown任务中不同参数规模模型的PPO训练critic score曲线。可以看到,即使是3B的小模型,经过强化学习训练后也能展现出明显的能力提升。

这证明,Scaling Law负责堆砌知识广度,而RL负责打通逻辑深度的最后一公里,两者的结合不一定需要海量参数。

随着TinyZero的开源,这种自我纠错能力不再是巨头的专属技术。

任何开发者都可以在自己的垂直领域训练出具备思考后再回答能力的AI。

技术拼图:自我进化的可能性

回顾Jiayi Pan的研究脉络,可以看到一条清晰的技术路径:

在Berkeley期间开发的SWE-Gym,将软件工程基准SWE-bench转化为强化学习环境,训练AI修复真实代码问题。这是让AI学会改代码。

在xAI期间参与的Grok 4项目,将强化学习应用于大模型推理能力的提升,这让AI学会推理。

而TinyZero的开源,则证明了推理能力可以在小模型上通过纯RL实现,这是让AI学会自我纠错。

当这三块拼图组合在一起,一个更具想象力的可能性浮现:如果AI既能纠错,又能改代码,那它是否能优化自己的训练代码,从而实现某种程度的「自我进化」?

而这,正是2025年发布的Humanity's Last Exam(HLE)基准所隐喻的场景。


论文链接:https://arxiv.org/abs/2501.14249

HLE是一个多模态、超高难度的AI评估基准。

现有的MMLU等测试已被模型以90%+的准确率攻破,失去了区分度,而当AI能力持续提升。

人类需要什么样的「最后一道防线」来评估超级智能?

Jiayi Pan的工作,无论是SWE-Gym、Grok 4还是TinyZero都在逼近这个问题的边界。

他已经离开了xAI,去向未知。但他留下的代码和论文清晰地指向一个方向:

高级AI能力的实现,可能不需要依赖巨头的算力资源,而是可以通过方法论的创新在更小的规模上达成。

这带来了技术平权的可能,也带来了风险扩散的隐忧。

当任何开发者都能用30美元训练出具备自我纠错能力的模型,RL训练的不稳定性、开源模型的伦理边界、失控风险的防范......这些问题都没有现成答案。

或许,这确实是人类面对AI自我进化可能性的「最后一次考试」。

而这场考试,是所有人都需要参与的开卷测验。

参考资料:

https://www.linkedin.com/in/jiayi-pan-88964132a/https://x.com/jiayi_pirate/status/2026733283518906703?s=20

https://x.com/TobyPhln/status/2027188868059926705?s=20

来源:https://www.163.com/dy/article/KMPGBJ5A0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

零基础小白快速上手编程:7个入门核心技巧
科技数码
零基础小白快速上手编程:7个入门核心技巧

编程不仅是技术,更是一门手工艺。记录女生节编程活动,零基础用代码创造艺术。打破学科偏见,从传播学转行即兴编程。借助 AI 降低门槛,鼓励任何人大胆创作。致敬首位女性程序员,探索代码无限可能,感受科技

热心网友
03.30
MicroCoder突破大模型训练瓶颈:用算法数据框架提升经验
AI
MicroCoder突破大模型训练瓶颈:用算法数据框架提升经验

MicroCoder团队 投稿量子位 | 公众号 QbitAI新一代代码模型的训练动态已与旧模型截然不同,主流强化学习方法和数据集在其上几乎“失效”。微软亚洲研究院与剑桥大学、普林斯顿联合推出Mic

热心网友
03.30
151个暗藏恶意代码的软件包,如何被AI批量生成?
AI
151个暗藏恶意代码的软件包,如何被AI批量生成?

近十年来,供应链攻击屡见不鲜,攻击者通常会上传代码和名称与常用代码库极其相似的恶意软件包,诱使开发者在不知情的情况下将其引入自己的项目。 此前我们曾报道,有人在学术论文中嵌入隐藏指令,诱导 AI 打

热心网友
03.30
Meta推行工程师KPI新规:AI编写代码占比需达75%
科技数码
Meta推行工程师KPI新规:AI编写代码占比需达75%

来源:环球网【环球网科技综合报道】3月29日消息,据Business Insider报道,Meta公司已设定目标,规定部分员工在诸如编码等任务中使用人工智能工具的频率。Meta公司的员工创建了一份文

热心网友
03.29
AI违规致案件激增5倍:擅删邮件与滥用成隐患
科技数码
AI违规致案件激增5倍:擅删邮件与滥用成隐患

IT之家 3 月 28 日消息,英国卫报昨日(3 月 27 日)发布博文,报道称由英国政府资助的一项最新研究显示,过去六个月内,AI 聊天机器人违抗人类指令、实施欺骗的真实案例激增五倍,总数近 70

热心网友
03.28

最新APP

恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26

热门推荐

谷歌Chrome扩展安装指南:从商店轻松添加实用插件
电脑教程
谷歌Chrome扩展安装指南:从商店轻松添加实用插件

首先需登录Google账号确保权限正常,再通过Chrome网上应用店搜索并点击“添加至Chrome”安装;若商店不可用,则启用开发者模式后手动加载解压的扩展文件夹。如果您尝试在谷歌

热心网友
03.30
Boss直聘开启消息免打扰设置指南
手机教程
Boss直聘开启消息免打扰设置指南

在忙碌的求职过程中,boss直聘是很多人寻找工作的得力助手。然而,有时候过多的消息通知会让人应接不暇,甚至打扰到休息。别担心,今天就来教你如何在boss直聘开启消息免打扰,以及在休

热心网友
03.30
S24赛季开启,蛋仔派对新赛季时间与内容前瞻
游戏攻略
S24赛季开启,蛋仔派对新赛季时间与内容前瞻

蛋仔派对自上线以来,凭借其可爱的角色、丰富多样的玩法以及充满趣味性的社交互动,吸引了无数玩家的喜爱。每个赛季的更新都为玩家带来全新的体验,大家也都十分关注新赛季的开启时间。对于蛋仔

热心网友
03.30
洛克王国新手攻略:1-40级快速升级路线详解
游戏资讯
洛克王国新手攻略:1-40级快速升级路线详解

初入洛克王国世界,跟随新手引导完成一系列简单任务,这不仅能熟悉游戏基本操作,还能快速了解游戏世界观。完成新手任务后,积极探索王国各个角落,与场景中的 npc 对话,可能会获得意想不

热心网友
03.30
Netflix藏了3年的3部神剧,被用户发现后全网热播
娱乐
Netflix藏了3年的3部神剧,被用户发现后全网热播

《Something Very Bad Is Going to Happen》3月26日上线后,Haley Z Boston这部婚礼题材恐怖剧把 "婚前焦虑 "拍成了超现实噩梦。播完结局那片死寂里,观

热心网友
03.30