OpenAI人才揭秘:本科生凭一篇博客加入,无需博士与论文

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:Aeneas
【新智元导读】他没博士、没论文,却靠公开改进论文和跑基准测试,直接打动大佬、入职OpenAI!Noam Brown亲证:行动力和开源项目,才是逆袭顶级AI实验室的真正通行证。
就在今天,OpenAI传奇研究员 、德扑AI之父Noam Brown的一篇文章被刷屏了。
没有博士学位,没有研究背景,是否有可能在顶尖AI实验室找到工作?
这听起来像天方夜谭,但这个世界上奇妙的地方就在于,这样的例子还真不少。
比如,一个叫Keller Jordan的小哥,仅仅凭借一篇开源博客,就成功入职OpenAI,成为一名机器学习研究员!

是的,他没有写论文,而是将完整的研究过程、代码和实验结果在GitHub上完全开源。
最后Noam Brown总结道:虽然如今开放研究的空间比以前小了,但是在已有论文的基础上做改进,依然是一个向实验室研究员证明自己能力的绝佳方式!

这种做法,也会让对方更有信心,为你争取到一次面试机会。
从AI审核做起,走向人生巅峰
2020年,Keller毕业于UCSD,获得数学和计算机的双学士学位。
毕业时,他从未发表过任何一篇论文。
第一份工作, 是在一家人工智能内容审核初创公司。

有一天,他看到谷歌研究大牛Behnam最近发表的一篇论文,想到了一个改进思路,于是给Behnam发了一封邮件。
Behnam看到邮件后,同意指导这个年轻人。在没有人脉、没有背景的情况下,小哥就这样和大佬搭上了线。
更神奇的来了,这段合作,最终促成了一篇ICLR论文。
再后来,Keller的一项表现亮眼的工作「NanoGPT speed run」,直接改变了全新的研究范式,这不仅让特斯拉AI负责人Karpathy称赞不已,还引起了OpenAI的注意。
这不是一篇传统意义上的论文,却成为Keller命运的转折点。
因为他所有的工作都有完整记录,而且成果可量化、进展清晰,所以,OpenAI毫不犹豫地向他伸出了橄榄枝。
让Karpathy直呼「干得漂亮」
NanoGPT是Karpathy开源的一个项目,是一个极简的轻量级GPT训练和微调框架。
而Keller喜欢干的一件事,就是不断刷新NanoGPT的训练速度。为此,他不断尝试新的方法。
在2024年10月,他跑出了一个成果,将训练Transformer模型的token效率提高了3.8倍!

这也让他直接赢得Karpathy的盛赞。
NanoGPT speedrun的目标听起来非常简单:在固定模型规模(124M Transformer)和固定验证集损失目标(3.28 val loss)的前提下,用尽可能少的token、尽可能短的时间完成训练。
Keller所做的,就是基于Karpathy的nanoGPT/llm.c PyTorch训练代码,将其改造为一个可复现、可量化、可对比的基准。
最终,他让Token效率提升了3.8倍,而且从原本约10B tokens降低到2.7B tokens,即可达到目标loss。

这意味着,这个改进可以被严格验证,是一个硬指标。
让实验便宜到「人人能参与」
而且,Keller还非常有独创性。
与很多动辄需要数十万、上百万算力成本的训练不同,他在设计这个speedrun时,有一个非常明确的原则:让尝试新想法的成本足够低。
为此,他刻意做了几件事,比如让代码压缩到极简,只有537行;在8×H100的全新环境下,让安装和运行的时间仅为20分钟;甚至单次的尝试成本,低至8美元。
即使在今天的AI研究环境中,这也是一个极其罕见的设计选择。
这就意味着,从此不是只有大实验室才能参与,所有个人研究者、学生、独立工程师都能快速验证想法,创新不会再被算力门槛挡住。
被OpenAI注意到
就这样,NanoGPT speedrun成为了Keller逆袭之路上的关键一环。
一切都表明,这个成果非常硬:代码、日志、实验都完全可复现;在指标上,完全无法作弊;甚至,还有开发社区的真实参与。
甚至连验证方式都被设计得极其严谨:每一次speedrun的log文件中,都会包含完整代码副本。
任何人想复现一个新纪录,只需调用log文件即可。
Muon横空出世
而接下来,整件事情发展到了高潮。
在2024年底,他设计的神经网络隐藏层的优化器Muon横空出世,直接凭卓越性能刷新了NanoGPT和CIFAR-10训练速度的世界纪录!

Muon,是一种为神经网络2D参数隐藏层设计的优化器。它的核心思想是,SGD-动量法(SGD-momentum)生成的更新矩阵,通过Newton-Schulz迭代进行正交化处理,生成接近于半正交矩阵的更新,从而提升训练效率。
它的实现简单高效,支持在bf16精度下稳定运行,显著降低了计算开销。

比起AdamW优化器,Muon在多个任务中,表现非常惊艳。
虽然AdamW能让GPT、LLaMA、Qwen学得又稳又快,但随着模型参数从几亿增加到几千亿,训练时间从几天变成几周甚至几个月,AdamW的局限性开始显现。
虽然还未成为主流通用优化器,但Muon的出现表明,它很可能是AI模型训练领域的一次重大基础创新。
入职OpenAI
Muon在开发者社区的影响力越来越大,也就在同时,Keller于2024年12月,正式加入OpenAI。

有趣的是,Keller在2月份表示,虽然Muon火了,也帮他进入了OpenAI,但是他不会给Muon写一篇论文。
在他看来,与其在arXiv发一篇大概率被「淹没」的论文,还不如继续老老实实地研究自己的优化器。
毕竟在他看来,大多数优化器论文都是虚假的水文。

这些人,都成功逆袭大公司
此外,Noam Brown还列举了其他成功的案例。
比如被谷歌DeepMind发掘的Sholto Douglas。

他在X上十分低调,从未以一作身份发表过任何引人注目的论文,入行时间也只有一年半,然而,他却是Gemini成功的背后关键人物。

还在麦肯锡工作时,Sholto就逐渐确信AI会迎来爆发,于是开始在业余时间做自己的项目,还在Jax的GitHub上提出不少有洞见的问题。
这些表现打动了James Bradbury,最终被邀请到谷歌DeepMind去面试。
Andy Jones是一位半退休的量化分析师,在测试时计算还没火起来之前,他就写了一篇论文,毕竟了比较了扩大预训练规模和扩大测试时计算量的影响。

这篇论文让人印象极其深刻,并是因为刷新了某个基准,而是做出了非常聪明的设计选择,自己编写了GPU加速的环境,并且进行了严谨细致的消融实验。
最终,Andy Jones入职Anthropic。

参考资料:
https://x.com/polynoamial/status/2014084431062114744
https://x.com/polynoamial/status/2014084432685326485
https://x.com/polynoamial/status/2014084509575291163

相关攻略
《自然》:一桩悬案了结? “砷基生命”论文终遭撤稿,但争议远未结束 科学界一桩持续了15年的公案,最近有了新进展。顶级期刊《科学》(Science)正式撤回了那篇曾引发轰动的争议性论文——该研究当年声称,在美国加州莫诺湖发现的一种细菌,能够用有毒的砷元素替代生命必需的磷来构建DNA,这直接挑战了我们
中国科研产出激增背后:学术出版话语权与经济成本的双重挑战 近期,在上海科学会堂举行的Insight Press(睿见出版)首批高质量学术期刊创刊仪式暨第十一期“好望角科学沙龙”上,科学家、出版机构负责人与期刊主编们齐聚一堂,共同探讨中国一流学术期刊的未来发展路径。当前,中国科学家正以前所未有的速度产
中国科学技术协会2026年3月31日发布告示:中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清晰、适当的,没有发生变化。现就
Cornell University 图源:wikipedia撰文|张天如果有一天,全球科研人员突然无法访问arXiv,许多领域的研究节奏可能会被打乱。每天清晨刷新论文列表,已经成为部分数学家、物理
据微信公众号“中国科协之声”消息,3月31日,中国科学技术协会发布告示: 中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清
热门专题
热门推荐
语言大模型 提到“语言大模型”这个词,大家可能已经不陌生了。它本质上是一类基于深度学习算法,通过海量自然语言数据“喂养”出来的超级神经网络。这些模型在理解和生乘人类语言方面,展现出了惊人的能力。那么,它的核心特征究竟有哪些呢?我们来逐一拆解。 强大的语言生成和理解能力 这无疑是其最引人瞩目的光环。一
数据挖掘的完整流程:从问题定义到价值落地 谈及数据挖掘,很多人的第一反应是复杂的算法和代码。但数据挖掘的真正魅力,远不止于此。它应该是一套严谨、系统的方法论,驱动我们从未被充分利用的数据中提取出能指导行动的真知。这个完整的过程,环环相扣,缺一不可。 第一步:定义问题——找准起点,明确方向 万事开头难
正确认识RPA技术 智能时代的浪潮已经到来,新技术的涌现和发展是不可逆转的趋势。对于财务人员而言,首先要明确一点:RPA技术本质上是一种按预设程序执行重复性业务的信息处理工具。它不具备人类的思维能力、应变能力,更谈不上预测能力和职业判断。换个角度看,这其实是个好消息——财务人员完全可以成为这项技术的
RPA如何处理文本分类任务?深度解析其优势、挑战与未来 提到RPA(机器人过程自动化),都知道它擅长处理规则明确的重复性任务。但如果任务里混入了大量非结构化的文本信息呢?这就不得不请出它的一个重要搭档——文本分类技术。作为自然语言处理的基础任务,文本分类能将这些散乱的文本数据自动归入预设的类别,为后
自动化办公软件:企业效率提升的关键引擎 在当今快节奏的商业环境中,自动化办公软件早已不再是一个可选项,而是企业提升竞争力、实现高效运营的标配工具。它的核心价值在于,能够系统性地将人力资源从大量重复、繁琐的事务中解放出来,从而聚焦于更有创造性、战略性的工作。最终,它不仅能显著降低运营成本、提升工作质量





