大模型领域再起风云。今日,Transformer开创性论文《Attention Is All You Need》的共同作者Noam Shazeer在社交平台正式官宣:离职谷歌,加盟OpenAI。

(图源:X)
对于普通大众来说,这个名字或许稍显陌生,但熟悉生成式AI底层架构的人都清楚,他是这个时代的奠基者之一。2017年那篇颠覆性论文,他不仅是作者,更是核心贡献者。其Google Scholar主页显示,总引用量已高达357,394次,这一数字足以证明他的学术影响力。

(图源:Google Scholar)
说起Shazeer与谷歌的渊源,颇为曲折。他作为谷歌元老,曾主导开发早期大模型Meena,然而受限于大公司的体制束缚,难以充分施展才华,于2024年毅然离职,创办了Character.AI。同年,谷歌后知后觉,砸下近27亿美元将他连人带团队重新招揽回来。

(图源:Linkedin)
在这两年里,谷歌全力推进Gemini家族迭代,从底层多模态能力到超长上下文处理,表现相当出色,这背后无疑有Noam的贡献。然而,不到两年时间,他便再度转身,投奔OpenAI。不得不感叹,去意已决之人终究难以挽留。对于谷歌而言,这无异于赔了夫人又折兵。
当前,大模型在核心能力上已难以形成显著代差,真正的突破点集中在应用场景和算力效率上——毕竟单纯靠消耗tokens的路径在成本上难以为继。观察Noam今年注册的最新专利,其中透露的全是大模型下一阶段演进的关键方向:
Agent能力的关键拼图:专利US20260037744A1明确提及结构化工具(如API)的使用,其核心不仅限于内部推理,更致力于让大模型自主调用外部工具与API,从而具备真正的Agent能力。OpenAI显然希望借助他来补上打造“超级智能体”最关键的一块短板。
用AI设计AI:专利US20260105300A1聚焦神经架构搜索(NAS)。这表明他不仅擅长宏观架构设计,更在探索利用算法自动搜索、组装比当前Transformer更高效的底层网络组件。
极致利用算力与硬件性能:专利US20260044710A1涉及广为人知的混合专家模型(MoE)核心逻辑;另一项包含线性单元(linear units)的专利,则通过引入元素级乘法,优化底层前馈网络(如业界热门的GLU变体)。
总而言之,OpenAI招揽Noam,看重的是他在底层架构构建上的深厚功力。对于这一动态,你怎么看?Noam的加盟能否帮助OpenAI继续稳坐行业铁王座?欢迎在评论区分享你的见解。
