首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
DeepMind元老Andrew Dai揭秘谷歌AI进化从PaLM到Gemini未来押注视觉推理

DeepMind元老Andrew Dai揭秘谷歌AI进化从PaLM到Gemini未来押注视觉推理

热心网友
74
转载
2026-05-28

过去十年,大模型领域每一次关键的技术转向,几乎都绕不开一个名字:Andrew Dai。从奠定GPT基础的预训练与监督微调,到如今主流的MoE架构;从Google Brain只有几十人的草创时期,到支撑起Gemini庞大规模的数据体系,这位在谷歌深耕超过14年的研究科学家,始终站在浪潮之巅。

但比起“论文作者”这个身份,Andrew更独特的地方在于,他同时站在了研究、系统与产品三条线的交汇处。从Google Brain、Google Research到后来的Google DeepMind,他亲历了从PaLM到Gemini的完整演进,并在Gemini时代开始负责最核心的数据体系。可以说,他亲眼见证了大模型从一个纯粹的“研究项目”,蜕变为影响全球产业的基础设施。

然而,就在整个行业依然沉迷于“更大的模型”和“更强的代码能力”时,这位长期与语言模型打交道的人,却将目光投向了另一个方向——视觉推理。他离开谷歌,创立了ElorianAI。

在Andrew看来,今天的大模型远未真正“理解”世界。它们能生成流畅的文字、惊艳的图像,也能写代码、做总结,但这些能力背后,很多时候只是一种“看起来像理解”的假象。

“如果你让模型生成一个装有10个球的盒子,再问它里面有几个球,它依然可能答错。”这个听起来近乎荒诞的例子,恰恰点出了当前AI最核心的短板。

原因在于,几乎所有前沿模型,其推理本质上仍局限在“文本空间”里。但现实世界并非由文本构成。人类在拥有语言之前,就已具备空间感知、物理理解和视觉推理能力。动物捕猎需要理解速度与轨迹,工程师设计汽车离不开图纸,物理学家思考宇宙也依赖视觉化结构。而今天的大模型,恰恰缺少这种最底层的“世界理解”。

这也正是他选择视觉推理作为新起点的原因。

访谈中,Andrew反复提及一个概念——“锯齿状前沿”。在关于AGI的宏大叙事里,人们总习惯想象一条平滑上升的曲线,仿佛AI会在某一天全面超越人类。但现实并非如此。AI的能力增长极不均匀,像一片参差不齐的锯齿:在某些领域(如围棋、代码)已远超人类,而在另一些基础能力(如计数、空间关系)上却依然脆弱得惊人。问题在于,人类往往在目睹AI的“超人表现”后,便误以为它已无所不能。

“也许未来最危险的,不是AI不会思考,而是人类误以为它已经会思考。”他说道。因此,他坚信下一代真正重要的AI能力,将诞生于视觉、多模态与现实物理世界的交汇处,而非纯粹的文本空间。

在这场对话中,我们聊到了Google Brain早期的研究文化、PaLM 2诞生背后的真实考量、Gemini时代关于架构与安全的争论,也深入探讨了世界模型、视觉推理、机器人、开源闭源之争,以及他为何认为,今天的大模型还远远没有真正理解这个世界。

01 从40人Google Brain到Gemini:亲历Google AI发展的关键转折

Christine Qing:你在Google Brain及后来的DeepMind Gemini团队工作了近14年,参与构建了当今最具影响力的AI系统之一。如今你选择离开并创立Elorian。能否回顾一下,过去十几年里,你和整个行业究竟经历了什么?

Andrew:那是一个想法自由碰撞的时代。当时的Google Brain规模很小,大概就40到50人,氛围非常开放,任何想法都可以拿出来讨论。有些想法很有趣但没能成功,有些则真正产生了影响。那个时期特别容易催生突破,你看当时涌现的论文——Sequence to Sequence、预训练与微调、Transformer——这些今天AI的基石,几乎都集中间出现在那三四年里。

Christine Qing:当时的团队是如何组织的?是大家自由碰撞,还是从一开始就有明确目标?

Andrew:一开始并没有一个特别明确的目标,但Google Brain与其他实验室最大的不同在于,我们非常强调“真正影响用户、真正落地到产品”。这是核心驱动力。比如Sequence to Sequence直接推动了机器翻译的进步。今天所有人都在用的序列建模或语言模型技术,其通向产品的路径一直是清晰存在的。我们不是为了发论文而做研究,论文只是做出有价值东西过程中自然产生的副产品。

Christine Qing:你后来在Google Health工作过,也在Google I/O上发布过产品。在2023年AI爆发之前,你经历了多少次这样的落地尝试?

Andrew:我们尝试过很多,成功的少,失败的多。我参与过Smart Reply和Smart Compose,大概在2016到2018年。之后Google Health独立出来,我的工作是研究如何用深度学习更好地理解医疗健康记录。但那时候,我们还没开始大规模扩展模型。虽然已经在用语言模型,但模型实在太小了,几乎什么都做不了。不过现在情况完全不同了,越来越多公司开始在医疗领域使用语言模型,并且真的开始见效。

Christine Qing:当时的瓶颈到底是什么?是数据难以获取,还是系统本身的问题?

Andrew:两方面都有。一方面是数据,医疗数据受HIPAA等隐私法规限制,非常难共享。另一方面是模型规模,当时的模型和今天的基础模型相比,实在太小了。

Christine Qing:ChatGPT出现后,行业开始加速。你从2022年开始共同负责GLaM和数据团队。是什么时候真正意识到,AI不再只是研究,而是开始对全球经济产生实际影响,走向AGI时代?

Andrew:转折点是PaLM 2,当时内部还叫GLaM。我主要负责预训练和架构。PaLM 2起初是一个纯粹的研究项目,但到了后期,结合行业态势,我们非常清楚:谷歌必须拥有这个模型。没有它,谷歌会明显落后。幸运的是,PaLM 2的预训练过程非常顺利,最终成为了一个非常出色的模型。

当然也有小插曲。比如感恩节那天,我发现磁盘空间快满了,整个晚上都在忙着复制检查点、删除文件。好在训练没有中断。完成后,我们发现这个模型确实比当时的其他模型强很多,当时对标的还是GPT-3。后来,它被部署到了大量产品中。

那是我第一次真正意识到,一个模型居然可以同时部署到三四十个产品里。更让人惊讶的是速度,训练结束仅仅几周到几个月,它就无处不在。这在谷歌的历史上是非常罕见的。

Christine Qing:当时内部真正的争论焦点是什么?外界在热议AI伦理和安全,但在会议室里,你们实际在讨论什么?有没有什么未公开的细节?

Andrew:在PaLM 2时期,公众层面的安全讨论确实越来越多。但在公司内部,已经建立了比较成熟的安全委员会和流程。模型训练完成后,会经过专门的安全处理。所以“要不要做安全”本身,并没有太多争论。

真正争论激烈的是架构。比如,我们是否应该继续使用自回归和因果注意力这种标准架构。这类技术路线的讨论,在项目早期非常激烈。到了后期,关于安全本身,已经有成熟的规范和流程来确保模型对用户足够安全。

Christine Qing:谷歌有成熟的体系处理安全问题,但现在的众多前沿实验室都在高速竞赛。从你的观察看,行业目前的安全措施真的足够了吗?

Andrew:远远不够。现在的模型依然可以被“越狱”。目前的安全机制主要保护普通用户,但对于有技术能力的人来说,很多限制依然能被绕过。

然而,更值得担忧的其实是未来AI智能体的安全问题。如果AI智能体能够读取邮件、浏览网页、自动研究,那么在传统计算机科学里,这些都属于“未经清洗的输入”。语言模型有一个根本问题:它无法真正区分“来自互联网的信息”和“用户真正的指令”。这里存在严重的安全漏洞。再加上模型越狱本身技术门槛不高,因此,在将这些系统投入关键场景之前,我们还需要更多的研究与理解。

Christine Qing:在谷歌待了将近14年,离开一定不是个轻松的决定。最终是什么推动你走出了那扇门?

Andrew:核心是时机。对于创业公司,时机至关重要——ChatGPT出现的时间点就非常完美。模型已经足够成熟,行业也开始加速。我当时看到,基础模型正进入一个特殊时期。去年本质上是“开源模型之年”,开源模型的能力开始快速逼近闭源模型。

这意味着,一家新公司几乎从第一天就能真正开始做研究。我们不需要从零搭建全部训练设施,不需要从头准备预训练数据,也不需要重新训练所有基础能力。这些东西已经存在了,这极大地降低了行业门槛。而且我强烈感觉到,这样的窗口期不会长期存在。从经济角度看,让开源模型长期维持如此高的水平并不合理,训练成本太高了。因此,很多模型又重新走向闭源。所以,我认为那是一个真正的“黄金机会窗口”。

另一个原因是Gemini的发展让我越来越明显地感觉到,文本能力已经非常成熟,在很多基准测试上已达到甚至超过人类水平。整个行业的关注点也越来越集中在代码能力上。代码当然很重要,市场也很大,但我从十岁就开始写代码,我始终觉得世界不只有代码。

工程世界里还有太多领域几乎没有被AI真正改变。很多人会说“AI对我的行业没什么影响”,但仔细观察就会发现,原因在于那些行业需要真正强大的视觉推理能力。比如设计火箭或汽车电池,那并不是一堆方程式,而是在CAD软件里画结构、设计形状、优化空间。而现在的大模型,根本无法真正理解这些东西。

最后一个重要原因是团队。最早和Quoc Le写预训练与微调论文时,只有两个人。后来做GLaM,大概十个人。做PaLM时,核心团队三四十人。但现在的Gemini,规模已经大了几个数量级。与此同时,我看到很多中国开源模型团队,人数很少但进展极快。这让我意识到,真正高效的AI团队不一定需要巨大规模。

我现在越来越相信,正确的方式是一支非常专注、世界级的小团队,加上充足的算力。只有这样,才能真正快速迭代。中国团队在某种程度上证明了这一点。

Christine Qing:你离开谷歌时,我第一反应是你要做另一个前沿实验室,训练自己的大模型。但你最终选择了视觉推理。为什么没有选择募集巨额资金去训练基础模型?

Andrew:原因有很多。首先,我们并非不在构建前沿模型,我们依然在构建世界级模型。但问题在于“如何到达那里”。AI行业变化太快了,如果一家新公司成立后要等两年才发布第一个模型,那基本就太晚了,行业会把你忘掉。所以我们希望非常快速地展示真正的、可见的进展。这也是我们融资速度特别快的原因,从公司注册到签署投资条款,整个过程不到一个月。我们相信,AI的发展速度已经快到连一周都不能浪费。

还有一个创业者很少公开谈论的点:融资太多,对员工未必是好事。美国有一些税务政策,会让早期加入公司的员工获得非常好的收益。但如果一开始就融太多钱,估值太高,员工反而会失去这些优势。所以对我们来说,“照顾员工”非常重要。不是只有创始人才应该享受成长红利。我们希望团队里的每个人都能真正参与这段从零开始的旅程。如果一家公司起步估值就很高,那么后加入的人其实已经失去了“从0到10亿美元”的成长空间。归根结底,最重要的不是模型,不是权重,而是你招进来的那些人,你的团队。

很多公司的文化,本质上就是CEO和高管人格的投射。我们一直强调,我们是一支“人才密集、低自我”的团队,而这正是优秀团队能够形成的关键。

02 现在的世界模型,约等于二十年前的语言模型

Christine Qing:能否具体解释一下什么是视觉推理?你曾说现在很多前沿实验室的多模态能力还停留在“三岁小孩”阶段。那么,从今天的大模型到你们正在构建的视觉推理模型,中间缺失的那一层到底是什么?

Andrew:现在很多公司专注于多模态生成,比如生成漂亮的图像、接近电影级的视频。但问题在于:“生成”不等于“理解”。语言模型的发展也经历过类似阶段。早在十年前,我们做聊天机器人研究时,即便很小的LSTM模型,如果你问它“人生的意义是什么?”,它也能给出看起来很合理的答案,但那并不意味着它真的理解。

现在的多模态模型其实也一样。它们能生成看起来非常真实的图像和视频,普通用户已经很难分辨真假。但真正的专业人士,比如导演、摄影师、艺术家,一眼就能看出问题,比如“这个人为什么有六根手指?”。所以我们现在的阶段,其实只是“看起来像理解”。模型本身并不真正理解自己生成了什么。

再比如,你让模型生成一个装有10个球的盒子,然后再问它“盒子里有几个球?”,它很可能答错。这就是目前前沿实验室普遍忽略的问题:生成能力已经非常强了,但理解和推理依然很弱。

Christine Qing:很多投资人担心,任何AI创业公司最终都会被前沿实验室吞掉。既然视觉也是大市场,你会不会最终也被这些巨头覆盖?

Andrew:在这个时代,没有什么是不可能的。我不会给任何事情赋予“零概率”。

但我们观察到一个重要现象:多模态能力与代码能力之间存在根本性的张力。当你加入大量多模态数据时,模型的编码能力往往会下降;反过来也一样。为什么会这样还需要更多研究,但它至少说明了一件事:很难用一个模型,同时把多模态和代码都做到极致。

所以我认为,未来会是“专精化前沿模型”的时代。我们现在做的,就是构建一个专门针对多模态推理优化的模型。从数据、架构、算法到强化学习,全部围绕多模态推理设计。而其他实验室如果同时还想把编码能力做到极致,会非常困难。这两者之间存在根本性的冲突。

Christine Qing:所以现在其实还没有定论。

Andrew:没人知道未来一定会怎样。但我们相信,如果你真的想实现优秀的多模态能力,那么“专精模型”是必要的。

Christine Qing:视觉推理和世界模型之间,真正的关系是什么?LeCun这些年一直在强调世界模型和JEPA,而不是简单的下一个词预测。你怎么看?

Andrew:我觉得,现在的世界模型,大概相当于语言模型二十年前的阶段。那个时候,我们知道自己想构建某种具备高级能力的系统,但没人知道它最终会变成什么。二十年前,语言模型还是n-gram模型,没有任何人相信语言模型未来会成为整个AI的基础。真的,一个人都没有。

我甚至记得,当年在Google Brain,还有人问“做语言模型到底有什么意义?”。那时候语言模型唯一的用途就是语音识别解码,除此之外几乎什么都做不了。但后来,我们开始意识到,这不仅是语音识别技术,它其实是下一代AI的基础。

所以现在我看JEPA,也会有类似感觉。比如现在很多世界模型还只能在单GPU上运行,这其实有点像几十年前的语言模型阶段。我认为它们距离真正成熟,还有非常长的路要走。

但我最大的担忧是,很多世界模型路线忽视了过去十年基础模型已经积累下来的技术与知识。正确的方向不是完全推倒重来,而是在现有基础模型上,融合新的架构、新的方法,继续扩展能力边界。这也是我们正在做的事情。我们并不是否定过去十年的基础模型,而是希望把它们延伸到下一代推理——也就是视觉推理与多模态推理。

Christine Qing:最近很多人问我,Fei-Fei Li的World Labs和LeCun在Meta做的世界模型有什么区别?能否给一个通俗的解释?

Andrew:也许可以借用另一位研究者的话。他说,Meta的模型本质上更像一个“4D时空表示模型”,而World Labs现在更接近“视频生成模型”。

但从更高层的哲学来看,其实两者很相似。它们都想做同一件事:构建一个能够“表示世界”或者“生成世界”的模型。也就是说,它们都希望AI能够理解并生成一个完整的虚拟世界。而且,两边都认为视觉是实现这一切的核心路径。

它们未来想落地的应用场景也会有很多重叠。真正不同的,更多是技术细节。甚至还有一些人认为World Labs做的其实根本不算真正的“世界模型”。

Christine Qing:回到更核心的问题。你认为今天的大语言模型从根本上缺失了什么?而这些能力,未来的视觉推理模型、多模态模型或者世界模型,谁会真正拥有?

Andrew:从长远来看,问题不在某一个具体组件,不是目标函数、架构或算法的问题。问题在于整个系统的哲学本身。

今天所有前沿模型的核心哲学,基本是把所有东西塞进同一个模型,包括文本、强化学习、安全机制、推理能力,而且所有推理最终都发生在“文本空间”里。但真正的问题是:推理本来就不是一种纯文本能力。在人类发明语言之前,我们其实早就具备推理能力了,动物也一样。

捕食者需要推理重力、风向、猎物运动轨迹、空间关系,这些推理都不是用文字完成的,它们是视觉和物理世界中的推理。所以我认为,对于人类和动物来说,真正的推理底层基质其实是视觉和多模态。而文字推理,只是后来建立在其上的高级抽象。但现在的大模型全部建立在文本空间之上,而文本空间天然缺少很多现实世界中的关系。比如,如果你旋转一个物体,它依然是同一个物体;如果你把头转过去看不到那个东西了,它其实依然存在。这些关系在视觉世界中是天然存在的,但在文本嵌入空间里并不存在。

再比如,如果桌上有9个球,你移动一下,它依然还是9个球。如果再扔进去1个,那就是10个。这些关系本质上来自物理世界,而不是来自文字世界。文本世界本质上只是一个嵌入的世界。所以现在模型最大的缺口就在这里。而我们正在做的,就是填补这个缺口,去构建下一代推理能力。

Christine Qing:你过去几乎整个职业生涯都在做语言模型,现在却转向视觉。语言模型时代积累的架构、算法和know-how,真的可以迁移到视觉吗?

Andrew:这是个好问题,但我会反驳“我一直在做NLP”这个说法。很多人不知道,其实我从来没有接受过传统NLP训练,没学过句法树、依存分析这些经典内容。

我和很多深度学习领域的人都相信,从深度学习角度看,语言和其他模态之间不应该存在根本差异。这一点在我们最早的预训练与微调论文里就已经体现出来了。当时我们不仅做了语言实验,也做了图像实验。

我们发现,下一个词预测在图像上同样有效。虽然效果不如语言明显,但它确实能训练出非常优秀的图像分类器,最近也有很多论文重新开始研究这一点。所以从根本上,我认为语言和视觉并没有本质区别。真正的区别在于——“文字的经济价值”更容易被看到,因为整个世界本来就建立在文本之上。我们相信,视觉世界、多模态世界依然存在大量尚未被开发的价值,而且不仅仅是视觉任务本身。

如果你仔细观察人类思考过程:即便是在写代码时,我们其实也在“视觉化”。比如向副总裁解释系统架构时,我们会画图,用框、箭头来表示连接关系。物理学家思考时空、光锥、引力透镜时,也一直在画图。几乎没人会只用纯抽象数学去思考这些问题。因此,真正复杂的推理,本质上都需要视觉落地的。这也是为什么我们认为视觉推理不仅会帮助视觉任务本身,还可能帮助完成更复杂的软件系统设计、更完整的编码系统、数学与几何问题、长文档生成、大型报告撰写等等。

Christine Qing:我在机器人行业待了十多年。机器人领域一直有个核心问题:它们无法真正自主理解、推理、适应环境。你觉得视觉推理会不会成为连接这些能力的关键层?

Andrew:现在机器人领域已经有很多视觉-语言-动作模型。但我认为,视觉推理这一层依然非常薄弱。现在这些模型甚至还不会真正“数数”或者简单地摆餐桌,所以在实现真正可用的机器人之前,视觉理解仍然需要大量突破。而且不仅仅是模型问题,硬件控制也是当前机器人行业的一大瓶颈。

Christine Qing:我感觉现在中国在硬件控制上的进步特别快,而美国更多在做底层智能层。所以视觉推理,很可能会成为真正连接两边的关键组件。

Andrew:我完全同意。视觉推理一定是优秀机器人系统中的关键路径之一。

03 AGI是锯齿状发展,不是线性

Christine Qing:一年多前,我组织过一次小型讨论。当时DeepSeek正引发巨大关注。我问大家“未来会不会做更多开源?”,结果很多人都沉默了。因为大家都知道维护一个优秀大模型的成本极其恐怖,从商业角度看开源不太合理。但后来,我们又看到越来越多模型开放。你怎么看未来的开源与闭源?

Andrew:很难判断最终会达到什么平衡。但如果观察趋势,你会发现现在中国公司最强的模型,已经越来越少完全开源了。很多公司现在的做法是先闭源发布,过一段时间再开源,比如Qwen。未来这个时间差可能会越来越长,可能从几个月变成一年,因为行业正在进入一个新阶段:算力投入已经高到必须考虑商业回报。如果你花10亿美元训练一个模型,你迟早需要回收这10亿美元,否则这个商业模式根本不可持续。

有些人默认“等AGI出现之后,一切盈利问题都会自动解决”。但我并不认同。很多人说“我们已经接近AGI了”,但如果真到了AGI,为什么还要不停融资?这本身就是一个值得思考的问题。所以我才说,去年是一个非常特殊的窗口期,因为那更像是一场“开源竞赛”。大家为了争夺用户,被迫开放模型。但未来,竞争逻辑可能会改变,从“争夺用户”变成“争夺AGI”。一旦进入这个阶段,公司的开源策略会发生巨大变化。只需要几家头部公司宣布“我们以后不再开源最强模型了”,整个行业都可能发生连锁反应。

Christine Qing:你的意思是,未来最强大的模型会越来越深入垂直领域,比如药物研发、科研、工业设计。这些模型会创造巨大的商业价值,因此也会越来越闭源。而开源模型则更多存在于应用层与日常场景。

Andrew:这个判断基本是对的。因为模型越大,成本增长并不是线性的。一个两倍大的模型,成本可能远远不止两倍。所以对于公司来说,继续开源小模型是合理的,因为成本可控、对品牌有帮助、对社区关系有帮助、对营销有帮助。

但最大的前沿模型是否继续开源?我认为很多公司都会重新思考这个问题,尤其是在算力成本、内存成本、GPU成本不断上涨的情况下。当然,开源永远不会消失,开源社区依然极其重要。比如本地LLaMA社区,他们不断迭代、实验新架构、新技术,这些都非常有价值。

所以我认为,开源会继续存在,但它未来的形态,可能不会再像2025年那样了。

Christine Qing:说回到Elorian,你之前提到你们既想建立研究机构,也想做真正可见的产品里程碑。你们接下来的产品到底是什么?能否具体讲讲下一阶段的目标?

Andrew:从里程碑来说,我们的目标是构建真正的前沿视觉推理模型。其实我们已经开始了。目前在某些视觉推理基准测试上,我们已经取得了一些非常不错的结果,甚至达到了业界领先水平。但我们的目标并不是只在一个基准上领先。在正式发布之前,我们希望在更多维度上达到真正领先。

Christine Qing:所以你们会正式发布模型?

Andrew:会。我们计划在今年晚些时候公开发布模型,前提是我们认为它已经“足够好”。在正式发布之前,我们也会给一部分合作伙伴提供早期访问权限。

Christine Qing:你们最理想的合作伙伴是谁?如果按行业来分,前三个最想合作的领域是什么?

Andrew:工程类公司会非常有意思。因为我们认为,视觉推理真的有机会推动工程技术本身的发展。而很多技术突破,本质上其实都是工程问题。

Christine Qing:这里的工程是指软件、硬件还是机械?

Andrew:除了纯软件之外,几乎所有工程领域。其实我父亲本身就是机械工程教授,所以我可能天然对这些领域会更有感情。

我们真正想合作的,是那些“视觉推理能力会直接决定公司核心竞争力”的企业。因为我们希望真正帮助这些公司更快运作、更高效设计、更快研发、构建更优秀的产品。所以工程行业、建筑行业、工业设计行业这些都非常有吸引力。

我们真正想找的合作伙伴,是能够理解“模型不是一夜之间造出来”的人。构建这些系统需要数据、算力、时间、持续迭代,它是一个长期过程。我们希望找到愿意一起走这段旅程的人,而不仅仅是“买一个API”。

更重要的是,这些合作伙伴也能够反过来影响模型本身,比如数据配比、模型方向、推理重点。这样我们最终才能真正做出“对他们实际有价值”的模型。

Christine Qing:你亲眼见证了语言模型从最初几个人的小研究项目,发展到今天整个行业的规模。有没有一个你始终觉得在AI或AGI讨论中被严重低估或忽视的问题?以及你认为未来真正会发生什么?

Andrew:我觉得现在关于AGI最大的问题之一是,大家没有真正认真讨论“锯齿状前沿”及其短期和长期影响。目前大多数关于AGI的讨论都建立在“平滑前沿”的假设上——我们相信会有一个阶跃式的变化,从今天模型在大多数事情上远不如人类,到也许明年在一切事情上都全面超越人类。

但现实可能不是这样。我在过去十年的发展中看到的是,这是一个高度锯齿状的前沿。几十年前就有了超人级的国际象棋玩家,十年前有了超人级的围棋选手,还有超人级的《星际争霸》玩家。这些都发生在特定领域、特定垂直行业、特定任务和细分领域。现在我们在代码方面也看到了。但这些进展的影响是极不均等的。拥有一个超人级的象棋选手,和拥有一个超人级的程序员,是完全不同的事情,经济影响不同,对世界、对行业的影响也不同。

所以我认为,关于哪些领域适合优先达到超人水平、哪些领域不适合早早达到超人水平,讨论和辩论远远不够。你从某些事情上已经能看出一点苗头——现在我们在黑客攻击方面有了超人级能力。也许我们并不真的希望这样。

但我们该如何应对,如果下一个超人级能力是“撒谎”或“欺骗”呢?不管我们愿不愿意,它都会发生。这些对人类能力的蚕食将是不可预测的,会出现在我们没有预料到的领域。还有AI真正落后的领域,比如计数。关于这方面几乎没有什么讨论。但这真的会产生影响。你可以想象,每个人家里都有一台人形机器人,机器人在做手术、在做安全关键应用,比如驾驶、开拖拉机或驾驶飞机。但在一次非常关键的任务中,比如,我们需要确认所有人都从潜艇出来了,而机器数出4个人出来了,但实际上只有3个人出来了。这就是“锯齿状前沿”的典型例子——AI看起来很厉害,但在这一个极为关键的能力上落后了,而没有人注意到,人们把这件事忘了,然后发生了非常糟糕的事情。

所以这就是我担忧的——没有足够的理解,没有足够真实、客观地看待这件事:进步在哪里发生?进步在哪里没有发生?人们只是在说进步是否在发生。但归根结底,我认为对这个行业真正有破坏性的是,对这些模型仍然欠缺的地方没有足够的理解。

这也是我创立这个实验室的原因之一——对那些人来说很好,但从长远来看,如果它集中在少数几个人手里,对世界来说并不好。

Christine Qing:最后一个问题,当你10年后回望这一刻,你希望你在所做的事情上做对了什么?

Andrew:十年后,我希望我构建的东西真正造福了人类,真正改善了每个人的生活质量,推动了技术进步。这就是我希望十年后能看到的。

来源:https://www.aitntnews.com/newDetail.html?newId=25555
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

DeepMind元老Andrew Dai揭秘谷歌AI进化从PaLM到Gemini未来押注视觉推理
AI资讯
DeepMind元老Andrew Dai揭秘谷歌AI进化从PaLM到Gemini未来押注视觉推理

AndrewDai在谷歌14年,亲历从PaLM到Gemini的演进。他认为当前大模型虽能生成流畅内容,却缺乏真正的世界理解,尤其在视觉推理方面存在短板,形成“锯齿状前沿”的发展不均。因此他离开谷歌并创立新公司,专注于视觉推理与多模态理解,视其为下一代AI关键。他相信小而精的团队能更快迭代,并指出专精化模型是未。

热心网友
05.28
DeepMind核心工程师为何放弃激励金离职
AI资讯
DeepMind核心工程师为何放弃激励金离职

AI编程领域核心工程师RonakMalde近期离开DeepMind,并放弃了后续并购激励金。他先后参与Codeium、Windsurf项目,训练了SWE-1模型,后随团队进入DeepMind推进AgenticCoding研究。作为入选“Exceptional100”榜单的一线工程师,他总结心得强调需聚焦正确研究方向、前瞻判断并高效执行。其离职引发行业对其下一

热心网友
05.26
DeepMind新突破AI视频理解提速35% 长视频分析更高效
科技数码
DeepMind新突破AI视频理解提速35% 长视频分析更高效

谷歌DeepMind与首尔国立大学提出LiteFrame模型,以解决AI处理长视频时的计算效率瓶颈。该模型采用轻量级视觉编码器与压缩令牌蒸馏技术,从源头高效压缩视频信息,直接输出精华特征。实验显示,处理更多视频帧时延迟降低超30%,准确率保持微幅提升,为长视频理解提供了高效方案。

热心网友
05.26
DeepMind核心工程师离职 放弃并购激励投身AI编程领域
AI资讯
DeepMind核心工程师离职 放弃并购激励投身AI编程领域

AI编程领域核心工程师RonakMalde离开DeepMind,甚至放弃了后续并购激励。他先后参与Codeium插件、WindsurfIDE及SWE-1模型开发,后随团队加入DeepMind从事AgenticCoding研究。其职业轨迹精准踩中AI编程发展主线,并入选行业影响力榜单。离职后,他分享了关于研究方向、团队效率及行业人才流动的思考,预示将在AI重塑

热心网友
05.26
谷歌DeepMind CEO谈奇点临近:我们已站在技术变革的起点
AI资讯
谷歌DeepMind CEO谈奇点临近:我们已站在技术变革的起点

谷歌DeepMind首席执行官在GoogleI O大会上表示,人类可能正站在“奇点”的山麓,即通用人工智能到来的起点。他认为AI将成为创造力的倍增器,开启科学进步的新时代。谷歌推出了专注于科研的“GeminiforScience”工具,旨在革新药物发现。他预测到2030年实现AGI的概率为50%。

热心网友
05.21

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Paralives首发销量充足 支撑后续开发无需DLC
游戏攻略
Paralives首发销量充足 支撑后续开发无需DLC

《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。

热心网友
05.28
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底
业界动态
比亚迪宋Ultra DM-i上市12.99万 承诺城市领航安全兜底

2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景

热心网友
05.28
折叠屏iPhone Ultra外观已定,第三方保护壳亮相
科技数码
折叠屏iPhone Ultra外观已定,第三方保护壳亮相

先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非

热心网友
05.28
山寨币ETF批量上市后市场表现分析 哪些项目值得关注
web3.0
山寨币ETF批量上市后市场表现分析 哪些项目值得关注

山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,

热心网友
05.28
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄
游戏攻略
即使在大幅涨价后 Steam Deck 玩家热情依旧再次售罄

近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。

热心网友
05.28