构建下一代Gemini!谷歌DeepMind VP:全模态嵌入模型Gemini Embeddings 2,8分钟预测15天天气的GenCast,实时动态改写世界的Genie 3
构建下一代Gemini的方法:寻找“根节点”
前沿AI领域,竞争的核心在于持续领先。我们思考的问题始终是:Gemini的下一代架构应该是什么模样?哪些问题是唯有AI才能攻克的?以及,我们该如何共同构建智能的未来?这不仅仅是关于人工智能的进化,更关乎人类智能乃至机器人智能的协同发展。在这条探索之路上,如何让技术与人类文明共同演进,是一个至关重要的命题。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
我们的方法论,是寻找“根节点”。与其将精力分散在细枝末节的“叶子”上,不如深入挖掘那些尚未解决的宏大问题空间。关键在于,我们能钻研多深?找到并解决最深层、最根本的问题,往往能撬动海量的下游影响。为此,我们在全球范围内积极寻求合作,以广阔的视角审视,寻找能帮助我们定位并攻克这些根节点的伙伴,同时将成果延伸至应用端,解决那些真正有价值的具体问题。DeepMind的使命是负责任地构建AI,造福人类,我们对此极为严肃。我们的目标,始终是解决那些真正值得投入的难题。
当然,DeepMind在前沿AI领域的探索涵盖众多方向。接下来,我们将聚焦其中几个颇具代表性的非语言模型突破,它们或许不像大语言模型那样备受瞩目,但其影响同样深远。
模仿特定神经元组合的嵌入模型
首先,从高级模型的角度,让我们聊聊嵌入模型。需要明确的是,这次讨论的重点是那些“不直接属于语言模型”的进展。在建模领域,嵌入模型扮演着关键角色。在深入之前,不妨先思考一个神经科学领域的经典概念:“詹妮弗·安妮斯顿细胞”。
没错,这指的并非单个细胞,而是一小簇神经元的特定组合。它们的神奇之处在于,只对某个特定的人、物体或地点产生反应。无论通过哪种感官模态——听到名字、看到照片或视频,甚至仅仅是听到声音——这组神经元都会被激活。大脑正是利用这种机制,实现了极速的识别、检索和对比功能。
那么,我们能否在人工神经网络中复现这种能力呢?答案当然是肯定的。为了实现快速检索、精准识别和高效对比,我们可以训练“嵌入模型”来编码这些高级概念。这样的模型能增强对不同信息呈现方式的鲁棒性,并精于理解不同激活状态之间的细微差别。
这其中,对比损失函数是关键。值得一提的是,嵌入功能是生成式AI不可或缺的伙伴。整个流程可以这样理解:有时我们需要生成内容,有时则需要精准检索,二者相辅相成。
全模态嵌入模型Gemini Embeddings 2
谷歌团队在这一领域深耕已久,近期发布的Gemini Embeddings 2,可以说达到了一个理想状态:它是真正的全模态模型。基于Gemini构建,使其继承了强大的世界知识和理解能力,从而实现了极其出色的检索效果。
为什么说统一和多模态如此重要?好处显而易见:你不再需要繁琐的多步骤流程来整合不同模态的信息。真正的端到端处理,避免了在合并音频、视觉和文本过程中造成的信息损耗。最终,你能获得一个统一的语义向量,它可以同时代表长达8K token的文本、128秒的视频、80秒的音频乃至完整的PDF文档。这些信息聚合在一起,能量是巨大的,可广泛应用于检索、查询乃至智能体逻辑构建等多个场景。
此外,模型还采用了名为“俄罗斯套娃表示学习”的技术。这项技术允许在同一个网络中表示不同维度的嵌入。例如,你可以先用256维的嵌入进行快速初筛,然后无缝切换到更高维度以获得更丰富的表达能力。这创造了一个统一的语义空间,并达到了顶尖的质量水准。尽管它的讨论热度可能不及语言模型,但作为后者的关键搭档,其重要性不言而喻。
接下来,让我们快速转向另一个完全与语言无关的突破性领域。
天气预测:超越“黄金标准”物理模型的神经网络模型
这项工作的起点,源于一个来自英国气象局的直接挑战。几年前,一位信息科学家问道:“你们能用AI预测降雨吗?能比我们的物理模型更准吗?”这个有趣的问题被带回了DeepMind团队。
深入研究后,我们发现,虽然基于大气物理模拟的传统天气预报极具挑战性,但对于神经网络模型而言,这却是一个相当可行的任务——前提是,我们拥有过去40年全球天气的海量数据作为支撑。
于是,几年前我们推出了GraphCast。这个模型能够预测全球范围内未来15天的大气状态,涵盖风速、温度、湿度等上百种变量。它采用了一种球面图神经网络,你可以将其想象成包裹地球的网格,节点从地表一直延伸至平流层下层。模型以自回归的方式运行,输入数据,输出预测,表现令人惊喜。
一个生动的例子是2024年末的飓风“李”。它进入大西洋后一度徘徊,随后转向北行,最终在新斯科舍省登陆。GraphCast提前整整9天就准确预测了其登陆地点。相比之下,那些被视为“黄金标准”的最先进物理模型,只能在提前6天时做出同等准确的预测。面对一场即将袭击陆地的大型飓风,多出这3天的预警窗口,其价值无可估量。
气象预测模型:8分钟生成15天天气预报 &直接预测气旋
基于这一成功,团队决定继续推进科学边界。下一代模型GenCast随之诞生。它的不同之处在于:这是一个概率性模型,并且拥有更高的准确度和效率。天气本质是混沌的,了解极端情况下的概率分布,能让预测更具操作指导意义。实际对比显示,在与1300个黄金标准基准预报的比拼中,GenCast在97%的情况下都更胜一筹。更惊人的是效率:生成一份15天的全球天气预报,现在只需单块芯片运行8分钟,而不再需要依赖大型超级计算机耗时数小时。这彻底改变了气象预报的解决方案范式。
但这支团队的探索并未止步。去年,他们推出了更新的技术——函数生成网络。它的革命性在于,直接预测气旋本身,而非先预报天气再通过后处理算法检测气旋。FGN将气旋的分类、识别、轨迹、风速乃至风眼形成等特性,直接融入网络进行训练,这使得其表现更为出色。目前,美国国家飓风中心已开始使用这项技术,并对它带来的优势感到兴奋。未来几年,我们期待它在全球范围内得到更广泛的应用。
为智能体创造“无限的环境”
最后,我们花点时间探讨另一个非语言模型的前沿:世界模型。这项工作深植于DeepMind长期以来在游戏和模拟环境中的积累。从Atari、围棋、星际争霸,到用于机器人研究的Mojoco环境,我们不仅训练智能体,更致力于创造“无限的环境”供其探索。
早期的Genie 1版本虽然只能运行几秒钟,但它证明了一个概念:根据文本提示生成一个小型的2D平台游戏世界,并允许用户在其中进行实时互动。这证明了路径可行。于是,团队开始扩大规模:增加数据、改进方法,并将训练对象转向3D游戏。
随之而来的Genie 2已经是交互式的3D环境生成器,尽管运行速度较慢且画质尚未达到现实级别。正当团队为此攻坚时,更强大的Genie 3出现了。
随心所欲改变世界的Genie 3
Genie 3的能力令人惊叹。例如,当你提示“我想要一个场景,让我正走在肯特郡泥泞的小路上”,它不仅能生成逼真的环境,还能让你“拥有”一个身体,并按照物理规律与世界互动——水会流动,脚步会踏出痕迹。模型不仅理解场景的外观,更理解了其内在的交互物理。
当然,场景远不止步行。你可以生成滑雪环境,并以多种方式与之互动。更有趣的是,你可以用一段简短的视频片段作为提示。例如,一位艺术家创作的前几秒视频被输入后,Genie 3能将其扩展成一个完整、鲜活的世界,你可以飞翔其中,与物体碰撞。模型具备“记忆”,它能记住场景中的独特建筑,并允许你飞回查看。
这些环境多样、交互性强且质量高,更重要的是它们具有一致性。例如,提示“我是一个身处折纸世界的折纸蜥蜴”后生成的世界,即使你离开一分钟再跑回起点,一切仍与开始时完全一致,这得益于出色的记忆能力。
最碘伏性的功能或许是动态提示。想象一下,当你行走在一个由Genie 3生成的、略显平淡的世界中(比如伦敦卡姆登运河边),你可以实时给出新的提示。于是,世界就在你眼前瞬间改变了。再来一次,纯属好玩,世界又焕然一新。这种“对抗式”地通过提示改变他人世界体验的构想,正在开创一种全新的娱乐形式。
全新的前沿
这不仅仅关乎娱乐。对于教育而言,其潜力同样惊人。能够进入一个世界并沉浸式地学习了解它,这种力量是巨大的。未来,我们必将看到这类技术越来越多地应用于各个领域。
就此,我的分享告一段落。顺便预告一下,明天早上我的同事Omar将会介绍Gemma 4,那是一个真正的语言模型。
谢谢大家。
相关攻略
构建下一代Gemini的方法:寻找“根节点” 前沿AI领域,竞争的核心在于持续领先。我们思考的问题始终是:Gemini的下一代架构应该是什么模样?哪些问题是唯有AI才能攻克的?以及,我们该如何共同构建智能的未来?这不仅仅是关于人工智能的进化,更关乎人类智能乃至机器人智能的协同发展。在这条探索之路上,
编辑|杨文又到了八卦时间。最近,著名记者、作家塞巴斯蒂安・马拉比出了本新书,名叫《无限机器:德米斯・哈萨比斯、DeepMind 与超级智能的探索》。书中,他披露了一段扎克伯格与 DeepMind 失
3月31日消息,近日,DeepMind创始人德米斯・哈萨比斯坦言,其研发的超级人工智能存在灭绝人类的风险,而当前AI发展竞赛已进入无法停止的状态,人类难以通过外部治理手段有效管控。他彻底放弃此前依赖
21世纪经济报道记者 董静怡2024年的伦敦,科技史学家、金融史学家塞巴斯蒂安·马拉比找到了德米斯·哈萨比斯。彼时ChatGPT尚未引爆全球,AI远未成为茶余饭后的谈资。但马拉比已经嗅到了风暴的气息
新智元报道编辑:KingHZ【新智元导读】从拦截彼得·蒂尔、警告马斯克,到如今公开说「必须有适应能力」,哈萨比斯史诗级转身:AI安全窗口正在永久关闭,他不再幻想制度,而是赌上全部身家——赌影响力,赌
热门专题
热门推荐
Ja vaScript 生态常用库曝高危漏洞,数百万应用面临代码执行风险 一个在Ja vaScript生态中广泛使用的 `form-data` 库,最近曝出了一个高危安全漏洞(编号CVE-2025-7783)。这事儿影响可不小,波及了数百万个依赖该库的应用。攻击者一旦利用这个漏洞,就能执行恶意代码,
宇树科技和阿里将有出海战略级合作:宇树机器人上手阿里电脑打字 或将落地速卖通 4月9日,一则来自申妈朋友圈的消息引发了业内关注。据知情人士透露,宇树科技与阿里巴巴之间,正在酝酿一项重要的出海战略合作。 这并非空xue来风。就在近日,宇树科技的最新款机器人R1,被发现现身于阿里巴巴的西溪园区。更有趣的
长沙女子报警“救母” 警方紧急止付42万元 最近,长沙发生的一起案件,给所有为子女婚事操心的父母敲响了警钟。一位女士急匆匆跑进派出所报案,原因是她怀疑自己的母亲可能遭遇了电信反诈。接警后,民警的反应堪称教科书级别,立即启动了紧急止付程序,成功冻结了高达42万元的涉案资金,为当事人挽回了巨额损失。 随
近期,战神新作传闻再起:2026年会是奎爷回归之年吗? 最近游戏圈里可不太平静,几条在社交平台上流传的消息,把玩家的胃口又吊了起来——传闻称,战神系列全新的正统续作,有望在2026年4月正式揭开面纱。需要厘清的是,目前索尼和圣莫尼卡工作室确实在忙活《战神:希腊三部曲》的重制版,但这次传闻指向的,是另
小米汽车因一张P图冲上热搜第一:Tim Cook出任小米汽车CEO? 今天科技圈的热搜榜,被小米汽车意外“霸占”了。不过,这次的主角既不是新车发布,也不是什么营销大动作,而是一张来自网友的、脑洞大开的P图。 事情是这样的。前几天,苹果CEO蒂姆·库克宣布将于今年9月退休,这消息本身就够重磅了。结果,





