谷歌AI掌舵人专访揭示9个关键信息:未来战略解析

智东西
编译|万贵霞
编辑|云鹏
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
智东西1月8日消息,昨日,谷歌首席AI架构师兼DeepMind CTO科雷·卡武克乔格鲁(Koray Kavukcuoglu)接受英国《金融时报》专访,深入解读了谷歌最新大语言模型Gemini 3的核心突破与战略意义。
他认为,Gemini 3在多模态理解和智能体能力上迈出了一大步,并将其成功归因于谷歌独特的“全栈”优势。
卡武克乔格鲁还说,谷歌的目标始终是开发通用人工智能(AGI)。但实现这一宏伟目标的务实路径,在于紧密围绕用户反馈进行产品化,而非空谈理论。他将Gemini 3视为将抽象AI思维转化为友好产品的关键一步。
此次发布的Gemini 3能够根据用户查询,动态生成交互式应用和小部件,这一能力甚至触动了竞争对手的神经。
外媒提到,OpenAI的联合创始人兼CEO萨姆·阿尔特曼(Sam Altman)因此拉响“红色警报”,加速改进ChatGPT,以赶上谷歌。
而谷歌正凭借其从芯片、数据中心到产品的完整技术栈,将前沿AI研究快速转化为数十亿用户可触达的产品体验。
整个访谈在3200字左右,以下是核心信息提炼:
1、谷歌正将基础AI研究与产品深度捆绑:其战略核心是确保前沿AI能力能无缝对接至全系产品,这需要构建全新的基础设施体系。
2、多模态理解是AI实用化的关键一跃:Gemini 3的核心突破在于能深入理解视频、图像、PDF等多元内容,改善信息获取质量,同时将编程转化为交互式学习工具。
3、AI需产品化且具备全栈能力:将抽象技术进展转化为直观的用户界面和交互,并依托从芯片到云端的全栈技术,实现模型、产品设计与基础设施的同步发布。
4、预训练赋予模型潜力:模型能理解数据、挖掘潜在价值。
5、谷歌每一项技术研发都以用户反馈为导向:坚持全栈方法与产品结合,围绕数十亿用户的产品生态展开,这种从真实场景需求反推技术发展的模式。
6、通用人工智能(AGI)尚无定式:目前还没有构建AGI的秘诀,当下重点是开发正确产品、理解用户信号,以安全为核心并获取用户反馈。
7、模型应提供用户所需信息,避免冗余和过度吹捧:谷歌做了大量研究来量化模型形象,“避免阿谀奉承”是考察维度之一。
8、智能体演进将重塑人机互动模式:AI下一阶段在于利用模型构建更强大的智能体,实现用户与内容更丰富、更普遍的深度连接与创造性互动。
9、Gemini 3基于Gemini 2.5开发:耗时六个月且整合了用户反馈,接下来会收集消费者、开发者、企业等不同群体的反馈,弥合模型缺陷。
以下是谷歌首席AI架构师科雷·卡武克乔格鲁与《金融时报》主持人梅丽莎·海基拉(Melissa Heikkilä)的访谈实录,为方便阅读,智东西在不改变原意的情况下对部分提问进行了精简:
一、谷歌的首席AI架构师在做什么?如何打通研究与产品
主持人:您自2024年初起担任DeepMind CTO,去年夏天又兼任谷歌首席AI架构师这一新职务。这个角色的主要职责是什么?
卡武克乔格鲁:我们正在构建的是一项真正基础性的技术,而我最核心的工作,是确保AI研发能够与产品紧密衔接。
我们的目标是,让谷歌旗下所有产品和业务领域,都能使用我们正在开发的顶尖AI技术。
在DeepMind,我们专注于前沿研究,目标是推动通用人工智能(AGI)的实现。但要做到这一点,必须与真实用户保持紧密连接,而实现这一点的唯一途径,就是通过产品。

▲谷歌的DeepMind(图源:金融时报)
这是一项全新的技术形态,要实现大规模应用,需要配套建设全新的基础设施。
我目前的重点工作,就是推动这种转型:一方面构建基础设施,另一方面与产品团队深度协作,确保他们能够使用最先进的技术,并以最合适的方式与用户建立连接。
二、Gemini 3:发布的不只是模型本身,而是与产品同步推出、经过深度设计的交互体验
主持人:对普通用户来说,市面上已经出现了大量AI模型,看起来多是渐进式改进。甚至有人觉得OpenAI的GPT-5并未带来太多惊喜。那么,Gemini 3的意义究竟在哪里?它如何帮助谷歌在AI竞争中取得优势?
卡武克乔格鲁:从我们的角度看,Gemini 3非常重要,因为它在多模态理解能力上实现了明显跃升,而这一点对用户至关重要。
现实世界中的信息并不只以文本形式存在,这也是为什么谷歌的AI研究和笔记助手NotebookLM这样的产品会受到欢迎。因为用户喜欢上传各种类型的文档,并围绕这些内容提问。
随着模型处理能力的提升,Gemini 3能够更深入地理解视频、图片、PDF等多种内容形式,这本身就是一项重要进展。

▲谷歌的Gemini 3(图源:金融时报)
我希望用户能够切实感受到这种变化,他们得到的不只是更准确的答案,而是信息形式和质量的整体提升。
AI的另一个关键点在于编程。如今,编程已经不再只是软件工程师的专属技能,而正逐渐演变为一种学习和表达方式。
借助Gemini的生成式界面,当用户提出问题时,模型不仅会给出解释性回答,还可能直接生成可视化结果、模拟过程或小工具,帮助用户在实践中理解和探索问题。
很多时候,人们提出问题后,获得的是更直观的答案,这些答案能够在当场学到东西。
在我看来,真正关键的,是如何将这些概念性、抽象性的技术进展,转化为切实可用、且具备长期影响力的用户界面和交互方式。而将这一能力直接与产品结合,正是谷歌的独特优势。
我们发布的不只是模型本身,而是与产品同步推出、经过深度设计的交互体验,并且这些体验构建在我们已有的全栈技术体系之上。
在工程层面,我们还推出了名为Antigravity的AI驱动集成开发环境。
这是一种以智能体为核心的全新代码构建方式,软件可以在更高抽象层级上自主运行,减少人工干预。这之所以成为可能,是因为模型已经具备在抽象层面执行任务、并以智能体方式运作的能力。
三、模型训练赋能,谷歌正全栈式将产品与技术结合
主持人:促成Gemini 3的关键研究和技术突破有哪些?
卡武克乔格鲁:模型的开发涉及多个技术方向。首先是预训练阶段,我们通过架构改进,构建了更高效的模型结构,同时也更好地理解了训练数据本身,这些改进显著提升了模型性能。
预训练赋予模型的是潜力,它让模型能够理解数据,不只是捕捉表层信息,而是挖掘其内在价值。而这种潜力,最终要通过后训练阶段,才能在产品中真正体现出来。在这个阶段,模型会学习如何与用户围绕具体产品进行交互。
在训练完成后,我们进一步推动模型展现出更高级的智能行为,使其具备更强的理解与编码能力。比如,模型可以判断某个问题适合用图文表格呈现,而这些图片可能来自实时搜索;在其他情况下,它则会选择编写一个小程序,用模拟或组件的方式来展示结果。
这些决策,都是模型基于其编码能力和智能体能力自主完成的。正是训练前、训练后以及公司整体技术体系的协同作用,才使这些能力成为现实。
主持人:如此庞大的计算投入,怎么从中盈利?
卡武克乔格鲁:最关键的有两点。第一,我们采用的是全栈式方法,我认为我们在这方面在业内独树一帜。第二,我们始终将前沿技术与产品紧密结合。
我们开展的所有研究和技术开发,最终都会通过产品触达用户。谷歌的产品每天服务着数十亿用户,这让我们能够持续获取真实需求,理解用户希望如何使用这些技术。
对我们来说,每一项前沿研发都以用户反馈为导向。这种务实的研发路径,是我们非常重视、也区别于其他公司的地方。
四、谷歌的AI路径选择:以产品落地和用户反馈驱动演进
主持人:谷歌曾表示,Gemini 3是迈向通用智能的重要一步。这是否已经接近人们所期待的通用人工智能形态?
卡武克乔格鲁:坦率地说,我并不会这样描述。我们确实以实现通用人工智能为目标,也在为此持续努力,但目前仍然没有实现AGI的“秘诀”,这依然是一个研究问题。
正因为如此,开发正确的产品、做出正确的产品选择、理解真实的用户信号,才成为我们技术发展的核心指引。AGI最终必须造福用户,而通向这一目标的唯一方式,就是以负责任的方式持续获取用户反馈。
当我们说从一开始就将安全作为模型设计的核心,这并不是一句口号,而是贯穿在产品和技术决策中的原则。
谷歌拥有长期积累的庞大用户基础,覆盖数十亿人。正是通过这些真实使用场景,我们才能判断技术究竟应该解决哪些问题,这也是我们探索通用人工智能的重要路径。
主持人:您提到,Gemini 3刻意避免了奉承和套话,这是生成式AI中常见的问题。你们是如何做到的?
卡武克乔格鲁:模型的“形象”确实很重要。我们既与外部合作伙伴合作,也服务于谷歌内部的不同产品,而每个产品对模型表现都有不同要求。
我们做了大量研究,尝试将模型的行为特征量化,“是否过度奉承”就是其中一个重要维度。坦率地说,没有人能宣称已经找到了完美答案。
但我们认为,已经在如何构建一个可控、且适用于广泛场景的模型方面,迈出了重要一步。
核心原则是,模型应当提供用户真正需要的信息,而不是输出冗余内容或过度修饰的表达。在极少数场景下,这类表达可能有用,但在大多数情况下并无必要。
主持人:你会如何描述Gemini 3的“性格”?
卡武克乔格鲁:我们并没有刻意为Gemini设定明确的人格标签。对我们来说,最重要的是产品是否好用、信息是否真实,以及语言是否清晰易懂。用户体验主要是在后训练阶段逐步形成的。
五、AI切实带给人们生活便利,未来会在创造性使用中继续学习
主持人:作为一名科学家,目前AI研究中最让你感到兴奋的是什么?
卡武克乔格鲁:当前AI的发展速度非常快,原因在于这些模型已经在现实世界中产生了切实影响。人们正在将它们用于工作、学习和教育,并且确实带来了积极变化。
对我来说,最令人兴奋的是,我们正在探索如何利用这些模型构建更成熟的智能体。很多人谈到智能体时,往往只关注代码本身,但真正关键的是:人们如何使用这些智能体,以及在生活中哪些环节会真正依赖它们。
学习场景尤其让我感到振奋。用户突然能够以更丰富的方式与已有内容互动,这极大拓展了信息与人的连接方式。随着智能体能力持续提升,这种变化只会越来越普遍。
主持人:接下来,外界可以期待什么?
卡武克乔格鲁:Gemini 3的开发周期大约为六个月,它是在Gemini 2.5的基础上构建的,每一代更迭都整合了我们从用户那里获得的各种反馈和经验。

▲Gemini的更迭(图源:google blog)
接下来,我们会持续从消费者、开发者和企业等不同群体中收集反馈,重点放在理解这些信号上。模型不可避免会存在不足,而弥补这些不足正是关键过程。
通过这一过程,我们也能更清楚地看到用户真正试图解决的问题。当模型达到一定质量水平后,人们会以更具创造性的方式使用它,而我们的下一步,就是从这种创造性使用中继续学习。
来源:金融时报
相关攻略
在 OpenClaw 中配置本地大模型:原理与两大实战方案 想让 OpenClaw 调用你本地部署的大模型?核心思路其实很清晰:让 OpenClaw 把一个类似 OpenAI 的 API 接口,对接上你本机运行的模型服务。下面我们就来聊聊两种主流的实现路径和关键配置细节,帮你快速上手。
在Linux(特别是ARM64架构)上为OpenClaw配置浏览器的完整指南 在Linux服务器上部署像OpenClaw这样的自动化工具时,浏览器的配置往往是一个容易被忽略、但又至关重要的环节。尤其在非桌面版环境中,默认不安装浏览器,如果事先没处理好,OpenClaw调用浏览器的功能就会直接“罢工”
这项由谷歌智能范式团队联合芝加哥大学、圣塔菲研究所等多家机构完成的突破性研究发表于2026年3月,研究编号为arXiv:2603 20639v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。这
新京报贝壳财经讯(记者罗亦丹)记者3月31日获悉,360数字安全集团依托自主研发的360多智能体协同漏洞挖掘系统(简称:360漏洞挖掘智能体),在OpenClaw平台中成功发现一处高危漏洞——MED
编辑|泽南刚刚落幕的 2026 科技界「春晚」GTC 大会上,一个全行业的共识已经形成:AI 正在进入智能体(Agent)时代。然而,当各大厂商都在疯狂入局智能体时,一个尴尬的现实却摆在面前:这些聪
热门专题
热门推荐
Sharkoon旋刚推出双模全配列机械键盘OfficePal K70W 机械键盘市场又添新选择。日前,Sharkoon旋刚正式发布了旗下新款双模全配列机械键盘——OfficePal K70W。这款产品为用户提供了段落有声和线性静音两种轴体选项,值得一提的是,无论是哪种轴体,官方标称的按键寿命都达到了
风车动漫最新在线网入口地址是https: www fcdman com ,该平台提供海量动画资源、流畅观看体验及便捷功能,如多类型番剧、无广告播放、进度记忆和快速更新等。风车动漫
什么是晨星烛台形态?晨星蜡烛图形态详细介绍 什么是晨星烛台形态? 在股票、外汇乃至加密货币市场上,交易者们常常睁大眼睛寻找趋势反转的蛛丝马迹。其中,晨星烛台形态就是一个备受青睐的看涨反转信号。它通常出现在一波下跌行情即将衰竭的末端,像黎明前的第一道曙光,暗示着市场情绪可能正在悄然转变。 典型的晨星形
在当今数字化的时代,社交平台成为了人们生活中不可或缺的一部分。而小红书app,凭借其独特的内容分享模式和丰富多样的生活资讯,吸引了无数用户的关注。你是否想知道如何快速便捷地登录小红
曝苹果2026年还将发布十多款新品 iPhone Fold领衔 本周,随着新款MacBook Air、MacBook Pro以及iPhone 17e等多达七款产品搭载M5芯片亮相,苹果今年的首轮产品攻势算是告一段落了。但这远不是终点,事实上,今年的好戏才刚刚拉开序幕。 目光转向桌面端,Studio





