2026年1月10日,一个让中国AI圈有些兴奋的日子。清华大学基础模型北京市重点实验室和智谱AI联合发起了一场AGI-Next前沿峰会,把当下中国大模型界最核心的四位人物,罕见地凑到了一起。

第一个登台分享的,是刚刚在1月8日成功登陆港股的智谱,它的创始人兼首席科学家唐杰,同时也是这场闭门会的主办方。
姚顺雨,这位前OpenAI研究员,在腾讯近期完成关键一轮模型团队重组后,加入了腾讯并出任CEO办公室首席科学家。这算得上他官宣后第一次在公共场合亮相。
和姚顺雨同属大厂战队的,是阿里Qwen技术负责人林俊旸,阿里历史上最年轻的P10。他手下的通义实验室,开源的衍生模型数量和下载量,已经做到了全球开源模型第一。
闭门会上的另一股重要力量,是近期处在舆论焦点的"六小虎"成员之一——月之暗面CEO杨植麟,他刚刚官宣了一轮5亿美元的新融资。
如果非要说2025年,中国乃至世界AI领域形成的最大共识是什么,那肯定绕不开一条——基础模型的能力,决定了接下来所有竞争的走向。无论是成为下一个超级入口,还是成为下一个伟大公司,根基都在这里。
闭门会上的四位主角,公司阶段、业务模式各不相同,但他们在2025年的一系列动作,指向同一主题:稳住基模第一梯队的地位,同时让模型驱动业务往前走。
一年前,以DeepSeek的横空出世为节点,中国大模型靠快速的迭代和持续的开源,在国际上打出了不错的声势。
但会上,唐杰给中国开发者泼了一盆冷水:"美国和中国的差距,说不定并没有缩小。因为美国还有很多真正厉害的闭源模型,我们没有看到。"
AGI的下一代路线到底怎么走?几位嘉宾对下一阶段AGI的范式定义各不相同,这决定了他们探索路线存在明显差异。
在唐杰看来,DeepSeek出现之后,对Chat这个范式的探索基本上已经走完了。后DeepSeek时代,智谱选择了"赌"Coding和Reasoning。他们押注的GLM-4.5,正是把推理、Agentic、Coding能力整合在一起的产物。
而对"Scaling Law信徒"杨植麟来说,下一阶段的重心仍然是Scaling。不过,这个Scaling更多是指在架构、优化器、数据层面的改进,目的是让模型拥有更好的"Taste":"Taste是我们很相信的东西,模型的智能会产生很多不同的Taste——这意味着模型不会趋同。"
四位嘉宾还有一个共同看好的方向:下一阶段,AI的自主学习。
不过,大家都认同的是,随着AGI探索范式的变化,制定一个衡量模型智力的新标准变得非常重要。
杨植麟提出的智力水平,是Token效率(Token Efficiency)和长文本(Long Context)的结合:"这意味着在不同的上下文长度下,你的模型优势有多大。"
唐杰也持类似看法。他观察到现在疯狂的RL、Scaling,收益已经大不如前。所以他定义了Intelligence Efficiency这个概念,用来衡量投入与智力收益的ROI。
说到底,驱动不同AI探索范式的,其实是各自的目标选择——到底是追求模型的智力顶峰,还是专注落地?这个选择,决定模型的训练策略是走垂直整合,还是走分化训练。
在这个问题上,两位大厂代表林俊旸和姚顺雨有共识:未来,ToC和ToB的分化会越来越明显,AGI的本质,终究是服务真实的人类场景。
姚顺雨认为,在ToC场景下,垂直整合是行得通的——无论是豆包还是ChatGPT,模型与产品必须强耦合地迭代,才能做出好的用户体验。但在ToB场景,恰恰相反:模型公司专心把模型做强,应用公司则追求用最强模型来提升生产力,两者是分化的。
林俊旸则更愿意相信这种分化是自然发生的。"公司没有那么多基因之分,ToB、ToC都是在服务真实的人。"他提到,Anthropic并不是因为Coding特别厉害才成功,而是因为频繁和企业客户交流,发现了真实需求——如今美国的API消耗量中,Coding占了绝对主导地位。
以下为AGI-Next圆桌对话内容整理
李广密:顺雨,你能展开聊聊模型分化这个话题吗?硅谷在分化,中国模型也在开源。比如Anthropic做了Coding,Google Gemini没有全做,而是先把全模态做到极致。你的前东家(OpenAI)则重点做ToC。你自己横跨中美,体感如何?
姚顺雨:我主要有两大感受。第一,科技整合这条路,和模型应用分层这条路,已经开始分化了。
先说ToC和ToB的分化。现在大家能想到的AI Super App,其实就是两个:ChatGPT和Claude,可以看作ToC和ToB的典范。很有意思的是,今天用ChatGPT的感受,对大多数人来说,和去年相比变化已经不那么明显了。
反观Coding,一年前这场革命还没开始。但这一年,夸张点说,Claude已经在重塑整个计算机行业的做事方式——人不再是写代码,而是用英语和电脑交流。
关键在于,对ToC而言,大部分人在大部分时候其实不需要用那么强的智能。模型写抽象代数的能力变强了,多数人根本感受不到,大家更多还是把它当搜索引擎的加强版在用。
但在ToB里,智能越高,就意味着生产力越高,赚的钱也越多。
还有一个明显现象:ToB市场上,很多人愿意为最强模型付溢价。一个模型200美元一个月,次强的50美元一个月,很多美国人愿意花这个钱,因为真能帮他们提升工作效率。一个像OpenAI 4.5这样很强的模型,可能10个任务直接做对八九个;差一点的模型可能只做对五六个。问题是,你还得花额外精力监控,因为你不知道那五六个到底是哪五六个。
所以我发现了一个很有意思的现象:在ToB市场,强模型和弱模型的分化会越来越明显。
第二个观察,是垂直整合和模型应用分层的分化。过去大家觉得,有垂直整合能力就能做得更好,但今天不一定了。模型层和应用层需要的能力不一样。对ToB生产力场景来说,更大的预训练模型是关键,这对产品公司来说很难做。
反过来,要把一个好模型用好——或者说发挥模型的溢出能力——也需要在应用侧和环境侧做大量工作。
我们会发现,在ToC应用上,垂直整合是成立的。无论是ChatGPT还是豆包,模型和产品都是强耦合、紧密迭代的。
但在ToB,趋势似乎是反过来的:模型公司专注把模型做强大;应用层则希望利用最好的模型来赋能不同的生产力环节。
李广密:你刚有了新身份,在腾讯这个平台上,你理想的押注是什么?有什么鲜明的关键词可以分享?
姚顺雨:腾讯是一家ToC基因很强的公司,我们思考的是如何让大模型给用户提供更多价值。我们发现,很多时候ToC的瓶颈并不在于更大的模型或更强的强化学习,而在于额外的上下文和环境。
我常举一个例子:你问模型"我今天该吃什么",无论去年还是今年问ChatGPT,结果很可能都不怎么样。
这个问题想要变好,需要的不是更强的模型或者搜索引擎,而是更多的额外输入。模型如果知道今天很冷,你想吃暖和的;知道你老婆在另一个地方,她想吃什么……有了这些上下文,回答的质量会完全不同。
比如,我们可以把微信聊天记录转发给元宝,给模型更多有用的输入,这对用户来说就是实打实的额外价值。
至于ToB,在中国确实是一件很难的事情。很多做Coding Agent的公司,其实也是去打海外市场。这方面,我们会思考怎么能先把自己服务好。
大公司做Coding和创业公司的一个区别在于,大公司本身就有各种各样的应用场景和提升生产力的需求。如果我们的模型能在这些内部场景做得更好,不仅模型有独特优势,公司能更好发展,更重要的是,能捕捉到真实世界里更多样化的场景数据。
像Anthropic、OpenAI是创业公司,他们需要找数据厂商去标数据。但数据厂商能招的人、能想到的场景总是有限的,多样性会受限。
但如果是一个10万人的公司,那可能性就完全不同了——你能真正把真实世界的数据利用起来,而不只是依赖标注商或蒸馏。
李广密:俊旸,你怎么看接下来千问的生态位?
林俊旸:其实公司也不一定有那么多基因之分,它是被一代代人塑造的。比如顺雨到了腾讯之后,腾讯可能就变成一个带有顺雨基因的公司了(笑)。
今天ToB和ToC,说到底都是在服务真实的人类。所以本质的问题是:我们应该怎么让人类世界变得更好?就算ToC的产品,未来也会再分化,比如更偏向医疗,更偏向法律。
我愿意相信Anthropic能做得更好,不是因为它的Coding做得好,而是因为它和B端客户的交流非常多。我跟美国很多API厂商聊过,他们自己都没料到,Coding的Token消耗量会大到这个程度。在中国,Coding的Token消耗其实还没那么大。
今天Anthropic也在做很多跟金融相关的东西,这也是他们在和客户交流中看到的机会。
所以,大家的分化可能是自然的分化。我更愿意相信AGI,然后顺其自然。
李广密:杨强老师怎么看分化的问题?
杨强:一直以来,学术界是观望者,工业界在领头疯跑。以至于现在很多学术界的人也开始做工业界的事了。
这其实是一件好事。天体物理学刚起步的时候,也是以观测为主,之后才出现理论。等众多大模型进入稳态,学术界应该跟上来。
学术界要解决的,是工业界还没来得及解决的那些问题。比如智能的上限在哪里?给你一定资源,你能做到多好?更细一点,资源怎么分配?哪些放在训练上,哪些放在推理上?
90年代初我做过一个小实验:如果在记忆上投入一定资源,记忆能在多大程度上帮助推理?这种帮助会不会变成反向的?记忆太多会不会成为噪音?有没有一个平衡点?这些方法论上的问题,今天依然适用。
我最近还在想另一个问题。计算机科学里有一个重要定理,叫"哥德尔不完备定理"。大意是说,一个系统(大模型)没办法自证清白,它必然存在一些不可消除的幻觉。
那么问题来了:多少资源能换来多少幻觉的降低、或错误率的降低?中间一定有一个平衡点。这个平衡点特别像经济学里风险和收益的平衡,也叫"无免费午餐定理"。
这些问题特别适合学术界和工业界一起来研究。
刚才唐杰老师也提到了持续学习。这里面有一个时间的概念——大模型在持续学习的过程中,如何保证学习能力不下降?
人类有一个方法:睡觉。我建议大家去看一本书叫《我们为什么睡觉》,两位MIT教授写的。里面提到,每天晚上睡觉,其实是在清理噪音,使得第二天学习的准确率持续提升,而不是让两个错误率叠加。
这些理论研究,孕育着新的计算模式。我们今天可能主要关注Transformer、Agent、Computing,但有必要去做一些新的探索。工业界和学术界要拉齐。
李广密:智谱今天看起来走了Anthropic的路线,Coding很强。唐杰老师对分化有什么看法?
唐杰:2023年,我们是第一个做出Chat(对话)系统的。当时第一个想法,就是赶紧把Chat上线。结果到2023年8、9月上线时,十几家的大模型都上线了,而且每家的用户量都不多。
到了今天,(用户)分化更严重了。经过一年思考,我发现原因在于,Chat并没有真正解决问题。我们原本预判Chat会替代搜索。到今天,我相信很多人开始拿模型替代搜索,但并没有替代谷歌——反而是谷歌反过来把自己的搜索革命了。
从这个角度看,Chat这仗,在DeepSeek出来之后,已经结束了。下一个应该思考的,是下一个赌注是什么。2025年初,我们团队争论了很久,最后决定赌Coding。之后我们把所有精力都放在了Coding上。
李广密:说到赌,很有意思。过去一年,中国不仅开源很强,大家也开始有了自己的押注,并且接下来可能分化——不只是追求通用能力,而是结合自己的资源禀赋,把自己最擅长的点做得更好。
今天,预训练已经过去三年,RL成了共识,硅谷都在讨论下一个新范式——自主学习。顺雨在OpenAI待过,OpenAI推进了Transformer和RL两个范式。对下一个范式,你怎么看?
姚顺雨:现在自主学习是一个非常热门的词。硅谷大街小巷的咖啡馆里,大家都在聊这个,而且已经形成了共识。
但根据我的观察,每个人对这个东西的定义和看法都不一样。我讲两点:
第一,自主学习不是方法论,而是数据或任务。自主学习到底在什么样的场景下运行、基于什么样的奖励函数来执行?你在聊天时变得越来越个性化,这是一种自主学习;写代码时越来越熟悉公司的环境和文档,也是一种自主学习;探索新科学,从了解有机化学开始,成为这个领域的专家,还是一种自主学习。每一种自主学习的挑战和方法论都不太一样。
第二,我不知道这是不是非共识,但这事已经发生了。ChatGPT已经在用用户的数据不断调整聊天的风格,这算不算自主学习?今天Claude这个项目,95%的代码已经是Claude自己写的了——它在帮助自己变得更好,这是不是也是一种自我学习?
2022年、2023年我去硅谷宣传工作时,我做的第一页slide就写着:AGI最重要的点就是自主学习。AI系统本质上有两部分——它首先是一个模型,其次有一个代码库。你如何运用这个模型?用来做推理,还是做Agent?都有对应的代码库。
今天我们看Claude这个系统,本质上也有两部分:一部分是部署环境的代码,另一部分是操作逻辑的大量代码。这些自主学习的例子,可能还局限在特定场景下,还没有让人感受到非常大的威力。
我个人看法是,自主学习更像是渐变,而不是突变。
李广密:你觉得在2026年,自主学习能看到哪些信号?还有哪些实际问题需要突破?
姚顺雨:很多人说2026年才能看到自主学习的信号,但2025年其实已经看到了。Cursor每几个小时就会用最新的用户数据去学习,新的模型也在用真实环境下的数据去训练。
大家觉得这些进展还不够石破天惊,主要是因为他们没有预训练能力,模型效果确实还不如OpenAI。但这显然是一个自主学习的信号。
最大的问题是想象力。我们很容易想象,如果强化学习或推理范式实现,大概是什么样子。比如OpenAI o1,本来数学题只能得10分,现在能得80分。通过强化学习,o1有了非常强的思维链,能做数学题了。
那如果2026年或2027年,一个新的模型或系统实现了自我学习,我们应该用什么任务来验证它?它应该是什么效果,才能让我们相信它真的实现了?是一个能赚钱的交易系统?还是解决了人类之前没办法解决的科学问题?我们可能得先想象到它长什么样子。
李广密:OpenAI已经做了两次范式创新。如果26、27年有新的范式出来,全球范围内,哪家公司最有可能继续引领范式创新?
姚顺雨:可能OpenAI的概率更大一些。不过因为商业化等变化,它的创新基因已经被削弱了。但它仍然是最有可能诞生新范式的地方。
林俊旸:从更实际的角度说,RL这个范式也还在早期阶段。RL的计算还没有被充分扩展,很多潜力没发挥出来,我们也能看到很多基础设施层面的问题。当然,全球范围内,类似问题都还存在。
关于下一代范式,我觉得一个方向是自主学习。之前跟朋友聊到,说"人类不能让AI变得更厉害"。比如你和AI不断交互,只会让它的上下文越来越长,然后AI变得越来越笨——这其实很烦人。
测试时的扩展(Test-time Scaling)到底能不能真正发生——吐出更多Token,然后变得更强?这是值得思考的。至少我觉得o系列在一定程度上实现了这件事。有没有可能今天要做的超越很难,但通过Coding来实现呢?
今天大家做AI Scientist这类事还挺有意义的。因为你在挑战很难的、甚至是人类未曾做到的事情。有没有可能通过三天去实现它?从这个角度说,AI肯定需要自主进化。但到底要不要更新参数?这个见仁见智,可能各有各的手段。
第二点是,AI有没有可能变得更强主动。现在的AI必须由人类用提示词来启动,未来有没有可能环境本身就把它"唤醒",让它自己主动思考、主动做事?
但这里引发了一个新问题——安全问题。我最担心的不是AI讲一些不该说的话,而是怕它做一些不该做的事。比如它今天主动产生一个想法,往这个会场里扔一颗冲击波——这种事情我们肯定不希望发生。就像培养小孩一样,我们得给它注入正确的方向。所以主动学习很可能是一个重要的范式。
李广密:对,俊旸又提了一个(AI学习的)主动性。主动性可能是2026年一个非常关键的赌注。
如果自主学习在2026年看到信号,你感觉会是在哪些任务上率先显现?是模型训练模型、最强大模型能自我提升?还是会出现自动化的AI研究员?
林俊旸:我觉得自动化的AI研究员甚至都不那么需要自主学习。可能很快,AI训练AI这件事就能实现。我看着我们的同学每天做的事,就觉得很快能替代掉他们。
但更重要的可能是持续理解用户这件事。比如个性化就很重要。过去做推荐系统时,用户信息是持续输入,能让整个系统变得更强。但现在AI覆盖到人类生活方方面面时,真正的个性化衡量指标是什么?我们其实不太清楚。所以更大的技术挑战在于,今天的评估不知道该怎么做。
李广密:如果"记忆"实现了,会是2026年技术突破的关键点吗?
林俊旸:我个人观点,大量的所谓技术突破,其实都是观测问题。它们本质上都是在线性发展,只是人类对它的感受非常强烈。包括ChatGPT的出现,对我们做大模型的人来说,都属于线性增长。
现在做Memory的技术方案对不对?很多方案没有绝对的对错。但实际效果嘛——我拿我们自己的产品献个丑:我们的Memory,好像知道我过去干了什么,但只是"记住"了,并没有显得聪明。
不过,Memory到某一个临界点时,会不会真的像生活中的人一样,或者像电影《Her》里那样,通过理解你的记忆来感知人类的感受?这多多少少还得一年时间。
很多时候技术也没有发展那么快,只是大家比较卷,觉得每天都有新东西。但其实技术就是在线性发展。每天看我们做的事,真挺土的,那些Bug都不好意思拿出来讲。但如果我们以这种方式走到今天,未来算法和基础设施结合得更好时,一定大有可为。
李广密:有请杨强老师。
杨强:我一直做联邦学习,核心思想是多个中心相互协作。现在越来越多地看到,有些地方本地资源不足,数据又有隐私和安全需求。
这就引出了一种可能性:通用大模型越来越强,它和本地的、领域化的小模型如何协作?这种协作变得越来越有可能。比如美国Zoom,黄学东他们做的AI系统,建了一个大基座,大家都能接入。在去中心化的状态下,既能保护隐私,又能和通用大模型有效沟通协作。
这种开源模式特别好,既有知识层面的开源,也有代码层面的开源。尤其在医疗、金融这些场景下,会越来越多地看到这类现象。
李广密:有请唐老师。
唐杰:持续学习、Memory,甚至多模态,都有可能带来新的范式变革。
为什么会发生这种范式变化?原来工业界跑得远远快于学术界。我记得去年和前年回清华,很多老师手里的卡数量几乎是零。工业界有1万片卡,学校是0或1片,差距是万倍。
但现在,很多学校已经有不少卡了,很多老师也开始做大模型相关研究。硅谷那边也一样,很多老师开始做模型架构、持续学习的研究。原来总觉得工业界在主宰一切,到2025年底、2026年初,这种局面已经不一样了。
学校和工业界之间可能还存在10倍差距,但种子已经埋下了。第一,学术界有创新的基因。第二,创新一定是因为大量投入某件事后,效率出现了瓶颈。现在大模型已经投入巨大,但效率并不高。
继续Scaling肯定还有收益。2025年初可能只需要10T数据,现在需要30T,甚至能Scaling到100T。但问题是,收益有多少?计算成本有多少?如果不创新,花10亿、20亿,收益却很小,那就不值得了。
另一方面,对于新的智能创新,假如每次都要重训一个基座、重训RL,收益效率也会变小。
未来,我们或许可以定义一个衡量收益的新范式。一方面要提高智能的上限,最笨的办法就是Scaling;另一方面,应该定义"Intelligence Efficiency"(智能效率)——用更少的投入,获得同样的智能提升。
所以,2026年范式的改变一定会发生。我们也在努力,希望这个变化发生在自己身上。
李广密:我跟唐老师一样非常乐观。每个领先的模型公司,每年的计算量都有10倍左右的增长。大家手上的计算资源更多了,人才也涌入得越来越多。可能某个试验工程,某个点就冒出来了。
大家对2026年的Agent有一个很大的预期——它能够自动化人类1到2周的工作量,而不再只是一个工具。这可能是Agent创造经济价值的关键一年。
硅谷几个公司都是从模型到AGI,端到端全做了。顺雨,你花了很多时间研究Agent。2026年,Agent真的能帮人类自动化1-2周的工作吗?从模型公司的出发点,你怎么看?
姚顺雨:ToB和ToC可能不太一样。在ToB方面,Agent正处在不断上升的曲线上,目前没有变慢的迹象。
Anthropic这家公司很有意思,它不做花哨的创新,就是专心把预训练做大,把RL做好,然后去解决真实世界的任务。模型越来越聪明,带来的价值就越来越大。做ToB,所有目标都很一致:模型智能越高,能解决的任务越多,收入就越高。
这和ToC不同。OpenAI做ToC的问题我们都知道,ToC的DAU和模型智能很多时候是不相关的,甚至可能相反。
这恰恰是Anthropic能如此聚焦的重要原因:只要真的把模型越做越好,收入就会越来越高,所有事情都非常协同。
目前除了模型本身,还有两个瓶颈。一个是环境和部署问题。在OpenAI之前,我在一家ToB客服公司实习过,收获很大。即使今天模型不再变好,只要把现有模型部署到全世界的公司里,可能就能带来10倍甚至100倍的收益,对GDP产生5%到10%的影响。但今天,它对GDP的影响还远不到1%。
另一个非常重要的因素是教育。人和人的差距在拉大——不是AI替代了人,而是会用AI工具的人替代了不会用的人。
就像电脑刚被发明出来时,你如果转身去学编程,而别人还在用计算尺、算盘,那差距是巨大的。
今天中国能做的最有意义的事情之一,其实就是更好的教育——教大家怎样更好地使用Claude或ChatGPT这样的产品。当然,Claude可能在中国用不了,但我们可以用Kimi或者智谱这样的国产模型。
李广密:俊旸,千问也有自己的生态,做Agent的和扶持生态的通用Agent对比,你能分享一下吗?
林俊旸:这涉及产品哲学的问题。当然,Manus这样的产品确实很成功。但"套壳"是不是未来,确实值得讨论。
我比较同意"模型即产品"这个观点。跟Thinking Machine Lab(TML)的人聊过,他们有一个观点是"Researcher is Product"——很多研究者自己就能成为产品经理,端到端地把东西做起来。
今天我们内部的Researcher,都想做更多面向真实世界的东西。我相信接下来的Agent,是能做到刚才说的那些事的,这和刚刚提到的self-involvement、主动学习都有很强的关系。
比如,它能干这么长时间,本身就需要在过程中进化,并且还要决定去干什么。因为它接到的指令是一个非常general的任务。所以现在的Agent,已经开始越来越像那种"托管式"的Agent,而不是需要不断来回交互的形式。这对模型能力的要求很高——模型就是Agent,Agent就是这个产品本身,如果它们是一体化的。
从这个角度说,如果不断提升模型能力的上限,包括把Test Time Scaling做上去,它确实能做到这件事。
还有一个点是环境交互。我们现在交互的还都是电脑环境,不够复杂。我有朋友做AI for Science的,比如做AlphaFold、制药。用今天的AI恐怕帮不了你太多,因为你需要做实验,不能只在电脑里做,要指挥机器人做实验才能得到反馈。
按现在人类的效率,其实非常低。我们甚至还要雇很多外包在实验室里做实验。如果AI能跟真实物理世界交互,那才是我理想中Agent能长时间工作的场景,而不仅仅是在电脑当中。
一些在电脑环境里做的事,我觉得今年很快就可能完成。但接下来三到五年,Agent的任务可能会和具身智能结合起来——那会更有意思。
李广密:我想追问一个更尖锐的问题——从你的角度看,通用Agent这个机遇是属于创业者的吗?
林俊旸:我不能因为我做基础模型,就跑去当创业导师。我只能借用一位成功人士的话——Manus的联合创始人Peak说过,通用Agent最有意思的地方在于解决长尾问题。或者说,今天AI更大的魅力就在长尾。
头部的问题其实很好解决。当年做推荐系统时我们就看到,推荐其实非常集中,商品都在头部。但我们想的是如何把尾部的东西推出去。当时我做这件事,结果是朝着死路去的。今天所谓的AGI,其实也是在解这个问题。
一个用户,寻遍各处都找不到能帮他解决问题的人。在那一刻,他感受到了AI的能力——全世界任何一个角落都找不到答案,但AI能帮他解决。这可能就是AI最大的魅力。
要不要做通用Agent?如果你是"套壳"高手,套得比模型公司还要好,那可以去做。但如果没有这个信心,这个问题可能还是留给我们模型公司自己来做——因为我们遇到问题时,训一训模型、烧一烧卡,或许问题就解决了。见仁见智吧。
李广密:所以解决长尾问题,模型公司说算力加数据,好像解决起来也挺快的,对吧?
林俊旸:今天RL最有意思的地方在于,我们发现修问题比以前容易多了。以前修问题很难。
我举个例子。有个B端客户来问,他们说要做SFT(监督微调),问我们通用数据怎么配比。每次我们都很头痛,因为觉得对方不太会做SFT,他的数据其实不好,但他自己觉得有用。
现在有了RL之后,你可能只需要很小的数据点,甚至都不需要标注,只要有一个查询、有一个奖励函数,稍微训一训,再合并起来,其实很容易。
李广密:有请唐杰老师。
唐杰:有几个方面决定了Agent的未来走向。第一,Agent本身有没有解决人类的事,这件事有没有价值,价值有多大?比如原来的GPTs做了很多Agent,但你会发现那些Agent非常简单,最后发现用prompt就解决了。大部分Agent最后慢慢就死掉了。
所以,第一个关键点是:解决Agent这件事有多少价值,以及能不能真正帮到人。
第二,做这件事的成本有多大。如果成本特别大,也是问题。就像俊旸刚才说的,也许调用一个API就能解决问题。但反过来,如果调API就能解决,这个API本身——如果它认为这件事价值很大——就会把它做进去。这是矛盾,非常矛盾,基座和应用永远是矛盾的。
最后,做应用的速度也很关键。如果能拉开半年的时间窗口,迅速把应用做起来,半年之后要么迭代、要么想别的办法往前走,这也很重要。
大模型现在更多是在拼速度、拼时间。也许代码对了,就能在这方面走得更远。但失败以后,可能半年、半年就没了。今年我们只是在Coding和Agent上做了一点点。现在Coding的调用量还不错,但Agent也是一个方向,未来也是。
李广密:感谢各位。过去模型公司既要追通用能力,可能没有花太多精力去探索具体场景。现在通用能力上来了,我们很期待2026年智谱、千问能有自己的"Claude时刻"和"Memory时刻"——这非常值得期待。
接下来是一个展望未来的问题:三年和五年之后,全球最领先的AI公司是中国团队的概率有多大?要从今天的跟随者变成未来的引领者,需要哪些关键条件?
顺雨,你经历硅谷和中国两个市场,对概率的判断和关键条件怎么看?
姚顺雨:概率还挺高的。我比较乐观。目前来看,任何一个事情一旦被发现,在中国就能很快被复现,在很多局部做得更好。制造业、电动车这些例子已经反复出现了。
可能有几个关键点。一个是中国的光刻机能不能突破。如果最终算力成为瓶颈,我们能不能解决算力问题?目前我们有电力优势、有很好的基础设施优势。主要的瓶颈——产能、光刻机、软件生态——如果解决了,会是很大的帮助。
另一个问题,除了ToC之外,中国能不能有更成熟或更好的ToB市场?有没有机会在国际商业环境中竞争?今天我们看到,很多做生产力或ToB的模型和应用,还是诞生在美国——因为支付意愿更强,文化更好。在国内做这事很难,所以大家都会选择出海或者做国际化。这是两个比较大的客观因素。
更重要的是主观因素。最近跟很多人聊天,我感受到的是:中国有非常多极强的人才。任何一个事情只要被证明能做出来,很多人都会非常积极地尝试,并且想做得更好。
但想突破新范式、或者做非常冒险的事,这样的人可能还不够多。这里有经济环境、商业环境、文化的因素。如果再增加一点,就是需要更多有创业精神或冒险精神的人,真正去做前沿探索或新范式突破。
目前来看,一旦一个范式发生,我们可以用很少的卡、很高的效率在局部做得更好。但我们到底能不能引领新范式?这可能是今天中国唯一需要解决的问题。因为其他所有的事——商业、产业设计、做工程——某种程度上我们已经比美国做得更好了。
李广密:我再顺着问一句,你对国内实验室的研究文化有什么呼吁?你也感受过OpenAI、DeepMind,中国和美国的研究文化,差异在哪里?作为一个AI Native的公司,这对发展有什么根本性影响?
姚顺雨:每个地方的研究文化都不一样。美国实验室之间的差距,可能比中美实验室的差距还要大。中国也一样。
我个人觉得有两点。第一,在中国,大家还是更喜欢做更安全的事情。比如预训练这件事已经被证明可以做出来,虽然非常难、有大量技术问题要解决,但只要被证明能做出来,我们都有信心在几个月内搞清楚。
但如果让人去探索一个长期记忆或持续学习——这件事不知道怎么做、不知道能不能做起来——那还是比较困难的。不只是大家更喜欢做确定性的事、不太愿意做创新性的事。重要的是,文化的积累和整体的认知,是需要时间沉淀的。
OpenAI在2022年就开始做自主学习了,中国是从2023年才开始的。对这个东西的理解会有差异。很多事只是时间问题——当文化或底蕴积累得更深时,潜移默化会影响人的做事方式。但它很微妙,很难通过榜单去体现。
中国对刷榜或数字看得更重。DeepSeek做得比较好的一个点是,他们可能没那么关注榜单的数字,而是更注重:第一,什么是正确的事;第二,什么是自己能实际感受到好或不好的。这很有意思——Claude模型在编程或软件工程榜单上可能不是最高的,但大家都知道它最好用。这需要大家能走出榜单的束缚,坚持自己觉得是不是正确的东西。
李广密:多谢顺雨。请俊旸说说概率和挑战。
林俊旸:这个问题有点危险。理论上在这个场合是不能泼冷水的。
如果谈概率,我想说说我感受到的中美差异。美国的计算能力整体可能比我们大1到2个数量级。但不管是OpenAI还是其他公司,他们大量的计算资源投入到了下一代的研究里。我们这边相对来说捉襟见肘——光是交付,可能已经占去了绝大部分计算资源。这会是一个比较大的差异,可能也是历史遗留问题。
创新发生在有钱人手里还是穷人手里?穷人不是没有机会——我们觉得那些"富哥"真的很浪费卡,可能训了半天也没什么用。但如果穷的话,比如今天做算法和基础设施联合优化的事,你很富就不会有动力去做。
刚才顺雨提到光刻机的问题。还有一点:如果从软硬结合的角度出发,有没有可能做出来下一代的模型和芯片?是不是有可能一起把它做出来?
2021年我在做阿里的大模型。因为阿里有芯片业务,他们的人来找我,说能不能预测一下三年后模型还是不是Transformer架构?三年后是不是多模态?为什么问三年?因为他们需要三年时间流片。
我当时的回答是:三年后我在不在阿里巴巴我都不知道。结果我今天还在阿里巴巴,而三年后果然是Transformer,果然是多模态。我非常懊悔,当时为什么没有催他去做。
当时的交流完全是鸡同鸭讲。他跟我讲了一大堆东西,我完全听不懂。我跟他讲,他也不知道我们在做什么——就这么错过了机会。
这个机会有没有可能再来一次?我们虽然是一群"穷人",但穷则生变。创新的机会会不会发生在这里?
今天我们的教育在变好。我属于90年代靠前一些的,顺雨属于90年代靠后一些的。我们团队里有很多00后,感觉大家的冒险精神在变得越来越强。
美国人天然有非常强烈的冒险精神。一个经典例子是电动车刚出来的时候,车顶漏水、开车还可能意外身亡,但依然有大量富豪愿意去做这件事。在中国,我相信富豪们不会去干这种事——大家会做很安全的事。
今天,大家的冒险精神在变得更好,营商环境也在变好。所以我觉得创新是可能的。概率没那么大,但真的有可能。
李广密:如果给一个具体数字——三年到五年后,全球最领先的AI公司是一家中国公司的概率有多少?
林俊旸:我觉得是20%。20%已经非常乐观了,因为真的有太多历史积淀的原因。
李广密:我再追问一个问题。中国模型和美国模型的差距,有些地方在追赶,有些地方算力在拉大。你对差距变大的恐惧感强吗?
林俊旸:干这一行就不能恐惧。心态必须非常强。能做大模型这件事,已经非常幸运了。
还是看你的初心是什么。刚才顺雨提到一个点——你的模型不一定那么强,在C端是OK的。换一个角度思考:我们的模型为人类社会带来了什么价值?只要我相信这个东西能为人类社会带来充分的价值、能帮助人类,就算不是最强的,我也愿意接受。
李广密:多谢俊旸。有请杨老师。您经历过很多AI周期,也见过很多中国AI公司后来成为世界最强。对这个问题,您怎么看?
杨强:回顾一下互联网的发展。一开始是从美国开始的,但中国很快就赶上了。像微信这样的应用,是全世界第一的。
AI是技术,不是终端产品。中国有很多聪明才智,会把产品发挥到极致。无论是ToB还是ToC,我可能更看好ToC——因为百花齐放,中国人集思广益。ToB方面可能有更多限制,比如付费意愿、企业文化等,但这些东西也在改变。
最近我在观察商业方向,和商学院的一些同学探讨。美国有一家公司叫Palantir,它的理念是:不管AI发展到什么阶段,我总能从AI中找到一些能应用于企业的好东西。中间肯定有鸿沟,但可以弥合。
它有一个办法叫"本体"。大致思想和我们之前做的迁移学习相似——把一个通用的解决方案应用到具体实践中,用本体来做知识迁移。这个方法非常巧妙——自然是通过工程方法,由前端工程师(FDE)来解决的。
不管怎样,这种思路非常值得我们学习。中国的AI Native公司应该发展出类似的ToB解决方案来。我相信会的。所以,ToC肯定百花齐放,ToB也会很快赶上来。
李广密:多谢杨老师。有请唐老师。
唐杰:确实要承认,中美之间——无论是做研究还是企业界的AI Lab——是有差距的。这是第一个事实。
但中国在慢慢变好。尤其是90后、00后这一代人,做企业比上一代好太多了。有一次我在一个会上说,我们这一代最不幸运——上一代还在工作,我们也在工作,所以没有出头之日。更不幸的是,下一代已经冒出来了,世界已经交给他们了,已经把我们无缝跳过了——当然,这是玩笑。
中国可能的机会在哪里?
第一,一群聪明人真的敢做特别冒险的事。现在有这样的人——00后、90后这一代里的人,包括俊旸、杨植麟、顺雨,都非常愿意冒险做这样的事。
第二,我们的环境可能更好一些。无论是国家的大环境,还是大企业和小企业之间的竞争、创业企业之间的关系,包括营商环境。
就像俊旸刚才说的,我还在做交付。如果能把环境建得更好,让一群敢于冒险的聪明人有更多时间去做创新——这可能是政府,也包括我们自己,可以共同改善的事情。
第三,回到我们每个人自己身上——能不能坚持。能不能在一条路上敢做、敢冒险,而且环境还不错?环境当然不会是最好的,永远不要寄望于最好的环境。我们恰恰是幸运的——经历了环境从没那么好、到慢慢变得更好的时代。我们是经历者,可能也是收获最多的人。如果我们笨笨地坚持下去,也许走到最后的就是我们。
感谢大家!
李广密:感谢唐老师。我们也想呼吁——把更多的资源、资金投入到中国的AGI行业,提供更多算力,让更多年轻的AI研究者有机会"搓卡"。说不定搓个三五年,中国就会出现自己的Ilya Sutskever。这确实是未来三五年最值得期待的事。
