王小川称国内大模型九个月可达OpenAI o1水平

时间：2026-07-03 15:36

o1不代表范式转弯，而是范式升级 2024年9月，OpenAI预热已久的“Strawberry”（草莓）项目终于落地。这一次，它跳出了GPT系列的命名惯例，直接取名为o1模型。业界普遍认为，这标志着AGI范式的一次重大升级，甚至是一次方向性的转移。在语言模型预训练所依赖的Scaling Law

# o1不代表范式转弯，而是范式升级

2024年9月，OpenAI预热已久的“Strawberry”（草莓）项目终于落地。这一次，它跳出了GPT系列的命名惯例，直接取名为o1模型。业界普遍认为，这标志着AGI范式的一次重大升级，甚至是一次方向性的转移。在语言模型预训练所依赖的Scaling Law逐渐触及天花板之后，包括OpenAI在内的多家硅谷明星公司，已经把资源重心押注在一条新路径上：强化学习。o1的发布，让以强化学习为核心的后训练技术，被推到了聚光灯的中央。百川智能创始人兼CEO王小川很早就开始在公开场合谈论强化学习。他曾说过，大模型代表的是“快思考”，它叫“学”；强化学习是“慢思考”，叫“思”。这两个系统，最终会走向融合。在o1发布后，王小川第一时间接受了访谈，分享了他对o1和强化学习的核心判断： 1. o1不代表范式转弯，而是范式升级——OpenAI摸到了一条从快思考走向慢思考的道路； 2. o1的关键在于两点：从以语言为核心走向思维链（CoT），以及把思考过程和给出结果分两阶段运行，从而增强泛化能力； 3. 除了数学和代码，AI医生是强化学习可以大有作为的领域； 4. 他还做了一个预言：代码会成为大模型下一步的核心能力。大模型通过写代码解决更多问题，甚至完成自身的思考过程，未来几年将从强化学习范式走向“写代码解决问题”的新范式。以下为王小川的访谈节选。 ## 1 o1摸到了一条从快思考走向慢思考的道路 **问：关于OpenAI做强化学习的经过，你了解哪些事实？** 王小川：之前Sam Altman被“宫斗”下课的时候，我理解那并不是狗血剧。 OpenAI的董事会成员既聪明、也挺正直，不会犯傻。有些人要么蠢，要么坏。但这些人既不蠢，也不坏。纷争背后，一定有某些外界没发现的事。在那之前一周，我听到他们一个核心人物传出来的消息：Noam Brown，之前是DeepMind做强化的专家，加入了OpenAI，并且跟朋友透露，他们有一些突破性进展了。一周后，Sam Altman就出了事。前后其实是两件事。第一件事，他被“宫斗”，一定是技术层面有外界没看到的东西在内部引发质疑——Sam Altman比较激进，对安全性认识不足，把安全重要性放在了技术突破后面。有些突破性的技术可能不安全，但他有点无所谓，想尽快推进。而恰恰Noam说他们有技术突破，而且Noam代表的是强化学习。两件事放在一起，去年底我们就能推断出：OpenAI的强化学习，确实有突破了。 **问：今年初OpenAI发布Sora，你们的技术同事想跟进，被你摁住了。这次o1呢？** 王小川：这个技术范式的核心是语言模型，然后走向强化学习——这是智能提升的两个阶段。做Sora的时候，它既不是语言学习，也不是强化学习，不在提升智能的方向里，而是另一个独立的产品。所以做Sora，从技术上并不代表智能的提升，场景上也不是百川所追求的。我当时认为，有同事这么想，属于“技术没想明白，场景也没想明白”。去年4月百川下场的时候，我们就在强调强化学习，以及强调多模态不是智能提升的方向。我们说大模型是“读万卷书”，强化学习是“行万&里路”。大模型本身叫“学而不思则罔”，它读了很多书，但内心偏混乱。而单独强化学习有一个典型代表——AlphaGo。我相信AlphaGo是对人工智能的启蒙，它是强化学习，特别是自我博弈的典型代表。这个技术，之前DeepMind一直沿着这条路走，但走到后来发现它叫“思而不学则殆”，停在一个问题里面走不出来了。所以，这两个技术都有自己的局限性。在人工智能发展史上，DeepMind有过很多成果，像AlphaGo、AlphaZero，甚至一点数据都不用。但不幸的是，OpenAI从语言里面把通用智能往前推了一步——用学习的方法，用思考的方法。这两种技术，早晚会合璧。 **问：有评论说“相比GPT-4o，o1模型向前迈了一步，却又退了两步”，你怎么看？** 王小川：我不认为它叫进一步、退两步，也不叫转弯，就是范式升级了。快思考是慢思考诞生的一个过程。先要有快思考，才能有慢思考，它不是转弯。而是——怎么用大模型的快思考，之后让它学会慢思考，这是一个进阶。我沿用DIKW模型来说——DIKW指的是从Data到Information，再到Knowledge，最后到Wisdom，四步走。之前的搜索停留在Information这层，帮你获得信息。到了大模型LLM阶段，就到了Knowledge这层，它有知识、有沟通、有快思考。而今天有了慢思考，它已经从Knowledge进化到了有Wisdom的雏形，真的开始有智能了。所以这是范式升级——把原来的模型作为组件之一，不只是用强化学习服务于大模型。大模型是它的一个组件了，这是一个大的跨越。总结来说，既不是转弯，也不是进退，而是摸到了一条走向慢思考的道路。 **问：为什么我们需要一个能慢思考的AI？它能帮我们解决哪些事？** 王小川：智能本身一定是思考的过程。无人驾驶做端到端，在端到端里面也需要一步一步去想。就像我们做几何定理证明题，求解一定得有思路。当你有思考过程，就是一个慢思考。所以，智能本身需要多步思考。大多数比较复杂一点的问题，不管是代码、数据、逻辑，还是日常要解决的事，都得分步骤解析，而不是一拍脑袋就能有快思考的结果。除了文学写作，可以用快思考写诗，一鼓作气做完；大多数时候需要多步，需要慢思考。 **问：o1隐藏了思维过程，甚至有人破解o1的思维链会被警告封号，OpenAI为什么这么做？** 王小川：之前做大模型，各家用它的数据做蒸馏，能迅速接近它。OpenAI毕竟是一家商业公司，不是公益型公司。一旦公开，别人不仅会仿效它的逻辑，更容易争夺它的数据——不仅破解它的算法，还包括它的数据获取。这会让其他公司进步变得很快。也说明，这个技术本身的独有性是有限的。所以，封锁是一个竞争策略。 ## 2 从以语言为核心走向思维链，分两阶段运行增加泛化性——这两句把强化学习的精髓讲完了 **问：我们应该怎么看待o1，是一个过渡性的产品形态吗？** 王小川：o1有点像当年GPT-3的发布——离最后GPT-3.5和GPT-4的突破性还有距离。但GPT-3发布时，在业内就已经很震撼了。 **问：我前几天和一个前OpenAI研究员（边塞科技创始人、清华叉院信息研究院助理教授吴翼）聊，他的研究方向是强化学习。他说，现在相当于从阶段一进入到阶段二。之前pre-training能挖的金矿越来越少，大家意识到以强化学习为基础的post-training是第二个大金矿，这让迈向AGI的梯子多了几节。** 王小川：这个理解完全一样。 **问：在你看来，OpenAI o1应该关注哪些要点？** 王小川：第一，它坚持以语言为中心，又叫语言中轴。之前大家多少觉得多模态是智能。但你看OpenAI，多模态帮助不大，现在还是语言为核心，甚至更进一步——从语言为核心走向CoT（思维链），更强调思维链了。语言在中间承载思考时，变成一个多步的思考过程。第二，它把思考过程和给出结果，分成了两个步骤。这样对思考过程能够更好地进行泛化。比如解数学题，你可能是学会一个思路，就能解好多题。所以它不是在追求这个题解对的结果，而是追求解题过程是对的。分成两个阶段之后，能把CoT变成一种能泛化的能力——从解一个数学题，到解更多题，甚至提升其他领域的共性能力。所以，核心关注语言为核心的CoT，以及分两阶段运行能增加泛化性——这两句话信息量很大，已经把强化学习的精髓讲完了。 **问：能不能介绍一下“强化学习”这个概念？** 王小川：强化学习跟之前监督学习的区别是：监督学习是你要告诉它解题过程是什么，它依葫芦画瓢；强化学习是不告诉它过程，只是判断你做得对不对。就像教小孩。你告诉他“一二三怎么做”，他可能学得快，但并没有“知其所以然”。但如果他做对了，你说“对”；做错了，你说“错”，这个小孩就得自己花心思找方法。这就是强化学习跟监督学习的本质区别。大模型为什么特别强调强化学习呢？大模型本质是把全天下最优质的语言拿来训练，我们说是“一个压缩的过程”。压缩过程是在原有数据“分布内”的一种智能，它的思考能力不会超过你原始数据。但单看智能，它是跳出原来的框架去想事。数学上叫“分布外”，大模型叫“分布内”——就是在探索以前未知的事。所以这个时候需要创造环境，让在这个环境互动中，环境的反馈能给原来数据语言之外的内容，能提升你的解题能力或智力。从“分布内”走向“分布外”，这是智力必须的过程。所以用强化学习，就变成了必须的事。 **问：这里面包含哪些关键技术原理，复刻它难吗？** 王小川：有很多数据和工程问题要做。复刻它本身，如果蒸馏会变得很简单；但真正复刻起来，对算力、对专家来标注这个系统，都还是有蛮多挑战的。比复刻GPT-4会变得更难一些。 **问：还是需要专家、需要人工？** 王小川：我觉得需要，也需要人教它。 **问：Self-play RL（自博弈强化学习）能让人工更少吗？** 王小川：肯定会。计算机领域有句话是这么说的：求解一个问题比验证一个问题更难。找问题答案比判断答案对不对更难。你走迷宫，找到那条出路是难的，但要验证这个迷宫走得对不对、有没有撞墙，是简单的。或者做几何定理证明题，求解难，但找到求解过程后，让另一个人验证求解过程有没有bug，是简单的。我们很愿意用强化学习，其中重要的是：我并不知道怎么解这个题，但我能验证你解得对不对。这种情况下，整个系统的能力能得到很大提升，也降低了标注数据的难度。同等标注难度下，它能解更复杂的题目——这是中间的核心逻辑。 **问：强化学习能实现泛化性吗？它能够带来通用智力水平的提升吗？** 王小川：强化学习之前的泛化性是不好的。AlphaGo之前就做得不好。今天OpenAI基于这两件事，把强化学习做得挺好。第一，它局限在数学、代码这两个局部领域，但取得了足够大的突破。也说明这两个领域里有足够好的数据来验证它——比如数学题做得对不对？一个程序是否能编译通过？运行完了跟你想要的结果一不一样？在没有泛化性和绝对答案的情况下，它做得特别好。第二，它的泛化性来自于把CoT和后面的执行过程分开了。就像之前训练代码之后，整个系统逻辑能力提升了一样。之前GPT-3.5两个版本合在一起之后，逻辑性提升就来自于代码的学习。现在也一样，其他场景的泛化性来自于对数学和代码的CoT掌握得更好了，这个CoT能泛化到其他思考环节去。 **问：之前大家对GPT-4有一个诟病是数理能力比较差，o1变成了数学、编程方面的偏才，未来会出现更多专注于特定领域的模型吗？** 王小川：我不觉得它是偏才，现在就是一个“文科也不错、理科一下子变得特别强”的模型。至少OpenAI代表的路线图是通用的道路，会逐步把这样一个领域拓展开来。并不代表以OpenAI自己积累的数据闭环就能做到全知全能。在各个领域使用的时候，专业领域的数据会扮演很重要的角色。 **问：做一个o1需要多少算力、数据，有没有一个预估？** 王小川：可能跟做个GPT-4差不多。 **问：o1 + GPT-4o会出现什么？** 王小川：不需要合并。现在叫o1，已经版本重置了。合并本身不难，即便包含不了，分两个调用也行。 **问：o1只是新范式的第一步，之后它会怎么演变？** 王小川：它的算力继续增加、训练效率提升，以及如何在领域数据中更好地使用，还有大量可挖掘的内容。往下有几个事可能会发生：第一，领域的更好的泛化能力——找到范式把领域知识做起来，是一个要突破的事。第二，再往下，我可以做个预言：未来代码会扮演更重要的角色。以前代码是帮助提高逻辑能力，或者帮助程序员辅助写代码。我认为未来代码会变成大模型下一步的核心能力。也就是说，大模型通过写代码能够去解决更多的问题，解决自身的思考过程，从强化学习范式还会走向“写代码来解决问题”这个新范式——这在未来几年内会实现。 ## 3 走出大厂射程，大模型“六小龙”至少能活一家 **问：百川在强化学习这条路上是怎么做的？** 王小川：百川一直挺重视强化学习，去年就成立了这样一个团队。OpenAI是走在我们前面，这个得承认。我们在Baichuan3发布时做了一个实验，用强化学习训练诗词。做强化学习之前要靠金标准——在能绝对判断对错的地方训练，所以通常要做理科任务，数学、代码是可以做的。文科上没有对错判断的标准，写得好不好挺难让机器校对。所以我们想在文科里是否也有一个Reward Model（奖励模型），于是想到了唐诗和宋词。尤其是宋词，大家写起来比较难，它的字数、平仄、韵律、对仗有很多要求。但要求反而是一种规则。当时我们在训练模型的时候，不是让机器仿照人这么写诗词，而是让机器写诗词之后，我们用一个程序模型来判断诗词写得是否符合字数、平仄、韵律和对仗。预训练时就做了这样一个实验，取得了不错的效果，代表我们在这方面之前就有积累和思考。再往下，除了数学和代码以外，我们认为医生是蛮好的可以用强化学习提升的领域。医疗在很多问题上是有标准答案的。比如一个病人，综合症状他到底有什么病？或者该做什么检验、检查，该开什么药？这些地方是有答案的。如果仿照医生的CoT再来验证答案对不对，这样能使模型的功力大涨。因为医生，不是光看医学院的书，读完就会了。他在临床中一辈子可能看几万个病人，得到自己的提升。医生是在与病人的互动中得到提升的，很多数据被记录下来。所以，强化学习用来做医疗，是一个特别好的应用方法，能使医疗的可行性和质量得到很大提升。 **问：为什么你们当时做实验选择在诗词领域——一个文科领域，而没有选择像数学、编程这种理科领域？** 王小川：容易上手。做任何突破都有挑战，因为它本身文科就好，只是文科上的不足是诗词，所以用它来做验证，比在当时做数学和代码更容易上手做实验。 **问：Reward Model怎么设计？** 王小川：我们首先会有程序能够判定一首诗词的字数。比如词牌名大概100多个，每个词牌名的格式我们有数据分析。并且平仄——一声、二声、三声、四声，还有韵律、押韵，都可以用程序校验。我们当时就已经写了Reward Model，先有一个规则的判定，再把它泛化成一个模型——这个路线图比较接近o1的做法。但没有它做得更完整。o1特别好，有CoT的过程，我们当时不带CoT。 **问：今天看到o1以后，能复现出哪些技术路径，从中改进你们的做法？** 王小川：我们更强调CoT了，原来中间没有CoT这一步，直接从输入到答案。有了CoT之后——第一，我们做医疗的时候会找医生的思考路径，这样更快提升它的能力，就是有CoT的过程，而不只是完整的端到端；第二，有CoT之后泛化能力也会得到很大提升，只要思路对，答案就对。 **问：做了一年多强化学习，有没有积累更多关于强化学习的know-how？** 王小川：强化学习一部分是从环境中学到新东西，一部分我发现它会激活原有的一些能力。比如在写诗词时，我们让它学会了字数、平仄和韵律，结果大模型自己就把对仗输出了——本来还没教它学对仗呢。这说明，它潜藏着记忆和能力，可以激活出来。所以在强化里，一方面是面向未来的范式，一方面它跟以前的强化学习逻辑也不完全一样。 **问：但这几个月AI有点变冷，o1能够重振大家对于AI的信心吗？** 王小川：我不太关心外界环境，确实也听说外界在变冷，大家觉得比较迷茫，技术突破变慢，或者没找到应用场景。然而对于百川，一开始就明确了我们的应用场景是在知识领域里造顾问，尤其是造医生。场景很清晰，离结果更近了，而不是开辟新大陆。 **问：国内的公司现在达到GPT-4水平了吗？** 王小川：在接近吧。 **问：复刻o1的时间周期相比GPT-4怎样？** 王小川：会比做GPT-4快一些。难归难，但毕竟随着国内也好、美国也好，这么多开源项目产生，不管大厂还是创业公司进入，资本的充裕度和人才的集中度，已经比刚开始发布GPT-3.5或GPT-4之后市场的人才储备、资金储备多了很多。在一两个月时间里，有些接近他们的模型就会开始出现，会很快。 **问：你说的是国内还是国外？** 王小川：都有可能。GPT-4用了18个月，o1可能做到它那样也许9个月。起步有一个样子出来，可能1-2个月就有了。要达到一样的高度，需要花力气。 **问：关于o1，你有哪些想要知道但不知道的事？** 王小川：挺多不知道，比如它拥有多少算力，有多少领域专家。 **问：o1可见的上限是什么？** 王小川：我认为可能在未来两三年内，这个范式会跑出它的结果，跟GPT-3.5到GPT-4是一样的。剩下的就是代码可能会扮演更重要的角色——机器自己写代码，代码运行完了，生成一个神经元网络，甚至把神经元网络和它的模型再融合到一块去。我认为未来还有新的范式会产生。但那一步做完了，我觉得AGI就接近了。 **问：你们接下来准备怎么做？** 王小川：一方面美国领先的地方要跟进，另一方面坚定在医疗场景上突破。 **问：你说去年是为了赶上这个时代火车，一个快速rush的状态，今年呢？** 王小川：我们去年不敢大声提医疗，我讲“医疗是大模型皇冠上的明珠”，大家不太理解这个场景的可行性。大家会问商业模式、伦理问题。去年只造一个轮子，模型赶快入场。今年开始，我们开始真正的双轮驱动——“超级模型”+“超级应用”。而且是一个“水涨船高的应用”，不只是“沿途下蛋的模式”。 “水涨船高的应用”是什么意思？就是模型越大，我这个领域能做得更好；而不是模型大到一个阶段，就跟我领域没关系了。“沿途下蛋”的意思是，我下了个蛋，就放那，模型再好，你就下个新的蛋。这种情况下，蛋越来越多，自己就会被拖累。所以，先做个广告模型放那儿，再做个客服模型放到那儿——这种情况不叫水涨船高，随着模型变大就会被淹掉。而说到医疗，模型越大，这个行业可能存活率越大，这才叫水涨船高。 **问：也就是说，假设模型能力特别强以后，什么场景可以应用？** 王小川：对。但是，模型在一般场景下，我也能进入。模型越大，这个场景就越受益，可以找这样一个场景。 **问：进去以后等着呗？** 王小川：当然得努力工作了。等着也对，模型越好，这个场景就越受益。 **问：模型和应用两条腿，你现在对哪一条腿更满意？** 王小川：都在初始状态。未来这两个也有关系，你的场景越清楚，对模型要求越细化。 **问：在医疗场景，最终我们能看见的形态是什么？它好像不会是一个Super App，挺难想象的。** 王小川：以前是App，叫PMF（产品市场契合点），我去发现需求，去满足需求，去创造需求。这是以前的逻辑。我去年提了TPF（技术产品契合度），我们从需求驱动开始变成供给驱动——供给驱动就是这个需求已经现实存在，只是供给不足，我把它造出来，就有市场。我更多地强调技术和产品匹配度。大模型一个很大的逻辑是在“造人”，在造数字员工。因为它会语言，会思考，会沟通，而且学的是人类之前遗留下来的知识和经验，所以它不是在造计算器、造车这种逻辑——它是在造人。我们把造医生当成重点突破。如果从产品形态看，你就是造了一个能用的医生，前期是从全科、儿科入手，未来会走向专科医生，到最后走向生命的数学模型。这是下一个阶段，从智能模型走向生命模型，这是远期目标。在机器智能模型里，它像智能人一样，就是个医生。 **问：人类跟它的交互界面会是什么？** 王小川：靠自然语言的交互。有可能你是个App，有可能是医院里一个终端设备，但最后它的交互是靠语言进行的。语言或者视觉，跟人一样。 **问：在产品上，什么时候百川让大家看到一个大的突破？** 王小川：今年内吧。今年开始可能能接触到一点了，算是与人对话的。 **问：你上次说会造三个人，除了医生，另两个人你现在怎么想？** 王小川：更通用的顾问我们也会做。娱乐我们降低了。娱乐的目的是造虚拟世界，时间还没有到。所以我们现在可以等一等，先把通用的顾问和医生造出来。我们想的娱乐不是跟你聊天的一个东西，而是造一个能够去创造世界、一个叙事的故事。这里缺少足够多的数据和资源训练它。 **问：聊天机器人这个市场现在是一个红海，终局会是什么样？** 王小川：它是不是个市场都不知道，就别说叫红海市场了。 **问：大模型创业“六小龙”能活几家？** 王小川：至少活一家吧。 **问：怎么看字节和大模型创业公司的竞争？** 王小川：字节就是饱和式攻击。在一种共识里，字节会发展非常快。但一定有比他们更高的认知，他们看不到的东西，或者他们组织能力做不到的事，才会有创业公司生存的机会。走出大厂的射程——在这个射程内，你是没什么好活的。