游乐游手机版
首页/AI教程/文章详情

王小川称国内大模型九个月可达OpenAI o1水平

时间:2026-07-03 15:36
o1不代表范式转弯,而是范式升级 2024年9月,OpenAI预热已久的“Strawberry”(草莓)项目终于落地。这一次,它跳出了GPT系列的命名惯例,直接取名为o1模型。业界普遍认为,这标志着AGI范式的一次重大升级,甚至是一次方向性的转移。 在语言模型预训练所依赖的Scaling Law
# o1不代表范式转弯,而是范式升级

2024年9月,OpenAI预热已久的“Strawberry”(草莓)项目终于落地。这一次,它跳出了GPT系列的命名惯例,直接取名为o1模型。业界普遍认为,这标志着AGI范式的一次重大升级,甚至是一次方向性的转移。 在语言模型预训练所依赖的Scaling Law逐渐触及天花板之后,包括OpenAI在内的多家硅谷明星公司,已经把资源重心押注在一条新路径上:强化学习。o1的发布,让以强化学习为核心的后训练技术,被推到了聚光灯的中央。 百川智能创始人兼CEO王小川很早就开始在公开场合谈论强化学习。他曾说过,大模型代表的是“快思考”,它叫“学”;强化学习是“慢思考”,叫“思”。这两个系统,最终会走向融合。 在o1发布后,王小川第一时间接受了访谈,分享了他对o1和强化学习的核心判断: 1. o1不代表范式转弯,而是范式升级——OpenAI摸到了一条从快思考走向慢思考的道路; 2. o1的关键在于两点:从以语言为核心走向思维链(CoT),以及把思考过程和给出结果分两阶段运行,从而增强泛化能力; 3. 除了数学和代码,AI医生是强化学习可以大有作为的领域; 4. 他还做了一个预言:代码会成为大模型下一步的核心能力。大模型通过写代码解决更多问题,甚至完成自身的思考过程,未来几年将从强化学习范式走向“写代码解决问题”的新范式。 以下为王小川的访谈节选。 ## 1 o1摸到了一条从快思考走向慢思考的道路 **问:关于OpenAI做强化学习的经过,你了解哪些事实?** 王小川:之前Sam Altman被“宫斗”下课的时候,我理解那并不是狗血剧。 OpenAI的董事会成员既聪明、也挺正直,不会犯傻。有些人要么蠢,要么坏。但这些人既不蠢,也不坏。纷争背后,一定有某些外界没发现的事。 在那之前一周,我听到他们一个核心人物传出来的消息:Noam Brown,之前是DeepMind做强化的专家,加入了OpenAI,并且跟朋友透露,他们有一些突破性进展了。一周后,Sam Altman就出了事。 前后其实是两件事。第一件事,他被“宫斗”,一定是技术层面有外界没看到的东西在内部引发质疑——Sam Altman比较激进,对安全性认识不足,把安全重要性放在了技术突破后面。有些突破性的技术可能不安全,但他有点无所谓,想尽快推进。而恰恰Noam说他们有技术突破,而且Noam代表的是强化学习。 两件事放在一起,去年底我们就能推断出:OpenAI的强化学习,确实有突破了。 **问:今年初OpenAI发布Sora,你们的技术同事想跟进,被你摁住了。这次o1呢?** 王小川:这个技术范式的核心是语言模型,然后走向强化学习——这是智能提升的两个阶段。 做Sora的时候,它既不是语言学习,也不是强化学习,不在提升智能的方向里,而是另一个独立的产品。所以做Sora,从技术上并不代表智能的提升,场景上也不是百川所追求的。我当时认为,有同事这么想,属于“技术没想明白,场景也没想明白”。 去年4月百川下场的时候,我们就在强调强化学习,以及强调多模态不是智能提升的方向。 我们说大模型是“读万卷书”,强化学习是“行万&里路”。大模型本身叫“学而不思则罔”,它读了很多书,但内心偏混乱。而单独强化学习有一个典型代表——AlphaGo。我相信AlphaGo是对人工智能的启蒙,它是强化学习,特别是自我博弈的典型代表。这个技术,之前DeepMind一直沿着这条路走,但走到后来发现它叫“思而不学则殆”,停在一个问题里面走不出来了。 所以,这两个技术都有自己的局限性。 在人工智能发展史上,DeepMind有过很多成果,像AlphaGo、AlphaZero,甚至一点数据都不用。但不幸的是,OpenAI从语言里面把通用智能往前推了一步——用学习的方法,用思考的方法。这两种技术,早晚会合璧。 **问:有评论说“相比GPT-4o,o1模型向前迈了一步,却又退了两步”,你怎么看?** 王小川:我不认为它叫进一步、退两步,也不叫转弯,就是范式升级了。 快思考是慢思考诞生的一个过程。先要有快思考,才能有慢思考,它不是转弯。而是——怎么用大模型的快思考,之后让它学会慢思考,这是一个进阶。 我沿用DIKW模型来说——DIKW指的是从Data到Information,再到Knowledge,最后到Wisdom,四步走。之前的搜索停留在Information这层,帮你获得信息。到了大模型LLM阶段,就到了Knowledge这层,它有知识、有沟通、有快思考。而今天有了慢思考,它已经从Knowledge进化到了有Wisdom的雏形,真的开始有智能了。 所以这是范式升级——把原来的模型作为组件之一,不只是用强化学习服务于大模型。大模型是它的一个组件了,这是一个大的跨越。 总结来说,既不是转弯,也不是进退,而是摸到了一条走向慢思考的道路。 **问:为什么我们需要一个能慢思考的AI?它能帮我们解决哪些事?** 王小川:智能本身一定是思考的过程。无人驾驶做端到端,在端到端里面也需要一步一步去想。就像我们做几何定理证明题,求解一定得有思路。当你有思考过程,就是一个慢思考。所以,智能本身需要多步思考。 大多数比较复杂一点的问题,不管是代码、数据、逻辑,还是日常要解决的事,都得分步骤解析,而不是一拍脑袋就能有快思考的结果。 除了文学写作,可以用快思考写诗,一鼓作气做完;大多数时候需要多步,需要慢思考。 **问:o1隐藏了思维过程,甚至有人破解o1的思维链会被警告封号,OpenAI为什么这么做?** 王小川:之前做大模型,各家用它的数据做蒸馏,能迅速接近它。OpenAI毕竟是一家商业公司,不是公益型公司。一旦公开,别人不仅会仿效它的逻辑,更容易争夺它的数据——不仅破解它的算法,还包括它的数据获取。 这会让其他公司进步变得很快。也说明,这个技术本身的独有性是有限的。 所以,封锁是一个竞争策略。 ## 2 从以语言为核心走向思维链,分两阶段运行增加泛化性——这两句把强化学习的精髓讲完了 **问:我们应该怎么看待o1,是一个过渡性的产品形态吗?** 王小川:o1有点像当年GPT-3的发布——离最后GPT-3.5和GPT-4的突破性还有距离。但GPT-3发布时,在业内就已经很震撼了。 **问:我前几天和一个前OpenAI研究员(边塞科技创始人、清华叉院信息研究院助理教授吴翼)聊,他的研究方向是强化学习。他说,现在相当于从阶段一进入到阶段二。之前pre-training能挖的金矿越来越少,大家意识到以强化学习为基础的post-training是第二个大金矿,这让迈向AGI的梯子多了几节。** 王小川:这个理解完全一样。 **问:在你看来,OpenAI o1应该关注哪些要点?** 王小川:第一,它坚持以语言为中心,又叫语言中轴。 之前大家多少觉得多模态是智能。但你看OpenAI,多模态帮助不大,现在还是语言为核心,甚至更进一步——从语言为核心走向CoT(思维链),更强调思维链了。语言在中间承载思考时,变成一个多步的思考过程。 第二,它把思考过程和给出结果,分成了两个步骤。这样对思考过程能够更好地进行泛化。 比如解数学题,你可能是学会一个思路,就能解好多题。所以它不是在追求这个题解对的结果,而是追求解题过程是对的。分成两个阶段之后,能把CoT变成一种能泛化的能力——从解一个数学题,到解更多题,甚至提升其他领域的共性能力。 所以,核心关注语言为核心的CoT,以及分两阶段运行能增加泛化性——这两句话信息量很大,已经把强化学习的精髓讲完了。 **问:能不能介绍一下“强化学习”这个概念?** 王小川:强化学习跟之前监督学习的区别是:监督学习是你要告诉它解题过程是什么,它依葫芦画瓢;强化学习是不告诉它过程,只是判断你做得对不对。 就像教小孩。你告诉他“一二三怎么做”,他可能学得快,但并没有“知其所以然”。但如果他做对了,你说“对”;做错了,你说“错”,这个小孩就得自己花心思找方法。这就是强化学习跟监督学习的本质区别。 大模型为什么特别强调强化学习呢?大模型本质是把全天下最优质的语言拿来训练,我们说是“一个压缩的过程”。压缩过程是在原有数据“分布内”的一种智能,它的思考能力不会超过你原始数据。 但单看智能,它是跳出原来的框架去想事。数学上叫“分布外”,大模型叫“分布内”——就是在探索以前未知的事。所以这个时候需要创造环境,让在这个环境互动中,环境的反馈能给原来数据语言之外的内容,能提升你的解题能力或智力。 从“分布内”走向“分布外”,这是智力必须的过程。所以用强化学习,就变成了必须的事。 **问:这里面包含哪些关键技术原理,复刻它难吗?** 王小川:有很多数据和工程问题要做。复刻它本身,如果蒸馏会变得很简单;但真正复刻起来,对算力、对专家来标注这个系统,都还是有蛮多挑战的。 比复刻GPT-4会变得更难一些。 **问:还是需要专家、需要人工?** 王小川:我觉得需要,也需要人教它。 **问:Self-play RL(自博弈强化学习)能让人工更少吗?** 王小川:肯定会。计算机领域有句话是这么说的:求解一个问题比验证一个问题更难。找问题答案比判断答案对不对更难。 你走迷宫,找到那条出路是难的,但要验证这个迷宫走得对不对、有没有撞墙,是简单的。或者做几何定理证明题,求解难,但找到求解过程后,让另一个人验证求解过程有没有bug,是简单的。 我们很愿意用强化学习,其中重要的是:我并不知道怎么解这个题,但我能验证你解得对不对。这种情况下,整个系统的能力能得到很大提升,也降低了标注数据的难度。同等标注难度下,它能解更复杂的题目——这是中间的核心逻辑。 **问:强化学习能实现泛化性吗?它能够带来通用智力水平的提升吗?** 王小川:强化学习之前的泛化性是不好的。AlphaGo之前就做得不好。 今天OpenAI基于这两件事,把强化学习做得挺好。第一,它局限在数学、代码这两个局部领域,但取得了足够大的突破。也说明这两个领域里有足够好的数据来验证它——比如数学题做得对不对?一个程序是否能编译通过?运行完了跟你想要的结果一不一样?在没有泛化性和绝对答案的情况下,它做得特别好。 第二,它的泛化性来自于把CoT和后面的执行过程分开了。就像之前训练代码之后,整个系统逻辑能力提升了一样。之前GPT-3.5两个版本合在一起之后,逻辑性提升就来自于代码的学习。现在也一样,其他场景的泛化性来自于对数学和代码的CoT掌握得更好了,这个CoT能泛化到其他思考环节去。 **问:之前大家对GPT-4有一个诟病是数理能力比较差,o1变成了数学、编程方面的偏才,未来会出现更多专注于特定领域的模型吗?** 王小川:我不觉得它是偏才,现在就是一个“文科也不错、理科一下子变得特别强”的模型。 至少OpenAI代表的路线图是通用的道路,会逐步把这样一个领域拓展开来。并不代表以OpenAI自己积累的数据闭环就能做到全知全能。在各个领域使用的时候,专业领域的数据会扮演很重要的角色。 **问:做一个o1需要多少算力、数据,有没有一个预估?** 王小川:可能跟做个GPT-4差不多。 **问:o1 + GPT-4o会出现什么?** 王小川:不需要合并。现在叫o1,已经版本重置了。 合并本身不难,即便包含不了,分两个调用也行。 **问:o1只是新范式的第一步,之后它会怎么演变?** 王小川:它的算力继续增加、训练效率提升,以及如何在领域数据中更好地使用,还有大量可挖掘的内容。 往下有几个事可能会发生:第一,领域的更好的泛化能力——找到范式把领域知识做起来,是一个要突破的事。 第二,再往下,我可以做个预言:未来代码会扮演更重要的角色。 以前代码是帮助提高逻辑能力,或者帮助程序员辅助写代码。我认为未来代码会变成大模型下一步的核心能力。 也就是说,大模型通过写代码能够去解决更多的问题,解决自身的思考过程,从强化学习范式还会走向“写代码来解决问题”这个新范式——这在未来几年内会实现。 ## 3 走出大厂射程,大模型“六小龙”至少能活一家 **问:百川在强化学习这条路上是怎么做的?** 王小川:百川一直挺重视强化学习,去年就成立了这样一个团队。OpenAI是走在我们前面,这个得承认。 我们在Baichuan3发布时做了一个实验,用强化学习训练诗词。做强化学习之前要靠金标准——在能绝对判断对错的地方训练,所以通常要做理科任务,数学、代码是可以做的。文科上没有对错判断的标准,写得好不好挺难让机器校对。所以我们想在文科里是否也有一个Reward Model(奖励模型),于是想到了唐诗和宋词。 尤其是宋词,大家写起来比较难,它的字数、平仄、韵律、对仗有很多要求。但要求反而是一种规则。当时我们在训练模型的时候,不是让机器仿照人这么写诗词,而是让机器写诗词之后,我们用一个程序模型来判断诗词写得是否符合字数、平仄、韵律和对仗。预训练时就做了这样一个实验,取得了不错的效果,代表我们在这方面之前就有积累和思考。 再往下,除了数学和代码以外,我们认为医生是蛮好的可以用强化学习提升的领域。医疗在很多问题上是有标准答案的。比如一个病人,综合症状他到底有什么病?或者该做什么检验、检查,该开什么药?这些地方是有答案的。 如果仿照医生的CoT再来验证答案对不对,这样能使模型的功力大涨。因为医生,不是光看医学院的书,读完就会了。他在临床中一辈子可能看几万个病人,得到自己的提升。医生是在与病人的互动中得到提升的,很多数据被记录下来。 所以,强化学习用来做医疗,是一个特别好的应用方法,能使医疗的可行性和质量得到很大提升。 **问:为什么你们当时做实验选择在诗词领域——一个文科领域,而没有选择像数学、编程这种理科领域?** 王小川:容易上手。 做任何突破都有挑战,因为它本身文科就好,只是文科上的不足是诗词,所以用它来做验证,比在当时做数学和代码更容易上手做实验。 **问:Reward Model怎么设计?** 王小川:我们首先会有程序能够判定一首诗词的字数。比如词牌名大概100多个,每个词牌名的格式我们有数据分析。并且平仄——一声、二声、三声、四声,还有韵律、押韵,都可以用程序校验。我们当时就已经写了Reward Model,先有一个规则的判定,再把它泛化成一个模型——这个路线图比较接近o1的做法。 但没有它做得更完整。o1特别好,有CoT的过程,我们当时不带CoT。 **问:今天看到o1以后,能复现出哪些技术路径,从中改进你们的做法?** 王小川:我们更强调CoT了,原来中间没有CoT这一步,直接从输入到答案。 有了CoT之后——第一,我们做医疗的时候会找医生的思考路径,这样更快提升它的能力,就是有CoT的过程,而不只是完整的端到端;第二,有CoT之后泛化能力也会得到很大提升,只要思路对,答案就对。 **问:做了一年多强化学习,有没有积累更多关于强化学习的know-how?** 王小川:强化学习一部分是从环境中学到新东西,一部分我发现它会激活原有的一些能力。比如在写诗词时,我们让它学会了字数、平仄和韵律,结果大模型自己就把对仗输出了——本来还没教它学对仗呢。 这说明,它潜藏着记忆和能力,可以激活出来。所以在强化里,一方面是面向未来的范式,一方面它跟以前的强化学习逻辑也不完全一样。 **问:但这几个月AI有点变冷,o1能够重振大家对于AI的信心吗?** 王小川:我不太关心外界环境,确实也听说外界在变冷,大家觉得比较迷茫,技术突破变慢,或者没找到应用场景。 然而对于百川,一开始就明确了我们的应用场景是在知识领域里造顾问,尤其是造医生。场景很清晰,离结果更近了,而不是开辟新大陆。 **问:国内的公司现在达到GPT-4水平了吗?** 王小川:在接近吧。 **问:复刻o1的时间周期相比GPT-4怎样?** 王小川:会比做GPT-4快一些。难归难,但毕竟随着国内也好、美国也好,这么多开源项目产生,不管大厂还是创业公司进入,资本的充裕度和人才的集中度,已经比刚开始发布GPT-3.5或GPT-4之后市场的人才储备、资金储备多了很多。 在一两个月时间里,有些接近他们的模型就会开始出现,会很快。 **问:你说的是国内还是国外?** 王小川:都有可能。GPT-4用了18个月,o1可能做到它那样也许9个月。起步有一个样子出来,可能1-2个月就有了。要达到一样的高度,需要花力气。 **问:关于o1,你有哪些想要知道但不知道的事?** 王小川:挺多不知道,比如它拥有多少算力,有多少领域专家。 **问:o1可见的上限是什么?** 王小川:我认为可能在未来两三年内,这个范式会跑出它的结果,跟GPT-3.5到GPT-4是一样的。 剩下的就是代码可能会扮演更重要的角色——机器自己写代码,代码运行完了,生成一个神经元网络,甚至把神经元网络和它的模型再融合到一块去。 我认为未来还有新的范式会产生。 但那一步做完了,我觉得AGI就接近了。 **问:你们接下来准备怎么做?** 王小川:一方面美国领先的地方要跟进,另一方面坚定在医疗场景上突破。 **问:你说去年是为了赶上这个时代火车,一个快速rush的状态,今年呢?** 王小川:我们去年不敢大声提医疗,我讲“医疗是大模型皇冠上的明珠”,大家不太理解这个场景的可行性。大家会问商业模式、伦理问题。 去年只造一个轮子,模型赶快入场。今年开始,我们开始真正的双轮驱动——“超级模型”+“超级应用”。而且是一个“水涨船高的应用”,不只是“沿途下蛋的模式”。 “水涨船高的应用”是什么意思?就是模型越大,我这个领域能做得更好;而不是模型大到一个阶段,就跟我领域没关系了。“沿途下蛋”的意思是,我下了个蛋,就放那,模型再好,你就下个新的蛋。这种情况下,蛋越来越多,自己就会被拖累。 所以,先做个广告模型放那儿,再做个客服模型放到那儿——这种情况不叫水涨船高,随着模型变大就会被淹掉。而说到医疗,模型越大,这个行业可能存活率越大,这才叫水涨船高。 **问:也就是说,假设模型能力特别强以后,什么场景可以应用?** 王小川:对。但是,模型在一般场景下,我也能进入。模型越大,这个场景就越受益,可以找这样一个场景。 **问:进去以后等着呗?** 王小川:当然得努力工作了。 等着也对,模型越好,这个场景就越受益。 **问:模型和应用两条腿,你现在对哪一条腿更满意?** 王小川:都在初始状态。 未来这两个也有关系,你的场景越清楚,对模型要求越细化。 **问:在医疗场景,最终我们能看见的形态是什么?它好像不会是一个Super App,挺难想象的。** 王小川:以前是App,叫PMF(产品市场契合点),我去发现需求,去满足需求,去创造需求。这是以前的逻辑。我去年提了TPF(技术产品契合度),我们从需求驱动开始变成供给驱动——供给驱动就是这个需求已经现实存在,只是供给不足,我把它造出来,就有市场。我更多地强调技术和产品匹配度。 大模型一个很大的逻辑是在“造人”,在造数字员工。因为它会语言,会思考,会沟通,而且学的是人类之前遗留下来的知识和经验,所以它不是在造计算器、造车这种逻辑——它是在造人。我们把造医生当成重点突破。 如果从产品形态看,你就是造了一个能用的医生,前期是从全科、儿科入手,未来会走向专科医生,到最后走向生命的数学模型。这是下一个阶段,从智能模型走向生命模型,这是远期目标。在机器智能模型里,它像智能人一样,就是个医生。 **问:人类跟它的交互界面会是什么?** 王小川:靠自然语言的交互。 有可能你是个App,有可能是医院里一个终端设备,但最后它的交互是靠语言进行的。语言或者视觉,跟人一样。 **问:在产品上,什么时候百川让大家看到一个大的突破?** 王小川:今年内吧。今年开始可能能接触到一点了,算是与人对话的。 **问:你上次说会造三个人,除了医生,另两个人你现在怎么想?** 王小川:更通用的顾问我们也会做。 娱乐我们降低了。娱乐的目的是造虚拟世界,时间还没有到。所以我们现在可以等一等,先把通用的顾问和医生造出来。 我们想的娱乐不是跟你聊天的一个东西,而是造一个能够去创造世界、一个叙事的故事。这里缺少足够多的数据和资源训练它。 **问:聊天机器人这个市场现在是一个红海,终局会是什么样?** 王小川:它是不是个市场都不知道,就别说叫红海市场了。 **问:大模型创业“六小龙”能活几家?** 王小川:至少活一家吧。 **问:怎么看字节和大模型创业公司的竞争?** 王小川:字节就是饱和式攻击。在一种共识里,字节会发展非常快。但一定有比他们更高的认知,他们看不到的东西,或者他们组织能力做不到的事,才会有创业公司生存的机会。 走出大厂的射程——在这个射程内,你是没什么好活的。
来源:https://www.aiagiai.com/4089.html
上一篇Notion用户破亿年入18亿,AI笔记成创业新共识? 下一篇腾讯确认小五机器人出道 护工行业或被整顿
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
批处理BAT入门教程第一篇
AI教程 · 2026-07-03

批处理BAT入门教程第一篇

提供13个批处理实战技巧,覆盖全盘查找并删除文件夹或文件、拷贝移动文件、创建畸形文件夹及设置隐藏属性等场景,可一键完成系统维护与文件管理工作,极大提升自动化操作效率和便捷性。

从零开始批处理命令For循环详解与实战案例
AI教程 · 2026-07-03

从零开始批处理命令For循环详解与实战案例

批处理For命令支持 d、 l、 r、 f四个参数。 d仅列出当前目录下的目录名; r递归搜索指定路径及其子目录中的文件; l生成数值序列; f可解析文件、字符串或命令输出,通过delims、tokens、skip、eol等选项灵活处理内容。

批评你的人是你生命中的贵人
AI教程 · 2026-07-03

批评你的人是你生命中的贵人

批评你的人往往最值得珍惜,因为他们关注你、助你成长。面对批评应包容反思,用行动改进而非辩解。接受批评是自我完善的过程,能让人少走弯路,避免重复犯错。这样的人正是生命中的贵人,值得感恩与珍惜。

测试人员角色定位与职责详解
AI教程 · 2026-07-03

测试人员角色定位与职责详解

测试人员角色经历了从找问题、保证质量到分析风险的转变,最终核心职责是提供关键信息,协助团队创造优秀产品。这包括识别问题、评估风险及帮助团队了解项目状态,而非单纯把关或追求完美。

经营成功测试生涯的实用方法与策略
AI教程 · 2026-07-03

经营成功测试生涯的实用方法与策略

一、测试生涯的起点 1989年,我在田纳西大学攻读研究生时,意外地从软件开发人员转行成为一名软件测试工程师。这并非我主动选择,说起来还有些戏剧性——某个早晨,教授质问我为何缺席那么多开发会议,我解释说这些会议总是安排在周末早上,对我这个第一次离家、刚入学的学生来说实在不便。结果呢?等待我的不是解聘通