深入探索大模型的未来趋势和行业共识。
下面总结几个关键方向:
1. Reasoning Model的突破,正在碘伏业界的传统认知。
2. System-2 Thinking已成为行业共识,并被逐步应用于大模型。
3. 从CEO的视角来看,大模型到底能如何帮企业实现增长。

说来也巧,去年12月我参与了一个相当硬核的黑客松,77张表、3000多个字段,简直是地狱级别。之后干脆闭关了一段时间。结果一出来,我发现Reasoning Model的飞速发展,几乎把业界对大模型的所有旧认知都翻了个底朝天。但回过头看,这种“恍如隔世”的感觉,其实更像是大模型早已被写好的剧本。14个月前,Andrej Karpathy在《Intro to Large Language Models》中描绘了大模型的愿景:
- 多模态;
- System-2 Thinking;
- RL + Self-Improvement;
- LLM OS;
- ……
后续的发展证明,虽然对AGI的定义仍然众说纷纭,但核心圈对“大模型应该长成什么样”,很可能早就达成了共识。
这个共识的核心其实很明确——System-2 Thinking。虽然多模态一度炙手可热,但行业的研发重心很快就回到了 thinking这杆大旗上。毕竟,“人类级别的智慧”并不是靠视频生成质量来衡量的。从OpenAI o1、到DeepSeek R1、再到OpenAI Deep Research,“Slower, but more Rational”成了新信条。过去半年里,大模型越来越擅长思考,而价格却越来越便宜(这一点真要感谢DeepSeek):
图1:加速发展中的System-2 Thinking
thinking的成功,让Sam Altman信心满满地宣布:“我们现在很确定,按照传统的理解,我们已经知道怎么构建AGI了。” 但一个关键的问题摆在我们面前:单靠 thinking,就真的能实现普适的“Human-Level”智慧吗?
CEO的选择题
假设你是一家公司的CEO,你问了两位首席战略官同一个问题:“我们明年营收怎么做到增长20%?”
首席A:他拿到问题后立刻闭关。经过一个多月的苦心思考、查阅无数资料,最终拿出了100页PPT和10万字的论证报告。
首席B:他先找你反复确认你的真实意图和判断。然后,基于你的观点,他组织了十几场内部(产品、销售、客户成功)和外部(客户、竞品)专家的调研访谈。他不断用外部的事实和洞察来校验、调整原有观点,同时持续寻求你的反馈,以确保方向一致。大约一个月后,他交付了1页极具说服力的执行摘要、10页以内逻辑完整的叙事线,以及30到50页详实的数据支撑。
如果只能留一个人,你会选谁?很显然,首席A的行事风格很像纯 thinking,而首席B则代表了真正“人类级别”的咨询顾问。
表1:首席A vs 首席B
A与B之间的差异,恰恰揭示了 thinking在现实商业场景中的致命缺陷。
思考的边界
沿着“Slower, but more Rational”的路线, thinking试图通过Chain of Thought,依靠自身知识库和精选的搜索结果来解决复杂问题。但这条路有两条过不去的坎:
坎一:数字化的边界。 和数学、编程不同,绝大多数商业场景并不存在一个能完美复刻现实世界并提供奖励函数的World Model。即使在未来,我们也无法指望商业场景中的所有关键要素都会被数字化。这些“暗数据”将是 thinking永远够不到的求解关键。
图2:重要的求解信息在 thinking的射程之外
举个2B市场的例子:海量的关键因素——客户的真实意图、竞争对手的情报、销售人员的直觉判断——可能永远不会被数字化。光靠CRM里的结构化数据和会议纪要, thinking根本猜不透客户的真实想法。
坎二:缺乏“厘清”能力。 人类是复杂的。当CEO嘴上说“明年营收怎么增长20%”,他实际想表达的很可能是“在现有客户群中,明年在不涨价的情况下怎么增长20%,而且这块业务不能碰张总负责的那部分生意”。一个优秀的咨询顾问(就像首席B)的核心技能之一,就是厘清干系人的真实意图,通过收敛问题范畴来找到最优解。而目前的 thinking,几乎没有任何这样的厘清机制。方向一旦跑偏,花30分钟生出来10万字的结论,可能根本满足不了最基本的需求。未来如果思考数小时、甚至数天,这个缺陷会被无限放大。
所以你看,即使核心圈宣布AGI已近在咫尺, thinking在真实商业场景中的无力感,会迫使厂商在纯 reasoning之外寻找新出路。当前最顺理成章的解决方案,就是让大模型学会提问——这就是
会提问,才是关键
其实,OpenAI已经在做类似的尝试。在响应用户要求之前,OpenAI Deep Research已经可以通过提问来收敛问题的范围。比如,当用户询问“民用超音速航空市场”的投资机会和风险时,Deep Research会反问:
- 时间范围有要求吗?有特定目标公司吗?
- 行业和具体市场是什么?限定数据来源吗?
- 有没有指定的技术路线?
- ……
图3: OpenAI Deep Research提出的厘清问题
不过,当前的机制还比较原始。问题提得有点随机,而且只发生在思考过程的最开始。理想中的
首先,它应当能够通过逐层提问来真正收敛问题。对用户意图的厘清工作,必须贯穿 thinking的全过程——这才是正道。
图4:
厘清也远不止是列举问题,绝大多数情况下,它是基于现有数据和分析的再次确认。
其次,它能通过提问来收集那些非数字化的洞察。这就像执行一场专家访谈,有目的地从“真实世界”的海量信息中,捞取 thinking求解所需的关键要素。更深一层,就像销售总监在季度业务复盘会上反复拷问销售那样,它还要能运用交叉验证、压力测试,甚至观察对方的表情和体态,来判断这些信息的真伪。
图5:通过
既然业界对Reasoning Model的期待,不止是客服或文字总结,而是要在真实商业场景中达到“人类级别”的智慧,那么 thinking之后,
- 基于现有的RL + Search机制,模型如何触发提问?或者干脆另起炉灶?
- 如何构建私有的问题解决框架?以及提问的最佳实践是什么?
- 如何让模型连续思考+提问数个月?
- ……
