AI正式进入推理时代到底意味着什么

时间：2026-07-01 16:11

AI正式进入推理时代，标志性模型o1通过推理时间计算实现从模仿到思考的转变。强化推理能力催生新型代理应用，推动AI从系统1快速匹配迈向系统2深度推理，形成新的扩展定律。应用层通过定制认知架构替代劳动力，创造服务即软件的新市场。

说实话，今年9月OpenAI发布的o1模型，算得上整个2024年最值得关注的一次模型更新。

AI正式进入推理时代，意味着什么？

这个模型的意义在于，它标志着AI的发展方向正在经历一次根本性的转向——从过去依赖大规模预训练带来的“快速思考”，切换到基于强化学习的“慢速思考”。换句话说，AI不再是单纯地“背答案”，而是开始学着“想问题”了。这种演化，很可能会催生出一大批全新的AI袋里应用。

这事儿要怎么理解，应该是眼下AI圈子里最受关注的话题了。前不久，红杉资本发了一篇文章，逐层拆解了AI转向推理能力开发背后的逻辑，以及接下来可能发生的变化。文章重点讨论了几个核心问题：模型强化推理能力，对AI行业的创业者到底意味着什么？对现有的软件公司影响有多大？作为投资者，哪些赛道更值得反赌？

01 让AI真正学会推理

前面提到的o1模型，内部代号Q*，也叫Strawberry，它最为关键的一个突破，是第一次让大模型具备了真正意义上的通用推理能力。这个能力的背后，靠的是“推理时间计算”。通俗点说，就是模型在给你答案之前，会多花点时间去“琢磨”一下。

过去，预训练模型的工作方式是海量数据喂下去，然后根据统计规律预测下一个词。这种方式很依赖训练阶段砸下去的时间和算力，但模型的推理能力其实非常有限。

而现在，通过推理时间计算，模型会在回应你之前“停下来思考”。这个“停下来思考”的过程，就是推理本身——它不再是机械地匹配，而是真正开始“想”了。

02 AlphaGo和大模型

那么问题来了：模型停下来的时候，到底在想什么？

要讲清楚这个，有必要回顾一下2016年3月在首尔发生的那场对局。AlphaGo对阵李世石，可以说是深度学习历史上最有标志性的时刻之一。那场比赛让人们意识到，AI不仅能模仿，还能思考。

和大模型一样，AlphaGo也经历了大量的预训练——它的数据库里装了大约3000万步人类棋谱和大量自我对弈的数据，用来模仿人类专家。但它不会像预训练模型那样给出一个“下意识”的落子，而是会花时间停下来思考。具体怎么做呢？在推理阶段，模型会在各种可能的未来局面中模拟搜索，给这些局面打分，然后选择那个预期分数最高的走法。AlphaGo思考的时间越长，表现就会越好。如果把推理时间压缩到零，它甚至赢不了最顶尖的人类棋手。但随着推理时间延长，它就越打越强，直到彻底超越人类。

回到大模型，要复制AlphaGo的成功并不容易。最大的难点在于，如何构建一个“价值函数”——或者说，给答案打分的函数。

下围棋这事相对简单：输赢是确定的，编程问题也一样。但你怎么给一篇文章打分？这就是为什么目前这种推理方式在编码、数学、科学这类偏逻辑的领域特别有效，但在写作这种开放式的领域就没那么强。

o1的关键思路，是围绕模型生成的“思维链”做强化学习。这其实已经很接近人类思考的方式了。比如，o1在被卡住的时候会知道“倒回去重来”——这是推理时间拉长之后才涌现出来的能力。它还能像人一样去思考问题，比如把球体上的点可视化来解决几何题，甚至能用人类未必会用的方式去解决编程竞赛中的问题。

现在研究团队正在不断强化模型的推理能力，尝试各种新思路来推动推理时间计算的发展，比如计算奖励函数的新方法、缩小生成器和验证器之间的差距。可以确定的是，深度强化学习又杀回来了，正在构建一个全新的推理层。

03 系统1与系统2有何不同？

从预训练驱动的本能反应（系统1），迈向更深层次、经过深思熟虑的推理（系统2），这是AI接下来要突破的方向。模型只靠“知道”是不够的，还得学会实时暂停、评估、推理和决策。

我们可以把预训练看作系统1。无论是AlphaGo下棋还是大模型预测文本，本质上都是一种模仿。模仿当然很强大，但它不等于真正的推理，尤其碰到复杂的新情况——特别是样本之外的情形——就抓瞎了。而这恰恰是系统2的强项，也是这波AI研究热点的核心。

当然，很多任务系统1就够用了。比如“不丹首都在哪”这种问题，想也想不出来，要么知道要么不知道，快速从记忆里匹配就是最好的方式。

但碰到数学或生物学上的突破性问题——那种需要深度思考、创造性解决问题的——快速的本能反应就没用了。这些进步，需要AI花更多时间，去进行更深入的思考。

04 新的扩展定律：推理竞赛已拉开帷幕

o1那篇论文里，有一个结论特别重要：诞生了一条新的扩展定律。

预训练LLM的扩展定律很好理解——数据和算力越多，模型表现越好。而o1的论文告诉我们，推理算力的扩展同样有效：给模型推理的时间越长，推理效果就越好。

想象一下，如果模型能思考数小时、数天甚至数十年，会发生什么？黎曼猜想能不能破？阿西莫夫《最后的问题》能不能给出答案？

这种变化，意味着我们将从大规模预训练集群的时代，走向一个“推理云”的世界——计算资源可以根据任务的复杂程度动态调配。

05 被证伪的两个预测

当OpenAI、Anthropic、Google和Meta这些巨头不断扩展推理层、造出越来越强的推理机器时，会发生什么？会有一个模型最终赢家通吃吗？

生成式AI市场刚兴起的时候，很多人预测，一家强大的模型公司将变得无所不能，甚至把应用层的机会也一并吃掉。现在回头看，这两个预测都站不住脚了。

先说模型层。竞争异常激烈，SOTA能力不断被刷新。有没有公司能通过广泛领域的自我博弈实现持续自我改进，目前还没看到确凿证据。但竞争的激烈程度是肉眼可见的：自OpenAI上一个开发者日以来，GPT-4的token价格已经跌了98%。

再说应用层。除了ChatGPT这个例外，大部分模型很难在应用层面形成真正的壁垒。

06 混乱的现实世界：定制认知架构

科学家规划并执行目标的方式，和软件工程师完全不同。甚至不同公司的软件工程师，工作方式也各不一样。

随着AI研究不断把模型推理能力的上限往上推，具体的应用落地依然是一个绕不开的课题。通用模型要真正落地到特定领域，远没有想象中顺利。

这时候就轮到“认知架构”出场了——通俗说就是你的系统如何去“思考”：接受用户输入、执行操作或生成响应的那套代码流程和模型交互设计。

以Factory公司为例，他们的每个“机器人”产品都有一套自定义的认知架构，专门用来模仿人类在特定任务上的思考方式。比如审查一个拉取请求、编写并执行迁移计划来更新后端服务。Factory的机器人会把所有依赖关系拆解开，提出相关的代码修改，补充单元测试，然后交给人类审查。批准通过后，会在开发环境里对所有文件执行一遍改动，所有测试通过就自动合并代码。整个过程和人类工作方式很像——分步骤完成，而不是直接给出一个黑盒答案。

07 应用层，或许是创业者的最佳选择

基础模型固然厉害，但缺点也同样明显。比如，大模型处理不了黑盒问题，幻觉也还没彻底解决。再比如，消费者面对一个强大的大模型时，经常不知道该问什么。这些问题，其实都是应用层的机会。

两年前，不少AI应用公司被嘲笑成“只是GPT-3上的一个包装器”。到今天，那些“包装器”已经被证明是构建持久价值最可靠的方式之一了。最初的“包装器”，已经进化成了“认知架构”。

应用层AI公司的价值，绝不只是给基础模型套了个UI。更重要的是，它们拥有复杂的认知架构——里面往往同时调用了多个基础模型，上面架着某种路由机制，还有用于RAG的向量数据库或图数据库、确保合规性的护栏，以及模仿人类思维方式的推理逻辑。

08 服务即软件

云计算的本质，是“软件即服务”，它把软件产业做成了一个价值3500亿美元的市场。

到了AI时代，一个类似的机会正在浮现。人工智能转型的本质，其实可以理解为“服务即软件”——AI公司用AI应用替代劳动力。这意味着，AI应用面对的可能是一个价值数万亿美元的服务市场。

劳动力替代具体是什么样子？Sierra是一个很好的例子。很多B2C公司会把Sierra（一家AI客服公司）的AI袋里放在自己网站上，直接和客户对话，解决问题，每完成一次服务拿到一笔报酬。这和传统软件按“席位”收费的模式截然不同。

这是不少AI公司追求的目标，但不是每个公司都能一步到位。一种新的模式正在出现：先以“副驾驶”的形式部署（人机协作），再逐步迭代到完全自动化。GitHub Copilot就是最典型的例子。

09 新一代袋里应用

随着生成式AI的推理能力越来越强，一种新类型的袋里应用正在涌现。这些应用层公司和云计算公司相比，画风完全不同：

云计算公司打的是软件利润的主意，AI公司盯的是服务利润。

云计算公司卖软件——按“席位”收费；AI公司卖工作——按“成果”收费。

云计算公司喜欢自下而上的传播、低摩擦的分销模式；AI公司则越来越多地走自上而下的路线，强调高接触、高信任的交付。

这些新型袋里应用正在知识经济的各个领域冒出来：

Harvey：AI律师
Glean：AI工作助理
Factory：AI软件工程师
Abridge：AI医疗文书记录员
XBOW：AI测试员
Sierra：AI客服

通过降低这些服务的边际成本，袋里应用正在不断扩展，甚至创造了全新的市场。

以XBOW为例，这家公司正在做AI“渗透测试员”。渗透测试就是对公司系统进行模拟网络攻击，过去因为人工测试成本太高，企业只能在特殊情况下才请人来测。而XBOW用基于最新推理LLM构建的自动化渗透测试，效果已经可以和最顶尖的人工渗透测试员相媲美。这不仅扩大了渗透测试的市场规模，也让各种规模的公司都有了持续进行渗透测试的可能。

10 这对SaaS世界意味着什么？

很多人都在关心一个问题：人工智能转型，会不会把SaaS公司连锅端了？

过去，因为AI能力绝大部分都来自模型层，很多人认为老牌SaaS公司背靠数据和分销优势，会笑到最后。初创公司的机会主要不是去挑战老牌软件公司，而是去追逐那些可以被自动化的市场空间。

但现在，这个判断不那么确定了。因为把模型能力转化成端到端的业务解决方案，需要投入大量工程资源。那么问题来了：AI企业会不会最终取代软件？Day.ai这个案例就很能说明一些东西。

Day是一款AI原生的CRM系统。过去，很多系统集成商通过配置Salesforce来满足客户需求，赚了不少钱。而Day只需要访问你的邮件和日历，再加上回答一页问卷，就能自动生成一个完全契合你业务的CRM。就凭这一点，就已经吸引了不少客户。

11 投资人应该投什么？

最后说说投资视角。作为投资者，AI产业怎么投？不妨看看目前的局面。

基础设施：这已经是巨头的竞技场，更多是战略博弈选择，不完全是经济利益驱动。对VC来说绝对算不上好选择。

模型：这是巨头和金融投资者的地盘。巨头拿资产负债表去换损益表，砸下去的钱通过计算收入回流到自己的云业务里。金融投资者则热衷于讲AI的宏大叙事。模型团队确实很强，但从微观经济学的角度确实很难看懂。

开发工具和基础设施软件：对战略投资者价值不大，反倒更适合VC参与。当年云转型的时候，这个领域跑出了15家年收入超过10亿美元的公司，AI时代也很可能复刻这个路径。

应用程序：这应该是VC最值得参与的方向。云计算转型期间，大约有20家应用层公司成立，年收入突破10亿美元。移动互联网时代也有大约20家。AI时代，大概率也差不多。

12 结束语

在生成式AI的下一个阶段，可以预见的是，推理方向的研发力量会逐步渗透到应用层，AI袋里会变得更强大、更复杂。

回到研发层面，推理和推理时间计算在可预见的未来仍会是核心驱动因素。这是下一场AI竞赛的主题。但需要警惕的是，在特定领域，收集真实世界数据来构建认知依然困难重重。正因如此，那些能把AI落地的“最后一公里”走通的公司，将会拥有巨大的价值。

展望未来，像Factory的机器人那样的多智能体系统，可能会迎来更大的发展空间。当我们真的模拟出了感知、推理和行动这一整套流程，用这样的方式去探索AI的可能性——说不定，这就是通往AGI的正确道路。

来源：https://www.aiagiai.com/4961.html

上一篇Runway手机AI工具一键生成电影级动画 下一篇UCL博士生创业一年打造最强AI ML工程师获OpenAI认证

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。