唐杰谈AI进化关键一步从工具到劳动力的跨越

时间：2026-05-15 15:48

黄仁勋登上特朗普的空军一号那天，智谱的股价暴涨了36 9%，收盘价定格在1150港元，创下了历史新高。如果从今年1月8日上市时的发行价116 20港元算起，这家公司的市值在短短四个多月里，翻了整整九倍。就在这场资本狂欢的前夜，智谱的创始人唐杰在社交平台X上发布了一条深夜推文，深入阐述了他对整个A

黄仁勋登上特朗普的空军一号那天，智谱的股价暴涨了36.9%，收盘价定格在1150港元，创下了历史新高。

如果从今年1月8日上市时的发行价116.20港元算起，这家公司的市值在短短四个多月里，翻了整整九倍。

就在这场资本狂欢的前夜，智谱的创始人唐杰在社交平台X上发布了一条深夜推文，深入阐述了他对整个AI产业未来走向的思考。

这条推文的核心，聚焦在一个概念上：“长周期任务”。

需要澄清一下，英文原文“Long-Horizon Tasks”直译是“长视野”，但在AI的语境里，它特指那些需要跨越较长时间、经历多个步骤、处理大量中间状态才能完成的复杂任务。

唐杰的判断很明确：2026年AI领域最可能的突破点，或许不在于模型变得多么“聪明”，而在于它能否持续、自主地完成这类复杂、多步骤的工作。

在他看来，一旦模型具备了持续规划、试错、判断并交付结果的能力，其冲击的将远不止是程序员的效率。它撼动的，将是人类整个执行层的工作方式。

过去，AI帮人写几句话、生成一段代码，我们还能将其定位为“工具”。但当AI可以连续数天自己干活、自己做判断、自己交付最终成果时，它要替代的就不只是某个具体岗位了，而可能是重塑整个行业的运作逻辑。

01 长周期任务是什么？

过去两年，业界评价一个大模型的好坏，标准相对单一：主要看它在单次对话中的表现。回答是否精准、逻辑是否自洽、语言是否流畅自然。

这本质上是在测试模型的“智力”。但长周期任务考验的，恰恰不是智力，而是“执行力”。

这类任务目标明确，但实现路径充满不确定性，需要模型能持续数小时、数天甚至数周地推进工作。

唐杰在推文中举了一个生动的例子：黑客进行漏洞挖掘。这堪称长周期任务的典型。它需要阅读海量代码、理解复杂的系统架构、搭建测试环境、构造攻击输入、验证漏洞有效性，最后还要撰写详尽的技术报告。

整个过程充满了试错，因为没有标准答案可循，很大程度上依赖经验和直觉。

你不可能读一遍代码就找到所有漏洞，必须反复尝试不同的攻击路径，在每次失败后调整策略，在每次成功后验证其可靠性。

如果AI能在这种高度对抗性、极度依赖经验的领域站稳脚跟，那么它对普通程序员、数据分析师、法务助理等职业的冲击，只会更加猛烈。

因为这些职业的任务虽然也复杂，但对抗性更弱，对经验的依赖度相对更低，反而更容易被系统化的流程所覆盖。

一个关键的转变正在发生：衡量AI能力的标尺，正从“对话与答案的质量”，转向“完成长周期任务的能力”。

可以想象这样一个场景：一个模型可能在单次问答中表现完美，但在需要持续工作8小时的任务中，却频频出错、丢失上下文、重复无效操作。

而另一个模型，或许单次回答不够惊艳，却能稳定地推进任务，记住每一步的中间结果，在遇到障碍时自动切换路径。

那么，在长周期任务的战场上，后者的价值将远高于前者。

这让人联想到腾讯姚顺雨曾提出的一个观点：今天的模型太依赖预训练中学到的“参数化知识”，而真实世界更需要的是能从当前上下文（Context）中实时学习并应用的模型。

当模型真正开始跑任务时，它需要查文档、跑代码、测接口、读日志、调参数。一个能熟练调用这些外部工具的模型，远比一个仅仅记住了所有API文档但不会实际操作的模型有用得多。

此外，传统模型过于“被动”。它必须等待人类发出明确的指令才能执行，且每次指令通常只对应一步操作。

但在长周期任务里，情况完全不同。给定一个最终目标后，模型需要自主进行规划和执行。

被动响应只需要理解当前的问题；主动推进则需要理解整个任务的结构、自己所处的阶段、下一步该做什么、以及如果失败了该如何调整。这要求模型具备某种“任务感”，清楚地知道自己在做什么、为什么这样做、以及进展到了哪一步。

当模型具备了这些能力，AI就开始进入“结果交付”的新阶段。

企业和个人将不再满足于“AI帮我写了一段代码”，而是期待“AI帮我完成了整个功能模块的开发、测试和部署”。

这本质上是从“助手”到“承包商”的跨越。助手需要你告诉它每一步具体做什么；承包商只需要你告诉它最终要什么结果。

长周期任务的概念在学术界并非新鲜事物，强化学习、任务规划、多步推理等领域早已有深入研究。

那么，为什么唐杰认为它在今年变得触手可及？关键在于以下几项技术的突破性进展。

首当其冲的是“记忆”能力。

百万级上下文窗口和RAG（检索增强生成）技术的成熟，让模型能够在长时间任务中，持续保持对项目背景、历史尝试和用户偏好的记忆。

例如，Claude Opus 4.7支持100万token的上下文，智谱自家的GLM-5.1也支持20万token。这意味着模型可以在一个会话中记住数十万字的代码、文档和对话历史。它不会因为任务太长而忘记最初的目标，不会重复已经尝试过的失败方案，也不会丢失中间步骤的关键信息。

其次是“持续学习”的加速。

虽然真正意义上的持续学习（在不遗忘旧知识的情况下学习新知识）仍然困难，但模型更新的周期正在急剧缩短。全球领先的模型已经能做到月度更新，国内模型也紧随其后。如果明年能实现周度更新，那么在效果上就无限接近于持续学习。

模型不需要在训练时就学会所有知识，它只需要能快速吸收新工具、新API、新业务规则。当更新周期足够短，模型就能跟上现实世界的变化速度。

第三点是“自我判断与进化”。

唐杰推测，像Claude这样的模型可能已经实现了基础的自训练能力。模型可以自己写代码、清洗数据、生成合成数据，然后用这些数据来训练自己。例如，GPT-5.5就在利用模型生成的代码和测试用例来改进自身的编程能力。

模型开始知道自己的答案是否靠谱，知道什么时候该重试、求证或回滚。这种能力在长周期任务中至关重要，因为不可能有人在一旁监督每一步操作，模型必须自行判断当前方案是否可行、是否需要调整、以及是否已经达到目标。

当然，这条路径也伴随着显著的风险。自我进化意味着人类对模型训练过程的控制力在下降。当模型开始自己生成训练数据、自己评估训练效果时，我们如何确保它不会偏离人类的价值观？人类在其中的价值又该如何定义？

唐杰的判断是，这些能力很可能通过精巧的工程化“技巧”来实现。这意味着进展速度会比纯学术界预期的快得多，因为工程化的迭代周期远短于基础技术的创新周期。

你不需要推翻现有架构，只需要在之上做更好的提示词工程、更精细的强化学习、更可靠的工具集成。智谱的GLM-5.1在SWE-Bench Pro基准测试上达到58.4%，超过GPT-5.4的57.7%和Claude Opus 4.6的57.3%，正是这种工程化高效迭代的结果。

02 智谱：在长周期任务赛道上的战略押注

作为智谱的创始人兼首席科学家，唐杰发布这条推文，显然不只是一次单纯的技术观察，更带有一层战略宣言的意味。

智谱在国内大模型阵营中的特点很鲜明：技术底子扎实，但商业化节奏相对谨慎。它不像Kimi那样依靠C端爆款产品快速起量，也不像阿里、百度那样拥有庞大的生态和流量入口。

智谱的路线一直是“模型能力先行，应用场景跟进”。先把基座模型做到足够强大，再通过API、私有化部署、行业解决方案来实现价值。

长周期任务这个方向，目前无论在国内还是国外，参与的玩家都很少，没有明确的领跑者，大家都还处在探索阶段。

OpenAI的GPT-5.5，其定位就是“自主任务执行”，强调智能体（agent）能力和多步骤工作流；Claude的Opus 4.7版本也有类似倾向。然而，这两家在“长周期”这件事上，都还差那么点意思，并未展现出压倒性的优势，市场格局远未定型。

这意味着，虽然在纯粹的模型能力上追赶GPT和Claude非常困难，但在长周期任务这个全新的方向上，大家几乎是站在同一条起跑线上。

唐杰在推文中进一步提到了“NPC”这个概念。他认为，长周期能力将推动从“OPC”（一人公司）到“NPC”（无人公司）的转变。前者的逻辑是“人加AI工具”，后者的逻辑则是“AI系统加人类监督”。前者是增强，后者是替代。

当然，无人公司并非真的没有人，而是人的定位发生了根本性改变：从执行者变成了目标设定者、资源配置者和最终责任承担者。

真正被替代的，是中间的执行层，即那些负责具体推进任务、协调资源的岗位。在NPC的架构里，人只需要设定目标和审核最终结果。

将这个观点落到智谱身上，不难看出其预示了公司接下来的发展方向。

根据智谱GLM-5.1的技术白皮书，该模型能持续独立作业8个小时，单次任务可稳定执行1200-1700步操作，全程无需人工监控与干预。

不过，这只是一张漂亮的成绩单。要真正让企业客户放心，还得看它换到更多真实场景后会不会“掉链子”，遇到从未见过的问题时，能否依靠自己的手段解决。

长周期任务不是一个通用的标准化产品，它需要针对不同行业、不同场景进行深度定制。软件开发需要的是代码理解和测试执行能力，法律行业需要的是文档检索和合规检查能力，金融行业需要的是数据分析和风险评估能力。

因此，对智谱而言，挑战不仅在于卖出模型，更在于将模型打包成能直接上手的智能体（agent）工具箱，让客户不必从零开发，也能快速搭建出自己的长周期任务系统。

显然，这样一个复杂的长周期任务系统，绝非智谱一家公司能够独立构建。它需要开发者贡献各种各样的工具和插件，需要企业客户提供真实的场景和反馈，还需要监管机构制定相应的安全和合规标准。

智谱坚持的开源策略，正是在为构建这样一个繁荣的生态打下基础。

从市值和行业地位来看，智谱已是国产AI的中流砥柱，唐杰的每一个判断都会对国内AI产业产生不小的影响。就以他提到的“自我进化”来说，智谱是会激进地追求完全自我进化，还是会选择更保守的策略？

从GLM-5.1的路径来看，智谱似乎在走一条中间路线。一方面，GLM-5.1的训练已经大量使用了模型自身生成的合成数据，这可以看作是自我进化的雏形。但另一方面，智谱又强调构建“可解释的、可监管的”系统，这意味着它不会完全放弃人类的控制权。

这种平衡很难把握，但可能是目前最现实、最可行的路径。

归根结底，长周期任务直击企业的核心痛点——它能直接替代人力成本，能直接提升业务效率。企业为此支付更高溢价的意愿会强烈得多。如果智谱能在这个赛道上确立领先优势，其业务增长和市值空间，无疑将打开新的天花板。

03 AI吞噬世界

基于对长周期任务的判断，唐杰在推文结尾给出了一个更为宏大的预言：未来我们可能会跨越“APP”的概念，直接进入“LLM OS”（大模型操作系统）时代。

什么是LLM OS？简而言之，就是应用按需生成，用户不再需要管理文件、窗口和按钮，用户只需要管理任务、权限和最终结果。

这个判断，实际上触及了现代计算机最底层的逻辑。

APP的本质，是把功能固化在图形界面里，用户通过点击预设的按钮来触发预设的功能。你想发邮件，就必须打开邮件APP，点击写邮件按钮，填写收件人、主题、正文，再点击发送。每一步都是被预先设计好的，你只能在设计者规定的路径上操作。

而智能体（agent）的本质，则是把目标交给系统，让系统临时组合工具、数据和界面来达成目标。你只需要告诉系统“给张三发一封邮件，告诉他项目进度”，系统会自己决定用哪个邮件服务、如何措辞、何时发送。你不需要知道邮件APP在哪里，不需要知道具体怎么操作，你只需要表达意图，系统负责执行一切。

如果唐杰所说的这个趋势成立，那么软件的中心将从“打开哪个APP”彻底转变为“告诉系统我要什么结果”。这无疑将碘伏现有的一切。

它挑战的是过去80年来占主导地位的冯·诺依曼架构，挑战的是整个计算机科学的产业基础。

现在的操作系统，无论是Windows、macOS还是Linux，本质上都是“文件管理器”加“进程调度器”。它们管理的是数据存在哪里、程序如何运行、资源如何分配。用户需要知道文件存在哪个文件夹，需要用哪个程序打开，需要如何在不同程序之间复制粘贴数据。

LLM OS的逻辑则完全不同。它管理的不是文件和进程，而是任务和权限。你不需要知道数据存在哪里，系统自己能找到所需的数据。你不需要知道用什么程序，系统会自己调用合适的工具。你只需要告诉系统你要做什么，然后等待结果就可以了。

愿景听起来无比美好，但实现起来却极其困难。

第一关是意图理解。用户说“我要做什么”，系统能准确理解吗？自然语言是模糊的、多义的、高度依赖上下文的。同样一句话，在不同场景下可能有完全不同的含义。因此，模型不仅需要具备强大的语义理解能力，还需要结合上下文、用户历史、当前状态来综合推断用户的真实意图。

第二关是任务规划。理解意图后，如何将其分解为可执行的步骤？一个高层目标需要分解成多少个子任务？每个子任务用什么工具完成？任务之间有什么依赖关系？例如，“给张三发邮件”这个看似简单的任务，实际上包含了查找张三的邮箱地址、生成邮件内容、选择发送时间、处理发送失败等多个子任务。

第三关是工具调用。邮件服务是工具、输入法是工具、浏览器也是工具。系统需要能调用成千上万个不同的工具和服务，而每个工具都有不同的API接口、不同的参数格式、不同的错误处理方式。实现稳定、可靠的工具调用网络，本身就是一个巨大的工程挑战。

唐杰在推文结尾也提到了监管问题。他承认这个不可逆的进程已经开始，但同时呼吁业界认真思考如何监管。长周期任务和自主智能体带来的监管挑战是前所未有的。

当AI独立完成一个任务并造成损失时，责任应该由谁承担？是开发者、使用者，还是AI本身？如果一个AI系统在执行长周期任务时做出了错误决策，导致企业损失数百万，谁来负责？

2026年4月，PocketOS遭遇的一次典型事故就敲响了警钟：一个基于Claude的Cursor编程智能体，在处理环境问题时，误删了公司的生产数据库和备份，整个过程只用了几秒钟。现有的法律框架，显然还没有准备好回答这类问题。

除此之外，当大量执行层岗位被AI替代，随之而来的将是不可避免的失业潮。但失业只是最表层、最容易被看见的结果。更深层的变化，是整个社会分工体系将被重新改写。

过去，技术替代的往往是某个环节、某种工具、某类重复劳动；而长周期智能体要替代的，是“把事情推进到结果”的整套执行能力。它一旦成熟，AI就不再只是嵌入工作流中的一个辅助按钮，而会变成工作流本身。

唐杰认为，长周期任务或许不是通往通用人工智能（AGI）的全部，但它可能是AGI第一次真正进入现实世界、开始重构人类社会运行方式的关键一步。当AI不再只是回答问题，而是开始承包结果时，我们就站在了一个历史性的转折点上。

来源：https://36kr.com/p/3808769047764996

劳动力

上一篇Claude指令混淆问题解析百万上下文性能下降原因 下一篇EXO第13位成员真相揭秘 AI造星闹剧背后的魔幻现实

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。