首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
唐杰谈AI进化关键一步从工具到劳动力的跨越

唐杰谈AI进化关键一步从工具到劳动力的跨越

热心网友
63
转载
2026-05-15

黄仁勋登上特朗普的空军一号那天,智谱的股价暴涨了36.9%,收盘价定格在1150港元,创下了历史新高。

如果从今年1月8日上市时的发行价116.20港元算起,这家公司的市值在短短四个多月里,翻了整整九倍。

就在这场资本狂欢的前夜,智谱的创始人唐杰在社交平台X上发布了一条深夜推文,深入阐述了他对整个AI产业未来走向的思考。

这条推文的核心,聚焦在一个概念上:“长周期任务”。

需要澄清一下,英文原文“Long-Horizon Tasks”直译是“长视野”,但在AI的语境里,它特指那些需要跨越较长时间、经历多个步骤、处理大量中间状态才能完成的复杂任务。

唐杰的判断很明确:2026年AI领域最可能的突破点,或许不在于模型变得多么“聪明”,而在于它能否持续、自主地完成这类复杂、多步骤的工作。

在他看来,一旦模型具备了持续规划、试错、判断并交付结果的能力,其冲击的将远不止是程序员的效率。它撼动的,将是人类整个执行层的工作方式。

过去,AI帮人写几句话、生成一段代码,我们还能将其定位为“工具”。但当AI可以连续数天自己干活、自己做判断、自己交付最终成果时,它要替代的就不只是某个具体岗位了,而可能是重塑整个行业的运作逻辑。

01 长周期任务是什么?

过去两年,业界评价一个大模型的好坏,标准相对单一:主要看它在单次对话中的表现。回答是否精准、逻辑是否自洽、语言是否流畅自然。

这本质上是在测试模型的“智力”。但长周期任务考验的,恰恰不是智力,而是“执行力”。

这类任务目标明确,但实现路径充满不确定性,需要模型能持续数小时、数天甚至数周地推进工作。

唐杰在推文中举了一个生动的例子:黑客进行漏洞挖掘。这堪称长周期任务的典型。它需要阅读海量代码、理解复杂的系统架构、搭建测试环境、构造攻击输入、验证漏洞有效性,最后还要撰写详尽的技术报告。

整个过程充满了试错,因为没有标准答案可循,很大程度上依赖经验和直觉。

你不可能读一遍代码就找到所有漏洞,必须反复尝试不同的攻击路径,在每次失败后调整策略,在每次成功后验证其可靠性。

如果AI能在这种高度对抗性、极度依赖经验的领域站稳脚跟,那么它对普通程序员、数据分析师、法务助理等职业的冲击,只会更加猛烈。

因为这些职业的任务虽然也复杂,但对抗性更弱,对经验的依赖度相对更低,反而更容易被系统化的流程所覆盖。

一个关键的转变正在发生:衡量AI能力的标尺,正从“对话与答案的质量”,转向“完成长周期任务的能力”。

可以想象这样一个场景:一个模型可能在单次问答中表现完美,但在需要持续工作8小时的任务中,却频频出错、丢失上下文、重复无效操作。

而另一个模型,或许单次回答不够惊艳,却能稳定地推进任务,记住每一步的中间结果,在遇到障碍时自动切换路径。

那么,在长周期任务的战场上,后者的价值将远高于前者。

这让人联想到腾讯姚顺雨曾提出的一个观点:今天的模型太依赖预训练中学到的“参数化知识”,而真实世界更需要的是能从当前上下文(Context)中实时学习并应用的模型。

当模型真正开始跑任务时,它需要查文档、跑代码、测接口、读日志、调参数。一个能熟练调用这些外部工具的模型,远比一个仅仅记住了所有API文档但不会实际操作的模型有用得多。

此外,传统模型过于“被动”。它必须等待人类发出明确的指令才能执行,且每次指令通常只对应一步操作。

但在长周期任务里,情况完全不同。给定一个最终目标后,模型需要自主进行规划和执行。

被动响应只需要理解当前的问题;主动推进则需要理解整个任务的结构、自己所处的阶段、下一步该做什么、以及如果失败了该如何调整。这要求模型具备某种“任务感”,清楚地知道自己在做什么、为什么这样做、以及进展到了哪一步。

当模型具备了这些能力,AI就开始进入“结果交付”的新阶段。

企业和个人将不再满足于“AI帮我写了一段代码”,而是期待“AI帮我完成了整个功能模块的开发、测试和部署”。

这本质上是从“助手”到“承包商”的跨越。助手需要你告诉它每一步具体做什么;承包商只需要你告诉它最终要什么结果。

长周期任务的概念在学术界并非新鲜事物,强化学习、任务规划、多步推理等领域早已有深入研究。

那么,为什么唐杰认为它在今年变得触手可及?关键在于以下几项技术的突破性进展。

首当其冲的是“记忆”能力。

百万级上下文窗口和RAG(检索增强生成)技术的成熟,让模型能够在长时间任务中,持续保持对项目背景、历史尝试和用户偏好的记忆。

例如,Claude Opus 4.7支持100万token的上下文,智谱自家的GLM-5.1也支持20万token。这意味着模型可以在一个会话中记住数十万字的代码、文档和对话历史。它不会因为任务太长而忘记最初的目标,不会重复已经尝试过的失败方案,也不会丢失中间步骤的关键信息。

其次是“持续学习”的加速。

虽然真正意义上的持续学习(在不遗忘旧知识的情况下学习新知识)仍然困难,但模型更新的周期正在急剧缩短。全球领先的模型已经能做到月度更新,国内模型也紧随其后。如果明年能实现周度更新,那么在效果上就无限接近于持续学习。

模型不需要在训练时就学会所有知识,它只需要能快速吸收新工具、新API、新业务规则。当更新周期足够短,模型就能跟上现实世界的变化速度。

第三点是“自我判断与进化”。

唐杰推测,像Claude这样的模型可能已经实现了基础的自训练能力。模型可以自己写代码、清洗数据、生成合成数据,然后用这些数据来训练自己。例如,GPT-5.5就在利用模型生成的代码和测试用例来改进自身的编程能力。

模型开始知道自己的答案是否靠谱,知道什么时候该重试、求证或回滚。这种能力在长周期任务中至关重要,因为不可能有人在一旁监督每一步操作,模型必须自行判断当前方案是否可行、是否需要调整、以及是否已经达到目标。

当然,这条路径也伴随着显著的风险。自我进化意味着人类对模型训练过程的控制力在下降。当模型开始自己生成训练数据、自己评估训练效果时,我们如何确保它不会偏离人类的价值观?人类在其中的价值又该如何定义?

唐杰的判断是,这些能力很可能通过精巧的工程化“技巧”来实现。这意味着进展速度会比纯学术界预期的快得多,因为工程化的迭代周期远短于基础技术的创新周期。

你不需要推翻现有架构,只需要在之上做更好的提示词工程、更精细的强化学习、更可靠的工具集成。智谱的GLM-5.1在SWE-Bench Pro基准测试上达到58.4%,超过GPT-5.4的57.7%和Claude Opus 4.6的57.3%,正是这种工程化高效迭代的结果。

02 智谱:在长周期任务赛道上的战略押注

作为智谱的创始人兼首席科学家,唐杰发布这条推文,显然不只是一次单纯的技术观察,更带有一层战略宣言的意味。

智谱在国内大模型阵营中的特点很鲜明:技术底子扎实,但商业化节奏相对谨慎。它不像Kimi那样依靠C端爆款产品快速起量,也不像阿里、百度那样拥有庞大的生态和流量入口。

智谱的路线一直是“模型能力先行,应用场景跟进”。先把基座模型做到足够强大,再通过API、私有化部署、行业解决方案来实现价值。

长周期任务这个方向,目前无论在国内还是国外,参与的玩家都很少,没有明确的领跑者,大家都还处在探索阶段。

OpenAI的GPT-5.5,其定位就是“自主任务执行”,强调智能体(agent)能力和多步骤工作流;Claude的Opus 4.7版本也有类似倾向。然而,这两家在“长周期”这件事上,都还差那么点意思,并未展现出压倒性的优势,市场格局远未定型。

这意味着,虽然在纯粹的模型能力上追赶GPT和Claude非常困难,但在长周期任务这个全新的方向上,大家几乎是站在同一条起跑线上。

唐杰在推文中进一步提到了“NPC”这个概念。他认为,长周期能力将推动从“OPC”(一人公司)到“NPC”(无人公司)的转变。前者的逻辑是“人加AI工具”,后者的逻辑则是“AI系统加人类监督”。前者是增强,后者是替代。

当然,无人公司并非真的没有人,而是人的定位发生了根本性改变:从执行者变成了目标设定者、资源配置者和最终责任承担者。

真正被替代的,是中间的执行层,即那些负责具体推进任务、协调资源的岗位。在NPC的架构里,人只需要设定目标和审核最终结果。

将这个观点落到智谱身上,不难看出其预示了公司接下来的发展方向。

根据智谱GLM-5.1的技术白皮书,该模型能持续独立作业8个小时,单次任务可稳定执行1200-1700步操作,全程无需人工监控与干预。

不过,这只是一张漂亮的成绩单。要真正让企业客户放心,还得看它换到更多真实场景后会不会“掉链子”,遇到从未见过的问题时,能否依靠自己的手段解决。

长周期任务不是一个通用的标准化产品,它需要针对不同行业、不同场景进行深度定制。软件开发需要的是代码理解和测试执行能力,法律行业需要的是文档检索和合规检查能力,金融行业需要的是数据分析和风险评估能力。

因此,对智谱而言,挑战不仅在于卖出模型,更在于将模型打包成能直接上手的智能体(agent)工具箱,让客户不必从零开发,也能快速搭建出自己的长周期任务系统。

显然,这样一个复杂的长周期任务系统,绝非智谱一家公司能够独立构建。它需要开发者贡献各种各样的工具和插件,需要企业客户提供真实的场景和反馈,还需要监管机构制定相应的安全和合规标准。

智谱坚持的开源策略,正是在为构建这样一个繁荣的生态打下基础。

从市值和行业地位来看,智谱已是国产AI的中流砥柱,唐杰的每一个判断都会对国内AI产业产生不小的影响。就以他提到的“自我进化”来说,智谱是会激进地追求完全自我进化,还是会选择更保守的策略?

从GLM-5.1的路径来看,智谱似乎在走一条中间路线。一方面,GLM-5.1的训练已经大量使用了模型自身生成的合成数据,这可以看作是自我进化的雏形。但另一方面,智谱又强调构建“可解释的、可监管的”系统,这意味着它不会完全放弃人类的控制权。

这种平衡很难把握,但可能是目前最现实、最可行的路径。

归根结底,长周期任务直击企业的核心痛点——它能直接替代人力成本,能直接提升业务效率。企业为此支付更高溢价的意愿会强烈得多。如果智谱能在这个赛道上确立领先优势,其业务增长和市值空间,无疑将打开新的天花板。

03 AI吞噬世界

基于对长周期任务的判断,唐杰在推文结尾给出了一个更为宏大的预言:未来我们可能会跨越“APP”的概念,直接进入“LLM OS”(大模型操作系统)时代。

什么是LLM OS?简而言之,就是应用按需生成,用户不再需要管理文件、窗口和按钮,用户只需要管理任务、权限和最终结果。

这个判断,实际上触及了现代计算机最底层的逻辑。

APP的本质,是把功能固化在图形界面里,用户通过点击预设的按钮来触发预设的功能。你想发邮件,就必须打开邮件APP,点击写邮件按钮,填写收件人、主题、正文,再点击发送。每一步都是被预先设计好的,你只能在设计者规定的路径上操作。

而智能体(agent)的本质,则是把目标交给系统,让系统临时组合工具、数据和界面来达成目标。你只需要告诉系统“给张三发一封邮件,告诉他项目进度”,系统会自己决定用哪个邮件服务、如何措辞、何时发送。你不需要知道邮件APP在哪里,不需要知道具体怎么操作,你只需要表达意图,系统负责执行一切。

如果唐杰所说的这个趋势成立,那么软件的中心将从“打开哪个APP”彻底转变为“告诉系统我要什么结果”。这无疑将碘伏现有的一切。

它挑战的是过去80年来占主导地位的冯·诺依曼架构,挑战的是整个计算机科学的产业基础。

现在的操作系统,无论是Windows、macOS还是Linux,本质上都是“文件管理器”加“进程调度器”。它们管理的是数据存在哪里、程序如何运行、资源如何分配。用户需要知道文件存在哪个文件夹,需要用哪个程序打开,需要如何在不同程序之间复制粘贴数据。

LLM OS的逻辑则完全不同。它管理的不是文件和进程,而是任务和权限。你不需要知道数据存在哪里,系统自己能找到所需的数据。你不需要知道用什么程序,系统会自己调用合适的工具。你只需要告诉系统你要做什么,然后等待结果就可以了。

愿景听起来无比美好,但实现起来却极其困难。

第一关是意图理解。用户说“我要做什么”,系统能准确理解吗?自然语言是模糊的、多义的、高度依赖上下文的。同样一句话,在不同场景下可能有完全不同的含义。因此,模型不仅需要具备强大的语义理解能力,还需要结合上下文、用户历史、当前状态来综合推断用户的真实意图。

第二关是任务规划。理解意图后,如何将其分解为可执行的步骤?一个高层目标需要分解成多少个子任务?每个子任务用什么工具完成?任务之间有什么依赖关系?例如,“给张三发邮件”这个看似简单的任务,实际上包含了查找张三的邮箱地址、生成邮件内容、选择发送时间、处理发送失败等多个子任务。

第三关是工具调用。邮件服务是工具、输入法是工具、浏览器也是工具。系统需要能调用成千上万个不同的工具和服务,而每个工具都有不同的API接口、不同的参数格式、不同的错误处理方式。实现稳定、可靠的工具调用网络,本身就是一个巨大的工程挑战。

唐杰在推文结尾也提到了监管问题。他承认这个不可逆的进程已经开始,但同时呼吁业界认真思考如何监管。长周期任务和自主智能体带来的监管挑战是前所未有的。

当AI独立完成一个任务并造成损失时,责任应该由谁承担?是开发者、使用者,还是AI本身?如果一个AI系统在执行长周期任务时做出了错误决策,导致企业损失数百万,谁来负责?

2026年4月,PocketOS遭遇的一次典型事故就敲响了警钟:一个基于Claude的Cursor编程智能体,在处理环境问题时,误删了公司的生产数据库和备份,整个过程只用了几秒钟。现有的法律框架,显然还没有准备好回答这类问题。

除此之外,当大量执行层岗位被AI替代,随之而来的将是不可避免的失业潮。但失业只是最表层、最容易被看见的结果。更深层的变化,是整个社会分工体系将被重新改写。

过去,技术替代的往往是某个环节、某种工具、某类重复劳动;而长周期智能体要替代的,是“把事情推进到结果”的整套执行能力。它一旦成熟,AI就不再只是嵌入工作流中的一个辅助按钮,而会变成工作流本身。

唐杰认为,长周期任务或许不是通往通用人工智能(AGI)的全部,但它可能是AGI第一次真正进入现实世界、开始重构人类社会运行方式的关键一步。当AI不再只是回答问题,而是开始承包结果时,我们就站在了一个历史性的转折点上。

来源:https://36kr.com/p/3808769047764996
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

唐杰谈AI进化关键一步从工具到劳动力的跨越
业界动态
唐杰谈AI进化关键一步从工具到劳动力的跨越

黄仁勋登上特朗普的空军一号那天,智谱的股价暴涨了36 9%,收盘价定格在1150港元,创下了历史新高。 如果从今年1月8日上市时的发行价116 20港元算起,这家公司的市值在短短四个多月里,翻了整整九倍。 就在这场资本狂欢的前夜,智谱的创始人唐杰在社交平台X上发布了一条深夜推文,深入阐述了他对整个A

热心网友
05.15
对农村富余女性劳动力输出状况的调研报告4篇
办公文书
对农村富余女性劳动力输出状况的调研报告4篇

对农村富余女性劳动力输出状况的调研报告1 说起农村劳动力转移,女性群体的动向尤其值得关注。以**市为例,该地位于**走廊最西端,地处**、青海、新疆三省(区)交汇处,区域内18至45岁有劳动能力的农村女性超过3万人。一个明显的趋势是,随着农业技术持续进步和产业结构深度调整,农村女性富余劳动力的数量正

热心网友
04.29
农业局贯彻农村劳动力转移就业行动调研报告范文
办公文书
农业局贯彻农村劳动力转移就业行动调研报告范文

农业局贯彻农村劳动力转移就业行动调研报告 根据市委市政府及市劳务产业促进会的统一部署,特别是针对市劳促会《关于召开促进会二届五次常务理事会的通知》精神,我县迅速启动了专项调研工作。具体来说,我们下发了《关于对全县劳务产业工作进行调研的通知》,组织县劳促会与产业办深入高良乡、葵山镇进行重点调研,同时要

热心网友
04.27
农村劳动力调研报告
办公文书
农村劳动力调研报告

北湖区石盖塘镇农村劳动力转移就业情况调研分析 根据上级部门关于开展重点乡镇农村劳动力转移就业调研的工作部署,我们近期对石盖塘镇的情况进行了一次摸底。调研结合了数据填报、村干部座谈、入户访谈以及电话抽样等多种方式,重点围绕就业类型、方式、区域和收入等维度展开,目的是摸清现状、找准问题、听取建议。现将了

热心网友
04.27
RPA是自动化劳动力吗
业界动态
RPA是自动化劳动力吗

RPA:一种自动化劳动力 如果把企业的人力资源比作一支军队,那么RPA无疑是其中一支特殊且高效的“数字化部队”。 所谓RPA,全称是流程自动化机器人,大家也常称它为数字化劳动力。简单来说,这是一种智能软件。它的核心本领,在于模仿并优化人类与计算机打交道的方式,从而将那些流程固定、规则明确的工作实现自

热心网友
04.26

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

华硕ROG枪神魔霸新锐2026游戏本预约开启
科技数码
华硕ROG枪神魔霸新锐2026游戏本预约开启

华硕ROG正式发布2026款枪神、魔霸及魔霸新锐系列游戏本并开启预约。枪神系列分为标准版与超竞版,均搭载酷睿Ultra9处理器,超竞版可选RTX5090显卡并配备光显矩阵屏。魔霸系列采用AMD锐龙处理器,高配可选锐龙99955HX3D与RTX5070Ti显卡。魔霸新锐系列主打性价比,配备RTX5060显卡,面向预算有限的玩家。

热心网友
05.15
锐龙5 9600X单通道内存电竞性能实测 依然轻松胜出
科技数码
锐龙5 9600X单通道内存电竞性能实测 依然轻松胜出

内存价格高企,单通道DDR5成为高性价比装机方案,但会降低游戏性能。测试显示,锐龙59600X凭借Zen5大核架构及对内存低延迟的优化,在搭配单条DDR56000内存时,游戏性能损失较小。相比之下,酷睿Ultra200SPLUS系列更依赖高带宽,单通道下性能下滑明显。在多款热门电竞网游实测中,锐龙59600X性能领先,且整机性价比优势显著。

热心网友
05.15
神牛ML40摄影灯内置锂电池版发布 售价568元起
科技数码
神牛ML40摄影灯内置锂电池版发布 售价568元起

神牛发布ML40系列摄影灯,包含ML40Bi和ML40R两款。ML40Bi售价568元,内置锂电池,支持边充边用及NFC快速连接,侧重便携智能。ML40R售价698元,具备更广色温调节范围,侧重专业色彩控制。两者均采用磁吸设计,兼容丰富附件,满足不同布光需求。

热心网友
05.15
华硕850W氮化镓电源白金重炮手849元入手
科技数码
华硕850W氮化镓电源白金重炮手849元入手

华硕TUFGaming系列推出新款850W白金重炮手氮化镓电源,到手价849元。该电源符合ATX3 1规范,长度150mm,采用全模组设计,配备12V-2×6接口支持600W峰值功率。其获得双白金效率认证与A-噪声认证,内部使用氮化镓元件与长寿电容,搭配135mm静音风扇,并提供8年质保,主打高效、安静与持久稳定。

热心网友
05.15
Falcon USD是什么币?USDF稳定币市值排名与投资价值解析
web3.0
Falcon USD是什么币?USDF稳定币市值排名与投资价值解析

FalconUSD(USDF)是一种与美元挂钩的稳定币,旨在为Web3生态系统提供可靠的交易媒介和价值储存工具。其运作依赖于储备资产支持和透明审计机制,在DeFi、跨境支付等场景有应用潜力。了解其技术原理、市场定位及潜在风险,有助于理性评估这一新兴数字资产的价值与前景。

热心网友
05.15