智谱AI唐杰：2026年长时程Agent与自改进大模型将成突破焦点

首页

热心网友

转载

2026-05-16

智谱AI创始人兼首席科学家唐杰教授近期在社交平台X上发表了一篇前瞻性长文，系统阐述了他对AI未来发展趋势的核心判断。这篇帖子信息量极大，几乎勾勒出了一幅从技术突破到产业重塑的完整演进图。

他开篇便抛出了一个核心论断：2026年大语言模型的主要技术突破，将不再是单纯的推理能力，而是转向“长时程任务”。所谓长时程任务，指的是AI能够与特定环境进行长时间、多步骤的交互，最终完成一个复杂目标。这并非一家之言，红杉资本年初就曾发文预言“2026年将是长时程Agent的一年”，LangChain的CEO也提出了类似观点，可谓英雄所见略同。

市场早已用行动投票。OpenAI Codex和Claude Code相继推出的/Goal、Computer Use等功能，核心就是支持LLM与Agent环境进行长时交互。再看国内，月之暗面在发布Kimi K2.6模型时展示的“连续编码12小时”案例，也清晰地指向了这一方向。当然，挑战依然存在，比如如何有效评估长时任务中每一个中间步骤的效果，就成了当前亟待解决的难题。

向长时程任务的转变

今年最有可能出现突破的领域，将是长时程任务。我们正在迈向这样一个阶段：大型语言模型通过与Agent环境交互，学会完成长期、复杂的任务。这或许才是LLM真正价值所在。

以网络安全为例：想象一个模型能够持续不断地寻找软件漏洞和安全缺陷。虽然听起来像是一个搜索过程，但实际上，这是模型在学习职业黑客的高层次直觉与方法论。与人类不同，AI可以24小时不间断运行而不会疲劳。它可能会以远高于人类的频率发现漏洞，并在HackerOne或BugCrowd这类平台上领取漏洞赏金。这听起来很有趣，但从本质上说，这是一次取代黑客职业的革命。如果连黑客都正在被“碘伏”，那普通程序员所受到的冲击就更可想而知了。

从“一人公司”到“无人公司”

建立在长时程能力基础之上，自主Agent系统必然会成为下一个前沿方向。去年行业还在热议“一人公司”的崛起，没想到风向转得如此之快，如今讨论的焦点已迅速迈向“无人公司”。有网友提到，Sam Altman透露OpenAI的内部赌池，已经从“第一个一人独角兽”转向了“第一个零人公司”。

就在近期，Cursor的CEO在演讲中明确表示，他们正在探索无人类介入的端到端全自动开发自主Agent Team模式。各大厂商的多Agent技术进展，无一不在为这一转变铺路：

今年2月，Claude Code发布Agent Teams和多智能体编排功能，支持一个“队长”协调多个“队员”并行工作、共享任务、互相沟通。

3月，Codex发布Subagents和Symphony编排功能，搞出了“项目经理加专家团队”模式，让一个管理Agent在隔离沙箱中协调多个专业子Agent。

4月，Kimi K2.6更是将子Agent集群数量推至300个，并探索让K2.6作为“总指挥官”进行统筹。

说白了，所有这些动作都指向同一个目标：让Agent管理Agent，最终实现无需人类插手的全自动化工作流。

工程化实现“不可能”：记忆与学习

为了实现上述愿景，必须攻克三大技术支柱：记忆、持续学习以及自我判断。

曾经，这些能力被认为需要巨大的范式转变和多年的研究。然而，来自技术和应用两端的压力如此巨大，以至于我们正在看到这些能力通过巧妙的工程“技巧”逐渐变为现实：

记忆方面，阿里通义实验室的林俊旸曾预测，未来一年记忆技术有望发展到让人类感受到类似人与人之间记忆理解能力的临界点。超长上下文窗口与RAG技术已经显著弥补了差距。

持续学习方面，OpenAI联合创始人Ilya Sutskever曾指出，AI正重新进入“科研时代”，核心是赋予模型持续学习、自我纠正的能力。Anthropic新推出的“梦境”功能正是这一方向的突破，它能让AI Agent在空闲时自动回顾、复盘历史数据并进行自我优化，据称使任务完成率提升了6倍。

自我判断方面，虽然是最难捉摸的能力，但进展已现端倪。像Opus 4.7这样的模型已开始展现初步的自我纠错能力，而Anthropic的“Outcomes”功能则通过独立评分器评估智能体输出，逼着AI反复优化自己。

自我进化的终局

最困难、但也最有前景的道路，是“自我进化”。今天全网刷屏的消息是，田渊栋从Meta离职后，创立了Recursive_SI，主攻方向正是递归自改进。而该公司创始成员诸葛鸣晨，早在2024年的MetaGPT论文中就讨论过这一方向。看来这波趋势早有苗头。

同时，Meta及其合作者在3月发布的论文《HyperAgents》，已经研究到让Agent自主修改“改进机制”的地步。谷歌DeepMind顶尖研究员Mostafa Dehghani在4月的访谈中更是强调，AI中的更高循环是自改进。他还提出了一个深刻洞察：AI自我提升的最大瓶颈并不在算力或模型能力，而在于“评估”。如果你无法衡量它，你就无法改进它——这几乎成了一个哲学问题。

这股自我进化的浪潮异常猛烈。有观点怀疑，像Claude这样的模型，可能已经具备了自我训练的基础能力：编写自己的代码、清洗自己的数据、生成合成数据，然后再基于这些数据进行训练。这或许会“浪费”一些算力，但它节省了最宝贵的资源：人力与时间。在LLM时代，速度就是一切。快速迭代，正是拉开领先者与追随者认知差距的关键。

重新定义AGI与整个行业

如果这就是通往AGI的道路，那么AGI的定义或许应该是全人类集体智慧的总和，而不仅仅是某个个体的智能。它必须具备创造出像“相对论”这样深刻成果的能力，达到DeepMind创始人Demis Hassabis所设定的标准。

在这个转型过程中，每一个 APP都需要被重构为AI原生。事实上，我们甚至可能会彻底超越APP这一概念。最大的挑战，将是操作系统本身的重构。未来，你可能不会再看到传统桌面，而会看到一种LLM OS，其中的应用程序是“按需生成”的。这将挑战已有80年历史的冯·诺依曼架构，并代表整个计算机科学产业的一次彻底碘伏。LLM OS的概念最早由Andrej Karpathy提出，他认为LLM不仅仅是模型，更是未来计算机的核心内核。目前一些AI Agent系统已经初具雏形，它们像操作系统内核一样调度API、处理文件流和管理持久化记忆。