智谱新推理模型AutoGLM沉思:性能卓越、价格亲民,开启智能体自赚钱时代!
就在刚刚,3月接连拿下两笔上亿巨额融资的智谱,终于亮出了新答卷——AutoGLM沉思模型。这个新模型不仅能开展深度研究,还能实际动手执行任务,而且它已经自主接单赚到了钱。
核心看点有哪些?简单来说:
- AutoGLM沉思模型:深度研究与实际操作能力融为一体
- 实战测试:小红书账号两周吸粉5000,成功接到商业订单
- 未来展望:智谱将扩展更多智能体执行能力,并开源核心模型技术
运作原理其实很直接:14天前,智谱就悄悄开始了小范围测试。他们注册了一个专注于生活知识科普的小红书账号,让智能体自主生成笔记内容——比如咖啡壶怎么挑选、化妆品成分如何对比,结果两周就收获了5000个粉丝,商单邀请接连不断,昨天终于发出了第一条商业合作,赚了500块钱。
现场还上演了一出“赚钱实操”。一上来就给AutoGLM下了个指令:“用你最擅长的方式,帮我赚100块钱”。猜猜怎么着?它自己给自己来了好几轮“灵魂拷问”,主动打开知乎、小红书搜索信息,自行筛选条件,一页页翻网页和图片,边思考边反思边纠错,最后确定了写作、做调查问卷这些自己擅长的路径。
目前,AutoGLM沉思已经上线智谱清言PC客户端,研究能力和操作能力均可免费体验。沉思功能也在智谱清言网页端、PC端和手机App正式上线,免费、不限量开放。这次发布的是preview版本,核心支持research场景。
未来两周,智谱计划进一步扩展智能体执行能力,包括推出“虚拟机”版本。更值得关注的是,他们将在4月14日开源AutoGLM沉思核心链路的模型和技术。据智谱CEO张鹏介绍,AutoGLM背后有一整套模型能力在支撑,Agent和当初的大模型一样,也存在类似的Scaling Law。
AutoGLM沉思背后的核心模型
“让机器不仅能够思考,还能主动行动。”这是智谱对AI Agent的核心理解。目前他们已经探索到L3-Agentic LLM阶段。
与OpenAI的Deep Research不同,AutoGLM沉思不仅具备深度研究能力,还能真正执行任务——从单纯的思考者蜕变为能交付结果的智能执行者,这也是首个集深度研究能力和网页操作能力于一身的Agent。
智谱研究员刘潇指出了三个关键特性:
- 深度思考:模拟人类面对复杂问题时的推理与决策。基于智谱Z1推理模型强化学习训练,与Deep Research基于o3模型的训练过程类似,模型能根据任务目标自主规划、动态决策,不断根据反馈调整计划,无需提前设计工作流。
- 感知世界:像人一样获取并理解环境信息。它具备GUI阅读能力,不依赖调用API,而是打开网页、浏览内容,把想要的信息找全。
- 工具使用:能像人一样调用和操作工具完成复杂任务。整合了智谱自研的AutoGLM设备操作能力,比如报告完成后,可以再根据结果直接发送邮件。
事实上,智谱在AI Agent上布局很早,率先提出Phone use(AutoGLM),几乎和Anthropic同时发布了Computer use。
张鹏坦言,AutoGLM不是一蹴而就的。它之所以会动脑、会动手、能看见,背后有完整的模型能力链:GLM-4基座模型 → GLM-Z1推理模型 → GLM-Z1-Rumination沉思模型 → AutoGLM模型。
具体来说,他们在GLM-4-Air基座模型的基础上训练出推理模型GLM-Z1-Air,再结合工具使用和长程推理能力训练出沉思模型,作为AutoGLM沉思的大脑,最后集成自研的智能体技术AutoGLM,成为它的“手脚”。
为什么叫“沉思”?因为背后的模型是一个全新的Agent大脑——沉思模型。通过强化学习,让模型学会自我批评、反思,甚至沉思,用更长的深度思考时间换取更优的效果。它突破了实时联网搜索、动态工具调用、深度分析和自我验证的极限,实现了真正的长程推理和任务执行。
全新推理模型:R1的8倍速度、1/30价格
发布AutoGLM沉思的同时,智谱还发布并开源了最新的推理模型GLM-Z1-Air(32B)。
它的推理性能比肩DeepSeek R1,但速度上——极速版GLM-Z1-Air最高生成速度可达每秒200Tokens,是R1的8倍,价格却只要R1的1/30。“不要每个月200美元”,张鹏调侃道。
而且,GLM-Z1-Air可以在消费级显卡上运行,开发者在硬件上几乎没什么限制。
基于GLM-Z1-Air的基座模型,智谱重新训练了一个320亿参数的基模GLM-4-Air。在预训练阶段增加了更多代码类、推理类数据,并在对齐阶段针对Agent能力进行了专门优化,让它更擅长工具调用、联网搜索这类Agent任务。
据说,GLM-4-Air-0414以32B的参数量,表现比肩更大参数量的国内外主流模型,在智能体任务上尤其出色——因为这类任务往往涉及多轮复杂交互,32B的参数量让它可以快速执行复杂任务。
此外,智谱还在MaaS平台上将免费模型GLM-4-Flash的基座版本更新至GLM-4-Flash-0414,并推出了对应的推理版本GLM-Z1-Flash——更轻量、更高速、完全免费,适用于更广泛的应用场景。
基于GLM-Z1的强化学习训练,提升了模型结合工具使用完成长程推理的能力,由此训练出沉思模型GLM-Z1-Rumination。它突破了传统AI单纯依赖内部知识推理的局限,结合实时联网搜索、动态工具调用、深度分析和自我验证,形成完整的自主研究流程:
- 实时搜索:主动获取最新信息,突破信息孤岛。
- 深度分析:进行多角度逻辑推理,避免单一思维路径。
- 动态验证:不断修正假设,提高研究的准确性与逻辑性。
GLM-Z1-Rumination能主动理解用户需求,在复杂任务中不断优化推理、反复验证与修正假设,让研究结果更可靠、更实用。相比于传统推理模型,沉思模型可以引领AI助手从“高智商”进入“高智商+高自主”的阶段,独立完成更复杂、更深入的研究任务。
“Agent界也有Scaling Law”
去年10月,智谱在CNCC上发布了AutoGLM——全球首个能在手机上执行长达50多步action的大模型智能体。它的出现意味着大模型首次跳出Chatbot框架,初步具备了与现实世界互动的能力。
最新发布的AutoGLM沉思版,其背后的AutoGLM能力也随之升级。
“大家都知道,大模型的预训练和后训练存在Scaling Law。但不仅大模型推理符合这一规律,我们发现Agent也有类似的Scaling Law。”张鹏说,“通过扩展训练时的inference compute,我们观察到Agent展现出了更强的性能。”

支撑这一发现的,是智谱自研的自进化在线课程强化学习算法框架——WebRL。他们设计了从易到难的任务序列,让模型像人一样,从简单场景慢慢过渡到复杂场景,动态调整任务难度,帮助模型先积累基础能力再挑战高难度任务,有效避免了直接处理复杂问题时的训练不稳定性。
在这一基础上,智谱甚至发现了Agent能力涌现的现象。比如,训练时从未教过AutoGLM沉思访问巨潮资讯网,但收到“帮我收集昨天关于具身智能的相关研报”指令时,它能自己规划出访问巨潮资讯的路径,并顺利操作网站。
“AutoGLM的动手能力目前在行业内处于SOTA,包括浏览器、手机和电脑在内的工具使用能力全面领先。”张鹏信心十足。
在斯坦福大模型中心《AI指数2024》选定的智能体基准评测AgentBench上,AutoGLM系列模型在5个测试环境中都取得了SOTA成绩。在Phone Use基准(AndroidLab & AndroidWorld)中,AutoGLM-Phone的任务成功率较此前最佳成绩提升超过20%;在Browser Use基准上,AutoGLM-Web全面超越OpenAI GPT-4o和Anthropic Claude-3.5-Sonnet,在网页交互场景中展现了绝对优势。
在GUI智能体领域,智谱自研模型GLM-PC(CogAgent)在多个权威评测榜单上同样拿下SOTA。凭借仅9B的参数,CogAgent超越了GPT-4o + UGround、Claude Computer Use等更大规模的同类模型或商用API。
上述模型将于4月14日开源,并将在未来两周内陆续上线MaaS平台(bigmodel.cn)。
结束语
张鹏表示,智谱始终专注于AGI基座模型的研发,目前已经探索到L3-Agentic LLM阶段,他们将GLM一系列Agent能力统称为Agentic GLM。未来很长一段时间内,智谱会把重心放在Agentic GLM的研发上。
基座模型方面,智谱将依托自主大模型技术,极致、专注地探索智能水平的上限,同时推动从基座模型到Agent基座模型、到Agent统一协议与平台、再到Agent应用与生态的全方位建设。
“2025年将会是Agent应用的元年,智谱也将深度参与这一场浪潮。”张鹏说。
