智谱AutoGLM沉思实测：惊喜有限，尚难替代人工_AI热点日报

智谱AutoGLM沉思实测：惊喜有限，尚难替代人工

类型：热点整理2026-07-05

知名AI自媒体博主安歌近期对智谱AutoGLM沉思进行了深度评测，本文将带您全面了解这款号称“AI通用Agent”的产品究竟实力如何，又有多少是宣传成分。我们将从实际体验出发，剖析其真实表现。核心围绕三个关键问题：智谱AutoGLM沉思与Manus相比，谁更胜一筹？实测体验有哪些亮点与不足？以及—

知名AI自媒体博主安歌近期对智谱AutoGLM沉思进行了深度评测，本文将带您全面了解这款号称“AI通用Agent”的产品究竟实力如何，又有多少是宣传成分。我们将从实际体验出发，剖析其真实表现。

核心围绕三个关键问题：智谱AutoGLM沉思与Manus相比，谁更胜一筹？实测体验有哪些亮点与不足？以及——AI是否真的已经具备取代人类、直接操控电脑完成工作的能力？

文章内容稍长，但全是干货与真实数据，读完后您将心中有数。

今日主题：智谱AutoGLM沉思实测评测

此前，号称“首个AI通用Agent”的Manus因一码难求迅速登上热搜。其官网展示的案例令人感觉AI替代人类似乎近在咫尺。然而短短两天后，智谱也发布了自家的Agent产品——AutoGLM沉思。它的核心卖点颇为强大：模拟人脑的思考流程，实现从问题拆解、信息检索、信息分析到最终报告生成的全链路自动化。

听起来似乎与普通AI大模型区别不大？但一个关键差异在于：它能直接操控电脑，自动打开网页，一边检索、一边分析、一边总结，真正做到“动脑又动手”。

官网展示的案例非常直观：用户提出“写一份A股市场关于具身智能的研究报告”的需求。左侧窗口显示智谱的“思考过程”（即推理部分），右侧窗口则是它操控电脑进行信息检索的画面（即执行部分）。最终，左侧对话框内会呈现撰写完成的报告，并附带所有信息来源。

根据智谱官方介绍，AutoGLM沉思当前提供两个版本：网页端和手机APP端，仅支持调研网页和撰写报告两项功能。而电脑客户端版则在上述功能基础上，还能打开并检索小红书、知乎、知网等未开放API的优质网站，同时可操作购物网站、邮箱、视频网站等更广泛的场景。

看完官方介绍，几个疑问自然浮现：

和Manus相比，究竟谁更强大？
实际功能体验到底如何？
它真的能替代人类，直接操控电脑干活吗？

下面逐一深入分析。

1、与Manus相比，谁更强？

先说结论：从目前两方官网案例所呈现的效果来看，Manus表现更突出。

以“写投资报告”为例进行对比。Manus的案例是“特斯拉股票分析”，智谱的案例是“具身智能行业研究”。对于非技术用户，评价AI好不好用可从三个维度入手：思考逻辑是否合理？信息来源是否可靠？最终输出效果如何？

先看思考过程。Manus的第一步是创建“待办清单”，将整个任务的工作流完整列出并逐步执行。智谱则将任务拆分为几个大模块，先思考第一个模块要做的几件事，完成后再思考下一步，再执行。这两种任务拆解模式各有优劣，难以简单判定高低。以人脑思考为参照，熟悉领域时一次性完整规划再逐步执行更高效；陌生领域则无法预先完整规划，需要先完成第一步，根据新获得的信息再判断后续行动。因此，两者在这方面不分伯仲。

其次看内容源质量，这是决定输出质量的核心因素。Manus的信息源来自外网，质量难以直接评判。再看智谱的信息来源，主要包括：arxiv、知乎、腾讯研究院、中国信通院、知网、新浪财经、东方财富网。这些网站内容不差，但从专业投资分析的角度来看，如果信息源能够包含投行或券商的深度研报，说服力会显著增强。

最后看输出结果，这一项Manus明显领先。Manus可以直接生成完整的报告文档供下载，图文并茂、排版清晰。更厉害的是，它还能自动生成交互式网页。而智谱的输出结果与普通AI聊天类似，仅在对话窗口生成一段文案。从呈现的专业度和信息密度来看，Manus明显更胜一筹。

接下来，分享两个实际测试案例。

2、实测案例

本次测试没有选择专业研究场景，而是基于两个日常需求：路由器选购推荐和自媒体选题搜集。

案例一：路由器选购推荐

这其实是当时遇到的真实问题。之前受移动业务员推销升级了千兆宽带，但路由器仍是几年前的旧款，网速提升并不明显。作为一个IT小白，花了几小时看攻略，搞懂各种参数与功能的对应关系后才选到合适的产品。这次正好用相同问题考验智谱，看它的判断与最终选择差距有多大。

提问：“我要买一台路由器，信号要覆盖80平的房子，千兆宽带，满足日常办公、生活需求，联网设备为电脑、电视、pad等电子产品，无智能家居联网需求，预算260以内。”

智谱首先进行需求拆分，再进行任务拆解。亮点在于它考虑到了需要查看“用户实际使用评价和体验”。

执行每一步时，智谱会检索十个左右网站，挑选质量最高的内容深入阅读。经过多轮检索分析，筛选出几个推荐型号后，再到京东查看当前价格和用户评价，最终生成一份报告。报告前半部分是选购要点及参数对功能的影响介绍，后面给出推荐列表和推荐理由。最终结果中，竟然包含了我最终选购的那一款（当时在小红书上刷了两个多小时攻略才定下来）。在这个案例中，确实节省了大量精力。

同样的问题也问过DeepSeek，结果不如AutoGLM沉思。关键问题是DeepSeek无法打开京东这类购物网站，无法获取实时价格，推荐结果的参考性大打折扣。

案例二：搜索小红书AI领域近期10条爆款，并总结成表格

选题是自媒体人日常最耗时的环节之一，需要在各大平台反复刷找爆款。如果AI能接管这部分工作，将极大节省时间。这次进行了多轮提问，最终结果仍不理想。

第一次提问：“帮我搜索近1个月内，小红书里10个AI领域低粉爆款的笔记（低粉爆款是指5000粉丝以内，点赞量10倍于笔记日常水平）。需要把这些笔记的标题、博主名称、粉丝数、点赞数、笔记链接整理给我，用Excel表格形式输出”

第一次翻车的原因在于任务拆解不合理。已经明确要求直接搜索“AI类笔记”，并给出了低粉爆款的定义，它只需执行即可。但智谱依旧先执行“理清概念”这一步，结果搜索出一堆“用AI做小红书爆款的方法论”。

总算将第一步执行完后，开始打开小红书，但网页浏览需要登录。由于登录超时，它又退回第一步，开始执行“找小红书打造爆款的方法论”。这个过程耗费了大量时间，迟迟无法进入第二步。无奈打断，再次强调已给出的信息，并引导它重新进行任务拆解。这次拆解正确，开始到小红书搜索AI类关键词。

然而新问题再次出现。在小红书网页端搜索爆款时，默认的“综合”选项下显示的是相对最新且较热的内容。如果选择“最新”，内容够新但难以刷到爆款；选择“最热”，内容很爆但选题可能早已过时。在这一步，智谱默认选择了“最新”，结果搜出一堆0点赞内容，还逐一查看。

考虑到它不了解这种运营小技巧，也情有可原。于是给出了详细的执行步骤。结果又出现新问题：对“近1个月内”的时间理解出错。它自己算出来是2.5个月前的内容，却仍说符合1个月内。

锲而不舍，再次给出细致的任务要求和执行步骤。这次终于顺利执行完，思考链路中确实看到找到了不错的内容。但最后梳理清单时，却给出了10条点赞个位数的内容，有的甚至还是编造的假内容和链接。AI的幻觉问题依然存在，“替人打工”这件事还谈不上。

3、几点思考

满打满算，认真学AI也就一年出头。从一开始的恐慌焦虑，到如今为每一个新功能而兴奋。关键一点在于：AI用得越久，学习能力和思考能力反而提升得越快。AI不仅能帮忙干活，还能顺带开发大脑。有几个想法值得深入聊聊。

1）人的大脑是遇强则强的设定，但要做到“遇强不躲”。

人的成长靠的是不断提升认知，而认知的提升来自与外界碰撞后大脑的反馈。与AI的每一次交流，都是用已知信息去碰撞未知世界。AI的结果无论好坏，都会激发大脑进一步思考。结果太差，会促使你不断优化沟通方式；结果优秀，会让你迅速学到新知识、激活新想法。DeepSeek很强，GPT很强，Claude也很强。但一个显著的事实是：那些深度使用这些工具的人，也变得越来越强。

2）灵机一动是人脑独有的优势，但灵感需要激活。

什么叫灵机一动？举个小例子：现在的公众号文章标题，几乎都是DeepSeek帮忙取的。写Get笔记那篇时，写完文章发给DeepSeek，它给了8个标题。借鉴了其中一句话，最终标题定为：《腾讯ima被偷家，Get笔记重磅上新：2步批量订阅100个优质公众号！》阅读量是日常的30倍。大概率是因为前面那句“腾讯ima被偷家”引发了读者好奇，评论区也都在对比这两款工具。这句话就来自灵机一动。这种灵机一动不代表比DeepSeek写得好，但却是真实想法，代表独特性。在AI批量生产同质化内容的时代，正确而完美不一定受欢迎，有“独特想法、真实体验”的内容会更稀缺。而这种灵感的激活，需要不断涉猎新知识，并将其用在工作和生活中。“文章本天成，妙手偶得之。”AI如果是那个“天”，我们只需练就一双“妙手”。

3）细分领域的知识永远是稀缺的，越早积累越有优势。

上面那个“找小红书低粉爆款”的例子就是最佳实证。AutoGLM沉思之所以一直出错，很可能的原因是它不了解“自媒体运营”的细节技巧，对小红书平台的细节操作也不懂。而网上搜到的运营知识都是宽泛的概念和方法论，不会说得这么细。更别说一些有专业壁垒的行业，高质量内容根本不在互联网上。对于普通人来说，“积累细分领域的知识”是当下最有价值的一件事。

总结一句话：AI取代不了人，但会接管那些不需要灵感、有标准SOP的工作。

来源：https://www.53ai.com/news/LargeLanguageModel/2025040570263.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。