游乐游手机版
首页/AI教程/文章详情

爆火Manus实测10个难题考验真实实力

时间:2026-06-26 16:47
Manus作为全球首款通用性Agent,实测显示其在网页生成、自主操作等任务中表现惊喜,但在审美、格式交付、表格填写等方面存在不足,且常遇负载过高问题。整体赋予应用想象力,精准任务执行仍有待优化。

又一次狂欢开始了。

“扔冲击波”、“AI双星”、“再革OpenAI的命”……这些震耳欲聋的夸耀,似乎要复制一个deepseek式的成功。新产品叫Manus,官方称其为全球首款通用性Agent。

Manus能做什么?官网上密密麻麻的demo陈列,从做旅行攻略、股票分析、生成课件到审合同,功能强大得像童话故事。这也直接导致“一码难求”——据《第一财经》报道,内测码一度被炒到9万元一个。

为了给出真实的判断,我们向开发团队申请到了内测码。以下,就是这次实实在在的体验。

(测试的开头就不太顺——有码在手,却在注册页面从早上9点卡到了下午1点半。)

先说总结:Manus是一个运行在虚拟机中的多Agent架构,包含一个负责任务拆解的规划型Agent、一个调用具体工具的执行型Agent,以及一个跟踪进度和debug的监控验证型Agent。说白了,它的理解能力、工具调用能力和计算机资源调度能力,都必须非常强,才能将复杂任务拆解成可执行的步骤并保证效率。

内测用户每天有10个任务配额。当我们给它第11个任务——让它“做个梗图”时,它告知已经达到使用上限。很遗憾,没能测到它的“情商”。

在高级模式下,让它写一篇文章,处理时长大约在30分钟到1小时。普通模式下,比如写一个HTML页面,大约需要15分钟。

我们测试的功能包括:分析上市公司股价、设计网页、写研报、填表、甚至游戏“代打”。完成情况有好有坏,以下是部分回顾。

这些任务让我惊喜

今日最佳,非“世界时钟.html”莫属。别说,Manus写出来的网页还挺符合审美,“添加时区”、“删除时区”、“下载”等交互也都没问题。

第二个惊喜是,我让Manus去一个“外国版4399”网站上自己找个游戏玩(现在回想起来,这个需求确实很抽象)。它成功访问了网站,在多个游戏类别里选中了一个赛车游戏,读取了网页和图片信息,点击了“Play Now”,在游戏界面里自行选择了“汽车”和“竞速模式”。

游戏开始后,Manus控制的车却停在原地。我意识到它可能不太了解游戏机制,提示“请用WASD开车试试”后,车居然……跑起来了(速度就别强求了)。

在这个任务里,AI Agent展现出一定程度的可自主操作性——这是它能独立完成工作的前提。

这些任务“不太行”

当我让Manus写一个“浪漫高级的生日祝福网页”时,不仅无法交互——图片、应该满屏闪烁的爱心、音乐都无法点击,连审美也差强人意,选用了非常正式的“宋体”。当要求用本世纪的审美重新生成后,始终访问不到虚拟机中的最新版网页。

按理说,想做得更美观,可以通过提示词让它继续修改。但不止这个任务,其他任务下也经常提示“负载过高,服务器出错”。所以我们没有执拗于生成一个极其精美的网页——按今天AI的能力,做个在线抽奖系统之类的应该不成问题。

一些“正经活儿”上,Manus的表现也低于预期。我让它分别做了一个“高分子材料性能预测与仿真”研究报告,以及一篇关于“碳纤维结构件”的科普文章。

我想测试两个能力:一是它在垂直领域的深度检索和信息处理能力,二是按照特定要求和格式交付的能力——这是区分AI通用搜索的重要两点。

这个任务里,它有几点不足:

· 过度推理:比如,当我只希望AI研究碳纤维的生产工艺时,它会发散性地总结大量市场分析和行业应用信息。

· 信息来源不足:Manus的思考过程是清晰展示出来的,能看到它正在浏览哪些文章、视频资源。但其引用的资源大多来自中文聚合平台和国内期刊,缺少国外期刊及第一手资源。

· 无法按特定格式交付:比如,我希望Manus直接生成一个能向老板汇报的PPT,最终却只得到了一个markdown格式的中间态。

· 多次需要人工接管:抓取某些内容平台或付费墙内容时,需要手动登录账号。看来,AI Agent也解决不了“数据边界”问题。

最后一类任务——让AI替代填写表格(财务人估计狠狠点了),是我最期待,也是我认为团队应该优先优化的需求之一。

我上传了一张医保发片和一份保险申请书,让AI“把申请书里原本金额部分清空,并填入新发片中的信息,金额以自付部分为准”。

AI无法真正理解表格结构以及每一处信息的真实含义——比如没有修改日期、覆盖了金额和时间之外的信息(把我的身份证号删除了)、或者找不到信息该在的位置。这个任务中还多次出现计算资源不足的情况。

也许,对于需要AI精准“定位”的任务,我在给提示词时也应该更精准、更“按部就班”。但这也反映出,AI在发挥想象力、凭空生成的任务上,比在已有框架下修改更容易、效果更好。

就好比让一台机器人“拿杯水过来”——它能通过各种传感器计算出你在它2点钟方向、往前走10步就行呢?还是不管不顾冲到你面前,给你一个“大比兜”?当执行足够精准时,就是前者——AI Agent能给你一篇可以拿去忽悠老板的PPT。否则,你只能拿着AI的“半成品”修修补补。

任务完成得虽然不尽如人意,但也不是没有优点。通过看每个任务下的思考过程,确实能窥见AI Agent的推理思维链。比如,当我以小米SU7 Ultra引出碳纤维结构件问题时,它的思考过程是从点切入,逐渐展开。即便它总结的备忘录只是个半成品,也给了我很大启发。

很多时候,Manus遇到问题后会告知它正在自行修正和处理。它还有一定的“记忆机制”,会跟你确认是否需要按照你的偏好继续生成。

总的来说,这款全新产品还是赋予了大众很多应用上的想象力,也尽可能覆盖了主流需求。但话说回来,AI Agent应该是一个非常个人化的东西,所以更期待它在解放生产力上的进步和表现。

来源:https://www.aiagiai.com/9164.html
上一篇DeepSeek给中国To B服务带来了哪些变化 下一篇实探Manus总部是真颠覆还是假狂欢
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案
AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年,内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化,八个坑一个比一个深。今天把这些实战经验整理出来,希望能帮正在内网搞自动化的兄弟们少踩点雷。 一、内网无网络环境怎么部署RPA流程:先搞清楚什么叫“真离线” 很多工具宣传“支持本

水利工程师用WorkBuddy写洪水报告效率提升3倍
AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季 水利工程师AI提效实战:用WorkBuddy撰写洪水影响评价报告,效率提升3倍 WorkBuddy 效率 人工智能 开发工具 一、我是谁,为什么需要AI 先介绍一下自己——我是一名水利工程师,在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

日志服务数据加工规则洞察仪表盘使用指南
AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘 想实时掌握日志服务加工功能的运行状态?直接从加工列表页点击那个“规则洞察”按钮,仪表盘就会立刻呈现出来。入口就在那儿,不绕弯子。 跳转后,你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图,展示的是当前实例ID(90c9d47714dbb807d47c1

基于RFID的固定资产管理系统技术架构与工程实践
AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰,资产数量动辄数千件,且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈:采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签,识别距离通常不超过30厘米,操作人员需逐个寻找并扫描,盘点效率完全受限于人力。面对5

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效
AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动,这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲,还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具,借助AI替你分担这些重复性工作。 背景:盯盘的核心痛点 股民都有同感——每天不只要查询单只股票的实时行情,还