
昨夜,AI领域迎来一声“惊雷”。一个名为Manus的全新通用智能体项目正式亮相,凭借其卓越表现迅速引发行业震动。看完官方演示,只能用“震撼”来形容其能力。
这种感觉,仿佛亲眼见证了OpenAI的DeepResearch与Claude的Computer Use能力的深度融合,并且它还额外具备了自主编写代码的强大功能,进化成一个真正全能的编程智能体。我们曾预见这一天的到来,只是未曾料到,它的降临如此迅猛。
更令人瞩目的是,Manus在权威通用AI助手基准测试GAIA上的得分,已经超越了OpenAI的DeepResearch,成功登顶榜首。
这里简要说明GAIA基准。它是由Meta AI、Hugging Face等顶尖团队于2023年共同提出的评估体系,包含466个精心设计的真实世界任务。与传统的数学或编程测试不同,GAIA的问题看似概念简单,但解决过程需要多步骤的复杂操作,高度模拟实际工作场景。测试分为三个难度等级,要顺利通过,AI必须综合运用网络检索、工具调用、编程、文件处理等多种能力。
回顾2023年,人类专家在这些任务上的成功率高达90%,而当时最强的GPT-4模型,在初级任务上的成功率也仅为15%左右。通过这一对比,便能深刻理解Manus当前成绩的卓越含金量。
目前,Manus正处于邀请制封闭测试阶段,需要获得邀请码才能体验。不过,即使暂时没有邀请码,访问其官方网站也能浏览一系列极具启发性的应用场景演示。
登录后的界面呈现为一个简洁的对话框,但Manus的工作模式与普通聊天机器人截然不同。当你提出一个复杂需求后,它会首先进行智能化的任务拆解与步骤规划,随后在云端自动执行一系列操作。用户可以随时关闭页面,待任务完成后会收到系统通知。
例如,如果你需要将一篇关于GAIA的PDF学术论文,转换为一篇面向大众的科普风格PPT演示文稿,并向Manus提出详细指令(包括:使用OCR技术提取PDF信息、总结核心内容形成大纲、参照小米发布会风格进行视觉设计、最终提供可下载的文件),它会如何应对?
首先,它会花费少量时间深度理解你的需求。接着,右侧界面会启动一个云端虚拟机,并生成一份清晰的任务待办清单。随后,它便开始按部就班地执行:自动安装必要的Python库、精准提取文本内容、逻辑化整理信息、智能化设计幻灯片版式……每一项完成的任务都会在清单上实时打勾标记。
整个交互过程的设计堪称典范。右侧界面像播放幻灯片一样,实时展示Manus的“思考过程”与每一步具体操作,为用户带来前所未有的透明度和掌控感。即使任务需要运行数分钟,观察其一步步稳健推进,体验也异常流畅。最终,一份结构清晰、内容准确的PPT便呈现在眼前。虽然在视觉美学设计上尚有优化空间,但其信息提炼的精准度和内容排版的逻辑性已相当出色。
另一个更能体现其强大实用性的例子是发票整理任务。对于需要处理大量报销发票的职场人士而言,手动将发票信息录入Excel模板是一项繁琐耗时的工作。而当你将一堆发票图片打包上传,并简单要求Manus“按照给定模板格式进行整理”时,它成功完成了挑战。
它自动将任务分解为解压文件、安装OCR识别依赖库、识别发票关键信息、智能填写表格等八个连贯步骤。大约9分钟后,一份几乎完全正确的报销表格就自动生成了,仅有个别信息因图片清晰度问题留空待补。这种高度的自动化处理能力,足以让我们重新评估许多日常重复性工作的价值与效率。
再来审视更复杂的商业分析任务。例如,要求分析阿里巴巴的股票表现。对比OpenAI的DeepResearch(通常产出质量较高但可读性一般的文本报告),Manus的应对策略更为高级。它将任务拆解为8个核心步骤,最终产出的并非静态文档,而是一个包含可交互数据图表和结构化图文的动态链接报告。这种交付物的实用性、直观性和交互性,无疑提升了一个新的层次。
甚至在今天阿里巴巴宣布开源QwQ-32B模型后,让Manus快速梳理其开源历程与关键时间节点,它也能在半小时内生成一张清晰、直观的信息脉络图。
经过数小时的深度体验,一个核心感受是:在向Manus描述任务时,指令越清晰、越具体、越详细,其执行过程就越精准,结果匹配度越高。明确说明你的最终期望、格式要求以及质量标准,能显著提升产出结果的质量。掌握这一要点,对于高效利用此类通用智能体至关重要。
2025年3月6日,无疑是人工智能发展史上值得铭记的一天。一边是阿里巴巴开源QwQ-32B模型,以极具竞争力的参数规模追平了全球顶级模型的性能表现;另一边则是Manus的惊艳亮相,将智能体技术的工程化应用推向了前所未有的新高度。而最令人振奋的是,这两个引领技术潮流的团队,都来自中国。
这片创新的星空,正为我们而闪耀。
