游乐游手机版
首页/AI热点日报/热点详情

年AI三大新趋势:从Manus到MCP

类型:热点整理2026-07-03
2025年开年以来,AI战场上的火药味愈发浓烈。从DeepSeek R1到OpenAI CUA,再到Manus,一连串的重磅创新令人目不暇接。经过这段时间的密集追踪与深度思考,我将这些观察整理为几大趋势预判,为2025年的人工智能发展划出重点。 Manus:Agent元年的一次抢先起跑 在获得Man

2025年开年以来,AI战场上的火药味愈发浓烈。从DeepSeek R1到OpenAI CUA,再到Manus,一连串的重磅创新令人目不暇接。经过这段时间的密集追踪与深度思考,我将这些观察整理为几大趋势预判,为2025年的人工智能发展划出重点。

Manus:Agent元年的一次抢先起跑

在获得Manus体验账号后,我们的团队第一时间进行了全面测评。首先给出一个核心判断:尽管Manus目前尚不完美,但其在产品设计上的创意,绝对值得高度认可。

本质上,Manus的架构设计非常巧妙——“虚拟机+多Agent协同”模式,底层集成了GPT-4、Claude 3等多个大模型API,实现了任务的动态分配与模型按需调用。它突破了传统AI助手“只给建议、不参与执行”的限制,真正做到了从需求输入到成果交付的端到端闭环。

更值得一提的是,Manus提出的“Less Structure, More Intelligence”交互理念。通过无代码化的自然语言接口,用户的使用门槛被大幅降低。还有一个有趣的细节:Manus用外置的markdown文件来管理Agent的任务规划,并将阶段性工作成果保存为独立文件。这个小设计,蕴含着不小的巧思。

Manus的不足与改进空间

创意虽好,现实却骨感。Manus目前暴露出的问题也比较明显。

第一个硬伤:“幻觉累加”。

Agent的本质,是多次大模型问答的串并联组合。算一笔账:单次问答准确率为90%,串联10次后,最终回答准确的概率只剩0.9^10,约等于三分之一。这个数学事实决定了多步任务的可靠性必然面临严峻挑战。

举一个实际案例:让Manus对某上市公司进行财务数据分析。它确实聪明地引入了data_api模块,准备从雅虎接口调取数据。然而,到了process_finance_data函数中,它竟然直接把revenue、gross_profit等数据“硬编码”进了代码。验证后发现,部分数据是错误的。原始数据一旦出错,后续分析再深入、图表再漂亮也都失去了意义。

第二个短板:可调用的工具严重不足。

让Manus撰写一份关于“小米Su7”的市场分析报告PPT。它出色地拆解了任务、检索了大量新闻,但最终卡在了生成PPT这一步——因为它无法调用Office软件。目前Manus输出的内容形式多为纯文本或网页,与人类真实工作流之间,还隔着一条鸿沟。

第三个挑战:小院高墙的互联网生态。

互联网看似开放,实则层层围墙。优质信息大多存放在“围栏”之内。例如,让Manus分析市面上所有AI智能眼镜的性价比,它找到了淘宝页面。可当它试图打开具体产品页获取价格详情时,淘宝将其判定为机器人,直接拒绝访问。

类似的情况一再发生。让Manus为非上市公司出具商业分析报告,它访问CrunchBase数据库获取最新融资进展,结果同样被判定为机器人后无情拒绝。优质信息就在墙内,Agent却进不去——这个生态瓶颈,直接限制了Manus的工作效果。

尽管存在种种问题,Manus依然为我们展现了MultiAgent的巨大前景,打响了Agent元年的第一枪。

OpenAI CUA:一个会自主操作电脑的Agent

几乎在同一时间,海外AI大厂也在密集布局。今年1月底,OpenAI发布了由新模型CUA驱动的AI智能体Operator。CUA模型融合了GPT-4o的视觉能力以及通过强化学习实现的高级推理能力,能够将任务分解为多步骤计划,并在遇到挑战时进行自我调整和纠正。

简单来说,CUA就是一个会操作电脑的Agent。其运作原理非常直观:它同时接收两种模态的输入——文本指令和屏幕截图。处理这些信息后,生成一系列动作指令,例如“点击屏幕坐标为(300,200)的点,输入XXX,按回车”。电脑执行指令后,将新的屏幕截图与任务状态反馈回去,如此循环往复,直到得到最终答案。

CUA目前的操控水平如何?根据OpenAI官方测评,在操作电脑和操作浏览器这两个场景上,相比上一代SOTA都有了巨大的性能提升。不过与人类相比,差距依然明显。换句话说,目前最顶级的Agent还无法像成年人一样正确操作电脑。但这个现状,大概率会在今年发生质变。

Anthropic MCP:AI时代下的TCP/IP协议

在分析Manus缺陷时,我们提到了“工具不足”的痛点。Anthropic显然也看到了这一瓶颈,去年年底推出了MCP,试图从根源上解决它。

MCP的全称是Model Context Protocol,它定义了应用程序和AI模型之间交换上下文信息的方式,让开发者能够以一致的方式将各种数据源、工具和功能连接到AI模型。打个比方,MCP之于AI,就像TCP/IP之于互联网。

MCP有三个重要特点:

  • 标准协议:将AI与所有工具层的交互接口统一为一个标准
  • 动态发现:AI能按需寻找并调用能够完成指定任务的工具或服务
  • 双向通信:AI与工具之间的通信是双向的、有状态的——AI既能从工具获取数据,也能向工具发送指令

目前已有越来越多工具和服务接入MCP,包括Google Maps、PGSQL、ClickHouse、Atlassian、Stripe等。在Smithery平台上,用户可以轻松查找不同功能对应的工具。随着更多Server接入MCP协议,AI能直接调用的工具将呈指数级增长,这可以从根源上打开Agent能力的天花板。

2025年AI发展新趋势:后训练、强化学习、MultiAgent

综合最近几个月的观察与思考,2025年AI发展的几大趋势已经越来越清晰。

第一,预训练即将终结,后训练成为重点

这已成为行业共识。去年年底NeurIPS大会上,Ilya提出了一个重要观点:数据是AI时代的化石燃料,因为人类只有一个互联网。与此同时,DeepSeek R1的论文也明确指出,后训练将成为大模型训练管线的重要组成部分。

第二,强化学习将成主流,监督学习重要性下降

DeepSeek R1带来的最重要启发是:纯粹的强化学习或许是通向AGI的正确路径。随着训练的推进,大模型会自我涌现出复杂的推理行为,而无需刻意引导。从DeepSeek R1论文中的图表可以看出:横轴是RL迭代步数,纵轴是单次问答的token长度。随着RL步数增加,大模型会自主地从“快思考”变成“慢思考”——从初始每次回答100个token,到最后接近10000个token。

DeepSeek团队将这种现象称为“self-evolution”,并视之为“the emergence of sophisticated behaviors”。具体涌现了哪些复杂行为?包括自我验证、反思等。这个发现意义深远:未来监督学习在AI训练中究竟应该扮演什么角色?监督学习是否反而限制了AI解决问题的能力?是否不该让AI通过模仿人类思维方式来获得智能,而是让它发展出更原生的智能?这些问题,都有待整个行业用实践来回答。

第三,MultiAgent是确定性的大趋势

将AI与人脑做个类比:大模型就像人脑中的“前额叶”——负责高级认知功能,如注意力分配、思考推理、决策。但只有前额叶,大脑无法处理复杂任务。我们需要颞叶进行听觉信号解析,需要顶叶进行阅读和算术,需要小脑进行运动协调,需要海马体进行记忆索引。

MultiAgent的定义,恰恰是让多个不同模型之间互相协调,从单独的“前额叶”走向“完整的大脑”,从而处理更复杂的现实任务。在这个蓝图中,MCP扮演着关键角色:协调统一大模型与各工具之间的数据通信接口。

结语:抓好扶手,未来已来

2025年是AI Agent元年。Manus打响了第一枪,而OpenAI的CUA与Anthropic的MCP,都指向同一个方向。未来两年AI的发展速度将非常陡峭。抓好扶手,未来已来。

来源:https://www.53ai.com/news/LargeLanguageModel/2025031779518.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。