金融场景多智能体应用深度探索与实践
类型:热点整理2026-05-31
嘉宾 | 陈鸿 蚂蚁集团专家 编辑 | 李忠良 在金融科技的浪潮里,多智能体技术正在成为一股不容忽视的推动力。当海量信息和复杂决策交织在一起,怎么借力这项技术来优化金融决策?在 AICon 全球人工智能开发与应用大会(北京站)上,InfoQ 邀请到蚂蚁集团资深算法专家陈鸿,他不仅分享了蚂蚁在大模型技
嘉宾 | 陈鸿 蚂蚁集团专家
编辑 | 李忠良
在金融科技的浪潮里,多智能体技术正在成为一股不容忽视的推动力。当海量信息和复杂决策交织在一起,怎么借力这项技术来优化金融决策?在 AICon 全球人工智能开发与应用大会(北京站)上,InfoQ 邀请到蚂蚁集团资深算法专家陈鸿,他不仅分享了蚂蚁在大模型技术领域的最新进展,还针对金融行业面临的信息爆炸、知识复杂性和决策难度等挑战,给出了自己的解法。
重点在于,他提出了一个基于 **AgentUniverse** 框架的 **PEER 模式(Plan-Execute-Express-Review)**,这个模式有望显著提升金融决策的精准度和效率。以下是对陈鸿演讲内容的系统梳理,希望能为读者带来前沿的大模型洞察,也能激发一些把这些技术落地到金融实际问题中的思路。
---
## 从大模型到多智能体

智能体、多智能体确实是眼下的技术热点,但作为从业者,我们还是得清醒认识到:没有哪个技术方案能包打天下,每个技术都有自己的问题域和能力边界。要理解从大模型到智能体再到多智能体这几个概念之间的关键差异和适用场景,不妨先从语言模型说起。
一个经过充分预训练的基模型,本质上是一个压缩了海量知识的知识容器,但这些知识藏在百亿到千亿的参数黑盒里,用起来相当费劲。2020 年 OpenAI 发布 GPT-3 时,因为生成内容不可靠、不可控,媒体一片嘲笑和质疑,和现在的追捧形成鲜明对比。直到 2022 年底 ChatGPT 破圈,才彻底逆转了大众对大语言模型的看法。基模型在完成对齐(SFT + RLHF/DPO)之后,成为一个助手模型,可以看作一个以自然语言为输入输出接口的 AI 机器——它不仅能流畅交流,还能通过语言操控其他工具,并且具备一定程度的简单推理能力。当然,问题一复杂就很容易翻车。
整体而言,这批 Chat Model 已经让人产生了一些“它可能真有智能”的错觉。但本质上,**大模型只是一个无状态的 query-answer 机器,它在某种意义上等价于哲学家约翰·塞尔提出的“中文屋子”思想实验**。LLM 本身没有状态,你和它聊五分钟之后再聊,跟隔五天再聊,它对你的态度不会有任何差别。所有状态性的处理,都得靠外部的 Prompt 机制来实现。比如多轮对话,需要外部系统维护整个对话 session 的状态,再回传给 prompt。
**从大模型到智能体,最关键的区别就是:从无状态的模型变成了有状态的状态机。** 智能体要接入环境、完成任务,必然涉及工作流,也需要保持任务状态的能力。无状态的模型没法持续跟进一个任务的进展。比如感知、行动、记忆、规划这些核心组件,都依赖对被定义的状态的识别。人类的智能其实也一样——光谱是连续的,但我们只喊得出赤橙黄绿青蓝紫;声音频谱是连续的,但我们的听觉把音频加工成了离散的元音、辅音、字、词。这些离散的 token 才是语言的基础。
要让大模型接入真实世界解决真实任务,就需要把它封装成某种智能体。成为状态机是 Agent 规划和完成任务的关键,但专业任务往往是多环节、多分支的,每个环节和分支上,专业化分工能带来更高的 ROI。这就催生了从智能体到多智能体的必要性。而不同环节的职能岗位上,如何通过合理的协同模式把不同智能体组织起来,是多智能体的核心技术问题。多智能体作为一个团队,需要比直接的端到端大模型或单一智能体单打独斗更加鲁棒,不能因为组织的复杂性反而变得更脆弱。
后面会专门讨论多智能体的协同模式。另外,金融场景里的任务可以粗分为两类:一类可以由大模型端到端直接生成结果,比如问答、摘要、给出建议——这可以类比人类的系统 1 或快思考模式。另一类需要分析、归因、决策,更适合通过智能体或多智能体来实现。

这一页专门讨论基于大模型的智能体。Agent 这个概念远比大模型历史悠久,1995 年的经典教材《人工智能:一种现代方法》第一版就以 Agent 为中心展开。感知器、行动器、规划器、记忆——这些核心组件早在 95-2000 年就已经成体系地提出了。
对于以端到端完成任务为目标的智能体来说,没有状态,不成方圆。**感知、规划、行动、记忆这些核心能力,实际上都依赖于对特定状态的定义和识别。** 感知能力依赖对环境状态的定义;规划能力依赖对任务不同状态的定义;行动能力依赖对行动选项状态的定义;记忆能力则依赖对行为结果状态的定义。智能体就是通过识别这些状态,与外部环境对接,来管理和完成任务。
这套设计在理念上很合理,但以前只能靠规则或上一代机器学习算法来识别状态或状态间的迁移,泛化能力不足,导致实际任务中各种 bug 层出不穷。比如家里用过扫地机器人的朋友们,应该能想起不少因为 corner case 闹出的笑话。
大模型出现后,AutoGPT、LangChain 等框架开始发挥大模型控制工具的能力,很多人看到了用大模型作为智能体核心引擎的前景。更重要的是,LLM 取代了机械的规则,能更鲁棒、更泛化地识别任务和环境的状态。理想情况下,当前 LLM-based Agent 可以基于自然语言的任务描述持续展开任务,泛化地确认进度,并动态规划行动。当然,未经调整的通用大模型还是很难无痛完成专业任务,因为专业任务背后有大量的过程性知识——那些不成文的 Know-how,才是让智能体真正顺畅完成任务的关键。

从单 Agent 到多 Agent 协同,驱动力来自于 ROI。专业任务往往是多环节、多分支的,每个环节上的专业分工能带来更高的效率。人类本身就是靠分工协同成为地球顶级掠食者的——不是靠尖牙利爪或个体力量,而是靠组成社会后形成的集体能力,超越了任何超级个体。在 AI 领域,这个道理同样适用。当然,成功的社会化并不容易,历史上多次证明,组织形态的力量(以及错误形态的破坏性)不容小觑。
不同类型的专业任务,需要设计不同的协同模式。
- **第一类**:任务可以逐层分解的,适合上下级协同的模式。这个模式非常常见,我们开源的 Agent 框架核心贡献就是提供了一个核心抽象:PEER(Plan-Execute-Express-Review)。
- **第二类**:那些存在解法但难以拆解为固定步骤的,适合师生传授式协同。比如数学证明需要思路点拨或样题举例,不适合分工规划再解决。
- **第三类**:开放性的复杂问题无从规划,更适合用某种竞争-评价的机制让不同智能体并发搜索可能的解法。
---
## 金融场景中的多智能体

回到金融场景,**它的特殊性可以概括为三点:信息密集、知识密集、决策密集。**
- **信息密集**:金融业务强依赖高频更新的资讯,时效性处理要求严苛,同时大量信息属于相关但无因果关系的噪声,需要有效屏蔽噪声才能做出正确决策。
- **知识密集**:金融市场中围绕各种资产,理论和观点五花八门,而且彼此高度对立。某种意义上,冲突构成了市场交易的基础——买卖双方必然对资产价格有不同预期,意见一致就不会有交易。金融领域的观点天然冲突,大模型不能强行捏合成一个统一观点,既要明确共识,也要暴露分歧。此外,比知识冲突更需要关注的是知识的边界。不存在无远弗届永远生效的知识,很多金融逻辑都有对宏观经济形势的潜在要求,大模型需要理解这些边界,否则就会闹笑话。
- **决策密集**:金融决策有很强的特征:不确定性——面对开放环境,其他市场主体的博弈带来无穷变数,决策从头到尾需要和不确定性共舞;高度不对称——很多决策中只有个别决策处于关键位置,带来关键收益或规避主要风险,如何定位这些关键决策点,是金融要处理的决策不对称性问题。
信息、知识、决策三类问题,大模型领域都有标准解法:RAG 提供信息更新,图谱规范知识,CoT 强化推理能力。但 **标准方案在金融场景下效果往往不及预期**:RAG 容易引入噪声,图谱难以处理冲突和有边界的知识(有边界的知识不是简单的二元关系,需要 N 元关系来刻画),CoT 也难以处理决策的不确定性和不对称性。
因此,我们需要针对金融场景定制方案。**信息、知识、决策三类任务可以归结为两个对齐方向:严谨性和专业性。** 后面会分别展开。整体思路是:大模型负责压入必要的知识和能力,多智能体装载相关的过程性 Know-how,来保障金融的严谨和专业。

大模型有幻觉的内在缺陷,这已经是老生常谈了。但内在缺陷并不意味着基于大模型的智能体应用无法按严谨标准完成任务。人也有类似的问题,人类早已熟知通过系统的方式保障严谨标准。**幻觉是两种生成式智能(人和 AI)共同的特征,它恰恰来源于对空缺的预测和生成。** 认知神经科学中有不少实验说明,当人类患者和视觉相关的脑组织被切除或破坏后,大脑会在盲区里自动填补出生动的幻觉。日常生活中,当我们被问及知识边界之外的问题,大脑也会快速脑补一些“幻觉”来填充知识空洞。
这里列了知识引用、知识边界、知识冲突等容易引发幻觉的场景,当然远不止这些。**具有内在缺陷,不代表系统不能安全工作。** 人自己就是例子:我们大多数情况下会信任司机安全送达目的地。驾照考试本质上就是一个对齐过程——让普通人向老司机一步步对齐:科目一/二/三分别对应知识注入、SFT 和最后的强化学习阶段。但如果只有安全的司机还不够,汽车也需要遵循安全规范,做好各种情况下的安全措施。最终,交通系统整体也需要安全规范。
把这个隐喻映射到 LLM 应用上:LLM 需要面向严谨性对齐(基于细分任务接受检验),LLM 外的智能体需要准备更多面向严谨的辅助措施(类似汽车对司机的支持),最后才是整体系统层面的规范性工作。个人认为,严谨性任务还是应该聚焦在模型和智能体这两层,系统级别的围栏有效且必要,但模型和智能体如果毫无改善,就会出现大量尴尬的拒答。

**专业是相对于通识而言。** 讨论专业性时,需要意识到:**专业本身就是分工的产物,无分工,不专业。** 一个个专业职能和擅长这些职能的专家,是人类社会面向经济效率优化的结果。只有协同分工才是针对多任务难问题的高 ROI 方案。那么,用超强的 AGI 或当前可得的最强大模型去处理所有问题,是不是 LLM 时代的合理解法?显然不是。各家大模型厂商提供不同尺寸的模型供选择,应用方更有责任面向专业任务,将基座向特定专家对齐。面对复杂困难任务时,多智能体团队协作的 ROI 更容易超过超级基座单打独斗。
其次,在专业领域,知识容易速成(弥补),但专业能力提升困难。这一点 LLM 和人高度一致:新知识出现,可以快速查阅资料弥补;能力不足,则必须通过亲身实践和踩坑才能进步。对大模型也一样——知识缺乏可以靠 RAG 或 KG,但计算、推理、行情归因等专业能力,都不是简单能解决的。
**专业性建设的核心,是对一个系统中不同专业职能的差异化能力的定义和实现。** 起步阶段可以从优秀基座通过人设套取数据,但面向专家的对齐工作逃不掉,最终需要差异化精调的不同能力。这些能力建议聚合在一个基座中,但还是由不同 Agent 差异化使用。
---
## 多智能体框架 AgentUniverse

关于我们开源的多 Agent 框架 AgentUniverse,各位可以通过《从孤立到协作,大模型多智能体协同使复杂任务迎刃而解》一文做深入了解。项目地址已在 GitHub 和 Gitee 上开放,欢迎开发者们加入社区体验、共建。

投研支小助的底层正是基于 AgentUniverse 的 PEER 框架,结合大量投研专家经验,构建了一个 **投研 Copilot**。PEER 模式是当前版本最具特色的多智能体协作模式组件,包含计划 (Planning)、执行 (Executing)、表达 (Expressing)、评价 (Reviewing) 四个不同职责的智能体。计划者拆解任务,执行者完成任务,表达者汇总表达,评价者最终把关——OK 则输出,不 OK 则重复 workflow。**PEER 这个计划-执行-表达-评价的循环构成了层级式分工协同的抽象。**
虽然 PEER 看起来有点像 Rag Fusion(它确实胜任 Rag Fusion 工作),但它不止于此。它本质上是分工这件事的一个合理抽象,能让分工这个优化方式递归使用、不断深入。比如计划环节可以再引入一层 PEER 来获得更细的拆解,评价环节也可以再引入 PEER 来做更精细的评价。
目前,投研支小助在蚂蚁内部已经应用于报告解读、市场分析、政策解读、宏观分析等多个场景。实测数据显示,它每日可辅助一名投研分析师高质量地完成 100 篇以上的研报、财报和金融资讯的专业解读,以及 50 次以上的金融事件推理归因分析。
---
## 实际案例

以财报解读为例,Query 是:“结合英伟达 2024 财年 Q4 财报分析人工智能行业后续走向”。在策划环节,智能体展开了一系列分析师关注的典型维度,规划智能体遵循了分析师的解读框架,通过一个嵌套的 PEER 过程产出了一系列新的问题。
每天的行情资讯高度套路化,解读行情也有自己的套路。难点在于能否在套路化解读中展现足够的洞察,同时保持观点数据的严谨。

政策——尤其是财政政策和货币政策——对经济有着深远影响,也牵动着用户投资策略。用户可以向支小助提问相关政策对市场的影响。得益于专家分析框架,支小助能像个老手一样对比政策前后的变化去分析政策影响。

宏观分析是对整个经济体的广泛分析,包括经济增长、通货膨胀、就业、财政政策、货币政策、国际贸易和汇率变动等。支小助通过 PEER 范式,对宏观经济等复杂问题也能生成完整报告,胜任基础的宏观工作。
最后预告一下:我们团队的同学很快会针对 AgentUniverse 框架核心的 PEER 模式产出论文,敬请期待。