游乐游手机版
首页/AI教程/文章详情

ICML 2026 GoS:多智能体协同推理共享信念状态构建

时间:2026-06-08 16:31
面向多智能体在动态环境中的溯因推理难题,提出GraphofStates框架。该框架通过因果图和状态机显式维护信念状态,控制推理焦点、回溯与下钻,形成双向神经符号闭环。在医疗诊断和分布式系统故障诊断任务中,其匹配率显著优于基线方法,实现了可控的稳定推理。
近年来,大语言模型在数学、代码等任务上的表现持续刷新上限,但一旦进入医疗诊断、分布式系统故障排查这类真实世界场景,挑战便截然不同——真正的难点并非单次问答,而是让多个智能体在不确定、动态变化的环境中,像人类团队一样持续协作、逐步推理。 这就像医疗诊断:主治医生不会一开始就让病人做完所有检查,而是根据当前诊断方向,动态安排影像科、检验科等不同科室逐步开展检查,一边收集证据一边修正判断。这是一个边调查边决策的过程,而非一步到位。 相比之下,现有的许多多智能体推理方法,虽然表面上有分工,但往往停留在简单串联的层面——前一个智能体输出什么,后一个就直接接手处理;或者默认所有证据已提前备好,缺乏真正的自主调查和动态决策能力。 论文指出,正因为缺少这些能力,现有的CoT、ToT、GoT、FoT等推理框架,一旦迁移到医疗诊断、分布式系统故障排查这类场景,便会暴露出四类典型的失败模式:证据伪造、上下文漂移、回溯失败和过早停止。 ![图1:传统推理框架在溯因任务中的四类典型问题](https://img.318050.com/uploads/20260608/17809063976a26799d48386271414032.webp) *图1:传统推理框架在溯因任务中的四类典型问题* 这些失败并非偶然,背后有两个结构性缺陷: - 许多方法将假设、证据和推理进展混在非结构化的自然语言上下文里,缺乏显式的状态表示; - 缺少状态控制机制,智能体是否选择回溯、下钻、终止,几乎全凭“自由发挥”。 因此,在长程推理过程中,智能体难以稳定地维护推理状态,容易偏离正确方向,或过早停留在表层结论上,无法找到真正的底层根因。 针对这一问题,南开大学研究团队与联想合作提出了Graph of States(GoS),一个面向通用溯因推理任务的神经符号框架。其核心目标:为溯因任务显式构建一个可维护、可回退、可收敛的推理状态空间,将原本隐式、松散的推理过程,转变为受约束的有向搜索。该工作已被ICML 2026正式接收。 ![图2:GoS总体框架](https://img.318050.com/uploads/20260608/17809063986a26799e13c66869400881.webp) 论文标题:Graph of States: Solving Abductive Tasks with Large Language Models 论文链接:https://arxiv.org/pdf/2603.21250 代码地址:https://github.com/gaorch85/Graph-of-States 目前,xCloud联想智能云正加速将GoS技术融入自身智能运维产品体系,助力企业构建零故障、自愈合、业务感知的智能运维体系。 ## 01 GoS:给推理加上“显式信念状态” GoS的核心思想,是将多智能体协作与显式信念状态建模结合起来。整个系统分为两层: - **上层是认知层**,负责具体领域内的多智能体协作; - **下层是符号层**,负责维护结构化的推理状态,并对推理过程进行导航和约束。 在认知层中,GoS不再使用零散的功能原子,而是让中心智能体和专家智能体分别对应现实世界中的专业角色。例如在医疗场景中,对应主治医生、影像科医生、病理科医生;在分布式系统场景中,则对应应用运维、Linux运维、网络运维和数据库运维。这样设计的目的是让推理流程更贴近真实世界的协作分工,也更便于人类理解和审查推理过程。 ![图3:GoS总体框架:双层神经符号架构与整体推理流程](https://img.318050.com/uploads/20260608/17809063986a26799eb9186083941479.webp) *图3:GoS总体框架:双层神经符号架构与整体推理流程* GoS最关键的部分是符号层。它不再将调查过程藏在非结构化的历史对话里,而是显式维护一个由**因果图**和**状态机**组成的信念状态。因果图记录症状、证据、假设以及它们之间的支持、反驳和细化关系;状态机则控制当前的推理层级,决定系统是继续搜集证据、向更细粒度下钻,还是在遇到冲突证据时回退到更早的层级重新判断。 与此同时,GoS还引入了一个关键机制:**推理焦点(reasoning focus)**。系统在每一步不会平均看待所有可能方向,而是聚焦当前层级中置信度最高的假设,将调查预算和推理资源集中到最值得追踪的分支上。这相当于给推理过程装了一个“导航仪”,让原本容易发散的探索变成更有目的性的调查。 ## 02 双层闭环:从推理焦点到证据更新 GoS的推理过程并非简单的“先计划、再执行”,而是一个持续循环的双向闭环。 具体流程如下: 1. 符号层根据当前信念状态找到推理焦点,并将其转化为对认知层的调查指令; 2. 认知层调用工具、获取证据并完成分析; 3. 结果返回给符号层,用于更新因果图、重新校准假设置信度,并触发下一轮状态转换。 这个闭环让多智能体协作不再是无约束的自由发挥,而是始终围绕当前最有价值的假设前进;新获得的证据也不再只是停留在文本里,而会成为后续推理的坚实基础。 ![图4:双向神经-符号交互:从推理焦点引导调查,到新证据反向更新信念状态](https://img.318050.com/uploads/20260608/17809063996a26799fdc430363098916.webp) *图4:双向神经-符号交互:从推理焦点引导调查,到新证据反向更新信念状态* ## 03 关键机制:该回溯时回溯,该下钻时下钻 对于溯因任务而言,真正困难的往往不是“生成一个答案”,而是在推理过程中根据证据变化,按规则决定状态转移。为此,GoS设计了两类核心的状态转换机制:**Backtracking(回溯)** 和 **Drill-Down(下钻)**。 与那些将决策完全交给智能体“自由发挥”的方法不同,GoS为状态演化引入了清晰的转移规则: - **回溯**:当当前推理路径上的某个上层祖先假设,在置信度重估后不再是该层最优候选时,系统会回退到对应层级,并剪除建立在错误前提上的后续分支。简单说,就是“走错了就及时回头,别在错误的方向上越陷越深”。 - **下钻**:并非“觉得差不多了就继续往下想”,而是只有当当前最优假设同时满足**足够的置信度优势**和**足够的支持证据数量**时,系统才会进一步细化到更具体的子假设。 正是这种带有明确约束的状态控制,让GoS在面对非单调、动态演化的信息时,不再只是生成连贯的文本,而是能够以更稳定、更可控的方式,逐步逼近真正可执行的根因。 ![图5:状态转换:回溯与下钻](https://img.318050.com/uploads/20260608/17809064006a2679a0bf2d9556887037.webp) *图5:状态转换:回溯与下钻* ## 04 实验:在两个高风险真实场景中验证GoS 为了验证GoS的有效性和通用性,论文选择了两个极具现实意义的溯因场景:**医疗诊断**和**分布式系统故障诊断**。 **在医疗诊断任务中**,作者基于DiagnosisArena基准做了一个关键改造:不再一开始就提供完整的辅助检查结果,而是只给病人主诉和基础体格检查,让智能体像真实医生一样主动申请检查、逐步获取外部信息,再完成诊断。这样一来,就恢复了“主动取证、动态推理”的溯因本质。 结果相当亮眼:GoS在Human-as-a-Judge评估下取得了39.86%的Match和78.99%的Relevant,明显优于所有基线方法,并且是在更低的推理成本下实现的。 ![表1:医疗诊断结果](https://img.318050.com/uploads/20260608/17809064016a2679a17a15d526994457.webp) *表1:医疗诊断结果:GoS在Match与Relevant上均优于所有基线* **在分布式系统故障诊断任务中**,论文基于真实生产环境构建了150个incident。系统需要从初始告警出发,主动查询日志、指标和shell输出,逐步恢复故障上下文并定位root cause。 实验结果更具说服力:GoS取得了70.67%的Match和88.00%的Relevant,其中Match比最强基线高出36.67个百分点。这说明,许多方法虽然能判断“问题大概在哪个方向”(所以Relevant不低),但要进一步收敛到真正可执行的细粒度根因,仍然需要持续调查、状态控制和层级下钻,而这正是GoS的核心优势所在。 ![表2:分布式系统故障诊断结果](https://img.318050.com/uploads/20260608/17809064026a2679a222457400276364.webp) *表2:分布式系统故障诊断结果:GoS显著提升细粒度根因定位能力* 作者还做了比较全面的消融实验和参数敏感性分析。结果表明,GoS的性能提升并非来自某个偶然技巧,而是确实依赖于推理焦点、因果图和状态机等关键模块的协同作用。同时,随着神经符号交互轮数、检索预算和状态转移阈值的变化,GoS表现出清晰且可解释的性能趋势——这说明该框架不仅有效,还具备良好的稳定性和可控性。 ![表3:消融实验](https://img.318050.com/uploads/20260608/17809064026a2679a2bbd79848628040.webp) *表3:消融实验:显式因果图、状态机与推理焦点缺一不可* ![图6:敏感性分析](https://img.318050.com/uploads/20260608/17809064036a2679a373a7f046144402.webp) *图6:敏感性分析:GoS在不同预算和阈值配置下的性能变化* ## 05 意义:从垂直场景方法走向通用推理框架 从更大的视角来看,GoS的意义不仅在于将医疗诊断和AIOps两个任务做得更好,更在于向前推进了一个更根本的问题:在真实世界的高风险任务中,智能体需要的并不仅仅是更多的知识、更多的工具、更多的上下文,还需要能在信息不完整的情况下显式维护信念状态,处理冲突证据,在必要时回溯,在合适时下钻,最终将搜索过程稳定地导向真实根因。 从这个角度看,GoS所面向的,其实也是当前智能体研究中非常关键的一类问题——**long-horizon reasoning(长程推理)** 与**multi-turn interaction(多轮交互)**:智能体不只是回答一次,而是要在持续调查和多轮交互中保持状态一致,并逐步收敛。 论文也明确指出,GoS并不排斥已有的领域特化方法,反而与它们互补。无论是医疗中的高质量知识库和RAG,还是AIOps中的多模态预处理和SOP检索,都可以与GoS结合,从而提升在垂直场景中的搜索效率和决策可靠性。 换句话说,GoS提供的不是某一个专用智能体,而是一套面向溯因推理、也面向智能体长程推理的**通用推理骨架**。 --- **作者简介** 本文第一作者为罗宇,南开大学智能运维课题组博士一年级,主要研究方向为智能体长程推理、自进化智能体和根因分析。本文通讯作者为南开大学软件学院副教授、博士生导师孙永谦,长期深耕智能运维(AIOps)领域,聚焦云原生、数据中心、超算、智算等领域的故障机理研究,同时致力于多智能体协作与大模型推理优化等前沿方向,持续推动面向复杂系统的智能决策研究。
来源:https://cloud.tencent.com.cn/developer/article/2684301
上一篇AI生成是什么及如何改变我们的生活 下一篇AI助手生成PPT最佳方案提升工作效率与演示文稿质量
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Kimi App手机电脑联动下载安装及浏览器兼容教程
AI教程 · 2026-06-09

Kimi App手机电脑联动下载安装及浏览器兼容教程

本文介绍了Kimi智能助手从手机端到电脑端的下载与安装方法,重点阐述了不同平台(包括iOS、Android、Windows、macOS)的获取途径。同时,详细说明了如何通过浏览器直接访问网页版,并针对主流浏览器的兼容性进行了分析,旨在帮助用户根据自身设备选择最便捷、稳定的使用方式。

HeyGen稳定安装步骤:先配置创意团队环境再注册开通
AI教程 · 2026-06-09

HeyGen稳定安装步骤:先配置创意团队环境再注册开通

HeyGen的稳定安装与高效使用,关键在于前期团队环境的统一规划与后期账号流程的顺畅完成。团队需明确设计规范、素材管理及权限分工,为工具运行打下基础。随后,通过官方渠道完成注册、验证及订阅开通,确保服务稳定。最后进行基础功能测试与团队培训,即可快速投入实际创作流程。

Mochi 1从零搭建本地服务与工作流导入指南
AI教程 · 2026-06-09

Mochi 1从零搭建本地服务与工作流导入指南

本文介绍了在成功完成Mochi1本地服务的基础搭建后,如何继续处理工作流导入这一关键后续步骤。内容涵盖工作流文件准备、导入操作的具体流程、常见问题的排查与解决,以及导入后的配置优化与测试验证,旨在帮助用户将预设的自动化流程顺利集成到本地环境中,确保工具发挥完整效能。

InvokeAI Linux用户安装配置与节点处理指南
AI教程 · 2026-06-09

InvokeAI Linux用户安装配置与节点处理指南

本文详细介绍了在Linux系统上安装和配置InvokeAI的完整流程。内容涵盖从环境准备、依赖安装到模型下载与加载的关键步骤,并重点解析了核心组件“处理节点”的安装与使用方法。指南旨在帮助用户顺利完成部署,并理解其工作流程,以便更好地利用这一AI图像生成工具进行创作。

Dify保姆级部署指南:服务安装与模型接入下载
AI教程 · 2026-06-09

Dify保姆级部署指南:服务安装与模型接入下载

本文详细介绍了开源AI应用开发平台Dify的部署流程。内容涵盖从服务器环境准备、Docker安装、Dify核心服务启动,到如何接入OpenAI、Azure等云端大模型API,以及如何配置Ollama等本地模型。最后,还提供了使用ModelScope社区下载特定模型文件并集成到本地环境中的具体操作方法,旨在帮助用户快速搭建属于自己的AI应用开发与测试平台。