荣耀与复旦联合发布MagicAgent智能体基础模型

首页

AI资讯

热心网友

转载

2026-05-24

MagicAgent是什么

在人工智能智能体领域，荣耀与复旦大学联合研发的MagicAgent模型，已成为一个备受瞩目的突破。作为一款百亿参数级别的智能体基础模型，它在权威基准测试中展现了卓越的性能，甚至超越了部分千亿参数规模的模型。其技术核心在于融合了两种高效架构：32B的密集架构与30B-A3B的混合专家架构，实现了性能与效率的出色平衡。

为了构建强大的泛化能力，研发团队摒弃了传统高成本的沙盒模拟训练方式，转而设计了一套创新的轻量级合成数据框架。该框架系统性地覆盖了任务分解、工具规划、多约束调度等五大核心能力场景，为模型提供了逻辑严谨且多样化的高质量训练数据。训练过程采用“监督微调+多目标强化学习”的两阶段范式，并创新性地引入了χPO算法，有效解决了模型在探索新策略与利用已知知识之间的平衡难题。

在实际评测中，MagicAgent在Worfbench、BFCL-v3等国际权威基准上表现优异，其规划能力获得了业界的广泛认可，成为首个宣称支持全场景泛化规划的智能体模型。目前，这项前沿技术已成功集成于荣耀Magic系列手机中，将实验室的尖端AI能力带入了用户的日常生活。

MagicAgent的主要功能

这款被誉为“百亿参数级别最强”的智能体模型，究竟具备哪些核心能力？其功能体系可以清晰地划分为以下几个关键维度：

层次化任务分解：面对用户提出的复杂指令，例如“为我策划一次完整的家庭旅行”，模型能够智能地将其拆解为预订机票、筛选酒店、规划每日行程等逻辑清晰的子任务序列，并精准处理任务间的依赖关系与并行执行可能。
工具增强规划：模型不仅擅长逻辑推理，更具备强大的执行能力。它可以动态识别并调用外部API及各类工具，通过“推理-行动-观察-再推理”的闭环流程，完成需要实时数据查询、复杂计算或设备控制的具体任务。
多约束调度：现实任务往往附带多重限制。MagicAgent擅长在制定计划时，同时考量时间、空间、预算、资源等多种约束条件，例如“安排一场所有海外分部高管都能线上参与、且总预算控制在特定范围内的战略会议”。
程序逻辑编排：其思维过程具备高度的结构化特征。模型能够理解并执行包含条件判断、循环迭代等复杂程序逻辑的工作流，妥善管理任务链中复杂的依赖与状态传递。
长程工具执行：对于需要多步骤、长时间交互的复杂任务，模型能够稳定地进行状态跟踪与上下文管理，可靠地完成涉及数十个工具链式调用的长期目标，确保任务执行不偏离初衷。

MagicAgent的技术原理

支撑上述强大功能实现的，是一套深度融合且极具创新的技术架构。我们可以从以下四个关键技术环节深入理解其工作原理：

合成数据生成：数据是模型能力的基石。团队首先构建了工具依赖网络与参数共享图谱，并定义了“原子计划”作为基础语义单元。随后，通过智能的串接、聚合与分组操作，像组合高级积木一样，合成出覆盖广泛、逻辑严密的复杂任务轨迹数据，从而以低成本方式替代了高消耗的沙盒环境模拟。
两阶段训练范式：模型训练分为两个核心阶段。第一阶段是监督微调，其关键创新在于采用了基于新颖性采样的数据平衡策略，防止模型对某些任务类型产生偏好。第二阶段引入强化学习，设计了一个融合“格式合规性”与“语义准确性”的多目标奖励函数，并通过离线的GRPO与在线的χPO算法协同优化，持续提升模型的泛化与适应能力。
χPO算法：这是解决稀疏奖励环境下探索与利用权衡问题的核心创新。算法包含三层精细设计：在词汇层面进行熵正则化，鼓励多样性探索；对“内部推理”与“外部动作”两个阶段的熵值进行分离调控，允许思考过程发散，但要求最终决策收敛精准；最后通过信息瓶颈技术压缩冗余的推理信息，只保留对行动决策至关重要的核心内容。
MoE负载均衡：针对混合专家架构中专家路由的挑战，MagicAgent采用了基于全局批次统计的负载均衡策略，替代传统的微批次约束，使得不同专家能在任务类型上自然形成专业化分工。同时，结合z-loss技术抑制路由逻辑的极端输出，有效缓解了多任务训练中常见的“专家崩溃”与“参数闲置”问题，从而实现了模型容量与推理效率的高效解耦。

MagicAgent的项目地址

对于希望深入研究其技术细节的学者与开发者，相关的技术论文已在预印本平台公开发布。

arXiv技术论文：https://arxiv.org/pdf/2602.19000

MagicAgent的应用场景

前沿的AI技术最终需要落地于实际应用。MagicAgent所展现的智能规划与执行能力，在众多行业场景中都具有巨大的应用潜力：

智能设备控制：未来操作智能终端将更加自然。用户只需对手机说出“在携程上预订明天飞往成都的机票，并在春熙路附近找一家评分4.8以上的火锅店”，模型即可自动分解指令，调用相关应用接口完成搜索、比价与预订的全流程。
企业流程自动化：在客户服务场景中，当用户提出“订单号XXX需要退货并重新下单”时，模型可自动触发跨系统工作流：验证订单状态、同步库存系统、创建退货单、发起退款并重新生成购物车，最后通知用户处理结果。
个性化旅行规划：基于用户“国庆假期、预算八千、偏好海滨与人文历史”的模糊需求，模型能够生成一份满足“直达航班、青岛三日游、行程松紧适中”等多重约束的详尽旅行计划，涵盖交通、住宿、景点及餐饮推荐。
多智能体任务编排：在复杂的自动化系统中，它可以充当“总调度官”角色。例如，接收到“组织线上行业峰会”的指令后，将其分解为平台搭建、嘉宾联络、内容宣传、技术支持等并行子任务，分派给 specialized 的智能体执行，并统筹整合最终成果。
长程交互决策：处理需要持续追踪状态的多步骤复杂事务。例如，协助用户完成跨城搬家规划：“先查询下月从深圳到杭州的货运方案与报价，根据物流时间预约临时仓储，最后依据仓储地点联系搬家公司安排上门打包。”模型能在多轮交互中保持连贯的上下文记忆，根据每一步的执行反馈动态优化后续方案。