上交大与上海AI Lab联手，MM-HELIX解锁多模态大模型长链反思能力

时间：2025-10-21 18:37

在人工智能领域，多模态大模型（MLLM）正成为解决复杂问题的关键工具，但其推理能力仍存在显著短板——面对需要多步骤验证的难题时，模型往往因缺乏反思机制而陷入 "单向冲刺 "的困境。上海交通大学与上海人工

在人工智能领域，多模态大模型（MLLM）正成为解决复杂问题的关键工具，但其推理能力仍存在明显短板——当面对需要多步验证的难题时，模型往往因缺乏反思机制而陷入“单向冲刺”的困境。上海交通大学与上海人工智能实验室联合研发的MM-HELIX项目，通过构建系统性解决方案，首次实现了多模态模型的长链反思推理能力突破。

研究团队打造的"终极考场"基准测试，成为检验模型反思能力的试金石。该测试集覆盖算法、图论、策略游戏等42类高阶任务，要求模型在多模态输入条件下完成多轮推理验证。实验数据显示，即便顶尖模型在此场景下的准确率也处于低位，尤其在处理图文混合信息时表现更为薄弱。这一发现直接指向了现有技术架构中反思机制的缺失。

为破解这一难题，研发团队开发了包含10万条高质量样本的MM-HELIX-100K数据集。通过“步骤启发式响应生成”（SERG）技术框架，模型被训练出“解题-验证-修正”的闭环思维模式。这种创新训练方式使模型在处理复杂问题时，能够主动拆解步骤、识别错误并调整策略，显著减少了无效计算。测试表明，采用该数据集训练的模型解题效率提升达40%。

在训练方法论层面，自适应混合策略优化算法（AHPO）的引入堪称关键创新。该算法模拟人类导师的渐进式教学过程，初期通过强引导确保基础能力构建，后期逐步释放自主探索空间。这种动态调整机制使模型在保持准确率持续提升的同时，逐渐形成独立的问题分析能力。实验显示，经过AHPO优化的模型在陌生任务场景中的适应速度提升27%。

技术落地的实效在Qwen2.5-VL-7B模型上得到充分验证。搭载MM-HELIX体系后，该模型在基准测试中的准确率实现18.6%的跃升，更重要的是其推理过程展现出显著的结构化特征：面对难题时，模型会主动规划解题路径、设置验证节点，并在发现偏差时回溯调整。这种类人反思能力的形成，标志着多模态模型从“被动应答”向“主动思考”的范式转变。

来源：https://www.itbear.com.cn/html/2025-10/993940.html

上一篇Govee AI光影技术中国首秀：从深圳实验室到全球3000万家庭 下一篇iPhone 16为国行让路，Air版千元机正式登场

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。