UCSD团队突破多模态推理，创新方法超越GPT-5和Gemini登顶MMMU

首页/科技数码/文章详情

UCSD团队突破多模态推理，创新方法超越GPT-5和Gemini登顶MMMU

时间：2025-12-13 18:53

【导读】DreamPRM由加州大学圣地亚哥分校的研究团队开发，在数学推理权威测评榜MMMU上获得了第一名。近年来，大语言模型（LLM）在推理能力上的进展显著，其中过程奖励模型（Process R

【前沿研究】加州大学圣地亚哥分校团队研发的DreamPRM在多模态数学推理评测MMMU中登顶榜首

大语言模型的推理能力近年来突飞猛进，其中过程奖励模型(Process Reward Model, PRM)的创新性引入，为模型提供了对推理中间步骤的监督机制，显著提升了模型选择正确解题路径的能力。

尽管这类方法在单模态文本推理任务中表现优异，但扩展到多模态场景时仍面临两大核心挑战：

模态差异问题：多模态输入的复杂空间特性导致训练与推理分布存在明显偏差；
数据可靠性问题：大规模训练集中不可避免存在噪声样本，影响高质量监督信号的学习效果。

为解决这些关键问题，研究团队创新性地采用了双层优化训练框架，通过动态调整样本权重(Instance Weights)的机制来实现智能化的学习过程。

DreamPRM架构示意图

研发历程：从DreamPRM到1.5版本的进化

在早期DreamPRM框架中，研究团队采用领域级权重分配策略(Domain Reweighting)来优化不同数据子集的训练效果。而新推出的DreamPRM-1.5则实现了更精细化的样本级权重调整:

增强高质量样本的影响力
弱化噪声样本的干扰作用

这种细粒度的样本重加权(Instance Reweighting)策略，能够最大化挖掘每个训练样本的潜在价值。

两大核心技术方案

DreamPRM1.5架构对比

为了实现精准的样本级加权，研究人员提出了两种互补的实现方案：

Instance Table方案

为每个样本赋予独立权重参数
灵活度高，适合小规模数据集
参数量与样本数成正比

Instance Net方案

通过小型MLP网络预测样本权重
参数量固定，适合大规模训练
具备更好的泛化能力

创新训练架构：动态双层次优化

DreamPRM-1.5采用创新的双层次优化框架(Bi-level Optimization)：

初级优化：利用样本权重更新PRM模型

下层优化示意图

上层优化：基于元数据集评估结果动态调整样本权重

上层优化示意图

MMMU基准测试表现

在涵盖30个学科、183个子领域的MMMU多模态理解基准测试中，DreamPRM-1.5表现出色：

MMMU测试结果

核心测试数据

GPT-5-mini基准线：80.0%
Instance Table版：84.6%
Instance Net版：83.6%

研究价值展望

DreamPRM-1.5的成功实践表明，在多模态推理模型研发中，对训练数据质量的精细化处理和动态优化是提升模型性能的关键路径。未来，更智能的样本加权算法将持续推动该领域的技术进步。

来源：https://36kr.com/p/3473271946844548

上一篇2026款岚图梦想家打造豪华MPV新标杆，暖心科技升级家庭出行体验 下一篇乐道L60 10月下旬交付，配置全方位升级值得期待

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-08

云米科技CEO奖励员工小米YU7 期待未来再奖励更多台

云米科技创始人兼CEO陈小平通过社交平台正式揭晓了公司年会上的“重磅大奖”：一辆小米YU7汽车，专为表彰一位长期服务核心客户、始终坚守岗位并成功推动项目实现关键突破的员工。获奖理由简洁而有力——“尽职尽责、持之以恒”。陈小平在现场还定下目标：“希望到2026年，能送出更多台车。” 这句话，既是对员工

科技数码 · 2026-07-08

腾讯开源Node模块联邦方案hel-micro-node

腾讯近日正式发布开源项目 hel-micro-node，作为 hel+ 生态体系中的核心组件，专门为 Node js 运行环境量身打造，旨在提供一种轻量化、高效率且易于使用的服务端模块联邦解决方案。与同类产品 @module-federation node 相比，hel-micro-node 在功能

科技数码 · 2026-07-08

doc个人图书馆因业务调整无偿转让寻找接管方

日前，知识分享平台“360doc个人图书馆”正式对外发布官方公告。自2005年上线以来，这一经典数字图书馆已稳健运营整整二十年，累计服务用户超过八千万，沉淀文章数量突破十一亿篇。作为国内知名的免费知识管理公益平台，它不仅承载了无数人的智慧积累与珍贵记忆，更在个人知识存档与内容管理领域保持了独特的品牌