UCSD团队突破多模态推理,创新方法超越GPT-5和Gemini登顶MMMU
【前沿研究】加州大学圣地亚哥分校团队研发的DreamPRM在多模态数学推理评测MMMU中登顶榜首
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
大语言模型的推理能力近年来突飞猛进,其中过程奖励模型(Process Reward Model, PRM)的创新性引入,为模型提供了对推理中间步骤的监督机制,显著提升了模型选择正确解题路径的能力。
尽管这类方法在单模态文本推理任务中表现优异,但扩展到多模态场景时仍面临两大核心挑战:
- 模态差异问题:多模态输入的复杂空间特性导致训练与推理分布存在明显偏差;
- 数据可靠性问题:大规模训练集中不可避免存在噪声样本,影响高质量监督信号的学习效果。
为解决这些关键问题,研究团队创新性地采用了双层优化训练框架,通过动态调整样本权重(Instance Weights)的机制来实现智能化的学习过程。

研发历程:从DreamPRM到1.5版本的进化
在早期DreamPRM框架中,研究团队采用领域级权重分配策略(Domain Reweighting)来优化不同数据子集的训练效果。而新推出的DreamPRM-1.5则实现了更精细化的样本级权重调整:
- 增强高质量样本的影响力
- 弱化噪声样本的干扰作用
这种细粒度的样本重加权(Instance Reweighting)策略,能够最大化挖掘每个训练样本的潜在价值。
两大核心技术方案

为了实现精准的样本级加权,研究人员提出了两种互补的实现方案:
Instance Table方案
- 为每个样本赋予独立权重参数
- 灵活度高,适合小规模数据集
- 参数量与样本数成正比
Instance Net方案
- 通过小型MLP网络预测样本权重
- 参数量固定,适合大规模训练
- 具备更好的泛化能力
创新训练架构:动态双层次优化
DreamPRM-1.5采用创新的双层次优化框架(Bi-level Optimization):
初级优化:利用样本权重更新PRM模型

上层优化:基于元数据集评估结果动态调整样本权重

MMMU基准测试表现
在涵盖30个学科、183个子领域的MMMU多模态理解基准测试中,DreamPRM-1.5表现出色:

核心测试数据
- GPT-5-mini基准线:80.0%
- Instance Table版:84.6%
- Instance Net版:83.6%
研究价值展望
DreamPRM-1.5的成功实践表明,在多模态推理模型研发中,对训练数据质量的精细化处理和动态优化是提升模型性能的关键路径。未来,更智能的样本加权算法将持续推动该领域的技术进步。
热门专题
热门推荐
数字图像处理的多领域核心支撑技术:当高分辨率与复杂场景成为常态 如今,数字图像处理技术早已渗透到医学、遥感、工业乃至日常生活的方方面面,成为不可或缺的核心支撑。然而,随着图像分辨率飙升、场景复杂度加剧,传统的纯经典算法开始显得有些力不从心,效率与精度双双遭遇瓶颈。另一边,纯量子算法虽然凭借其天生的并
币安(Binance):官方安全访问与资产管理全指南 在数字资产的世界里,选择一家可靠的交易平台只是第一步,如何安全地“抵达”并管理它,才是守护资产真正的起点。作为全球领先的数字资产交易生态系统,币安为用户提供了涵盖现货、合约及理财的全方位金融服务。接下来的内容,将为你清晰地勾勒出访问币安官方网页的
摘要 眼下,企业数字化转型已进入深水区。对于预算在10万到20万区间的中高端企业而言,一个量身定制的高端官网,早已超越了“线上名片”的范畴。它更像是品牌数字资产的基石,既是塑造专业壁垒的阵地,也是全域流量的汇聚点和商业转化的核心枢纽。一个明显的趋势是:手握充足预算的企业决策者们——无论是创始人、总经
无聊的寒假作文600字一 光阴似箭,日月如梭。这话说得一点不假,五年级的学习生活转眼就溜之大吉了,可迎接我的,却是一个看似枯燥无味的暑假。 唉,当时我躺在床上翘着二郎腿,心里只剩下叹息。脑子里反复琢磨:在家呆着,既不能和朝夕相处的同学们一块儿玩耍,也看不到他们灿烂的笑容,更听不到那些欢快爽朗的笑声了
广交会火热开展,AI硬件与私有存储成焦点 这届广交会,风向很明确:AI硬件、智能设备、数字化解决方案,无疑是全场最核心的焦点。一个清晰的趋势正在浮现——随着数字化转型进入深水区,越来越多的中小企业开始重新审视自己的数据策略。他们逐渐意识到,过度依赖云端存储存在诸多掣肘。于是,数据本地存储、隐私自主可





