AI拼图游戏暴涨视觉理解力，无需标注的多模态模型后训练指南

首页/科技数码/文章详情

AI拼图游戏暴涨视觉理解力，无需标注的多模态模型后训练指南

时间：2025-10-15 21:41

在多模态大模型的后训练浪潮中，强化学习驱动的范式已成为提升模型推理与通用能力的关键方向。然而，大多数现有方法仍以文本为中心，视觉部分常被动地作为辅助信号输入。相比之下，我们认为在后训练阶段重新审

在多模态大模型的后训练浪潮中，强化学习驱动的范式已成为提升模型推理与通用能力的关键方向。

然而，现有的大多数方法仍以文本为中心，视觉部分常常被动地作为辅助信号输入。相比之下，我们认为在后训练阶段重新审视视觉自监督学习的潜力，设计以视觉为中心的后训练对于增强多模态大模型对于视觉信息本身的细粒度深入理解也同样至关重要。

为此，来自MMLab@南洋理工大学的最新论文《Visual Jigsaw Post-Training Improves MLLMs》提出了一种全新的针对多模态大模型后训练任务——Visual Jigsaw。

它将经典的自监督拼图任务重新设计为多模态大模型后训练阶段的核心目标，让模型在不依赖额外标注、也无需视觉生成模块的情况下，显式强化自身的视觉感知与理解能力。在图片、视频和3D三种视觉模态下都验证了其有效性。

Visual Jigsaw 方法简介

Visual Jigsaw可以被看作是一类通用的针对视觉信息的排序重建任务。给定某种视觉模态的数据（图片，视频，3D），对其进行特定的划分并随机打乱顺序，获得一组子元素作为拼图块。模型的目标是重构视觉信息，预测出它们的正确顺序，并以文字的形式输出对应的排列顺序。整个训练过程采用强化学习算法GRPO来优化。

Visual Jigsaw有对应的GT可以直接验证，团队设计了一个分级奖励机制：预测完全正确时奖励为1；若部分位置正确，则按照正确比例给予奖励，并乘以折扣系数来防止模型过度依赖部分匹配；若输出不是有效的排列，则奖励为0。

对于不同视觉模态，具体的Visual Jigsaw任务设计如下

Image Jigsaw：图片在2D空间上被划分为个相同大小的子图，打乱后模型需恢复正确的空间顺序。

Video Jigsaw：视频在时间维度上被分割成等长的视频片段，模型需重建原始的时间顺序。

3D Jigsaw：从RGB-D图像中采样多个深度点，在图片中标注对应点的位置和打乱后的序号，要求模型恢复由近到远的深度次序。

实验结果

通过在多种图像、视频和3D模态上分别验证了 Visual Jigsaw的有效性：

Image Jigsaw

经过image jigsaw 的训练，模型在三类vision-centric的基准上都带来了稳定提升：

1）细粒度感知与理解，2）基于单目图像的空间感知和推理，3）组合式视觉理解与推理。

结果表明，在多模态大模型中引入image jigsaw的后训练，能显著增强其感知能力和细粒度视觉理解能力，而这恰恰是现有以推理为主的后训练策略所欠缺的。

这种提升来源于拼图任务本身的要求——模型必须关注局部 patch 的细节、推理整体空间布局，并理解不同 patch 之间的关系，这些都直接促进了细粒度、空间和组合式的理解。

Video Jigsaw

经过video jigsaw 的训练，模型在各类通用视频理解基准上均表现出稳定的提升。该方法整体上增强了对视频的感知与理解，并且，在需要时间维度的推理和时间方向性理解的任务（如 AoTBench）上提升尤为明显。

同时，在CVBench上的大幅度提升也验证了模型在跨视频理解与推理上的增强。这表明，视频拼图任务能够促使模型更好地捕捉时间连续性、理解视频间的关联、推理方向一致性，并最终提升对视频的整体和通用理解能力。

3D Jigsaw

经过3D Jigsaw的训练，模型在各类3D基准任务上都取得了显著提升。最突出的提升出现在与深度估计直接相关的 DA-2K 基准上，这是深度排序预训练任务的直接体现。更重要的是，在广泛的其他任务上也观察到了一致的提升，包括单视角基准（如 3DSRBench、OmniSpatial）、多视角基准（如 ViewSpatial、All-Angles），以及第一人称视频基准（如 VSI-Bench）。这些结果表明，该方法不仅让模型掌握了深度排序这一特定技能，同时也有效增强了其整体的三维空间感知与推断能力。

结语

Visual Jigsaw提供了一种以视觉为中心的轻量、可验证、无需标注的新型自监督后训练范式，为 MLLMs 的视觉感知注入了全新活力。团队希望这一工作不仅展示了视觉拼图任务的潜力，更能启发学界设计更多聚焦视觉信息本身的强/弱监督任务，让多模态大模型能够更好地感知和理解各类视觉信息。

论文链接：https://arxiv.org/abs/2509.25190

项目主页：https://penghao-wu.github.io/visual_jigsaw/

数据和模型HF链接：https://huggingface.co/collections/craigwu/visual-jigsaw-68d92d6aca580f3dc7e3cf36

代码仓库链接：https://github.com/penghao-wu/visual_jigsaw

来源：https://36kr.com/p/3510374170663814

上一篇特斯拉裁员升级，一个月超2.4万汽车人被开，7名经理离岗 下一篇华为等厂商即将发布eSIM机型，iPhone之后的新选择

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5