DeepSeek R1多模态模型已开源迁移_AI热点日报

DeepSeek R1多模态模型已开源迁移

类型：热点整理2026-07-01

DeepSeek-R1 近日掀起新一轮技术浪潮——其强化学习策略正式进军计算机视觉领域。Visual-RFT 已全面开源，这或许是多模态领域今年最值得关注的重大进展之一。让我们先梳理核心亮点：视觉强化微调技术首次实现落地，强化学习方法首次在视觉任务中得到有效性验证，并且仅需极少量样本即可完成高质量微

DeepSeek-R1 近日掀起新一轮技术浪潮——其强化学习策略正式进军计算机视觉领域。Visual-RFT 已全面开源，这或许是多模态领域今年最值得关注的重大进展之一。让我们先梳理核心亮点：视觉强化微调技术首次实现落地，强化学习方法首次在视觉任务中得到有效性验证，并且仅需极少量样本即可完成高质量微调，效果显著超越传统指令微调方案。那么，这一突破是否会在视觉领域催生一场新的革命？

简而言之，Visual-RFT 使得视觉语言大模型在目标检测、图像分类、推理定位等任务上的泛化能力迈上了新台阶。即便只有几十到上百条训练样本，其微调效果也远优于传统的 SFT 方法。论文与代码已经公开，感兴趣的朋友可以直接深入查阅更多细节：

论文地址：https://arxiv.org/abs/2503.01785
开源代码：https://github.com/Liuziyu77/Visual-RFT

Visual-RFT 究竟是什么？

Visual-RFT（Visual Reinforcement Fine-Tuning）本质上是将 DeepSeek-R1 的基于规则奖励的强化学习策略（GPRO）迁移至视觉感知任务。它为多模态模型引入了一套“可验证奖励”机制，促使大视觉语言模型（LVLMs）在不同任务中真正展开“思考”过程，而非机械地拟合训练数据。

主要创新点：

强化学习向视觉领域的迁移：过去业界普遍认为强化学习在视觉任务中难以奏效，然而此次研究首次验证了基于规则奖励的有效性，打破了固有认知。
极少样本下的高效微调：传统 SFT 往往需要上万条样本才能取得较好效果，而 Visual-RFT 只需 10～1000 条样本即可实现显著提升，成本降低了一个量级以上。
广泛覆盖多种视觉任务：涵盖目标检测、开放目标检测、少样本分类、推理定位等核心视觉应用场景。
推理能力显著增强：模型不仅给出最终答案，还会先进行“思考”环节，完整走一遍推理流程，从而获得更精准的结果。

核心奖励函数

目标检测——IoU 奖励：通过计算预测框与真实框的重叠程度（交并比）来分配奖励。模型不仅要正确识别目标，还需精确定位，才算达标。

图像分类——分类准确性奖励（CLS Reward）：对比预测类别与真实类别，匹配即给予奖励。即使在数据有限的情况下，模型也能学会区分细粒度类别，泛化能力明显提升。

推理定位——推理一致性奖励：同时评估模型的推理逻辑是否符合指令要求，并结合 IoU 衡量定位精度。确保模型并非靠猜测作答，而是真正理解并推理出正确结果。

评测结果：Visual-RFT 大幅领先 SFT

来看一个具体示例：

_{用户提问：这是一张花卉图片，请识别出花的品种。}
_{模型先进行思考：这张图片显示了一朵黄色的毛茛花，带有绿色茎干，背景中可见绿叶。毛茛花属于毛茛科开花植物，以其明亮的黄色花朵著称，常生长在草地和牧场中。随后回答：毛茛花}

Visual-RFT 与传统 SFT 的差距有多大？下表可以清晰说明：

方法	数据需求	泛化能力	推理能力
SFT（监督微调）	需要大量数据	泛化能力有限	仅依赖已有数据
Visual-RFT	仅需 10～1000 条数据	泛化能力强	具备推理与解释能力

论文实验基于 Qwen2-VL-2B/7B 视觉语言模型，在多项任务中 Visual-RFT 均大幅超越传统 SFT：

开放目标检测：仅使用 65 类 COCO 数据训练，即可泛化到未见过的全新类别。
少样本检测：仅凭 4 个样本就能提升检测精度。
推理定位：面对复杂语义理解场景，推理结果更加精准。
细粒度分类：能够准确区分同类物体中的细微差异。

Visual-RFT 开启视觉强化学习新时代

Visual-RFT 是首个基于 DeepSeek-R1 强化微调方法的多模态迁移应用，填补了视觉语言大模型在强化学习领域的空白。它不仅提升了视觉推理能力，还大幅降低了视觉任务微调的成本，对计算机视觉与人工智能社区而言，是一项实实在在的突破。

不妨大胆设想——这一方法是否也能助力机器人 AI 大脑中视觉模块的进步？您认为强化学习是否会成为未来多模态大模型训练的主流范式？

来源：https://www.53ai.com/news/OpenSourceLLM/2025030417365.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。