游乐游手机版
首页/AI热点日报/热点详情

DeepSeek R1多模态模型已开源迁移

类型:热点整理2026-07-01
DeepSeek-R1 近日掀起新一轮技术浪潮——其强化学习策略正式进军计算机视觉领域。Visual-RFT 已全面开源,这或许是多模态领域今年最值得关注的重大进展之一。让我们先梳理核心亮点:视觉强化微调技术首次实现落地,强化学习方法首次在视觉任务中得到有效性验证,并且仅需极少量样本即可完成高质量微

DeepSeek-R1 近日掀起新一轮技术浪潮——其强化学习策略正式进军计算机视觉领域。Visual-RFT 已全面开源,这或许是多模态领域今年最值得关注的重大进展之一。让我们先梳理核心亮点:视觉强化微调技术首次实现落地,强化学习方法首次在视觉任务中得到有效性验证,并且仅需极少量样本即可完成高质量微调,效果显著超越传统指令微调方案。那么,这一突破是否会在视觉领域催生一场新的革命?

简而言之,Visual-RFT 使得视觉语言大模型在目标检测、图像分类、推理定位等任务上的泛化能力迈上了新台阶。即便只有几十到上百条训练样本,其微调效果也远优于传统的 SFT 方法。论文与代码已经公开,感兴趣的朋友可以直接深入查阅更多细节:

论文地址:https://arxiv.org/abs/2503.01785
开源代码:https://github.com/Liuziyu77/Visual-RFT

Visual-RFT 究竟是什么?

Visual-RFT(Visual Reinforcement Fine-Tuning)本质上是将 DeepSeek-R1 的基于规则奖励的强化学习策略(GPRO)迁移至视觉感知任务。它为多模态模型引入了一套“可验证奖励”机制,促使大视觉语言模型(LVLMs)在不同任务中真正展开“思考”过程,而非机械地拟合训练数据。

主要创新点:

  1. 强化学习向视觉领域的迁移:过去业界普遍认为强化学习在视觉任务中难以奏效,然而此次研究首次验证了基于规则奖励的有效性,打破了固有认知。
  2. 极少样本下的高效微调:传统 SFT 往往需要上万条样本才能取得较好效果,而 Visual-RFT 只需 10~1000 条样本即可实现显著提升,成本降低了一个量级以上。
  3. 广泛覆盖多种视觉任务:涵盖目标检测、开放目标检测、少样本分类、推理定位等核心视觉应用场景。
  4. 推理能力显著增强:模型不仅给出最终答案,还会先进行“思考”环节,完整走一遍推理流程,从而获得更精准的结果。
核心奖励函数
  • 目标检测——IoU 奖励:通过计算预测框与真实框的重叠程度(交并比)来分配奖励。模型不仅要正确识别目标,还需精确定位,才算达标。
  • 图像分类——分类准确性奖励(CLS Reward):对比预测类别与真实类别,匹配即给予奖励。即使在数据有限的情况下,模型也能学会区分细粒度类别,泛化能力明显提升。
  • 推理定位——推理一致性奖励:同时评估模型的推理逻辑是否符合指令要求,并结合 IoU 衡量定位精度。确保模型并非靠猜测作答,而是真正理解并推理出正确结果。

评测结果:Visual-RFT 大幅领先 SFT

来看一个具体示例:

用户提问:这是一张花卉图片,请识别出花的品种。
模型先进行思考:这张图片显示了一朵黄色的毛茛花,带有绿色茎干,背景中可见绿叶。毛茛花属于毛茛科开花植物,以其明亮的黄色花朵著称,常生长在草地和牧场中。随后回答:毛茛花

Visual-RFT 与传统 SFT 的差距有多大?下表可以清晰说明:

方法 数据需求 泛化能力 推理能力
SFT(监督微调) 需要大量数据 泛化能力有限 仅依赖已有数据
Visual-RFT 仅需 10~1000 条数据 泛化能力强 具备推理与解释能力

论文实验基于 Qwen2-VL-2B/7B 视觉语言模型,在多项任务中 Visual-RFT 均大幅超越传统 SFT:

  • 开放目标检测:仅使用 65 类 COCO 数据训练,即可泛化到未见过的全新类别。
  • 少样本检测:仅凭 4 个样本就能提升检测精度。
  • 推理定位:面对复杂语义理解场景,推理结果更加精准。
  • 细粒度分类:能够准确区分同类物体中的细微差异。

Visual-RFT 开启视觉强化学习新时代

Visual-RFT 是首个基于 DeepSeek-R1 强化微调方法的多模态迁移应用,填补了视觉语言大模型在强化学习领域的空白。它不仅提升了视觉推理能力,还大幅降低了视觉任务微调的成本,对计算机视觉与人工智能社区而言,是一项实实在在的突破。

不妨大胆设想——这一方法是否也能助力机器人 AI 大脑中视觉模块的进步?您认为强化学习是否会成为未来多模态大模型训练的主流范式?

来源:https://www.53ai.com/news/OpenSourceLLM/2025030417365.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。