DeepSeek-R1 近日掀起新一轮技术浪潮——其强化学习策略正式进军计算机视觉领域。Visual-RFT 已全面开源,这或许是多模态领域今年最值得关注的重大进展之一。让我们先梳理核心亮点:视觉强化微调技术首次实现落地,强化学习方法首次在视觉任务中得到有效性验证,并且仅需极少量样本即可完成高质量微调,效果显著超越传统指令微调方案。那么,这一突破是否会在视觉领域催生一场新的革命?

简而言之,Visual-RFT 使得视觉语言大模型在目标检测、图像分类、推理定位等任务上的泛化能力迈上了新台阶。即便只有几十到上百条训练样本,其微调效果也远优于传统的 SFT 方法。论文与代码已经公开,感兴趣的朋友可以直接深入查阅更多细节:
论文地址:https://arxiv.org/abs/2503.01785
开源代码:https://github.com/Liuziyu77/Visual-RFT
Visual-RFT 究竟是什么?
Visual-RFT(Visual Reinforcement Fine-Tuning)本质上是将 DeepSeek-R1 的基于规则奖励的强化学习策略(GPRO)迁移至视觉感知任务。它为多模态模型引入了一套“可验证奖励”机制,促使大视觉语言模型(LVLMs)在不同任务中真正展开“思考”过程,而非机械地拟合训练数据。
主要创新点:
- 强化学习向视觉领域的迁移:过去业界普遍认为强化学习在视觉任务中难以奏效,然而此次研究首次验证了基于规则奖励的有效性,打破了固有认知。
- 极少样本下的高效微调:传统 SFT 往往需要上万条样本才能取得较好效果,而 Visual-RFT 只需 10~1000 条样本即可实现显著提升,成本降低了一个量级以上。
- 广泛覆盖多种视觉任务:涵盖目标检测、开放目标检测、少样本分类、推理定位等核心视觉应用场景。
- 推理能力显著增强:模型不仅给出最终答案,还会先进行“思考”环节,完整走一遍推理流程,从而获得更精准的结果。
核心奖励函数
- 目标检测——IoU 奖励:通过计算预测框与真实框的重叠程度(交并比)来分配奖励。模型不仅要正确识别目标,还需精确定位,才算达标。
- 图像分类——分类准确性奖励(CLS Reward):对比预测类别与真实类别,匹配即给予奖励。即使在数据有限的情况下,模型也能学会区分细粒度类别,泛化能力明显提升。
- 推理定位——推理一致性奖励:同时评估模型的推理逻辑是否符合指令要求,并结合 IoU 衡量定位精度。确保模型并非靠猜测作答,而是真正理解并推理出正确结果。
评测结果:Visual-RFT 大幅领先 SFT
来看一个具体示例:
用户提问:这是一张花卉图片,请识别出花的品种。模型先进行思考:这张图片显示了一朵黄色的毛茛花,带有绿色茎干,背景中可见绿叶。毛茛花属于毛茛科开花植物,以其明亮的黄色花朵著称,常生长在草地和牧场中。随后回答:毛茛花
Visual-RFT 与传统 SFT 的差距有多大?下表可以清晰说明:
| 方法 | 数据需求 | 泛化能力 | 推理能力 |
|---|---|---|---|
| SFT(监督微调) | 需要大量数据 | 泛化能力有限 | 仅依赖已有数据 |
| Visual-RFT | 仅需 10~1000 条数据 | 泛化能力强 | 具备推理与解释能力 |
论文实验基于 Qwen2-VL-2B/7B 视觉语言模型,在多项任务中 Visual-RFT 均大幅超越传统 SFT:
- 开放目标检测:仅使用 65 类 COCO 数据训练,即可泛化到未见过的全新类别。
- 少样本检测:仅凭 4 个样本就能提升检测精度。
- 推理定位:面对复杂语义理解场景,推理结果更加精准。
- 细粒度分类:能够准确区分同类物体中的细微差异。
Visual-RFT 开启视觉强化学习新时代
Visual-RFT 是首个基于 DeepSeek-R1 强化微调方法的多模态迁移应用,填补了视觉语言大模型在强化学习领域的空白。它不仅提升了视觉推理能力,还大幅降低了视觉任务微调的成本,对计算机视觉与人工智能社区而言,是一项实实在在的突破。
不妨大胆设想——这一方法是否也能助力机器人 AI 大脑中视觉模块的进步?您认为强化学习是否会成为未来多模态大模型训练的主流范式?
