游乐游手机版
首页/AI教程/文章详情

Unsloth更新免费强化学习训练Qwen2.5-VL-7B视觉大模型

时间:2026-06-24 11:53
Unsloth最新更新现支持视觉与多模态模型的强化学习训练,训练速度提升1 5至2倍,显存占用降低90%,上下文长度扩展15倍,用户可在免费ColabT4上高效训练Qwen2 5-VL-7B模型,并引入GSPO算法优化序列级重要性采样,实现更快收敛与更优性能。

Unsloth 近日发布了一轮重要更新,重点强化了对视觉/多模态模型的强化学习训练支持——目前已正式集成 Gemma 3 与 Qwen2.5-VL 两大系列。

核心亮点

本次升级的关键在于 Unsloth 独有的权重共享机制与自定义内核,使得视觉语言模型(VLM)在进行 RL(强化学习)训练时,相比常规 FA2 配置,速度提升了 1.5 至 2 倍,显存占用下降了 90%,上下文长度扩展了 15 倍,且精度完全无损。同时,Unsloth 还引入了阿里巴巴 Qwen 团队研发的 GSPO 算法,为技术社区带来了意外之喜。

更令人振奋的是,现在你可以在免费的 Colab T4 GPU 上直接训练 Qwen2.5-VL-7B 模型。其他视觉语言模型同样可以运行,但可能需要更强大的 GPU 支持。至于 Gemma,由于 vLLM 限制只能使用 Bfloat16 精度,因此需要比 T4 更新的 GPU 硬件,例如 Colab 上的 NVIDIA L4 就是理想选择。

官方提供了一份 notebook 示例,展示了如何通过图像和图表解决数学问题:

Alt text数学推理示例图

vLLM 集成

在此版本中,Unsloth 原生集成了 vLLM VLM。如需启用 vLLM 进行快速推理,只需在初始化模型时设置 fast_inference=True 即可:

os.environ['UNSLOTH_VLLM_STANDBY']='1' # 启用内存高效的 GRPO 模式
model, tokenizer = FastVisionModel.from_pretrained(
    model_name="Qwen/Qwen2.5-VL-7B-Instruct",
    max_seq_length=16384, # 需足够大以完整容纳图像 token
    load_in_4bit=True,
    fast_inference=True, # 开启 vLLM 快速推理
    gpu_memory_utilization=0.8,
)

需要注意,vLLM 目前尚不支持视觉/编码器层的 LoRA 微调。因此在加载 LoRA 适配器时,务必将 finetune_vision_layers 设置为 False。但若使用 transformers 或 Unsloth 原生推理,视觉层仍可正常训练。

model = FastVisionModel.get_peft_model(
    model,
    finetune_vision_layers=False, # vLLM 暂不支持视觉层 LoRA
    finetune_language_layers=True,
    finetune_attention_modules=True,
    finetune_mlp_modules=True,
    r=lora_rank, # 建议取值:8、16、32、64、128
    lora_alpha=lora_rank*2,
    use_gradient_checkpointing="unsloth",
    random_state=3407,
)

GSPO 算法介绍

GSPO 是 Qwen 团队开发的一种 GRPO 变体。研究团队发现,GRPO 会隐式地为每个 token 分配重要性权重,但优势(advantages)并不随 token 变化——这显然不合理。GSPO 应运而生,它将重要性分配从单个 token 的似然转移到整个序列的似然上。

GRPO 算法标准 GRPO 算法流程

标准 GRPO 算法流程

GSPO 算法改进的 GSPO 算法流程

改进的 GSPO 算法流程

用通俗的语言解释:在 GRPO 中,每个 token 获得相同的缩放权重,即使这个缩放是针对整个序列进行的。而 GSPO 则不同——它在计算完 logprob 比率后,先对每个序列求和并取指数,最终只有序列级别的比率才会与优势进行逐行相乘。这相当于把注意力从单个词转移到了整个句子上。

\

启用 GSPO 非常简便,只需在 GRPO 配置中设置 importance_sampling_level = "sequence"

training_args = GRPOConfig(
    output_dir="vlm-grpo-unsloth",
    per_device_train_batch_size=8,
    gradient_accumulation_steps=4,
    learning_rate=5e-6,
    adam_beta1=0.9,
    adam_beta2=0.99,
    weight_decay=0.1,
    warmup_ratio=0.1,
    lr_scheduler_type="cosine",
    optim="adamw_8bit",
    importance_sampling_level="sequence", # 启用 GSPO 序列级重要性采样
    loss_type="dr_grpo",
    epsilon=3e-4,
    epsilon_high=4e-4,
    num_generations=8,
    max_prompt_length=1024,
    max_completion_length=1024,
    log_completions=True,
    max_grad_norm=0.1,
    temperature=0.9,
    num_train_epochs=2,
    report_to="none"
)

总体来看,Unsloth 此次对 VLM vLLM 快速推理的改进非常扎实——内存使用减少了 90%,GRPO 与 GSPO 的训练速度提升了 1.5 到 2 倍。再加上新集成的内存高效且更快的强化学习功能(包括独特的 Standby 特性),相比其他实现能有效抑制速度降级。这套组合拳,确实值得开发者们认真关注。

来源:https://cloud.tencent.com.cn/developer/article/2695568
上一篇实时高亮不确定内容:大模型幻觉检测新方法 下一篇InfoSeek面向深度研究任务的开源数据集
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网