Unsloth更新免费强化学习训练Qwen2.5-VL-7B视觉大模型

时间：2026-06-24 11:53

Unsloth最新更新现支持视觉与多模态模型的强化学习训练，训练速度提升1 5至2倍，显存占用降低90%，上下文长度扩展15倍，用户可在免费ColabT4上高效训练Qwen2 5-VL-7B模型，并引入GSPO算法优化序列级重要性采样，实现更快收敛与更优性能。

Unsloth 近日发布了一轮重要更新，重点强化了对视觉/多模态模型的强化学习训练支持——目前已正式集成 Gemma 3 与 Qwen2.5-VL 两大系列。

核心亮点

本次升级的关键在于 Unsloth 独有的权重共享机制与自定义内核，使得视觉语言模型（VLM）在进行 RL（强化学习）训练时，相比常规 FA2 配置，速度提升了 1.5 至 2 倍，显存占用下降了 90%，上下文长度扩展了 15 倍，且精度完全无损。同时，Unsloth 还引入了阿里巴巴 Qwen 团队研发的 GSPO 算法，为技术社区带来了意外之喜。

更令人振奋的是，现在你可以在免费的 Colab T4 GPU 上直接训练 Qwen2.5-VL-7B 模型。其他视觉语言模型同样可以运行，但可能需要更强大的 GPU 支持。至于 Gemma，由于 vLLM 限制只能使用 Bfloat16 精度，因此需要比 T4 更新的 GPU 硬件，例如 Colab 上的 NVIDIA L4 就是理想选择。

官方提供了一份 notebook 示例，展示了如何通过图像和图表解决数学问题：

Alt text 数学推理示例图

vLLM 集成

在此版本中，Unsloth 原生集成了 vLLM VLM。如需启用 vLLM 进行快速推理，只需在初始化模型时设置 fast_inference=True 即可：

os.environ['UNSLOTH_VLLM_STANDBY']='1' # 启用内存高效的 GRPO 模式
model, tokenizer = FastVisionModel.from_pretrained(
    model_name="Qwen/Qwen2.5-VL-7B-Instruct",
    max_seq_length=16384, # 需足够大以完整容纳图像 token
    load_in_4bit=True,
    fast_inference=True, # 开启 vLLM 快速推理
    gpu_memory_utilization=0.8,
)

需要注意，vLLM 目前尚不支持视觉/编码器层的 LoRA 微调。因此在加载 LoRA 适配器时，务必将 finetune_vision_layers 设置为 False。但若使用 transformers 或 Unsloth 原生推理，视觉层仍可正常训练。

model = FastVisionModel.get_peft_model(
    model,
    finetune_vision_layers=False, # vLLM 暂不支持视觉层 LoRA
    finetune_language_layers=True,
    finetune_attention_modules=True,
    finetune_mlp_modules=True,
    r=lora_rank, # 建议取值：8、16、32、64、128
    lora_alpha=lora_rank*2,
    use_gradient_checkpointing="unsloth",
    random_state=3407,
)

GSPO 算法介绍

GSPO 是 Qwen 团队开发的一种 GRPO 变体。研究团队发现，GRPO 会隐式地为每个 token 分配重要性权重，但优势（advantages）并不随 token 变化——这显然不合理。GSPO 应运而生，它将重要性分配从单个 token 的似然转移到整个序列的似然上。

标准 GRPO 算法流程

改进的 GSPO 算法流程

用通俗的语言解释：在 GRPO 中，每个 token 获得相同的缩放权重，即使这个缩放是针对整个序列进行的。而 GSPO 则不同——它在计算完 logprob 比率后，先对每个序列求和并取指数，最终只有序列级别的比率才会与优势进行逐行相乘。这相当于把注意力从单个词转移到了整个句子上。

启用 GSPO 非常简便，只需在 GRPO 配置中设置 importance_sampling_level = "sequence"：

training_args = GRPOConfig(
    output_dir="vlm-grpo-unsloth",
    per_device_train_batch_size=8,
    gradient_accumulation_steps=4,
    learning_rate=5e-6,
    adam_beta1=0.9,
    adam_beta2=0.99,
    weight_decay=0.1,
    warmup_ratio=0.1,
    lr_scheduler_type="cosine",
    optim="adamw_8bit",
    importance_sampling_level="sequence", # 启用 GSPO 序列级重要性采样
    loss_type="dr_grpo",
    epsilon=3e-4,
    epsilon_high=4e-4,
    num_generations=8,
    max_prompt_length=1024,
    max_completion_length=1024,
    log_completions=True,
    max_grad_norm=0.1,
    temperature=0.9,
    num_train_epochs=2,
    report_to="none"
)

总体来看，Unsloth 此次对 VLM vLLM 快速推理的改进非常扎实——内存使用减少了 90%，GRPO 与 GSPO 的训练速度提升了 1.5 到 2 倍。再加上新集成的内存高效且更快的强化学习功能（包括独特的 Standby 特性），相比其他实现能有效抑制速度降级。这套组合拳，确实值得开发者们认真关注。

来源：https://cloud.tencent.com.cn/developer/article/2695568

Qwen

上一篇实时高亮不确定内容：大模型幻觉检测新方法 下一篇InfoSeek面向深度研究任务的开源数据集

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言在 Windows 本地开发环境中，直接安装 RabbitMQ 确实颇为周折：需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是，版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。相比之下，借助 Do

AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年，我们与福建制造企业合作较为频繁，发现一个非常突出的现象：超过80%的企业官网，产品参数仍然存放在PDF或图片中。AI爬虫？根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富，但在AI搜索这一全新战场上，它们几乎处于隐身状态。一、一个正在发生的行业变化 A

AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务，这一服务专为企业与开发者量身打造，定位为AI大模型订阅平台。通过引入Credits作为统一计量单位，将文本生成、图像生成等多模态AI能力纳入单一计费体系，同时无缝兼容主流AI编程工具及智能体（Agent）生态系统。其核心亮点包括：全

AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标，而位置数据的来源本质上是借助设备属性进行上传。换言之，若要让设备上报位置，您需先将其视为一个普通属性进行处理。 1）添加二维位置数据操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据，点击添加，将

AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年，阿里云服务器生态已高度成熟，形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网，还是运营电商平台、进行应用开发，基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维，系统梳理2026年最实用的操作要点，帮助你少走弯路，让网