游乐游手机版
首页/AI教程/文章详情

LlamaFactory v0.9.5 支持Qwen3.5/3.6及Gemma4 适配Transformers v5

时间:2026-06-04 17:26
2026 年 5 月 30 日,LlamaFactory 正式发布了 v0 9 5 版本。请注意,这是一个不可变发布(Immutable release),即版本发布后,仅发行说明和标题可进行修改,主代码库已全面封存。从本次更新说明来看,核心方向非常明确:全力支持 Qwen3 5、Qwen3 6 和

2026 年 5 月 30 日,LlamaFactory 正式发布了 v0.9.5 版本。请注意,这是一个不可变发布(Immutable release),即版本发布后,仅发行说明和标题可进行修改,主代码库已全面封存。从本次更新说明来看,核心方向非常明确:全力支持 Qwen3.5、Qwen3.6 和 Gemma4 三款新模型,同时完成了对 Transformers v5 的兼容适配。

用一句话概括,这个版本就是:模型支持继续快速扩容,v1 训练栈持续补强,分布式与多后端训练能力进一步完善,同时大量修复了围绕 Qwen3.5、Gemma4、多模态以及 Transformers v5 的兼容问题。下面,我们将按照功能模块,把 v0.9.5 的更新内容逐一梳理。


版本核心亮点:Qwen3.5 / Qwen3.6 / Gemma4 + Transformers v5

v0.9.5 最醒目的升级,直接在版本标题中便已阐明:一是新增了对 Qwen3.5 / Qwen3.6 / Gemma4 模型的主力支持;二是增加了与 Transformers v5 的兼容性。

这意味着,新一代主流模型与新版本 Transformers 生态的适配,已被推向核心层面。围绕这一目标,后续整个更新列表中,都能看到大量与这些模型和框架相关的补丁、功能接入及兼容性修复。尤其是 Qwen3.5 和 Qwen3.6,本次不仅仅是“支持”,而是围绕模板、视觉模块、projector 路径、packing、FlashAttention、NPU、Liger Kernel、文档等多个层面进行了完善,说明它们在实际训练与使用链路中的适配已达到非常深入的程度。


模型支持大扩容:新增与完善的模型一览

在模型支持方面,LlamaFactory v0.9.5 延续了高频扩展的节奏。本次新增或增强支持的模型包括:

  • Youtu-LLM-2B
  • LiquidAI 的 LFM2.5
  • LiquidAI 的 LFM2.5-VL 视觉语言模型
  • Microsoft 的 Phi-4-mini
  • HY-MT
  • Hunyuan 系列模型修复与补充
  • youtu-vl
  • MiniCPM-o-4.5
  • GLM-4.7-Flash SFT
  • GLM-OCR SFT
  • Qwen3-Next 的 Liger Kernel 支持
  • Aeva
  • Qwen3.5 全系列模型
  • Qwen3.6 模型
  • Hy3-Preview
  • Gemma4
  • MiniCPM-V-4.6

除了模型本体的支持,还有多项与模型生态配套的更新:将 LFM 模板重命名为 LFM2,并在 README 中加入了 LFM 2.5;更新了 MCA 支持的模型列表;让 MCA 支持 Qwen3.5;让 MCA 工作流兼容 Qwen-VL 系列;更新了 MCore 相关的 Docker 和 MCA 支持的模型。这意味着 v0.9.5 不只是在代码层面“识别”模型,而是将模型模板、示例、工作流、容器环境、生态文档和自动化流程一并跟进。


围绕 Qwen3.5 / Qwen3.6 的重点适配非常密集

如果按模型聚焦来看本次更新,Qwen3.5 无疑是最重要的适配对象之一。相关更新非常多,覆盖了从模型注册到模板、从视觉模块到训练性能、从多后端到文档修复的完整链路。

直接相关的更新包括:适配 Qwen3.5;注册 Qwen3.5 的视觉部分;支持 Qwen3.5 全系列模型;修复 Qwen3.5 projector 路径;支持 Qwen3.6 模型;添加 Qwen3 模板并修复渲染插件;在 MCA 中支持 Qwen3.5;在 NPU 上支持 Qwen3.5 的 Partial RoPE 和 Hybrid Attention;让 Liger Kernel 支持 Qwen3.5;修复 Qwen3VL 时间戳;向 Qwen3-VL 视觉模型键添加 visual.pos_embed;Qwen3.5 对 neat_packing 的补丁;修复训练 Qwen3.5 在 FA2 时的 IMA 问题;修复 Qwen3.5 在使用 Flash Attention 时非 packing 批次(bsz>1)的问题;修复 Qwen3.6 的模板文档。

另外,还包括与 Qwen3-Next 相关的专项增强:为 Qwen3-Next 添加 Liger Kernel 支持;为 Qwen3-Next 添加 DeepSpeed Z3 leaf 模块。

这组更新非常能说明问题:v0.9.5 对 Qwen3.5/3.6 的支持,已经不止停留在“能跑”的阶段,而是进入了模板、视觉、多模态、打包、训练后端、NPU、Kernel 优化、FlashAttention、文档一致性的全面成熟阶段。


Gemma4 支持落地,并补齐多模态细节

除了 Qwen3.5/3.6,Gemma4 也是本版本标题级的重点。对应的更新包括:添加 Gemma4 支持;修复 Gemma4 的 mm_token_type_ids padding 问题;修复 Gemma4 模块的 projector 查找问题。

这表明 Gemma4 的支持并不仅仅停留在模型入口层面的接入,还包括了多模态 token 类型、padding 细节以及 projector 模块检索修复。对于实际训练和多模态适配来说,这些通常都属于非常关键的落地问题。


v1 训练栈继续进化

v0.9.5 的另一条主线,是 v1 训练体系的持续建设。更新说明中有大量以 v1 标注的改动,表明这个体系正在快速完善。这部分新增能力包括:添加 init plugin;添加 CLI sampler;添加 renderer ut;添加 batch generator;升级 batching;添加 SFT;为 v1 文档初始化提交;添加 v1 LoRA / Freeze 支持及合并工作流;支持 DeepSpeed;支持量化;为训练添加 seed 并修复 gradient checkpointing;支持全量和部分参数的 meta 加载;添加回调;为 FSDP2 添加 init on rank0;为 FSDP2 支持 ulysses cp;支持从 checkpoint 恢复训练;修复 ulysses cp 的 device_mesh 和 clip_grad_norm;为低内存使用的权重加载添加 DeepSpeed Zero3 触发;修复 Transformers v5 中的 meta 初始化;支持 reward 训练阶段;添加使用 Triton 实现的 CUDA fused MoE 内核;支持 Liger Kernel;添加 FlashAttention 选择并实现普通/padding-free/动态 batching;实现动态 padding-free 策略的 batching;修复 padding free 与 sp 的配合;修复 epoch 和 steps;修复 FSDP2 的 device_mesh 和 sp。

从这些内容可以看出,v1 在本版本已经覆盖了训练初始化、采样、渲染测试、批处理生成、SFT、LoRA/Freeze、量化、DeepSpeed、FSDP2、恢复训练、MoE Kernel、FlashAttention、动态 batching 等多个关键模块,已经形成比较完整的训练能力拼图。

特别值得关注的是三块能力:

FSDP2 支持持续加深

相关更新包括:支持使用 FSDP2 训练;添加 DPO/KTO FSDP FSDP2 支持;为 FSDP2 添加 init on rank0;为 FSDP2 支持 ulysses cp;支持通过 HyperParallel FSDP2 后端进行 LlamaFactory SFT 训练;修复 ulysses cp 的 device_mesh 和 clip_grad_norm;修复 FSDP2 的 device_mesh 和 sp。这说明 FSDP2 已经不只是初步接入,而是扩展到了 SFT、DPO/KTO、并行策略、初始化流程和设备网格修复层面。

DeepSpeed 能力继续增强

相关更新包括:支持 DeepSpeed;为低内存使用的权重加载添加 DeepSpeed Zero3 触发;为 Qwen3-Next 添加 DeepSpeed Z3 leaf 模块。

批处理和注意力优化继续深入

相关更新包括:升级 batching;添加 FlashAttention 选择;实现普通/padding-free/动态 batching;实现动态 padding-free 策略的 batching;修复 padding free 与 sp。这部分更新非常契合大模型训练对吞吐、显存和并行效率的需求。


Transformers v5 兼容进入实战阶段

v0.9.5 的另一个核心主题,是适配 Transformers v5。从更新清单来看,这可不是一句口号,而是经过了大量分散修复之后形成的整体兼容。

与 Transformers v5 直接相关的更新包括:更新 PEFT、DeepSpeed,适配 Transformers v5;修复当 Transformers>=5.0.0 时 UT HuggingFace Hub 429 错误;为 Transformers v5 兼容移除 safe_serialization 参数;修复 Transformers v5 中的 meta 初始化;处理 Transformers>=5.0 时 export_model 中的 NotImplementedError;提升 Transformers 版本上限。

此外,还有一些兼容性相关更新也属于适配过程中的关键组成部分:兼容 config.json 中的空 architectures 字段;修复 parser;修复 package;修复 fp8;修复 constants;更新 constants;文档:修复 Python 版本要求从 3.10 改为 >=3.11.0。

可以说,v0.9.5 在新版本 Transformers 生态下已经完成了模型加载、序列化、导出、测试、依赖边界、文档要求等多个层面的适配。


训练后端、分布式与加速能力继续增强

在训练基础设施方面,这一版继续加强了多种后端与分布式场景的可用性。相关更新包括:修复 FP8:添加 Transformer Engine 后端支持;支持使用 ray.remote 启动分布式训练;修复多 GPU 训练期间 LoggerHandler 的竞态条件;使用 mp 运行 Kernel 测试;修复获取 Ray 头节点 IP;修复 Ray 示例中的未使用键;在 datasets.interleave_datasets 中支持 all_exhausted_without_replacement;添加 ASFT;添加 torch profiler 回调;使用 getattr 获取 profiler 属性以支持 MCA TrainingArguments;通过 Accelerate 添加 KTransformers AMX MoE SFT 支持;修复 MoE;修复 NPU FusedMoE 和 RMSNorm;支持奖励模型训练的 safetensors 保存;支持 reward 训练阶段。

这些更新覆盖了分布式启动、日志并发安全、数据集采样策略、性能剖析、MoE、奖励模型训练、NPU 后端等多个方向,说明 v0.9.5 对复杂训练任务的支持在进一步增强。


多模态与插件链路修复非常密集

这一版还有一个明显的特点,就是多模态细节修复数量很多。这说明项目正在处理越来越多真实训练和推理链路中的边缘情况。

相关更新包括:向 Qwen3-VL 视觉模型键添加 visual.pos_embed;修复 VLLM:支持混合多模态负载;支持 youtu-vl 模型;支持 MiniCPM-o-4.5;支持 GLM-OCR SFT;当 feature_extractor 缺失时回退到 audio_processor;处理系统消息中的空内容列表;修复使用视频训练 MiniCPMVPlugin process_messages 时的 IndexError;支持 MiniCPM-V-4.6;修复 MiniCPM-V-4.6 图像预处理行为;为全模态模型设置 mm_projectors;优化 Qwen 视频 token 元数据预处理;修复遇到虚拟图像时 gdn 崩溃;在 MiniCPMVPlugin.get_mm_inputs 中添加缺失的 return 语句;修复混合多模态负载;修复 Qwen3VL 时间戳。

再加上前面提到的 Gemma4、Qwen3.5 的视觉部分修复,可以看出多模态已经是这一版本非常重要的适配方向之一。


数据处理、工具调用与对话格式兼容进一步完善

数据链路方面,v0.9.5 也有不少很实用的修复和增强:支持 EAFT 损失;支持多轮对话的 discard history cot;添加 SGSC zero-hallucination B2B 数据集(NOO-Protocol);当没有调用工具时,SeedToolUtils.tool_extractor 返回内容;处理 OpenAI 风格消息中的 None tool_calls;纠正 gpt_oss format_assistant;修复 MIMO-v2 工具调用;修复保存时与 HuggingFace Dataset 列的兼容性问题;将 read_cloud_json 中的 filter() 转换为 list 以修复空检查错误。

这些更新说明,v0.9.5 不仅在模型和训练层升级,也在面向真实数据集、OpenAI 风格消息格式、tool_calls、对话式训练样本处理等方面做了较多兼容工作。


Packing、模板、配置与示例全面补强

围绕训练配置、模板与样例使用,本次也有不少补丁:将 LFM 模板重命名为 LFM2 并在 README 中添加 LFM 2.5;纠正 KTransformers 示例配置路径和模板;添加 Qwen3 模板并修复渲染插件;适配 neat_packing 和 mrope 模型 packing;为 neat_packing 添加 Qwen3.5 补丁;修复 Qwen3.5 在使用 Flash Attention 时非 packing 批次(bsz>1)的问题;修复 Qwen3.6 模板文档;修复 constants;更新 constants;兼容 config.json 中的空 architectures 字段。

这些改动对于实际落地非常重要。很多时候版本升级并不卡在大功能,而是卡在模板路径、打包策略、配置字段、示例不一致这些细节上。v0.9.5 在这些方面补得很细。


文档、README、依赖与 CI 环境同步更新

除了功能本身,这一版也同步进行了不少文档、依赖和 CI 基础设施更新。相关内容涉及:设置开发版本;代码 lint;更新 pyproject.toml 和 requirements;更新 README.md;资源文件更新 README;为 v1 文档初始化提交;修复 examples/README_zh.md 中的拼写错误;修复 Python 版本要求从 3.10 改为 >=3.11.0;改进 CUDA CI 缓存;更新过时的 GitHub Actions 版本;为 Ascend NPU CI 环境添加 nginx 缓存配置;升级到 ROCm 7.2 基础镜像,卸载 PyTorch 重新安装;更新 NPU Docker;更新 NPU Docker;更新 MCore 相关 Docker 和 MCA 支持的模型;使 MCA 工作流兼容 Qwen-VL 系列。

可以看出,这一版不仅在功能层推进,还在构建、测试、CI 缓存、容器镜像和文档说明上同步完善,让整个版本更适合持续维护和部署。


其他重要修复汇总

还有一些虽然不属于某一个大类,但同样值得记录的重要修复与增强:为 Conv3D 添加 PyTorch 版本警告;修复 Kernel MoE 补丁;修复奖励模型训练的 safetensors 保存;在 datasets.interleave_datasets 中支持 all_exhausted_without_replacement;修复 parser;修复 package;修复 fp8;修复 constants;修复 MoE;发布 v0.9.5。

这些补丁共同构成了版本稳定性的底层支撑。


LlamaFactory v0.9.5 这次到底更新了什么?

如果把这次版本压缩成几条主线,可以归纳为以下几点:

主力模型支持继续向前推进

Qwen3.5、Qwen3.6、Gemma4 是这次的核心主角,同时新增和补齐了大量模型支持,包括 Youtu-LLM-2B、LFM2.5、LFM2.5-VL、Phi-4-mini、HY-MT、Hunyuan、youtu-vl、MiniCPM-o-4.5、GLM-4.7-Flash、GLM-OCR、Aeva、Hy3-Preview、MiniCPM-V-4.6 等。

Transformers v5 适配正式进入可用阶段

从依赖、导出、序列化、测试、meta 初始化,到 safe_serialization 参数、429 错误处理、版本边界控制,v0.9.5 围绕 Transformers v5 做了大量实战补丁。

v1 训练栈快速补强

插件、CLI sampler、渲染测试、batch generator、SFT、LoRA/Freeze、量化、DeepSpeed、FSDP2、恢复训练、FlashAttention、动态 padding-free batching、fused MoE kernel 等能力都在继续补齐。

多模态和 Qwen 生态适配非常深入

视觉模块、projector、timestamp、audio_processor fallback、视频训练、dummy image、mixed multimodal payloads 等问题都得到了修复。

训练基础设施继续完善

包括 Ray 分布式启动、LoggerHandler 竞态修复、Profiler、KTransformers、NPU、ROCm、CI 缓存、GitHub Actions、Docker 等。


结语

代码地址:github.com/hiyouga/LlamaFactory

总体来看,LlamaFactory v0.9.5 是一个覆盖面极广、工程含量很高的版本。它的重点并不只是“新增几个模型”,而是围绕 Qwen3.5/Qwen3.6/Gemma4 + Transformers v5 这个核心目标,把模型支持、训练框架、分布式能力、多模态处理、模板配置、CI 环境、文档说明一起往前推进了一大步。

对于关注 LlamaFactory 的开发者来说,这个版本最值得注意的几个关键词就是:

  • Qwen3.5
  • Qwen3.6
  • Gemma4
  • Transformers v5
  • FSDP2
  • DeepSpeed
  • FlashAttention
  • 量化
  • 多模态
  • v1 训练栈
来源:https://cloud.tencent.com.cn/developer/article/2680849
上一篇标题长度硬性要求:只输出一个标题,限30汉字60字符,无多余内容 下一篇Claude Code团队招聘要求:仅限会做梦与懂底层两类人才
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
手把手教你免费获取小米MiMo百万亿Token及Claude Code配置全流程
AI教程 · 2026-06-04

手把手教你免费获取小米MiMo百万亿Token及Claude Code配置全流程

前言:百万亿Token免费额度领取指南 近期,小米MiMo大模型推出了重磅福利——百万亿Token的免费额度,申请流程极为简便,额度也十分充足,并且支持直接接入Claude Code等主流工具。本文将完整演示从注册申请、获取API密钥,到最终在Claude Code中完成配置的全流程,跟着操作即可轻

Sentinel-3B OLCI L3全球降分辨率叶绿素数据2022.0版
AI教程 · 2026-06-04

Sentinel-3B OLCI L3全球降分辨率叶绿素数据2022.0版

Sentinel-3B OLCI Level-3 Global Mapped Earth-observation Reduced Resolution (ERR) Chlorophyll (CHL) Data, version 2022 0 叶绿素a浓度全球网格化数据集简介 叶绿素a浓度是衡量海洋浮

我每月省千元组建一支全天候云端AI团队
AI教程 · 2026-06-04

我每月省千元组建一支全天候云端AI团队

先说个有意思的现象。 前两天,我的视频生成团队“入职腾讯”了。在WorkBuddy专家团里,不少伙伴已经开始用这个工具做短视频。本来以为这事儿就这么定了,结果这两天,反而开始疯狂返工——我发现它只能生成文字驱动的视频,还不能像真正的视频团队那样,把配图的活儿也给干了。 于是,继续优化。 先给你看个好

如何编写合格的AI工作流指令:提升编辑技能
AI教程 · 2026-06-04

如何编写合格的AI工作流指令:提升编辑技能

如何编写一个合格的 Skill:AI 工作流核心指令集指南 在 AI 工作流的实际应用中,Skill(技能指令)常常被误解。许多人将其与普通提示词(Prompt)混淆,导致写出的指令过于宽泛或模糊,AI 难以精准执行。实际上,Skill 的本质是一套结构化的行为指令集,它引导 AI 助手在特定场景下

TRAE AI编程入门第三讲:Rules、Memory、MCP与Skills突破边界
AI教程 · 2026-06-04

TRAE AI编程入门第三讲:Rules、Memory、MCP与Skills突破边界

最近几天我会逐步公开自己策划的系统化 AI 编程入门课程大纲,欢迎各位提出宝贵建议。 这套课程暂定 4+1 节:4 节主课以 TRAE 为载体,带领大家零基础入门 AI 编程;外加 1 节扩展课,专门为非技术背景的学员补充软件工程基础知识。具体安排如下: 第一节:TRAE AI 编程入门——Vibe