LlamaFactory v0.9.5 支持Qwen3.5/3.6及Gemma4 适配Transformers v5

时间：2026-06-04 17:26

2026 年 5 月 30 日，LlamaFactory 正式发布了 v0 9 5 版本。请注意，这是一个不可变发布（Immutable release），即版本发布后，仅发行说明和标题可进行修改，主代码库已全面封存。从本次更新说明来看，核心方向非常明确：全力支持 Qwen3 5、Qwen3 6 和

2026 年 5 月 30 日，LlamaFactory 正式发布了 v0.9.5 版本。请注意，这是一个不可变发布（Immutable release），即版本发布后，仅发行说明和标题可进行修改，主代码库已全面封存。从本次更新说明来看，核心方向非常明确：全力支持 Qwen3.5、Qwen3.6 和 Gemma4 三款新模型，同时完成了对 Transformers v5 的兼容适配。

用一句话概括，这个版本就是：模型支持继续快速扩容，v1 训练栈持续补强，分布式与多后端训练能力进一步完善，同时大量修复了围绕 Qwen3.5、Gemma4、多模态以及 Transformers v5 的兼容问题。下面，我们将按照功能模块，把 v0.9.5 的更新内容逐一梳理。

版本核心亮点：Qwen3.5 / Qwen3.6 / Gemma4 + Transformers v5

v0.9.5 最醒目的升级，直接在版本标题中便已阐明：一是新增了对 Qwen3.5 / Qwen3.6 / Gemma4 模型的主力支持；二是增加了与 Transformers v5 的兼容性。

这意味着，新一代主流模型与新版本 Transformers 生态的适配，已被推向核心层面。围绕这一目标，后续整个更新列表中，都能看到大量与这些模型和框架相关的补丁、功能接入及兼容性修复。尤其是 Qwen3.5 和 Qwen3.6，本次不仅仅是“支持”，而是围绕模板、视觉模块、projector 路径、packing、FlashAttention、NPU、Liger Kernel、文档等多个层面进行了完善，说明它们在实际训练与使用链路中的适配已达到非常深入的程度。

模型支持大扩容：新增与完善的模型一览

在模型支持方面，LlamaFactory v0.9.5 延续了高频扩展的节奏。本次新增或增强支持的模型包括：

Youtu-LLM-2B
LiquidAI 的 LFM2.5
LiquidAI 的 LFM2.5-VL 视觉语言模型
Microsoft 的 Phi-4-mini
HY-MT
Hunyuan 系列模型修复与补充
youtu-vl
MiniCPM-o-4.5
GLM-4.7-Flash SFT
GLM-OCR SFT
Qwen3-Next 的 Liger Kernel 支持
Aeva
Qwen3.5 全系列模型
Qwen3.6 模型
Hy3-Preview
Gemma4
MiniCPM-V-4.6

除了模型本体的支持，还有多项与模型生态配套的更新：将 LFM 模板重命名为 LFM2，并在 README 中加入了 LFM 2.5；更新了 MCA 支持的模型列表；让 MCA 支持 Qwen3.5；让 MCA 工作流兼容 Qwen-VL 系列；更新了 MCore 相关的 Docker 和 MCA 支持的模型。这意味着 v0.9.5 不只是在代码层面“识别”模型，而是将模型模板、示例、工作流、容器环境、生态文档和自动化流程一并跟进。

围绕 Qwen3.5 / Qwen3.6 的重点适配非常密集

如果按模型聚焦来看本次更新，Qwen3.5 无疑是最重要的适配对象之一。相关更新非常多，覆盖了从模型注册到模板、从视觉模块到训练性能、从多后端到文档修复的完整链路。

直接相关的更新包括：适配 Qwen3.5；注册 Qwen3.5 的视觉部分；支持 Qwen3.5 全系列模型；修复 Qwen3.5 projector 路径；支持 Qwen3.6 模型；添加 Qwen3 模板并修复渲染插件；在 MCA 中支持 Qwen3.5；在 NPU 上支持 Qwen3.5 的 Partial RoPE 和 Hybrid Attention；让 Liger Kernel 支持 Qwen3.5；修复 Qwen3VL 时间戳；向 Qwen3-VL 视觉模型键添加 visual.pos_embed；Qwen3.5 对 neat_packing 的补丁；修复训练 Qwen3.5 在 FA2 时的 IMA 问题；修复 Qwen3.5 在使用 Flash Attention 时非 packing 批次（bsz>1）的问题；修复 Qwen3.6 的模板文档。

另外，还包括与 Qwen3-Next 相关的专项增强：为 Qwen3-Next 添加 Liger Kernel 支持；为 Qwen3-Next 添加 DeepSpeed Z3 leaf 模块。

这组更新非常能说明问题：v0.9.5 对 Qwen3.5/3.6 的支持，已经不止停留在“能跑”的阶段，而是进入了模板、视觉、多模态、打包、训练后端、NPU、Kernel 优化、FlashAttention、文档一致性的全面成熟阶段。

Gemma4 支持落地，并补齐多模态细节

除了 Qwen3.5/3.6，Gemma4 也是本版本标题级的重点。对应的更新包括：添加 Gemma4 支持；修复 Gemma4 的 mm_token_type_ids padding 问题；修复 Gemma4 模块的 projector 查找问题。

这表明 Gemma4 的支持并不仅仅停留在模型入口层面的接入，还包括了多模态 token 类型、padding 细节以及 projector 模块检索修复。对于实际训练和多模态适配来说，这些通常都属于非常关键的落地问题。

v1 训练栈继续进化

v0.9.5 的另一条主线，是 v1 训练体系的持续建设。更新说明中有大量以 v1 标注的改动，表明这个体系正在快速完善。这部分新增能力包括：添加 init plugin；添加 CLI sampler；添加 renderer ut；添加 batch generator；升级 batching；添加 SFT；为 v1 文档初始化提交；添加 v1 LoRA / Freeze 支持及合并工作流；支持 DeepSpeed；支持量化；为训练添加 seed 并修复 gradient checkpointing；支持全量和部分参数的 meta 加载；添加回调；为 FSDP2 添加 init on rank0；为 FSDP2 支持 ulysses cp；支持从 checkpoint 恢复训练；修复 ulysses cp 的 device_mesh 和 clip_grad_norm；为低内存使用的权重加载添加 DeepSpeed Zero3 触发；修复 Transformers v5 中的 meta 初始化；支持 reward 训练阶段；添加使用 Triton 实现的 CUDA fused MoE 内核；支持 Liger Kernel；添加 FlashAttention 选择并实现普通/padding-free/动态 batching；实现动态 padding-free 策略的 batching；修复 padding free 与 sp 的配合；修复 epoch 和 steps；修复 FSDP2 的 device_mesh 和 sp。

从这些内容可以看出，v1 在本版本已经覆盖了训练初始化、采样、渲染测试、批处理生成、SFT、LoRA/Freeze、量化、DeepSpeed、FSDP2、恢复训练、MoE Kernel、FlashAttention、动态 batching 等多个关键模块，已经形成比较完整的训练能力拼图。

特别值得关注的是三块能力：

FSDP2 支持持续加深

相关更新包括：支持使用 FSDP2 训练；添加 DPO/KTO FSDP FSDP2 支持；为 FSDP2 添加 init on rank0；为 FSDP2 支持 ulysses cp；支持通过 HyperParallel FSDP2 后端进行 LlamaFactory SFT 训练；修复 ulysses cp 的 device_mesh 和 clip_grad_norm；修复 FSDP2 的 device_mesh 和 sp。这说明 FSDP2 已经不只是初步接入，而是扩展到了 SFT、DPO/KTO、并行策略、初始化流程和设备网格修复层面。

DeepSpeed 能力继续增强

相关更新包括：支持 DeepSpeed；为低内存使用的权重加载添加 DeepSpeed Zero3 触发；为 Qwen3-Next 添加 DeepSpeed Z3 leaf 模块。

批处理和注意力优化继续深入

相关更新包括：升级 batching；添加 FlashAttention 选择；实现普通/padding-free/动态 batching；实现动态 padding-free 策略的 batching；修复 padding free 与 sp。这部分更新非常契合大模型训练对吞吐、显存和并行效率的需求。

Transformers v5 兼容进入实战阶段

v0.9.5 的另一个核心主题，是适配 Transformers v5。从更新清单来看，这可不是一句口号，而是经过了大量分散修复之后形成的整体兼容。

与 Transformers v5 直接相关的更新包括：更新 PEFT、DeepSpeed，适配 Transformers v5；修复当 Transformers>=5.0.0 时 UT HuggingFace Hub 429 错误；为 Transformers v5 兼容移除 safe_serialization 参数；修复 Transformers v5 中的 meta 初始化；处理 Transformers>=5.0 时 export_model 中的 NotImplementedError；提升 Transformers 版本上限。

此外，还有一些兼容性相关更新也属于适配过程中的关键组成部分：兼容 config.json 中的空 architectures 字段；修复 parser；修复 package；修复 fp8；修复 constants；更新 constants；文档：修复 Python 版本要求从 3.10 改为 >=3.11.0。

可以说，v0.9.5 在新版本 Transformers 生态下已经完成了模型加载、序列化、导出、测试、依赖边界、文档要求等多个层面的适配。

训练后端、分布式与加速能力继续增强

在训练基础设施方面，这一版继续加强了多种后端与分布式场景的可用性。相关更新包括：修复 FP8：添加 Transformer Engine 后端支持；支持使用 ray.remote 启动分布式训练；修复多 GPU 训练期间 LoggerHandler 的竞态条件；使用 mp 运行 Kernel 测试；修复获取 Ray 头节点 IP；修复 Ray 示例中的未使用键；在 datasets.interleave_datasets 中支持 all_exhausted_without_replacement；添加 ASFT；添加 torch profiler 回调；使用 getattr 获取 profiler 属性以支持 MCA TrainingArguments；通过 Accelerate 添加 KTransformers AMX MoE SFT 支持；修复 MoE；修复 NPU FusedMoE 和 RMSNorm；支持奖励模型训练的 safetensors 保存；支持 reward 训练阶段。

这些更新覆盖了分布式启动、日志并发安全、数据集采样策略、性能剖析、MoE、奖励模型训练、NPU 后端等多个方向，说明 v0.9.5 对复杂训练任务的支持在进一步增强。

多模态与插件链路修复非常密集

这一版还有一个明显的特点，就是多模态细节修复数量很多。这说明项目正在处理越来越多真实训练和推理链路中的边缘情况。

相关更新包括：向 Qwen3-VL 视觉模型键添加 visual.pos_embed；修复 VLLM：支持混合多模态负载；支持 youtu-vl 模型；支持 MiniCPM-o-4.5；支持 GLM-OCR SFT；当 feature_extractor 缺失时回退到 audio_processor；处理系统消息中的空内容列表；修复使用视频训练 MiniCPMVPlugin process_messages 时的 IndexError；支持 MiniCPM-V-4.6；修复 MiniCPM-V-4.6 图像预处理行为；为全模态模型设置 mm_projectors；优化 Qwen 视频 token 元数据预处理；修复遇到虚拟图像时 gdn 崩溃；在 MiniCPMVPlugin.get_mm_inputs 中添加缺失的 return 语句；修复混合多模态负载；修复 Qwen3VL 时间戳。

再加上前面提到的 Gemma4、Qwen3.5 的视觉部分修复，可以看出多模态已经是这一版本非常重要的适配方向之一。

数据处理、工具调用与对话格式兼容进一步完善

数据链路方面，v0.9.5 也有不少很实用的修复和增强：支持 EAFT 损失；支持多轮对话的 discard history cot；添加 SGSC zero-hallucination B2B 数据集（NOO-Protocol）；当没有调用工具时，SeedToolUtils.tool_extractor 返回内容；处理 OpenAI 风格消息中的 None tool_calls；纠正 gpt_oss format_assistant；修复 MIMO-v2 工具调用；修复保存时与 HuggingFace Dataset 列的兼容性问题；将 read_cloud_json 中的 filter() 转换为 list 以修复空检查错误。

这些更新说明，v0.9.5 不仅在模型和训练层升级，也在面向真实数据集、OpenAI 风格消息格式、tool_calls、对话式训练样本处理等方面做了较多兼容工作。

Packing、模板、配置与示例全面补强

围绕训练配置、模板与样例使用，本次也有不少补丁：将 LFM 模板重命名为 LFM2 并在 README 中添加 LFM 2.5；纠正 KTransformers 示例配置路径和模板；添加 Qwen3 模板并修复渲染插件；适配 neat_packing 和 mrope 模型 packing；为 neat_packing 添加 Qwen3.5 补丁；修复 Qwen3.5 在使用 Flash Attention 时非 packing 批次（bsz>1）的问题；修复 Qwen3.6 模板文档；修复 constants；更新 constants；兼容 config.json 中的空 architectures 字段。

这些改动对于实际落地非常重要。很多时候版本升级并不卡在大功能，而是卡在模板路径、打包策略、配置字段、示例不一致这些细节上。v0.9.5 在这些方面补得很细。

文档、README、依赖与 CI 环境同步更新

除了功能本身，这一版也同步进行了不少文档、依赖和 CI 基础设施更新。相关内容涉及：设置开发版本；代码 lint；更新 pyproject.toml 和 requirements；更新 README.md；资源文件更新 README；为 v1 文档初始化提交；修复 examples/README_zh.md 中的拼写错误；修复 Python 版本要求从 3.10 改为 >=3.11.0；改进 CUDA CI 缓存；更新过时的 GitHub Actions 版本；为 Ascend NPU CI 环境添加 nginx 缓存配置；升级到 ROCm 7.2 基础镜像，卸载 PyTorch 重新安装；更新 NPU Docker；更新 NPU Docker；更新 MCore 相关 Docker 和 MCA 支持的模型；使 MCA 工作流兼容 Qwen-VL 系列。

可以看出，这一版不仅在功能层推进，还在构建、测试、CI 缓存、容器镜像和文档说明上同步完善，让整个版本更适合持续维护和部署。

其他重要修复汇总

还有一些虽然不属于某一个大类，但同样值得记录的重要修复与增强：为 Conv3D 添加 PyTorch 版本警告；修复 Kernel MoE 补丁；修复奖励模型训练的 safetensors 保存；在 datasets.interleave_datasets 中支持 all_exhausted_without_replacement；修复 parser；修复 package；修复 fp8；修复 constants；修复 MoE；发布 v0.9.5。

这些补丁共同构成了版本稳定性的底层支撑。

LlamaFactory v0.9.5 这次到底更新了什么？

如果把这次版本压缩成几条主线，可以归纳为以下几点：

主力模型支持继续向前推进

Qwen3.5、Qwen3.6、Gemma4 是这次的核心主角，同时新增和补齐了大量模型支持，包括 Youtu-LLM-2B、LFM2.5、LFM2.5-VL、Phi-4-mini、HY-MT、Hunyuan、youtu-vl、MiniCPM-o-4.5、GLM-4.7-Flash、GLM-OCR、Aeva、Hy3-Preview、MiniCPM-V-4.6 等。

Transformers v5 适配正式进入可用阶段

从依赖、导出、序列化、测试、meta 初始化，到 safe_serialization 参数、429 错误处理、版本边界控制，v0.9.5 围绕 Transformers v5 做了大量实战补丁。

v1 训练栈快速补强

插件、CLI sampler、渲染测试、batch generator、SFT、LoRA/Freeze、量化、DeepSpeed、FSDP2、恢复训练、FlashAttention、动态 padding-free batching、fused MoE kernel 等能力都在继续补齐。

多模态和 Qwen 生态适配非常深入

视觉模块、projector、timestamp、audio_processor fallback、视频训练、dummy image、mixed multimodal payloads 等问题都得到了修复。

训练基础设施继续完善

包括 Ray 分布式启动、LoggerHandler 竞态修复、Profiler、KTransformers、NPU、ROCm、CI 缓存、GitHub Actions、Docker 等。

结语

代码地址：github.com/hiyouga/LlamaFactory

总体来看，LlamaFactory v0.9.5 是一个覆盖面极广、工程含量很高的版本。它的重点并不只是“新增几个模型”，而是围绕 Qwen3.5/Qwen3.6/Gemma4 + Transformers v5 这个核心目标，把模型支持、训练框架、分布式能力、多模态处理、模板配置、CI 环境、文档说明一起往前推进了一大步。

对于关注 LlamaFactory 的开发者来说，这个版本最值得注意的几个关键词就是：

Qwen3.5
Qwen3.6
Gemma4
Transformers v5
FSDP2
DeepSpeed
FlashAttention
量化
多模态
v1 训练栈

来源：https://cloud.tencent.com.cn/developer/article/2680849

Llama

上一篇标题长度硬性要求：只输出一个标题，限30汉字60字符，无多余内容 下一篇Claude Code团队招聘要求：仅限会做梦与懂底层两类人才

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。