游乐游手机版
首页/AI热点日报/热点详情

Qwen 2.5技术报告完整深度解读与关键发现

类型:热点整理2026-07-01
Qwen 2 5 技术报告深度解读:预训练与后训练优化策略全面升级 这篇技术报告读起来相当顺畅,相比 Qwen 1 近百万字的篇幅,Qwen2 5 的文档更加精炼,大约只需十来分钟即可通读。报告重点聚焦于训练层面的改进,与 Qwen2 的差异阐述得清晰明了,技术原理部分没有过度深入,适合快速掌握
# Qwen 2.5 技术报告深度解读:预训练与后训练优化策略全面升级 这篇技术报告读起来相当顺畅,相比 Qwen 1 近百万字的篇幅,Qwen2.5 的文档更加精炼,大约只需十来分钟即可通读。报告重点聚焦于训练层面的改进,与 Qwen2 的差异阐述得清晰明了,技术原理部分没有过度深入,适合快速掌握核心思路。 虽然 Qwen 团队并未率先在推理方面取得突破性进展,也不像 DeepSeek 那样一夜之间火爆出圈,但如果你花些时间回顾近年来他们陆续开源的数百个模型,就会发现“伟大”这个词,真的无需多言。 Qwen 2.5 技术报告解读 ## Abstract & Introduction 本报告详细介绍了 Qwen2.5 系列大语言模型,核心亮点集中在预训练与后训练阶段的优化策略上。 预训练数据集扩展至 18 万亿个 token,这一规模为模型的常识储备、专业知识积累以及推理能力奠定了坚实的数据基础。后训练阶段采用了监督微调(SFT)与多阶段强化学习(RL)的组合方案,重点提升了模型对人类偏好的对齐能力,同时在长文本生成、结构化数据分析、指令遵循等方向实现了显著突破。 ## Architecture & Tokenizer 模型架构基本保持原有设计,仍采用 Decoder Only 范式,主要调整集中在训练语料和训练流程上。 Qwen2.5 的核心组件依然包括: - GQA 分组注意力机制 - SwiGLU 激活函数 - RoPE 旋转位置编码 - RMSNorm 归一化 - DCA 双块注意力机制 - YaRN 位置编码扩展技术 团队开发了多种尺寸的模型,覆盖了从小型推理到企业级部署的多样化应用场景。 ## Pre-training ### 预训练数据 与上一代 Qwen2 相比,Qwen2.5 在预训练数据质量方面实施了多项显著提升: **第一,更精准的数据筛选。** 本次直接采用 Qwen2-Instruct 模型作为数据质量过滤器,对训练样本进行评分与筛选。这种更细致的质量评估机制不仅显著提高了高质量训练数据的留存率,还能更有效地剔除多语言场景下的低质量样本。 **第二,数学与代码数据的强化。** 在预训练阶段,团队直接将 Qwen2.5-Math 和 Qwen2.5-Coder 的训练数据整合进来。这意味着模型从一开始就获得了更强的数学推理和代码理解基础。 **第三,合成数据质量的提升。** 为生成高质量的合成数据(尤其在数学、代码和知识领域),团队借助了 Qwen2-72B-Instruct 和 Qwen2-Math-72B-Instruct 两大模型。更重要的是,通过专有的通用奖励模型以及专门的 Qwen2-Math-RM-72B 模型进行严格过滤,合成数据的质量得到了进一步保障。 *这里其实已经在做知识蒸馏了。* 基于这些技术手段,最终的预训练数据集从 Qwen2 时代的 7 万亿 token 扩展至 18 万亿 token,规模增长超过一倍。 ### 继续探索 Scaling Law 以往的研究主要利用 Scaling Law 推算在给定计算预算下的最佳模型规模,而 Qwen 团队走得更远——他们用 Scaling Law 来识别模型架构层面的最优超参数。具体而言,Scaling Law 帮助团队确定了密集模型和不同规模的 MoE 模型的关键训练参数,例如批量大小 B 和学习率 μ。 更值得关注的是,团队还利用 Scaling Law 预测并比较不同参数量的 MoE 模型与对应密集模型之间的性能差异。这种分析直接指导了 MoE 模型的超参数配置,使得通过精细调整激活参数和总参数,MoE 模型能够达到与特定密集模型变体(如 Qwen2.5-72B 和 Qwen2.5-14B)相当的性能水平。 ### 长上下文预训练 Qwen2.5 采用了两阶段预训练策略: 第一阶段以 4096 个 token 的上下文长度起步,之后进入扩展阶段处理更长的序列。在最终预训练阶段,除 Qwen2.5-Turbo 外,所有模型变体的上下文长度均从 4096 个 token 扩展至 32768 个 token。同时,使用 ABF 技术将 RoPE 的基础频率从 10000 提升至 1000000。 为增强模型在推理过程中处理长序列的能力,团队引入了 YARN 和 DCA 两项技术。通过这些创新,序列长度的处理容量提升了四倍——Qwen2.5-Turbo 可处理多达 100 万个 token,其他模型也能支持到 131072 个 token。 ## 后训练 与 Qwen2 相比,Qwen2.5 在后训练设计上有两项重大改进: **一是监督微调数据覆盖范围的大幅扩展。** 监督微调过程使用了包含数百万个高质量样本的海量数据集。本次扩展专门针对之前模型表现薄弱的几个关键领域进行了重点强化,包括长序列生成、数学问题求解、编码、指令跟踪、结构化数据理解、逻辑推理、跨语言迁移以及更鲁棒的系统指令。 **二是两阶段强化学习。** Qwen2.5 中的强化学习过程被分为两个不同阶段:离线强化学习和在线强化学习。这种分层设计让模型的对齐效果更加精细可控。 *后训练技术 DPO、S*
来源:https://www.53ai.com/news/OpenSourceLLM/2025030419804.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。