今天咱们来聊点硬核的——Kimi K1.5的技术报告。这款前沿的多模态大语言模型,凭借一套独特的强化学习训练方式和一系列创新技术,展现出了相当亮眼的性能,在多个领域都拿出了实打实的成果。可以说,它为人工智能的发展又开辟了一条新路径。下面,咱们就一起来拆解一下这份报告里的干货。
一、研究背景与创新点
传统的基于下一个token预测的预训练方式,虽然在计算规模扩展上取得了一定成效,但或多或少受到了可用训练数据规模的限制。随着数据增长的瓶颈逐渐显现,行业迫切需要找到新的扩展维度来推动AI性能的进一步提升。这时候,强化学习(RL)就跳出来给出了新的解题思路。当它和大语言模型结合起来,模型就能依据奖励机制自主探索,突破静态数据集的束缚,实现更广泛的数据学习,从而为性能的持续提升带来可能。
Kimi K1.5正是在这个背景下诞生的。它在设计与训练过程中融入了好几个关键创新点:一方面,通过把强化学习的上下文窗口扩展到128k,并借助部分滚动技术来提高训练效率,实现了长上下文扩展。这一突破意味着模型在处理复杂任务时,能利用更长的上下文信息,推理能力自然水涨船高。另一方面,在策略优化上,Kimi K1.5推导了长思维链强化学习的公式,并采用在线镜像下降的变体进行稳健的策略优化。与此同时,有效的采样策略、长度惩罚机制和数据配方优化,也都为提升模型性能添砖加瓦。这些创新点共同构建了一个简洁又高效的强化学习框架,让Kimi K1.5在不依赖复杂技术的情况下,也能展现出强大的性能。
二、模型训练过程
(一)强化学习提示集整理
高质量的数据是训练的基础,Kimi K1.5的强化学习提示集也不例外。在构建这个提示集时,团队重点考虑了三个关键特性:多样覆盖、难度平衡和准确可评估。
多样覆盖性要求提示能跨越多个学科领域,比如STEM、编码和通用推理等,这样才能增强模型的适应性和泛化能力。为此,团队用了自动筛选器,从各个领域里挑选那些需要深入推理、又容易评估的问题,同时还开发了一个标记系统对提示进行分类,确保不同学科领域都能被公平地代表。
难度平衡方面,团队采用了一种基于模型的方法:用SFT模型对每个提示生成多次答案,然后根据通过率来评估提示的难度。这样一来,难度评估就和模型的内在能力对上了号,能有效过滤掉那些太简单的案例,为强化学习训练提供更具挑战性的数据。
至于准确可评估性,为了避免奖励作弊问题,团队排除了那些容易出现错误验证的问题类型,比如选择题、判断题和证明题。对于一般的问答任务,他们也提出了一套识别和去除容易被破解提示的方法,确保模型性能的评估是基于正确的推理,而不是取巧。
(二)长思维链监督微调
基于精心整理的强化学习提示集,Kimi K1.5通过提示工程构建了一个小型但高质量的长思维链热身数据集。这个数据集里包含了经过准确验证的文本和图像输入的推理路径,模拟了人类推理过程中的规划、评估、反思和探索等关键认知活动。通过对这个热身数据集进行轻量级的监督微调,模型能够内化这些推理策略,进而在生成响应时表现出更详细、逻辑更连贯的特点,显著提升在各种推理任务中的表现。
(三)强化学习
问题设定:在强化学习阶段,Kimi K1.5的目标是训练一个策略模型,让它能在给定问题和真实答案的数据集上,生成正确的解决方案。思维链方法作为解决复杂问题的关键,通过一系列中间步骤连接问题和答案。在这个过程中,模型不仅要学习简单的基于提示的思维链推理,还得掌握规划技能,包括错误识别、回溯和解决方案优化,才能应对更具挑战性的问题。
策略优化:为了实现策略优化,Kimi K1.5采用了在线策略镜像下降的变体算法。在每次迭代中,模型通过优化相对熵正则化的策略优化问题,更新自己的参数。在这个过程中,团队用采样的方式近似计算相关参数,并通过计算梯度来更新模型。与传统策略梯度方法不同的是,Kimi K1.5的响应是从模型中采样出来的,并应用了L2正则化。这种方法可以看作是传统策略梯度算法在离策略情况下的自然扩展。值得一提的是,Kimi K1.5在训练系统中排除了价值网络,这个设计选择在提高训练效率的同时,鼓励模型探索更多样化的推理路径,增强了解决复杂问题的能力。
长度惩罚:在训练过程中,团队观察到模型存在“过度思考”的现象,也就是响应长度显著增加。虽然这在某种程度上提升了性能,但过长的推理过程既增加了训练和推理成本,又不太符合人类的偏好。为了解决这个问题,团队引入了长度奖励机制——根据响应的正确性和长度,对模型的输出进行奖励或惩罚。初步实验发现,长度惩罚可能会在训练初期影响效率,因此团队采用了逐步升温的策略:先进行无长度惩罚的标准策略优化,等模型稳定了,再在后续训练中引入固定的长度惩罚。
采样策略:为了提高训练效率,Kimi K1.5采用了多种采样策略。课程采样策略会根据问题的难度标签,让模型从简单任务开始训练,逐渐过渡到更具挑战性的任务。这样能避免在模型性能有限时,把过多的计算资源浪费在难题上,从而提升整体训练效率。优先级采样策略则是通过跟踪每个问题的成功率,对成功率较低的问题赋予更高的采样概率,让模型能集中精力学习薄弱环节,加快学习速度,提升整体性能。
训练配方的更多细节:在编码任务中,由于许多网络编码问题缺乏测试用例,Kimi K1.5设计了自动生成测试用例的方法。团队利用CYaRon库,结合模型自身生成的测试用例,经过多轮筛选,确保测试用例的有效性和高质量,为编码任务的训练提供了可靠依据。对于数学问题的奖励建模,团队采用了两种方法:经典奖励模型借鉴了InstructGPT的思路,而思维链奖励模型则通过生成逐步推理过程来提供更强大、更可解释的奖励信号。实验表明,思维链奖励模型在准确性上更胜一筹,因此被最终采用。在视觉数据方面,为了提升模型的视觉推理能力,Kimi K1.5的视觉强化学习数据来源于真实世界数据、合成视觉推理数据和文本渲染数据。这些数据涵盖了各种视觉推理任务,帮助模型在不同场景下学习和适应,增强了模型在多模态任务中的表现。
(四)长到短:短思维链模型的上下文压缩
长思维链模型虽然性能强劲,但在测试时消耗的token数量也比较多。为了提升短思维链模型的性能,Kimi K1.5提出了多种“长到短”的方法。模型合并通过平均长思维链模型和短思维链模型的权重,在不进行训练的情况下获得新模型,既保持了泛化能力,又提高了token效率。最短拒绝采样方法则是基于模型对同一问题生成的响应长度差异,多次采样并选择最短的正确响应进行监督微调。直接偏好优化(DPO)则利用长思维链模型生成多个响应样本,选择最短正确解作为正样本,较长响应作为负样本,形成成对偏好数据进行训练。长到短RL方法在标准RL训练后,选择性能和token效率平衡最佳的模型作为基础模型,进行单独的长到短RL训练,并应用长度惩罚机制,进一步优化模型性能。
(五)其他训练细节
预训练:Kimi K1.5的基础模型在多模态语料库上进行预训练,语料库涵盖了英语、中文、代码、数学推理和知识五个领域的语言数据,以及包含多种模态的多模态数据。在预训练过程中,团队通过严格的质量控制确保数据的相关性、多样性和平衡性。预训练分为三个阶段:视觉语言预训练阶段建立语言基础并逐步融合多模态;冷却阶段利用精选和合成数据巩固能力,特别是在推理和基于知识的任务上;长上下文激活阶段则将序列处理能力扩展到131,072个token。
香草监督微调:在香草监督微调阶段,Kimi K1.5创建了涵盖多个领域的语料库。对于非推理任务,通过人工标注构建种子数据集,训练种子模型后生成多个响应并进行排序和优化。对于推理任务,则利用拒绝采样扩展数据集。该阶段的数据集包含约100万个文本示例和100万个文本-视觉示例。模型在不同序列长度下进行训练,并通过调整学习率和打包训练示例来提高训练效率。
(六)强化学习基础设施
大规模强化学习训练系统:Kimi K1.5采用迭代同步的强化学习框架,结合部分滚动技术,优化复杂推理轨迹的处理。在训练过程中,滚动工作节点生成轨迹,存储在回放缓冲区中,训练工作节点根据这些轨迹计算梯度并更新模型权重。中央主节点负责管理数据和通信,确保系统协调运行。同时,系统还包含代码执行服务,用于处理代码相关问题,为奖励模型提供关键反馈,提升模型在编码任务中的性能。
部分滚动技术:部分滚动是Kimi K1.5处理长思维链特征的关键技术。它通过设置固定的输出token预算,对长响应进行分段处理。当轨迹在滚动阶段超过token限制时,未完成部分保存到回放缓冲区,在下一次迭代中继续。这种技术不仅避免了长轨迹对系统资源的独占,还通过异步操作提高了计算效率。同时,部分滚动系统还具备重复检测功能,能够识别并终止重复序列,减少不必要的计算,优化学习过程。
训练和推理的混合部署:为了解决训练和推理过程中的资源利用和并行策略问题,Kimi K1.5提出了混合部署策略。团队利用Kubernetes Sidecar容器共享GPU资源,将训练和推理工作负载部署在同一Pod中。在训练阶段,Megatron负责训练,训练完成后将权重转移给vLLM进行推理。推理结束后,释放vLLM占用的GPU内存,Megatron继续下一轮训练。这种部署方式实现了训练和推理的高效切换,减少了GPU资源的闲置时间,提高了资源利用率。
代码沙箱:Kimi K1.5开发了代码沙箱,作为执行用户提交代码的安全环境,用于代码执行和基准评估。通过动态切换容器镜像,沙箱支持多种使用场景,并提供一致的评估机制。为了优化性能,沙箱采用了Crun作为容器运行时,重用cgroups,优化磁盘使用等技术,提高了强化学习在代码执行中的效率,为模型的迭代训练提供了可靠的环境。
三、实验结果与分析
(一)评估基准
为了全面评估Kimi K1.5的性能,研究团队选择了多个涵盖不同模态的基准测试。文本基准测试包括MMLU、IF-Eval、CLUEWSC和C-EVAL,用于评估模型在世界知识、指令跟随、共指消解和中文知识推理等方面的能力。推理基准测试涵盖HumanEval-Mul、LiveCodeBench、Codeforces、AIME 2024和MATH-500,主要测试模型在编程、数学竞赛等推理任务中的表现。视觉基准测试则包含MMMU、MATH-Vision和MathVista,用于评估模型在多模态数学推理和视觉理解方面的能力。
(二)主要结果
Kimi K1.5的长思维链模型在多个基准测试中交出了领先的成绩单。在数学领域,MATH-500测试中达到了96.2的高分,AIME 2024中的Pass@1指标为77.5;在编码方面,Codeforces上达到了94%的百分位数。这些结果表明,模型在处理复杂推理任务时,能够充分利用长上下文信息和优化的策略,展现出强大的推理和综合信息能力。
短思维链模型同样表现出色,在多个任务中优于领先的开源和专有模型。在MMLU测试中,EM指标达到87.4;在AIME 2024中Pass@1指标为60.8;在LiveCodeBench中Pass@1指标为47.3。这得益于模型融合了传统监督微调、强化学习和长到短蒸馏等多种技术,使得模型在自然语言理解、数学、编码和逻辑推理等任务中都具备了较强的竞争力。
(三)长上下文扩展
通过对中型模型的实验,研究团队发现,随着训练的推进,模型的响应长度和性能准确性会同步增长。在处理更具挑战性的基准测试时,响应长度的增长更为明显,这表明模型确实能够为复杂问题生成更详细的解决方案。最终,Kimi K1.5将上下文长度扩展到128k,并在硬推理基准测试中持续提升性能,这验证了长上下文扩展对模型能力提升的重要性。
(四)长到短方法
在比较不同的长到短方法时,长到短RL算法在token效率上表现最为突出。例如,k1.5-short w/rl在AIME2024上以平均3,272个token的消耗,达到了60.8的Pass@1分数;k1.5-shortest在MATH500上以与其他短模型相近的token消耗,达到了88.2的Pass@1分数。这表明长到短RL算法能够有效地将长思维链模型的优势转移到短思维链模型上,从而提升短模型的性能和token效率。
(五)消融研究
模型大小和上下文长度的扩展:通过训练不同大小的模型并比较性能,研究发现,虽然较大模型在初始阶段性能优于较小模型,但较小模型通过利用强化学习优化的长思维链,也能达到与较大模型相当的性能。不过,较大模型在token效率上更具优势。这说明在追求最佳性能时,扩展较大模型的上下文长度是更优的选择;而在测试时间计算资源有限的情况下,训练较小模型并扩展其上下文长度,也是一个可行的方案。
使用负梯度的效果:研究团队对比了使用ReST作为策略优化算法和自身方法的效果。实验结果表明,Kimi K1.5所采用的方法在样本复杂度上优于ReST,能够在更少的训练样本下实现更强的性能。这凸显了在生成长思维链时,选择合适的策略优化算法是多么关键——负梯度的应用对于提升模型效率和推理质量具有显著作用。
采样策略:课程采样策略的实验结果显示,与均匀采样的基线方法相比,该策略能够显著提升模型性能。课程采样通过逐步提升任务的难度层次,让模型在处理更困难的问题之前先打好基础,从而更好地发展推理和解决问题的能力,这证明了该策略在优化模型训练过程中的有效性。
四、研究结论
总的来说,Kimi K1.5通过创新的训练方法和系统设计,在多模态大语言模型领域取得了实实在在的进展。研究结果明确显示,上下文长度的扩展对大语言模型的持续改进至关重要,而Kimi K1.5通过优化学习算法和基础设施,成功实现了高效的长上下文强化学习训练。同时,多种技术的结合让模型在策略优化方面表现出色,即使不依赖那些花哨的复杂技术,也能拿出强大的性能。此外,长到短方法展现出了提升短思维链模型性能的潜力,为提高模型的token效率提供了新的方向。
