Kimi 1.5技术报告深度解读，一文读懂核心要点_AI热点日报

今天咱们来聊点硬核的——Kimi K1 5的技术报告。这款前沿的多模态大语言模型，凭借一套独特的强化学习训练方式和一系列创新技术，展现出了相当亮眼的性能，在多个领域都拿出了实打实的成果。可以说，它为人工智能的发展又开辟了一条新路径。下面，咱们就一起来拆解一下这份报告里的干货。一、研究背景与创新点

今天咱们来聊点硬核的——Kimi K1.5的技术报告。这款前沿的多模态大语言模型，凭借一套独特的强化学习训练方式和一系列创新技术，展现出了相当亮眼的性能，在多个领域都拿出了实打实的成果。可以说，它为人工智能的发展又开辟了一条新路径。下面，咱们就一起来拆解一下这份报告里的干货。

一、研究背景与创新点

传统的基于下一个token预测的预训练方式，虽然在计算规模扩展上取得了一定成效，但或多或少受到了可用训练数据规模的限制。随着数据增长的瓶颈逐渐显现，行业迫切需要找到新的扩展维度来推动AI性能的进一步提升。这时候，强化学习（RL）就跳出来给出了新的解题思路。当它和大语言模型结合起来，模型就能依据奖励机制自主探索，突破静态数据集的束缚，实现更广泛的数据学习，从而为性能的持续提升带来可能。

Kimi K1.5正是在这个背景下诞生的。它在设计与训练过程中融入了好几个关键创新点：一方面，通过把强化学习的上下文窗口扩展到128k，并借助部分滚动技术来提高训练效率，实现了长上下文扩展。这一突破意味着模型在处理复杂任务时，能利用更长的上下文信息，推理能力自然水涨船高。另一方面，在策略优化上，Kimi K1.5推导了长思维链强化学习的公式，并采用在线镜像下降的变体进行稳健的策略优化。与此同时，有效的采样策略、长度惩罚机制和数据配方优化，也都为提升模型性能添砖加瓦。这些创新点共同构建了一个简洁又高效的强化学习框架，让Kimi K1.5在不依赖复杂技术的情况下，也能展现出强大的性能。

二、模型训练过程

（一）强化学习提示集整理

高质量的数据是训练的基础，Kimi K1.5的强化学习提示集也不例外。在构建这个提示集时，团队重点考虑了三个关键特性：多样覆盖、难度平衡和准确可评估。

多样覆盖性要求提示能跨越多个学科领域，比如STEM、编码和通用推理等，这样才能增强模型的适应性和泛化能力。为此，团队用了自动筛选器，从各个领域里挑选那些需要深入推理、又容易评估的问题，同时还开发了一个标记系统对提示进行分类，确保不同学科领域都能被公平地代表。

难度平衡方面，团队采用了一种基于模型的方法：用SFT模型对每个提示生成多次答案，然后根据通过率来评估提示的难度。这样一来，难度评估就和模型的内在能力对上了号，能有效过滤掉那些太简单的案例，为强化学习训练提供更具挑战性的数据。

至于准确可评估性，为了避免奖励作弊问题，团队排除了那些容易出现错误验证的问题类型，比如选择题、判断题和证明题。对于一般的问答任务，他们也提出了一套识别和去除容易被破解提示的方法，确保模型性能的评估是基于正确的推理，而不是取巧。

（二）长思维链监督微调

基于精心整理的强化学习提示集，Kimi K1.5通过提示工程构建了一个小型但高质量的长思维链热身数据集。这个数据集里包含了经过准确验证的文本和图像输入的推理路径，模拟了人类推理过程中的规划、评估、反思和探索等关键认知活动。通过对这个热身数据集进行轻量级的监督微调，模型能够内化这些推理策略，进而在生成响应时表现出更详细、逻辑更连贯的特点，显著提升在各种推理任务中的表现。

（三）强化学习

问题设定：在强化学习阶段，Kimi K1.5的目标是训练一个策略模型，让它能在给定问题和真实答案的数据集上，生成正确的解决方案。思维链方法作为解决复杂问题的关键，通过一系列中间步骤连接问题和答案。在这个过程中，模型不仅要学习简单的基于提示的思维链推理，还得掌握规划技能，包括错误识别、回溯和解决方案优化，才能应对更具挑战性的问题。
策略优化：为了实现策略优化，Kimi K1.5采用了在线策略镜像下降的变体算法。在每次迭代中，模型通过优化相对熵正则化的策略优化问题，更新自己的参数。在这个过程中，团队用采样的方式近似计算相关参数，并通过计算梯度来更新模型。与传统策略梯度方法不同的是，Kimi K1.5的响应是从模型中采样出来的，并应用了L2正则化。这种方法可以看作是传统策略梯度算法在离策略情况下的自然扩展。值得一提的是，Kimi K1.5在训练系统中排除了价值网络，这个设计选择在提高训练效率的同时，鼓励模型探索更多样化的推理路径，增强了解决复杂问题的能力。
长度惩罚：在训练过程中，团队观察到模型存在“过度思考”的现象，也就是响应长度显著增加。虽然这在某种程度上提升了性能，但过长的推理过程既增加了训练和推理成本，又不太符合人类的偏好。为了解决这个问题，团队引入了长度奖励机制——根据响应的正确性和长度，对模型的输出进行奖励或惩罚。初步实验发现，长度惩罚可能会在训练初期影响效率，因此团队采用了逐步升温的策略：先进行无长度惩罚的标准策略优化，等模型稳定了，再在后续训练中引入固定的长度惩罚。
采样策略：为了提高训练效率，Kimi K1.5采用了多种采样策略。课程采样策略会根据问题的难度标签，让模型从简单任务开始训练，逐渐过渡到更具挑战性的任务。这样能避免在模型性能有限时，把过多的计算资源浪费在难题上，从而提升整体训练效率。优先级采样策略则是通过跟踪每个问题的成功率，对成功率较低的问题赋予更高的采样概率，让模型能集中精力学习薄弱环节，加快学习速度，提升整体性能。
训练配方的更多细节：在编码任务中，由于许多网络编码问题缺乏测试用例，Kimi K1.5设计了自动生成测试用例的方法。团队利用CYaRon库，结合模型自身生成的测试用例，经过多轮筛选，确保测试用例的有效性和高质量，为编码任务的训练提供了可靠依据。对于数学问题的奖励建模，团队采用了两种方法：经典奖励模型借鉴了InstructGPT的思路，而思维链奖励模型则通过生成逐步推理过程来提供更强大、更可解释的奖励信号。实验表明，思维链奖励模型在准确性上更胜一筹，因此被最终采用。在视觉数据方面，为了提升模型的视觉推理能力，Kimi K1.5的视觉强化学习数据来源于真实世界数据、合成视觉推理数据和文本渲染数据。这些数据涵盖了各种视觉推理任务，帮助模型在不同场景下学习和适应，增强了模型在多模态任务中的表现。

（四）长到短：短思维链模型的上下文压缩

长思维链模型虽然性能强劲，但在测试时消耗的token数量也比较多。为了提升短思维链模型的性能，Kimi K1.5提出了多种“长到短”的方法。模型合并通过平均长思维链模型和短思维链模型的权重，在不进行训练的情况下获得新模型，既保持了泛化能力，又提高了token效率。最短拒绝采样方法则是基于模型对同一问题生成的响应长度差异，多次采样并选择最短的正确响应进行监督微调。直接偏好优化（DPO）则利用长思维链模型生成多个响应样本，选择最短正确解作为正样本，较长响应作为负样本，形成成对偏好数据进行训练。长到短RL方法在标准RL训练后，选择性能和token效率平衡最佳的模型作为基础模型，进行单独的长到短RL训练，并应用长度惩罚机制，进一步优化模型性能。

（五）其他训练细节

预训练：Kimi K1.5的基础模型在多模态语料库上进行预训练，语料库涵盖了英语、中文、代码、数学推理和知识五个领域的语言数据，以及包含多种模态的多模态数据。在预训练过程中，团队通过严格的质量控制确保数据的相关性、多样性和平衡性。预训练分为三个阶段：视觉语言预训练阶段建立语言基础并逐步融合多模态；冷却阶段利用精选和合成数据巩固能力，特别是在推理和基于知识的任务上；长上下文激活阶段则将序列处理能力扩展到131,072个token。
香草监督微调：在香草监督微调阶段，Kimi K1.5创建了涵盖多个领域的语料库。对于非推理任务，通过人工标注构建种子数据集，训练种子模型后生成多个响应并进行排序和优化。对于推理任务，则利用拒绝采样扩展数据集。该阶段的数据集包含约100万个文本示例和100万个文本-视觉示例。模型在不同序列长度下进行训练，并通过调整学习率和打包训练示例来提高训练效率。

（六）强化学习基础设施

大规模强化学习训练系统：Kimi K1.5采用迭代同步的强化学习框架，结合部分滚动技术，优化复杂推理轨迹的处理。在训练过程中，滚动工作节点生成轨迹，存储在回放缓冲区中，训练工作节点根据这些轨迹计算梯度并更新模型权重。中央主节点负责管理数据和通信，确保系统协调运行。同时，系统还包含代码执行服务，用于处理代码相关问题，为奖励模型提供关键反馈，提升模型在编码任务中的性能。
部分滚动技术：部分滚动是Kimi K1.5处理长思维链特征的关键技术。它通过设置固定的输出token预算，对长响应进行分段处理。当轨迹在滚动阶段超过token限制时，未完成部分保存到回放缓冲区，在下一次迭代中继续。这种技术不仅避免了长轨迹对系统资源的独占，还通过异步操作提高了计算效率。同时，部分滚动系统还具备重复检测功能，能够识别并终止重复序列，减少不必要的计算，优化学习过程。
训练和推理的混合部署：为了解决训练和推理过程中的资源利用和并行策略问题，Kimi K1.5提出了混合部署策略。团队利用Kubernetes Sidecar容器共享GPU资源，将训练和推理工作负载部署在同一Pod中。在训练阶段，Megatron负责训练，训练完成后将权重转移给vLLM进行推理。推理结束后，释放vLLM占用的GPU内存，Megatron继续下一轮训练。这种部署方式实现了训练和推理的高效切换，减少了GPU资源的闲置时间，提高了资源利用率。
代码沙箱：Kimi K1.5开发了代码沙箱，作为执行用户提交代码的安全环境，用于代码执行和基准评估。通过动态切换容器镜像，沙箱支持多种使用场景，并提供一致的评估机制。为了优化性能，沙箱采用了Crun作为容器运行时，重用cgroups，优化磁盘使用等技术，提高了强化学习在代码执行中的效率，为模型的迭代训练提供了可靠的环境。

三、实验结果与分析

（一）评估基准

为了全面评估Kimi K1.5的性能，研究团队选择了多个涵盖不同模态的基准测试。文本基准测试包括MMLU、IF-Eval、CLUEWSC和C-EVAL，用于评估模型在世界知识、指令跟随、共指消解和中文知识推理等方面的能力。推理基准测试涵盖HumanEval-Mul、LiveCodeBench、Codeforces、AIME 2024和MATH-500，主要测试模型在编程、数学竞赛等推理任务中的表现。视觉基准测试则包含MMMU、MATH-Vision和MathVista，用于评估模型在多模态数学推理和视觉理解方面的能力。

（二）主要结果

Kimi K1.5的长思维链模型在多个基准测试中交出了领先的成绩单。在数学领域，MATH-500测试中达到了96.2的高分，AIME 2024中的Pass@1指标为77.5；在编码方面，Codeforces上达到了94%的百分位数。这些结果表明，模型在处理复杂推理任务时，能够充分利用长上下文信息和优化的策略，展现出强大的推理和综合信息能力。

短思维链模型同样表现出色，在多个任务中优于领先的开源和专有模型。在MMLU测试中，EM指标达到87.4；在AIME 2024中Pass@1指标为60.8；在LiveCodeBench中Pass@1指标为47.3。这得益于模型融合了传统监督微调、强化学习和长到短蒸馏等多种技术，使得模型在自然语言理解、数学、编码和逻辑推理等任务中都具备了较强的竞争力。

（三）长上下文扩展

通过对中型模型的实验，研究团队发现，随着训练的推进，模型的响应长度和性能准确性会同步增长。在处理更具挑战性的基准测试时，响应长度的增长更为明显，这表明模型确实能够为复杂问题生成更详细的解决方案。最终，Kimi K1.5将上下文长度扩展到128k，并在硬推理基准测试中持续提升性能，这验证了长上下文扩展对模型能力提升的重要性。

（四）长到短方法

在比较不同的长到短方法时，长到短RL算法在token效率上表现最为突出。例如，k1.5-short w/rl在AIME2024上以平均3,272个token的消耗，达到了60.8的Pass@1分数；k1.5-shortest在MATH500上以与其他短模型相近的token消耗，达到了88.2的Pass@1分数。这表明长到短RL算法能够有效地将长思维链模型的优势转移到短思维链模型上，从而提升短模型的性能和token效率。

（五）消融研究

模型大小和上下文长度的扩展：通过训练不同大小的模型并比较性能，研究发现，虽然较大模型在初始阶段性能优于较小模型，但较小模型通过利用强化学习优化的长思维链，也能达到与较大模型相当的性能。不过，较大模型在token效率上更具优势。这说明在追求最佳性能时，扩展较大模型的上下文长度是更优的选择；而在测试时间计算资源有限的情况下，训练较小模型并扩展其上下文长度，也是一个可行的方案。
使用负梯度的效果：研究团队对比了使用ReST作为策略优化算法和自身方法的效果。实验结果表明，Kimi K1.5所采用的方法在样本复杂度上优于ReST，能够在更少的训练样本下实现更强的性能。这凸显了在生成长思维链时，选择合适的策略优化算法是多么关键——负梯度的应用对于提升模型效率和推理质量具有显著作用。
采样策略：课程采样策略的实验结果显示，与均匀采样的基线方法相比，该策略能够显著提升模型性能。课程采样通过逐步提升任务的难度层次，让模型在处理更困难的问题之前先打好基础，从而更好地发展推理和解决问题的能力，这证明了该策略在优化模型训练过程中的有效性。

四、研究结论

总的来说，Kimi K1.5通过创新的训练方法和系统设计，在多模态大语言模型领域取得了实实在在的进展。研究结果明确显示，上下文长度的扩展对大语言模型的持续改进至关重要，而Kimi K1.5通过优化学习算法和基础设施，成功实现了高效的长上下文强化学习训练。同时，多种技术的结合让模型在策略优化方面表现出色，即使不依赖那些花哨的复杂技术，也能拿出强大的性能。此外，长到短方法展现出了提升短思维链模型性能的潜力，为提高模型的token效率提供了新的方向。