游乐游手机版
首页/AI热点日报/热点详情

二十二万条DeepSeek R1高质量数据开源助你复现模型

类型:热点整理2026-06-30
中国AI技术反向输出,全球复现DeepSeek热潮来袭。核心内容主要围绕三个方向:DeepSeek-R1引发的全球复现热潮、Hugging Face领衔的Open R1项目,以及刚刚发布的OpenR1-Math-220k数据集——这套数据让更多人有机会验证DeepSeek R1的推理能力迁移。下面逐

中国AI技术反向输出,全球复现DeepSeek热潮来袭。核心内容主要围绕三个方向:DeepSeek-R1引发的全球复现热潮、Hugging Face领衔的Open R1项目,以及刚刚发布的OpenR1-Math-220k数据集——这套数据让更多人有机会验证DeepSeek R1的推理能力迁移。下面逐一展开。

开源!有了22万条DeepSeek R1的高质量数据,你也能复现DeepSeek了!

DeepSeek在海内外搅起的惊涛巨浪,余波仍在汹涌。当中国大模型撕开硅谷的防线之后,在预设中总是落后半拍的中国AI军团,这次竟完成了一次反向技术输出,引发了全球范围内复现DeepSeek的热潮。

DeepSeek-R1虽然开源,但也没有完全开源——训练数据、训练脚本等关键信息并未完全公布。不过,有技术报告在手,相当于拥有了复现R1的指导方针。已经有不少执行力强的团队用小模型见证“aha moment”了。在浩浩荡荡的复刻大军中,最令人瞩目的,当数Hugging Face领衔的Open R1项目。

Open R1宣称要做到完全开放复现DeepSeek-R1,补齐DeepSeek所有未公开的技术细节。项目启动不过几周,他们已经完成了:

  • GRPO实现
  • 训练与评估代码
  • 用于合成数据的生成器

项目地址:https://github.com/huggingface/open-r1

在开源社区的众志成城之下,Open R1动作迅速。今天,他们发布了OpenR1-Math-220k数据集,又补全了一块DeepSeek R1的“碎片”——合成数据。

OpenR1-Math-220k数据集概览
数据集链接:https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

DeepSeek R1的一个重要优势在于它能够将高级推理能力迁移到较小的模型中。DeepSeek团队生成了60万条推理数据,在Qwen和Llama等开源模型上证明了这种迁移能力。即使不使用强化学习,直接从R1模型进行迁移也能实现强大的推理性能。然而,这些合成数据仅DeepSeek可见,未对其他团队开放阅读权限。

OpenR1-Math-220k数据集就是来补上这块空缺的。具体而言,Open R1团队使用DeepSeek R1生成了80万条推理轨迹,经过筛选和验证后得到了22万条高质量数据。这些数据可以用来支持更小的模型,达到媲美DeepSeek R1的效果。比如在OpenR1-Math-220k数据集上训练出来的Qwen-7B-Math-Instruct,达到了与DeepSeek-Distill-Qwen-7B相当的性能

下面来看看OpenR1-Math-220k数据集的特点,以及它是怎么诞生的。

自动过滤正确答案
本地高效生成

目前,开源社区已经发布了OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1和LIMO等多个推理数据集。然而,为了推理公开发布,这促使社区独立重建类似的数据集。另外,社区已经发布了多个开放数据集,包括OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1和LIMO。为了整理OpenR1-Math-220k,Open R1还与开发了广受欢迎的NuminaMath-CoT数据集的Numina团队进行了合作。

那么,与现有数据集相比,Open R1的数据集有什么新特点呢?

  • 80万条R1推理轨迹:使用DeepSeek R1为40万个问题各生成了两个答案,最终经过筛选后保留了22万个具有正确推理轨迹的问题。
  • 本地运行512个H100:没有依赖API,而是在计算集群上利用vLLM和SGLang本地运行生成任务,每天可以生成18万条推理轨迹。
  • 基于NuminaMath 1.5:专注于数学推理公式,为NuminaMath 1.5(NuminaMath-CoT数据集的改进版本)中的问题生成答案。
  • 自动过滤:Open R1团队通过数学验证,只保留至少有一个正确答案的问题,还让Llama3.3-70B-Instruct作为“判官”,以筛选出更多正确的样本,特别是那些因格式错误而无法通过基于规则的解析器验证的答案。
  • 在OpenR1-Math-220k训练出来的Qwen-7B-Math-Instruct,达到了与DeepSeek-Distill-Qwen-7B相当的性能。

数据集分为两个部分:

  • default(94k问题):这部分数据在经过监督微调(SFT)后表现最佳。
  • extended(131k问题):这部分数据包含额外的NuminaMath 1.5数据源,例如cn_k12,提供了更多的推理公式。研究发现这个子集在经过监督微调后的性能低于默认数据集,可能是因为cn_k12中的问题相对简单。

Open R1团队表示,希望这个可扩展的、高质量的推理数据生成过程,能够启发代码生成等数学之外的领域。

数据生成

为了构建数据集,OpenR1团队让DeepSeek R1为来自NuminaMath 1.5的40万个问题生成答案。他们遵循了DeepSeek技术报告中推荐的参数设置,并在提示词前添加了以下指令:

Please reason step by step, and put your final answer within boxed{}.

为了确保生成过程的高效性,团队将每次生成的tokens限制设置为16k。经过分析发现,只有75%的问题能够在8k tokens内解决,而大多数剩余问题需要完整的16k tokens。最初,他们使用vLLM进行推理,每个H100节点每秒可以生成15个答案,并且相关生成脚本已分享在OpenR1仓库中。最近,他们又开始尝试使用SGLang,每个H100节点每秒可以生成25个答案(速度提升了近两倍),这使得512个H100节点上每天能生成30万个问题的答案。为了在后续的过滤和优化过程中提供更大的灵活性,团队为每个问题生成了两个答案——有时甚至生成四个。这样一来,不仅复刻出了类似于DeepSeek R1允许进行拒绝采样的方法,还能使数据集能够适用于如DPO等偏好优化方法。

数据生成脚本:https://github.com/huggingface/open-r1/tree/main/slurm

数据过滤

为了确保数据集中只包含高质量且正确的推理结果,Open R1团队设计了一套数学验证系统,用于自动比对LLM生成的复杂数学表达式答案与数据集中的标准答案。在这个过程中,OpenR1团队发现大约55%的问题至少有一个正确答案。然而,NuminaMath 1.5数据集中有很多答案是空的,或者格式不符合验证标准,这都给自动验证带来了困难。为了解决这些问题,Open R1团队先是对Math-Verify工具进行了改进,使其能够处理更多不常见的答案格式,再使用Llama-3.3-70B-Instruct模型进行二次评估。具体来说,对于那些被Math-Verify判定为错误的答案,使用Llama-3.3-70B-Instruct模型重新评估,识别实际上正确但因格式问题被错判的答案。最终,他们找回了2.5万条被“误判”的数据。

优化Math-Verify工具:对Math-Verify工具进行了改进,使其能够处理更多不常见的答案格式。让Llama-3.3-70B-Instruct作判官的提示词如下:

You are a mathematical answer validator. You will be provided with a mathematical problem and you need to compare the answer in the reference solution, and the final answer in a model's solution to determine if they are equivalent, even if formatted differently.

PROBLEM:
{problem}

REFERENCE SOLUTION:
{answer}

MODEL'S SOLUTION:
{generation}

Focus ONLY on comparing the final mathematical answer provided by the model while ignoring differences in:
- Formatting (e.g., \boxed{{}} vs plain text)
- Multiple choice formatting (e.g., "A" vs full solution)
- Order of coordinate pairs or solutions
- Equivalent mathematical expressions or notation variations
- If the model's answer is nonsense, return "Verdict: AMBIGUOUS"

Start with a brief explanation of your comparison (2-3 sentences). Then output your final answer in one of the following formats:
- "Verdict: EQUIVALENT"
- "Verdict: DIFFERENT"
- "Verdict: AMBIGUOUS"

对于那些包含多个正确答案的数据行,团队尝试使用奖励模型(RM)作为最终筛选器来选择最佳答案。具体操作:首先,从每个包含多个正确答案的数据行中,去掉( thinking… response),提取最终答案;第二,将问题和提取的答案输入到配置了vLLM的Qwen/Qwen2.5-Math-RM-72B模型中,获取每个答案的评分;接着,根据模型评分,对每个包含多个正确答案的数据行排名,选择排名最高的答案纳入训练数据集。遗憾的是,消融实验表明,这种方法并没有比随机选择一个正确答案带来更好的模型性能。Open R1团队的判断是,可能在使用奖励模型评分时,不仅要考虑最终答案,还要包括推理过程。

Open R1训练出来的新模型 VS DeepSeek-Distill-Qwen-7B

Open R1在OpenR1-Math-220k的基础上,对Qwen2.5-Math-Instruct进行了3轮微调,学习率为5e-5。为了将上下文长度从4k扩展到32k,他们将RoPE频率提高到300k。训练遵循线性学习率调度,其中包含10%的预热阶段。下表展示了在lighteval上OpenR1-Qwen-7B、DeepSeek-Distill-Qwen-7B和OpenThinker-7B的性能对比,可以看出在数学成绩上,OpenR1-Qwen-7B和DeepSeek-Distill-Qwen-7B差距不是非常明显。

本周AIME 2025开赛,来自苏黎世联邦理工学院的研究人员用新题来测评了多款模型,却发现各种模型的数学能力下降了10-20个百分点之间。有研究者发现这些“全新”的AIME题可能已经在互联网论坛泄露,这有可能造成意外的过拟合问题,这也凸显了新鲜测试数据的困境。

同时,开源社区也从多个角度探索了GRPO,有多个研究实验室表明,大约1000个高质量的训练样本可能就足以在现有的开源模型中引发推理能力

启示和新的问题

LLM是否需要使用自然语言进行推理?

论文链接:https://arxiv.org/pdf/2502.05171

马里兰大学的一篇论文表明,通过使用循环语言模型,可以在潜在空间中隐式推理,从而在测试时扩展计算能力,这类似于Meta的Coconut。这些方法的优势在于它们的计算效率更高:通过探索潜在空间,无需生成大量“思考”token即可获得高性能。

是否要转向更小、高质量的推理数据?

尽管DeepSeek R1使用了600k推理轨迹进行蒸馏,但最新研究表明,复杂的推理能力并非单纯通过大规模训练在语言模型中实现,而是可以通过少量精心设计的样本达成。s1K数据集就是一个很好的例子。它包含1000个经过精心挑选的数学问题,以及从Gemini Flash蒸馏出的推理轨迹。在选择问题时,研究者注重难度、多样性和质量。通过在s1K数据集上对Qwen2.5-32B-Instruct进行微调,研究者成功使其在竞赛数学基准测试中超过了OpenAI的o1-preview,最高提升了27%。另一个数据集LIMO也进一步验证了这一理念。它仅使用817个训练样本,就在AIME和MATH基准测试中取得了出色的表现。LIMO的作者推测,当模型在预训练阶段已经积累了丰富的知识后,可能只需要少量结构良好的样本,就能解锁高级推理能力。

CoT长度:预算强制与奖励塑造

Qwen2.5-32B-Instruct模型在s1K数据集上微调后表现出色,其中一个关键因素是采用了“预算强制”。这是一种测试时的计算技术,通过在模型生成中添加“等待”token来延长推理时间,或者添加“结束思考”的token来截断推理。这种方法使研究者能够灵活调整模型的思考时间,并发现随着思考时间的增加,模型在不同数学基准测试中的准确性也随之提高。同样,Yeo等人在研究《Demystifying Long Chain-of-Thought Reasoning in LLMs》中探讨了思维链(CoT)长度对模型性能的影响。他们引入了一种名为“余弦奖励”的新奖励函数,用于在正确生成时激励较短的CoT,在错误生成时激励较长的CoT。这种奖励机制在模型的最大上下文大小有限且平均响应长度可能失控的情况下,能够稳定强化学习训练。

论文链接:https://arxiv.org/pdf/2502.03373

此外,当模型在处理难题时出现奖励劫持的迹象(即通过重复而非真正解决问题来增加CoT长度),研究者还会采用重复惩罚机制,以避免模型陷入无效的循环推理。Open R1团队表示,现在GRPO已经在TRL中顺利运行,他们正在开展一系列广泛的实验,以了解哪些超参数和奖励函数对训练的影响最大。那就让我们静待Open R1的好消息吧。

来源:https://www.53ai.com/news/OpenSourceLLM/2025021290875.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。