开源22万条DeepSeek R1高质量数据，助你轻松复现DeepSeek！

开源22万条DeepSeek R1的高质量数据！你也能复现DeepSeek了

DeepSeek 引发全球热潮，Open R1 助力开源社区

DeepSeek 在全球范围内掀起了一场技术革命，尤其是在中国大模型突破硅谷防线后，中国 AI 团队完成了反向技术输出，引发了全球复现 DeepSeek 的热潮。尽管 DeepSeek-R1 已经部分开源，但训练数据和脚本等关键信息尚未完全公开。然而，这并没有阻挡开源社区的步伐。

在众多复刻项目中，Hugging Face 领衔的 Open R1 项目尤为引人注目。该项目致力于完全开放复现 DeepSeek-R1，补齐所有未公开的技术细节。启动仅几周，Open R1 就已经取得了显著进展，包括实现了 GRPO、发布了训练与评估代码以及用于合成数据的生成器。

OpenR1-Math-220k 数据集填补空白

为了进一步推动 DeepSeek R1 的复现，Open R1 项目发布了 OpenR1-Math-220k 数据集，填补了合成数据这一重要空白。该数据集由 80 万条推理轨迹筛选而来，最终保留了 22 万条高质量数据。这些数据可以支持更小的模型，达到媲美 DeepSeek R1 的效果。

例如，在 OpenR1-Math-220k 数据集上训练的 Qwen-7B-Math-Instruct 模型，其性能达到了与 DeepSeek-Distill-Qwen-7B 相当的水平。这表明即使不使用强化学习，直接从 R1 模型进行迁移也能实现强大的推理性能。

数据集特点及生成过程

OpenR1-Math-220k 数据集具有以下特点：

- 80 万条推理轨迹：为 40 万个问题各生成两个答案，经过筛选保留了 22 万个高质量问题。

- 本地高效生成：利用 512 个 H100 节点每天生成 18 万条推理轨迹，速度提升了近两倍。

- 基于 NuminaMath 1.5：专注于数学推理公式，为 NuminaMath-CoT 数据集的改进版本生成答案。

- 自动过滤：通过数学验证和 Llama3.3-70B-Instruct 模型筛选出正确答案，确保数据质量。

数据生成与过滤

为了构建数据集，Open R1 团队使用 DeepSeek R1 为来自 NuminaMath 1.5 的 40 万个问题生成答案，并添加了逐步推理指令。团队将每次生成的 tokens 限制设置为 16k，以确保复杂问题的完整解答。

为了提高生成效率，团队最初使用 vLLM 进行推理，每个 H100 节点每秒生成 15 个答案。最近，他们尝试使用 SGLang，每个 H100 节点每秒生成 25 个答案，使得每天能生成 30 万个问题的答案。

在数据过滤过程中，团队设计了一套数学验证系统，自动比对生成的数学表达式答案与标准答案。约 55% 的问题至少有一个正确答案，但许多答案格式不符合验证标准。为此，团队改进了 Math-Verify 工具，并使用 Llama-3.3-70B-Instruct 模型重新评估被误判的答案，最终找回了 2.5 万条数据。