DeepSeek 在全球范围内掀起了一场技术革命,尤其是在中国大模型突破硅谷防线后,中国 AI 团队完成了反向技术输出,引发了全球复现 DeepSeek 的热潮。尽管 DeepSeek-R1 已经部分开源,但训练数据和脚本等关键信息尚未完全公开。然而,这并没有阻挡开源社区的步伐。
在众多复刻项目中,Hugging Face 领衔的 Open R1 项目尤为引人注目。该项目致力于完全开放复现 DeepSeek-R1,补齐所有未公开的技术细节。启动仅几周,Open R1 就已经取得了显著进展,包括实现了 GRPO、发布了训练与评估代码以及用于合成数据的生成器。
为了进一步推动 DeepSeek R1 的复现,Open R1 项目发布了 OpenR1-Math-220k 数据集,填补了合成数据这一重要空白。该数据集由 80 万条推理轨迹筛选而来,最终保留了 22 万条高质量数据。这些数据可以支持更小的模型,达到媲美 DeepSeek R1 的效果。
例如,在 OpenR1-Math-220k 数据集上训练的 Qwen-7B-Math-Instruct 模型,其性能达到了与 DeepSeek-Distill-Qwen-7B 相当的水平。这表明即使不使用强化学习,直接从 R1 模型进行迁移也能实现强大的推理性能。
OpenR1-Math-220k 数据集具有以下特点:
- 80 万条推理轨迹:为 40 万个问题各生成两个答案,经过筛选保留了 22 万个高质量问题。
- 本地高效生成:利用 512 个 H100 节点每天生成 18 万条推理轨迹,速度提升了近两倍。
- 基于 NuminaMath 1.5:专注于数学推理公式,为 NuminaMath-CoT 数据集的改进版本生成答案。
- 自动过滤:通过数学验证和 Llama3.3-70B-Instruct 模型筛选出正确答案,确保数据质量。
为了构建数据集,Open R1 团队使用 DeepSeek R1 为来自 NuminaMath 1.5 的 40 万个问题生成答案,并添加了逐步推理指令。团队将每次生成的 tokens 限制设置为 16k,以确保复杂问题的完整解答。
为了提高生成效率,团队最初使用 vLLM 进行推理,每个 H100 节点每秒生成 15 个答案。最近,他们尝试使用 SGLang,每个 H100 节点每秒生成 25 个答案,使得每天能生成 30 万个问题的答案。
在数据过滤过程中,团队设计了一套数学验证系统,自动比对生成的数学表达式答案与标准答案。约 55% 的问题至少有一个正确答案,但许多答案格式不符合验证标准。为此,团队改进了 Math-Verify 工具,并使用 Llama-3.3-70B-Instruct 模型重新评估被误判的答案,最终找回了 2.5 万条数据。
Open R1 团队希望这个可扩展的、高质量的推理数据生成过程能够启发更多领域,如代码生成等。通过不断优化工具和方法,开源社区将继续推动 AI 技术的发展,带来更多创新和突破。
文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系多特删除。(联系邮箱:[email protected])
相关阅读
近期热点
最新资讯