当全球科技界热议 DeepSeek 为何能引发广泛关注并被各大厂商和平台集成时,"开源" 成为了讨论中的核心关键词之一。图灵奖得主 Yann LeCun 称其为 "开源的胜利"。本文将深入探讨 DeepSeek 的开源之道,分析其开放的内容及其开放程度。
DeepSeek 经历了多个版本的迭代,包括 V2、V2.5、V3、R1-Zero 和 R1 等。特别是在 V3 版本中,DeepSeek 在 MMLU、MMLU-Redux、MMLU-Pro、C-Eval、CMMLU、IFEval、FRAMES、GPQA Diamond、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider、LiveCodeBench、Codeforces、中国全国中学生数学奥林匹克竞赛(CMO)以及美国数学邀请赛(AIME)等基准测试中表现出色,成为性能最佳的开源模型之一,并在某些方面与前沿闭源模型相媲美。
R1 版本则通过强化学习(Reinforcement Learning, RL)而非监督微调(Supervised Fine-Tuning, SFT)显著提升了模型能力,在某些测试项上甚至超越了 OpenAI 的模型。这标志着 DeepSeek 开源大模型的崛起,带来了巨大的不确定性,也为开源 AI 模型的发展注入了新的活力。
DeepSeek 在 Hugging Face 上共发布了 68 个模型及一个数据集。其中,DeepSeek-R1 和 DeepSeek-R1-Zero 模型采用 MIT 许可证,而其他模型则使用 DeepSeek 许可证,代码部分依然采用 MIT 许可证。此外,DeepSeek 还从 Qwen 和 Llama 蒸馏了 6 个模型,这些蒸馏模型采用 MIT 许可证,而 Qwen 和 Llama 基础模型分别使用 Apache 2.0 和 llama 许可证。
根据 LF AI & Data 基金会引入的模型开放框架(Model Openness Framework, MOF),大模型的开放分为三个层次。以 DeepSeek-R1 和 DeepSeek-V3 为例,它们开放了模型架构、模型卡、模型参数、技术报告和评估结果等,但并未开放训练代码、推理代码、评估代码和数据集等更为重要的组件。因此,DeepSeek 的开放层级至多属于第三级。
除了 R1 系列模型外,其他 DeepSeek 模型均采用 DeepSeek 许可证。该许可证基于负责任的人工智能许可证(Responsible AI License, RAIL),并在其中加入了多项使用限制,防止不负责任和有害的应用。具体限制包括但不限于:
- 不得用于违反法律或侵犯第三方合法权益;
- 不得用于军事用途;
- 不得剥削或伤害未成年人;
- 不得生成或传播虚假信息;
- 不得未经授权使用个人身份信息;
- 不得诽谤或骚扰他人;
- 不得对个人合法权利产生不利影响的完全自动化决策;
- 不得歧视或伤害特定群体。
尽管这些限制看似严格,但实际上大部分限制已在现代国家法律中有所规定。此外,DeepSeek 授予用户永久、全球、非排他、免费、免版税且不可撤销的版权和专利许可,允许用户复制、准备、公开展示、公开表演、再授权和分发模型及其衍生品。
对于分发和再分发 DeepSeek 模型,传播方必须遵守以下条件:
- 将使用限制纳入任何类型的法律协议中;
- 提供 DeepSeek 许可证副本;
- 标明修改内容;
- 保留所有版权、专利、商标和归属声明;
- 可以添加自己的版权声明并提供额外的许可条款。
如果传播方未能满足这些条件,则可能构成违约或侵权行为。
总的来说,DeepSeek 的开源不仅展示了其强大的技术实力,也体现了开源社区的责任感和透明度。未来,随着更多开发者和研究者的加入,DeepSeek 必将在人工智能领域发挥更大的作用。
文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系多特删除。(联系邮箱:[email protected])
相关阅读
近期热点
最新资讯