1. 模型介绍

  • DeepSeek-R1-Zero

    • 基于大规模强化学习(RL)训练,无需监督微调(SFT),直接通过RL激励模型自主发展推理能力。

    • 在数学(如AIME 2024)、编程(如Codeforces)等任务中表现突出(AIME pass@1从15.6%提升至71.0%)。

    • 局限性:生成内容可读性差、语言混杂(如中英文混合)。

  • DeepSeek-R1

    • 结合冷启动数据(少量高质量长链思维示例)和多阶段训练(RL + SFT),优化生成可读性与推理性能。

    • 在推理任务中表现与OpenAI-o1-1217相当,在知识问答(MMLU、GPQA)、代码竞赛(Codeforces评分2029)等任务中超越同类模型。

    • 开源了基于Qwen和Llama的1.5B至70B蒸馏模型,其中32B模型在AIME 2024上达到72.6% pass@1,显著优于闭源模型。


2. 方法创新

  • 强化学习框架

    • 采用GRPO(Group Relative Policy Optimization)算法,通过分组奖励优化策略,避免传统RL对评论模型的依赖。

    • 奖励设计:结合准确性奖励(规则验证答案正确性)和格式奖励(强制结构化输出),避免神经奖励模型的奖励黑客问题。

  • 冷启动与多阶段训练

    • 冷启动阶段:收集数千条长链思维数据微调基础模型,提升初始生成质量。

    • 两阶段RL:首阶段专注推理任务,次阶段结合人类偏好(如无害性、语言一致性)。

    • 拒绝采样与SFT:通过RL检查点生成高质量数据,结合非推理任务数据(如写作、翻译)进一步微调。

  • 蒸馏技术

    • 将DeepSeek-R1的推理能力迁移至小型密集模型(如Qwen-7B、Llama-70B),仅需监督微调即可显著提升性能。

    • 实验表明,蒸馏模型性能优于直接在小型模型上应用大规模RL(如Qwen-32B蒸馏模型在AIME pass@1上达72.6%,远超纯RL训练的47.0%)。


3. 实验与结果

  • 基准测试

    • 推理任务:DeepSeek-R1在AIME 2024(79.8% pass@1)、MATH-500(97.3%)、Codeforces(2029评分)等任务中表现优异。

    • 知识任务:MMLU(90.8%)、MMLU-Pro(84.0%)、GPQA Diamond(71.5%)显著优于DeepSeek-V3。

    • 通用任务:AlpacaEval 2.0(87.6%胜率)、ArenaHard(92.3%胜率)展示其多领域适应性。

  • 蒸馏模型

    • 14B模型超越QwQ-32B-Preview,70B模型在LiveCodeBench(57.5% pass@1)和Codeforces(1633评分)上接近闭源模型。


4. 讨论与局限

  • 蒸馏 vs. RL

    • 蒸馏更高效,但突破智能边界仍需更大基模型与RL支持。

  • 失败尝试

    • 过程奖励模型(PRM)因标注困难和奖励黑客问题效果有限。

    • 蒙特卡洛树搜索(MCTS)因搜索空间过大和价值模型训练困难未成功。

  • 局限性

    • 语言混杂(中英文混合)、工程任务(如代码调试)性能不足、提示词敏感性。


5. 未来方向

  • 提升通用能力(如多轮对话、函数调用)。

  • 解决语言混杂问题,支持更多语言。

  • 优化工程任务训练效率(如异步评估、拒绝采样)。

  • 探索长链思维在复杂任务(如角色扮演、JSON生成)中的应用。


6. 开源贡献

  • 开源模型:DeepSeek-R1-Zero、DeepSeek-R1及6款蒸馏模型(1.5B至70B)。

  • 数据集:800K推理相关训练样本(含冷启动数据、RL生成数据)。

  • 社区价值:为小型模型提供高效推理能力迁移方案,推动开源社区发展。

作者:admin  创建时间:2025-03-19 15:33
最后编辑:admin  更新时间:2025-03-19 15:34