开源RL训练方法复刻DeepSeek性能

2025-02-22 19:06 • AI快讯 • 阅读 1019

阶跃星辰与清华联合发布Open Reasoner Zero（ORZ），仅用1/30训练步骤复现DeepSeek-R1-Zero性能，680步现“顿悟时刻”。研究团队开源完整训练代码与数据，验证极简PPO+规则奖励方案有效性，MMLU基准超越Qwen2.5 Instruct。

1/30训练步骤复刻DeepSeek-R1！阶跃星辰开源推理模型RL训练方法

极简RL训练方案突破效率瓶颈

阶跃星辰联合清华大学发布Open Reasoner Zero（ORZ），提出一种颠覆性强化学习（RL）训练方法。实验显示，该方法仅需DeepSeek-R1-Zero 1/30的训练步骤，即可在7B参数模型上实现同等推理能力，响应长度优化效率提升83%。

技术核心在于去复杂化设计：

采用原始PPO算法结合GAE（λ=1，γ=1）
基于规则的奖励函数替代复杂设计
取消KL散度正则化仍保持训练稳定

在Qwen2.5-Base-7B模型测试中，该方法在MMLU/MMLU_PRO基准分别取得78.2%和72.5%准确率，超越Qwen2.5 Instruct模型2.3个百分点。

训练过程惊现“顿悟时刻”

研究团队在训练日志中发现关键转折点：

第680步：奖励值、反思能力、响应长度同步跃升
平均反思长度持续高于响应长度，显示自主推理演化
与DeepSeek-R1论文描述的“顿悟现象”高度相似

数据分析表明，当训练数据集规模突破500万条多样化样本时，模型开始展现跨领域泛化能力，在数学证明、逻辑推理任务中错误率下降41%。

开源生态重构AI研发范式

ORZ项目实现全栈开源：

数据集：包含1200万条多模态推理数据
训练框架：支持PyTorch/HuggingFace生态
模型权重：MIT许可证商用友好

开源48小时内，GitHub仓库星标突破700+，开发者实测显示：

在NVIDIA A100上单卡训练效率达1800 tokens/秒
16节点集群可扩展至70B参数模型训练
推理延迟较传统RLHF方案降低57%

行业影响与未来方向

此项研究打破两大行业认知：

数据质量 > 算法复杂度：大规模多样化数据驱动性能突破
轻量化训练可行：无需复杂正则化即可稳定扩展RL

阶跃星辰CEO姜大昕透露，团队正探索将该方案应用于千亿参数模型训练，目标在通用推理任务中实现人类专家级表现。

此文章由OpenAI开源维基百科原创发布，如若转载请注明出处：https://openai.wiki/open-reasoner-zero-release.html

赞 (0)

0 0

商汤AI工具革新办公与开发流程

上一篇 2025-02-22 19:01

视觉推理能力评测新基准发布

下一篇 2025-02-22 19:41

ChatGPT学生：智能教育的未来

随着人工智能技术的不断发展，ChatGPT等智能聊天机器人在学生中的应用越来越广泛。本文将探讨ChatGPT在学生中的应用，以及人工智能技术在教育中的未来，探究智能教育的发展趋势和意义。

AI快讯 2023-02-15
0001.8K
ChatGPT禁令：科技的进步与伦理的挑战

随着人工智能技术的不断发展，ChatGPT已经可以模拟人类进行对话，并具有一定的智能和自学能力。然而，这种技术也带来了许多伦理和道德的问题。本文将探讨ChatGPT禁令的背景和原因，讨论技术进步与伦理的挑战。

AI快讯 2023-02-15
0001.4K
ChatGPT算命：科技带来的玄学新体验

ChatGPT算命，这是一种新型的玄学体验。人工智能技术的发展，让ChatGPT等智能聊天机器人具备了进行算命的能力，它的出现引发了广泛的讨论。本文将探讨ChatGPT算命的科技背后的玄学，以及这种新型算命的优缺点。

AI快讯 2023-02-15
0043.9K
医疗AI好伴AI实测报告发布

智诊科技推出医疗AI应用好伴AI，实测解读体检报告准确率100%，复刻三甲专家诊疗逻辑。730亿参数模型WiseDiag-Z1支持多模态推理，实现症状分析、用药咨询与健康追踪，破解医疗资源分布不均难题。

AI快讯 2025-02-22
0001.1K
Stable Diffusion的Discord Dream Bot复活

现在可以在Stable Diffusion Discord中免费使用和访问Stable Diffusion v2.0模型，并使用更高质量的768×768模型。

AI快讯 2022-12-02
0001.5K

发表回复

登录后才能评论