九章云极联合团队大模型慢思考推理技术获系列成果预印版论文于arXiv发表
2025-03-12 22:00:23AI云资讯22060
近日,九章云极DataCanvas公司联合中国人民大学STILL项目团队、北京智源研究院团队联合在大模型慢思考推理技术上形成系列技术成果,初步复现类R1推理模型,完整开源了类R1类的实现细节以及训练技巧。进一步,创新性提出使用代码工具来增强模型推理性能,在AIME数学推理测试中超越DeepSeek-R1的模型性能。 相关成果已经形成论文《An Empirical Study on Eliciting and Improving R1-like Reasoning Models》,在预印版论文网站 arXiv上公开发表。
九章云极DataCanvas联合研究团队公布了复现DeepSeek- R1全参数微调开源方案,并发布了全新的强化学习训练模型STILL-3-Tool-32B。这个方案完整开放了从模型训练到推理部署的全链路工程代码,同步公开实践验证过的技术经验与调优策略,为开发者提供可直接部署的工业化级大模型训练框架。研究成果显示,该模型在 AIME 2024 基准上取得了81.70%准确率(采样),超越了DeepSeek-R1满血版。该成果在GitHub社区中详细阐述,并公开了相关开源链接。

论文地址:https://arxiv.org/pdf/2503.04548
开源链接:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs
STILL-3-Tool-32B模型是九章云极DataCanvas联合团队在基于长链复杂推理模型训练框架上的又一次重要创新实践。该研究论文表明,在已接近性能巅峰的蒸馏模型上,通过该强化学习训练方法也可以大幅提升AIME2024的准确率,这一研究结果将极大促进正在运行中的较大模型的回复长度和推理准确性。面对语言推理可能存在精准性不够的问题,STILL-3-Tool-32B模型引入了外部工具来加强AI模型的复杂推理能力。在AIME 2024上取得81.70%准确率(采样),以15.56%的显著优势超越其基座训练模型,与OpenAI o3-mini持平,超越o1 和DeepSeek-R1同场景表现。

自DeepSeek-R1技术报告公布后,开源模型仍然复现面临代码完整性缺失、超参数调试等共性难题,九章云极DataCanvas联合团队通过AI基础设施深度融合实现突破。研究同步开源了该模型在DataCanvas Alaya NeW智算操作系统上完成的全过程完整训练日志、奖励函数代码及容器化部署方案。研究结果公布,在Alaya NeW中采用on-policy 学习策略是成功的关键因素,其将DeepSeek背后的基于规则的强化学习方法加以微调,充分探索了相关的超参数设置以及训练技巧。
值得关注的是,DeepSeek以及蒸馏模型在推理过程中无法调用外部代码工具,而这恰是复现的关键难点。研究结果显示,AlayaNeW智算操作系统在开源工具链与基座模型适配、算法与算力协同、逻辑推理与多步决策等复杂任务框架方面表现出明显优势,有望推动AI技术的进一步发展。
相关文章
- 九章云极完成新一轮战略融资 持续巩固全球智算云第一梯队地位
- 锻造AI时代基础设施新范式 九章云极斩获金i奖、数字中国建设优秀应用案例双项认可
- 九章云极智算云:以普惠算力重塑高校AI科研生态
- 筑牢智算基石 赋能数字未来 九章云极DataCanvas入选《“AI中国”生态图谱(2025)》
- 构建普惠算力新范式 九章云极入选2025新经济独角兽百强
- 九章云极新启业与壹珈智晟达成AI+化工战略合作 共推产业智能化绿色转型
- 九章云极闪耀埃及ICT展 普惠算力构建中非AI合作新引擎
- 九章云极亮相CDCE 2025 以技术创新构建普惠算力基础设施,助力全球AI生态发展
- 算力驱动创新落地 CICAS智能算力专项晋级赛收官 九章云极尚明栋分享普惠算力实践
- 九章云极尚明栋:CV领域为AI算力核心需求,算力普惠成破局关键
- 共筑智算新高地,九章云极携手扬州大数据集团、扬州广陵新城投资发展集团达成战略合作
- 破局亚洲算力之困,九章云极DataCanvas普惠算力思想闪耀亚洲愿景论坛2025
- “普惠算力全球化”下一站!九章云极以普惠战略赋能“一带一路“AI基础设施建设
- 九章云极位列AI基础设施第一梯队!IDC发布中国大模型推理算力报告
- 领航普惠算力全球化 九章云极DataCanvas方磊荣膺“出海全球化创新人物”
- 引领普惠算力新征程 九章云极DataCanvas首批首家通过中国信通院“普惠算力”能力测试









