登顶SWE-Bench，快手KAT-Dev-72B-Exp刷新开源SOTA-AI云资讯

大规模强化学习作为关键路径，能够有效激发大模型的复杂推理能力并显著提升其任务泛化性。近期，快手Kwaipilot团队重磅发布的KAT-Dev-72B-Exp，在软件开发能力评测基准 SWE-Bench Verified上取得了74.6%的卓越表现，创下开源模型领域新纪录。KAT-Dev-72B-Exp 是 KAT-Coder 模型强化学习的实验版本，我们借助这一开源模型揭秘 KAT-Coder 在大规模强化学习方向上的技术创新。

在 SWE-Bench Verified 上，和全尺寸开源模型对比，KAT-Dev-72B-Exp 以74.6%的卓越性能创下新纪录

作为Kwaipilot在端到端复杂强化学习领域的前沿探索成果，该模型基于自研 SeamlessFlow 工业级强化学习框架，通过创新的数据平面架构实现了训练逻辑与 Agent 的完全解耦，成功支持多智能体和在线强化学习等复杂场景。针对复杂 Agent 场景的技术挑战，团队创新性地引入Trie Packing机制，并对训练引擎进行了重构优化，使模型能够高效地在共享前缀轨迹上开展训练。通过难度感知的策略优化，实现了探索与利用的平衡，并结合基于开源仓库构建的大规模端到端可验证软件工程任务，KAT-Dev-72B-Exp 在编程领域展现出强大的能力。

免费试用KAT-Coder：https://www.streamlake.ai/product/kat-coder

KAT-Dev-72B-Exp开源地址：https://huggingface.co/Kwaipilot/KAT-Dev-72B-Exp

在agentic RL训练过程中，模型训练的成功离不开高效、可扩展的数据环境支撑。传统方法往往局限于单一数据集和固定框架，导致模型在面对复杂现实场景时表现欠佳。通过持续的实践探索，Kwaipilot 团队逐渐意识到大规模 scaling 数据环境的重要性。这不仅是数据量的堆积，更是构建一个动态、灵活的生态系统，让模型能够从海量且多样化的数据中汲取营养，实现从“实验室玩具”到“实战高手”的跃升。

为此，Kwaipilot 团队正积极投入建设一套大规模数据环境管理系统。这套系统的核心在于实现训练数据、训练沙盒（sandbox）以及训练框架的完全解耦。通过这种设计，数据源可以独立扩展，而不会受限于特定框架的约束；沙盒环境则提供安全的隔离测试空间，避免干扰主流程；训练框架也能灵活切换，支持多种算法迭代。这种解耦机制极大提升了系统的模块化程度，让开发团队能够更高效地协作，避免了以往“牵一发而动全身”的瓶颈。

更重要的是，该系统显著加速了训练数据的扩充过程。我们的数据环境管理系统采用统一的数据协议，可以快速整合开源的以及各种多源数据环境。数据环境涵盖代码、数学、游戏、博弈等多个领域。在这样的环境中，模型可以通过 RL 反复迭代，逐步适应各种复杂情境，进一步增强其泛化能力。模型不再局限于单一的环境，而是能在跨领域的环境中自适应，也更能在没有见过的环境中有更好的表现，提升其鲁棒性和实用性。

登顶SWE-Bench，快手KAT-Dev-72B-Exp刷新开源SOTA

相关文章

AI企业

AI硬件

AI产业

AI技术