登顶SWE-Bench,快手KAT-Dev-72B-Exp刷新开源SOTA
2025-10-15 09:59:11AI云资讯1519
大规模强化学习作为关键路径,能够有效激发大模型的复杂推理能力并显著提升其任务泛化性。近期,快手Kwaipilot团队重磅发布的KAT-Dev-72B-Exp,在软件开发能力评测基准 SWE-Bench Verified上取得了74.6%的卓越表现,创下开源模型领域新纪录。KAT-Dev-72B-Exp 是 KAT-Coder 模型强化学习的实验版本,我们借助这一开源模型揭秘 KAT-Coder 在大规模强化学习方向上的技术创新。
在 SWE-Bench Verified 上,和全尺寸开源模型对比,KAT-Dev-72B-Exp 以74.6%的卓越性能创下新纪录
作为Kwaipilot在端到端复杂强化学习领域的前沿探索成果,该模型基于自研 SeamlessFlow 工业级强化学习框架,通过创新的数据平面架构实现了训练逻辑与 Agent 的完全解耦,成功支持多智能体和在线强化学习等复杂场景。针对复杂 Agent 场景的技术挑战,团队创新性地引入Trie Packing机制,并对训练引擎进行了重构优化,使模型能够高效地在共享前缀轨迹上开展训练。通过难度感知的策略优化,实现了探索与利用的平衡,并结合基于开源仓库构建的大规模端到端可验证软件工程任务,KAT-Dev-72B-Exp 在编程领域展现出强大的能力。
免费试用KAT-Coder:https://www.streamlake.ai/product/kat-coder
KAT-Dev-72B-Exp开源地址:https://huggingface.co/Kwaipilot/KAT-Dev-72B-Exp
在agentic RL训练过程中,模型训练的成功离不开高效、可扩展的数据环境支撑。传统方法往往局限于单一数据集和固定框架,导致模型在面对复杂现实场景时表现欠佳。通过持续的实践探索,Kwaipilot 团队逐渐意识到大规模 scaling 数据环境的重要性。这不仅是数据量的堆积,更是构建一个动态、灵活的生态系统,让模型能够从海量且多样化的数据中汲取营养,实现从“实验室玩具”到“实战高手”的跃升。
为此,Kwaipilot 团队正积极投入建设一套大规模数据环境管理系统。这套系统的核心在于实现训练数据、训练沙盒(sandbox)以及训练框架的完全解耦。通过这种设计,数据源可以独立扩展,而不会受限于特定框架的约束;沙盒环境则提供安全的隔离测试空间,避免干扰主流程;训练框架也能灵活切换,支持多种算法迭代。这种解耦机制极大提升了系统的模块化程度,让开发团队能够更高效地协作,避免了以往“牵一发而动全身”的瓶颈。
更重要的是,该系统显著加速了训练数据的扩充过程。我们的数据环境管理系统采用统一的数据协议,可以快速整合开源的以及各种多源数据环境。数据环境涵盖代码、数学、游戏、博弈等多个领域。在这样的环境中,模型可以通过 RL 反复迭代,逐步适应各种复杂情境,进一步增强其泛化能力。模型不再局限于单一的环境,而是能在跨领域的环境中自适应,也更能在没有见过的环境中有更好的表现,提升其鲁棒性和实用性。
相关文章
- 神眸荣获快手“品牌标杆奖”,以芯片级创新跻身行业前列
- 快手发布多模态大模型Keye-VL-1.5 8B性能领先、视频理解能力更强
- 累计生成超2亿视频,快手可灵AI引领“生成式AI应用元年”
- CVPR2025:快手可灵四大技术方向布局视频生成及世界模型
- 快手上线鸿蒙应用高性能解决方案 高效提升数据反序列化性能
- 快手与杜比实验室达成深度合作 短视频领域首家全链路支持“杜比视界”
- 快手与清华大学联合项目荣获钱伟长中文信息处理科学技术奖
- 人工智能智库网络在京启动,百度、快手、华为、蚂蚁、腾讯、阿里等发起
- 快手可灵AI面向全球发布1.5模型 新增“运动笔刷”效果业内领先
- 蓝色光标Blue AI携手快手可灵AI,共同引领AI视频生成新时代
- 快手出席2024中国多媒体大会:AI驱动多媒体创新 构建AI产学研生态
- 快手大模型首次集体亮相WAIC 2024,用AI重塑内容与商业生态
- CCF-快手大模型探索者基金正式启动,赋能全球科研创新
- 快手“快意大模型”获信通院5级评估
- 快手“可灵”大模型燃爆AI赛道 万兴科技金山办公等受关注
- 快手发布对标Sora的视频生成大模型「可灵」 已开放邀测体验