阿里云机器学习平台PAI论文高效大模型训练框架Whale入选USENIX ATC´22
2022-07-13 10:47:49AI云资讯2028
近日,阿里云机器学习平台PAI主导的论文《Whale: Efficient Giant Model Training over Heterogeneous GPUs》,高效大模型训练框架Whale入选USENIX ATC'22。Whale通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练框架。
USENIX Annul Technical Conference (USENIX ATC),是计算机系统领域国际顶级学术会议 (CCF-A),自1992年举办第一届USENIX ATC会议以来,至今已成功举办30多届,在学术和工业界都有巨大的影响力。USENIX ATC2022将于2022年7月11日召开。此次入选意味着阿里云机器学习平台PAI自研的深度学习分布式模型训练系统达到了全球业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。
Whale是阿里云机器学习PAI平台自研的高效、通用、硬件感知的大模型分布式训练框架,现已开源,开源后的名称是EPL(Easy Parallel Library)。Whale通过统一的策略抽象来实现各种分布式策略的表达,并通过硬件感知和自动计算图改写及优化完成高效的分布式模型实现。

随着模型参数规模飞速增长,模型效果也在逐步提高,但同时也为训练框架带来更大的挑战。当前的业界分布式训练框架只支持少量的并行策略,缺乏一个统一的抽象来支持所有的并行策略及其混合策略。同时实现复杂的并行策略需要大量的模型代码改造和对底层系统的理解,大大增加了用户的使用难度。由于集群中异构GPU计算能力和显存的差异,静态的并行化策略无法充分利用异构资源实现高效训练。
针对这些问题,Whale抽象并定义了两个分布式原语(replicate和split) 。用户可以通过在模型上添加几行原语标记,即来表达和转换各种并行化策略及其组合,极大降低了分布式框架的使用门槛。Whale runtime将用户的标记信息融合到计算图中,自动完成模型的并行化优化。同时Whale提供了基于硬件感知的自动化分布式并行策略,优化在异构GPU集群上分布式训练性能。Whale的设计很好地平衡了模型用户的干预和系统优化机会,让每一个算法工程师都能轻松高效训练分布式大模型任务。借助Whale,阿里达摩院M6模型使用512张V100 GPU在10天内即可完成10万亿多模态预训练模型。
Whale起源于阿里内部业务,在阿里内部已经支持图像、推荐、语音、视频、自然语言、多模态等业务场景。并且能无感支持模型规模横向扩展,最大完成了10万亿规模的M6模型训练。同时Whale已经集成在阿里云机器学习平台PAI中,大家可以在阿里云PAI平台上使用Whale。机器学习平台PAI是面向开发者和企业的AI工程化平台,提供了覆盖数据准备、模型开发、模型训练、模型部署的全流程服务。
Whale(EPL)开源地址(https://github.com/alibaba/EasyParallelLibrary),欢迎大家来试用和给出建议。
论文名称:Whale: Efficient Giant Model Training over Heterogeneous GPUs
论文作者:贾贤艳,江乐,王昂,肖文聪,石子骥,张杰,李昕元,陈浪石,李永,郑祯,刘小勇,林伟
开源链接:https://github.com/alibaba/easyparallellibrary
论文链接:https://www.usenix.org/conference/atc22/presentation/jia-xianyan
相关文章
- 阿里云推出企业级Agent构建平台JVS Crew:零代码“建龙虾工厂”
- 至强® 6处理器在阿里云第九代ECS实例中的应用案例:货拉拉大促高并发实践
- 合合信息亮相2026金融AI联盟大会,携手阿里云共同启动“超级智能体计划”
- 阿里云数字短信全量开放,终端全覆盖实现营销短信点击率3倍提升
- 阿里云Q3财报:增速36%创新高,AI连续三位数增长!
- 上海数据集团、阿里云、浩鲸科技深化战略合作 发力AI时代数据要素
- 连登顶会!阿里云研究成果大幅提升运维智能精度与效率
- 阿里云金山算力中心加速投产,基于“真武”芯片建设超大规模算力中心
- 黄飞对话阿里云AI专家:当零售中台拥有AI大脑,未来将去向何方?
- 生态共进:昆仑智云以阿里云认证伙伴身份,破解AI落地“最后一公里”
- 昆仑智云:以阿里云认证生态伙伴身份,破解企业AI“三无困境”
- 全来店亮相 2026 阿里云 PolarDB 开发者大会
- 阿里云支持鹰角3D新游《明日方舟:终末地》全球开服
- 风行在线携手阿里云通义大模型,AI漫剧创作平台“橙星梦工厂”,引领数字内容生产新范式!
- 阿里云AI火花大会:AI加速从单点创新迈向规模化落地
- 灵机一动亮相阿里云展:定义AI硬件的智能体操作平台
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由









