阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!
2023-04-24 11:14:21爱云资讯941
近日,阿里云机器学习平台PAI正式发布自研的基于HLO的全自动分布式深度学习系统TePDist。它通过在HLO上做分布式策略搜索,能够与用户模型构建语言解耦。并且在保持通用性的同时,能够在可接受的策略搜索时间内,追求高性能分布式策略,同时用户无需修改模型主体代码,系统能够全自动地帮助用户做分布式扩展,有效解决了分布式框架长期以来在实际生产场景中手工优化和自动分布式工作存在的诸多性能和效率问题。
TePDist不仅仅是一个分布式Compiler,还拥有自己的分布式Runtime,以解决深度学习模型并行策略的自动搜索与分布式策略实施问题。在架构方面,TePDist采用Client/Server模式,实现分布式策略与模型描述的解耦。Server端是TePDist最重要部分,以HLO IR作为输入,自动探索并实施分布式并行策略;Client端以用户描述的模型为输入,将其转换成HLO IR。因此,任何具有转换HLO IR能力的Client,都可经过适配后接入Server端。
在功能方面,TePDist分为两个部分。一是在HLO IR上进行SPMD(Data Parallel和Sharding)和Pipeline并行的策略搜索。并以此构建编译基于Task Graph的执行计划。二是高效运行执行计划的分布式执行引擎。同时,TePDist提供了不同优化级别,高优化级别更加追求分布式策略质量,低优化级别会额外采取一些Heuristic,以较为微小策略质量牺牲,换取更快地搜索时间,以此满足落地需求。
性能上,TePDist通过在GPT和MoE模型上SPMD+Pipeline混合策略的模型扩展性实验,TePDist能够使GPT和MoE分别达到峰值能力的62%和58%。同时,在自动化方面的通用性上,TePDist也通过了VGG-19,DNABert和UNet等模型实验验证。
一直以来,大模型在模型效果上被证明具有显著优势。而ChatGPT的出现,证明了其在工业生产工具方面具有巨大潜力。阿里云机器学习平台PAI也宣布将TePDist开源,与AI开发者共同打造更快更好的自动分布式系统,全面助力AI大模型发展!
开源地址:https://github.com/alibaba/TePDist
相关文章
- 奥运村街道商会携重点企业参访阿里云,共探AI落地和出海新机遇
- 阿里云全栈AI技术引擎驱动SaaS企业全球化升级 构建出海新范式
- 物联网视频云平台AIRTC上线阿里云!除了兼容90%以上接口,还有三大技术优势
- 份额增速双领跑,阿里云引领中国金融云进入全面智能化新阶段
- 四维图新与阿里云达成战略合作 共筑智能汽车新生态
- TCL与阿里云达成全栈AI合作,显示产业智能化转型全面提速
- 阿里云与华五教学协同中心、超星集团联合发布高校AI实践通识课
- 阿里云携手博登智能升级AI数据标注,打造全栈式数据服务平台
- 从算力升级到场景落地,英特尔与阿里云联手为智能应用开辟 “快车道”
- 智能应用落地慢、成本高?英特尔 + 阿里云给出 “降维打击” 方案!
- 更强劲、更稳定、更划算!阿里云 ECS g9i +英特尔至强 6 处理器,解锁智能应用的 “超现实速度”
- 中国车企加速拥抱公有云,阿里云连续四年稳居第一
- 杭州铭师堂携手阿里云开启AI通识培新,共启AI发展新篇章
- AI火花集|从技术竞速到应用共生,阿里云和AI火花先锋“解锁”中国AI应用的破局之路
- 全球最大线上批发商城与线下商城战略合作,阿里云赋能全球贸易AI时代新篇章
- 亚信科技+阿里云 | 大模型协作新突破,让百行千业用上普惠AI !