阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!
2023-04-24 11:14:21AI云资讯1086
近日,阿里云机器学习平台PAI正式发布自研的基于HLO的全自动分布式深度学习系统TePDist。它通过在HLO上做分布式策略搜索,能够与用户模型构建语言解耦。并且在保持通用性的同时,能够在可接受的策略搜索时间内,追求高性能分布式策略,同时用户无需修改模型主体代码,系统能够全自动地帮助用户做分布式扩展,有效解决了分布式框架长期以来在实际生产场景中手工优化和自动分布式工作存在的诸多性能和效率问题。
TePDist不仅仅是一个分布式Compiler,还拥有自己的分布式Runtime,以解决深度学习模型并行策略的自动搜索与分布式策略实施问题。在架构方面,TePDist采用Client/Server模式,实现分布式策略与模型描述的解耦。Server端是TePDist最重要部分,以HLO IR作为输入,自动探索并实施分布式并行策略;Client端以用户描述的模型为输入,将其转换成HLO IR。因此,任何具有转换HLO IR能力的Client,都可经过适配后接入Server端。

在功能方面,TePDist分为两个部分。一是在HLO IR上进行SPMD(Data Parallel和Sharding)和Pipeline并行的策略搜索。并以此构建编译基于Task Graph的执行计划。二是高效运行执行计划的分布式执行引擎。同时,TePDist提供了不同优化级别,高优化级别更加追求分布式策略质量,低优化级别会额外采取一些Heuristic,以较为微小策略质量牺牲,换取更快地搜索时间,以此满足落地需求。
性能上,TePDist通过在GPT和MoE模型上SPMD+Pipeline混合策略的模型扩展性实验,TePDist能够使GPT和MoE分别达到峰值能力的62%和58%。同时,在自动化方面的通用性上,TePDist也通过了VGG-19,DNABert和UNet等模型实验验证。
一直以来,大模型在模型效果上被证明具有显著优势。而ChatGPT的出现,证明了其在工业生产工具方面具有巨大潜力。阿里云机器学习平台PAI也宣布将TePDist开源,与AI开发者共同打造更快更好的自动分布式系统,全面助力AI大模型发展!
开源地址:https://github.com/alibaba/TePDist
相关文章
- 阿里云推出企业级Agent构建平台JVS Crew:零代码“建龙虾工厂”
- 至强® 6处理器在阿里云第九代ECS实例中的应用案例:货拉拉大促高并发实践
- 合合信息亮相2026金融AI联盟大会,携手阿里云共同启动“超级智能体计划”
- 阿里云数字短信全量开放,终端全覆盖实现营销短信点击率3倍提升
- 阿里云Q3财报:增速36%创新高,AI连续三位数增长!
- 上海数据集团、阿里云、浩鲸科技深化战略合作 发力AI时代数据要素
- 连登顶会!阿里云研究成果大幅提升运维智能精度与效率
- 阿里云金山算力中心加速投产,基于“真武”芯片建设超大规模算力中心
- 黄飞对话阿里云AI专家:当零售中台拥有AI大脑,未来将去向何方?
- 生态共进:昆仑智云以阿里云认证伙伴身份,破解AI落地“最后一公里”
- 昆仑智云:以阿里云认证生态伙伴身份,破解企业AI“三无困境”
- 全来店亮相 2026 阿里云 PolarDB 开发者大会
- 阿里云支持鹰角3D新游《明日方舟:终末地》全球开服
- 风行在线携手阿里云通义大模型,AI漫剧创作平台“橙星梦工厂”,引领数字内容生产新范式!
- 阿里云AI火花大会:AI加速从单点创新迈向规模化落地
- 灵机一动亮相阿里云展:定义AI硬件的智能体操作平台
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由









