算力、存储高速增长 让高阶网络互连持续精进
2022-08-05 15:38:29AI云资讯1070
据工信部发布的信息显示,我国近五年算力年均增速超过30%。其中,在用数据中心的服务器规模为1900万台,存储容量达到800EB(1EB=1024PB)。面对算力、存储的高速增长,网络作为数据中心三大关键要素之一,它的技术发展日益成为业界关注的焦点。
针对高性能计算、数据中心领域中的高阶网络互连技术发展,在由高效能服务器和存储技术国家重点实验室和开放计算中国社区联合主办的“第六期开放计算技术沙龙:网络技术研究与实践”线上研讨会中,来自清华大学的教授、博士生导师向东老师以《高性能高阶(High-Radix)网络互连架构及通讯协议》为主题,针对业内主流的蜻蜓网络(Dragonfly)架构以及相关的网络架构特点、优势进行了详细解读。
万级、十万级、百万级互连节点 彰显蜻蜓网络魅力
Dragonfly网络凭借较低的网络直径和较低的部署成本,已经在高性能计算领域得到了广泛应用。向东教授认为,Dragonfly网络所具备的特点,同样也适用于当下算力需求增长迅速、算力多样化的数据中心网络之中。"Dragonfly网络作为一个二级全连接网络,其网络设计成本远低于3-DTorus及胖树等其他网络架构,不仅适合于搭建超级计算机,同时也适用于数据中心。”向东教授说道。

当前,高性能计算的网络设计成本主要取决于机柜间的全局光纤数目,减少光纤数目及交换机端口数目是降低设计成本的核心要素。Dragonfly网络的拓扑结构可以将数据包传输路径的全局光纤数目降低为1。当高性能计算集群达到1万个计算节点以上的规模时,采用Dragonfly网络拓扑结构平台所需交换机芯片的端口数目仅需30多个左右。当集群节点规模达到10万时,采用Dragonfly网络拓扑结构的交换机芯片端口数目则在55左右。
Dragonfly网络是一个二阶全连接网络,分别由Router(路由器)、Group(组)以及整个System(系统)构成。Group中的Router与终端进行连接,Router之间实现Intra-group interconnection network全连接。与此同时,Group之间也实现了Inter-group interconnection network。其中,Group中采用电缆实现Router之间的互连,Group之间则采用光纤互连。
Dragonfly网络虽然在成本方面、降低交互芯片连接端口数量较低等优势,但是面对超算、数据中心计算节点的增多,包括Dragonfly、Dragonfly+等网络结构依然要面临网络连线较为复杂,网络总体设计成本仍然偏高,以及整体网络所需的全局光纤数仍然偏高等挑战。
向东教授及其团队为此研发设计出CLHR,即基于通讯局部化的高阶互连网络以及相应的路由算法。通过采用CLHR,一套拥有15万台服务器且采用Dragonfly网络结构的超算平台,其交换芯片端口数可控制在30个以内。当整体服务器规模达到100万台以上时,交换芯片的端口数量也可以控制在50个以内。向东教授指出,采用CLHR,相比二阶全联接的Dragonfly网络,端口总体数量得到有效降低。此外,数据通讯不需要虚拟通道,不需要设计Misrouting算法,任何节点间通讯可使用多条最短路径。
让智算普惠 无损网络释放更多价值
无论是高性能计算领域中较为普遍采用的Dragonfly网络,还是针对其进行优化、改进的CLHR,向东教授认为这些技术上的创新都是为了实现无损网络所作出的努力。以往,传统数据中心会采用无损网络技术,但面对数据中心的算力攀升、算力的多样化,向东教授认为打造无损网络已经成为一种趋势,这需要在网络架构的设计上更加精致,需要网络平台具备高效的流控能力、严格避免PFC死锁情况的出现。
针对Dragonfly网络适用于高端市场的应用情况,浪潮网络推出了更加具备市场贴合度的无损网络解决方案。以采用RoCE技术的数据中心以太网交换机为核心,具备网络流控、死锁消除以及存储即插即用等特点。
目前,浪潮网络所提供的无损网络解决方案已经成功的应用到南京智能计算中心项目的建设之中。通过融合浪潮的计算、存储、网络和人工智能开发平台整体解决方案,构建端到端、无损、低延时的RDMA(远程直接内存访问)承载网络。
浪潮网络推出的无损网络解决方案,不仅有效的应对了智算中心算力增长、算力需求多样、存储指数级攀升的需求。同时,也为现有的高性能计算平台构建低延迟、高带宽的网络平台,提供了在性价比和未来发展前景上都不错的一种选择。
相关文章
- 奇点图谱亮相WGDC26!CTO赵伟阐释“太空算力Token经济”新思路
- 中国移动在Nature子刊发表算力网络400G全光网论文
- 联想推出AI主机P7:190 TOPS本地算力,打造每个人私有的“Token工厂“
- 两级一体安全体系护航算力网建设——思特奇入选“十四五”软件和信息技术服务业示范案例
- 云工场科技拟投入数亿元加码算力调度平台+算力基础设施
- 算力短缺催热“卖水人” 经纬天地(02477.HK)跨界AI算力调度
- 息壤筑基 算力成网:国家算力网建设中的天翼云实践
- 湖北移动算力规模持续扩容 新质生产力加速“算”出
- 安谋科技“周易”X3 NPU R2升级,最高算力翻倍+算力密度跃升
- 云工场科技成为海淀3x3超级争霸赛与无锡杯官方算力支持伙伴
- 博大数据荣膺“全球AI生态基石大奖”,夯实融合算力基础设施服务商领先地位
- 日联以纳米级洞见,守护AI算力万亿市场
- 光互联引领算力新基建,三安光电卡位全球产业新周期
- 全球首款RISC-V+AI智通融合服务器CPU,蓝芯算力重磅亮相移动云大会
- 智云洞察 | 从词元调用量1000倍增长的背后,看智能体时代算力价值的跃迁!
- 10万亿+Token:“算力育人”的全新范式/崭新样本
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









