智能未来,青云科技融合云、边、AI与网络

2024-03-29 11:34:40爱云资讯阅读量:796

当前AI大模型正成为技术力量新的爆发点,以ChatGPT为代表的AIGC应用风起云涌,持续演进的AI对网络的需求指数级增长:一方面,AIGC带来的巨大流量和交互AI应用对网络的带宽和实时性提出了更高要求;另一方面,AI大模型训练需要海量算力支撑,大规模、分布式AI集群使智算节点间通信面临着越来越大的挑战。

全球范围内的AI经济价值预计将达到数万亿美元,网络与算力作为数字基础设施,在AI加持下,必将进一步推动实体经济和数字经济新一轮高质量发展,寻求提供极致高性能网络已成为AI重要研究方向之一。

青云科技作为云服务厂商,在服务于AI科技行业客户过程中,遇到很多机遇和挑战。

一:AI场景下多样数据采集瓶颈

在服务AI客户过程中,青云发现在这四种场景:NLP自然语言处理,CV计算机视觉领域,GIS地理空间和卫星遥感数据,ASR云合成方向,存在着数据采集的问题,即随着多场景、多样化的数据不断积累,各种边缘侧的数据该如何高效、快捷、安全、及时地传输到数据中心,从而保障数据加密过程中的诸多问题。

二:边缘场景不确定因素挑战

边缘网络的不确定因素也带来不小挑战,比如边缘设备的弱网、断电、通信异常导致数据传输不及时,无法保障数据传输过程中的数据安全隐私性;还有目前物联网设备、硬件设备多元化发展的情况下,边缘设备以及物联网网络多样环境下暴露出来的制约;芯片层、操作系统层不同接口协议兼容性的差异等。

三:容器平台多场景业务整合瓶颈

面向AI快速的发展,在AI训练以及推理高性能计算、容器云平台计算面临了多场景业务整合的瓶颈:随着AI大模型的不断发展,如何更好得管理、部署好模型的应用,以及升级及应用模型?

青云边缘侧自主研发的EdgeWize平台平台适配多种硬件、多种操作系统,以便于用户整合边缘端多侧设备;同时平台预留支持计算、边缘计算的能力,依托SD-WAN高可用链路进行传输,基于拓扑网的自动选择路径能力,保证数据传输的可靠性和安全性。对于边端的加密数据,青云科技推出多种加密协议保障边缘数据向数据中心的传输安全性,并依托云上多Region、广域网络环网进行平台建设,构建云服务上的基石,保障用户的连续性和可靠性。

随着AI容器的业务普及发展和应用,青云科技也在积极探索容器化应用场景解决方案。

首先,青云科技在QKE容器引擎上支持一键式部署,能为用户提供操作便捷、简单易用的界面,从而保障集群上服务易用的能力。

同时,青云科技在SD-WAN网络组件上的容器化适配,缩短了边缘应用网络访问的路径,从而满足边缘应用多样性的网络需求。

最后,从边缘侧到IaaS层K8s管理业务集群,再到上层PaaS平台配套服务以及相应的管理服务,青云科技都能依托高效的网络能力,在运维监控以及可视化界面上为用户提供全方位的服务保障。

青云科技发布了AI智算平台并提出一个概念:算力中心建设新模式,像管理本地资源一样管理AI基础设施。

在云边协同的场景下,不仅大量数据会被采集到云端,还有海量业务数据会被进行清洗、分析和相应的训练,而这些都离不开底层多元化算力的支持。基于此,青云AI智算平台以解决多样化算力需求、智能化算力调度管理,以及智简化运维管理为核心目标。

青云科技提出跨区域混合组网架构。从图中可以看到在数据中心网络建设中,青云科技会将计算管理节点、存储网络和专有GPU网络集群做详细划分。尤其在目前大模型训练场景下,青云科技服务客户过程中,在高性能并行空间存储集群以及GPU计算集群,会规划满足客户专用的IB网络,通过SDN网络技术手段进行计算资源、存储资源、对象存储,比如U10000节点进行网络管理,再采用运营商提供的UFMRESTAPI接口,实现多地跨区域、高速互联,以此满足网络层面相应的控制。

通过跨区域混合组网的搭建方式,青云AI智算平台在搭建和服务用户过程中,提供多个层面的产品类型。从底层物理节点层到上层逻辑服务层和相应的云服务层,都依托底层高速的IB交换机网络和业务的管理交换机网络,在GPU计算节点、并行文件存储节点和纳管GPU的裸金属节点上,都可以为客户提供配套的PaaS产品服务。依托数据中心多层服务能力,在不同的区域、不同的Region都可以为用户提供全局的训练、推理、业务模型和资源管理调度服务。同时基于青云科技多年公有云服务相应经验,还可以为客户提供整套运营运维管理的配套组件。

基于“解决AI场景下最首要的挑战”的目的,青云科技AI智算平台具有多项优势:

支持数万张GPU卡的资源管理。

通信链路的网络优化,做到让数据不绕路,大大缩短数据到数据中心的传输路径。

支持多卡多芯的异构云平台,加速国产GPU芯片替代。

提高单卡使用调度的利用率,实现最大系统利用率。

广泛的调蓄选项,预留、恢复和关键作业的抢占式调度服务方式。

动态灵活、弹性地分配GPU资源。

为解决当今AI快速发展、海量数据增长的情况,青云科技除了提供高效的组网,完善的基础设施服务,也提供多样的存储支持。青云具备自研的U10000对象存储,可以降低用户存储成本,帮助用户提供完善的生命周期分层策略,同时提供满足大模型和高性能计算场景下并行文件存储的EPFS,它支持高达百GB的访问带宽。在数据存储上也为用户提供多样化的,符合业务要求的各种类型的数据库和非关系型数据库。

在网络侧,青云科技为用户提供三种方式,即用户公网加密链器、采用自研SD-WAN互联网网络以及专线网络接入,可以灵活地接入青云AI算力调度云平台,也可以基于容器化K8s、QKE集群的AI算力调度平台接入。

通过上层MaaS产品服务,用多种算力配备高速的IB网络,可支撑用户在青云云平台上快速上线其预训练模型、通用模型以及行业应用模型,从而助力其快速开展自身训练推理的应用。随着AIGC的不断发展,青云也在不断地探索和迭代MaaS模型的产品服务。

在底层AppCenter,青云可以支持不同的VM、BM以及GM管理集群,并且适配多种操作系统、芯片以及模型训练基础服务镜像。在上层可以采用Slurm调度系统以及QKEK8s调度系统,满足客户在模型训练以及模型层、数据层、AI层、AIGC应用层的发布。青云也支持从数据的管理、模型的训练以及测试发布整体的全生命周期的管理,会协助AIGC行业为用户提供更便捷、更快速的AI自助式服务。在模型生态上接入了很多商业化模型,给用户提供垂直领域行业以及互联网应用行业模型的能力。

未来,青云希望可以一键式交付整体环境,同时支持挂载高性能存储,我们也会不断融合市场更多的模型提供商,帮助用户在模型仓库中得到更选择,并且在垂直行业领域以及行业模型上做更多的尝试和探索。青云一直秉承“持续创新、合作、开放、共赢”的态度,希望与行业合作伙伴及客户,共筑数字世界的新未来。

相关文章
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023