面向云原生超算的Quantum-2平台,化解数据中心“成长的烦恼”
2021-12-21 21:32:38AI云资讯886
数据中心“成长的烦恼”
数据中心的第一次成长是随着软件定义概念的出现,在运行多个业务时出现了如何优化利用资源的瓶颈,随即通过SDN、数据中心解耦、微服务解决了这一烦恼。随着推理训练技术的发展,AI也正在成为数据中心最主流的应用之一,数据中心开始逐渐成为计算单元,“算力即服务”成为诉求。这无疑对于扩展性与算力产生了挑战。而在扩展性的背后又有性能隔离和安全的问题。
“现在的大环境需要在数据中心里要有无限算力,又需要高安全、高隔离,完全基于零信任。”NVIDIA网络事业部的宋庆春一语概括了当下行业对于数据中心的诉求。
这其实也反映了很多传统数据中心的不足之处。例如,一般情况下相对小的业务可以通过云来解决,当需要大的算力资源时,为了有非常高性能的算力资源就需要找到超算中心。但对算力资源的需求又波动性很大,继而产生了如何把超算性能和云灵活性、安全性整合起来,通过一种更新的架构来支持现有业务的需求。而当多租户均在使用算力资源,性能隔离的需求也会凸显,才能实现一个业务不会影响到其他性能。
另外,当网络上的安全隐患越来越多,也就无法信任网络上的任何一个单元,包括人、包括设备,也就需要过云原生的架构、通过DPU、通过Morpheus等安全软件,保障用户在使用资源时能够保证数据安全、机器安全、设备安全。
Quantum-2平台的三大产品
云原生超算技术恰恰可以满足将超算性能、云灵活性与安全性整合的业务需求,可以把超级计算技术带入到千家万户的数据中心中,同时还把上云的灵活性和安全性带进了超算平台。
InfiniBand网络是目前最能把云原生设备高效连接起来的网络。作为会计算的网络,不管是在InfiniBand网卡、DPU、还是交换机上,都赋予针对不同业务的强劲引擎。同时还具有很好的可扩展性,可以采用不同的拓扑方案而不需要担心拓扑中出现死锁和网络风暴的问题。InfiniBand也是一个标准网络,并支持软件定义网络规则与即插即用。
英伟达在秋季GTC大会上推出的新一代Quantum-2 InfiniBand网络平台,以400Gbps InfiniBand作为基础搭配Quantum-2 交换器、ConnectX-7网卡、BlueField-3 InfiniBand DPU与支持新架构的软件构成。可提供云原生上需要的五个关键功能:多租户、性能隔离、拥塞控制、SHARP Gen 3网络计算、高精度计时。

“当超级计算机和云原生超算系统要实现高性能时,一定需要这里面所有的资源都参与到计算里面来,我们的目标是实现数据在哪里,计算就在那里。”宋庆春这样表述Quantum-2的目标。
英伟达通过动态路由技术与InfiniBand拥塞控制技术,解决了多租户状态下的性能一致性。其中动态路由技术可以根据网络拥塞的状况,自动选择一个最畅通的通路,让通信效率达到96%以上。InfiniBand拥塞控制技术可以通过识别不同的业务,对可能导致网络拥塞的业务预先采取措施。两种技术双剑合璧,进而让业务间性能隔离,实现真正完全的裸机性能。
BlueFieldDPU的出现,为行业提供了另外一个对业务性能做优化的思路,基于融通信与计算为一体的特性,DPU可以用来加速HPC业务中的通信,由DPU来运行通信框架,由CPU和GPU执行真正的浮点计算。这样也就为相关业务带来了性能的提升,例如通过用DPU和CPU实现计算与通信重叠,让iAlltoall模型性能提升44%。通过DPU和CPU计算与通信的Overlap,可以让iAllgather的性能提升36%。另如在快速傅立叶变换的业务中,可让性能提升36%。

Quantum-2平台中的BlueField-3 DPU,相比上一代产品,更是具有更高的加速计算能力、16个Arm A78 CPU核,和4倍的加密速度。在3U一体的架构中,通过DPU、CPU和GPU的分工合作,让数据中心的性能能够得到进一步优化提升。
零信任、零监督、自学习的安全
今年秋季GTC大会上,英伟达专门发布了面向零信任的安全架构DOCA 1.2。“DOCA 1.0、DOCA 1.1、DOCA 1.2每个版本发布时都会有其针对性的市场,DOCA 1.2主要是面向安全。”宋庆春介绍,在这一版本中提供了API 面向Load Balancers、DPI、 IPS、IDS、下一代防火墙,设计安全软件的用户或者安全软件的供应商可以直接通过DOCA API调用在DPU里的硬件加速引擎,让数据中心更安全。

根据《2021中国DPU行业发展白皮书》中的阐述,零信任可以减少数据泄露、拒绝未授权的访问,因此在数据安全方面价值巨大。 DPU可以为企业提供零信任保护,通过将控制平面由主机下放到了DPU,实现主机业务和控制平面的完全隔离,数据将无法进行穿透,保证安全性。 BlueField DPU由于支持零信任的全方位安全架构,其安全性覆盖范围从硬件设备到数据传输,再到恶意攻击的安全加速引擎,可以确保从内到外的防护。
同时,Morpheus安全框架也为未来的数据中心提供了一个新的思路。即Morpheus可以利用AI深度学习的方式来进行全方位安全防御,而不是根据一些安全顾问对于恶意攻击的定义或者是其他的一些安全特定模型来识别,基于这样一种深度学习方式来去进行安全防御,可以自动提升对于新型恶意行为的辨别能力。Morpheus给了用户一个完全的自学习的环境,完全的零监督自学习的框架。通过600倍的数据处理速度,Morpheus具备根据数据中心中的各种特征生成千万级数量级别的模型,并在数据中心内部进行匹配。

“用Morpheus时,我们不用去定义这个行为是恶意还是善意的,我们也不需要知道是恶意还是善意的,但我们会关注你这个行为是正常的还是异常的,只要是异常行为这时候就会去监控和识别,判断到底是一个合理还是不合理的行为。”宋庆春介绍。
目前,无论是英伟达的以太网还是InfiniBand网络,都已实现与Morpheus的整合。利用AI能力与DPU的强大硬件加速执行单元,可以对网络中所有异常行为来进行跟踪。
相关文章
- 罗格科技发布国产异构计算平台“超算智能体“,撬动AI智能体专业服务千亿级市场
- 玻色量子不断中标!引领量超融合!国内首台部署国家超算中心的专用量子计算机
- 罗拉超算体抢滩登录,引领财税服务新范式
- 东方超算Deep X G20发布:重新定义企业级AI算力经济模型——4万元实现百万级算力,中小企业AI转型门槛直降90%
- 官网&京东同步发售!联想ThinkStation PGX 桌面AI超算工作站正式来袭
- AI能力官方认可!合思入选超算互联网《人工智能生态产业图谱》
- SEAVIV希未 AideaStation R1 AI算力中心,定义下一代桌面超算新标准
- 以一体化算网驱动技术变革,业内专家共话超算互联网
- 一体化算网建设再提速,七城算力中心接入国家超算互联网
- 便携式AI突破:DFRobot LattePanda Mu 助力泛灵人工智能RM-01实现“公文包里的超算”
- 东方超算全新发布MCP服务,与全球领先技术协议“接轨”
- 上线一年,国家超算互联网交出“高质量增长”答卷
- 科研效率大幅提升!超算互联网助深势科技加速AI4S创新
- 专业团队护航企业级部署开发!超算互联网上线DeepSeek系列模型
- 实现高可信AI环境, 国家超算互联网上线DeepSeek系列模型
- 国家超算长沙中心联合加佳科技赋能教育出版创新发展
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









