英伟达AI再创全球最快模型训练速度,助力超级计算无处不在
2021-07-01 14:46:27AI云资讯922
全球最快AI模型训练速度
MLPerf 是由学术界、研究实验室和业界人士组成的人工智慧领袖联盟,基于“打造公平、实用基准”的使命,为硬体、软体和服务的训练与推断效能提供中立评估,且全部在预定条件下执行。该基准测试基于当今最常用的AI工作负载和场景,涵盖计算机视觉、自然语言处理、推荐系统、强化学习等。
此前,英伟达生态系统一直在测试中表现出不俗的成绩,例如在2020年7月底公布的第三轮MLPerf榜单中英伟达A100 Tensor Core GPU 在全部八项基准测试中展现了最快性能。在实现总体最快的大规模解决方案方面,利用HDR InfiniBand实现多个DGX A100系统互联的服务器集群DGX SuperPOD系统也同样创造了业内最优性能。
本次MLCommons的新一轮赛事,是英伟达生态系统第四次参加MLPerf训练测试。在芯片对比中,英伟达及其合作伙伴在最新商用解决方案测试的所有八项基准测试中都创造了纪录。
测试中,七家公司对至少十几款市售系统进行了测试,由英伟达AI助力的系统超过了75%,除英伟达外,还包括了戴尔、富士通、技嘉、浪潮、联想、宁畅、超微等。仅有Google、Graphcore、Habana、英特尔、鹏程科技使用其它系统。其中英伟达及合作伙伴或采用了NVIDIA A100 GPU,或计划为在线实例、服务器和PCIe卡采用NVIDIA A100 GPU,以及包括近40款NVIDIA认证系统。
实现这一成绩背后的原因在于,尽管A100 Tensor Core GPU在去年已经雄霸MLPerf测试,英伟达工程师又使其在GPU、系统、网络和AI软件方面继续实现了进步。例如,通过全新的使用CUDA Graphs启动完整神经网络模型的方法,能够解决过去测试中的CPU瓶颈;另在大规模测试中使用的是NVIDIA SHARP,整合网络交换机内的多项通信工作,从而减少网络流量和等待CPU的时间。
助力超级计算无处不在
相较上一轮测试成绩,英伟达将性能整体提升了2.1倍,另通过多次测试结果综合来看,英伟达在两年半的时间内将性能提高了多达6.5倍。性能的快速增长,也为客户在拓展人工智能的全新落地领域提供了更多可能。
此前,在AI应用案例中,棋类的深度学习、图形类别识别、物体重量辨识、物体高度辨识、自然语言处理等已经被广泛应用,测试项中的MiniGo、Mask R-CNN、SSD等也呼应了上述的应用需求。如今在MLPerf测试中加入的RNN-T、3D-UNet测试,也预示着行业对于如语音辨识、生物医学图像方面的全新需求。英伟达及合伙伙伴在八项测试中的创纪录表现,也意味着在实际的人工智能应用中,能够带来更高的效率。
目前,德国癌症研究中心就与英伟达展开合作,将3D-UNet等创新技术引入医疗市场,来实现生物医学图像上的功能。这一合作也证明了MLPerf的测试结果能够给IT机构和开发者以极大的参考,来找到合适的解决方案,以加速特定项目和应用。本次测试中,英伟达AI在3D-UNet上的性能表现甚至是第二名的6倍之多。
人工智能的训练无疑是一项超级计算级别的挑战,而英伟达正在让这一能力变得无处不在。根据全球前500的超级计算机榜单显示,基于NVIDIA DGX SuperPOD的Selene是全球最快的商用AI超级计算机。而榜单上的其他十几台系统也均基于NVIDIA DGX SuperPOD架构。
此外,特斯拉构建的来获得自动驾驶模型的AI超级计算机系统,也选择英伟达的硬件架构作为自动驾驶与辅助驾驶深度学习训练超级电脑AUTOMOTIVE的关键元件。该系统共具备720个节点,每个节点拥有8块NVIDIA A100 Tensor Core GPU,共计5760块。
不久前,微软也宣布由NVIDIA A100 Tensor Core GPU驱动的Azure ND A100 v4云GPU实例全面上市。这些虚拟机(VM)针对的是拥有高性能和高要求工作负载的客户,如人工智能(AI)和机器学习(ML)工作负载。
甚至,英伟达还和美国国家能源研究科学计算中心打造了世界上最快的AI超级计算机,这款名为Perlmutter的超级计算机拥有6144个NVIDIA A100 Tensor Core GPU,从而可以负责拼接有史以来最大的可见宇宙3D地图以及其他项目。以往,研究人员准备一年的星系数据发布需要几周或几个月时间,而通过在英伟达助力下的Perlmutter仅需要几天就能完成任务。
相关文章
- 英伟达“缺电大会”背后,被忽视的AI算力产业链新机
- 英伟达在AI图形处理器上部署训练OpenAI的GPT-5.2,为人工智能产业提速
- 同步英伟达技术路线,维谛技术(Vertiv)如何卡位800V直流第一阵营
- 算力帝国的双重博弈:解码OpenAI在英伟达与AMD之间的16GW战略布局
- 英伟达CEO黄仁勋表示《终结者》式情景或不会发生,但人工智能终将主导人类思维
- 英伟达年度GTC大会将于2026年3月15日在圣何塞举行 黄仁勋将阐释新一代人工智能基础设施蓝图
- 2025年第三季度AMD与英特尔独显市场份额增长,但英伟达仍以92%占主导地位
- 英伟达AI工厂浪潮下,九科信息bit-Agent交出中国方案
- 英伟达市值已从4万亿美元跨越到5万亿,仅用时113天
- 高通宣布推出人工智能芯片AI200和AI250,挑战英伟达
- 深度解读英伟达800VDC架构,英诺赛科等氮化镓企业迎来大规模爆发时刻
- 英伟达人工智能芯片迎来太空首秀,AI初创公司Starcloud计划在太空建造数据中心
- 英伟达AI服务器8年来能耗飙升了100 倍,世界还能否满足人工智能不断增长的能源需求
- OpenAI与博通合作生产自研AI芯片,英伟达独占市场的局面将逐步打破
- 英伟达开源生成式AI面部动画模型Audio2Face
- 英伟达与OpenAI达成合作,投资1000亿美元建10吉瓦AI数据中心









