新华三携手NVIDIA：引领AI，构建高效计算引擎-爱云资讯

首页人工智能硬件正文

6月12日，NVIDIA和慧与新华三在北京泰富酒店举办题为“引领AI发展，极速计算引擎”的人工智能平台研讨会。当今，人工智能(AI)进入到一个以大数据为基础的新阶段，在机器人和无人驾驶、计算机视觉、自然语言、虚拟助手、机器学习等领域得到广泛应用，正在掀起新一波的数字革命浪潮。另一方面，由于人工智能需要对海量数据进行大规模、高速处理，对计算能力、网络效率、大数据存储能力都提出了新的要求。

NVIDIA全球OEM业务总监 Joyce Tai

深度学习与全新GPU架构解决方案

近几年来的实践显示，深度学习是许多人工智能技术取得突破的关键，而GPU作为深度学习所需的主要计算资源，正在迅速获得越来越多的关注。此次研讨会上，NVIDIA展示了其为深度学习推出的全新的Volta架构GPU —— NVIDIA TeslaV100。NVIDIA Tesla V100提供了最高性能模式和高能耗模式，前者将持续运行在300W的最大TDP功耗下，性能也是最出色的;后者则运行在50%~60% TDP模式下能够提供75%~85%的性能。

计算、网络、存储的高度配合与协同，才能让机器学习以最短的时间内获取最佳结果。新华三针对目前日益升温的人工智能应用场景，推出了一系列与GPU相配合的服务器、网络以及高性能计算的相关解决方案。

新华三集团工业标准服务器 GPU产品经理姚宏

此次研讨会上，新华三集团工业标准服务器GPU产品经理姚宏介绍，在深度学习与并行计算方面，可采用新华三的H3C UniServer R5200 G3，它是业界最高的扩展性服务器，支持NVIDIA Tesla GPU系列，可支持10块双宽或20块单宽的GPU;HPE Apollo 6500 System 支持多达8个300WGPU或协处理器，并且CPU为8:1的拓扑结构中，网络可直接连接至GPU的PCIe Gen3互联，从而减少GPU节点之间的延迟。

在数据样本的并行存储方面，有H3C R4300。在机器学习的推理上，可选用H3C R4900 G3，它是第一款由新华三集团完全自主研发的服务器产品，是最主流的2路2U 24DIMM设计，基于Intel最新的Boradwell E5-2600v4系列处理器DDR4-2400的内存组合，是目前市面上最先进的双路服务器计算平台。R4900 G3遵循本地规划、本地设计、本地生产、本地服务原则，在设计上考虑了中国市场的竞争状况和中国用户的需求;不仅如此，作为传统X86服务器标配提供的软件功能部分，嵌入式管理的HDM和批量管理维护工具FIST，也完全由新华三集团自主研发，拥有完整的知识产权。

新华三集团互联网系统部网络架构师吴银怀

高性能网络环境

在人工智能场景中，计算节点、存储节点之间存在大量的数据互通，因此端到端的网络吞吐性能及网络延时对计算的影响很大。伴随着这些业务的开展，RDMA技术在人工智能领域的应用越来越广泛。RoCE(RDMA over ConvergeEthernet)架构提供了在以太网中承载RDMA应用的解决方案，这个以太网必须是一个无损的(LOSSLESS)以太网。H3C参与各大互联网客户，尤其是BAT的人工智能业务测试，积累了丰富的经验。H3C在交换设备出厂时会对交换设备Buffer阈值等参数进行预先设定，覆盖大多数人工智能业务场景的需求。如果有更为个性化的参数设定要求(比如队列headroom、Reset值等)，H3C交换机设备提供用于个性化参数设定所需的命令行，并且命令行在不断丰富和完善，H3C也会提供原厂的研发级支撑，配合客户进行现场测试，对人工智能的网络环境进行优化。新华三还提供了高速网络的可视化管理解决方案，可实现转发路径可视、Buffer可视、通过对PFC Pause帧发送数量及发送速率、ECN相关报文统计，实现流控可视化，了解传输网络节点的拥塞情况，从而更好的避免网络拥塞达到无损。

新华三集团技术战略部资深专家徐心平

新华三AISO人工智能管理平台

随着人工智能在各个领域应用的逐渐渗透，高性能的科学计算也逐渐融合人工智能技术，因此科研单位需要在一套高性能基础设施上支持多种类型的科研任务，这包括机器学习、深度学习，HPC应用等。此次研讨会上，新华三集团技术战略部资深专家徐心平表示， “一个成熟的专业的人工智能平台，在保证计算性能的基础上，可以充分利用容器技术，实现资源隔离和共享。客户的诉求是多种科学计算任务需要统一审批、统一调度，由一套基础设施承载多种科学计算任务，实现模型训练任务提交、打包上线自动化，并有统一完善的任务监控和资源调度，以最大程度来发挥硬件平台效率。为此，这个统一平台需要解决各种高性能业务场景下，IT计算环境配置复杂，难以调优和共享的问题。”新华三的公共科学计算AI解决方案AIOS平台产品，就是充分考虑到以上挑战，以功能内聚、设计全面为原则, 针对专业开发者提供全自动化交互式开发环境, 通过对机器学习、深度学习知识的不断探索，实现模型优化和性能优化的扩展功能, 提供了一个功能全面的深度学习系统，从而为客户提供支持多租户共享、灵活GPU资源调度的人工智能解决方案。

用户实践分享

此次研讨会上，还有幸听到来自互联网用户的实践分享。搜狗语音交互技术中心资深研究员刘忠亮，分享了搜狗基于GPU平台的实时语音识别技术。山东大学信息学院教授、北航人工智能特聘教授周斌，则介绍了通过NVIDIA Tesla V100与Tensor Core如何加速计算的宝贵经验。