百度X-MAN超级AI计算平台，人工智能界的超级英雄-AI云资讯

当地时间12月2日，在加拿大举行的第32届NeurIPS神经信息处理系统大会上，百度正式发布自主研发的超级AI计算平台X-MAN3.0。该平台专为AI深度学习场景优化设计，每秒完成2000万亿次深度神经网络计算，极大的加快了AI深度学习模型的训练速度。

NeurIPS作为机器学习和神经计算领域的顶级会议，吸引了机器学习、人工智能、统计等领域的众多国际专家参与。近年来，在计算机视觉、语音识别、自然语言处理等领域也出现了大量的创新应用，NIPS在AI深度学习领域的学术影响力变得举足轻重。

算法、数据和计算是推动AI深度学习技术快速发展的三大要素。为支持更强的泛化能力，更高的预测精度，算法模型日趋复杂，越来越多的数据需要被及时标注和处理，计算性能成为关键。百度X-MAN超级AI计算平台提供极致的计算性能，支持超大复杂算法模型，能够快速及时处理海量数据。自2016年诞生以来，百度X-MAN超级AI计算平台历经3代发展，3次架构升级，创造6项业界第一，同时期关键技术&性能保持领先，引领行业发展趋势。目前，X-MAN系列产品已在百度大规模应用，正在助力百度AI战略快速落地。

X-MAN解决的3大关键技术挑战

为提供更强的计算性能和最佳的计算效率，X-MAN在系统设计中面临了三大关键技术的挑战：如何有效提升单机计算性能、如何实现多机加速的高可扩展性以及如何均衡CPU与AI加速芯片的配比关系，以避免系统瓶颈。

在有限的单机空间内，集成更多数量、性能更强、互联带宽更高的AI加速卡，是提升单机计算性能的直接手段，但带来了高速互联、结构、散热、供电等硬件技术难题；单机训练方式难以满足超大规模数据集和复杂的模型场景下的计算力需求，大规模分布式训练成为必然，解决多机加速的可扩展性就成了关键技术难题；深度学习模型的负载差异较大，CPU密集型，计算密集型，通信密集型，存在着多种需求场景，为了避免系统性能瓶颈、充分发挥计算效率，如何快速灵活的调整CPU和AI计算芯片的配比并支持独立迭代升级成了关键的技术难题。

X-MAN的3次架构升级和9大技术特征

自2016年首次发布以来，X-MAN的三代产品各自都有着鲜明的设计理念：超高的计算密度、高效散热、兼容多元化AI加速芯片。X-MAN通过3次架构升级，有效攻克了3大技术挑战。

X-MAN1.0发布于2016年Q2，单机可以支持16个AI加速卡，最高扩展到64，实现了超高的计算密度。X-MAN1.0具备4大技术特征：硬件解耦、资源池化、PCIe Fabric技术、100G RDMA高速互联。通过硬件解耦实现了单机计算性能的扩展，支持独立快速升级CPU和AI加速卡；通过硬件解耦和资源池化技术支持快速灵活调整CPU和AI加速卡的配比，从而避免系统瓶颈，保证计算效率；通过PCIe Fabric技术提升单机内部通信带宽降低了通信延迟，且可以在虚拟机环境下支持多卡高速通信实现native performance，从而解决了强大的单机计算性能的挑战；通过100G RDMA高速互联技术提升多机的通信带宽降低通信延迟，从而解决多机加速的可扩展性的技术难题。

X-MAN2.0发布于2017年Q3，通过冷板式液冷散热技术实现了超高的散热效率。和业界主流方案一样，X-MAN2.0可以支持8卡NVLink高速互联，差异化方面，X-MAN2.0具备2大技术特征：液冷散热和灵活的IO支持。随着AI加速卡的功耗增长，散热问题已成为制约AI加速卡计算力提升的关键瓶颈，X-MAN2.0通过冷板式液冷散热技术解决了散热难题，同时又避免了浸没式液冷技术带来的运维、部署、成本等问题。随着AI加速卡的性能进一步提升，通信瓶颈也会进一步暴露，X-MAN2.0通过灵活的IO接口特性，支持按业务场景适配不同数量的100G RDMA网卡，在解决多机加速的可扩展性技术挑战的同时，也有效降低了网络系统设计的复杂度和成本。

随着AI人工智能技术的快速发展，众多AI芯片公司应运而生，AI芯片格局正呈现多元化发展趋势。此次NIPS大会上发布的X-MAN3.0，采用了硬件系统模块化、互联接口标准化、互联拓扑高灵活性的设计思路，既提升了多元化AI加速芯片的兼容性，也促进了AI加速芯片生态健康、快速、可持续的发展。X-MAN3.0具备3大关键技术特征，包括48V供电技术、标准化的AI加速卡接口定义和灵活的互联拓扑。相比传统12V供电技术，48V供电技术可以更好解决AI加速卡在负载急剧变化面临的电流冲击问题；通过灵活的互联拓扑，可以支持单机扩展更多的AI加速卡，从而有效提升单机计算性能，更可以支持专用多机互联通信通道，相比传统的100G RDMA网络，专用通信通道可以进一步提高通信带宽，降低通信延时，有效解决大规模多机计算的高扩展性技术挑战；通过标准化的AI加速卡接口定义和灵活的互联拓扑，可以有效兼容多元化AI加速芯片，促进AI芯片多元化生态格局健康发展。

此次百度快速研发落地X-MAN3.0，得到了浪潮、英业达等服务器系统厂商的积极参与支持；我们期待有更多的服务器系统合作伙伴、AI加速芯片厂商和同行加入共建开放的生态，促进整个生态圈的良性发展。

X-MAN1.0

X-MAN2.0

X-MAN3.0

X-MAN创造了6项业界第一，引领行业技术发展趋势

凭借着对AI业务模型的深刻理解、扎实的硬件基础架构技术和对行业趋势的准确预判，百度设计了X-MAN AI计算平台系列产品，创造了6项业界第一。其中， 2016年Q2发布的X-MAN1.0创造了5个业界第一：首次实现单机扩展16片AI加速卡；首次实现4/8/16/32/64卡系统级弹性扩展；首次实现AI计算硬件解耦架构(注：Facebook 2017年Q1发布的Big Basin、微软2017年Q1发布的HGX-1等都采用了相似设计理念）；首次实现PCIe Fabric技术架构，支持按需求业务动态分配AI计算资源；首次实现虚拟机多卡高速无损通信技术（native performance）。2017年Q3发布的X-MAN2.0业界首创将冷板式液冷散热技术应用到AI计算产品里，有效解决了高性能AI加速卡的散热挑战(注：Google 2018年Q2发布的TPU3.0也采用了相似技术）。

X-MAN大规模部署，助力百度AI战略快速落地

凭借着强大的单机计算性能、业界领先的多机扩展性、灵活的AI计算资源动态分配调整能力，X-MAN系列产品已在百度实现规模化部署，广泛应用于语音识别、计算机视觉、自然语音处理、无人车等基础AI技术的深度学习模型训练，将训练时间从周级别缩短到天级别；服务于百度DuerOS、Apollo、ABC Cloud等核心业务，助力百度AI战略的快速落地。

百度X-MAN超级AI计算平台，人工智能界的超级英雄

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术