寒武纪第四代MLUarch03构架采用chiplet（芯粒）技术-AI云资讯

近日，寒武纪正式发布第三代云端AI芯片思元370、基于思元370的两款加速卡MLU370-S4和MLU370-X4、全新升级的Cambricon Neuware软件栈。

回顾今年年初1月，寒武纪思元290智能芯片及加速卡、玄思1000智能加速器在官网低调发布，这是寒武纪今年发布的第二款产品，这在业界实属难得。毕竟芯片行业基本2-3年推出一款或一代芯片，外加根据不同客户需要，还要1-2年的适配导入周期。

先从三个方面，解读下本次寒武纪370的优势所在。

在架构上，思元370属于寒武纪第四代自研智能芯片架构，第一代架构MLUarch00主打智能加速IP核，第二代MLUarch01主打多核架构，第三代MLUarch02主打多核共享片内存储，第四代MLUarch03更是寒武纪首款采用chiplet（芯粒）技术的AI芯片，在国内应该也属于行业首颗chiplet AI芯片。

在应用场景灵活性上，由于思元370在一颗芯片中封装2颗AI计算芯粒（MLU-Die），每一个MLU-Die都具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口，不同MLU-Die可以组合规格多样化的产品，为用户提供适用不同场景的高性价比AI芯片。

在算力上，基于台积电7nm制程工艺、整体集成390亿个晶体管的思元370最大算力达到256TOPS（INT8），相比上一代思元270算力直接翻倍。

此外，思元370，不仅可以作为推理芯片，也可以作为训练芯片使用。这样做的好处不仅是寒武纪自己的产品能够兼顾训练与推理，也方便客户全流程的模型部署、业务落地。

实际上，寒武纪发布的首颗训练芯片思元290，在训练为主的同时也可以进行推理。借助Cambricon Neuware软件栈提供的软件及应用生态，就可以在思元290芯片上实现图形图像、语音、NLP、搜索推荐等多种应用的训练和推理。

此次思元370发布，Cambricon Neuware进一步整合了训练和推理的全部底层软件栈，包括底层驱动、运行时库、算子库以及工具链等，将MagicMind和深度学习框架Tensorflow、Pytorch深度融合，实现训推一体。依托于训推一体，在寒武纪全系列计算平台上，从云端到边缘端，用户均可以无缝地完成从模型训练到推理部署的全部流程，进行灵活的训练推理业务混布和潮汐式的业务切换，加快了用户端到端业务落地的速度，减少模型训练研发到模型部署之间的繁琐流程，可快速响应业务变化，提升算力利用率，降低运营成本。

在外界看来，一代接着一代是分段的。但对于寒武纪来说，每一代架构之间都是互相勾连、镶嵌、攒接的，虽然每更新一代处理能力提升、效率优化都很大，但代际之间并非替代关系，而是适配不同的市场，从而实现资源的最大化利用。比如思元370和思元290之间就不是替代的关系，因为前者主要是推理芯片，后者主要是训练芯片，两者是互补的关系。

以每一代的架构为基础，都可以开发出适合不同端的IP、芯片矩阵。而每一款芯片，又都会分成不同组件，比如按照十几个组件设立十几个研发小组，每个小组来做一个组件，最后把组件拼起来形成智能芯片。不同的小组可以根据项目需求，对组件进行多种组合、拼接，并实现不同芯片功能组件上重叠部分的高效复用。

一方面，这就使得云、边、端、车不同芯片拥有很多可以复用的组件与设计，让“云边端车”协同优势成为可能；另一方面，这也使得过去的积累不会因为业务线变化而浪费，哪怕是现在总营收占比已经很小的IP授权业务，对于其他覆盖面更多的业务线，仍然有着生态拓展、技术复用的价值，比如在边缘侧智能芯片设计上复用。

寒武纪第四代MLUarch03构架采用chiplet（芯粒）技术

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术