成功的基石 寒武纪推第四代智能处理器架构
2021-12-09 12:11:46AI云资讯2262
伴随着寒武纪思元370的正式推出,寒武纪第四代智能处理器架构MLUarch03也终于浮出水面,MLUarch03带来哪些改进和优化,又有哪些值得关注的特点呢?
在全新的MLUarch03架构加持之下,思元370算力最高可达256TOPS(INT8),是上一代产品思元270算力的2倍。相较于峰值算力的提升,思元370在实测性能和能效方面的表现更为优秀:以ResNet-50为例,MLU370-S4加速卡(半高半长)实测性能为同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全长)实测性能与同尺寸主流GPU相当,能效则大幅领先。
MLUarch03架构采用新一代张量运算单元,内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完备,更高效且向前兼容。

Supercharger和多算子硬件融合技术
稳步提升定点算力的同时,思元370全面加强了FP16、BF16以及FP32等不同类型的浮点算力,可同时推理和训练任务,增强兼容性以实现更快部署。市场只会留给有准备的人。寒武纪作为初创企业,对客户需求的把握也精细到全流程跟进。比如思元370,不仅可以作为推理芯片,也可以作为训练芯片使用。这样做的好处不仅是寒武纪自己的产品能够兼顾训练与推理,也方便客户全流程的模型部署、业务落地。
此外,思元370还是国内第一款公开发布支持LPDDR5的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。

寒武纪智能芯片架构演进
值得强调的是,寒武纪坚持自研智能芯片架构、指令集的研发工作,是国内外在该技术方向积累最为深厚的公司之一。
通过如思元370这样更具效率的AI芯片在云端场景替代传统GPU,就能够大幅降低前期基础设施建设成本,减少后期运行能耗。可以说,思元370成功推出的背后,不仅是寒武纪研发人员的日夜努力,也是社会各行各业对更高效率AI芯片的迫切需求。
相关文章
- 算力需求激增引风口 寒武纪技术迭代赋能智能化升级
- “硬核创新”寒武纪入选2025福布斯中国创新力企业50强
- 锚定智能算力机遇:寒武纪以技术创新响应行业差异化需求
- 《2024胡润中国人工智能企业50强》发布:寒武纪荣登榜首
- 探索创新人才培养模式 寒武纪积极开展产学合作
- 寒武纪积极助力人工智能的实际应用落地
- 寒武纪AI训练卡MLU370-X8荣获2023年度卓越创新产品奖
- 寒武纪统一的平台级基础系统软件打破开发壁垒
- 寒武纪通用型智能芯片:技术壁垒高但应用面广
- 寒武纪:通用型智能芯片在性能和功耗上存在优势
- 寒武纪:具备云、边、端芯片产品和生态开发协同优势
- 寒武纪2022年业绩说明会:研发成果显著,核心技术持续突破,知识产权积累创新高
- 寒武纪入选星辰20:2023中国AI算力层创新企业
- 寒武纪灵活多样产品满足多元市场需求
- 寒武纪:通用型智能芯片对人工智能具备较好普适性
- 寒武纪云边端产品线日益完善 商业场景逐步落地
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









