云天励飞DeepEdge10适配DeepSeek开源周“首个大招”:FlashMLA
2025-02-27 15:36:54AI云资讯9809
2月24日,DeepSeek"开源周"正式启动,并发布首个代码库FlashMLA,引发全球关注。
FlashMLA是针对英伟达Hopper GPU优化的高效MLA解码内核,专为可变长度序列优化设计,是DeepSeek高效使用算力的核心程序模块。FlashMLA通过MLA解码优化与分页KV缓存技术,显著提升硬件利用率,加速大语言模型解码过程,有效提高响应速度与吞吐量,适用于各种实时对话生成场景。
云天励飞芯片团队在FlashMLA开源后,迅速完成了DeepEdge10平台与FlashMLA的适配工作。在适配过程中,云天励飞采用了Op fusion tiling、Online softmax、Double buffer、细粒度存算并行等先进技术,并基于自研的Triton-like编程语言快速开发验证了高效的FlashMLA算子。通过一系列优化,不仅显著提升了计算效率,还大幅降低了显存占用,充分展现了DeepEdge10平台“算力积木”芯片架构的卓越优势,以及其与DeepSeek生态的高度契合性。
今日,云天励飞已将相关代码提交至开源平台Gitee,为开源AI贡献了重要的技术力量。

DeepEdge10系列芯片是专门针对大模型时代打造的芯片,支持包括 Transformer 模型、BEV 模型、CV 大模型、LLM 大模型等各类不同架构的主流模型;基于自主可控的先进国产工艺打造,采用独特的“算力积木”架构,可灵活满足智慧城市、智慧交通、智能制造、智慧仓储、机器人、边缘智算中心等不同场景对算力的需求,为大模型推理提供强大动力。

目前,DeepEdge10芯片平台已成功适配DeepSeek R1系列模型及国产鸿蒙操作系统。未来,云天励飞将持续加大研发力度,推动芯片在国产化领域取得更大突破,为国产AI生态建设贡献更多力量。
相关文章
- 云天励飞千卡AI推理集群落地湛江,打造“国模国芯”生态样板
- 云天励飞公布大算力芯片战略:目标把百万 Tokens 推理成本降低 100 倍以上
- 云天励飞十年深耕深圳,全栈AI能力助力打造人工智能先锋城市
- 推理时代加速到来:云天励飞用GPNPU重构云端大模型算力
- “AI 教父”Hinton与云天励飞陈宁在AI十字路口的握手—从“能力恐慌”到“普惠共识”
- 一场关于AI普惠的跨洋对话,云天励飞陈宁对谈AI教父Hinton
- 云天励飞与金蝶达成战略合作:共建智能算力与企业管理操作系统融合新范式
- 云天励飞携全栈AI推理芯片产品亮相湾芯展,引领“推理时代”新赛道
- 云天励飞“算力积木”联手OISA,突破万亿级MoE大模型推理集群的Scale up瓶颈
- 云天励飞携手湛江,共建AI渗透之城!
- “芯片+场景”双轮驱动,云天励飞冲刺H股加速技术商业化落地
- 云天励飞拟赴港上市:中国AI推理芯片独角兽
- 云天励飞亮相2025WAIC,宣布未来将全面聚焦AI芯片
- 云天励飞AI推理芯片亮相联合国舞台,为全球AI普惠贡献中国智慧
- AI算力新篇章:云天励飞抢滩推理时代,开启广阔“芯”蓝海
- 年报、一季报双增,云天励飞构建“硬件+芯片”双引擎业绩护城河
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









