云天励飞公布大算力芯片战略：目标把百万 Tokens 推理成本降低 100 倍以上-AI云资讯

2月3日，云天励飞正式举办“大算力芯片战略前瞻会”，首次对外公布未来三年的大算力 AI 推理芯片战略布局。

会上，云天励飞提出“训练追赶、推理超车”的战略方向，并发布了基于“PD 分离”思路的芯片路线图：力争实现百万 Tokens 推理成本降低 100 倍以上的目标，推动 AI 从技术尝鲜走向普惠生产力。

云天励飞董事长兼CEO陈宁博士发表演讲

战略方向：训练追赶，推理超车

云天励飞董事长兼 CEO 陈宁博士在会上指出，训练芯片与推理芯片在算力需求上存在显著差异。训练芯片更侧重“绝对值”，对算力规模、带宽能力以及科学计算的复杂精度要求更高，且对成本相对不敏感；推理芯片的核心考量则在于成本、效率与市场经济学，关键在于每一个 Token 背后的边际成本与整体性价比。

陈宁表示，公司致力于持续降低百万 Token 的成本，目标是通过下一代芯片实现“百万 Tokens 一分钱”。未来三年，公司希望将成本进一步降至“百万 Tokens 0.1分钱”，以加速大模型应用的规模化落地。

对于未来五年的中国芯片产业发展，陈宁提出“训练追赶、推理超车”的策略：在训练芯片领域，目标是持续追赶，尽量保持差距不被拉大；而在推理芯片领域，依托中国丰富的应用场景、强大的基础设施能力以及开源模型生态，有机会实现突破与超车。

云天励飞董事长兼CEO陈宁博士发表演讲

基于“PD分离”架构，三年规划三代芯片

针对大模型时代云推理场景的需求，云天励飞 CTO 李爱军在会上介绍了公司的技术解构与路线图。

他表示，云天励飞将全力投入云推理场景的大算力芯片研发，基于对大模型推理计算特征的理解，按照“PD 分离”的系统架构规划两类大算力芯片：

P芯片（Prefill）：面向计算密集型需求设计，满足 Prefill 阶段的高算力要求；

D芯片（Decode）：面向访存密集型需求设计，满足 Decode 阶段的高带宽需求。

李爱军介绍，公司在芯片微架构层面针对 Attention 及 AFN 等计算特点进行细粒度分析，并在底层实现针对性优化。在一个包含 1024 颗芯片的超节点内，P 芯片与 D 芯片可实现有效组合，以满足大模型云推理的集群化部署需求。

云天励飞CTO李爱军介绍公司芯片产品规划

未来三年，云天励飞规划了三代芯片产品：

今年（第一年）：打造第一代超节点 P 芯片，面向百万级长上下文场景进行 Prefill 推理优化，算力水平对标 Hopper 架构；

明年（第二年）：研发第一代超节点 D 芯片，聚焦 Decode 推理的低时延目标，算力水平对标 Blackwell 架构；

2028 年（第三年）：推出第二代超节点 D 芯片，面向毫秒级推理时延目标进一步优化，带动 Prefill 与 Decode 性能提升，算力层面有望看齐下一代 Rubin 芯片。

云天励飞高级副总裁、CFO兼董秘邓浩然介绍公司资本、人才与产能情况

GPNPU架构的四大技术亮点

李爱军表示，上述路线图的核心支撑是云天励飞的GPNPU架构。GPNPU 不仅是处理器架构，也体现了对大模型推理系统架构的整体理解，其主要技术亮点包括四个方面：

GPGPU级通用编程能力（CUDA兼容）：面向国内芯片“易用性”痛点，GPNPU 架构强调对主流 CUDA 等生态的兼容与迁移支持，以降低客户模型部署与迁移门槛；

极致能效的NPU内核：围绕推理效率与能效比进行深度优化，提升推理侧性价比；

引入3D Memory结构：采用 3D Memory 结构，以获得更高带宽与更低访问时延，提升推理效率；

算力积木架构：公司延续过去五年在国产工艺上的探索，以“算力积木”架构定义下一代芯片的 Scale-up 超节点，以满足万亿级乃至十万亿级 MoE 架构大模型的推理需求。

推理时代的竞争，本质是“单位推理成本”的竞争。只有把推理做得足够便宜、足够稳定、足够易用，AI 才能从“看得见的能力”走向“用得起的生产力”。

未来，云天励飞将以 GPNPU 架构为核心，大力推进云端大算力芯片，强化软硬协同与存储体系攻坚，力争将百万 Tokens 推理成本降低 100 倍以上，推动大模型从示范应用走向规模化交付。

云天励飞公布大算力芯片战略：目标把百万 Tokens 推理成本降低 100 倍以上