算力与能源正在成为世界的硬通货,看超级计算机安腾如何突围
2024-06-17 16:27:59AI云资讯3281
特斯拉创始人马斯克公开表态称未来两年人工智能行业将由“缺硅”变为“缺电”。据媒体报道,OpenAI的ChatGPT每天消耗超过50万千瓦时的电力,用于处理约2亿个用户请求,相当于美国家庭每天用电量的1.7万多倍。除了这类生成式AI耗能外,还有同样涉及到海量数据、特别是涉及到大规模并行计算的业务也正在成为“电能吞金兽”。全球前十名的超级计算机每小时耗电量高达2万度,堪比一座小型城镇的能源消耗。可见,随着技术革新步伐加快,全球算力竞争将对能源消耗提出更为严峻的考验,算力与能源将成为未来世界的核心硬通货。
以超级计算机为例,其作为解决复杂问题和大规模计算任务的利器,其能耗问题日益凸显,成为制约其长远发展的关键瓶颈。一味追求极致算力而忽视能源效率,不仅削弱了超算的实际价值,也使其发展陷入困境。正如美国加州大学计算机工程博士刘少山所指出,超级计算机是一个精密复杂的系统工程,任何短板都可能导致算力受限。
目前,各国在竞逐超算领导地位的同时,也在积极寻求在节能前提下提升性能的技术路径。
美国能源部于2013年和2018年先后启动“百亿亿次超级计算机”项目,明确要求E级机的功耗上限为20兆瓦,强调需要在不增加能源消耗的基础上提升性能,这表明如果单纯依赖扩大系统规模提升性能,那么E级机的技术选择将面临严格约束。2022年,麻省理工学院林肯实验室超级计算中心(LLSC)的研究人员进一步指出,超算系统的电源效率有巨大提升空间,如通过简单硬件调整如限制单个GPU功率,即可将AI模型训练的能源成本降低20%,仅带来适度的计算时间增长。
面对如何构建“既快又省”的超级计算机这一课题,大名鼎鼎的专用超级计算机安腾提供了一种新的解题思路。

安腾超级计算机丨图片来源:网络
安腾系列超级计算机由D. E. Shaw研究所研发,在能耗控制方面表现极为出色。
以第二代安腾超级计算机(Anton2)为例,其在一个单个机架内提供约2 TFLOPS(每秒万亿次浮点运算)的计算能力,能耗仅为25千瓦,与一辆中型电动汽车的充电功率相当,这一表现在当时同类设备中居于高位。
为什么超算安腾可以做到算得快还省电呢?
原因在于,有别于全面采用CPU、GPU等通用芯片架构的传统超算,安腾采用的是以ASIC专用芯片为主的专用超算的架构。专用超算在应用场景上受到严格的限制,只能处理某个特定领域的算法,例如安腾就是一台完全聚焦在生物计算领域最常用的分子动力学模拟计算的专用计算机,并且开发成本极其昂贵,但是以此为代价,换来的是在该特定领域的极强的加速性能和极低的能耗。
为降低全面计算资源损耗,超算安腾的软硬件采取了全面定制设计,核心组件为大量专用芯片(ASIC),并通过独特的高速三维环形网络实现互连。据称,在硬件上,整个超算安腾的ASIC芯片由288个核心瓦片和24个边缘瓦片构成,整体提供了5.6Tbps的片外带宽。由于较大的Serdes物理PHYs在芯片的两个边缘都与这些瓦片相连,瓦片直接相邻,从而减少了未使用的芯片面积,简化了物理设计。

第三代安腾超级计算机的晶片管芯布局
同时,超算安腾的芯片保留了低电阻率的顶部金属层(TM0、TM1等)用于电源分配,从而确保其电源分配网络是完全连续的。为了改善瞬时电流尖峰,安腾将去耦电容、而不是备用单元装入所有可用空间,以良率来换取电源管理。并且,该芯片使用全局时钟网,以最小的偏移实现高时钟速度,这样的网状结构节省了功耗,网络只占芯片TDP(热设计功耗)的5%。
此外,超算安腾的芯片可以分区域、分精度计算不同任务,突破了制约分子模拟速度的瓶颈,这样可以在处理小任务时分配较少的节点用于运算,从而避免多节点时的能源浪费问题。
在通信层面,超算安腾各个节点之间通讯采用特殊设计的高速三维环形网络相互连接,形成了超高速低延迟网络。超算安腾共具有 512 个计算节点,它们在空间上的排布使得相当于将被模拟的系统分为 8 × 8 × 8 的盒子,每个盒子只负责 1/512 的原子,每个节点和盒子一一对应,并且只需要和邻近的 6 个节点通信。这些库中通信基于类 MPI 的「共享内存式并行」,把需要共享的数据放到公共空间各自读取;而这里每个节点之间都有点对点的专用信道,不存在访问资源的冲突问题。对于分子动力学而言,主要的通信内容是处在盒子边界的原子的位置,只有进行准确的通信,我们才能够准确计算这些原子与其他原子之间的作用力。由于低时延(约 50 ns)、高带宽的一对一信道的建设,大大减少了计算节点间通信需要的时间。这样,超算安腾可在512个节点并行处理下,能够对达100万个原子的大体系,每天进行10-100微秒量级的分子动力学模拟。相较于其他每天只能模拟几纳秒到几十纳秒不等的通用架构超算系统,512节点的超算安腾完成分子模拟的速度几乎快了100-10000倍。

图片来源:众妙斋
2020年3月27日,D. E. Shaw研究所公布了新冠病毒3CL蛋白酶的长达100微秒的MD模拟动画及数据,3CL蛋白酶被认为在病毒增殖和组装中发挥了重要作用,并且是新冠药物开发的热门靶点之一。超算安腾完成的3CL蛋白酶MD模拟结果,为科学家和制药学家透彻理解新冠病毒增殖与组装的机理,从而开发针对性的3CL蛋白酶抑制剂提供了极其宝贵的研究基础。随后的两年里,D. E. Shaw研究所更是陆续围绕新冠病毒公布了超过1000微秒的MD模拟结果,对新冠病毒的病理研究和药物研发起到了非常重大的作用。
在计算效率和能耗方面,哪怕是现如今全世界最强的通用超算中心的算效,针对复杂程度达到百万体系的蛋白质给出100微秒的模拟结果,几乎需要花费数年时间才能算完,期间耗费的电量将达到兆瓦级别,换算成电费将达到数亿元。作为对比,超算安腾则只需要十几天就可以算完,并且至多也只需要几万元的电费,几乎是前者的千万分之一,这就是采用的专用超算架构、经过一系列软硬件功能特化的超算安腾在自己擅长的分子动力学领域能够实现的计算效率和能耗的绝对优势。
我们可以看到,超算安腾凭借其对分子动力学模拟的专注,以及自主研发的软硬件设计,实现了相较于通用计算机高达百倍的计算能效提升,并在此过程中显著降低了能耗。这一成果无疑为国内企业在面对未来计算需求与能源挑战时提供了深刻启示:在特定的高价值应用场景大力发展专用超算路线,有望在大幅提高计算性能的同时有效降低能耗,实现绿色、可持续的科技创新。
相关文章
- 跨越算力桎梏 激活全域智能 东软NAGIC.AI让每一辆车持续进化
- 从冷源到算力:美的楼宇科技在马来西亚展示数据中心“终极冷却”矩阵
- 践行算力普惠 赋能中小企业 | 易信“易Token”模型服务平台重磅发布
- 奇点图谱亮相WGDC26!CTO赵伟阐释“太空算力Token经济”新思路
- 中国移动在Nature子刊发表算力网络400G全光网论文
- 联想推出AI主机P7:190 TOPS本地算力,打造每个人私有的“Token工厂“
- 两级一体安全体系护航算力网建设——思特奇入选“十四五”软件和信息技术服务业示范案例
- 云工场科技拟投入数亿元加码算力调度平台+算力基础设施
- 算力短缺催热“卖水人” 经纬天地(02477.HK)跨界AI算力调度
- 息壤筑基 算力成网:国家算力网建设中的天翼云实践
- 湖北移动算力规模持续扩容 新质生产力加速“算”出
- 安谋科技“周易”X3 NPU R2升级,最高算力翻倍+算力密度跃升
- 云工场科技成为海淀3x3超级争霸赛与无锡杯官方算力支持伙伴
- 博大数据荣膺“全球AI生态基石大奖”,夯实融合算力基础设施服务商领先地位
- 日联以纳米级洞见,守护AI算力万亿市场
- 光互联引领算力新基建,三安光电卡位全球产业新周期
人工智能企业
更多>>人工智能硬件
更多>>- 元太科技与联发科技深化合作生成式 AI SoC整合彩色电子纸技术升级阅读体验 锁定彩色教育与阅读市场
- BETAFPV P1全系数传方案亮相2026 UASE无人机展
- 卓世科技与戴盟机器人达成战略合作,共筑”行业大模型+具身智能”新生态
- 荣耀智能生态新品发布:荣耀平板20搭载全彩类纸屏,荣耀小耳钉获Hi-Res认证
- 持续深耕移动智能领域 三星Galaxy系列打造标杆级AI手机体验
- 荣耀600系列发布:“幸运星”潮流设计+4K Live直出 打造颜值影像双巅峰!
- 富士胶片27款产品获2026红点设计奖 “FUJIFILM GFX100RF”荣获大奖
- 对话上海智位机器人(DFRobot)创始人叶琛:让AI与机器人真正可构建
人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









