首次商用试运行,类脑智算集群支持大模型快速推理服务
2025-08-14 14:16:40AI云资讯2230
据悉,“杭州灵汐类脑智算集群”已于7月底实现了大模型快速推理API的企业服务试运行。该集群由杭州灵汐类脑科技有限公司牵头搭建运营,中国电信、中国电子科技南湖研究院以及脑启社区作为合作方参与,由杭州电信具体承担集成建设。该集群部署在中国电信杭州智算中心,算力规模超200POPS。这也是类脑智算集群在全球范围内,首次以支持大模型快速推理的方式,走向商用试运行。
作为类脑智能技术的创新应用成果,该智算集群具有”存算一体、众核并行、稀疏计算、事件驱动”的特性,可显著提升计算效率、大幅降低能耗,实现大语言模型推理的“一快、一低、一降”:一是推理速度快,单用户的推理延迟控制在毫秒级别,速度性能相对于传统方案有明显优势(可流畅响应实时交互及长本文深度推理),告别卡顿;二是首token延迟低,可降至百毫秒乃至十毫秒级;三是智算集群的功耗大幅下降,较业界同等推理算力水平可降低功耗二分之一至三分之二以上。异构融合类脑芯片具有兼容PyTorch框架的类CUDA软件栈,可直接服务于多类开源大模型的快速推理、而不需要转换类脑算法。
图1灵汐智算平台大模型登录
图2灵汐智算平台大模型快速推理
当前,大模型推理普遍存在吞吐速度慢(每秒十到几十词输出)和高延迟问题(常常超过1秒甚至数秒),对众多行业场景构成了制约。在此背景下,灵汐科技基于类脑智能技术给出了“高实时、高吞吐、低延迟“的推理服务解决方案,将在金融应用、情感陪聊、快速导览、大规模数据标注以及无人机实时航拍处理、灾害预警与应急处置等领域场景逐步落地。据介绍,该智算集群(中心)将持续升级,新一代类脑智算高密度计算平台也将在近期正式发布推出,集群能效比预计将进一步提升。
相关文章
- 智算IP广域网助力首个百公里级算力互联网跨域互联,实现高效与安全、性能与成本的平衡
- 基石智算上线 DeepSeek-V3.1-Terminus,更强 Agent 能力
- 腾讯云智算全面升级,AI原生云基础设施迈向主动服务新时代
- 打造端到端智算服务,移动云全面推动大模型普惠化落地
- 共筑智算新高地,九章云极携手扬州大数据集团、扬州广陵新城投资发展集团达成战略合作
- 科士达全栈解决方案亮相2025 ODCC,驱动绿色AI智算基础设施革新
- 中国电信研究院、中兴通讯、全球固定网络创新联盟联合发布《高性能智算广域网技术白皮书》,深耕AI技术创新
- Qwen-Image-Edit 模型上线基石智算,图像编辑更精准
- “智水云脑·智算未来”昕彤智能·AI智能体 生态合作大会江苏站成功召开
- 《2025算力发展报告》:智算需求迅猛增长,万卡集群建设加速推进
- 中国移动重磅发布算网大脑3.0,打造云智算超级智能体
- 智算开放互联OISA生态共建战略合作成功启动
- 中国移动亮相2025中国算力大会,以 “智算全景” 展现数智硬实力
- 中国移动携产业伙伴发布多项云智算领域重要成果
- 中国移动副总经理李慧镝:协同产业推动云智算创新发展
- 秦淮数据“东数西算”版图再下一城,3座共计1.2GW零碳智算园区将落址中卫