数据中心测点高达千万级,腾讯云数据中心运营进入自动化时代
2022-08-13 08:44:40AI云资讯1311
随着数据中心规模的快速扩张,如何提升运维效率成为行业共同关注。

8月11日,在CDCC第三届数据中心绿色能源大会上,腾讯云公布了自身数据中心智能化运维的系列落地技术,并分享相关实践。
作为国内头部的云计算厂商,腾讯云运营着一百多万台服务器。面对千万级的测点及千亿级的日均消息量,基于数据中心自动化运营的管理平台“腾讯智维”,大规模落地基于AI、数字孪生等技术,腾讯云数据中心显著提升了运营效率。
数据算法加持 走向“预测性维护”
目前,腾讯云已在数据中心规模化应用AI和软件机器人等技术,基于数字孪生的智能化建模、基于数仓的数据治理等手段,实现数据和算法驱动的预测性维护、智能化告警。
“腾讯智维平台基于图模一体化推进事前(风险识别和预警)、事中(告警收敛和影响分析)、事后(事件回顾和设计优化)管理,利用两张图(电力单线图和暖通组态图)融合物模型、实时数据、系统拓扑实现数据治理、容量管理、图形可视化和仿真模拟,从系统角度实现自动化和智能化运维。”腾讯云数据中心相关负责人表示。
风险识别和预警层面,AI 智能化技术已得到广泛应用。例如,腾讯云数据中心通过电池检测模型,能实现对电池故障、寿命和容量的预测,提前14天发现隐患电池,在确保可靠性的同时延长电池使用周期;基于震动/声音/温度/电流的频谱分析和机器学习,腾讯云数据中心能对电机和水泵进行预警分析和故障诊断,例如底座不平衡、松动、匝间绝缘等,可提前预警和更换,避免宕机事故。
告警收敛和影响分析层面,在监控事件、告警运营和辅助决策等智能平台的支持下,腾讯云数据中心的告警准确率已达98%,重大运营风险主动监控率和事件处理效率达99%以上,此外,“运营吹哨人”机制可实现一分钟内同步告警的影响范围。
同时,通过提升告警收敛技术,腾讯云将能把99%的非高危风险工单进行准确收敛和自动派单,极大降低运维人员的心智负担,将重心转移到故障分析、整改措施跟进等工作中。
“未来,运营人员软技能的提升是数据中心运营质量的重要保证”,相关负责人表示。目前,腾讯云数据中心运营团队正从“数据中心运维工程师”向“基础设施可靠性工程师(FRE)”转型,不仅具备产品设计、数据分析和低代码等技能,还能依托系统平台和低码平台进行管理,助力数据中心的运维工作更加安全、智能和高效。
此外,面对千万级的基础设施测点规模,腾讯云通过AI实现了PUE自动调优。能够在没有人力投入的情况下,每天自动完成对大规模集群的精准调节。以南方某1000个机架的模组为例,每年节约电费超过100万。在具备冷源优化条件的数据中心,腾讯云还在构建风冷系统的AI模型。
基于海量的经验积累,通过将AI技术从标杆项目推向全模组覆盖,腾讯云数据中心将能基于更广阔的场景和数据,建立可长期演进的数据中心可靠性模型。

建立物模型体系 推动行业标准建设
基于长期的运营经验积累,腾讯云数据中心正在将自身经验输出给行业,并推动建立标准。
本次大会上,腾讯云数据中心发布了“达尔文物模型开放联盟站点”。所谓“物模型”,指的是将数据中心型号繁多的设备进行抽象归纳,形成行业标准。建立物模型体系,不仅能通过即插即用显著减少接入工作量、实现规模效应,还能打通告警、变更等关键业务场景,拉通端、边、云的整体链条。
“只有整个行业去推动标准,才能实现真正的即插即用,减少现场监控系统调试,做到成本的最优解。”腾讯云相关负责人表示,希望与物模型厂商合作,共同建立标准,最大限度优化部署成本和质量。
据了解,腾讯云数据中心建立的物模型标准,包含 IOT 物联模型和DC业务模型,沉淀腾讯十多年海量运营之道、安全策略和最佳实践,将设备驱动、机理模型、数据治理、告警策略、控制规则、业务管理、大数据分析、AI 策略融合在一起,是实现系统高度自动化的必要条件。
值得注意的是,通过与设备厂商加强统一协议和标准化模板建设,并自研新北向和智能传感网络,腾讯云数据中心的多项性能得到提升。例如,监控数据性能已从分钟级提升至10秒,未来有望进一步提升至1秒。
此外,腾讯云数据中心已经在间接蒸发AHU上进行了深度定制化尝试,未来,还将在更多的数据中心基础设施产品上持续投入,通过更精细化的产品定制,推动数据中心基础设施向模块化、标准化、简单、高效方向发展。
在快速和海量集中自动运营的的需求下,数据中心全链路正走向开放和快速创新。未来,腾讯云将与合作伙伴共同推动自动化运营的更多探索,实现数据中心的精耕细作、智能运营。
相关文章
- 赋能电子、汽车、半导体、数据中心等产业,Fac Tec China电子工厂设施展邀您共赴6月2-4日上海世博展览馆
- 风液融合·微模块典范 | 科士达IDM荣膺数据中心创新产品大奖!
- 数据境内留存:ManageEngine 卓豪中国数据中心如何助力外企满足 PIPL 要求
- 科士达参编《预制化数据中心技术规范》 ,以全栈实力筑牢行业发展基石
- 中东数据中心遭“流弹”!白山云建议:跨云容灾要“物理隔离”
- 美光推出全球首款高容量256GB LPDRAM SOCAMM2,为数据中心基础架构树立新标杆
- 算力尽头是电力!易事特数据中心、UPS电源等赋能新疆哈密算力中心,打造算电协同标杆
- Anthropic表示将尽力避免数据中心推高用电成本
- 微软计划利用高温超导材料设计能效更高的数据中心
- 维谛技术(Vertiv)2026数据中心前瞻:一场正在发生的基础设施重构
- 马斯克称人工智能的发展速度将迫切需要建立轨道数据中心
- 马斯克宣称合并SpaceX与xAI,拟在太空建设数据中心
- SpaceX计划在轨道上部署100万个太阳能数据中心
- 马斯克的SpaceX与xAI或将合并,有助于推进太空数据中心发射计划
- Meta斥资640万美元开展宣传活动,争取公众对新建数据中心的支持
- OpenAI数据中心将自行承担能源成本并限制用水量
人工智能企业
更多>>人工智能硬件
更多>>- BOE(京东方)OLED技术赋能联想YOGA Air 14 Ultra 定义超轻薄AI PC新标杆
- iQOO 15T正式发布:天玑9500 Monster版加持 全能体验无短板
- 从“+AI”到“AI+”:天禧AI 4.0加持,联想AI主机领衔L3级终端震撼登场
- 拾年匠音,声来不凡,致敬1000X系列十周年 索尼发布1000X十周年典藏版头戴降噪耳机
- 出游露营正当时 三星Galaxy手机全方位守护你的户外体验
- 拯救者Y900系列生产力大屏AI平板正式发布,学娱场景随心换,打造新一代旗舰终端
- 智慧陪伴 定格浪漫 三星Galaxy A57 5G让你的520心意满分
- 短途出行机器人QUORRA X5出海订单覆盖欧美,头部资本加持正奇未来布局全球
人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









