数据中心测点高达千万级,腾讯云数据中心运营进入自动化时代
2022-08-13 08:44:40AI云资讯1349
随着数据中心规模的快速扩张,如何提升运维效率成为行业共同关注。

8月11日,在CDCC第三届数据中心绿色能源大会上,腾讯云公布了自身数据中心智能化运维的系列落地技术,并分享相关实践。
作为国内头部的云计算厂商,腾讯云运营着一百多万台服务器。面对千万级的测点及千亿级的日均消息量,基于数据中心自动化运营的管理平台“腾讯智维”,大规模落地基于AI、数字孪生等技术,腾讯云数据中心显著提升了运营效率。
数据算法加持 走向“预测性维护”
目前,腾讯云已在数据中心规模化应用AI和软件机器人等技术,基于数字孪生的智能化建模、基于数仓的数据治理等手段,实现数据和算法驱动的预测性维护、智能化告警。
“腾讯智维平台基于图模一体化推进事前(风险识别和预警)、事中(告警收敛和影响分析)、事后(事件回顾和设计优化)管理,利用两张图(电力单线图和暖通组态图)融合物模型、实时数据、系统拓扑实现数据治理、容量管理、图形可视化和仿真模拟,从系统角度实现自动化和智能化运维。”腾讯云数据中心相关负责人表示。
风险识别和预警层面,AI 智能化技术已得到广泛应用。例如,腾讯云数据中心通过电池检测模型,能实现对电池故障、寿命和容量的预测,提前14天发现隐患电池,在确保可靠性的同时延长电池使用周期;基于震动/声音/温度/电流的频谱分析和机器学习,腾讯云数据中心能对电机和水泵进行预警分析和故障诊断,例如底座不平衡、松动、匝间绝缘等,可提前预警和更换,避免宕机事故。
告警收敛和影响分析层面,在监控事件、告警运营和辅助决策等智能平台的支持下,腾讯云数据中心的告警准确率已达98%,重大运营风险主动监控率和事件处理效率达99%以上,此外,“运营吹哨人”机制可实现一分钟内同步告警的影响范围。
同时,通过提升告警收敛技术,腾讯云将能把99%的非高危风险工单进行准确收敛和自动派单,极大降低运维人员的心智负担,将重心转移到故障分析、整改措施跟进等工作中。
“未来,运营人员软技能的提升是数据中心运营质量的重要保证”,相关负责人表示。目前,腾讯云数据中心运营团队正从“数据中心运维工程师”向“基础设施可靠性工程师(FRE)”转型,不仅具备产品设计、数据分析和低代码等技能,还能依托系统平台和低码平台进行管理,助力数据中心的运维工作更加安全、智能和高效。
此外,面对千万级的基础设施测点规模,腾讯云通过AI实现了PUE自动调优。能够在没有人力投入的情况下,每天自动完成对大规模集群的精准调节。以南方某1000个机架的模组为例,每年节约电费超过100万。在具备冷源优化条件的数据中心,腾讯云还在构建风冷系统的AI模型。
基于海量的经验积累,通过将AI技术从标杆项目推向全模组覆盖,腾讯云数据中心将能基于更广阔的场景和数据,建立可长期演进的数据中心可靠性模型。

建立物模型体系 推动行业标准建设
基于长期的运营经验积累,腾讯云数据中心正在将自身经验输出给行业,并推动建立标准。
本次大会上,腾讯云数据中心发布了“达尔文物模型开放联盟站点”。所谓“物模型”,指的是将数据中心型号繁多的设备进行抽象归纳,形成行业标准。建立物模型体系,不仅能通过即插即用显著减少接入工作量、实现规模效应,还能打通告警、变更等关键业务场景,拉通端、边、云的整体链条。
“只有整个行业去推动标准,才能实现真正的即插即用,减少现场监控系统调试,做到成本的最优解。”腾讯云相关负责人表示,希望与物模型厂商合作,共同建立标准,最大限度优化部署成本和质量。
据了解,腾讯云数据中心建立的物模型标准,包含 IOT 物联模型和DC业务模型,沉淀腾讯十多年海量运营之道、安全策略和最佳实践,将设备驱动、机理模型、数据治理、告警策略、控制规则、业务管理、大数据分析、AI 策略融合在一起,是实现系统高度自动化的必要条件。
值得注意的是,通过与设备厂商加强统一协议和标准化模板建设,并自研新北向和智能传感网络,腾讯云数据中心的多项性能得到提升。例如,监控数据性能已从分钟级提升至10秒,未来有望进一步提升至1秒。
此外,腾讯云数据中心已经在间接蒸发AHU上进行了深度定制化尝试,未来,还将在更多的数据中心基础设施产品上持续投入,通过更精细化的产品定制,推动数据中心基础设施向模块化、标准化、简单、高效方向发展。
在快速和海量集中自动运营的的需求下,数据中心全链路正走向开放和快速创新。未来,腾讯云将与合作伙伴共同推动自动化运营的更多探索,实现数据中心的精耕细作、智能运营。
相关文章
- 数据中心联动光储业务!这家企业走出不一样的破局之路
- 从传统数据中心到现代化数据中心,四个决定性的改变
- Aginode安捷诺与比利时绿色技术公司 Ethernetics联手,推出智能PDU,助力数据中心单机架能效提升
- 英伟达称其AI数据中心采用高温运行设计,可大幅减少用水量
- SpaceX AI1发布背后:太空超算/数据中心正从概念走向工程现实
- 数智普惠 一步到位 | 华为极简全闪数据中心2.0存储商业峰会-暨大附一院样板点发布会成功举办
- 数据中心耗电远超电网负荷,迫使英伟达与谷歌在2026年第三季度前启动800V直流电架构改造
- 亚马逊数据中心公布2025年水消耗量为946万吨
- 信然与迪拜客商达成意向合作 助力40亿美元海外算力数据中心项目
- 伊顿电源Power Cube电力模块,打造数据中心高密度供配电新标杆
- 快部署、易扩容、智运维:科士达预制模块化数据中心重塑AIDC建设范式
- 从冷源到算力:美的楼宇科技在马来西亚展示数据中心“终极冷却”矩阵
- Anthropic每年向埃隆·马斯克的数据中心支付150亿美元以获取使用权限
- 思瑞浦 AI 数据中心全栈模拟芯片方案,构筑坚实智算根基
- 戴尔科技重新定义现代化数据中心,引领智能时代
- 小科堂丨科士达铅酸蓄电池:“7大维度” 安全保障,为数据中心备电站岗
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 自变量机器人王昊:训练世界模型需付出“时间税”,解决模态对齐是当务之急
- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代









