一种面向数据中心的智能空调控制方法转让专利

申请号 : CN202110502901.0

文献号 : CN113225994B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张娜

申请人 : 广州远正智能科技股份有限公司

摘要 :

本发明提供了一种面向数据中心节能控制的的智能空调控制系统设计。通过面向应用系统特征的分析结合空调系统控制,实现智能化的节能控制策略。大量计算节点的功耗与运行的应用系统应用密切相关,运算密集的应用通常需要占用更多的处理器和加速器资源,从而提升计算集群的功耗,而一些在线业务系统则对计算能力要求相对较低,从而降低集群功耗。相同的应用系统随功能调用的不同,对计算密度的需求也不同,产生不同的功耗要求。本项发明采用机器学习技术对数据中心计算集群的运行特征进行建模,判别功耗发展规律,从而为空调控制系统提供有效的调控策略,实现以尽可能低的功耗保障数据中心的安全运行。

权利要求 :

1.一种面向数据中心的智能空调控制方法,其特征在于,将数据中心空调温控系统以网格化方式进行分布式管理,每个空调控制器对应一个计算环境,通过环境特征集进行基于人工智能的建模实现细粒度、网格化环境控制, 包括:将数据中心的每个计算设备作为设备图的节点,根据计算设备间是否存在网络连接为依据建立每个设备图的节点的关联关系,将所述关联关系作为设备图的边;

采集设备节点状态信息,并采集到的状态信息将转换为能耗信息;

基于GCN的机器学习建模构建设备节点能耗预测模型;

采集数据中心设备的能耗信息,通过所述能耗预测模型预测设备节点的能耗信息;

根据设备节点未来时间周期的能耗状态预测,对空调系统的功率控制进行预设温控系统预测性调节;

通过采集的日常能耗信息根据预设时间周期对所述能耗预测模型进行迭代更新;

其中,基于GCN的机器学习建模建立预测模型,根据在时间 的设备图能耗信息来预测在时间 的设备图能耗状态;

采集给定时间周期内的设备图能耗信息,生成数据集D;

数据集D的每个元素表示为 , 表示设备图在时间 的所有信

息,包括能耗信息和各个节点的常量信息和节点间的关联信息,作为GCN的输入;

表示为各个节点在时间 的能耗信息,作为GCN的预测输出目标;

所述GCN聚合设备图中每个节点 及其邻居节点的信息进行卷积计算,以数据集D作为GCN建模的训练数据集,构建能耗预测模型。

2.根据权利要求1所述的一种面向数据中心的智能空调控制方法,其特征在于,每个空调控制器对应的计算环境的环境特征集合通过应用软件层面和物理设备层面的特征组成,所述应用软件层面通过计算任务特征来表示:包括计算密度、存储密度、访存密度和通信密度的一种或两种以上的组合;

所述物理设备层面通过各类设备的运行状态表示,包括:CPU、GPU占用率、CPU、GPU内存占用率、网络I/O速率、磁盘I/O速率的一种或两种以上的组合。

3.根据权利要求1所述的一种面向数据中心的智能空调控制方法,其特征在于,所述能耗预测模型以数据中心的设备图为基础,预测每个设备节点的能耗状态;设备图中的图节点表示数据中心的运行设备,包括服务器、网络交换机和存储设备,节点之间的边表示为通过网络连接的设备节点。

4.根据权利要求1所述的一种面向数据中心的智能空调控制方法,其特征在于,通过所述能耗预测模型预测设备图中每个设备节点的能耗信息,并将每个设备节点的能耗信息进行综合,获取设备图的整体或部分能耗信息。

5.根据权利要求1所述的一种面向数据中心的智能空调控制方法,其特征在于,还包括:通过监控传感器获取当前温度状态进行监控,根据当前温度状态对温控系统策略编排进行调整,修正能耗预测模型存在的误差。

6.根据权利要求1所述的一种面向数据中心的智能空调控制方法,其特征在于,根据时间和客户业务需求变化设置时间周期,根据所述时间周期重新采集设备节点能耗信息,并重新训练能耗预测模型进行模型重构,模型重构所需的数据从日常的能耗信息中获取。

7.根据权利要求1所述的一种面向数据中心的智能空调控制方法,其特征在于,对彼此无连接的设备图子图,进行彼此独立的机器学习建模并实现预测功耗信息的能力。

说明书 :

一种面向数据中心的智能空调控制方法

技术领域

[0001] 本发明属于涉及信息技术领域,尤其是涉及一种基于智能算法的数据中心温控系统,即通过对数据中心计算集群的状态进行监控和数据采集,以人工智能技术对因能耗需求进行预测分析,从而实现高效节能的温控系统控制策略,

背景技术

[0002] 云计算已经成为各行各业信息化的重要技术路径,特别是IT系统建设的过程中,以公有云、私有云、专有云和混合云等方式实现算力、存储,已成为企业建立数字基础设施的基本选项。与之对应的云计算基础设施‑数据中心,需要支持大规模部署计算、存储和网络设备,以提供不同配置的算力、数据存储资源。同时,大规模设备部署带来的散热问题为数据中心机房的空调设备配置和控制带来技术挑战。计算集群中的服务器节点因业务类型不同而其工作负载往往不同,在不同时段也会产生不均衡的负载现象,因此对散热的需求因负载状态的不同而不同,采用固定的空调系统功率(最高散热需求)虽然保障计算集群系统的正常运作,但在低负载状态下,容易造成空调系统能耗的浪费。
[0003] 目前数据中心空调控制系统主要采用固定温控方式或通过环境系统传感器检测进行反馈式控制,只能根据当前状态对控制测量进行适应性调整,无法通过对数据中心计算集群的工作负载进行预测,从而制定有一定时间周期的温控调节策略,并以此来提升能效。随着机器学习技术的发展,越来越多的系统逐渐引入预测性技术来实现优化,但在大型数据中心和工业生产的空调控制方面,仍然没有类似的发展。

发明内容

[0004] 根据现有数据中心空调控制系统的局限性,即只能采用固定温控方式或通过环境系统传感器检测进行反馈式控制,无法通过对数据中心计算集群的工作负载进行预测,从而实现有针对性的温控调节策略。本发明基于机器学习技术,通过采集每个设备节点的状态信息,以统计学建模的方式对设备节点的能耗行为建立预测模型,从而辅助空调系统进行有针对性的散热能力调节。在保障整个计算集群正常运作的基础上实现空调系统功耗的最优化。本项技术作为智能化控制系统的一部分,为实现数据中心能耗优化提供服务。
[0005] 本项发明将数据中心的每个计算设备作为一个设备图的节点,即服务器、网络交换设备、存储控制器设备和数据安全设备组成设备图G,而每个设备均作为设备图的一个节点v。每个设备图节点之间的关联关系e以是否存在网络连接为依据(如附图1所示,设备图定义为G={V,E},V表示图节点集合,E表示图边的集合,每个节点v携带属性{type,cost},type表示节点类型,cost表示能耗信息)。通过对设备图上每个节点的工作负载进行数据采集,以机器学习的方式进行工作负载状态建模,实现对单个设备节点到整个设备图中任意子图的负载和能耗状态的预测,从而实现辅助空调系统进行温控预测的能力。具体通过如下5个基本步骤实现在数据中心进行温控预测性调节和预测模型的持续优化:
[0006] 1.设备节点状态采集;
[0007] 2.设备节点能耗模型构建;
[0008] 3.设备节点负载预测;
[0009] 4.温控系统预测性调节;
[0010] 5.模型迭代、更新;
[0011] 第1步需要采集每个设备节点的工作负载状态,特别是持续采集涉及功耗的状态,例如对服务器而言包括:处理器利用率、存储系统利用率和加速器(GPU)的利用率等。在持续采集一个给定时间周期的数据后,在第2步中通过机器学习技术实现对设备图(数据中心所有设备)的工作负载状态和趋势建模,从而实现对每台设备工作状态的预测能力(即第3步)。在将预测到的设备工作状态结合设备的能耗范围计算得出功耗数值形成对设备图或子图的能耗预测,进一步推导出散热需求,为空调系统(温控设备)进行调节提供预测性数据。空调系统可以此来预设温控策略,同时根据实际散热状况进行校正。由于数据中心设备集群的工作负载状态随时间周期扩大而变化,步骤2中建立的机器学习模型仍需不断更新,以适应新的工作负载分布特性,因此在第5步中,以固定周期进行数据重新采集(对应第1步内容),并进行机器学习模型的重建(对应第2步内容),实现机器学习模型的高度适用性,提升预测的精确度。
[0012] 与现有技术相比,本发明的有益效果为:目前的空调温控技术,或者为人工预置策略,存在缺点为无法实现精准预测,因而只能凭经验进行预编排;或为依据传感器实时监控进行自适应调整,缺点为只能根据当前状态进行调整,存在响应延迟的问题。对比现有系统的不足,本项发明引入基于图神经网络的人工智能技术,可以对数据中心设备的功耗状态进行以不同粒度的预测(从单一设备,到集群,再到整个数据中心),基于预测实现精确的能耗趋势预测,并指导空调温控系统策略的编排;结合实时监测,实现对机器学习模型可能导致的误差进行校正;以自学习方式进行模型更新,以实现模型与应用系统状态的持续适应,从而保障预测精度。

附图说明

[0013] 图1数据中心与设备图表达
[0014] 图2温控策略预测工作流程
[0015] 图3数据采集
[0016] 图4机器学习建模
[0017] 图5温控策略预测与在线校正
[0018] 图6模型迭代更新流程

具体实施方式

[0019] 本发明的5个步骤具体实现方式如下:
[0020] 1.设备节点状态采集
[0021] 设备节点状态采集的目的在于为每个节点获得以时间序列表达的能耗信息,即每个节点的type是不变的,而cost可表示为基于时间序列的数据序列{cost0,cost1,…costn},而整个设备图在特定时刻t的能耗状态可以表示为Gt,对应每个节点vi的能耗信息为costt。实现对不同设备的运行状态采集,主要集中处理3类设备:服务器、网络交换机和存储控制器,采集信息如下表所示:
[0022]
[0023]
[0024] 服务器节点的能耗主要来自于处理器、加速器、内存和磁盘I/O;网络交换机由于采用嵌入式系统,所以可通过其网络I/O来估算能耗状态,存储系统(专用存储系统)可通过数据I/O(与网络I/O相同)来对功耗状态进行估算。
[0025] 采集方式(如附图3所示)如下:
[0026] I.服务器:通过在每台服务器上预设数据采集进程对服务器运行状态进行采集和数据回传至信息采集服务器。对于不同的底层操作系统(Linux,Windows Server等),需要定制相应的采集程序。对于虚拟化平台控制的服务器,可通过虚拟化平台提供的操作接口实现状态采集,例如VMWare,Xen,OpenStack均提供集群各个计算节点的状态监控与采集服务;
[0027] II.网络交换机:通过对交换机所属网内的服务器节点设置状态采集程序,对交换机吞吐量进行监控;
[0028] III.存储设备/存储控制器:通过在存储系统所属网内的服务器节点设置状态采集程序,或直接在存储控制器上运行监控程序,实现对存储系统的网络吞吐进行监控。
[0029] 采集到的状态信息将转换为能耗信息,能耗信息的计算方式如下:
[0030] I.服务器:处理器占用率*处理器能耗标准+内存占用率*内存能耗标准+磁盘I/O速率*磁盘能耗标准+加速器占用率*加速器能耗标准,这里各项能耗标准需要依据设备厂商提供的给定部件的能耗上限来确定,以watt为单位;
[0031] II.网络交换机:网络I/O速率*交换机能耗标准,同上,这里各项能耗标准需要依据设备厂商提供的能耗上限来确定,以watt为单位;
[0032] III.存储设备/存储控制器:网络I/O速率*交换机能耗标准,同上,这里各项能耗标准需要依据设备厂商提供的能耗上限来确定,以watt为单位。
[0033] 2.设备节点能耗预测模型构建
[0034] 能耗预测模型已数据中心的设备图为基础,预测每个设备节点的能耗状态。设备图的定义为:图节点表示数据中心的运行设备(包括服务器、网络交换机和存储设备);节点之间的边表示为通过网络连接的设备节点。对每个设备节点的能耗预测需要考虑与之相邻的设备节点的状态,例如两组服务器进行数据流水线式计算,因此均需要进行网络和计算密集操作,又例如一组服务器参与hadoop的map‑reduce计算,因此均需要参与数据和计算密集操作。
[0035] 基于上述情况,在机器学习预测模型需要具备对以图的方式表达数据,并进行以时间序列为基础的多变量预测的能力。多元时间序列中的变量可以看作是设备图中的节点,它们通过以网络连接表达依赖关系。在本项发明中,我们选择图神经卷积网络Graph Convolutional Network(GCN)作为预测模型的基础架构(如附图4.a)。以多变量时序数据和外部图结构作为输入,预测时序数据的未来值。这里的变量对应于设备图的节点,时序数据对应于每个节点在不同时刻的能耗信息。由于需要预测当前设备节点在下一时间周期的能耗信息,因此在图神经网络输入过程中,需要在每个节点的信息聚合中将节点自身的能耗信息加入。图神经卷积网络的卷积算子公式如附图4.b。
[0036] 基于GCN的机器学习建模的目的在于建立预测模型GCN_Model,可根据在时间t的设备图能耗信息来预测在时间t+x的设备图能耗状态:cost(Gt+x)=GCN_Model(Gt),x为时间长度(通常选取1到8小时,也可采用24小时)。具体建模步骤如下:
[0037] I.采集给定时间周期内的设备图能耗信息:通过本项发明第1步的数据采集,收集对应于一个时间周期的(可采用一周或一个月)设备图的能耗信息序列{G0,G1,…Gn};对应时间状态i对应的设备图能耗信息表示为图中每个节点vi的cost信息,计算方法如步骤1中所示;
[0038] II.数据集D的每个元素表示为di={Gi,cost(Gi+x)},Gi即设备图在时间i的所有信息,包括能耗信息和各个节点的常量信息(节点类型)和节点间的关联信息(图的边:设备的网络连接),Gi作为GCN的输入;cost(Gi+x)表示为G的各个节点在时间i+x的能耗信息,cost(Gi+x)作为GCN的预测目标;数值x的选择可根据应用场景来确定,通常以1到8小时的时间周期为参考;
[0039] III.对于设备图中的每个节点vi,GCN需要聚合其邻居节点的信息并进行卷积计算,在本项发明中,节点vi自身的类型和能耗信息也包括进卷积计算;
[0040] IV.以D作为GCN建模的训练数据集,构建GCN_Model模型。
[0041] 图卷积神经网络以邻接矩阵来表达输入输出的图信息,因此图的大小(节点和边的数量)影响处理效率和内存使用。在数据中心的设备量通常在1000一级以上,即需要大于1000*1000的矩阵处理能力。对于超大的矩阵(例如>10000*10000),我们以分区方式来降低存储压力,即将一个设备图分解为多个子图,对多个子图分别建模。例如:如果将一个设备图G分为多个子图Gp0,Gp1,…Gpm,每个子图对应的GCN分别为GCN_Modelp0,GCN_Model p1,…GCN_Model pm。各个子图尽量避免存在关联(即网络连接),这样可以视之为彼此独立的网络,减少预测误差。
[0042] 3.设备节点负载预测
[0043] 在构建以图神经卷积网络为基础的预测模型GCN_Model后,可以如下方式进行能耗信息预测:采集数据中心设备的能耗信息,以步骤2中的设备图状态信息作为输入方式Gt来预测cost(Gt+x),(即t+x时刻的设备图能耗信息,包括每个设备节点的能耗状态)。
[0044] 4.温控系统预测性调节
[0045] 温控系统预测性调节依据对数据中心设备的未来时间周期(x时间周期)的能耗状态预测,对空调系统的功率控制进行预设,从而实现有效避免满负荷运行可能造成的能量损耗。数据中心设备的能耗预测通过步骤3中的方式,即cost(Gt+x)=GCN_Model(Gt)来预测每个设备节点的能耗信息,cost(Gt+x)表示设备图中所有设备节点的能耗信息(即cost(v0),cost(v1),…cost(vn)),并进行综合:cost=sum(cost(v0)+cost(v1)+…+cost(vn)),从而获得设备图或其中部分节点的能耗信息。
[0046] 为避免机器学习模型可能存在的预测误差,空调温控系统仍需引入监控传感器对当前温度状态进行监控,以便对可能的预测误差进行温控策略调整(如附图5)。
[0047] 5.模型迭代、更新
[0048] 设备能耗信息与设备上运行的业务系统紧密相关,而业务系统并非一成不变,而是根据时间和客户业务需求变化,因此以某一时间周期进行数据采样和模型训练得到的能耗预测模型无法实现覆盖数据中心全时间周期的预测。为此,需要在一定时间间隔内进行模型重构,即在时间周期y之后(取值可为周或1月),重复步骤1,2,即重新采集设备节点能耗信息,并重新训练GCN_Model。由于步骤3和4所进行的温控操作在数据中心需要持续的能耗信息采集,因此模型重构所需的数据可以从日常的能耗信息采集中获得,实现持续性模型迭代(如附图6)。