服务器的液冷循环系统、方法、电子设备及存储介质转让专利

申请号 : CN202211693962.0

文献号 : CN115686162B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴鹏

申请人 : 苏州浪潮智能科技有限公司

摘要 :

本发明实施例提供了一种服务器的液冷循环系统、方法、电子设备及存储介质,其中,控制系统、远程监控系统以及多个服务器可以通过交换机建立连接,首先可以通过基板管理控制器获取IO板卡中板载温度传感器采集的冷却液温度并采用异常检验从中筛除异常温度值,以减少板载温度传感器的精度误差带来的影响,实现对冷却液温度的精准采集,并可以通过交换机将筛除异常温度值之后的目标冷却液温度传输至远程监控系统进行解析,接着控制系统可以获取各个服务器对应的解析温度并对其进行温度融合,获得液冷机柜中表征整体温度状态的冷却液总温度,并可以根据冷却液总温度作出对应的控制决策,从而实现对循环泵的精准调控,进一步提高液冷循环效率。

权利要求 :

1.一种服务器的液冷循环系统,其特征在于,所述液冷循环系统至少包括控制系统、分别与所述控制系统连接的远程监控系统、循环泵以及交换机,其中,所述循环泵连接一换热单元,所述交换机通过公共端口连接多个服务器,所述交换机与各个所述服务器位于液冷机柜,每一所述服务器包括一IO板卡与一基板管理控制器,所述IO板卡包括板载温度传感器;其中,所述基板管理控制器,用于获取所述IO板卡中板载温度传感器采集的所述服务器的冷却液温度,并通过异常检验从所述冷却液温度中筛选出目标冷却液温度;

所述远程监控系统,用于获取所述交换机发送的各个所述目标冷却液温度,并将各个所述目标冷却液温度转换为各个所述服务器对应的解析温度;

所述控制系统,用于根据各个所述解析温度进行温度融合,获得所述液冷机柜的冷却液总温度,若所述冷却液总温度大于或等于预设上限温度值,则控制所述循环泵将所述液冷机柜的第一冷却液送入所述换热单元,同时将所述换热单元的第二冷却液送入所述液冷机柜进行液冷循环,对各个所述服务器进行降温。

2.根据权利要求1所述的液冷循环系统,其特征在于,所述基板管理控制器用于:获取所述IO板卡中板载温度传感器采集的所述服务器的冷却液温度,通过异常检验从所述冷却液温度中筛除异常温度,并将筛除异常温度后剩余的冷却液温度作为目标冷却液温度。

3.根据权利要求2所述的液冷循环系统,其特征在于,所述基板管理控制器用于:将所述冷却液温度中各个温度值按由小至大顺序排列,采用格拉布斯检验法对各个所述温度值进行计算,确定异常温度值,并从所述冷却液温度中筛除所述异常温度值。

4.根据权利要求3所述的液冷循环系统,其特征在于,所述控制系统用于:

若筛除异常温度值后所述冷却液温度仍存在温度异常波动情况,则将所述冷却液温度对应的服务器作为第一目标异常服务器,并发出针对所述第一目标异常服务器的服务器温度告警提示。

5.根据权利要求1所述的液冷循环系统,其特征在于,所述控制系统用于:

采用温度融合模型将各个所述解析温度融合为单一温度值,并将所述单一温度值作为所述液冷机柜的冷却液总温度。

6.根据权利要求5所述的液冷循环系统,其特征在于,所述板载温度传感器上设置有多点温度传感器,所述多点温度传感器用于温度采集,所述控制系统用于:将所述多点温度传感器采集的温度监测样本作为输入量,将所述液冷机柜中所有温度监测值的加权平均值作为期望输出,采用前向反馈神经网络训练温度融合模型。

7.根据权利要求6所述的液冷循环系统,其特征在于,所述前向反馈神经网络的隐含层节点数由公式 确定;

其中,l为隐含层节点数,m为输入层节点数,n为输出层节点数,a为0 10的自然数,所述~输入层节点数由所述板载温度传感器的数量决定。

8.根据权利要求7所述的液冷循环系统,其特征在于,所述控制系统用于:

采用预设学习误差、预设学习次数、预设学习率参数,通过预设训练函数以及预设隐含层传输函数,对所述温度监测样本进行训练,获得温度融合模型。

9.根据权利要求1所述的液冷循环系统,其特征在于,所述控制系统用于:

若所述冷却液总温度大于或等于预设上限温度值,则发出针对所述液冷机柜的冷却液总体温度告警提示;

控制所述循环泵将所述液冷机柜的第一冷却液送入所述换热单元,同时将所述换热单元的第二冷却液送入所述液冷机柜进行液冷循环,对各个所述服务器进行降温;

若降温后的冷却液总温度小于或等于预设下限温度阈值,则取消所述冷却液总体温度告警提示。

10.根据权利要求9所述的液冷循环系统,其特征在于,所述控制系统用于:

若所述液冷机柜中冷却液容量达到预设液位上限阈值,则停止向所述液冷机柜送入冷却液。

11.根据权利要求1或9或10所述的液冷循环系统,其特征在于,所述控制系统用于:若所述冷却液总温度小于所述预设上限温度值,则将温度异常的服务器作为第二目标异常服务器,并发出针对所述第二目标异常服务器的服务器温度告警提示。

12.根据权利要求11所述的液冷循环系统,其特征在于,所述控制系统用于:将大于或等于预设上限温度值的冷却液温度对应的服务器确定为第二目标异常服务器,并发出针对所述第二目标异常服务器的服务器温度告警提示。

13.根据权利要求1所述的液冷循环系统,其特征在于,所述控制系统、所述远程监控系统、所述交换机以及各个所述服务器间采用局域网网络连接模式。

14.根据权利要求13所述的液冷循环系统,其特征在于,所述远程监控系统用于通过智能平台管理接口监测所述液冷机柜中冷却液温度以及各个所述服务器的服务器状态信息。

15.一种液冷服务器的IO板卡,其特征在于,所述IO板卡位于服务器,所述IO板卡包括连接器,分别与所述连接器连接的IO上板卡与IO下板卡,所述IO上板卡包括分别与所述连接器连接的公用电信网络接口、单元定位指示灯、电源按钮以及板载温度传感器、所述IO下板卡包括与所述连接器连接的高密连接器,分别与所述高密连接器连接的通用串行总线、视频图形阵列以及串行通信接口;其中,所述IO上板卡与所述IO下板卡采用上下排布方式放置于所述服务器的前窗;

所述板载温度传感器,用于采集所述IO板卡所在服务器对应的冷却液温度;

所述连接器,用于将从所述板载温度传感器采集的冷却液温度传输至所述IO板卡所在服务器的基板管理控制器;

其中,所述基板管理控制器用于通过异常检验从所述冷却液温度中筛选出目标冷却液温度,并将所述目标冷却液温度发送液冷循环系统;

其中,所述液冷循环系统至少包括控制系统、分别与所述控制系统连接的远程监控系统、循环泵以及交换机,其中,所述循环泵连接一换热单元,所述交换机通过公共端口连接多个服务器,所述交换机与各个所述服务器位于液冷机柜;

其中,所述远程监控系统,用于获取所述交换机发送的各个所述目标冷却液温度,并将各个所述目标冷却液温度转换为各个所述服务器对应的解析温度;

所述控制系统,用于根据各个所述解析温度进行温度融合,获得所述液冷机柜的冷却液总温度,若所述冷却液总温度大于或等于预设上限温度值,则控制所述循环泵将所述液冷机柜的第一冷却液送入所述换热单元,同时将所述换热单元的第二冷却液送入所述液冷机柜进行液冷循环,对各个所述服务器进行降温。

16.根据权利要求15所述的IO板卡,其特征在于,所述连接器还用于分别将从所述公用电信网络接口、所述电源按钮、所述通用串行总线、所述视频图形阵列以及所述串行通信接口采集的接口信号传输至所述IO板卡所在服务器的基板管理控制器。

17.根据权利要求15或16所述的IO板卡,其特征在于,所述高密连接器包括高密连接器母头以及高密连接器公头,所述高密连接器母头用于连接所述连接器,所述高密连接器公头用于分别连接所述通用串行总线、所述视频图形阵列以及所述串行通信接口。

18.一种服务器的液冷循环方法,其特征在于,所述液冷循环方法应用于液冷循环系统,所述液冷循环系统至少包括控制系统、分别与所述控制系统连接的远程监控系统、循环泵以及交换机,其中,所述循环泵连接一换热单元,所述交换机通过公共端口连接多个服务器,所述交换机与各个所述服务器位于液冷机柜,每一所述服务器包括一IO板卡与一基板管理控制器,所述IO板卡包括板载温度传感器;所述方法包括:通过所述基板管理控制器获取所述IO板卡中板载温度传感器采集的所述服务器的冷却液温度,并通过异常检验从所述冷却液温度中筛选出目标冷却液温度;

通过所述远程监控系统获取所述交换机发送的各个所述目标冷却液温度,并将各个所述目标冷却液温度转换为各个所述服务器对应的解析温度;

通过所述控制系统根据各个所述解析温度进行温度融合,获得所述液冷机柜的冷却液总温度,若所述冷却液总温度大于或等于预设上限温度值,则控制所述循环泵将所述液冷机柜的第一冷却液送入所述换热单元,同时将所述换热单元的第二冷却液送入所述液冷机柜进行液冷循环,对各个所述服务器进行降温。

19.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;

所述存储器,用于存放计算机程序;

所述处理器,用于执行存储器上所存放的程序时,实现如权利要求18所述的方法。

20.一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求18所述的方法。

说明书 :

服务器的液冷循环系统、方法、电子设备及存储介质

技术领域

[0001] 本发明涉及液冷服务器技术领域,特别是涉及一种服务器的液冷循环系统、一种服务器的液冷循环方法、一种电子设备以及一种计算机可读存储介质。

背景技术

[0002] 随着人们对于数据中心的算力需求激增,服务器所产生的功耗也越来越大,而随着近年来节能减排的推行,从而使数据中心面临着日益严峻的节能挑战。对于服务器的散热,目前主要采用风冷散热技术或者液冷技术,其中,风冷散热技术使用的冷却介质为空气,其热导率低,对于数据中心环境而言,仅仅依靠风冷技术已经很难满足高热流密度服务器的散热需求,而液体的热导率较气体可提高一个数量级,理论上可极大提高传热速率,可满足高功率密度机柜的散热冷却要求,从而相较于传统的风冷散热技术,液冷技术逐渐成为目前推动数据中心节能减排,降低PUE(Power Usage Effectiveness,电源使用效率)的主流手段。
[0003] 一般而言,液冷可分为直接冷却以及间接冷却,目前直接冷却以浸没式液冷技术为主,同时可分为相变、非相变两种,间接冷却以冷板式液冷技术为主,浸没式液冷服务器是一种以液体作为传热介质,发热器件浸没于液体中,通过直接接触进行热交换的服务器。对于浸没式液冷服务器,当前主要采用IO(Input/Output,输入/输出)板卡放置于服务器机箱前窗,服务器以竖直部署方式完全浸没于装有冷却液的Tank(液冷机柜)中,而对于高密度配置需求的服务器,前窗往往空间狭小,IO板卡上各部件的接口难以全部集中在前窗,且对于液冷机柜中冷却液的温度采集主要依赖安装于Tank内部的工业级温度传感器,数量少且价格昂贵,可监测区域较小,且服务器持续工作所带来的大量热量,被冷却液通过热交换后向外传递,大容量冷却液的温度传递惯性大,使得传感器监测明显滞后,无法实现对冷却液温度进行精准采集,从而导致在液冷服务器过程中缺乏准确的温度采集数据,无法对用于保持冷却液温度平衡的循环泵实现精准调控。

发明内容

[0004] 本发明实施例是提供一种服务器的液冷循环系统、方法、电子设备及存储介质,以解决或部分解决在服务器的液冷循环过程中,因无法精准采集冷却液温度,导致无法实现对循环泵进行精准调控的问题。
[0005] 本发明实施例公开了一种服务器的液冷循环系统,所述液冷循环系统至少包括控制系统、分别与所述控制系统连接的远程监控系统、循环泵以及交换机,其中,所述循环泵连接一换热单元,所述交换机通过公共端口连接多个服务器,所述交换机与各个所述服务器位于液冷机柜,每一所述服务器包括一IO板卡与一基板管理控制器,所述IO板卡包括板载温度传感器;其中,
[0006] 所述基板管理控制器,用于获取所述IO板卡中板载温度传感器采集的所述服务器的冷却液温度,并通过异常检验从所述冷却液温度中筛选出目标冷却液温度;
[0007] 所述远程监控系统,用于获取所述交换机发送的各个所述目标冷却液温度,并将各个所述目标冷却液温度转换为各个所述服务器对应的解析温度;
[0008] 所述控制系统,用于根据各个所述解析温度进行温度融合,获得所述液冷机柜的冷却液总温度,若所述冷却液总温度大于或等于预设上限温度值,则控制所述循环泵将所述液冷机柜的第一冷却液送入所述换热单元,同时将所述换热单元的第二冷却液送入所述液冷机柜进行液冷循环,对各个所述服务器进行降温。
[0009] 可选地,所述基板管理控制器用于:
[0010] 获取所述IO板卡中板载温度传感器采集的所述服务器的冷却液温度,通过异常检验从所述冷却液温度中筛除异常温度,并将筛除异常温度后剩余的冷却液温度作为目标冷却液温度。
[0011] 可选地,所述基板管理控制器用于:
[0012] 将所述冷却液温度中各个温度值按由小至大顺序排列,采用格拉布斯检验法对各个所述温度值进行计算,确定异常温度值,并从所述冷却液温度中筛除所述异常温度值。
[0013] 可选地,所述控制系统用于:
[0014] 若筛除异常温度值后所述冷却液温度仍存在温度异常波动情况,则将所述冷却液温度对应的服务器作为第一目标异常服务器,并发出针对所述第一目标异常服务器的服务器温度告警提示。
[0015] 可选地,所述控制系统用于:
[0016] 采用温度融合模型将各个所述解析温度融合为单一温度值,并将所述单一温度值作为所述液冷机柜的冷却液总温度。
[0017] 可选地,所述板载温度传感器上设置有多点温度传感器,所述多点温度传感器用于温度采集,所述控制系统用于:
[0018] 将所述多点温度传感器采集的温度监测样本作为输入量,将所述液冷机柜中所有温度监测值的加权平均值作为期望输出,采用前向反馈神经网络训练温度融合模型。
[0019] 可选地,所述前向反馈神经网络的隐含层节点数由公式 确定;
[0020] 其中,l为隐含层节点数,m为输入层节点数,n为输出层节点数,a为0 10的自然数,~所述输入层节点数由所述板载温度传感器的数量决定。
[0021] 可选地,所述控制系统用于:
[0022] 采用预设学习误差、预设学习次数、预设学习率参数,通过预设训练函数以及预设隐含层传输函数,对所述温度监测样本进行训练,获得温度融合模型。
[0023] 可选地,所述控制系统用于:
[0024] 若所述冷却液总温度大于或等于预设上限温度值,则发出针对所述液冷机柜的冷却液总体温度告警提示;
[0025] 控制所述循环泵将所述液冷机柜的第一冷却液送入所述换热单元,同时将所述换热单元的第二冷却液送入所述液冷机柜进行液冷循环,对各个所述服务器进行降温;
[0026] 若降温后的冷却液总温度小于或等于预设下限温度阈值,则取消所述冷却液总体温度告警提示。
[0027] 可选地,所述控制系统用于:
[0028] 若所述液冷机柜中冷却液容量达到预设液位上限阈值,则停止向所述液冷机柜送入冷却液。
[0029] 可选地,所述控制系统用于:
[0030] 若所述冷却液总温度小于所述预设上限温度值,则将温度异常的服务器作为第二目标异常服务器,并发出针对所述第二目标异常服务器的服务器温度告警提示。
[0031] 可选地,所述控制系统用于:
[0032] 将大于或等于预设上限温度值的冷却液温度对应的服务器确定为第二目标异常服务器,并发出针对所述第二目标异常服务器的服务器温度告警提示。
[0033] 可选地,所述控制系统、所述远程监控系统、所述交换机以及各个所述服务器间采用局域网网络连接模式。
[0034] 可选地,所述远程监控系统用于通过智能平台管理接口监测所述液冷机柜中冷却液温度以及各个所述服务器的服务器状态信息。
[0035] 本发明实施例还公开了一种液冷服务器的IO板卡,所述IO板卡位于服务器,所述IO板卡包括连接器,分别与所述连接器连接的IO上板卡与IO下板卡,所述IO上板卡包括分别与所述连接器连接的公用电信网络接口、单元定位指示灯、电源按钮以及板载温度传感器、所述IO下板卡包括与所述连接器连接的高密连接器,分别与所述高密连接器连接的通用串行总线、视频图形阵列以及串行通信接口;其中,所述IO上板卡与所述IO下板卡采用上下排布方式放置于所述服务器的前窗;
[0036] 所述板载温度传感器,用于采集所述IO板卡所在服务器对应的冷却液温度;
[0037] 所述连接器,用于将从所述板载温度传感器采集的冷却液温度传输至所述IO板卡所在服务器的基板管理控制器。
[0038] 可选地,所述连接器还用于分别将从所述公用电信网络接口、所述电源按钮、所述通用串行总线、所述视频图形阵列以及所述串行通信接口采集的接口信号传输至所述IO板卡所在服务器的基板管理控制器。
[0039] 可选地,所述高密连接器包括高密连接器母头以及高密连接器公头,所述高密连接器母头用于连接所述连接器,所述高密连接器公头用于分别连接所述通用串行总线、所述视频图形阵列以及所述串行通信接口。
[0040] 本发明实施例还公开了一种服务器的液冷循环方法,所述液冷循环方法应用于液冷循环系统,所述液冷循环系统至少包括控制系统、分别与所述控制系统连接的远程监控系统、循环泵以及交换机,其中,所述循环泵连接一换热单元,所述交换机通过公共端口连接多个服务器,所述交换机与各个所述服务器位于液冷机柜,每一所述服务器包括一IO板卡与一基板管理控制器,所述IO板卡包括板载温度传感器;所述方法包括:
[0041] 通过所述基板管理控制器获取所述IO板卡中板载温度传感器采集的所述服务器的冷却液温度,并通过异常检验从所述冷却液温度中筛选出目标冷却液温度;
[0042] 通过所述远程监控系统获取所述交换机发送的各个所述目标冷却液温度,并将各个所述目标冷却液温度转换为各个所述服务器对应的解析温度;
[0043] 通过所述控制系统根据各个所述解析温度进行温度融合,获得所述液冷机柜的冷却液总温度,若所述冷却液总温度大于或等于预设上限温度值,则控制所述循环泵将所述液冷机柜的第一冷却液送入所述换热单元,同时将所述换热单元的第二冷却液送入所述液冷机柜进行液冷循环,对各个所述服务器进行降温。
[0044] 可选地,所述通过所述基板管理控制器获取所述IO板卡中板载温度传感器采集的所述服务器的冷却液温度,并通过异常检验从所述冷却液温度中筛选出目标冷却液温度,包括:
[0045] 通过所述基板管理控制器获取所述IO板卡中板载温度传感器采集的所述服务器的冷却液温度,通过异常检验从所述冷却液温度中筛除异常温度,并将筛除异常温度后剩余的冷却液温度作为目标冷却液温度。
[0046] 可选地,所述通过异常检验从所述冷却液温度中筛除异常温度,包括:
[0047] 通过基板管理控制器将所述冷却液温度中各个温度值按由小至大顺序排列,采用格拉布斯检验法对各个所述温度值进行计算,确定异常温度值,并从所述冷却液温度中筛除所述异常温度值。
[0048] 可选地,所述方法还包括:
[0049] 若筛除异常温度值后所述冷却液温度仍存在温度异常波动情况,则通过所述控制系统将所述冷却液温度对应的服务器作为第一目标异常服务器,并发出针对所述第一目标异常服务器的服务器温度告警提示。
[0050] 可选地,所述通过所述控制系统根据各个所述解析温度进行温度融合,获得所述液冷机柜的冷却液总温度,包括:
[0051] 通过所述控制系统采用温度融合模型将各个所述解析温度融合为单一温度值,并将所述单一温度值作为所述液冷机柜的冷却液总温度。
[0052] 可选地,所述板载温度传感器上设置有多点温度传感器,所述多点温度传感器用于温度采集,所述方法还包括:
[0053] 通过所述控制系统将所述多点温度传感器采集的温度监测样本作为输入量,将所述液冷机柜中所有温度监测值的加权平均值作为期望输出,采用前向反馈神经网络训练温度融合模型。
[0054] 可选地,所述前向反馈神经网络的隐含层节点数由公式 确定;
[0055] 其中,l为隐含层节点数,m为输入层节点数,n为输出层节点数,a为0 10的自然数,~所述输入层节点数由所述板载温度传感器的数量决定。
[0056] 可选地,所述方法还包括:
[0057] 通过所述控制系统采用预设学习误差、预设学习次数、预设学习率参数,通过预设训练函数以及预设隐含层传输函数,对所述温度监测样本进行训练,获得温度融合模型。
[0058] 可选地,所述若所述冷却液总温度大于或等于预设上限温度值,则控制所述循环泵将所述液冷机柜的第一冷却液送入所述换热单元,同时将所述换热单元的第二冷却液送入所述液冷机柜进行液冷循环,对各个所述服务器进行降温,包括:
[0059] 若所述冷却液总温度大于或等于预设上限温度值,则通过所述控制系统发出针对所述液冷机柜的冷却液总体温度告警提示;
[0060] 控制所述循环泵将所述液冷机柜的第一冷却液送入所述换热单元,同时将所述换热单元的第二冷却液送入所述液冷机柜进行液冷循环,对各个所述服务器进行降温;
[0061] 若降温后的冷却液总温度小于或等于预设下限温度阈值,则取消所述冷却液总体温度告警提示。
[0062] 可选地,所述方法还包括:
[0063] 若所述液冷机柜中冷却液容量达到预设液位上限阈值,则通过所述控制系统停止向所述液冷机柜送入冷却液。
[0064] 可选地,所述方法还包括:
[0065] 若所述冷却液总温度小于所述预设上限温度值,则通过所述控制系统将温度异常的服务器作为第二目标异常服务器,并发出针对所述第二目标异常服务器的服务器温度告警提示。
[0066] 可选地,所述通过所述控制系统将温度异常的服务器作为第二目标异常服务器,并发出针对所述第二目标异常服务器的服务器温度告警提示,包括:
[0067] 通过所述控制系统将大于或等于预设上限温度值的冷却液温度对应的服务器确定为第二目标异常服务器,并发出针对所述第二目标异常服务器的服务器温度告警提示。
[0068] 可选地,所述控制系统、所述远程监控系统、所述交换机以及各个所述服务器间采用局域网网络连接模式。
[0069] 可选地,所述远程监控系统用于通过智能平台管理接口监测所述液冷机柜中冷却液温度以及各个所述服务器的服务器状态信息。
[0070] 本发明实施例还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
[0071] 所述存储器,用于存放计算机程序;
[0072] 所述处理器,用于执行存储器上所存放的程序时,实现如本发明实施例所述的方法。
[0073] 本发明实施例还公开了一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本发明实施例所述的方法。
[0074] 本发明实施例包括以下优点:
[0075] 在本发明实施例中,提供了一种应用于服务器的液冷循环系统、方法,以及一种以分板形式上下堆叠放置于服务器前窗位置的IO板卡,其中,液冷循环系统中的控制系统、远程监控系统以及多个服务器可以通过交换机建立局域网连接,首先可以通过基板管理控制器获取IO板卡中板载温度传感器采集的冷却液温度并采用异常检验从中筛除异常温度值,以减少板载温度传感器的精度误差带来的影响,实现对冷却液温度的精准采集,并可以通过交换机将筛除异常温度值之后的目标冷却液温度传输至远程监控系统进行解析,接着控制系统可以获取各个服务器对应的解析温度并对其进行温度融合,获得液冷机柜中表征整体温度状态的冷却液总温度,并可以根据冷却液总温度作出对应的控制决策,从而实现对循环泵的精准调控,进一步提高液冷循环效率。

附图说明

[0076] 图1一种现有技术中风冷式服务器前窗放置的IO板卡示意图;
[0077] 图2是一种现有技术中单相全浸没式液冷服务器示意图;
[0078] 图3是本发明实施例中提供的一种浸没式IO板卡分板硬件示意图;
[0079] 图4是本发明实施例中提供的一种服务器的液冷循环系统示意图;
[0080] 图5是本发明实施例中提供的一种服务器的液冷循环方法的步骤流程图;
[0081] 图6是本发明实施例中提供的一种服务器的液冷循环方法的流程示意图;
[0082] 图7是本发明实施例中提供的一种计算机可读介质的示意图;
[0083] 图8是本发明实施例中提供的一种电子设备的框图。

具体实施方式

[0084] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0085] 为了使本领域技术人员更好地理解本发明实施例中的技术方案,下面对本发明实施例中涉及的部分技术特征进行解释、说明:
[0086] 冷却液:一种特殊液体,沸点较高,可通过冷却液对液冷机柜中各个服务器进行降温,以实现针对液冷循环系统的液冷循环,目前而言,主流的冷却液一般有两种,其一是矿物油,其二是氟化液。
[0087] 液冷机柜(Tank):是一个对外接驳一次侧冷却系统,对内承接服务器、交换机等设备,保证核心的热管理职能,并兼具强弱电连接、冷媒管理、状态监控、运维辅助等职能在内的综合系统。
[0088] IO(Input/Output,输入/输出)板卡:工业级远程采集与控制模块,该模块提供了无源节点的开关量输入采集、继电器输出、高频计数器等功能,可由远程命令进行控制,本发明中,可采用IO板卡采集浸没在液冷机柜中服务器邻近区域的冷却液温度。
[0089] 基板管理控制器(Baseboard Management Controller,BMC):嵌在服务器主板上的一块独立处理器,通过IPMB(Intelligent Platform Management BUS,智能平台管理总线)、LPC(Low‑Pin‑Count,低引脚数)总线、SMBus(System Management Bus,系统管理总线)等各种接口与主机内部的其他软硬件组件进行通信,并通过网络、串行/Moderm(调制解调器)、PCI(Peripheral Component Interconnect,外设部件互连标准)等接口传向本地主机/远程服务器,提供查询以及控制功能。
[0090] 作为一种示例,浸没式液冷服务器是一种以液体作为传热介质,发热器件浸没于液体中,通过直接接触进行热交换的服务器。不同于传统机柜的横向部署,对于浸没式液冷服务器,当前主要采用服务器完全浸没于装有冷却液的Tank(液冷机柜)中的竖直部署方式,在对服务器进行维护时,需搭配专门的行吊系统,在服务器两侧安装滑轨,使服务器竖直进出Tank,因此将IO板卡放置于服务器机箱前窗。
[0091] 为更好地进行比对说明,如图1,示出了一种现有技术中风冷式服务器前窗放置的IO板卡示意图:
[0092] 如图中所示,信号传输可以包括:USB TX/RX(Universal Serial Bus Transmit/Receive,通用串行总线中发送数据/接收数据)、R/G/B(Red/Green/blue 红绿蓝颜色通道)、UART TX/RX(Universal Asynchronous Receiver/Transmitter Transmit/Receive,通用异步收发器发送数据/接收数据)、SMBUS(System Management Bus,系统管理总线)、DO(Digital Output,数字输出信号)、MDI(Medium Dependent Interface,介质相关接口)。
[0093] 其中,IO板卡上的RJ45(Registered Jack 45,公用电信网络接口)、USB(Universal Serial Bus,通用串行总线)3.0、VGA(Video Graphics Array,视频图形阵列)、DB9(串行通信接口RS232,9针)、UID(Unit Identification Light,单元定位指示灯)、电源按钮(Power Button)、温度传感器(Thermal Sensor)、FRU(Field Replace Unit,现场可更换单元)等连接器均为对外接口,主要利用SlimSAS(Serial Attached SCSI(Small Computer System Interface,小型计算机系统接口),便携串行连接)连接器通过Cable(电缆)连接至服务器主板,完成对外接口与主板之间的供电以及信号传输,其中,所有连接器均采用Right angle(直角)放置方式,RJ45为100/1000M以太网口,用户可以通过上位机,利用IPMI(Intelligent Platform Management Interface,智能平台管理接口)协议对服务器进行远程监控的接口,温度传感器主要用于监测服务器前窗入风口的温度,同时监测到的温度可作为风扇转速调控的关键输入量。
[0094] 由此可见,当前IO板卡所采用的RJ45、USB3.0、VGA以及DB9等连接器尺寸较大,从而占用了较大的前窗空间,而对于高密度配置需求的服务器,前窗往往空间狭小,IO板卡上配置部件的接口难以全部集中在前窗,且USB3.0、VGA以及DB9等接口的使用率非常低,对于包括1U型(一种高可用高密度的低成本服务器平台,专为特殊应用行业以及高密度计算机环境设计)在内的各类服务器而言,在昂贵的浸没式Tank环境中无法完全实现部件的高密度配置。
[0095] 如图2,示出了一种现有技术中单相全浸没式液冷服务器示意图:
[0096] 由前述内容可知,冷却液为一种特殊液体,其沸点较高,从而冷却液吸收服务器部件发出的热量后仍旧可以保持液态,不发生形态的变化(即冷却液不会从液态转变为气态),Tank为密闭设计,在日常使用中冷却液损耗极小。针对服务器的液冷循环,先将服务器竖直放置于Tank中直至完全浸没,其内部板卡与部件设备的热量通过与冷却液接触进行热交换,Tank中的温度传感器可以实时监测冷却液的温度状态,并转化为模拟信号传输至PLC(Programmable Logic Controller,可编程逻辑控制器)控制系统。随着服务器因持续工作产生大量热量,冷却液的温度也将随之逐渐升高,当冷却液温度达到上限阈值时,PLC控制系统可以发出控制信号,触发循环泵将一部分高温冷却液送入换热单元进行降温处理,然后将已经处理完毕的低温冷却液送入Tank内,从而完成对冷却液的循环使用,实现对Tank内服务器的降温。
[0097] 在上述单相浸没式液冷循环方案中,PLC控制系统对冷却液的温度采集主要依赖安装于Tank内部的工业级温度传感器,因采用的工业级温度传感器价格昂贵,且传感器需要通过线缆连接至PLC控制系统,如果在Tank中配置数量较多的工业级温度传感器,则不仅价格昂贵,且会造成线缆布置困难,从而部署了多个服务器的大型Tank内配置的温度传感器数量较少,或仅有一个,造成温度采集的可监测区域较小,且服务器持续工作所带来的大量热量,被冷却液通过热交换后向外传递,大容量冷却液的温度传递惯性大,使得传感器监测明显滞后,无法实现对冷却液温度进行精准采集,从而导致在液冷服务器过程中缺乏准确的温度采集数据,无法对用于保持冷却液温度平衡的循环泵实现精准调控。
[0098] 对此,本发明实施例的核心发明点之一在于:提供一种应用于服务器的液冷循环系统、方法,以及一种以分板形式上下堆叠放置于服务器前窗位置的IO板卡,其中,液冷循环系统中的控制系统、远程监控系统以及多个服务器可以通过交换机建立局域网连接,首先可以通过基板管理控制器获取IO板卡采集的冷却液温度并采用异常检验从中筛除异常温度值,以减少板载温度传感器的精度误差带来的影响,实现对冷却液温度的精准采集,并可以通过交换机将筛除异常温度值之后的目标冷却液温度传输至远程监控系统进行解析,接着控制系统可以获取各个服务器对应的解析温度并对其进行温度融合,获得液冷机柜中表征整体温度状态的冷却液总温度,并可以根据冷却液总温度作出对应的控制决策,从而实现对循环泵的精准调控,进一步提高液冷循环效率。
[0099] 参照图3,示出了本发明实施例中提供的一种浸没式IO板卡分板硬件示意图:
[0100] 其中,图中信号传输如USB TX/RX、UART TX/RX、DO等与前述示例中的信号传输相同或类似,此处不再赘述。
[0101] 具体地,IO板卡可以包括连接器SlimSAS,分别与连接器SlimSAS连接的IO上板卡与IO下板卡,IO上板卡可以包括分别与连接器SlimSAS连接的公用电信网络接口RJ45、单元定位指示灯UID、电源按钮Power Button以及板载温度传感器Thermal Sensor、IO下板卡可以包括与连接器SlimSAS连接的高密连接器DB36,分别与高密连接器DB36连接的通用串行总线USB3.0、视频图形阵列VGA与串行通信接口DB9。
[0102] 其中,IO上板卡与IO下板卡采用上下排布方式放置于服务器的前窗,可以通过板载温度传感器Thermal Sensor采集IO板卡所属服务器对应的冷却液温度。
[0103] SlimSAS作为IO板卡与主板之间的连接器,可以将从板载温度传感器Thermal Sensor采集的冷却液温度,从公用电信网络接口RJ45、电源按钮Power Button、通用串行总线USB3.0、视频图形阵列VGA以及串行通信接口DB9采集的接口所属信号传输至IO板卡所在服务器主板上的基板管理控制器。
[0104] 高密连接器DB36是一种36pin(指排线对应有36根导体)的D型连接器,母头位于IO板卡,放置于服务器前窗作为对外接口,USB3.0、VGA、DB9等常用接口可通过线缆Cable连接至公头,从而可通过对插公母头将各个部件各自对应的信号传输至IO板卡端。在具体的实现中,高密连接器DB36可以包括高密连接器DB36母头以及高密连接器DB36公头,其中,高密连接器DB36母头连接连接器SlimSAS,高密连接器DB36公头分别连接通用串行总线USB3.0、视频图形阵列VGA与串行通信接口DB9。
[0105] 需要说明的是,本发明实施例包括但不限于上述示例,可以理解的是,本领域技术人员在本发明实施例的思想指导下,还可以根据实际需求进行设置,本发明对此不作限制。
[0106] 在本发明实施例中,提供了一种应用于服务器浸没式液冷循环中采集冷却液温度的IO板卡,主要针对1U服务器前窗空间紧张问题,实现部件设备高密度配置,其中,IO板卡采用分板、上下堆叠摆放方式布置于服务器前窗位置,以节省空间,在IO板卡的上板卡固定配置公用电信网络接口RJ45、单元定位指示灯UID以及电源按钮Power Button连接器,并将采集冷却液温度状态的板载温度传感器Thermal Sensor置于上板卡,通过I2C(Inter‑Integrated Circuit,同步串行)信号将温度数据持续传输至基板管理控制器,从而完成对服务器邻近区域的冷却液温度采集,并可以持续将温度数据传输至交换机以及实现用户远程管理,IO板卡的下板卡采用扁平的D型高密连接器,由于通用串行总线USB3.0、视频图形阵列VGA以及串行通信接口DB9等均为调试类接口,在实际应用中使用频率较低,因此通过将其外置于高密连接器DB36一端,从而可以实现在需要调试时或特定情况下插入IO板卡使用,不仅节省了空间,提高了各个部件的使用效率,还能够在液冷环境中实现部件的高密度配置。
[0107] 参照图4,示出了本发明实施例中提供的一种服务器的液冷循环系统示意图,其中,液冷循环系统至少可以包括控制系统、分别与控制系统连接的远程监控系统、循环泵以及交换机,其中,循环泵连接一换热单元,交换机通过公共端口连接多个服务器,交换机与各个服务器位于液冷机柜,每一服务器包括一IO板卡与一基板管理控制器,IO板卡包括板载温度传感器;具体地,控制系统可以通过网线与远程监控系统、交换机以及各个服务器进行直接或间接连接,以形成局域网网络连接模式,各个服务器可以通过公用电信网络接口RJ45作为公共端口与交换机进行连接,以实现将各个服务器对应的冷却液温度传输至交换机。
[0108] 在具体的实现中,液冷机柜中的服务器可以通过IO板卡的板载温度传感器采集其邻近区域的冷却液温度,经温度数据编码为I2C信号传输至主板的基板管理控制器,基板管理控制器将冷却液温度连同服务器的状态信息,利用IO板卡的公用电信网络接口RJ45,经网线将实时监测的冷却液温度传输至交换机,交换机通过线缆与网线依次连接至远程监控系统及控制系统,则可以通过远程监控系统获取交换机发送的各个目标冷却液温度,实现服务器远程监控以及温度数据获取,同时通过远程监控系统可以将各个目标冷却液温度转换为各个服务器对应的解析温度,远程监控系统还可以用于通过智能平台管理接口(Intelligent Platform Management Interface,IPMI)监测液冷机柜中冷却液温度以及各个服务器的服务器状态信息,以方便运维人员实时了解液冷机柜当前温度状态,以及各个服务器的运行状况,同时控制系统可以从远程监控系统的主机获取解析出的各个服务器对应的冷却液温度,并将各个冷却液温度进行温度融合处理,获得表征液冷机柜当前温度状态的冷却液总温度,以根据冷却液总温度做出对应的控制循环决策。
[0109] 作为一种示例,远程监控系统可以为KVM(Keyboard Video Mouse,键盘/显示器/鼠标)系统,其中,KVM通过直接连接键盘、视频或鼠标端口,能够访问以及控制计算机,且KVM技术无需目标服务器修改软件,进一步地,通过KVM系统可以利用智能平台管理接口的直接界面远程访问多台服务器,具备将本地存储媒体映射至远程位置的功能,从而可以通过KVM系统监控服务器的温度数据采集以及运行状态。同时,控制系统可以为PLC控制系统,PLC控制系统是采集液冷机柜中环境状态以及控制循环泵负载的核心系统,可以通过交换机与KVM系统、多个服务器建立局域网连接,以获取各个服务器对应的冷却液温度并根据冷却液温度作出控制决策。
[0110] 对于采集的冷却液温度,在实际采集过程中,采集到的实时值与在这一小段时间内采集的值可能存在明显偏差情况,这种情况可能由板载温度传感器本身造成,也可能是受到信号干扰,从而在采集到服务器的冷却液温度后,需对冷却液温度进行异常检验,以筛除出现异常的温度值,保证后续传到远程监控系统或控制系统的数据是准确的,具体地,当通过IO板卡中板载温度传感器采集到服务器邻近区域的冷却液温度时,可以通过基板管理控制器获取IO板卡中板载温度传感器采集的服务器的冷却液温度,并通过异常检验从冷却液温度中筛选出目标冷却液温度,再进一步地,可以通过基板管理控制器获取IO板卡中板载温度传感器采集的服务器的冷却液温度,通过异常检验从冷却液温度中筛除异常温度,并将筛除异常温度后剩余的冷却液温度作为目标冷却液温度。
[0111] 作为一种示例,可以将冷却液温度中各个温度值按由小至大顺序排列,采用格拉布斯检验法对各个温度值进行计算,确定异常温度值,并从冷却液温度中筛除异常温度值。
[0112] 采用格拉布斯检验法的目的是筛出板载温度传感器自身监测的异常值,因为板载温度传感器的精准度比起工业级传感器而言较低,可能偶尔会出现监测值偏离的情况。则可以采用格拉布斯检验法将异常温度值筛除以后,再对剩余温度值进行平均计算,得到的结果是单台服务器所在区域的温度,其他同一液冷机柜内的所有服务器可以按照该方式获得液冷温度值,接着将各个服务器的液冷温度值作为神经网络输入层的输入量,获得融合的温度。
[0113] 在进行温度融合之后,如果冷却液总温度大于或等于预设上限温度值,且冷却液总温度首次大于或等于预设上限温度值,则暂作不告警提示;假设上限温度值为60℃,可以设置一个阈值区间为[59.5℃,60℃],若第二轮进行融合后的温度没有降至59.5℃以下,则可以判定为高温告警,防止温度波动触发误判。而每一轮融合温度判定之后,还会判定单台服务器所在区域温度是否存在高温情况(如在59.5℃至60℃间波动),则采用与上述方法筛除异常温度值以及获取平均温度值后,也需要判断筛除异常温度值后,冷却液温度是否仍存在温度异常波动情况,如果判定单台服务器所在区域存在高温情况,则可以只进行告警提示,而不触发循环泵进行冷却液交换动作。
[0114] 具体地,对于数据检验过程,格拉布斯检验法一般适用于判定一组检测结果中最大值或最小值是否为离群值,其统计流程为:<1>计算检测结果的平均值与标准偏差;<2>计算最大值和最小值的统计量G;<3>查阅Grubbs(格拉布斯)检验临界值表获得一定显著性水平(α)下该次检测重复数对应的临界值;<4>比较统计量G与查到的临界值,当统计量G大于临界值时,此数据即为离群值;<5>对剩余数据继续检验,直到数据无异常值为止。
[0115] 示例性地,采用格拉布斯检验法筛除采集异常温度值区间估计方法如下:
[0116] 取出一段时间间隔内传感器连续监测的n个数据: ,比如(n=10)将数值按照从小到大排列,随机确定异常温度值 或 。
[0117] 计算n个数据的平均值:
[0118]
[0119] 以及标准差:
[0120]
[0121] 而后计算 的残差 ,残差值最大的为异常数据可疑项,最大的残差与标准差的比值 ,结合 以及数据个数n与格拉布斯表中的临界值 进行比较,如果 大于,则判断该数据为异常值,可以筛除,作为一种示例,可以取一个典型值作为置信概率,如取P=0.95,数据个数n=10,将剩下的n‑1个数据依次计算。
[0122] 若某个数据经连续多次计算后均为异常值,位于预设上限阈值区间内,则该位置可以视为单台服务器所在区域冷却液温度过高,则可以通过PLC控制系统只对该位置对应的服务器做告警处理,而不对循环泵做出控制,避免因单台服务器温度异常影响冷却液整体调控。在具体的实现中,若筛除异常温度值后,冷却液温度仍存在温度异常波动情况,则可以将冷却液温度对应的服务器作为第一目标异常服务器,并通过控制系统发出针对第一目标异常服务器的服务器温度告警提示。
[0123] 其中,上限阈值或上限阈值区间的设定需结合具体的服务器进行考虑,作为一种参考,上限阈值中心点可以为55℃,上限阈值区间也需要结合实际的冷却液环境考虑,本领域技术人员根据实际情况进行设定即可。
[0124] 当通过基板管理控制器对冷却液温度进行异常筛除,获得各个服务器对应的目标冷却液温度之后,可以将各个目标冷却液温度通过网线传输至交换机,并由交换机通过线缆传输至远程监控系统,则远程监控系统可以对各个目标冷却液温度进行解析,将其转换为各个服务器对应的解析温度,从而控制系统可以从远程监控系统获取各个解析温度,并根据各个解析温度进行温度融合,获得液冷机柜的冷却液总温度,具体地,可以采用温度融合模型将各个解析温度融合为单一温度值,并将该单一温度值作为表征液冷机柜整体温度状态的冷却液总温度。
[0125] 由前述内容可知,IO板卡上包括板载温度传感器,则板载温度传感器上可以设置用于温度采集的多点温度传感器,则可以通过控制系统将多点温度传感器采集的温度监测样本作为输入量,将液冷机柜中所有温度监测值的加权平均值作为期望输出,采用前向反馈(Back Propagation,BP)神经网络训练温度融合模型。
[0126] 其中,前向反馈神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络。具体地,前向反馈神经网络的隐含层节点数由公式 确定,其中,l为隐含层节点数,m为输入层节点数,n为输出层节点数,a为0 10的自然数,a值越大,代表隐含层~
节点越多,则计算越精准,输入层节点数由板载温度传感器的数量决定。
[0127] 则在具体的实现中,可以依次设置学习误差、学习次数、学习率参数,通过预设训练函数以及预设隐含层传输函数,对温度监测样本进行训练,获得温度融合模型,作为一种示例,训练函数可以采用trainlm函数,隐含层传输函数可以采用输出层函数purelin函数,从而可以通过上述方法,经过大量的检测样本训练,优化隐含层加权权值,减少板载传感器因为精度问题导致的融合误差,最终获得最优的冷却液融合温度。
[0128] 当得出冷却液总温度后,可以将该冷却液总温度与预设上限值进行比对,若冷却液总温度大于或等于预设上限温度值,则可以通过控制系统控制循环泵将液冷机柜的第一冷却液送入换热单元,同时将换热单元的第二冷却液送入液冷机柜进行液冷循环,对各个服务器进行降温,其中,第一冷却液可以为液冷机柜中高温液体,第二冷却液可以为换热单元中低温液体,可以理解的是,本发明所提及的高温与低温是相对而言的,在实际应用中,根据不同环境,高温所对应的温度值可能会有所不同,如高温温度值可以为55℃或者58℃,同理,低温所对应的温度值也可能会有所不同,本发明对此不作限制。
[0129] 在具体的实现中,若冷却液总温度大于或等于预设上限温度值,如55℃,则可以通过控制系统发出针对液冷机柜的冷却液总体温度告警提示,控制循环泵将液冷机柜的第一冷却液送入换热单元,同时将换热单元的第二冷却液送入液冷机柜进行液冷循环,对各个服务器进行降温,并且当降温后的冷却液总温度小于或等于预设下限温度阈值时,如50℃,可以取消冷却液总体温度告警提示,表示完成了一次针对服务器的液冷循环,进一步地,当液冷机柜中冷却液容量达到预设液位上限阈值时,则可以停止向液冷机柜送入冷却液,保证液冷机柜中冷却液的液位保持相对平衡的状态。
[0130] 在一种可选实施例中,如果实时计算得出的冷却液总温度值在上限阈值附近波动,可能导致多次触发告警提示,从而导致影响控制系统的循环决策,从而可以以预设上限温度值作为中心温度值,预先设置一个较小的温度阈值区间,如预设上限温度值为55℃,则温度阈值区间可以设置为54.5℃‑55.5℃,当融合后的冷却液总温度值首次超过55℃时不会立即进行告警提示,而是当冷却液总温度值在一定时间间隔内(如10s)一直处于该区间内时才触发报警提示,需要说明的是,将预设上限温度值设置为55℃,将温度阈值区间设置为54.5℃‑55.5℃,将等待时间间隔设置为10s,仅作为一种示例以便进行说明,对于上述参数值的设定,本领域技术人员可以根据实际情况进行设定,可以理解的是,本发明对此不作限制。
[0131] 在另一种情况中,可能会出现冷却液总温度小于预设上限温度值的情形,此时可能液冷机柜中某个或某几个服务器出现温度异常的情况,如服务器邻近区域的温度较高,则当冷却液总温度小于预设上限温度值时,可以将温度异常的服务器作为第二目标异常服务器,并通过控制系统发出针对第二目标异常服务器的服务器温度告警提示,同时还可以将告警提示回传至远程监控系统,具体地,可以将大于或等于预设上限温度值的冷却液温度对应的服务器确定为第二目标异常服务器,并发出针对第二目标异常服务器的服务器温度告警提示,如以信号灯闪烁等形式作为告警提示,并将告警提示回传至远程监控系统,以告知用户,从而在冷却液总温度小于预设上限温度值时,可以通过仅针对单台异常服务器作告警提示,而不对循环泵做出控制动作的方式,确保不因单台服务器温度异常影响液冷机柜中冷却液的整体状态。
[0132] 需要说明的是,本发明实施例包括但不限于上述示例,可以理解的是,本领域技术人员在本发明实施例的思想指导下,还可以根据实际需求进行设置,本发明对此不作限制。
[0133] 在本发明实施例中,提供了一种应用于服务器的液冷循环系统,其中,控制系统、远程监控系统以及多个服务器可以通过交换机建立局域网连接,首先可以通过基板管理控制器获取IO板卡中板载温度传感器采集的冷却液温度并采用异常检验从中筛除异常温度值,以减少板载温度传感器的精度误差带来的影响,实现对冷却液温度的精准采集,并可以通过交换机将筛除异常温度值之后的目标冷却液温度传输至远程监控系统进行解析,接着控制系统可以获取各个服务器对应的解析温度并对其进行温度融合,获得液冷机柜中表征整体温度状态的冷却液总温度,并可以根据冷却液总温度作出对应的控制决策,从而实现对循环泵的精准调控,进一步提高液冷循环效率。
[0134] 参照图5,示出了本发明实施例中提供的一种服务器的液冷循环方法的步骤流程图,所述液冷循环方法应用于液冷循环系统,所述液冷循环系统至少包括控制系统、分别与所述控制系统连接的远程监控系统、循环泵以及交换机,其中,所述循环泵连接一换热单元,所述交换机通过公共端口连接多个服务器,所述交换机与各个所述服务器位于液冷机柜,每一所述服务器包括一IO板卡与一基板管理控制器,所述IO板卡包括板载温度传感器;所述方法具体可以包括如下步骤:
[0135] 步骤501,通过所述基板管理控制器获取所述IO板卡中板载温度传感器采集的所述服务器的冷却液温度,并通过异常检验从所述冷却液温度中筛选出目标冷却液温度;
[0136] 步骤502,通过所述远程监控系统获取所述交换机发送的各个所述目标冷却液温度,并将各个所述目标冷却液温度转换为各个所述服务器对应的解析温度;
[0137] 步骤503,通过所述控制系统根据各个所述解析温度进行温度融合,获得所述液冷机柜的冷却液总温度,若所述冷却液总温度大于或等于预设上限温度值,则控制所述循环泵将所述液冷机柜的第一冷却液送入所述换热单元,同时将所述换热单元的第二冷却液送入所述液冷机柜进行液冷循环,对各个所述服务器进行降温。
[0138] 在一种可选实施例中,所述步骤501包括:
[0139] 通过所述基板管理控制器获取所述IO板卡中板载温度传感器采集的所述服务器的冷却液温度,通过异常检验从所述冷却液温度中筛除异常温度,并将筛除异常温度后剩余的冷却液温度作为目标冷却液温度。
[0140] 在一种可选实施例中,所述通过异常检验从所述冷却液温度中筛除异常温度,包括:
[0141] 通过基板管理控制器将所述冷却液温度中各个温度值按由小至大顺序排列,采用格拉布斯检验法对各个所述温度值进行计算,确定异常温度值,并从所述冷却液温度中筛除所述异常温度值。
[0142] 在一种可选实施例中,所述方法还包括:
[0143] 若筛除异常温度值后所述冷却液温度仍存在温度异常波动情况,则通过所述控制系统将所述冷却液温度对应的服务器作为第一目标异常服务器,并发出针对所述第一目标异常服务器的服务器温度告警提示。
[0144] 在一种可选实施例中,所述通过所述控制系统根据各个所述解析温度进行温度融合,获得所述液冷机柜的冷却液总温度,包括:
[0145] 通过所述控制系统采用温度融合模型将各个所述解析温度融合为单一温度值,并将所述单一温度值作为所述液冷机柜的冷却液总温度。
[0146] 在一种可选实施例中,所述板载温度传感器上设置有多点温度传感器,所述多点温度传感器用于温度采集,所述方法还包括:
[0147] 通过所述控制系统将所述多点温度传感器采集的温度监测样本作为输入量,将所述液冷机柜中所有温度监测值的加权平均值作为期望输出,采用前向反馈神经网络训练温度融合模型。
[0148] 在一种可选实施例中,所述前向反馈神经网络的隐含层节点数由公式确定;
[0149] 其中,l为隐含层节点数,m为输入层节点数,n为输出层节点数,a为0 10的自然数,~所述输入层节点数由所述板载温度传感器的数量决定。
[0150] 在一种可选实施例中,所述方法还包括:
[0151] 通过所述控制系统采用预设学习误差、预设学习次数、预设学习率参数,通过预设训练函数以及预设隐含层传输函数,对所述温度监测样本进行训练,获得温度融合模型。
[0152] 在一种可选实施例中,所述若所述冷却液总温度大于或等于预设上限温度值,则控制所述循环泵将所述液冷机柜的第一冷却液送入所述换热单元,同时将所述换热单元的第二冷却液送入所述液冷机柜进行液冷循环,对各个所述服务器进行降温,包括:
[0153] 若所述冷却液总温度大于或等于预设上限温度值,则通过所述控制系统发出针对所述液冷机柜的冷却液总体温度告警提示;
[0154] 控制所述循环泵将所述液冷机柜的第一冷却液送入所述换热单元,同时将所述换热单元的第二冷却液送入所述液冷机柜进行液冷循环,对各个所述服务器进行降温;
[0155] 若降温后的冷却液总温度小于或等于预设下限温度阈值,则取消所述冷却液总体温度告警提示。
[0156] 在一种可选实施例中,所述方法还包括:
[0157] 若所述液冷机柜中冷却液容量达到预设液位上限阈值,则通过所述控制系统停止向所述液冷机柜送入冷却液。
[0158] 在一种可选实施例中,所述方法还包括:
[0159] 若所述冷却液总温度小于所述预设上限温度值,则通过所述控制系统将温度异常的服务器作为第二目标异常服务器,并发出针对所述第二目标异常服务器的服务器温度告警提示。
[0160] 在一种可选实施例中,所述通过所述控制系统将温度异常的服务器作为第二目标异常服务器,并发出针对所述第二目标异常服务器的服务器温度告警提示,包括:
[0161] 通过所述控制系统将大于或等于预设上限温度值的冷却液温度对应的服务器确定为第二目标异常服务器,并发出针对所述第二目标异常服务器的服务器温度告警提示。
[0162] 在一种可选实施例中,所述控制系统、所述远程监控系统、所述交换机以及各个所述服务器间采用局域网网络连接模式。
[0163] 在一种可选实施例中,所述远程监控系统用于通过智能平台管理接口监测所述液冷机柜中冷却液温度以及各个所述服务器的服务器状态信息。
[0164] 对于方法实施例而言,由于其与系统实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0165] 在本发明实施例中,提供了一种应用于服务器的液冷循环方法,其中,液冷循环系统中的控制系统、远程监控系统以及多个服务器可以通过交换机建立局域网连接,首先可以通过基板管理控制器获取IO板卡中板载温度传感器采集的冷却液温度并采用异常检验从中筛除异常温度值,以减少板载温度传感器的精度误差带来的影响,实现对冷却液温度的精准采集,并可以通过交换机将筛除异常温度值之后的目标冷却液温度传输至远程监控系统进行解析,接着控制系统可以获取各个服务器对应的解析温度并对其进行温度融合,获得液冷机柜中表征整体温度状态的冷却液总温度,并可以根据冷却液总温度作出对应的控制决策,从而实现对循环泵的精准调控,进一步提高液冷循环效率。
[0166] 为了使本领域技术人员更好地理解本发明实施例的技术方案,下面通过一个例子进行解释、说明:
[0167] 参照图6,示出了本发明实施例中提供的一种服务器的液冷循环方法的流程示意图,其中,为方便说明,本示例将KVM系统作为远程控制系统,将PLC控制系统作为控制系统,将预设上限温度值设置为55℃,将预设下限温度值设置为50℃,可以理解的是,本发明对此不作限制。
[0168] 1、IO板卡上的板载温度传感器实时采集IO板卡所在服务器的邻近区域的冷却液温度;
[0169] 2、基板管理控制器BMC获取从IO板卡上采集的冷却液温度,并采用格拉布斯检验法对冷却液温度中各个温度值进行异常检验;
[0170] 3、若经异常检验之后,冷却液温度仍存在温度异常波动情况,则执行步骤4,冷却液温度不存在温度异常波动情况,则执行步骤5;
[0171] 4、PLC控制系统发出针对异常服务器的服务器温度告警提示;
[0172] 5、基板管理控制器BMC将筛除异常数据后的目标冷却液温度通过网口传输至交换机;
[0173] 6、交换机获取液冷机柜中各个服务器的目标冷却液温度之后,通过线缆将各个目标冷却液温度传输至KVM系统;
[0174] 7、KVM系统对各个目标冷却液温度进行解析,转换为各个服务器对应的解析温度;
[0175] 8、PLC控制系统从KVM系统中获取各个解析温度,并采用多点传感器温度融合算法将各个解析温度进行融合,获得表征液冷机柜中温度状态的冷却液总温度;
[0176] 9、若冷却液总温度小于55℃,则执行步骤10,若冷却液总温度大于或等于55℃,则执行步骤13;
[0177] 10、若单台服务器所在区域温度正常(即服务器对应的冷却液温度小于55℃),则执行步骤11,若单台服务器所在区域温度异常(即该服务器对应的冷却液温度大于或等于55℃),则执行步骤12;
[0178] 11、表示单次成功采集适宜温度;
[0179] 12、PLC控制系统发出针对异常服务器的服务器温度告警提示;
[0180] 13、PLC控制系统发出针对液冷机柜中冷却液的总温度告警提示;
[0181] 14、PLC控制系统向循环泵发送控制信号,以控制循环泵将高温冷却液从液冷机柜送入换热单元,将低温冷却液从换热单元送入液冷机柜;
[0182] 15、经液冷循环操作之后,当检测到液冷机柜中冷却液总温度将至50℃,则停止告警,并在液冷机柜中冷却液容量达到预设液位上限阈值时,停止向液冷机柜送入冷却液。
[0183] 需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0184] 另外,本发明实施例还提供了一种电子设备,包括:处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述服务器的液冷循环方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0185] 如图7所示,本发明实施例还提供了一种计算机可读存储介质701,计算机可读存储介质701上存储有计算机程序,计算机程序被处理器执行时实现上述服务器的液冷循环方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质701,如只读存储器(Read‑Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
[0186] 图8为实现本发明各个实施例的一种电子设备的硬件结构示意图。
[0187] 该电子设备800包括但不限于:射频单元801、网络模块802、音频输出单元803、输入单元804、传感器805、显示单元806、用户输入单元807、接口单元808、存储器809、处理器810、以及电源811等部件。本领域技术人员可以理解,本发明实施例中所涉及的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
[0188] 应理解的是,本发明实施例中,射频单元801可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器810处理;另外,将上行的数据发送给基站。通常,射频单元801包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元801还可以通过无线通信系统与网络和其他设备通信。
[0189] 电子设备通过网络模块802为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
[0190] 音频输出单元803可以将射频单元801或网络模块802接收的或者在存储器809中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元803还可以提供与电子设备800执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元803包括扬声器、蜂鸣器以及受话器等。
[0191] 输入单元804用于接收音频或视频信号。输入单元804可以包括图形处理器(Graphics Processing Unit,GPU)8041和麦克风8042,图形处理器8041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元806上。经图形处理器8041处理后的图像帧可以存储在存储器809(或其它存储介质)中或者经由射频单元801或网络模块802进行发送。麦克风8042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元801发送到移动通信基站的格式输出。
[0192] 电子设备800还包括至少一种传感器805,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板8061的亮度,接近传感器可在电子设备800移动到耳边时,关闭显示面板8061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器805还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
[0193] 显示单元806用于显示由用户输入的信息或提供给用户的信息。显示单元806可包括显示面板8061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light‑Emitting Diode, OLED)等形式来配置显示面板8061。
[0194] 用户输入单元807可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元807包括触控面板8071以及其他输入设备8072。触控面板8071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板8071上或在触控面板8071附近的操作)。触控面板8071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器810,接收处理器810发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板8071。除了触控面板8071,用户输入单元807还可以包括其他输入设备8072。具体地,其他输入设备8072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
[0195] 进一步的,触控面板8071可覆盖在显示面板8061上,当触控面板8071检测到在其上或附近的触摸操作后,传送给处理器810以确定触摸事件的类型,随后处理器810根据触摸事件的类型在显示面板8061上提供相应的视觉输出。可以理解的是,在一种实施例中,触控面板8071与显示面板8061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板8071与显示面板8061集成而实现电子设备的输入和输出功能,具体此处不做限定。
[0196] 接口单元808为外部装置与电子设备800连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元808可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备800内的一个或多个元件或者可以用于在电子设备800和外部装置之间传输数据。
[0197] 存储器809可用于存储软件程序以及各种数据。存储器809可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器809可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0198] 处理器810是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器809内的软件程序和/或模块,以及调用存储在存储器809内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器810可包括一个或多个处理单元;优选的,处理器810可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器810中。
[0199] 电子设备800还可以包括给各个部件供电的电源811(比如电池),优选的,电源811可以通过电源管理系统与处理器810逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0200] 另外,电子设备800包括一些未示出的功能模块,在此不再赘述。
[0201] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0202] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0203] 上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
[0204] 本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0205] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0206] 在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0207] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0208] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0209] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0210] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。