液冷服务器及其故障诊断的方法和装置、保护方法和装置转让专利

申请号 : CN201911381983.7

文献号 : CN111176406B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 胡航空彭恭明廖世震

申请人 : 北京比特大陆科技有限公司

摘要 :

本发明提出了一种液冷服务器故障诊断的方法和装置、液冷服务器故障诊断后的保护方法和装置、液冷服务器、计算机可读存储介质和计算机程序产品,该液冷服务器故障诊断的方法包括:获取液冷服务器实际温度值;根据多个所述实际温度值生成所述液冷服务器的实际温度曲线;比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线;所述实际温度曲线与所述参考温度曲线相匹配,则确定所述液冷服务器故障。本发明的液冷服务器故障诊断的方法,通过预存液冷服务器在故障的参考温度曲线,在实际温度曲线与参考温度曲线匹配时即诊断为液冷服务器故障,提高液冷服务器的故障诊断的可靠性,保证了液冷服务器的保护效果。

权利要求 :

1.一种液冷服务器故障诊断的方法,其特征在于,包括:获取液冷服务器实际温度值;

根据多个所述实际温度值生成所述液冷服务器的实际温度曲线;

比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线;

所述实际温度曲线与所述参考温度曲线相匹配,则确定所述液冷服务器故障;

根据与所述实际温度曲线相匹配的参考温度曲线,确定所述液冷服务器发生故障的类型,包括:所述实际温度曲线与停液参考温度曲线相匹配,则确定所述液冷服务器发生停液故障,或者,所述实际温度曲线与漏水参考温度曲线相匹配,则确定所述液冷服务器发生漏液故障。

2.根据权利要求1所述的液冷服务器故障诊断的方法,其特征在于,比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线包括:将运行时长内同时刻的所述实际温度曲线的实际温度值与所述参考温度曲线的参考温度值进行比较;

若超过预设数量的所述实际温度值与所述参考温度值相等,或者,超过预设数量的所述实际温度值与所述参考温度值的温差小于温差阈值,则所述实际温度曲线与所述参考温度曲线相匹配。

3.根据权利要求1所述的液冷服务器故障诊断的方法,其特征在于,比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线包括:计算所述实际温度曲线的斜率变化;

若所述实际温度曲线的斜率变化与所述参考温度曲线的斜率变化一致,则确定所述实际温度曲线与所述参考温度曲线相匹配。

4.一种液冷服务器故障诊断后的保护方法,其特征在于,所述保护方法包括:根据权利要求1‑3任一项所述的液冷服务器故障诊断的方法,诊断所述液冷服务器是否发生故障;

在确定所述液冷服务器发生故障时,进行预警提示。

5.根据权利要求4所述的液冷服务器故障诊断后的保护方法,其特征在于,所述进行预警提示包括:根据所述液冷服务器发生故障的类型进行预警提示。

6.根据权利要求4所述的液冷服务器故障诊断后的保护方法,其特征在于,所述保护方法还包括:在所述液冷服务器发生故障时,控制冷却液阀关闭以及切断供电电源供电。

7.一种液冷服务器故障诊断的装置,其特征在于,包括:获取模块,配置为获取液冷服务器实际温度值;

生成模块,配置为根据多个所述实际温度值生成所述液冷服务器的实际温度曲线;

比较模块,配置为比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线;

第一确定模块,配置为在所述实际温度曲线与所述参考温度曲线相匹配时,则确定所述液冷服务器故障;

第二确定模块,配置为根据与所述实际温度曲线相匹配的参考温度曲线,确定所述液冷服务器发生故障的类型;

所述第二确定模块包括:第一确定单元和第二确定单元;

所述第一确定单元,配置为在所述实际温度曲线与停液参考温度曲线相匹配时,确定所述液冷服务器发生停液故障;

所述第二确定单元,配置为所述实际温度曲线与漏液参考温度曲线相匹配,则确定所述液冷服务器发生漏液故障。

8.根据权利要求7所述的液冷服务器故障诊断的装置,其特征在于,所述比较模块包括:

比较单元,配置为将运行时长内同时刻的所述实际温度曲线的实际温度值与所述参考温度曲线的参考温度值进行比较;

匹配单元,配置为在超过预设数量的所述实际温度值与所述参考温度值相等时,或者,在超过预设数量的所述实际温度值与所述参考温度值的温差小于温差阈值时,确定所述实际温度曲线与所述参考温度曲线相匹配。

9.根据权利要求7所述的液冷服务器故障诊断的装置,其特征在于,所述比较模块包括:

计算单元,配置为计算所述实际温度曲线的斜率变化;

匹配单元,配置为在所述实际温度曲线的斜率变化与所述参考温度曲线的斜率变化一致时,则确定所述实际温度曲线与所述参考温度曲线相匹配。

10.一种液冷服务器故障诊断后的保护装置,其特征在于,所述保护装置包括:权利要求7‑9任一项所述的液冷服务器故障诊断的装置,用于诊断液冷服务器是否发生故障;

预警模块,配置为在确定所述液冷服务器发生故障时,进行预警提示。

11.根据权利要求10所述的液冷服务器故障诊断后的保护装置,其特征在于,所述预警模块在进行预警时进一步配置为,根据所述液冷服务器发生故障的类型进行预警提示。

12.根据权利要求10所述的液冷服务器故障诊断后的保护装置,其特征在于,所述保护装置还包括:

控制模块,配置为在所述液冷服务器发生故障时,控制冷却液阀关闭以及切断供电电源供电。

13.一种液冷服务器,其特征在于,包括:多个算力板,每个所述算力板包括多个芯片;

多个液冷板,所述液冷板用于给所述算力板散热;

温度传感器,用于采集所述算力板、所述芯片或所述液冷板进出口冷却液的温度值;

权利要求7‑9任一项所述的液冷服务器故障诊断的装置,所述装置与所述温度传感器连接。

14.一种液冷服务器,其特征在于,包括:多个算力板,每个所述算力板包括多个芯片;

多个液冷板,所述液冷板用于给所述算力板散热;

温度传感器,用于采集所述算力板、所述芯片或所述液冷板进出口冷却液的温度值;

权利要求10‑12任一项所述的液冷服务器故障诊断后的保护装置,所述保护装置与所述温度传感器连接。

15.一种液冷服务器,其特征在于,包括:至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使所述至少一个处理器执行权利要求1‑3任一项所述的液冷服务器故障诊断的方法,或者,使所述至少一个处理器执行权利要求4‑6任一项所述的液冷服务器故障诊断后的保护方法。

16.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令设置为执行权利要求1‑3任一项所述液冷服务器故障诊断的方法,或者,所述计算机可执行指令设置为执行权利要求4‑6任一项所述的液冷服务器故障诊断后的保护方法。

说明书 :

液冷服务器及其故障诊断的方法和装置、保护方法和装置

技术领域

[0001] 本发明涉及服务器技术领域,尤其是涉及一种液冷服务器故障诊断的方法和装置、液冷服务器故障诊断后的保护方法和保护装置、液冷服务器、计算机可读存储介质和计
算机程序产品。

背景技术

[0002] 目前,对于液冷服务器,通过设置一个固定最高保护温度值,保护产品的正常运行,在产品超过这个保护温度值就自动下电,未超过该保护温度值,产品正常运行。由于该
保护温度值会比正常运行过程的最高值还要高一些,如果设置不当,产品保护效果以及可
靠性都会受到影响。

发明内容

[0003] 本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明的一个目的在于提出一种液冷服务器故障诊断的方法,该方法可以提高故障诊断的可靠性和对液冷服
务器的保护效果。
[0004] 本发明的第二个目的在于提出一种液冷服务器故障诊断后的保护方法。
[0005] 本发明的第三个目的在于提出一种液冷服务器故障诊断的装置。
[0006] 本发明的第四个目的在于提出一种液冷服务器故障诊断后的保护装置。
[0007] 本发明的第五个目的在于提出一种液冷服务器。
[0008] 本发明的第六个目的在于提出一种液冷服务器。
[0009] 本发明的第七个目的在于提出一种液冷服务器。
[0010] 本发明的第八个目的在于提出一种计算机可读存储介质。
[0011] 本发明的第九个目的在于提出一种计算机程序产品。
[0012] 为了达到上述目的,本发明第一方面实施例的液冷服务器故障诊断的方法包括:获取液冷服务器实际温度值;根据多个所述实际温度值生成所述液冷服务器的实际温度曲
线;比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲
线;所述实际温度曲线与所述参考温度曲线相匹配,则确定所述液冷服务器故障。
[0013] 根据本发明实施例的液冷服务器故障诊断的方法,通过预存液冷服务器在故障状态下的参考温度曲线,实时监控液冷服务器的实际温度变化,在实际温度曲线与参考温度
曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进行故障诊
断,相较于设定固定的最高保护温度值,提高了故障诊断的可靠性,进而可以保证对液冷服
务器的保护效果。
[0014] 在一些实施例中,比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线包括:将运行时长内同时刻的所述实际温度曲线的实际温度值与所
述参考温度曲线的参考温度值进行比较;若超过预设数量的所述实际温度值与所述参考温
度值相等,或者,超过预设数量的所述实际温度值与所述参考温度值的温差小于温差阈值,
则所述实际温度曲线与所述参考温度曲线相匹配。
[0015] 在一些实施例中,比较所述实际温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线包括:计算所述实际温度曲线的斜率变化;若所述实际温度曲线的
斜率变化与所述参考温度曲线的斜率变化一致,则确定所述实际温度曲线与所述参考温度
曲线相匹配。
[0016] 在一些实施例中,所述方法还包括:根据与所述实际温度曲线相匹配的参考温度曲线,确定所述液冷服务器发生故障的类型。
[0017] 在一些实施例中,根据与所述实际温度曲线相匹配的参考温度曲线,确定所述液冷服务器发生故障的类型,包括:所述实际温度曲线与停液参考温度曲线相匹配,则确定所
述液冷服务器发生停液故障;或者,所述实际温度曲线与漏水参考温度曲线相匹配,则确定
所述液冷服务器发生漏液故障。
[0018] 为了达到上述目的,本发明的第二方面实施例提出的一种液冷服务器故障诊断后的保护方法,该方法包括:根据上面实施例提到的液冷服务器故障诊断的方法,诊断所述液
冷服务器是否发生故障;在确定所述液冷服务器发生故障时,进行预警提示。
[0019] 根据本发明实施例的液冷服务器故障诊断后的保护方法,根据液冷服务器的实际温度变化来确定液冷服务器是否发生故障,并在故障时,进行预警提示,无需等到温度达到
极值时再采取保护措施,提高液冷服务器的可靠性和运行的安全性,避免故障进一步造成
损害。
[0020] 在一些实施例中,所述进行预警提示包括:根据所述液冷服务器发生故障的类型进行预警提示,使得用户可以及时了解故障情况以采取措施。
[0021] 在一些实施例中,所述保护方法还包括:在所述液冷服务器发生故障时,控制冷却液阀关闭以及切断供电电源供电,避免故障扩散。
[0022] 为了达到上述目的,本发明的第三方面实施例提出的一种液冷服务器故障诊断的装置,该装置包括:获取模块,配置为获取液冷服务器实际温度值;生成模块,配置为根据多
个所述实际温度值生成所述液冷服务器的实际温度曲线;比较模块,配置为比较所述实际
温度曲线和预存的所述液冷服务器在故障状态下运行时的参考温度曲线;第一确定模块,
配置为在所述实际温度曲线与所述参考温度曲线相匹配时,则确定所述液冷服务器故障。
[0023] 根据本发明实施例的液冷服务器故障诊断的装置,通过预存液冷服务器在故障状态下的参考曲线,实时监控液冷服务器的实际温度变化,第一确定模块在实际温度曲线与
参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进行
故障诊断,相较于设定固定的最高保护温度值,提高了故障诊断的可靠性,进而可以保证对
液冷服务器的保护效果。
[0024] 在一些实施例中,所述比较模块包括:比较单元,配置为将运行时长内同时刻的所述实际温度曲线的实际温度值与所述参考温度曲线的参考温度值进行比较;匹配单元,配
置为在超过预设数量的所述实际温度值与所述参考温度值相等时,或者,在超过预设数量
的所述实际温度值与所述参考温度值的温差小于温差阈值时,确定所述实际温度曲线与所
述参考温度曲线相匹配。
[0025] 在一些实施例中,所述比较模块包括:计算单元,配置为计算所述实际温度曲线的斜率变化;匹配单元,配置为在所述实际温度曲线的斜率变化与所述参考温度曲线的斜率
变化一致时,则确定所述实际温度曲线与所述参考温度曲线相匹配。
[0026] 在一些实施例中,所述装置还包括:第二确定模块,配置为根据与所述实际温度曲线相匹配的参考温度曲线,确定所述液冷服务器发生故障的类型。
[0027] 在一些实施例中,所述第二确定模块包括:第一确定单元,配置为在所述实际温度曲线与停液参考温度曲线相匹配时,确定所述液冷服务器发生停液故障;第二确定单元,配
置为所述实际温度曲线与漏液参考温度曲线相匹配,则确定所述液冷服务器发生漏液故
障。
[0028] 为了达到上述目的,本发明的第四方面实施例提出的一种液冷服务器故障诊断后的保护装置,该装置包括:上面实施例提到的液冷服务器故障诊断的装置,用于诊断液冷服
务器是否发生故障;预警模块,配置为在确定所述液冷服务器发生故障时,进行预警提示。
[0029] 根据本发明实施例的液冷服务器故障诊断后的保护装置,在确定液冷服务器发生故障时,通过预警模块进行预警,避免在温度达到极值后采取保护措施,提高了液冷服务器
的可靠性,可以保证对液冷服务器的保护效果。
[0030] 在一些实施例中,所述预警模块在进行预警时进一步配置为,根据所述液冷服务器发生故障的类型进行预警提示。
[0031] 在一些实施例中,所述保护装置还包括:控制模块,配置为在所述液冷服务器发生故障时,控制冷却液阀关闭以及切断供电电源供电,避免故障造成进一步损害。
[0032] 为了达到上述目的,本发明的第五方面实施例提出的一种液冷服务器,该服务器包括:多个算力板,每个所述算力板包括多个芯片;多个液冷板,所述液冷板用于给所述算
力板散热;温度传感器,用于采集所述算力板、所述芯片或所述液冷板进出口冷却液的温度
值;上面实施例提到的任一项所述的液冷服务器故障诊断的装置,所述装置与所述温度传
感器连接。
[0033] 根据本发明实施例的液冷服务器,在实际温度曲线与预存参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进行故障诊断,无需在温度
达到极值后采取保护措施,提高了液冷服务器的可靠性和安全性。
[0034] 为了达到上述目的,本发明的第六方面实施例提出的液冷服务器包括:多个算力板,每个所述算力板包括多个芯片;多个液冷板,所述液冷板用于给所述算力板散热;温度
传感器,用于采集所述算力板、所述芯片或所述液冷板进出口冷却液的温度值;上面实施例
提到的任一项所述的液冷服务器故障诊断后的保护装置,所述保护装置与所述温度传感器
连接。
[0035] 根据本发明实施例的液冷服务器,在实际温度曲线与预存参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进行故障诊断,无需在温度
达到极值后采取保护措施,提高了液冷服务器的可靠性,保证了对液冷服务器的保护效果。
[0036] 为了达到上述目的,本发明的第七方面实施例提出的液冷服务器包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述
至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时,使所述至少一个处
理器执行上面实施例提到的液冷服务器故障诊断的方法,或者,使所述至少一个处理器执
行上面实施例提到的液冷服务器故障诊断后的保护方法。
[0037] 根据本发明实施例的液冷服务器,通过存储器存储至少一个处理器执行的命令,在实际温度曲线与参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温
度变化趋势来进行故障诊断,相较于设定固定的最高保护温度值,提高了液冷服务器的可
靠性,保证了对液冷服务器的保护效果。
[0038] 为了达到上述目的,本发明的第八方面实施例提出的一种计算机可读存储介质,所述计算机可执行指令设置为执行上面实施例提到的任一项液冷服务器故障诊断的方法,
或者,所述计算机可执行指令设置为执行上面实施例提到的任一项液冷服务器故障诊断后
的保护方法。
[0039] 为了达到上述目的,本发明的第九方面实施例提出的一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程
序指令,当所述程序指令被计算机执行时,使所述计算机上面实施例提到的任一项所述的
液冷服务器故障诊断的方法,或者,使所述计算机执行上面实施例提到的任一项所述的液
冷服务器故障诊断后的保护方法。
[0040] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

[0041] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0042] 图1是根据本发明一个实施例的液冷服务器故障诊断的方法的流程图;
[0043] 图2是根据本发明一个实施例的液冷服务器不同故障温度变化曲线示意图;
[0044] 图3是根据本发明一个实施例的液冷服务器故障诊断后的保护方法的流程图;
[0045] 图4是根据本发明一个实施例的液冷服务器故障诊断的装置的框图;
[0046] 图5是根据本发明一个实施例的液冷服务器故障诊断的装置的框图;
[0047] 图6是根据本发明一个实施例的液冷服务器故障诊断的装置的框图;
[0048] 图7是根据本发明一个实施例的液冷服务器故障诊断后的保护装置的框图;
[0049] 图8是根据本发明一个实施例的液冷服务器的框图;
[0050] 图9是根据本发明另一个实施例的液冷服务器的框图。

具体实施方式

[0051] 下面详细描述本发明的实施例,参考附图描述的实施例是示例性的,下面详细描述本发明的实施例。
[0052] 在本发明实施例中,服务器包括多个算力版,每个算力板包括多个芯片,在运行时服务器会产生大量热,使得服务器的算力降低,因而为了保证服务器的正常运行,通常会设
置冷却装置,液冷服务器可以是采用液体作为媒介进行冷却的服务器,例如水冷。
[0053] 下面参考图1描述根据本发明第一方面实施例的液冷服务器故障诊断的方法,如图1所示,本发明实施例的液冷服务器故障诊断的方法至少包括步骤S1、步骤S2、步骤S3和
步骤S4。
[0054] 步骤S1,获取液冷服务器实际温度值。
[0055] 具体地,可以在液冷服务器中设置温度传感器,通过检测芯片或者算力板例如PCB板的温度,以作为液冷服务器的实际温度值。对于温度数据的采集方式,可以是实时采集也
可以是周期性采集,不作具体限制。
[0056] 步骤S2,根据多个实际温度值生成液冷服务器的实际温度曲线。
[0057] 步骤S3,比较实际温度曲线和预存的液冷服务器在故障状态下运行时的参考温度曲线。
[0058] 在不同运行状态下,液冷服务器的芯片或者算力板上的温度变化和曲率不同,在产品测试期间,可以检测液冷服务器在不同运行状态包括各种故障状态例如停液状态、漏
液状态和正常运行状态下运行时的温度数据,并生成对应各种运行状态下的参考温度曲
线,预存在液冷服务器的控制器中,以在故障诊断时调用。
[0059] 在获得液冷服务器的实际温度曲线后,将实际温度曲线与故障状态运行时的参考温度曲线进行对比,预测当前水冷服务器的温度变化趋势是否与参考温度曲线一致。
[0060] 步骤S4,实际温度曲线与参考温度曲线相匹配,则确定液冷服务器故障。
[0061] 具体地,当实际温度变化曲线和故障状态运行时的参考温度曲线相匹配时,例如曲率吻合时,认为液冷服务器正处于故障状态下运行,则确定液冷服务器发生故障。
[0062] 根据本发明实施例的液冷服务器故障诊断的方法,通过预存液冷服务器在故障状态下的参考温度曲线,实时监控液冷服务器的实际温度变化,在实际温度曲线与参考温度
曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进行故障诊
断,相较于设定固定的最高保护温度值,提高了故障诊断的可靠性,进而可以保证对液冷服
务器的保护效果。
[0063] 在实施例中,可以通过时间温度曲线上的温度值与参考曲线上的温度值进行比较确定液冷服务器温度变化是否符合该故障下运行时的温度变化,也可以通过比较曲线的斜
率来判断曲线是否匹配。
[0064] 具体地,将运行时长内同时刻的实际温度曲线的实际温度值与参考温度曲线的参考温度值进行比较;若超过预设数量的实际温度值与参考温度值相等,或者,超过预设数量
的实际温度值与参考温度值的温差小于温差阈值,则实际温度曲线与参考温度曲线相匹
配。
[0065] 例如,预设数量为10,在1个小时运行时长内检测60次,当超过10个实际温度值与参考温度值的温度相同,则认为实际温度曲线与参考温度曲线相匹配。或者超过10个实际
温度值和参考温度值的温差阈值在可允许范围内时,确定实际温度值与参考温度值相匹
配。
[0066] 再例如,计算实际温度曲线的斜率变化;若实际温度曲线的斜率变化与参考温度曲线的斜率变化一致,则认为实际温度变化趋势符合该参考温度曲线。
[0067] 在一些实施例中,液冷服务器故障诊断的方法还包括:根据与实际温度曲线相匹配的参考温度曲线,确定液冷服务器发生故障的类型。如图2所示为本发明实施例的不同故
障温度变化曲线示意图。液冷服务器在不同状态下运行时,其温度变化会不同,例如正常运
行时,由于液冷装置的作用,会使得液冷服务器的温度处于某个设定温度附近变化;而在漏
液状态时,由于冷却作用不足使得液冷服务器的温度逐渐增大;在停液状态时,由于产生大
量热量且得不到冷却,液冷服务器的温度迅速上升。因此,通过温度曲线可以区别液冷服务
器处于何种状态,以及根据液冷服务器的温度变化来确定其是否发生故障以及发生的故障
的类型。
[0068] 具体地,当实际温度曲线与停液参考温度曲线相匹配,则确定液冷服务器发生停液故障;或者,实际温度曲线与漏水参考温度曲线相匹配,则确定液冷服务器发生漏液故
障。
[0069] 在实际温度值满足液冷服务器的一种故障时即启动保护,例如进行关水或者关电等操作,无需等到温度达到极值时再采取保护措施,在提升液冷服务器可靠性的同时,可以
避免故障扩散。
[0070] 概括来说,根据本发明实施例的液冷服务器故障诊断的方法,通过预存液冷服务器在故障状态下的参考温度曲线,实时监控液冷服务器的实际温度变化,在实际温度曲线
与参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来进
行故障诊断,相较于设定固定的最高保护温度值,提高了故障诊断的可靠性,进而可以保证
对液冷服务器的保护效果。
[0071] 下面参考图3描述本发明第二方面实施例的液冷服务器故障诊断后的保护方法。
[0072] 如图3所示,本发明实施例的液冷服务器故障诊断后的保护方法至少包括步骤S21和步骤S22。
[0073] 步骤S21,根据上面实施例提到的液冷服务器故障诊断的方法,诊断液冷服务器是否发生故障。
[0074] 具体地,在液冷服务器运行过程中,将定期或者定时采集的芯片或者PCB板的实际温度值拟合为实际温度曲线,并将预设的液冷服务器在故障状态下运行时的参考温度曲线
与实际温度曲线进行比较,若两条温度曲线相匹配,确定液冷服务器发生故障。
[0075] 步骤S22,确定液冷服务器发生故障时,进行预警提示。
[0076] 具体地,液冷服务器在不同故障时实际温度曲线不同,通过预警提示可以及时通知用户,以采取保护措施,相较于在温度达到极值时再采取保护措施,提高了液冷服务器运
行的安全性和可靠性。
[0077] 在一些实施例中,保护方法还包括:在液冷服务器发生故障时,控制冷却液阀关闭以及切断供电电源供电,避免故障发生扩散,对液冷服务器造成进一步的损害,提高液冷服
务器的可靠性和安全性。
[0078] 下面参考附图描述本发明第三方面实施例的液冷服务器故障诊断的装置。
[0079] 图4是根据本发明一个实施例的液冷服务器故障诊断的装置的框图,如图4所示,本发明实施例的液冷服务器故障诊断的装置20包括:获取模块210、生成模块220、比较模块
230和第一确定模块240。
[0080] 其中,获取模块210配置为获取液冷服务器实际温度值;生成模块220配置为根据多个实际温度值生成液冷服务器的实际温度曲线;比较模块230配置为比较实际温度曲线
和预存的液冷服务器在故障状态下运行时的参考温度曲线;第一确定模块240配置为在实
际温度曲线与参考温度曲线相匹配时,则确定液冷服务器故障。
[0081] 根据本发明实施例的液冷服务器故障诊断的装置20,通过预存液冷服务器在故障状态下的参考曲线,实时监控液冷服务器的实际温度变化,第一确定模块240在实际温度曲
线与参考温度曲线相匹配时即诊断为液冷服务器故障,通过液冷服务器的温度变化趋势来
进行故障诊断,相较于设定固定的最高保护温度值,提高了故障诊断的可靠性,进而可以保
证对液冷服务器的保护效果。
[0082] 在一些实施例中,如图5所示,比较模块230包括比较单元250和匹配单元260,其中,比较单元250配置为将运行时长内同时刻的实际温度曲线的实际温度值与参考温度曲
线的参考温度值进行比较;匹配单元260配置为在超过预设数量的实际温度值与参考温度
值相等时,或者,在超过预设数量的实际温度值与参考温度值的温差小于温差阈值时,确定
实际温度曲线与参考温度曲线相匹配,通过比较单元250比较实际温度值与参考温度值,再
通过匹配单元260确定实际温度曲线与参考温度曲线是否匹配,若匹配说明存在故障,并在
存在故障模式时启动保护,相较于在温度到达极值时在采取保护措施,可以提高液冷服务
器的可靠性,也保证了对液冷服务器的保护效果。
[0083] 在一些实施例中,如图6所示,比较模块230包括:计算单元270,配置为计算实际温度曲线的斜率变化;匹配单元260,配置为在实际温度曲线的斜率变化与参考温度曲线的斜
率变化一致时,则确定实际温度曲线与参考温度曲线相匹配。通过将参考温度曲线的斜率
作为参考,计算实际温度曲线的斜率并进行比较,当两条曲线的斜率变化一致时,确定液冷
服务器存在故障,并在实际温度曲线变化满足某种故障类型时立即启动保护。
[0084] 在一些实施例中,液冷服务器故障诊断的装置20还包括:第二确定模块280,配置为根据与实际温度曲线相匹配的参考温度曲线,确定液冷服务器发生故障的类型,确定液
冷服务器的故障类型可以对其采取相应的保护措施,提高液冷服务器的可靠性,保证对液
冷服务器的保护效果
[0085] 在一些实施例中,第二确定模块包括280:第一确定单元290,配置为在实际温度曲线与停液参考温度曲线相匹配时,确定液冷服务器发生停液故障;第二确定单元300,配置
为实际温度曲线与漏液参考温度曲线相匹配,则确定液冷服务器发生漏液故障。通过实时
监控液冷服务器的实际温度变化,确定液冷服务器的故障类型,对不同故障采取相应的采
取保护措施,提高了故障诊断的可靠性,保证对液冷服务器的保护效果。
[0086] 下面参考附图描述本发明第四方面实施例的液冷服务器故障诊断后的保护装置。
[0087] 图7是根据本发明一个实施例的液冷服务器故障诊断后的保护装置的框图,如图7所示,本发明实施例的液冷服务器故障诊断后的保护装置30包括:上面实施例提到的液冷
服务器故障诊断的装置20和预警模块310,其中,上面实施例提到的液冷服务器故障诊断的
装置20用于诊断液冷服务器是否发生故障;预警模块310配置为在确定液冷服务器发生故
障时,进行预警提示,便于及时采取保护措施,保证液冷服务器的可靠性和安全性。
[0088] 根据本发明实施例的液冷服务器故障诊断后的保护装置30,在确定液冷服务器发生故障后,通过预警模块310进行预警提示,避免故障扩散对液冷服务器造成进一步损害,
避免在温度达到极值后采取保护措施,提高了液冷服务器的可靠性,可以保证对液冷服务
器的保护效果。
[0089] 在一些实施例中,预警模块310在进行预警时进一步配置为根据液冷服务器发生故障的类型进行预警提示,面对不同的故障类型采取相应的保护措施,避免故障扩散,提高
了液冷服务器的可靠性。
[0090] 在一些实施例中,液冷服务器故障诊断后的保护装置30还包括:控制模块320,控制模块320配置为在液冷服务器发生故障时,控制冷却液阀关闭以及切断供电电源供电,防
止故障扩散对液冷服务器造成进一步损害,提高了液冷服务器的可靠性。
[0091] 下面参考附图描述本发明第五方面实施例的液冷服务器。
[0092] 图8是根据本发明一个实施例的液冷服务器故障诊断的装置的框图,如图8所示,本发明实施例的液冷服务器40包括:多个算力板410,每个算力板410包括多个芯片;多个液
冷板430,液冷板430用于给算力板410散热;温度传感器420用于采集算力板410、芯片或液
冷板430进出口冷却液的温度值;上面实施例提到的液冷服务器故障诊断后的保护装置30
与温度传感器连接420。
[0093] 根据本发明实施例的液冷服务器40,在实际温度曲线与预存参考温度曲线相匹配时即诊断为液冷服务器40故障,通过液冷服务器40的温度变化趋势来进行故障诊断,无需
在温度达到极值后采取保护措施,提高了液冷服务器40的可靠性和安全性。
[0094] 下面继续参考附图描述本发明第六方面实施例的液冷服务器。
[0095] 图8是根据本发明一个实施例的液冷服务器故障诊断的装置的框图,如图8所示,本发明实施例的液冷服务器40包括:多个算力板410,每个算力板410包括多个芯片;多个液
冷板430,液冷板430用于给算力板410散热;温度传感器420用于采集算力板410、芯片或液
冷板430进出口冷却液的温度值;上面实施例提到的液冷服务器故障诊断后的保护装置30
与温度传感器420连接。
[0096] 根据本发明实施例的液冷服务器40,在实际温度曲线与预存参考温度曲线相匹配时即诊断为液冷服务器40故障,通过液冷服务器40的温度变化趋势来进行故障诊断,无需
在温度达到极值后采取保护措施,提高了液冷服务器40的可靠性,保证了对液冷服务器的
保护效果。
[0097] 下面参考附图描述本发明第七方面实施例的液冷服务器。
[0098] 图9是根据本发明一个实施例的液冷服务器故障诊断的装置的框图,如图9所示,本发明实施例的液冷服务器50包括至少一个处理器510;以及与至少一个处理器510通信连
接的存储器520;其中,存储器520存储有可被至少一个处理器510执行的指令,指令被至少
一个处理器510执行时,使至少一个处理器510执行上面实施例提到的液冷服务器故障诊断
的方法,或者,使至少一个处理器510执行上面实施例提到的液冷服务器故障诊断后的保护
方法。
[0099] 根据本发明实施例的液冷服务器50,通过存储器存储至少一个处理器510执行的命令,在实际温度曲线与参考温度曲线相匹配时即诊断为液冷服务器50故障,通过液冷服
务器50的温度变化趋势来进行故障诊断,相较于设定固定的最高保护温度值,提高了液冷
服务器50的可靠性,保证了对液冷服务器50的保护效果。
[0100] 在本发明的实施例中,液冷服务器50可以进行数据处理,数据处理可以包括基于数据或对数据进行的设置、计算、判断、传输、存储、管理等至少之一,液冷服务器50可以设
置在网络节点上,并可以与网络中其他节点的设备进行通信。作为一个实施例,液冷服务器
50可以进行与数字凭证相关的数据处理,数字凭证可以通过数据处理得到,液冷服务器50
可以是数字凭证处理设备。
[0101] 本发明第八方面实施例的计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令设置为执行上面实施例提到的液冷服务器故障诊断的方法,或者,计算机可
执行指令设置为上面实施例提到的液冷服务器故障诊断后的保护方法。
[0102] 本发明第九方面实施例的计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计
算机执行上面实施例提到的液冷服务器故障诊断的方法,或者,使计算机执行上面实施例
提到的液冷服务器故障诊断后的保护方法。
[0103] 此外,上述的存储器520中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
[0104] 存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器510通过运行存储在存储器520
中的软件程序、指令以及模块,从而执行功能应用以及数据处理,即实现上述方法实施例中
的液冷服务器故障诊断后的保护方法,或者,可实现上面实施例提到的液冷服务器故障诊
断后的保护方法。
[0105] 存储器520可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。
此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器。
[0106] 本公开实施例的计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令设置为执行上面实施例公开的液冷服务器故障诊断后的保护方法,或者,计算机可执
行指令设置为上面实施例提到的液冷服务器故障诊断后的保护方法。
[0107] 本公开实施例的技术方案可以以计算机程序产品的形式体现出来,该计算机程序产品存储在一个存储介质中,包括存储在计算机可读存储介质上的计算机程序,计算机程
序包括一个或多个程序指令,当程序指令被计算机执行时,可使得计算机设备(可以是个人
计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述
的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only 
Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等多种可以存储程
序代码的介质,也可以是暂态存储介质。
[0108] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结
构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的
示意性表述不一定指的是相同的实施例或示例。
[0109] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本
发明的范围由权利要求及其等同物限定。