一种服务器硬件监控的方法、装置、设备及可读介质转让专利
申请号 : CN202110412228.1
文献号 : CN113204461B
文献日 : 2022-05-03
发明人 : 李星辰
申请人 : 山东英信计算机技术有限公司
摘要 :
权利要求 :
1.一种服务器硬件监控的方法,其特征在于,包括以下步骤:采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中;
所述AI智能芯片基于接收到的所述信息对所述服务器上的每个部件构建分析模型,并基于所述分析模型计算每个部件的散热需求和故障风险;
基于所述散热需求调整相应的风扇转速以调整部件的散热,并且基于所述故障风险将存在风险的部件进行预警。
2.根据权利要求1所述的方法,其特征在于,采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中包括:通过设置在服务器的每个部件上的侵入式调控模块实时采集每个部件的信息;
将采集到的信息通过控制总线传输到监控模块中的AI智能芯片中并保存在所述AI智能芯片的存储单元中。
3.根据权利要求1所述的方法,其特征在于,所述AI智能芯片基于接收到的信息对所述服务器上的每个部件构建分析模型包括:将所述信息进行神经网络学习以构建分析模型。
4.根据权利要求3所述的方法,其特征在于,将所述信息进行神经网络学习以构建分析模型包括:
将所述信息作为训练集数据进行训练以得到参数修正量;
基于所述参数修正量对所述神经网络模型的参数进行修正以构建所述分析模型。
5.根据权利要求1所述的方法,其特征在于,基于所述散热需求调整相应的风扇转速以调整部件的散热包括:
响应于部件的散热需求低于部件当前的散热条件,降低部件对应的风扇转速;
响应于部件的散热需求高于部件当前的散热条件,提高部件对应的风扇转速。
6.根据权利要求1所述的方法,其特征在于,每个部件的信息包括每个部件不同位置的温度信息、风扇转速信息、部件电流和电压信息和部件运行状态信息。
7.根据权利要求1所述的方法,其特征在于,基于所述故障风险将存在风险的部件进行预警包括:
将预警信息通过网络发送到管理员的邮箱和通信设备中并将预警信息在所述服务器的显示器上进行显示。
8.一种服务器硬件监控的装置,其特征在于,所述装置包括:调控模块,所述调控模块配置为采集服务器上的每个部件的信息,并将采集到的信息发送到AI智能芯片中;
监控模块,所述监控模块所述AI智能芯片基于接收到的信息对所述服务器上的每个部件构建分析模型,并基于所述分析模型计算每个部件的散热需求和故障风险;
预警模块,所述预警模块配置为基于所述散热需求调整相应的风扇转速以调整部件的散热,并且基于所述故障风险将存在风险的部件进行预警。
9.一种计算机设备,其特征在于,包括:至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1‑7任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1‑7任意一项所述方法的步骤。
说明书 :
一种服务器硬件监控的方法、装置、设备及可读介质
技术领域
背景技术
调控却不归属于服务器整体的调控策略中,这样往往会出现散热策略的相互干涉问题,并
且各自为政的调控容易造成能耗的不节能问题。
活,为了安全起见,对风扇等散热部件进行全速转动的策略,待BMC的调控策略在激活之后
才能导入散热策略,造成了其他部件的干扰与能耗上的浪费问题。
效率底下等问题。
发明内容
高服务器的可靠性与稳定性,提高产品竞争力。
基于接收到的信息对服务器上的每个部件构建分析模型,并基于分析模型计算每个部件的
散热需求和故障风险;基于散热需求调整相应的风扇转速以调整部件的散热,并且基于故
障风险将存在风险的部件进行预警的技术方案,能够实现服务器系统内散热的高效节能,
能够提高服务器的可靠性与稳定性,提高产品竞争力。
附图说明
发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的实施例。
具体实施方式
置的信息采集可以得到该部件的准确参数,例如监控采集各个部件的各个位置的温度信息
等。硬件部件的入侵式采集模块针对服务器内的部件进行针对性的信息采集与构建各种部
件状态信息与协调其他部件所产生的预想结果信息。例如针对硬盘部件来说,服务器内的
硬盘部件的入侵式采集模块主要是针对硬盘部件的电压、电流、通讯速度、通讯质量和硬盘
部件各个点的温度分布与温度变化梯度的信息采集,通过这些信息的采集,将这些信息传
输给监控模块中的AI智能芯片构建出各种模型,例如硬盘部件的寿命周期预期模型,该硬
盘部件的通讯故障以及失效模型,能耗的动态变化模型等,通过这些模型的建立进行结果
的推导与达到提前预警故障与失效风险,提前预警计算该硬盘的动态寿命的变化,根据这
些预警结果与风险,提前构建预警方案与策略,实现服务器的稳定性的增强。
侵入式采集模块均为从设备,读写操作只需要进行主从设备之间的操作,同时,监控模块与
服务器的主控芯片之间也可以进行高速传输通讯,可以让服务器的主控芯片分担架构过大
的服务器的过大的计算量的需求,还可以通过设计拓展PCIE口的设计,增加CPU或GPU的拓
展支持以拓展计算量。同时,调控策略可以通过监控模块直接下达到各个部件中,也可以上
传给服务器系统,通过服务器系统执行相应的调控策略。
网络模型的参数进行修正以构建分析模型。通过收集各个部件的信息,例如硬件不同点的
温度信息、各个风扇转速信息、各个部件电压电流信息等,AI智能芯片通过这些信息构建分
析模型,例如构建当前服务器的时时动态的温度模型、散热模型、电流电压稳定性模型等,
通过对这些模型的监控与实时构建,构建服务器当前的健康与硬件状态模型,再经过实时
动态采集,比对每一时间点的硬件状态与健康状态的模型计算推演服务器当前的硬件寿命
与存在硬件风险的概率与风险点。通过对散热模型的分析可以得到每个部件当前的散热情
况以及后续的散热需求,根据当前的散热情况和散热需求可以对部件对应的风扇的转速进
行调整以使部件的散热情况满足散热需求的要求,例如,部件的散热需求低于部件当前的
散热情况,可以降低部件对应的风扇转速,如果该部件没有独立的风扇,可以通过分析该部
件最近的风扇的转速以及其他部件的当前散热情况判断是否可以降低该风扇的转速,如果
部件的散热需求高于部件当前的散热条件,提高部件对应的风扇转速,如果该部件没有独
立的风扇,可以提高该部件最近的风扇的转速。
略简单但是对于非调控点的部件异常无法判断,例如服务器内非调控点的网卡出现异常,
导致临时温度瞬间过高,否则会造成部件损坏,而单一的调控无法发现与针对此问题,再或
者GPU部件在运行时经常出现温度瞬态过高,但是调控曲线无法满足这种瞬态条件下的维
持时间与实际状态,只是根据他达到一定数值进行调控,而实际GPU的平均温度并未达到需
要调整的点,过早的介入调控会造成不必要的能耗损失。因此,通过本发明的方法的进行风
扇的调控可以实现服务器系统内散热的高效节能。
入控制系统设计。
的信息,这些信息包括温度信息、风扇转速信息、部件电流和电压信息和部件运行状态信
息,还可以在每个部件的不同位置处设置多个侵入式调控模块以使采集的信息更加准确。
侵入式调控模块将实时采集到的信息通过通讯监控总线发送到监控模块中,监控模块中有
独立的存储单元存储这些信息,监控模块中的AI智能芯片可以通过采集到的信息构建分析
模型,例如构建当前服务器的时时动态的温度模型、散热模型、电流电压稳定性模型等,通
过对这些模型的监控与实时构建,构建服务器当前的健康与硬件状态模型,再经过实时动
态采集,比对每一时间点的硬件状态与健康状态的模型计算推演服务器当前的硬件寿命与
存在硬件风险的概率与风险点。经过AI分析得出的调控策略可以通过监控模块直接下达到
各个部件中执行,也可以上传给服务器系统,通过服务器系统执行相应的调控策略。
然后AI智能芯片通过误差逆传播算法将误差信息进行反向处理,在神经网络模型的反向处
理产生参数修正量。此方法检测硬件故障具有主观能动性,在故障发生之前就能预测到故
障可能发现,不但缩短了故障时间,而且大大提高了集群系统的可用性。结合参数修正量对
神经网络模型的参数进行更新具体可以包括结合参数修正量,对神经网络模型的输入参数
的权值和输出结果的阈值进行不断地调整以使误差平方和最小。通过不断的数据传入,AI
智能芯片的学习次数不断提高,其预测精度也不断攀升,整个系统的硬件故障预测能力也
不断提高。
根据当前的散热情况和散热需求可以对部件对应的风扇的转速进行调整以使部件的散热
情况满足散热需求的要求,例如,部件的散热需求低于部件当前的散热情况,可以降低部件
对应的风扇转速,如果该部件没有独立的风扇,可以通过分析该部件最近的风扇的转速以
及其他部件的当前散热情况判断是否可以降低该风扇的转速,如果部件的散热需求高于部
件当前的散热条件,提高部件对应的风扇转速,如果该部件没有独立的风扇,可以提高该部
件最近的风扇的转速。
集模块发送的信息后通过神经网络学习构建分析模型,将采集到的信息作为训练集数据进
行训练以得到参数修正量,基于参数修正量对神经网络模型的参数进行修正以构建分析模
型。通过收集各个部件的信息,例如硬件不同点的温度信息、各个风扇转速信息、各个部件
电压电流信息等,AI智能芯片通过这些信息构建分析模型,例如构建当前服务器的时时动
态的温度模型、散热模型、电流电压稳定性模型等,通过对这些模型的监控与实时构建,构
建服务器当前的健康与硬件状态模型,再经过实时动态采集,比对每一时间点的硬件状态
与健康状态的模型计算推演服务器当前的硬件寿命与存在硬件风险的概率与风险点。通过
对散热模型的分析可以得到每个部件当前的散热情况以及后续的散热需求,根据当前的散
热情况和散热需求可以对部件对应的风扇的转速进行调整以使部件的散热情况满足散热
需求的要求,例如,部件的散热需求低于部件当前的散热情况,可以降低部件对应的风扇转
速,如果该部件没有独立的风扇,可以通过分析该部件最近的风扇的转速以及其他部件的
当前散热情况判断是否可以降低该风扇的转速,如果部件的散热需求高于部件当前的散热
条件,提高部件对应的风扇转速,如果该部件没有独立的风扇,可以提高该部件最近的风扇
的转速。
存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁
碟、光盘、只读存储器(Read‑Only Memory,ROM)或随机存取存储器(Random Access
Memory,RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同
或者相类似的效果。
实施例公开的方法中限定的上述功能。
至少一个处理器S21;以及存储器S22,存储器S22存储有可在处理器上运行的计算机指令
S23,指令由处理器执行时实现以上方法的步骤。
存储介质存储S31有被处理器执行时执行如上方法的计算机程序S32。
行本发明实施例公开的方法中限定的上述功能。
件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进
行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加
给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功
能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介
质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能
够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质
可以包括RAM、ROM、EEPROM、CD‑ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设
备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或
专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称
为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸
如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴
线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定
义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软
盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的
组合也应当包括在计算机可读介质的范围内。
的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施
例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
个以上相关联地列出的项目的任意和所有可能组合。
质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发
明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明
实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实
施例的保护范围之内。