一种多组分变压器油色谱在线监测方法及相关装置转让专利

申请号 : CN202211118612.1

文献号 : CN115201394B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 何俊驰

申请人 : 广东电网有限责任公司肇庆供电局

摘要 :

本申请公开了一种多组分变压器油色谱在线监测方法及相关装置,不仅实现对油色谱运行过程中不可靠数据的辨识,并根据prophet算法预测结果对数据进行修正,以达到对“脏数据”实现清洗效果的同时,避免误修改可靠数据;通过改进LightGBM模型,实现主变油色谱数据的针对性优化,依靠模型强大的分类能力自主分析各特征权重,使得依据主变油色谱判别主变故障发展情况及故障类别更加准确;利用油色谱数据中提取的特征判断主变故障发展过程及严重程度,更符合主变故障通常为渐进性故障的客观规律。解决了现有技术对油色谱数据清洗繁琐、容易过拟合且分类标准不符合实际,导致通过油色谱识别变压器故障效率低且不准确的问题。

权利要求 :

1.一种多组分变压器油色谱在线监测方法,其特征在于,包括:

S1、获取油色谱的历史特征数据,对所述历史特征数据进行预处理,得到行向量为样本、列向量为特征值的二维矩阵的数据集,并将所述数据集划分为训练集、测试集和验证集;

S2、设置Prophet算法的趋势项、周期项、误差项和超参数后,通过所述训练集对Prophet算法进行训练;

定义异常数据的标签集,所述标签集的定义包括:0表示正常数据、1表示零值数据、2表示缺值数据,3表示异常数据;

搜索所述数据集中的零值数据集合,并修改对应的标签;

利用训练好的Prophet模型对测试集数据、验证集数据中的样本逐个进行预测,当对应样本特征值缺失,则通过预测值填补数据,并在异常数据标签集标记并修改标签;

计算对应样本预测偏差,若所述预测偏差大于预设偏差阈值,则修改标签,否则认为对应样本正常,并同步更新所述数据集,得到清洗后的数据集训练集、测试集、验证集和异常数据标签集;

S3、对清洗后的数据集中的特征值和对应标签均进行向量化处理后,进行细化分类,生成样本的类别标签,从而得到类别特征,其中所述类别标签包括:0表示良好、1表示一般、2表示严重和3表示紧急;

S4、建立LightGBM模型,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,对改进后的LightGBM模型的超参数和权重初始化,并人工调整叶子数和学习率后,通过所述类别特征对改进后的LightGBM模型进行训练,得到最终LightGBM模型;

S5、将实时的油色谱特征数据输入到最终LightGBM模型中,从而对变压器油色谱进行在线监测。

2.根据权利要求1所述的多组分变压器油色谱在线监测方法,其特征在于,步骤S4之后,还包括:根据所述最终LightGBM模型的训练曲线、特征权重、特征权重重要度排序和混淆矩阵可视化对所述最终LightGBM模型进行模型评价。

3.根据权利要求1所述的多组分变压器油色谱在线监测方法,其特征在于,步骤S5之后,还包括:将清洗后的数据集填充到训练集后,定期重复步骤S3‑S4对LightGBM模型进行训练,从而定期对LightGBM模型进行更新。

4.根据权利要求1所述的多组分变压器油色谱在线监测方法,其特征在于,所述改进后的LightGBM模型的第k棵树的损失函数为:;

式中, 表示由前k‑1棵树组成的模型在参数为 的条件下对输入的预测值, 表示损失函数, 为L2正则化项,

为系数。

5.根据权利要求1所述的多组分变压器油色谱在线监测方法,其特征在于,所述历史特征数据包括:氧气和微水两个参考特征、以及若干特征气体。

6.一种多组分变压器油色谱在线监测系统,其特征在于,包括:

获取单元,用于获取油色谱的历史特征数据,对所述历史特征数据进行预处理,得到行向量为样本、列向量为特征值的二维矩阵的数据集,并将所述数据集划分为训练集、测试集和验证集;

清洗单元,用于设置Prophet算法的趋势项、周期项、误差项和超参数后,通过所述训练集对Prophet算法进行训练;

定义异常数据的标签集,所述标签集的定义包括:0表示正常数据、1表示零值数据、2表示缺值数据,3表示异常数据;

搜索所述数据集中的零值数据集合,并修改对应的标签;

利用训练好的Prophet模型对测试集数据、验证集数据中的样本逐个进行预测,当对应样本特征值缺失,则通过预测值填补数据,并在异常数据标签集标记并修改标签;

计算对应样本预测偏差,若所述预测偏差大于预设偏差阈值,则修改标签,否则认为对应样本正常,并同步更新所述数据集,得到清洗后的数据集训练集、测试集、验证集和异常数据标签集;

分类单元,用于对清洗后的数据集中的特征值和对应标签均进行向量化处理后,进行细化分类,生成样本的类别标签,从而得到类别特征,其中所述类别标签包括:0表示良好、1表示一般、2表示严重和3表示紧急;

建模单元,用于建立LightGBM模型,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,对改进后的LightGBM模型的超参数和权重初始化,并人工调整叶子数和学习率后,通过所述类别特征对改进后的LightGBM模型进行训练,得到最终LightGBM模型;

监测单元,用于将实时的油色谱特征数据输入到最终LightGBM模型中,从而对变压器油色谱在线监测。

7.一种多组分变压器油色谱在线监测设备,其特征在于,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

所述处理器用于根据所述程序代码中的指令执行权利要求1‑5任一项所述的多组分变压器油色谱在线监测方法。

8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1‑5任一项所述的多组分变压器油色谱在线监测方法。

说明书 :

一种多组分变压器油色谱在线监测方法及相关装置

技术领域

[0001] 本申请涉及变压器油色谱监测技术领域,尤其涉及一种多组分变压器油色谱在线监测方法及相关装置。

背景技术

[0002] 由于传统实验室油色谱分析周期长、流程复杂、无法进行连续趋势的分析,而油色谱在线监测恰好弥补上述缺点,能够持续监测油中溶解气体状态,尽早发现主变内部潜在故障,以及更利于实现对未来趋势发展的分析和预测,对避免发生电力系统严重事故有重
要意义。
[0003] 近年来,随着待处理数据量的爆发式增长,传统的数学优化方法和启发式方法应对大样本量以及高维数据时效率低下,机器学习包括深度学习算法由于其非线性特性、对
高维数据的高敏感度,以及在时间序列分析、图像识别等非结构化数据处理上的天然优势,契合油色谱分析领域需求,因此诞生了基于机器学习的新方法。例如,基于遗传算法与K‑means聚类的RBF神经网络在线监测方法,通过对主变内部本体特征和外部所处环境两个维
度,对装置选配影响因子进行筛选和分析得到最终的影响因子,从而解决在线监测装置的
选配问题;又如,将基于密度模式的空间数据聚类算法与小波神经网络算法结合,实现对在线监测装置运行过程的数据清洗、甄别和预测。但上述方法存在以下问题,1)主变油色谱数据的清洗技术繁琐、模型复杂,调参难度大,且当数据量不足时容易产生“过拟合”,陷入局部最优解,极大降低模型的泛化能力;2)目前普遍按照行业判断标准(DL/T 722)对故障等级进行二分类(无故障,有故障,仅部分在线监测系统有告警值),客观上忽视了主变故障的渐进过程;3)初期潜伏故障轻微,特征数据不明显,目前方法难以提取最重要特征,无法进行有效辨别。

发明内容

[0004] 本申请提供了一种多组分变压器油色谱在线监测方法及相关装置,用于解决现有技术对油色谱数据清洗繁琐、容易过拟合且分类标准不符合实际,导致通过油色谱识别变
压器故障效率低且不准确的技术问题。
[0005] 有鉴于此,本申请第一方面提供了一种多组分变压器油色谱在线监测方法,所述方法包括:
[0006] S1、获取油色谱的历史特征数据,对所述历史特征数据进行预处理,得到行向量为样本、列向量为特征值的二维矩阵的数据集,并将所述数据集划分为训练集、测试集和验证集;
[0007] S2、设置Prophet算法的趋势项、周期项、误差项和超参数后,通过所述训练集对Prophet算法进行训练,并定义异常数据的标签集,基于所述标签集通过训练好的Prophet
算法分别对所述测试集和验证集进行清洗后,并同步更新所述数据集,得到清洗后的数据
集;
[0008] S3、对清洗后的数据集中的特征值和对应标签均进行向量化处理后,进行细化分类,生成样本的类别标签,从而得到类别特征,其中所述类别标签包括:0表示良好、1表示一般、2表示严重和3表示紧急;
[0009] S4、建立LightGBM模型,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,对改进后的LightGBM模型的超参数
和权重初始化,并人工调整叶子数和学习率后,通过所述类别特征对改进后的LightGBM模
型进行训练,得到最终LightGBM模型;
[0010] S5、将实时的油色谱特征数据输入到最终LightGBM模型中,从而对变压器油色谱进行在线监测。
[0011] 可选地,步骤S4之后,还包括:
[0012] 根据所述最终LightGBM模型的训练曲线、特征权重、特征权重重要度排序和混淆矩阵可视化对所述最终LightGBM模型进行模型评价。
[0013] 可选地,步骤S5之后,还包括:
[0014] 将清洗后的数据集填充到训练集后,定期重复步骤S3‑S4对LightGBM模型进行训练,从而定期对LightGBM模型进行更新。
[0015] 可选地,所述并定义异常数据的标签集,基于所述标签集通过训练好的Prophet算法分别对所述测试集和验证集进行清洗后,并同步更新所述数据集,得到清洗后的数据集,具体包括:
[0016] 定义异常数据的标签集,所述标签集的定义包括:0表示正常数据、1表示零值数据、2表示缺值数据,3表示异常数据;
[0017] 搜索所述数据集中的零值数据集合,并修改对应的标签;
[0018] 利用训练好的Prophet模型对测试集数据、验证集数据中的样本逐个进行预测,当对应样本特征值缺失,则通过预测值填补数据,并在异常数据标签集标记并修改标签;
[0019] 计算对应样本预测偏差,若所述预测偏差大于预设偏差阈值,则修改标签,否则认为对应样本正常,并同步更新所述数据集,得到清洗后的数据集训练集、测试集、验证集和异常数据标签集。
[0020] 可选地,所述改进后的LightGBM模型的第k棵树的损失函数为:
[0021] ;
[0022] 式中, 表示由前k‑1棵树组成的模型在参数为 的条件下对输入 的预测值, 表示损失函数, 为L2正则化
项, 为系数。
[0023] 可选地,所述历史特征数据包括:氧气和微水两个参考特征、以及若干特征气体。
[0024] 本申请第二方面提供一种多组分变压器油色谱在线监测系统,所述系统包括:
[0025] 获取单元,用于获取油色谱的历史特征数据,对所述历史特征数据进行预处理,得到行向量为样本、列向量为特征值的二维矩阵的数据集,并将所述数据集划分为训练集、测试集和验证集;
[0026] 清洗单元,用于设置Prophet算法的趋势项、周期项、误差项和超参数后,通过所述训练集对Prophet算法进行训练,并定义异常数据的标签集,基于所述标签集通过训练好的Prophet算法分别对所述测试集和验证集进行清洗后,并同步更新所述数据集,得到清洗后的数据集;
[0027] 分类单元,用于对清洗后的数据集中的特征值和对应标签均进行向量化处理后,进行细化分类,生成样本的类别标签,从而得到类别特征,其中所述类别标签包括:0表示良好、1表示一般、2表示严重和3表示紧急;
[0028] 建模单元,用于建立LightGBM模型,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,对改进后的LightGBM模型的超参数和权重初始化,并人工调整叶子数和学习率后,通过所述类别特征对改进后的
LightGBM模型进行训练,得到最终LightGBM模型;
[0029] 监测单元,用于将实时的油色谱特征数据输入到最终LightGBM模型中,从而对变压器油色谱在线监测。
[0030] 可选地,所述清洗单元,具体用于:
[0031] 设置Prophet算法的趋势项、周期项、误差项和超参数后,通过所述训练集对Prophet算法进行训练;
[0032] 定义异常数据的标签集,所述标签集的定义包括:0表示正常数据、1表示零值数据、2表示缺值数据,3表示异常数据;
[0033] 搜索所述数据集中的零值数据集合,并修改对应的标签;
[0034] 利用训练好的Prophet模型对测试集数据、验证集数据中的样本逐个进行预测,当对应样本特征值缺失,则通过预测值填补数据,并在异常数据标签集标记并修改标签;
[0035] 计算对应样本预测偏差,若预测偏差大于预设偏差阈值,则修改标签,否则认为对应样本正常,并同步更新所述数据集,得到清洗后的数据集训练集、测试集、验证集和异常数据标签集。
[0036] 本申请第三方面提供一种多组分变压器油色谱在线监测设备,所述设备包括处理器以及存储器:
[0037] 所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0038] 所述处理器用于根据所述程序代码中的指令,执行如上述第一方面所述的多组分变压器油色谱在线监测方法的步骤。
[0039] 本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述第一方面所述的多组分变压器油色谱在线监测方
法。
[0040] 从以上技术方案可以看出,本申请具有以下优点:
[0041] 本申请提供了一种基于Prophet与lightGBM算法的变压器油色谱在线监测方法,不仅实现对油色谱在线监测装置运行过程中不可靠数据的辨识,并根据prophet算法预测
结果对数据进行修正,以达到对“脏数据”实现清洗效果的同时,避免误修改可靠数据;通过改进LightGBM模型,实现主变油色谱数据的针对性优化,依靠模型强大的分类能力自主分
析各特征权重,使得依据主变油色谱判别主变故障发展情况及故障类别更加准确;利用油
色谱数据中提取的特征判断主变故障发展过程及严重程度,比行业标准(DL/T 722)的分类标准更加精细化,更符合主变故障通常为渐进性故障的客观规律。进一步地,改进模型的评价标准,从权重排序、准确率、总体召回率、混淆矩阵等多维度对模型效果进行评价,与常规单一标准(准确率)判别相比,更利于模型的调参及优化。最后,在方法应用后实时存储扩充数据集,并在排除“脏数据”后定期更新模型以扩充数据集,实现模型的自主升级。
[0042] 与现有技术相比:
[0043] 1)现有针对主变油色谱数据的清洗技术繁琐、模型复杂,调参难度大,且当数据量不足时容易产生“过拟合”,陷入局部最优解,极大降低模型的泛化能力。本发明利用预测模型进行数据清洗代替现有滑窗以及深度学习方法,模型更简单,且实现将“脏数据”进行标注以便对样本作出区分。
[0044] 2)改进了LightGBM算法,定义总体召回率,赋予故障类别更高的类别权重,赋予“脏数据”包含的“异常”样本更低的样本权重,同时引入L2正则项。改进算法可以显著降低将故障样本误分类为正常样本的概率,利于尽早发现主变内部初发故障;同时尽可能降低
“脏数据”对结果的影响。L2正则项的引入在一定程度上限制模型复杂度,限制模型学到高频振荡函数的能力,使模型更容易学习到低频平滑的函数,进而提升模型的泛化能力,进一步减小“过拟合”。
[0045] 3)细化了目前行业标准DL/T 722通过主变油色谱判断主变故障情况的分类判别标准,在原有二分类基础上扩充为“良好”、“一般”、“严重”、“紧急”四个类别;并改进模型的评价标准,从权重排序、准确率、总体召回率、混淆矩阵等多维度对模型效果进行评价。此外,模型可以实现定期自主更新。

附图说明

[0046] 图1为本申请实施例中提供的一种多组分变压器油色谱在线监测方法实施例的流程示意图;
[0047] 图2为本申请实施例中提供的一种多组分变压器油色谱在线监测系统实施例的结构示意图。

具体实施方式

[0048] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0049] 请参阅图1,本申请实施例中提供的一种多组分变压器油色谱在线监测方法,包括:
[0050] 步骤101、获取油色谱的历史特征数据,对历史特征数据进行预处理,得到行向量为样本、列向量为特征值的二维矩阵的数据集,并将数据集划分为训练集、测试集和验证
集;
[0051] 需要说明的是,首先获取油色谱的历史特征数据;由于在机器学习模型中避免使用For循环,因此本发明使用二维矩阵以提高运算效率。采集主变油色谱数据后,形成
数据集,其中N表示样本总量,m表示特征量维度,本方法中按照“DL/T 722”标准
共采集氢气、一氧化碳、甲烷、二氧化碳、乙烷、乙烯、乙炔、氧气、微水等九个特征量。然后将数据集 沿时间序列、按照60%、20%、20%的比例分别划分为训练集 、测试集
、验证集 。
[0052] 步骤102、设置Prophet算法的趋势项、周期项、误差项和超参数后,通过训练集对Prophet算法进行训练,并定义异常数据的标签集,基于标签集通过训练好的Prophet算法分别对测试集和验证集进行清洗后,并同步更新数据集,得到清洗后的数据集;
[0053] 需要说明的是,Prophet算法是一种加法模型,常用于基于时间序列的预测,本发明利用该模型进行数据清洗,基本原理公式如下:
[0054]
[0055] 其中, 为趋势项,表示时间序列在非周期上的变化趋势; 为周期项,本发明中表示主变油色谱受气温等变化影响; 表示节假日项,本发明中根据主变计划检
修等事项设置; 称为剩余项或误差项,即模型未预测到的波动,一般情况下服从高斯
分布。
[0056] 本实施例的趋势项、周期项和误差项的设置的说明如下:
[0057] 趋势项函数包含两部分,一是调节模型光滑度的超参数,二是不同程度的假设,通过参数的调整对时间序列中的非周期变化进行建模,根据数据的变化点检测趋势走向。根据所选数据的特性,本文选择logistic饱和增长模型,趋势项函数为逻辑回归模型:
[0058]
[0059] 式中,k表示增长率; 表示偏移量; 为模型容量。
[0060] 代表周期项,Prophet 基于傅里叶级数提出了一个灵活的模型以拟合预测效果, 根据如下公式进行估算:
[0061]
[0062] 式中,n代表周期总数;T代表某个固定的周期(本发明采用周数据,T为7);代表期望在模型中使用该周期的个数;  表示模
型中需要估计的参数。
[0063] 为节假日项,由于主变计划或非计划停运、检修等事件会导致时间序列出现可预测的非周期性波动,即为节假日事件。在时间序列中对每个上述事件可单独建模,为每个模型制定单独的时间窗口,且同一个时间窗口的影响为相同值。节假日模型可如公式进
行估算:
[0064]
[0065] 其中,L为节假日事件集合;i为第i个节假日事件;为对应节假日对预测值的影响因子;为窗口期中包含的时间t。定义:
[0066]
[0067] 可得:
[0068]
[0069] 本实施例设置超参数的说明如下:
[0070] 调用fbprophet软件库,关键超参数设置如下:增长趋势模型growth选择分段线性趋势“linear”;参数转折点n_changepoints根据主变油色谱数据规律设置为1,周期拟合度和节假日事件拟合度初始值按照经验分别设置7和3;误差函数设置为均方根误差MSE;其余超参数均为缺省值。
[0071] 设置好上述参数后,导入训练集 训练模型,导入测试集数据 测试,根据测试集 的拟合结果进行参数微调。最终使用验证集数据 进行验证,保证
验证数据未泄露到训练模型中,验证模型的泛化能力,避免发生“过拟合”。
[0072] 本实施例定义异常数据的标签集,基于标签集通过训练好的Prophet算法分别对测试集和验证集进行清洗后,并同步更新数据集,得到清洗后的数据集的说明如下:
[0073] 对异常数据标签做如下定义:定义标签“0”表示正常数据,“1”表示零值数据,“2”表示缺值数据,“3”表示异常数据。首先建立 用于初始化异常数据标签集,搜索数据集中的零值数据集合 ,修改对应标签 ;同理,利用训练
好的Prophet模型对测试集数据 、验证集数据 中的样本逐个进行预测,若对应
样本特征值缺失,则由预测值填补数据,并在异常数据标签集标记,修改标签为
;计算预测偏差(预测偏差=预测值与实际数据之差/实际数据*100%),若预
测偏差大于偏差阈值a,修改标签为 ,否则视为正常样本。上述过程应同步
更新数据集 ,最终形成清洗后的数据集 、训练集 、测试集 、验证
集 及异常数据标签集 。
[0074] 步骤103、对清洗后的数据集中的特征值和对应标签均进行向量化处理后,进行细化分类,生成样本的类别标签,从而得到类别特征,其中类别标签包括:0表示良好、1表示一般、2表示严重和3表示紧急;
[0075] 需要说明的是,在分类问题中,由于实验数据各个特征量的量纲不同,且数据绝对值相差较大,导致各特征量分布的均值和方差相差巨大,此时方差大的特征将在模型训练过程中占主导地位,模型表现变差,通常将样本标准化以消除上述影响。本发明采用
sklearn库中的StandardScaler()函数,将全部特征值缩放到均值为0,方差为1。
[0076] 由于样本进行向量化处理,对应标签也应进行向量化。根据DL/T 722行业标准中对油色谱气体含量的判别标准加以细化分类,形成样本的类别标签 。标签“0”表示
良好,“1”表示一般,“2”表示严重,“3”表示紧急。由于样本特征为连续特征值且具有实际物理意义,LightGBM算法可直接处理类别特征,无需进行One‑hot 编码。
[0077] 步骤104、建立LightGBM模型,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,对改进后的LightGBM模型的超
参数和权重初始化,并人工调整叶子数和学习率后,通过类别特征对改进后的LightGBM模
型进行训练,得到最终LightGBM模型;
[0078] 需要说明的是,LightGBM算法是梯度提升决策树(GBDT)的优化算法,在多分类问题中使用二叉分类树。GBDT算法利用集成学习中的Boosting思想,用训练样本分别训练M个小决策树,将每一步训练得到的决策树的损失函数做负梯度累加,通过M个弱分类器构建最终的强分类器,以损失函数作为目标函数构建优化算法,优化方向即损失函数负梯度方向。优化算法即在每个叶子节点对所有特征做偏导数,在实际应用中通常采用贪心算法,即对
每个叶子节点枚举所有可用特征,特征升序排序通过线性扫描方式寻找最佳分裂点,选择
收益最大的分裂点作为分裂位置生长两个新的叶子节点,并不断重复直到达到目标深度或
目标叶子节点数。在此基础上,LightGBM算法对GBDT算法进行优化,使用直方图索引将连续特征值离散化,提升运算效率、降低内存占用;使用带深度限制的Leaf‑wise生长策略控制模型复杂度,相比于传统决策树的Level‑wise生长策略更不易产生“过拟合”;此外,算法原生支持类别特征以及并行运算,计算效率进一步提升。
[0079] 本实施例首先建立建立LightGBM模型;
[0080] 接着,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,具体实施如下说明:
[0081] ①为降低将“严重”“紧急”样本误判为“良好”“一般”样本概率,尽早发现油色谱异常,对“严重”、“紧急”故障分类赋予更高的权重,即赋予更高的类别权重;定义总体召回率:
[0082]
[0083] 其中, 表示正确分类的故障样本数量; 表示正确分类的正常样本数量;表示错误分类的故障样本数量; 表示错误分类的正常样本数量。
[0084] ②减小“脏数据”对分类结果影响,降低异常数据标签为“3”即异常数据的样本权重,同时引入L2正则项以减少过拟合:
[0085] 第k棵树的损失函数如公式(12):
[0086]
[0087] 式中, 表示由前k‑1棵树组成的模型在参数为 的条件下对输入 的预测值, 表示损失函数。
[0088] 为L2正则化项,系数 为:
[0089]
[0090] 且为常数, 标异常签号为3即异常样本,赋予较小权重。
[0091] 然后,对改进后的LightGBM模型的超参数和权重初始化,并人工调整叶子数和学习率后,通过类别特征对改进后的LightGBM模型进行训练,得到最终LightGBM模型,具体如下:
[0092] 1)进行模型参数初始化和权重随机初始化,以保证模型的泛化能力。
[0093] 训练中的关键超参数设置如下:叶子数num_leaves设为50;学习率learning_rate设为0.001;循环次数boost_round为1000;优化算法boosting_type选择gbdt;损失函数为multi_logloss;目标问题objective选择multiclass;分类书目num_class设置为4,其他保
持缺省值。
[0094] 2)进行1000次训练循环后,计算训练集和测试集的精度、损失值。
[0095] 3)调参分为自动调参和人工微调,自动调参调用sklearn库的GridSearchCV模块和LightGBM算法自带的CV模块进行网格搜索和交叉验证;
[0096] 4)人工微调则优先调整叶子数、学习率,为防止出现过拟合,叶子数小于2的最大深度次幂以控制模型的复杂度;学习率设置不恰当将导致训练速度过低或损失函数振荡甚至发散,难以达到全局最优解。
[0097] 5)优化算法、损失函数等参数根据求解问题设置,无需变动;循环次数及其他超参数根据经验进行细微调整,直到模型在训练集 、测试集 上的表现均达到最优,最后利用验证集数据 进行模型验证,得到最终LightGBM模型。
[0098] 需要说明的是,本实施例所使用LightGBM的训练过程如下:
[0099] 规定为第m棵决策树,表示决策树的参数,M为树的个数,则根据Boosting算法原理,强分类器由所有训练得到的弱分类器线性叠加而成:
[0100]
[0101] 则训练过程中的第m步表达如下:
[0102]
[0103] 损失函数为:
[0104]
[0105] 显然该损失函数需要迭代求解,梯度提升树的基本思想即构建弱分类器使目标函数 达到最小值,针对多分类问题,模型效果最好的
multi_logloss损失函数,其表达式如下:
[0106]
[0107]
[0108] 带入并推导,求得偏导数结果如下:
[0109]
[0110] 其中,K表示标签类别数。
[0111] 步骤105、将实时的油色谱特征数据输入到最终LightGBM模型中,从而对变压器油色谱进行在线监测。
[0112] 最后,将实时的油色谱特征数据输入到最终LightGBM模型中,从而实现对变压器油色谱进行在线监测。
[0113] 进一步地,在一个可选地实施例中,得到最终LightGBM模型,之后还包括:根据所述最终LightGBM模型的训练曲线、特征权重、特征权重重要度排序和混淆矩阵可视化对所述最终LightGBM模型进行模型评价。
[0114] 需要说明的是,模型训练完成后,本实施例分别将训练曲线、特征权重、特征权重重要度排序、混淆矩阵可视化,以评价模型表现。训练曲线中损失函数单调递减且趋近于0,特征权重与训练前相比出现明显变化,精度、召回率趋近于或等于100%,混淆矩阵非对角线元素趋近或等于0,可视为模型表现良好。
[0115] 进一步地,在一个可选地实施例中,还包括:将清洗后的数据集填充到训练集后,定期重复步骤S3‑S4对LightGBM模型进行训练,从而定期对LightGBM模型进行更新。
[0116] 需要说明的是,机器学习的优势在于只要训练集数据足够多,模型参数就可以足够复杂到学习数据的全部特征,理论上具有绝对的泛化能力。因此本实施例在将数据集去
除“异常”标签样本后,填充入训练集以扩大数据集规模,并定期更新模型,以保证模型不断升级,其分类能力跟随数据集的扩充而逐渐增强。
[0117] 以上为本申请实施例中提供的一种多组分变压器油色谱在线监测方法,以下为本申请实施例中提供的一种多组分变压器油色谱在线监测系统。
[0118] 请参阅图2,本申请实施例中提供的一种多组分变压器油色谱在线监测方法,包括:
[0119] 获取单元201,用于获取油色谱的历史特征数据,对历史特征数据进行预处理,得到行向量为样本、列向量为特征值的二维矩阵的数据集,并将数据集划分为训练集、测试集和验证集;
[0120] 清洗单元202,用于设置Prophet算法的趋势项、周期项、误差项和超参数后,通过训练集对Prophet算法进行训练,并定义异常数据的标签集,基于标签集通过训练好的Prophet算法分别对测试集和验证集进行清洗后,并同步更新数据集,得到清洗后的数据
集;
[0121] 分类单元203,用于对清洗后的数据集中的特征值和对应标签均进行向量化处理后,进行细化分类,生成样本的类别标签,从而得到类别特征,其中类别标签包括:0表示良好、1表示一般、2表示严重和3表示紧急;
[0122] 建模单元204,用于建立LightGBM模型,通过调整故障分类赋予的权重值,同时引入L2正则项对LightGBM模型进行优化,得到改进后的LightGBM模型,对改进后的LightGBM
模型的超参数和权重初始化,并人工调整叶子数和学习率后,通过类别特征对改进后的
LightGBM模型进行训练,得到最终LightGBM模型;
[0123] 监测单元205,用于将实时的油色谱特征数据输入到最终LightGBM模型中,从而对变压器油色谱在线监测。
[0124] 进一步地,本申请实施例中还提供了一种多组分变压器油色谱在线监测设备,所述设备包括处理器以及存储器:
[0125] 所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0126] 所述处理器用于根据所述程序代码中的指令执行上述方法实施例所述的多组分变压器油色谱在线监测方法。
[0127] 进一步地,本申请实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述方法实施例所述的多组分变压器
油色谱在线监测方法。
[0128] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0129] 本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那
些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0130] 应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
[0131] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0132] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
[0133] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0134] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机
设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read‑Only Memory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:
RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0135] 以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些
修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。