电力变压器缺陷信息数据挖掘方法转让专利

申请号 : CN201610166386.2

文献号 : CN105843210B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吐松江·卡日高文胜陆国俊王勇栾乐熊俊覃煜李光茂陈国炎肖天为崔屹平

申请人 : 清华大学广州供电局有限公司

摘要 :

本发明公开了一种电力变压器缺陷数据挖掘方法,包括:对电力变压器的历史缺陷数据集D0筛选缺陷属性,形成缺陷数据集D1;对D1中的缺陷属性进行填补或删除以降低数据噪音;基于D1已有属性构造新属性、对于连续型属性进行离散化和对于分类型属性进行合理分层,形成缺陷数据集D2;计算输入属性与目标属性间的相关性,删除不相关属性,剩余属性构成缺陷数据集D3;使用Apriori算法计算缺陷数据集属性间的关联关系;提取有效关联规则,分析电力变压器的缺陷因素,形成关联规则知识库。本发明具有如下优点:多维、多层挖掘电力变压器缺陷,方便快捷提取缺陷属性间的关联关系,为电力变压器状态评价提供依据,提高状态评价的准确率。

权利要求 :

1.一种电力变压器缺陷数据挖掘方法,其特征在于,包括以下步骤:

S1:对电力变压器的历史缺陷数据集D0筛选缺陷属性,保留与挖掘目标可能存在潜在关联的相关数据,形成缺陷数据集D1;

S2:对缺陷数据集D1中的缺陷属性通过填补缺失、更正错误、直接删除、删除冗余和消除不一致性中至少一种以降低数据噪音;

S3:对缺陷数据集D1的冗余属性通过数据集成与数据变换构造新属性、对于连续型属性进行离散化和对于分类型属性进行分层,形成缺陷数据集D2;

S4:基于缺陷数据集D2,计算输入属性与目标属性间的相关性,删除不相关属性构成缺陷数据集D3;

S5:基于缺陷数据集D3,设置最小支持度和最小置信度,使用Apriori算法计算缺陷数据集D3属性间的关联关系;

S6:提取有效关联规则,分析电力变压器的缺陷因素,形成关联规则知识库。

2.根据权利要求1所述的电力变压器缺陷数据挖掘方法,其特征在于,在步骤S1中,缺陷数据集D1的挖掘维度包含但不限于电压等级、生产厂家、设备型号、投运时间、缺陷发现时间、缺陷类型、缺陷处理措施和变电站名称在内的连续型、分类型历史数据。

3.根据权利要求1所述的电力变压器缺陷数据挖掘方法,其特征在于,步骤S2进一步包括:基于挖掘目标重新定义电力变压器缺陷类型,删除同一设备出现的重复缺陷,保留首次缺陷记录。

4.根据权利要求1所述的电力变压器缺陷数据挖掘方法,其特征在于,在步骤S3中,缺陷数据集D2的维度包括运行时间、操作机构类型、缺陷处理方式、缺陷发生时间、生产厂家资质、设备型号、缺陷发生原因、设备运行环境、设备运行场所和变电站名称中至少一种。

5.根据权利要求1所述的电力变压器缺陷数据挖掘方法,其特征在于,步骤S4进一步包括:对于缺陷数据集D2的属性进行特征选择,基于卡方校验计算各属性重要度,根据重要度值进行属性排序,保留重要度高于预设阈值的缺陷属性。

6.根据权利要求1所述的电力变压器缺陷数据挖掘方法,其特征在于,使用Apriori算法计算缺陷数据集属性间的关联关系进一步包括:采用Apriori算法进行所述电力变压器的缺陷相关因素间的关联规则挖掘,其中,所述电力变压器的缺陷相关因素包括生产厂家、运行年限和缺陷类型。

说明书 :

电力变压器缺陷信息数据挖掘方法

技术领域

[0001] 本发明涉及数据挖掘技术领域,尤其是涉及一种电力变压器缺陷信息数据挖掘方法。

背景技术

[0002] 电力系统的可靠与稳定运行,是保障经济发展、社会进步和人民生活水平提高所需电力的前提和基础。电力变压器作为电力系统重要设备,承担电能传输与分配、电压变换
等功能,其运行状况、健康水平直接影响电力系统的安全性、稳定性和可靠性。基于状态评
价的状态检修技术,根据状态评价结果开展主动检修,合理安排检修时间与检修项目,从而
达到降低设备故障率和保障设备可靠运行的目的。
[0003] 缺陷信息作为电力变压器状态评价的重要数据基础,存在来源众多、属性丰富、数据量大、准确性低及冗余度高等特点。过去,电力变压器缺陷信息分析主要依赖统计分析,
既无法快速获得高价值信息,也不能探测缺陷信息属性间的潜在关联关系,对电力变压器
运行状态评价缺乏足够支持。

发明内容

[0004] 本发明旨在至少解决上述技术问题之一。
[0005] 为此,本发明的目的在于提出一种电力变压器缺陷数据挖掘方法。
[0006] 为了实现上述目的,本发明的实施例公开了一种电力变压器缺陷数据挖掘方法,包括以下步骤:S1:对电力变压器的历史缺陷数据集D0筛选缺陷属性,保留与挖掘目标可能
存在潜在关联的相关数据,形成缺陷数据集D1;S2:对缺陷数据集D1中的缺陷属性通过填补
缺失、更正错误、直接删除、删除冗余和消除不一致性中至少一种以降低数据噪音;S3:对缺
陷数据集D1的冗余属性通过数据集成与数据变换构造新属性、对于连续型属性进行离散化
和对于分类型属性进行分层,形成缺陷数据集D2;S4:基于缺陷数据集D2,计算输入属性与目
标属性间的相关性,删除不相关属性构成缺陷数据集D3;S5:基于缺陷数据集D3,设置最小支
持度和最小置信度,使用Apriori算法计算缺陷数据集属性间的关联关系;S6:提取有效关
联规则,分析电力变压器的缺陷因素,形成关联规则知识库。
[0007] 根据本发明实施例的力变压器缺陷数据挖掘方法,通过对电力变压缺陷信息的关联挖掘方法,建立合适的缺陷数据集,消除多源异质缺陷数据的遗漏缺失、不一致及冗余等
问题,合理筛选数据属性,使用Apriori算法实现电力变压器缺陷数据的多维、多层挖掘,挖
掘缺陷属性间的关联关系,为状态评价提供依据,提高电力变压器状态评价的准确率,保证
电力变压器检修策略更合理有效。
[0008] 另外,根据本发明上述实施例的力变压器缺陷数据挖掘方法,还可以具有如下附加的技术特征:
[0009] 进一步地,在步骤S1中,缺陷数据集D1的挖掘维度包含但不限于电压等级、生产厂家、设备型号、投运时间、缺陷发现时间、缺陷类型、缺陷处理措施和变电站名称在内的连续
型、分类型历史数据。
[0010] 进一步地,步骤S2进一步包括:基于挖掘目标重新定义电力变压器缺陷类型,删除同一设备出现的重复缺陷,保留首次缺陷记录。
[0011] 进一步地,在步骤S3中,缺陷数据集D2的维度包括运行时间、操作机构类型、缺陷处理方式、缺陷发生时间、生产厂家资质、设备型号、缺陷发生原因、设备运行环境、设备运
行场所和变电站名称中至少一种。
[0012] 进一步地,步骤S4进一步包括:对于缺陷数据集D2的属性进行特征选择,基于卡方校验计算各属性重要度,根据重要度值进行属性排序,保留重要度高于预设阈值的缺陷属
性。
[0013] 进一步地,使用Apriori算法计算缺陷数据集属性间的关联关系进一步包括:采用Apriori算法进行所述电力变压器的缺陷相关因素间的关联规则挖掘,其中,所述电力变压
器的缺陷相关因素包括生产厂家、运行年限和缺陷类型。
[0014] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

[0015] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0016] 图1是本发明一个实施例的电力变压器缺陷数据挖掘方法的流程图。

具体实施方式

[0017] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0018] 在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对
本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0019] 在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本
发明中的具体含义。
[0020] 参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施
例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的
实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0021] 首先介绍一下运用Apriori算法涉及基本概念:关联规则及基本概念。
[0022] 关联规则表示的是数据库中不同域之间具有某种满足指定要求的关联关系的规则。设I={i1,i2,…in}是项的集合。给定一个事物数据库D,其中每个事物T是项的集合,满
足 如果项集 并且 则形如 的蕴涵式称为关联规则,X
和Y作为该关联规则的前提和结论;
[0023] 衡量关联规则的基本参量包括支持度(Support)、置信度(Confidence)与提升度(Lift)。
[0024] 支持度(support):表示项集X∪Y的支持度,即事务数据库D中同时包含项集X和项集Y的比例,记为:
[0025]
[0026] 式中:|T(X∨Y)|表示同时包含X和Y的事务数;|T|表示总事务数。
[0027] 置信度(confidence):表示事务数据库D中出现X的事务中,同时又包含Y的比例,记为:
[0028]
[0029] 提升度(lift):提升比为事务数据库D的置信度与后项置信度之比,记为:
[0030]
[0031] 提升比Lift表示在X发生的条件下,Y发生的条件概率是Y发生的先验概率的比值。在提升比大于1时,表明 是有方向性的关联,即X的出现对Y的出现有促进作用;当lift
<1,则表明X的出现降低了Y出现的可能性。
[0032] 以下结合附图描述根据本发明实施例的电力变压器缺陷数据挖掘方法。
[0033] 图1是本发明一个实施例的电力变压器缺陷数据挖掘方法的流程图。请参考图1,本发明实施例的电力变压器缺陷数据挖掘方法包括以下步骤:
[0034] S1:对电力变压器的历史缺陷数据集D0筛选缺陷属性,保留与挖掘目标可能存在潜在关联的相关数据,形成缺陷数据集D1。
[0035] 具体地,基于专家知识将数据集D0的不相关属性删除,包括“缺陷发现人”、“缺陷消缺人”、“责任单位”和“进入检修部门时间”等非关联属性,通过初步筛选后保留缺陷属性
23项,构成缺陷数据集D1。
[0036] S2:对缺陷数据集D1中的缺陷属性通过填补缺失、更正错误、直接删除、删除冗余和消除不一致性中至少一种以降低数据噪音。
[0037] 具体地,缺陷数据集D1中存在属性值缺失错误、离群、冗余及不一致等情况。针对存在的问题,根据挖掘目标与缺失属性的类型、特点,其处理方法如下:
[0038] S201:由于需要衡量不同生产厂商设备可靠性,因此需要比较各设备缺陷首次发生时间,而同一设备重复缺陷将严重影响设备的数据分布,使得关联计算结果不可靠,因此
根据“功能位置”、“变电站”、“设备编号”和“缺陷发生时间”等因素共同考虑,仅保留首次缺陷而将其余冗余缺陷删除。
[0039] S202:对于分类型属性,例如属性为“电力变压器型号”存在缺失值或离群值,可通过“变电站名称”、“电压等级”和“生产厂家”等因素共同分析填补缺失值或更正错误值。当无法通过其他属性共同分析以弥补缺失数据,则删除该条记录。
[0040] S3:对缺陷数据集D1的冗余属性通过数据集成与数据变换构造新属性、对于连续型属性进行离散化和对于分类型属性进行分层,形成缺陷数据集D2。
[0041] 具体地,缺陷数据集D1中的部分属性冗余、价值密度低,通过数据集成与数据变换方式构造新属性,既降低属性维度,同时也提升缺陷数据集表达能力。具体方法包括如下步
骤:
[0042] S301:基于“缺陷处理措施”和“缺陷处理结果”这两属性项,构造“缺陷处理方式”缺陷,将缺陷处理措施划分为简单方式、更换方式、综合方式及其他方式等,将多种不同处理措施划分至这四种方式,使数据更容易理解。
[0043] S302:通过“缺陷发现时间”与“设备投运时间”,构建“设备运行年限”属性,并基于专家知识将该连续型属性量化,分为“运行年限N<1年”、“1年<运行年限N<5年”、“5年<运行年限N<10年”、“10年<运行年限N<15年”“15年<运行年限N<20年”及“运行年限N>20年”等6个属性值。
[0044] S303:根据“设备类型”和“生产厂家”属性,构建“厂家资质”属性并将其分成“外资”“合资”“国产”三个属性值。
[0045] S304:将缺陷数据集D1中的数据进行量化、分层,建立电力变压器缺陷数据集D2。
[0046] S4:基于缺陷数据集D2,计算输入属性与目标属性间的相关性,删除不相关属性构成缺陷数据集D3。需要注意的是,对于不同的挖掘目标,其目标属性是不一样的。
[0047] 具体地,电力变压器缺陷数据集D2所含属性依然较多,通过考察属性间的重要性,达到进一步精简的数据集的目的。属性的重要性可以从两个方面联合考察:第一,从属性自
身查考;第二,从输入属性与目标属性相关角度考察。从属性自身看,重要的属性应是携带
信息多,也就是方差较大。根据实际情况制定一些测度方差大小的标准,当属性方差小于指
定标准,则视为不重要。从输入属性与目标属性相关角度看,重要的属性应对目标属性的分
类预测有显著意义。对于不同类型的输入属性和目标属性,所采用的测量方法也不相同。具
体情况如表1所示,表1是不同变量测试方法表。
[0048] 表1不同类型变量测量方法
[0049]
[0050] 由于电力变压器缺陷属性集中为分类型属性,因此首先采用卡方校验方式测量属性间的相关性。卡方校验属于统计学的假设检验范畴,主要涉及以下四大步骤:提出零假
设、选择和计算检验统计量、确定显著性水平、结论和决策。其中卡法检验的检验统计量为
Peason卡方统计量,其数据定义为:
[0051]
[0052] 式中:r为列联表的行数,c为列联表的列数;fo为观察频数,fe为期望频数。
[0053] 衡量属性间的重要程度是通过“重要度(Importance)”来衡量。重要性(Importance)不是相关系数的大小,该值是通过计算特定显著性水平下卡方统计量的概率
p,通过比较各变量间的(1-p)值,从而衡量其重要性;通常该值越大表示该变量越重要。
[0054] 设置重要度I>0.95,当重要度值大于0.95的保留,而重要度小于0.9时则直接删除;重要度高的属性,删除重要度低于所化标准的属性,形成电力变压器缺陷数据集D3。
[0055] S5:基于缺陷数据集D3,设置最小支持度和最小置信度,使用Apriori算法计算缺陷数据集属性间的关联关系。
[0056] 具体地,Apriori算法主要流程如下:
[0057] 输入:缺陷数据库D3;最小支持度minsup
[0058] 输出:D3中所有强关联规则集合R
[0059] 算法:
[0060] F1=find_frequent_1-itemset(D3)
[0061]
[0062] for(k=2; k++)
[0063] {Ck=appriori_gen(Fk-1,minsup);
[0064] foreachtransactiont∈D
[0065] {Ct=subset(Ck,t);.
[0066] foreachcandidatec∈Ct
[0067] c.count++;}
[0068]
[0069] returnF=∪kFk;
[0070] R=generate_rule(F);
[0071] Rreturn(R);
[0072] procedureapriori_gen(Fk-1:frequent(k-1)-itemsets);
[0073] minsup:minimum supportthreshold)
[0074]
[0075] foreachitemset f1∈Fk-1
[0076] foreachitemset f2∈Fk-1
[0077] if((f1[1]=f2[1]∧f1[2]=f2[2])∧∧f1[k-2]=f2[k-2]∧f1[k-1]
[0078] then{c=f1[1],f1[2],,f1[k-1],f2[k-1]};
[0079] ifhas_infrequent_subset(c,Fk-1)then
[0080] deleteC;
[0081] elseaddcto Ck;}
[0082] returnCk;
[0083] procedurehas_infrequent_subset(c:candidatek-itmeset;Fk-1:frequent(k-1)-itemset)
[0084] foreach(k-1)-subsetsofc
[0085]
[0086] returnTRUE;
[0087] elsereturnFALSE;
[0088] S6:提取有效关联规则,分析电力变压器的缺陷因素,形成关联规则知识库。
[0089] 在本发明的一个示例中,以电力变压器缺陷类型作为后项,基于apriori算法提取的关联规则如表2所示,表2是力变压器强关联规则表。
[0090] 表2电力变压器强关联规则
[0091]
[0092] 通过上述表格可知,厂商A的设备在运行年限在5-10年间冷却系统出现缺陷的概率近乎90%,在设备状态评价时相应厂商相应缺陷的权重、评分等作出相应调整,同时针对
性的提出该厂商电力变压器设备的运维策略。通过改变关联规则的前项与后项属性,从多
角度、多维度、多层次关联分析导致电力变压器产生缺陷因素。
[0093] 本发明实施例的电力变压器缺陷数据挖掘方法,结合电力行业的特殊性,将关联规则应用于电力变压器缺陷信息关联规则的选取分析中,提出运用数据挖掘技术中的关联
规则对电力变压器缺陷数据进行分析的基本思路和具体的解决方案。通过对强关联规则的
提取和分析,为电力变压器的状态评价提供参考依据,状态评价准确率更高、电力变压器维
修策略更合理、更具针对性。
[0094] 另外,本发明实施例的电力变压器缺陷数据挖掘方法的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
[0095] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不
一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何
的一个或多个实施例或示例中以合适的方式结合。
[0096] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本
发明的范围由权利要求及其等同限定。