会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 资料储存系统 / 挖矿 / 数据挖掘 / 一种基于电力调度数据的数据挖掘方法

一种基于电力调度数据的数据挖掘方法

阅读:1047发布:2021-01-18

IPRDB可以提供一种基于电力调度数据的数据挖掘方法专利检索,专利查询,专利分析的服务。并且本发明涉及智能电网电力调度领域,尤其涉及一种基于电力调度数据的数据挖掘方法,包括:(1)对电力调度数据根据关联规则进行数据挖掘,挖掘得到规则集R,S为满足支持度阈值的项目的集合,并设该集合的X2检验的显著水平为T;(2)对规则集R进行CS测试,把所有规则分为有用规则和无用规则;(3)删除无用规则,并对有用规则进行分类测试,得到代表规则r;(4)按照规则级别从高到低将代表规则r进行排列,形成代表规则集Rd;(5)把原始规则集R中除去代表规则集Rd的规则形成非代表规则集Rnd。本发明综合考虑了对关联规则集进行概括、保持关联规则集的完整性、删除用户不感兴趣的规则和删除冗余规则四个方面。,下面是一种基于电力调度数据的数据挖掘方法专利的具体信息内容。

1.一种基于电力调度数据的数据挖掘方法,其特征在于包括步骤:(1)对电力调度数据根据关联规则进行数据挖掘,挖掘得到规则集R,S为满足支持度2

阈值的项目的集合,并设该集合的X 检验的显著水平为T;

(2)对规则集R进行CS测试,根据测试结果把所有规则分为有用规则和无用规则;

(3)删除无用规则,并对有用规则进行分类测试,得到代表规则r;

(4)按照规则级别从高到低将代表规则r进行排列,形成代表规则集Rd;

(5)把原始规则集R中除去代表规则集Rd的规则形成非代表规则集Rnd。

2.根据权利要求1所述的一种基于电力调度数据的数据挖掘方法,其特征在于:所述步骤(2)中的CS测试步骤包括:(1)按照规则级别从高到低分别对规则集R中的规则r计算可信度;

(2)比较规则r的可信度与其祖先规则可信度大小,选取所有可信度大于其祖先规则的规则组成新的规则集Rt;

2

(3)对Rt中的所有规则进行X 测试;

2

(4)若规则的X 值大于T,则标记为有用规则;反之,则标记为无用规则。

3.根据权利要求2所述的一种基于电力调度数据的数据挖掘方法,其特征在于,所述规则集R包括所有满足支持度与可信度的规则。

说明书全文

一种基于电力调度数据的数据挖掘方法

技术领域

[0001] 本发明涉及智能电网电力调度领域,尤其涉及一种基于电力调度数据的数据挖掘方法。

背景技术

[0002] 电力系统是我国重要的能源部门,它直接影响和控制人民的生活用电以及其他行业的生产,在国民经济生产过程当中占有非常重要的地位与作用,因此,确保其正常、安全运行是第一要务。为了确保电力系统的安全运作,需要实时对其的运行状态进行监管,在监管的过程当中还需要对其运行的性能进行评估,从大量数据中找出规律和模式,以帮助人们更好地利用数据进行决策和研究。数据挖掘是从大量已有的数据中发现未知的、具有潜在应用价值的信息。在电力调度系统中,经过长年累月积聚下来的数据量是相当惊人的,在这些海量数据中同时蕴藏着大量未知的、潜在的和有价值的信息。然而,如此庞大的数据对人工处理来说是非常困难的。因此,在电力调度系统中应用数据挖掘技术,具有非常重要的意义。
[0003] 现有的数据挖掘一般通过关联规则来挖掘数据,关联规则是数据依赖关系的有效描述方法,是数据挖掘研究的重要内容。然而数据集的庞大,往往导致所生成的关联规则的数量也很庞大,对用户来说,大量而无组织的规则使得分析和使用起来十分困难。同时,在生成的规则中有相当一部分是冗余的。这些冗余的部分对于数据挖掘并没有多大的信息价值,保留其不利于数据挖掘的准确性和易用性。

发明内容

[0004] 本发明为克服上述的不足之处,目的在于提出了一种基于电力调度数据的数据挖掘方法,该方法消除了由传统数据挖掘方法所生成的大量冗余关联规则,并且使用户可以从整体上把握整个规则集,提高了关联规则挖掘的准确性和易用性。
[0005] 本发明是通过以下技术方案达到上述目的:一种基于电力调度数据的数据挖掘方法,包括步骤:
[0006] (1)对电力调度数据根据关联规则进行数据挖掘,挖掘得到规则集R,S为满足支2
持度阈值的项目的集合,并设该集合的X 检验的显著水平为T;
[0007] (2)对规则集R进行CS测试,根据测试结果把所有规则分为有用规则和无用规则;
[0008] (3)删除无用规则,并对有用规则进行分类测试,得到代表规则r;
[0009] (4)按照规则级别从高到低将代表规则r进行排列,形成代表规则集Rd;
[0010] (5)把原始规则集R中除去代表规则集Rd的规则形成非代表规则集Rnd。
[0011] 作为优选,所述步骤(2)中的CS测试步骤包括:
[0012] (1)按照规则级别从高到低分别对规则集R中的规则r计算可信度;
[0013] (2)比较规则r的可信度与其祖先规则可信度大小,选取所有可信度大于其祖先规则的规则组成新的规则集Rt;
[0014] (3)对Rt中的所有规则进行X2测试;
[0015] (4)若规则的X2值大于T,则标记为有用规则;反之,则标记为无用规则。
[0016] 作为优选,所述规则集R包括所有满足支持度与可信度的规则。
[0017] 本发明的有益效果在于:(1)提高了关联规则挖掘的准确性和易用性;(2)保持关联规则集的完整性,对关键规则集进行囊括;(3)删除了用户不感兴趣的规则冗余的规则。

附图说明

[0018] 图1是本发明方法的方法步骤流程图。

具体实施方式

[0019] 下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
[0020] 实施例:如图1所示,一种基于电力调度数据的数据挖掘算法,具体包括以下步骤:
[0021] (1)对电力调度数据根据关联规则进行数据挖掘,挖掘得到规则集R,S为满足支2
持度阈值的项目的集合,并设该集合的X 检验的显著水平为T;
[0022] (2)对规则集R进行CS测试,根据测试结果把所有规则分为有用规则和无用规则;
[0023] (3)删除无用规则,并对有用规则进行分类测试,得到代表规则r;
[0024] (4)按照规则级别从高到低将代表规则r进行排列,形成代表规则集Rd;
[0025] (5)把原始规则集R中除去代表规则集Rd的规则形成非代表规则集Rnd。
[0026] 输入:使用关联规则算法挖掘所得的规则集R,满足支持度阈值的项目的集合2
S(480项),对应一定显著水平T的Ⅹ 值(记为T)。
[0027] 输出:代表规则集Rd,非代表规则集Rnd。
[0028] 步骤1:for i=1 to n do
[0029] 步骤2:for each r(X→y∈R)of level_i do
[0030] 步骤3:chi_squ_test(r,R,S,T)
[0031] 步骤4:if(r.prune=0)and(r.dele_ance=NIL)then Rtemp←Rtemp∪{r}endif[0032] 步骤5:end_for
[0033] 步骤6:if(Rtemp≠NIL)then
[0034] 步骤7:Classification(Rtemp,R)
[0035] 步骤8:Rd←Rd∪Rtemp
[0036] 步骤9:end_if
[0037] 步骤10:end_for
[0038] 步骤11:Rnd={r∈R-Rd|r.prune=0}
[0039] 规则集R包括所有满足支持度与可信度阈值的规则,S中包括所有满足最小支持度限制的项目,代表规则集Rd与非代表规则集Rnd的初值为空。步骤1-10步,对1级到n级的规则执行修剪与分类操作,n为规则级别的最大值。步骤的第3步执行过程chi_squ_test对当前规则r的意义进行测试。若r被删除,则chi_squ_test将r.prune设为1;否则设为0。第4步判断如果r.prune为0且r的dele_ance域(即r的最近满足规则的集合)为空,则r即为代表规则,将r加入临时代表规则集(Rtemp)。算法的第6步判断Rtemp是否为空,如果不为空,则算法第7步执行过程Classification对级别为i的代表规则进行分类。算法第8步将经过分类的第i级代表规则加入代表规则集Rd。算法的第11步形成非代表规则集Rnd。
[0040] 以下是chi_squ_test(r,R,S,T)的具体步骤如下:
[0041] 步骤12:for i=level_r-1 to 0 do
[0042] 步骤13:for each(ra|ra∈R∪S)and( )and(ra.cons=r.cons)and(ra.prune=0)of level_i do
[0043] 步骤14:if(r.conf>ra.conf)then
[0044] 步骤15:test_count++2
[0045] 步骤16:if(X(r,ra)>T)then
[0046] 步骤17:r.prune=0
[0047] 步骤18:if( )then r.dele_ance=r.dele_ance∪ra;endif
[0048] 步骤19:endif
[0049] 步骤20:endif
[0050] 步骤21:endfor
[0051] 步骤22:if test_count>0 then exit_for;endif
[0052] 步骤23:endfor
[0053] 步骤的第12-23步对r的祖先规则由高级别向低级别测试。第12-22步对r的第i级祖先规则进行测试,第13步中r.ante是规则r的前提,r.cons是规则r的结论;第14步判断r的可信度是大于此祖先规则;若成立,第15步进行将测试计数加1(test_count初2
值为0);第16步进行Ⅹ 测试,如果结果大于T,则第17步将r标记为不可删除,即r.prune=0(r.prune初值为1);第18步判断ra是否是无前提规则,如果不是,则将ra放入r的dele_ance集(r的最近满足规则的集合);第22步判断r是否已被测试,若是,可结束测试;否则,继续对下一级别祖先规则进行测试。
[0054] 以下是Classification(Rtemp,R)的具体步骤如下:
[0055] 步骤24:While(r∈Rtemp,且r未被用户分类)and(用户想继续进行分类)do[0056] 步骤25:r=SelectRule(Rtemp)
[0057] 步骤26:c=UserClassification(r)
[0058] 步骤27:ProcessRule(c,r,Rtemp,R)
[0059] 步骤28:End while
[0060] 步骤第25步执行过程Select Rule选择一条代表规则r,为提高效率,每次选择的是未经用户分类且家族最大(规则最多)的代表规则。步骤第26步将r提交用户进行分类。步骤第27步,根据r的类别c对r的家进行处理。
[0061] 表1是支持度阈值为1%,显著水平为5%时不同电力调度数据时的实验结果。比较第2列和第3列可以看出:经本发明算法处理后的规则集要比使用传统方法所产生的初始规则集小得多,大量冗余规则被删除。从第4列和第5列可以看出:代表规则集的规模相当小,且大多数为1级规则,用户使用起来很方便。
[0062]
[0063] 表1
[0064] 当支持度阈值为1%,显著水平为5%,记录电力调度数据为100000条数据时,算法处理后得到33条代表规则,其中存在这样一条代表规则r:气温∈[15,20]、地区日用电量∈[125000,130000](1.94%,62.17%)(括号中的第一个元素表示该规则的支持度,第二个元素表示可信度)。r的家族的初始大小为15,算法处理后r的族的大小为6,其中r的一条后裔规则r1:气温∈[15,20]、地区类型=小城镇、地区日用电量∈[125000,130000]2 2
(1.18%,63.44%),其Ⅹ 检验值为1.75,小于对应显著水平为5%时的X(检验值为
2
3.84),且r1相对于规则:地区类型=小城镇、地区日用电量的Ⅹ 检验值也小于3.84,因此算法处理后r1被删除。
[0065] 表2为电力调度数据为800000条数据时,不同支持度与显著水平阈值下的实验结果。从表中可以看出:当支持度阈值增加时,所生成的代表规则数减小;而当显著水平变为10%时,所生成的代表规则增多。
[0066]
[0067] 表2
[0068] 以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用