一种电能质量数据处理方法转让专利

申请号 : CN202210974309.5

文献号 : CN115048434B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 俞友谊金耘岭叶细宝王巍任小宝姚宏宇刘田翠

申请人 : 南京灿能电力自动化股份有限公司

摘要 :

本发明公开了一种电能质量数据处理方法,包括,采集电能质量监测系统中的历史电能质量数据并对其进行类别划分,形成不同类别的数据集;利用格拉布斯策略对所述数据集进行异常值检测,若存在异常值,则剔除所述异常值;将经过异常值检测的所述数据集进行数据无量纲化操作,获得同一规格的数据值,得到唯一无量纲的纯数据值的集合;基于二阶优化技术构建优化模型,代入所述集合进行数据值优化,直接找到梯度为0的点,快速收敛,输出高效优化的电能质量数据。本发明解决了海量数据不能一次性读取、存储的问题,提高了优化模型运算的稳定性、运算效率和速度,使不同规格的数据转换到同一规格,消除了变量间变异程度的差异。

权利要求 :

1.一种电能质量数据处理方法,其特征在于:包括,采集电能质量监测系统中的历史电能质量数据并对其进行类别划分,形成不同类别的数据集;

利用格拉布斯策略对所述数据集进行异常值检测,若存在异常值,则剔除所述异常值;

将经过异常值检测的所述数据集进行数据无量纲化操作,获得同一规格的数据值,得到唯一无量纲的纯数据值的集合;

基于二阶优化技术构建优化模型,代入所述集合进行数据值优化,直接找到梯度为0的点,快速收敛,输出高效优化的电能质量数据;

进行所述类别划分之前还包括,

利用电能质量监测系统采集海量的所述历史电能质量数据;

结合哈希算法计算所述历史电能质量数据中每一条数据的哈希值;

根据所述哈希值将其分布存储至多个桶中;

对所述多个桶进行归并处理;

利用哈希函数将历史电能质量数据映射至桶中进行分布式存储,算法如下:其中, 为第i条数据,i为常数, 为桶标号,n为要设置的桶数量;

桶数量设置的基本原则包括,每个桶的大小比读取内存限制要小,处理步骤包括:(1)依次遍历这些桶,通过hash映射,将每个桶的每条数据映射到新构造的多个小桶中;

(2)依次统计每个小桶中出现次数最多的k条数据,构成hash表,hash表中每个键值对的形式为 dataItem: count;

(3)利用堆排序,依次遍历这些hash表,在n∗k条数据中,找出count值最大的k;

(4)堆排序的时间复杂度为nklog(k);

所述异常值检测包括,

将所述数据集中的变量按照其值从小到大的顺序进行排序;

计算平均值、标准差和偏离值;

确定一个可疑值,即偏离所述平均值最大的值;

计算所述可疑值的统计量,将所述统计量与格拉布斯表给出的临界值进行比较,若所述统计量大于所述临界值,则所述可疑值即为异常值,直接剔除;

所述数据无量纲化操作包括,

利用标准化方法将所述数据集中的变量的每个值与其平均值之差除以所述变量的标准差;

无量钢化后,所述变量的平均值为0,标准差为1;

对无量纲化后的所述变量进行卡方校验,以提升所述优化模型的稳定性;

所述卡方校验包括,根据变量值大小进行排列,将每个值作为一个组,计算每一对相邻组的卡方值,合并其中最小的一对组合,循环迭代,直到满足设定的将连续变量分为5组的条件时结束;

输出最终校验结果,获得同一规格的数据值,得到所述唯一无量纲的纯数据值的集合。

2.根据权利要求1所述的电能质量数据处理方法,其特征在于:所述类别划分包括,基于所述归并处理进行数据相关性筛选,根据筛选区间进行类别划分;

所述筛选区间包括:

|r|<0.3 表示低度相关;

0.3≤|r|<0.5 表示中低度相关;

0.5≤|r|<0.8 表示中度相关;

0.8≤|r|<1.0 表示高度相关;

其中,|r|为数据相关性的绝对值。

3.根据权利要求2所述的电能质量数据处理方法,其特征在于:形成不同类别的数据集包括,根据所述筛选区间自适应生成低度相关数据集、中低度相关数据集、中度相关数据集和高度相关数据集。

4.根据权利要求3所述的电能质量数据处理方法,其特征在于:构建所述优化模型包括,其中,H为Hessian矩阵,为梯度向量,X为需要优化的参数,即代入的所述集合,为全局学习率,j=1、2……n。

5.根据权利要求4所述的电能质量数据处理方法,其特征在于:还包括,其中,d为牛顿方向,即该方程的解,当梯度值 充分接近于0时,或达到最大指定迭代次数时,则迭代终止。

说明书 :

一种电能质量数据处理方法

技术领域

[0001] 本发明涉及电能质量参数优化计算的技术领域,尤其涉及一种电能质量数据处理方法。

背景技术

[0002] 电能质量包括四个方面的相关术语和概念:电压质量即用实际电压与额定电压间的偏差(偏差含电压幅值,波形和相位的偏差),反映供电企业向用户供给的电力是否合格;电流质量即对用户取用电流提出恒定频率、正弦波形要求,并使电流波形与供电电压同相位,以保证系统以高功率因数运行,这个定义有助于电网电能质量的改善,并降低网损;供电质量包含技术含义和非技术含义两个方面:技术含义有电压质量和供电可靠性;非技术含义是指服务质量包括供电企业对用户投诉的反应速度和电力价格等;用电质量包括电流质量和非技术含义,如用户是否按时、如数缴纳电费等,它反映供用双方相互作用与影响用电方的责任和义务。
[0003] 近年来,电力系统中各种类型的非线性、冲击性和不对称性负荷的不断增加,使得电网中的谐波污染、三相电压不平衡、电压波动和闪变等电能质量问题日趋严重;电能质量差不利于电力系统安全运行,会加速设备的绝缘老化、缩短电气设备的使用寿命、增加电网损耗、降低电气设备的效率和利用率、影响继电保护和自动装置以及通信系统的正常运行,并给对电能质量要求较高的行业带来严重的经济损失。

发明内容

[0004] 在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
[0005] 鉴于上述现有存在的问题,提出了本发明。
[0006] 为解决上述技术问题,本发明提供如下技术方案:包括,采集电能质量监测系统中的历史电能质量数据并对其进行类别划分,形成不同类别的数据集;利用格拉布斯策略对所述数据集进行异常值检测,若存在异常值,则剔除所述异常值;将经过异常值检测的所述数据集进行数据无量纲化操作,获得同一规格的数据值,得到唯一无量纲的纯数据值的集合;基于二阶优化技术构建优化模型,代入所述集合进行数据值优化,直接找到梯度为0的点,快速收敛,输出高效优化的电能质量数据。
[0007] 作为本发明所述的电能质量数据处理方法的一种优选方案,其中:进行所述类别划分之前还包括,
[0008] 利用电能质量监测系统采集海量的所述历史电能质量数据;
[0009] 结合哈希算法计算所述历史电能质量数据中每一条数据的哈希值;
[0010] 根据所述哈希值将其分布存储至多个桶中;
[0011] 对所述多个桶进行归并处理。
[0012] 作为本发明所述的电能质量数据处理方法的一种优选方案,其中:所述类别划分包括,
[0013] 基于所述归并处理进行数据相关性筛选,根据筛选区间进行类别划分;
[0014] 所述筛选区间包括:
[0015] |r|<0.3 表示低度相关;
[0016] 0.3≤|r|<0.5 表示中低度相关;
[0017] 0.5≤|r|<0.8 表示中度相关;
[0018] 0.8≤|r|<1.0 表示高度相关;
[0019] 其中,|r|为数据相关性的绝对值。
[0020] 作为本发明所述的电能质量数据处理方法的一种优选方案,其中:形成不同类别的数据集包括,
[0021] 根据所述筛选区间自适应生成低度相关数据集、中低度相关数据集、中度相关数据集和高度相关数据集。
[0022] 作为本发明所述的电能质量数据处理方法的一种优选方案,其中:所述异常值检测包括,
[0023] 将所述数据集中的变量按照其值从小到大的顺序进行排序;
[0024] 计算平均值、标准差和偏离值;
[0025] 确定一个可疑值,即偏离所述平均值最大的值;
[0026] 计算所述可疑值的统计量,将所述统计量与格拉布斯表给出的临界值进行比较,若所述统计量大于所述临界值,则所述可疑值即为异常值,直接剔除。
[0027] 作为本发明所述的电能质量数据处理方法的一种优选方案,其中:所述数据无量纲化操作包括,
[0028] 利用标准化方法将所述数据集中的变量的每个值与其平均值之差除以所述变量的标准差;
[0029] 无量钢化后,所述变量的平均值为0,标准差为1。
[0030] 作为本发明所述的电能质量数据处理方法的一种优选方案,其中:还包括,[0031] 对无量纲化后的所述变量进行卡方校验,以提升所述优化模型的稳定性;
[0032] 所述卡方校验包括,根据变量值大小进行排列,将每个值作为一个组,计算每一对相邻组的卡方值,合并其中最小的一对组合,循环迭代,直到满足设定的将连续变量分为5组的条件时结束;
[0033] 输出最终校验结果,获得同一规格的数据值,得到所述唯一无量纲的纯数据值的集合。
[0034] 作为本发明所述的电能质量数据处理方法的一种优选方案,其中:构建所述优化模型包括,
[0035]
[0036] 其中,H为Hessian矩阵,为梯度向量,X为需要优化的参数,即代入的所述集合,为全局学习率,j=1、2……n。
[0037] 作为本发明所述的电能质量数据处理方法的一种优选方案,其中:还包括,[0038]
[0039] 其中,d为牛顿方向,即该方程的解,当梯度值 充分接近于0时,或达到最大指定迭代次数时,则迭代终止。
[0040] 本发明的有益效果:本发明通过特殊的类别划分方法,解决了海量数据不能一次性读取、存储的问题;一方面,特殊的相关性筛选和异常值检测的处理,提高了优化模型运算的稳定性、运算效率和速度;另一方面,无量纲化使不同规格的数据转换到同一规格,消除了变量间变异程度的差异,且结合二阶优化算法加快了收敛速度,高效运算的同时,还提高了数据的精准度。

附图说明

[0041] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0042] 图1为本发明一种实施例所述的电能质量数据处理方法的流程示意图;
[0043] 图2为本发明一种实施例所述的电能质量数据处理方法的归并处理流程示意图;
[0044] 图3为本发明一种实施例所述的电能质量数据处理方法的迭代优化后的数据离散化分布示意图。

具体实施方式

[0045] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
[0046] 在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0047] 其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0048] 本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0049] 同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0050] 本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0051] 实施例1
[0052] 目前,各个电能质量监测装置生产商的数据规范未形成统一标准,造成获取的电能质量数据互不兼容,形成电能质量数据的信息‘孤岛’,极大地增加了电能质量数据的利用和处理成本,提升了电能质量的计算复杂性,造成各项指标不平衡,为此,本实施例提出一种高效优化不同数据格式的电能质量数据处理方法。
[0053] 参照图1 图3,为本发明的一种实施例,提供了一种电能质量数据处理方法,具体~包括:
[0054] S1:采集电能质量监测系统中的历史电能质量数据并对其进行类别划分,形成不同类别的数据集。其中需要说明的是,进行类别划分之前还包括:
[0055] 利用电能质量监测系统采集海量的历史电能质量数据;
[0056] 结合哈希算法计算历史电能质量数据中每一条数据的哈希值;
[0057] 根据哈希值将其分布存储至多个桶中;
[0058] 对多个桶进行归并处理。
[0059] 参照图2,利用哈希函数将历史电能质量数据映射至桶中进行分布式存储,算法如下:
[0060]
[0061] 其中, 为第i条数据,i为常数, 为桶标号,n为要设置的桶数量;
[0062] 桶数量设置的基本原则包括,每个桶的大小比读取内存限制要小,例如:处理1G的大文件,内存限制为1M,那就可以把大文件分成2000个小文件(甚至更多),这样每个小文件的大小约500K(甚至更小),就可以轻松读入内存处理了。
[0063] 具体的,处理步骤包括:
[0064] (1)依次遍历这些桶,通过hash映射,将每个桶的每条数据映射到新构造的多个小桶中(假定生成了n个小桶);
[0065] (2)依次统计每个小桶中出现次数最多的k条数据,构成hash表,hash表中每个键值对的形式为 dataItem: count;
[0066] (3)利用堆排序,依次遍历这些hash表,在n∗k条数据中,找出count值最大的k;
[0067] (4)堆排序的时间复杂度为nklog(k)。
[0068] 需要说明的是,本实施例使用了堆排序,降低了时间复杂度上的处理,因此提高了处理步骤中的排序效率。
[0069] 进一步的,类别划分包括:
[0070] 基于归并处理进行数据相关性筛选,根据筛选区间进行类别划分;
[0071] 筛选区间包括:
[0072] |r|<0.3 表示低度相关;
[0073] 0.3≤|r|<0.5 表示中低度相关;
[0074] 0.5≤|r|<0.8 表示中度相关;
[0075] 0.8≤|r|<1.0 表示高度相关;
[0076] 其中,|r|为数据相关性的绝对值。
[0077] 再进一步的,形成不同类别的数据集包括:
[0078] 根据筛选区间自适应生成低度相关数据集、中低度相关数据集、中度相关数据集和高度相关数据集。
[0079] 优选的,本实施例还需要说明的是,通过数据相关性的筛选计算,自适应形成所属筛选区间的不同相关度数据集,极大地提高了优化模型运算的稳定性、运算效率和速度。
[0080] S2:利用格拉布斯策略对数据集进行异常值检测,若存在异常值,则剔除异常值。本步骤需要说明的是,异常值检测包括:
[0081] 将数据集中的变量按照其值从小到大的顺序进行排序;
[0082] 计算平均值、标准差和偏离值;
[0083] 确定一个可疑值,即偏离平均值最大的值;
[0084] 计算可疑值的统计量,将统计量与格拉布斯表给出的临界值进行比较,若统计量大于临界值,则可疑值即为异常值,直接剔除。
[0085] 具体的,计算表达式如下:
[0086]
[0087]
[0088] 其中,S为标准差,为平均值, 为统计量,偏离值为平均值与最大值之差和平均值与最小值之差,i为可疑值的序列号,n为测量次数。
[0089] S3:将经过异常值检测的数据集进行数据无量纲化操作,获得同一规格的数据值,得到唯一无量纲的纯数据值的集合。其中还需要说明的是,数据无量纲化操作包括:
[0090] 利用标准化方法将数据集中的变量的每个值与其平均值之差除以变量的标准差;
[0091] 无量钢化后,变量的平均值为0,标准差为1;
[0092] 对无量纲化后的变量进行卡方校验,以提升优化模型的稳定性;
[0093] 卡方校验包括,根据变量值大小进行排列,将每个值作为一个组,计算每一对相邻组的卡方值,合并其中最小的一对组合,循环迭代,直到满足设定的将连续变量分为5组的条件时结束;
[0094] 输出最终校验结果,获得同一规格的数据值,得到唯一无量纲的纯数据值的集合。
[0095] 优选的,无量纲化使不同规格的数据转换到同一规格,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权,本实施例使用该方法无量纲化后不同变量间的均值和标准差都相同,即同时消除了变量间变异程度上的差异。
[0096] S4:基于二阶优化技术构建优化模型,代入集合进行数据值优化,直接找到梯度为0的点,快速收敛,输出高效优化的电能质量数据。本步骤还需要说明的是,构建优化模型包括:
[0097]
[0098] 其中,H为Hessian矩阵,为梯度向量,X为需要优化的参数,即代入的集合,为全局学习率,j=1、2……n;
[0099]
[0100] 其中,d为牛顿方向,即该方程的解,当梯度值 充分接近于0时,或达到最大指定迭代次数时,则迭代终止。
[0101] 优选的是,将本实施例进行优化处理的电能质量数据导入仿真模拟平台中进行模拟运行,输出得到如图3所示的离散化分布示意图,图3中的“+”表示优化迭代的d值,从图中能够直观的看出,处于[60,80]区间的d值最为密集,而处于[140,160]区间的d值最为稀疏;即本实施例通过无量纲化使不同规格的数据转换到同一规格,消除了变量间变异程度的差异,且结合二阶优化算法加快了收敛速度,高效运算的同时,还提高了数据的精准度。
[0102] 应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。