聚类方法中基于信息熵的聚类数目优化方法转让专利

申请号 : CN201910383553.2

文献号 : CN110276373A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄明胜韦锋杨金华王鑫严宪平李翠珍马鑫

申请人 : 贵州电网有限责任公司

摘要 :

本发明公开了一种聚类方法中基于信息熵的聚类数目优化方法,在所述聚类方法中包括样本数据和质心,所述优化方法包括:获取所述样本数据与对应的所述质心之间的质心距离;基于所述质心距离获得所述样本数据的出现概率信息;对所述信息熵进行处理以获得处理后信息熵;对所述处理后信息熵进行离散分布处理以获得离散分布信息熵;基于所述出现概率信息和所述离散分布信息熵获得优化后聚类数目。通过基于信息熵对k-means聚类法中的k值进行优化以获得最佳k值,从而提高运算效率,降低运算复杂度,提高电厂数据的聚类效果。

权利要求 :

1.一种聚类方法中基于信息熵的聚类数目优化方法,在所述聚类方法中包括样本数据和质心,其特征在于,所述优化方法包括:获取所述样本数据与对应的所述质心之间的质心距离;

基于所述质心距离获得所述样本数据的出现概率信息;

对所述信息熵进行处理以获得处理后信息熵;

对所述处理后信息熵进行离散分布处理以获得离散分布信息熵;

基于所述出现概率信息和所述离散分布信息熵获得优化后聚类数目。

2.根据权利要求1所述的优化方法,其特征在于,所述聚类方法为k-means聚类算法,所述获取所述样本数据与对应的所述质心之间的质心距离,包括:基于所述样本数据中获取k个聚类中心,其中所述k为正整数;

获取每个所述样本数据与所述聚类中心的初始距离;

基于所述初始距离对所述样本数据进行分类以获得所述样本数据的多个聚类,其中每个所述聚类包括一个质心;

基于所述质心获得所述样本数据与对应的所述质心之间的质心距离。

3.根据权利要求2所述的优化方法,其特征在于,所述基于所述质心距离获得所述样本数据的出现概率信息,包括:基于所述质心距离获得所述样本数据的出现概率信息,所述出现概率信息表征为:其中,x为样本数据、μ为质心、a为所述样本数据与所述质心的距离最小值、b为所述样本数据与所述质心的距离最大值、 为标准正太分布函数、Φ()为标准正太分布函数的累计分布函数。

4.根据权利要求3所述的优化方法,其特征在于,所述优化方法还包括:基于所述距离最小值和所述距离最大值确定区间长度Δ;

基于所述区间长度Δ对所述出现概率信息进行优化,以获得优化后出现概率信息,所述优化后出现概率信息表征为:

5.根据权利要求4所述的优化方法,其特征在于,所述对所述信息熵进行处理以获得处理后信息熵,包括:获取所述样本数据的信息熵,所述信息熵表征为:其中,X为所述样本数据所包含的可能状态、NX为所述样本数据的状态数、pi为第i个样本数据状态发生的概率,i为正整数;

对所述信息熵进行加权处理以获得所述样本数据的加权熵,所述加权熵表征为:其中Mk为第k类聚类的样本数据的样本数量、MA为样本数据的总数量;

将所述加权熵作为处理后信息熵。

6.根据权利要求5所述的优化方法,其特征在于,所述对所述处理后信息熵进行离散分布处理以获得离散分布信息熵,包括:获取离散分布均匀模型,所述离散分布均匀模型表征为:其中,为在每个所述聚类中任意一个样本数据i与对应的所述质心的平均距离;

基于所述离散分布均匀模型对所述处理后信息熵进行离散分布处理以获得离散分布信息熵,所述离散分布信息熵表征为:其中,

7.根据权利要求6所述的优化方法,其特征在于,所述基于所述出现概率信息和所述离散分布信息熵获得优化后聚类数目,包括:基于所述出现概率信息和所述离散分布信息熵生成间隙信息EGap,所述间隙信息EGap表征为:;

基于所述间隙信息EGap获得聚类数目k;

获取所述聚类数目k的最小值,并将所述最小值确定为优化后聚类数目。

8.根据权利要求7所述的优化方法,其特征在于,所述基于所述间隙信息EGap获得聚类数目k,包括:基于所述间隙信息EGap生成优化公式:基于所述优化公式获得聚类数目k。

说明书 :

聚类方法中基于信息熵的聚类数目优化方法

技术领域

[0001] 本发明涉及电力系统技术领域,具体地涉及一种聚类方法中基于信息熵的聚类数目优化方法。

背景技术

[0002] 为提高微电网中可再生能源的能耗,减轻其接入电网时对电能质量造成的影响,保证可靠供电,现有技术中主要采用微电网的形式进行可再生能源的消纳。由于微电网具有可再生能源渗透率高的特点,同时也是最为贴近用户侧的供能系统,因此微电网的运行通常面临着源-荷双重不确定性的威胁,对微电网的安全运行造成了极大的影响。
[0003] 为了解决上述技术问题,技术人员对微电网源侧和荷侧的不确定性进行分析,并用数学形式表征,例如根据源侧和荷侧的不确定性变量进行建模的分析方法,常用的建模分析方法包括随机规划法、模糊规划法及鲁棒优化法。其中随机规划模型的不确定性表征方法主要有以下三种:基于概率分布的场景生成法、基于典型日的场景筛选法以及基于聚类技术的场景生成法(例如k-means聚类法)。
[0004] 然而在实际应用过程中,以上各种方法均存在缺陷,例如基于聚类技术的场景生成法(k-means聚类法)由于需要预先给出k值的具体参数,而现有技术中往往通过人为给出,因此引入了人为主观而影响了聚类效果的精确性和客观性;而通过对k值进行自适应优化也进一步加大了算法的复杂程度,降低了运算效率,因此无法满足现有需求。

发明内容

[0005] 为了克服现有技术中k-means聚类法中k值选取不精确导致运算复杂度高、运算效率低的技术问题,本发明实施例提供一种聚类方法中基于信息熵的聚类数目优化方法,通过基于信息熵对k-means聚类法中的k值进行优化以获得最佳k值,从而提高运算效率,降低运算复杂度,提高电厂数据的聚类效果。
[0006] 为了实现上述目的,本发明实施例提供一种聚类方法中基于信息熵的聚类数目优化方法,在所述聚类方法中包括样本数据和质心,所述优化方法包括:获取所述样本数据与对应的所述质心之间的质心距离;基于所述质心距离获得所述样本数据的出现概率信息;对所述信息熵进行处理以获得处理后信息熵;对所述处理后信息熵进行离散分布处理以获得离散分布信息熵;基于所述出现概率信息和所述离散分布信息熵获得优化后聚类数目。
[0007] 优选地,所述聚类方法为k-means聚类算法,所述获取所述样本数据与对应的所述质心之间的质心距离,包括:基于所述样本数据中获取k个聚类中心,其中所述k为正整数;获取每个所述样本数据与所述聚类中心的初始距离;基于所述初始距离对所述样本数据进行分类以获得所述样本数据的多个聚类,其中每个所述聚类包括一个质心;基于所述质心获得所述样本数据与对应的所述质心之间的质心距离。
[0008] 优选地,所述基于所述质心距离获得所述样本数据的出现概率信息,包括:基于所述质心距离获得所述样本数据的出现概率信息,所述出现概率信息表征为:其中,x为样本数据、μ为质心、a为所述样本数据与所述质
心的距离最小值、b为所述样本数据与所述质心的距离最大值、 为标准正太分布函数、Φ()为标准正太分布函数的累计分布函数。
[0009] 优选地,所述优化方法还包括:基于所述距离最小值和所述距离最大值确定区间长度Δ;基于所述区间长度Δ对所述出现概率信息进行优化,以获得优化后出现概率信息,所述优化后出现概率信息表征为:
[0010] 优选地,对所述信息熵进行处理以获得处理后信息熵,包括:获取所述样本数据的信息熵,所述信息熵表征为: 其中,X为所述样本数据所包含的可能状态、NX为所述样本数据的状态数、pi为第i个样本数据状态发生的概率,i为正整数;对所述信息熵进行加权处理以获得所述样本数据的加权熵,所述加权熵表征为:
其中Mk为第k类聚类的样本数据的样本数量、MA为样本数据的总数量;将所述加权熵作为处理后信息熵。
[0011] 优选地,所述对所述处理后信息熵进行离散分布处理以获得离散分布信息熵,包括:获取离散分布均匀模型,所述离散分布均匀模型表征为: 其中, 为在每个所述聚类中任意一个样本数据i与对应的所述质心的平均距离;基于所述离散分布均匀模型对所述处理后信息熵进行离散分布处理以获得离散分布信息熵,所述离散分布信息熵表征为: 其中,
[0012] 优选地,所述基于所述出现概率信息和所述离散分布信息熵获得优化后聚类数目,包括:基于所述出现概率信息和所述离散分布信息熵生成间隙信息EGap,所述间隙信息EGap表征为: 基于所述间隙信息EGap获得聚类数目k;获取所述聚类数目k的最小值,并将所述最小值确定为优化后聚类数目。
[0013] 优选地,所述基于所述间隙信息EGap获得聚类数目k,包括:基于所述间隙信息EGap生成优化公式: 基于所述优化公式获得聚类数目k。
[0014] 通过本发明提供的技术方案,本发明至少具有如下技术效果:
[0015] 通过对传统的k-means聚类法进行优化处理,基于信息熵对k-means聚类法中的k值进行优化以获得k值的表征方式,并取k值的最小值以获得最佳k值,从而大大提高了运算效率,降低了运算复杂度,并进而提高了电厂数据的聚类效果,使得光伏、风电、负荷的历史数据处理达到更加客观和更加科学的聚类效果。
[0016] 本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

[0017] 附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
[0018] 图1是本发明实施例提供的聚类方法中基于信息熵的聚类数目优化方法的具体实现流程图。

具体实施方式

[0019] 为了克服现有技术中k-means聚类法中k值选取不精确导致运算复杂度高、运算效率低的技术问题,本发明实施例提供一种聚类方法中基于信息熵的聚类数目优化方法,通过基于信息熵对k-means聚类法中的k值进行优化以获得最佳k值,从而提高运算效率,降低运算复杂度,提高电厂数据的聚类效果。
[0020] 以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
[0021] 本发明实施例中的术语“系统”和“网络”可被互换使用。“多个”是指两个或两个以上,鉴于此,本发明实施例中也可以将“多个”理解为“至少两个”。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。另外,需要理解的是,在本发明实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
[0022] 下面首先介绍本发明的背景技术。
[0023] 由于在电厂运营管理的过程中,会产生大量监控数据和运算数据,若直接对监控数据和运算数据进行运算会大大增加运算的复杂度和降低运算效率,因此需要对监控数据和运算数据进行分析处理,以提高运算效率和降低运算复杂度。
[0024] 在现有技术中可以采用基于k-means聚类法对监控数据和运算数据进行处理,例如电厂控制系统在获取到所有的监控数据和运算数据后,首先从所有数据中随机选取(或根据技术人员的经验人为选取)k个数据作为初始的聚类中心,此时电厂监控系统计算每个数据与初始的聚类中心之间的距离,并把每个数据都分配给与该数据距离最短的初始的聚类中心,按照上述步骤不断循环,直至满足预设的终止条件,即确认完成对当前所有数据的聚类操作,通过该聚类操作,能够将所有数据有效地分配为多个聚类,从而便于电厂控制系统进行运算,降低了运算复杂度,提高了运算效率。
[0025] 然而在实际应用过程中,由于传统的k-means聚类法中k值是随机选取或人为选取,因此无法k值选取的精确性较低,依然无法实现运算的最优化,尤其在应用到电厂等数据量较大的技术领域,依然会增加运算的复杂度和降低运算效率,无法达到现有技术的实际需求。
[0026] 请参见图1,本发明实施例提供一种聚类方法中基于信息熵的聚类数目优化方法,在所述聚类方法中包括样本数据和质心,所述优化方法包括:
[0027] S10)获取所述样本数据与对应的所述质心之间的质心距离;
[0028] S20)基于所述质心距离获得所述样本数据的出现概率信息;
[0029] S30)对所述信息熵进行处理以获得处理后信息熵;
[0030] S40)对所述处理后信息熵进行离散分布处理以获得离散分布信息熵;
[0031] S50)基于所述出现概率信息和所述离散分布信息熵获得优化后聚类数目。
[0032] 在一种可能的实施方式中,在一次电厂的运行监控过程中,电厂控制系统监控到8个数据,为了对每个数据进行更快和更精确的分析,电厂控制系统首先对上述数据进行聚类,而在进行聚类分析之前,电厂控制系统首先根据上述数据计算最优的聚类数目。
[0033] 首先假设在上述数据中存在j个聚类(即上述数据的聚类数目为j),其中j为正整数,因此可以获得在第j个聚类中的样本数据与第j个聚类的质心之间的质心距离,进一步地,根据该质心距离可以获得第j个聚类中的样本数据的出现概率信息。此时电厂控制系统进一步获取信息熵的表征方式,然后对该信息熵的表征方式进行处理,例如进行加权处理,以获得加权熵,并将该加权熵作为处理后信息熵,此时进一步的,对该处理后信息熵进行进一步的离散分布处理,以获得离散分布信息熵。此时电厂控制系统根据该出现概率信息和离散分布信息熵对获取到的上述数据进行运算,以获得j值的表征方式,此时电厂控制系统进一步计算j值的最小值,从而获得最佳j值,即获得了优化后聚类数目。
[0034] 在本发明实施例中,通过首先对上述数据中每个数据的出现概率进行表征,从而直观地获取到每个数据的出现概率信息,然后基于每个数据的信息熵对该信息熵进行加权和离散均匀分布处理后获得每类数据离散分布信息熵,此时结合每个数据的出现概率信息就能够快速生成聚类数目的表征方式,根据该聚类数目的表征方式取聚类数目的最小值就得到了上述数据的最佳聚类数目,即优化后聚类数目,从而提高了对聚类数目的选取的精确性和客观性,降低了电厂控制系统的运算复杂度,提高了运算效率,提高了用户体验。
[0035] 在本发明实施例中,所述聚类方法为k-means聚类算法,所述获取所述样本数据与对应的所述质心之间的质心距离,包括:基于所述样本数据中获取k个聚类中心,其中所述k为正整数;获取每个所述样本数据与所述聚类中心的初始距离;基于所述初始距离对所述样本数据进行分类以获得所述样本数据的多个聚类,其中每个所述聚类包括一个质心;基于所述质心获得所述样本数据与对应的所述质心之间的质心距离。
[0036] 在本发明实施例中,所述基于所述质心距离获得所述样本数据的出现概率信息,包括:基于所述质心距离获得所述样本数据的出现概率信息,所述出现概率信息表征为:其中,σ为标准差、x为样本数据、μ为质心、a为所述样本
数据与所述质心的距离最小值、b为所述样本数据与所述质心的距离最大值、 为标准正太分布函数、Φ()为标准正太分布函数的累计分布函数。
[0037] 在一种可能的实施方式中,电厂控制系统获取到8个数据,分别为A、B、C、…H,并在8个数据中选定样本数据C和样本数据E作为初始的质心,其中样本数据A和质心C相对应,因此对于样本数据A的出现概率信息可以表征为:
[0038]
[0039] 进一步地,在本发明实施例中,所述优化方法还包括:基于所述距离最小值和所述距离最大值确定区间长度Δ;基于所述区间长度Δ对所述出现概率信息进行优化,以获得优化后出现概率信息,所述优化后出现概率信息表征为:
[0040] 在本发明实施例中,通过基于截断正态分布模型获得每个样本数据的出现概率,从而对每个样本数据的出现概率信息进行了更精确和更分布化的表征,便于后期根据每个样本数据的分布规律和出现规律进行最优值的计算,提高了k值的选取精确性,进一步的,通过确定区间长度以将每个样本数据的出现概率信息进行进一步的优化,从而进一步优化对每个样本数据的出现概率信息的运算复杂度,提高了运算效率。
[0041] 在本发明实施例中,对所述信息熵进行处理以获得处理后信息熵,包括:获取所述样本数据的信息熵,所述信息熵表征为: 其中,X为所述样本数据所包含的可能状态、NX为所述样本数据的状态数、pi为第i个样本数据状态发生的概率,i为正整数;对所述信息熵进行加权处理以获得所述样本数据的加权熵,所述加权熵表征为:
其中Mk为第k类聚类的样本数据的样本数量、MA为样本数据的总
数量;将所述加权熵作为处理后信息熵。
[0042] 在本发明实施例中,通过对样本数据的信息熵进行加权处理以获得加权熵,在传统k-means聚类的基础上考虑样本的权重差异,加强关联性大的属性或减弱关联性小的属性,缩小样本波动范围,提高在计算样本间距离时的效果,从而提高后续聚类优化的效果。
[0043] 在本发明实施例中,所述对所述处理后信息熵进行离散分布处理以获得离散分布信息熵,包括:获取离散分布均匀模型,所述离散分布均匀模型表征为: 其中,为在每个所述聚类中任意一个样本数据i与对应的所述质心的平均距离;基于所述离散分布均匀模型对所述处理后信息熵进行离散分布处理以获得离散分布信息熵,所述离散分布信息熵表征为: 其中,
[0044] 在本发明实施例中,通过对加权熵进行进一步的离散分布处理以获得该加权熵的离散分布信息熵,由于离散化处理能够更加有利于样本数据存储空间的压缩,从而使得算法更简便、更快速以及更精确,提高了运算效率,提高了运算的精确性。
[0045] 在本发明实施例中,所述基于所述出现概率信息和所述离散分布信息熵获得优化后聚类数目,包括:基于所述出现概率信息和所述离散分布信息熵生成间隙信息EGap,所述间隙信息EGap表征为: 基于所述间隙信息EGap获得聚类数目k;获取所述聚类数目k的最小值,并将所述最小值确定为优化后聚类数目。
[0046] 进一步地,在本发明实施例中,所述基于所述间隙信息EGap获得聚类数目k,包括:基于所述间隙信息EGap生成优化公式: 基于所述优化公式获得聚类数目
k。
[0047] 在本发明实施例中,通过结合出现概率信息和离散分布信息熵对样本数据进行计算,从而获得熵的间隙信息,并根据熵的间隙信息进一步获取到聚类数目的表征方式,此时根据聚类数目的表征方式计算得出聚类数目的最小值,从而获得了最佳聚类数目,即优化后聚类数目。
[0048] 通过实施本发明上述技术方案,能够以更加简单、更加精确的运算复杂度对聚类数目的最佳值进行计算,计算过程具有收敛快的特点,因此运算效率更高,同时全程通过科学的计算方法进行计算,有效避免了人为主观因素的干扰,避免了因人为选取k值而带来的主观偏差以及提高复杂度等技术问题,保证了运算的精确性,提高了运算效率。
[0049] 以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
[0050] 另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
[0051] 此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。