相关变量识别方法和装置转让专利

申请号 : CN201710087590.X

文献号 : CN106940803B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 曾凡刚

申请人 : 平安科技(深圳)有限公司

摘要 :

本发明提出了一种相关变量识别方法,所述方法包括:获取相关系数表,所述相关系数表中记载了多个变量彼此之间的相关系数,查找所述相关系数表中相关系数的绝对值大于预设阈值的目标相关系数,并将所述目标相关系数进行标记,根据所述目标相关系数将相关的多个变量进行聚类归为同一组,并为该组分配一个唯一的组号,根据分组的组号调整所述相关系数表中变量的排列顺序,将具有同一组号的多个变量调整为相邻的变量,将调整后的相关系数表中的具有标记的所述目标相关系数进行突出显示,该方法将多个相关变量聚集在了一起,实现了快速识别多个相关变量,从而提高了数据建模速度。此外,还提出了一种相关变量识别装置。

权利要求 :

1.一种相关变量识别方法,所述方法包括:

获取待处理的相关系数表,所述相关系数表中记载了多个变量彼此之间的相关系数;

查找所述相关系数表中相关系数的绝对值大于预设阈值的相关系数,将所述大于预设阈值的相关系数作为目标相关系数,所述预设阈值为0.75,并将所述目标相关系数进行标记;

根据所述目标相关系数将相关的多个变量进行聚类归为同一组,并为该组分配一个唯一的组号,包括:获取待聚类的目标变量,判断该目标变量是否已经被分组;若所述目标变量已经被分组,则根据所述目标相关系数获取与所述目标变量相关的第一变量以及和所述第一变量组号相同的第二变量,将所述第一变量和第二变量的组号修改为与所述目标变量的组号相同;

若所述目标变量未被分组,则获取与所述目标变量相关的第一变量以及和所述第一变量组号相同的第二变量,按照组号递增的规则将所述目标变量、第一变量以及第二变量的组号统一赋值为G+1,其中,G表示当前的总组数;

将具有同一组号的多个变量调整为相邻的变量,并按照组号的大小从大到小的顺序调整相关系数表中变量的排列顺序;

将调整后的相关系数表中的具有标记的所述目标相关系数进行突出显示,聚集在一起的多个目标相关系数所对应的多个变量为相关变量。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

采用主成分分析从相同组号对应的目标相关系数中筛选出一个代表该组的相关系数。

3.一种相关变量识别装置,其特征在于,所述装置包括:

获取模块,用于获取待处理的相关系数表,所述相关系数表中记载了多个变量彼此之间的相关系数;

查找模块,用于查找所述相关系数表中相关系数的绝对值大于预设阈值的相关系数,将所述大于预设阈值的相关系数作为目标相关系数,所述预设阈值为0.75,并将所述目标相关系数进行标记;

聚类模块,用于根据所述目标相关系数将相关的多个变量进行聚类归为同一组,并为该组分配一个唯一的组号,包括:判断模块,用于获取待聚类的目标变量,判断该目标变量是否已经被分组;

组号修改模块,用于若所述目标变量已经被分组,则根据所述目标相关系数获取与所述目标变量相关的第一变量以及和所述第一变量组号相同的第二变量,将所述第一变量和第二变量的组号修改为与所述目标变量的组号相同;

组号分配模块,用于若所述目标变量未被分组,则获取与所述目标变量相关的第一变量以及和所述第一变量组号相同的第二变量,为所述目标变量、第一变量和第二变量分配一个新的组号;

调整模块,用于根据分组的组号调整所述相关系数表中变量的排列顺序,将具有同一组号的多个变量调整为相邻的变量;

显示模块,用于将调整后的相关系数表中的具有标记的所述目标相关系数进行突出显示,聚集在一起的多个目标相关系数所对应的多个变量为相关变量;

所述组号分配模块还用于若所述目标变量未被分组,则获取与所述目标变量相关的第一变量以及和所述第一变量组号相同的第二变量,按照组号递增的规则将所述目标变量、第一变量以及第二变量的组号统一赋值为G+1,其中,G表示当前的总组数;

所述调整模块还用于将具有同一组号的多个变量调整为相邻的变量,并按照组号的大小从大到小的顺序调整相关系数表中变量的排列顺序。

4.根据权利要求3所述的装置,其特征在于,所述装置还包括:

筛选模块,用于采用主成分分析从相同组号对应的目标相关系数中筛选出一个代表该组的相关系数。

5.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述计算机程序时实现权利要求1-2任意一项所述方法的步骤。

6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-2任意一项所述方法的步骤。

说明书 :

相关变量识别方法和装置

技术领域

[0001] 本发明涉及计算机处理领域,特别是涉及一种相关变量识别方法和装置。

背景技术

[0002] 在数据建模过程中,当变量彼此高度相关时,即相关系数的绝对值很大时,变量会表现出很强的共线性,这时会造成模型失真。所以在建模过程中,一定会处理变量的相关性,传统的处理相关性只能将两个变量相关的数据显示,而三个以上的相关变量则需要人工识别,由于处理的数据往往比较多,通过人工识别无疑会耗时耗力,从而降低了数据建模的速度。

发明内容

[0003] 基于此,有必要针对上述问题,提出一种能够快速识别相关变量的相关变量识别方法和装置。
[0004] 一种相关变量识别方法,所述方法包括:获取待处理的相关系数表,所述相关系数表中记载了多个变量彼此之间的相关系数;查找所述相关系数表中相关系数的绝对值大于预设阈值的相关系数,将所述大于预设阈值的相关系数作为目标相关系数,并将所述目标相关系数进行标记;根据所述目标相关系数将相关的多个变量进行聚类归为同一组,并为该组分配一个唯一的组号;根据分组的组号调整所述相关系数表中变量的排列顺序,将具有同一组号的多个变量调整为相邻的变量;将调整后的相关系数表中的具有标记的所述目标相关系数进行突出显示。
[0005] 在其中一个实施例中,所述根据所述目标相关系数将相关的多个变量进行聚类归为同一组,并为该组分配一个唯一的组号的步骤包括:获取待聚类的目标变量,判断该目标变量是否已经被分组;若所述目标变量已经被分组,则根据所述目标相关系数获取与所述目标变量相关的第一变量以及和所述第一变量组号相同的第二变量,将所述第一变量和第二变量的组号修改为与所述目标变量的组号相同;若所述目标变量未被分组,则根据所述目标相关系数获取与所述目标变量相关的第一变量以及和所述第一变量组号相同的第二变量,为所述目标变量、第一变量和第二变量分配一个新的组号。
[0006] 在其中一个实施例中,所述若所述目标变量未被分组,则获取与所述目标变量相关的第一变量以及和所述第一变量组号相同的第二变量,为所述目标变量、第一变量和第二变量分配一个新的组号的步骤包括:若所述目标变量未被分组,则获取与所述目标变量相关的第一变量以及和所述第一变量组号相同的第二变量;按照组号递增的规则将所述目标变量、第一变量以及第二变量的组号统一赋值为G+1,其中,G表示当前的总组数。
[0007] 在其中一个实施例中,所述根据分组的组号调整所述相关系数表中变量的排列顺序,将具有同一组号的多个变量调整为相邻的变量的步骤包括:将具有同一组号的多个变量调整为相邻的变量,并按照组号的大小从大到小的顺序调整相关系数表中变量的排列顺序。
[0008] 在其中一个实施例中,所述方法还包括:采用主成分分析从相同组号对应的目标相关系数中筛选出一个代表该组的相关系数。
[0009] 一种相关变量识别装置,所述装置包括:获取模块,用于获取待处理的相关系数表,所述相关系数表中记载了多个变量彼此之间的相关系数;查找模块,用于查找所述相关系数表中相关系数的绝对值大于预设阈值的相关系数,将所述大于预设阈值的相关系数作为目标相关系数,并将所述目标相关系数进行标记;聚类模块,用于根据所述目标相关系数将相关的多个变量进行聚类归为同一组,并为该组分配一个唯一的组号;调整模块,用于根据分组的组号调整所述相关系数表中变量的排列顺序,将具有同一组号的多个变量调整为相邻的变量;显示模块,用于将调整后的相关系数表中的具有标记的所述目标相关系数进行突出显示。
[0010] 在其中一个实施例中,所述聚类模块包括:判断模块,用于获取待聚类的目标变量,判断该目标变量是否已经被分组;组号修改模块,用于若所述目标变量已经被分组,则根据所述目标相关系数获取与所述目标变量相关的第一变量以及和所述第一变量组号相同的第二变量,将所述第一变量和第二变量的组号修改为与所述目标变量的组号相同;组号分配模块,用于若所述目标变量未被分组,则获取与所述目标变量相关的第一变量以及和所述第一变量组号相同的第二变量,为所述目标变量、第一变量和第二变量分配一个新的组号。
[0011] 在其中一个实施例中,所述组号分配模块还用于若所述目标变量未被分组,则获取与所述目标变量相关的第一变量以及和所述第一变量组号相同的第二变量,按照组号递增的规则将所述目标变量、第一变量以及第二变量的组号统一赋值为G+1,其中,G表示当前的总组数。
[0012] 在其中一个实施例中,所述调整模块还用于将具有同一组号的多个变量调整为相邻的变量,并按照组号的大小从大到小的顺序调整相关系数表中变量的排列顺序。
[0013] 在其中一个实施例中,所述装置还包括:筛选模块,用于采用主成分分析从相同组号对应的目标相关系数中筛选出一个代表该组的相关系数。
[0014] 上述相关变量识别方法和装置,通过获取相关系数表,查找相关系数表中相关系数的绝对值大于预设阈值的相关系数,将所述大于预设阈值的相关系数作为目标相关系数,根据目标相关系数将相关的多个变量进行聚类归为同一组,并为该组分配一个唯一的组号,根据分组的组号调整相关系数表中变量的排列顺序,将具有同一组号的多个变量调整为相邻的变量,然后将调整后的相关系数表中具有标记的目标相关系数进行突出显示,此时,多个相关变量聚集在了一起,通过将相应的目标相关系数进行突出显示,从而实现了快速识别多个相关变量,从而提高了数据建模速度。

附图说明

[0015] 图1为一个实施例中终端的内部结构框图;
[0016] 图2为一个实施例中相关变量识别方法流程图;
[0017] 图3A为传统方法的部分识别结果的示意图;
[0018] 图3B为一个实施例中部分识别结果的示意图;
[0019] 图4为一个实施例中根据目标相关系数将相关的多个变量聚类为同一组的方法流程图;
[0020] 图5为一个实施例中若目标变量未被分组则为该目标变量分配组号的方法流程图;
[0021] 图6为另一个实施例中相关变量识别方法流程图;
[0022] 图7为一个实施例中相关变量识别装置的结构框图;
[0023] 图8为一个实施例中聚类模块的结构框图;
[0024] 图9为另一个实施例中相关变量识别装置的结构框图。

具体实施方式

[0025] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0026] 如图1所示,在一个实施例中,终端102的内部结构如图1所示,包括通过系统总线连接的处理器、内存储器、非易失性存储介质、网络接口、显示屏和输入装置。其中,终端102的非易失性存储介质存储有操作系统,还包括一种相关变量识别装置,该相关变量识别装置用于实现一种相关变量识别方法。该处理器用于提供计算和控制能力,支撑整个终端的运行。终端中的内存储器为非易失性存储介质中的相关变量识别装置的运行提供环境,该内存储器中存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种相关变量识别方法。网络接口用于连接到网络进行通信。终端102的显示屏可以是液晶显示屏或者电子墨水显示屏等,输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。该终端可以是平板电脑、笔记本电脑、台式计算机等。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的移动终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0027] 如图2所示,在一个实施例中,提出了一种相关变量识别方法,该方法包括:
[0028] 步骤202,获取待处理的相关系数表,相关系数表中记载了多个变量彼此之间的相关系数。
[0029] 在本实施例中,在终端中进行数据建模的过程中往往会涉及到很多个变量,当变量彼此之间的相关性比较高时,即变量之间的相关系数的绝对值比较大时,变量之间会表现出很强的共线性,容易造成模型失真。所以为了避免模型失真,需要识别出变量相关性比较高的变量进行相应的处理。首先,获取待处理的相关系数表,其中,相关系数表是预先通过计算多个变量两两之间的相关性得到的,里面记载了两两变量之间的相关系数,相关系数的绝对值代表了两个变量之间的相关性,绝对值越大,说明两个变量之间的相关性越大。具体的,为了识别出相关性比较高的变量,首先,终端根据用户的指令获取待处理的相关系数表,相关系数表中记载了多个变量两两之间的相关系数,表1为一个实施例中相关系数表的示意图:
[0030] 表1
[0031]变量名称 A1 A2 A3 … An
A1 1 0.007482 0.027993 … 0.684049
A2 0.007482 1 0.835227 … 0.472902
A3 0.027993 0.835227 1 … -0.616960
… … … … 1 …
An 0.684049 0.472902 -0.616960 … 1
[0032] 其中,A1,A2,A3,…An表示的是各个变量,任两个变量都对应一个相关系数,比如,A1和A2对应的相关系数为0.007482(即A1行和A2列对应的值或者A2行和A1列对应的值)。而每个相关系数的绝对值的大小代表了两个变量彼此之间的相关性,绝对值越大,说明两个变量之间的相关性越高。
[0033] 步骤204,查找相关系数表中相关系数的绝对值大于预设阈值的相关系数,将大于预设阈值的相关系数作为目标相关系数,并将目标相关系数进行标记。
[0034] 在本实施例中,在终端中预先设置相关系数的阈值,两个变量之间的相关系数只有大于该预设阈值才认为两个变量相关,否则,说明该两个变量不相关。查找相关系数表中相关系数的绝对值大于预设阈值的相关系数,将查找到的相关系数作为目标相关系数,并将这些目标相关系数进行标记。具体的,比如,预设阈值设为0.75,凡是相关系数的绝对值大于该预设阈值的就说明两个变量相关。遍历整个相关系数表,找到所有相关系数的绝对值大于该预设阈值(>0.75) 的相关系数,并将这些相关系数作为目标相关系数,然后将这些目标相关系数进行标记,便于后续进行对应的处理。
[0035] 步骤206,根据目标相关系数将具有相关性的多个变量进行聚类归为同一组,并为该组分配一个唯一的组号。
[0036] 在本实施例中,相关系数表中的相关系数代表的是两个变量的相关性,只有相关性大于预设阈值,两个变量才认为是相关的,否则就是不相关的。故,两个变量相关定义为:如果相关系数的绝对值大于预设阈值,则对应的两个变量相关;三个变量相关定义为:如果A和B的相关系数绝对值大于预设阈值, B和C的相关系数绝对值大于预设阈值,则A、B和C相关。也就是说,三个变量相关并不要求彼此都相关,只需要两两相关的变量具有一个共同的变量即可。即当A和B相关,B和C相关,两者有共同的变量B就可以将三者关联起来,此时不管A和C的相关系数绝对值是否大于预设阈值,A和B和C都相关。依次类推,可以得到三个以上的变量是否相关。具体的,由于目标相关系数是指绝对值大于预设阈值的相关系数,所以与目标相关系数对应的两个变量必然是相关的。两个相关的变量称为一对相关变量,如果两对相关变量具有相同的变量,那么该两对中包括的变量都相关,进一步的,如果有其他变量与这两对变量中的任一变量相关,那么该其他变量也与这三个变量相关,依次类推。比如,A和B相关,B和C相关、C和D相关,D和E相关,那么A、B、C、D 和E这多个变量相关。在本实施例中,终端通过聚类将相关的多个变量归为同一组,即将多个相关的变量分为一组,并为该组分配一个组号,也就是说,具有相同组号的多个变量相关。
[0037] 步骤208,根据分组的组号调整相关系数表中变量的排列顺序,将具有同一组号的多个变量调整为相邻的变量。
[0038] 在本实施例中,终端将相关的多个变量的组号设置为相同后,将具有同一组号的多个变量调整为相邻的变量,即根据分组的组号重新调整相关系数表中各个变量的排列顺序。这样,具有关联的多个变量就聚集在了一起,便于后续可以快速识别相关变量。
[0039] 步骤210,将调整后的相关系数表中的具有标记的目标相关系数进行突出显示。
[0040] 在本实施例中,将具有同一组号的多个变量调整为相邻的变量后,将调整后的相关系数表中的具有标记的目标相关系数进行突出显示,图3B为一个实施例中部分识别结果的示意图(由于变量数目往往很多,图3B只展示了部分识别结果),其中,加灰色底纹的为目标相关系数,即设置大于0.75的相关系数为目标相关系数。多个目标相关系数聚集在一起所对应的多个变量为相关变量。为了将相关的变量聚集在一起,所以打破了原来的顺序排列,这样从图中就可以明显的看出多个变量之间的相关性,从而实现了快速识别多个相关变量,有利于提高建模过程中的速度,传统的只能识别两个变量相关的数据进行显示,若要识别三个以上的变量,则是通过将列表中没有目标相关系数的行和列隐藏,如3A所示,然后通过人工识别的方法来找到三个以上的相关变量,如图3A中所示,目标相关系数分布的比较乱,需要人工来识别三个以上相关变量。
[0041] 在本实施例中,通过获取相关系数表,查找相关系数表中相关系数的绝对值大于预设阈值的目标相关系数,根据目标相关系数将相关的多个变量进行聚类归为同一组,并为该组分配一个唯一的组号,根据分组的组号调整相关系数表中变量的排列顺序,将具有同一组号的多个变量调整为相邻的变量,然后将调整后的相关系数表中具有标记的目标相关系数进行突出显示,此时,多个相关变量聚集在了一起,通过将相应的目标相关系数进行突出显示,从而实现了快速识别多个相关变量,从而提高了数据建模速度。
[0042] 如图4所示,在一个实施例中,根据目标相关系数值将相关的多个变量进行聚类归为同一组,并为该组分配一个唯一的组号的步骤包括:
[0043] 步骤206A,获取待聚类的目标变量,判断该目标变量是否已经被分组,若已经被分组,则进入步骤206B,若未被分组,则进入步骤206C。
[0044] 在本实施例中,将相关的多个变量采用遍历的方法进行聚类,首先,确定一个待聚类的目标变量,然后找出与这个目标变量相关的其他变量。具体的,将要被聚类的变量称为目标变量,然后判断该目标变量是否已经被分组,若已经被分组,则需要根据目标相关系数获取与目标变量相关的第一变量,因为目标相关系数对应的两个变量是相关变量,所以首先根据目标相关系数获取与目标变量相关的第一变量,然后在再查找与第一变量组号相同的第二变量,将第一变量和第二变量的组号修改为与目标变量的组号相同。若未被分组,则获取与目标变量相关的第一变量以及和第一变量组号相同的第二变量,为该目标变量、第一变量和第二变量分配一个新的组号。
[0045] 步骤206B,根据目标相关系数获取与目标变量相关的第一变量以及和第一变量组号相同的第二变量,将第一变量和第二变量的组号修改为与目标变量的组号相同。
[0046] 在本实施例中,若在终端中目标变量已经被分组,说明目标变量已经有了组号,那么查找与该目标变量相关的第一变量,然后还要查找与该第一变量组号相同的第二变量,第一变量和第二变量组号相同说明两者已经是相关的变量,这样,就可以将与目标变量直接相关的第一变量、以及与目标变量间接相关的第二变量全部查找到,从而就找到了与目标变量相关的所有变量,然后将与该目标变量相关的所有变量的组号修改为与该目标变量的组号相同,即将第一变量和第二变量的组号修改为与目标变量的组号相同。其中,第一变量用来表示与目标变量直接相关的变量,第二变量用来表示通过第一变量与目标变量相关的变量。第一变量和第二变量分别表示的是一类变量,并不用于限制数量。具体的,假设目标变量为A,首先,查找与目标变量A相关的第一变量,假设查找到的第一变量为B、C,然后再查找与第一变量组号相同的第二变量,比如,查找到与B组号相同的为D,与C组号相同的为E,那么将B、C、D和E的组号都设置为与目标变量A的组号相同。
[0047] 步骤206C,根据目标相关系数获取与目标变量相关的第一变量以及和第一变量组号相同的第二变量,为目标变量、第一变量和第二变量分配一个新的组号。
[0048] 在本实施例中,若待聚类的目标变量还没有被分组,那么说明该目标变量还没有组号,不过,同样要获取与该目标变量相关的第一变量,以及和第一变量组号相同的第二变量,然后为该目标变量、第一变量和第二变量分配一个新的组号。具体的,可以按照递增的顺序为该目标变量、第一变量和第二变量分配一个新的组号,比如,若G表示当前的总组数,则分配新的组号为G+1。
[0049] 如图5所示,若目标变量未被分组,则获取与目标变量相关的第一变量以及和第一变量组号相同的第二变量,为目标变量、第一变量和第二变量分配一个新的组号的步骤包括:
[0050] 步骤502,若目标变量未被分组,则获取与目标变量相关的第一变量以及和第一变量组号相同的第二变量。
[0051] 在本实施例中,若目标变量未被分组,说明当前目标变量还没有组号,获取与目标变量相关的第一变量,即根据相关系数获取与目标变量直接相关的第一变量;当第一变量已经被分过组,还需要获取与该第一变量组号相同的第二变量。然后为目标变量、第一变量以及第二变量统一分配一个新的组号。
[0052] 步骤504,将目标变量、第一变量以及第二变量的组号统一赋值为G+1,其中,G表示当前的总组数。
[0053] 在本实施例中,若变量还未被分组,则说明变量还没有组号,为了便于后续可以更直观的看到多个变量之间的关系,采用递增的顺序进行分组,即当目标变量还未被分组,则查找与目标变量相关的第一变量以及和第一变量组号相同的第二变量,然后将目标变量、第一变量以及第二变量的组号统一赋值为G+1,其中,G表示当前的总组数。
[0054] 在一个具体的实施例中,假设有五个变量,A1、A2、A3、A4和A5,若根据相关系数表中的相关系数可知:A1与A2相关、A2和A3相关、A4和A5相关。在开始阶段A1、A2、A3、A4和A5都还未被分组,采用遍历聚类的方法,首先,将A1作为目标变量,查找与目标变量A1相关的第一变量,查找到的第一变量只有A2,由于A2此时还未分组,即A2还没有组号,所以此时不存在与 A2组号相同的第二变量,即查找到的与A1相关只有A2,此时,为A1和A2 分配一个组号G+1,由于之前没有组,即G初始为0,所以分配给A1和A2的组号为1。然后将A2作为目标变量,此时A2已经被分组,同样的,需要查找与目标变量A2相关的第一变量,查找到的第一变量有A1和A3,然后再分别获取与第一变量组号相同的第二变量,由于A3还未被分组,所以此时不存在与 A3相关的第二变量,而A1已经被分组,而与A1组号相同的只有A2本身,所以,查找到的与A2相关的只有A1和A3,那么将A2、A1和A3的组号都修改为与A2相同,即组号为1,依次类推,通过该方法将所有相关的变量聚类到同一组,当然不相关的分别在不同的组。
[0055] 在一个实施例中,根据分组的组号调整相关系数表中变量的排列顺序,将具有同一组号的多个变量调整为相邻的变量的步骤包括:将具有同一组号的多个变量调整为相邻的变量,并根据组号的大小按照从大到小的顺序调整相关系数表中变量的排列顺序。
[0056] 在本实施例中,为了快速识别相关变量,将具有同一组号的多个变量调整为相邻的变量,即将同一组号的多个变量聚集在一起,然后根据组号的大小按照从大到小的顺序调整相关系数表中变量的排列顺序。这样便于更有规律的识别多个相关变量。
[0057] 如图6所示,在一个实施例中,上述相关变量识别方法还包括:
[0058] 步骤212,采用主成分分析从相同组号对应的目标相关系数中筛选出一个代表该组的相关系数。
[0059] 在本实施例中,终端将调整后的相关系数表中的具有标记的目标相关系数进行突出显示识别出多个相关变量后,为了消除共线性,采用主成分分析方法从相同组号对应的多个目标相关系数中筛选出一个代表该组的相关系数,然后根据筛选出的相关系数进行后续的处理,比如,根据筛选出的相关系数建立线性回归模型等。
[0060] 如图7所示,在一个实施例中,提出了一种相关变量识别装置700,该装置包括:
[0061] 获取模块702,用于获取待处理的相关系数表,相关系数表中记载了多个变量彼此之间的相关系数。
[0062] 查找模块704,用于查找相关系数表中相关系数的绝对值大于预设阈值的相关系数,将大于预设阈值的相关系数作为目标相关系数,并将目标相关系数进行标记。
[0063] 聚类模块706,用于根据目标相关系数将相关的多个变量进行聚类归为同一组,并为该组分配一个唯一的组号。
[0064] 调整模块708,用于根据分组的组号调整相关系数表中变量的排列顺序,将具有同一组号的多个变量调整为相邻的变量。
[0065] 显示模块710,用于将调整后的相关系数表中的具有标记的目标相关系数进行突出显示。
[0066] 如图8所示,在一个实施例中,聚类模块706包括:
[0067] 判断模块706A,用于获取待聚类的目标变量,判断该目标变量是否已经被分组。
[0068] 组号修改模块706B,用于若目标变量已经被分组,则根据目标相关系数获取与目标变量相关的第一变量以及和第一变量组号相同的第二变量,将第一变量和第二变量的组号修改为与目标变量的组号相同。
[0069] 组号分配模块706C,用于若目标变量未被分组,则获取与目标变量相关的第一变量以及和第一变量组号相同的第二变量,为目标变量、第一变量和第二变量分配一个新的组号。
[0070] 在一个实施例中,组号分配模块还用于若目标变量未被分组,则获取与目标变量相关的第一变量以及和第一变量组号相同的第二变量,按照组号递增的规则将目标变量、第一变量以及第二变量的组号统一赋值为G+1,其中,G表示当前的总组数。
[0071] 在一个实施例中,调整模块还用于将具有同一组号的多个变量调整为相邻的变量,并按照组号的大小从大到小的顺序调整相关系数表中变量的排列顺序。
[0072] 如图9所示,在一个实施例中,提出了一种相关变量识别装置900,除了包括模块712至模块710,还包括:
[0073] 筛选模块712,用于采用主成分分析从相同组号对应的目标相关系数中筛选出一个代表该组的相关系数。
[0074] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM) 等。
[0075] 以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0076] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。