一种基于平行坐标优化的多维数据可视化方法转让专利

申请号 : CN201911146279.3

文献号 : CN112825084A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 方子璇余长宏

申请人 : 浙江工商大学

摘要 :

本发明涉及一种基于平行坐标优化的多维数据可视化方法。它包括如下步骤:1)对多维数据进行Z‑score标准化处理,降低输入数据的平均误差,保证数据之间的可比性;2)利用PCA降维算法对数据进行降维处理,降低数据集合复杂度,增强关键特征抑制其他信息的表达,获得多维数据中的特征模式;3)对主成分分析处理后的数据使用X‑means聚类算法进行数据分析,将数据集分成若干个簇,使每个子簇之间具有某种相似性,实现对数据的抽象,从而可以对聚类后的数据进行分析和可视化;4)利用CH指标聚类评估方法对聚类结果的优良特性作出准确的判断。本发明采用上述方法,有效地解决了数据可视化效果不佳的问题,能够明显提升多维数据可视化效果及分析效率。

权利要求 :

1.一种基于平行坐标优化的多维数据可视化方法,其特征在于,具体步骤如下:

1)对多维数据进行Z-score标准化处理,降低输入数据的平均误差,保证数据之间的可比性;

2)利用PCA降维算法对数据进行降维处理,降低数据集合复杂度,增强关键特征抑制其他信息的表达,获得多维数据中的特征模式;

3)对主成分分析处理后的数据使用X-means聚类算法进行数据分析,将数据集分成若干个簇,使每个子簇之间具有某种相似性,实现对数据的抽象,从而可以对聚类后的数据进行分析和可视化;

4)利用CH指标聚类评估方法对聚类结果的优良特性作出准确的判断。

2.根据权利要求1所述的一种基于平行坐标优化的多维数据可视化方法,其特征在于,所述的步骤2)中,获得降维后的数据集步骤如下:

1)将Z-score标准化处理后的标准化矩阵Z求相关系数矩阵R,根据相关系数矩阵的特征方程|μIp-R|=0求出特征值μi和特征向量γi,

2)将特征向量的分量作为权重得出主成分,采用方差贡献率δi和累计方差贡献率εk得到最终降维后的数据集P。

3.根据权利要求1所述的一种基于平行坐标优化的多维数据可视化方法,其特征在于,所述的步骤3)中,获取聚类后的数据集步骤如下:

1)预先指定聚类数K并指定一个取值的区间[Kmin,Kmax],自动选择出一个最优的K值便可实现聚类划分,

2)通过贝叶斯准则(BIC)对其进行评价并不断迭代直到获得不能分割的聚类数目为止。

说明书 :

一种基于平行坐标优化的多维数据可视化方法

技术领域

[0001] 本发明涉及数据可视化领域,一种基于平行坐标优化的多维数据可视化方法。

背景技术

[0002] 作为互联网时代的产物,大数据是互联网行业的研究热点,如何从海量数据中提取出关键的数据信息一直是该研究领域内的难题。数据分析研究中一个不可或缺的工具就
是数据可视化技术,它是一门跨越计算机图形学、数据科学、自然科学和人机交互等领域的
交叉学科。多维数据可视化是人们分析海量数据的有效方法,但随着技术的发展,数据向着
高维度、多复杂的形式转变,因此需要对多维数据可视化展开进一步研究。多维数据可视化
作为应用较广的一类信息可视化分支,能够将多维数据以图形化的形式进行展现,此技术
将数据信息可视化于二维或三维平面图中,极大地方便了数据信息的观察与提取。
[0003] 平行坐标可视化方法是一种较为常见的数据可视化技术,它将高维数据转换成二维空间中的数据点,对其进行可视化处理并进行数据展示,方便研究人员对复杂数据进行
处理与分析。现有的基于平行坐标的数据可视化方法,有两个局限性:(1)平行坐标中折线
的交叉和重叠导致用户无法从可视化结果中直观地发现数据的特征和规律;(2)由多线段
交叉产生的重叠问题可能会导致杂波的过度加剧,进而降低所绘折线的清晰度。针对平行
坐标中折线的交叉和重叠问题,可以通过对折线进行聚类或与其他视图相结合的方式来提
高平行坐标图的可理解性,从而发现高维数据的特征和规律。针对多线段交叉而产生的重
叠可能会导致的杂波过度加剧、尺寸排序不当、可能无法显示清晰折线等问题,研究者们提
供了一种减少杂波、揭示数据关联的方法。
[0004] 多维数据维度过高会造成平行坐标图中轴间距过窄,最终将导致可视化线条密集不易区分,易产生视觉混乱现象。针对现有的平行坐标可视化方法可视化效果不佳的情况,
提出了一种基于平行坐标优化的多维数据可视化方法。
[0005] 本发明的创新点:1.针对解决数据维度过高引起的折线密集问题。该方法使用了PCA降维算法对数据进
行降维处理,接着提出了使用X-means聚类算法对数据进行聚类处理。该方法减缓了线条密
集交叠问题,得到了较优的数据可视化结果,用户可以更好的理解数据并且获取数据的整
体规律。
2.本发明提出了一种判决方法来确定聚类结果拟合性的优劣,为聚类结果设置了指
标,通过其所得分数的高低,我们就可以有效地评估聚类结果质量的好坏,并且更加直观地
对聚类结果的优良特性作出准确的判断。

发明内容

[0006] 为了解决多维数据可视化领域中存在的问题,利用平行坐标可视化工具,对多维数据进行可视化展示。本发明提出的一种基于平行坐标优化的多维数据可视化方法,能够
有效地解决数据可视化效果不佳的问题,为用户分析和理解数据集提供了一个有效的手
段。
[0007] 一种基于平行坐标优化的多维数据可视化方法,包括如下步骤:1)对多维数据进行Z-score标准化处理,降低输入数据的平均误差,保证数据之间的可
比性;
2)利用PCA降维算法对数据进行降维处理,降低数据集合复杂度,增强关键特征抑制其
他信息的表达,获得多维数据中的特征模式;
3)对主成分分析处理后的数据使用X-means聚类算法进行数据分析,将数据集分成若
干个簇,使每个子簇之间具有某种相似性,实现对数据的抽象,从而可以对聚类后的数据进
行分析和可视化;
4)利用CH指标聚类评估方法对聚类结果的优良特性作出准确的判断。
[0008] 所述的步骤2)中,获得降维后的数据集步骤如下:1)将Z-score标准化处理后的标准化矩阵Z求相关系数矩阵R,根据相关系数矩阵的特
征方程|μIp-R|=0求出特征值μi和特征向量γi,
2)将特征向量的分量作为权重得出主成分,采用方差贡献率δi和累计方差贡献率εk得
到最终降维后的数据集P。
[0009] 所述的步骤3)中,获取聚类后的数据集步骤如下:1)预先指定聚类数K并指定一个取值的区间[Kmin,Kmax],自动选择出一个最优的K值便
可实现聚类划分,
2)通过贝叶斯准则(BIC)对其进行评价并不断迭代直到获得不能分割的聚类数目为
止。
[0010] 该发明具有如下有益效果:现有的通过平行坐标对多维数据进行可视化已经无法满足用户的需求,可视化技术亟
待得到进一步的提升。而大数据时代下,数据内容是十分丰富且复杂的,随着各类产业技术
的发展,当前社会的数据持有量以及现有数据的信息维度也随之不断提高。为了帮助用户
更好的探索、分析和理解多维数据背后所蕴含的信息。通过采用PCA降维算法对多维数据进
行降维处理;接着用X-means聚类算法对数据进行聚类处理;最后对聚类后结果的有效性进
行评估,通过聚类结果的指标分数高低判断聚类结果的拟合性好坏,对聚类结果的优良特
性作出更直接的判断。本方法可以提高现有技术对有效数据的挖掘能力,改善当前可视化
技术的不足。

附图说明

[0011] 图1是一种基于平行坐标优化的多维数据可视化方法流程图;图2是主成分分析的逻辑框图;
具体实施方法
[0012] 为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明做进一步阐述和说明。
[0013] 一种基于平行坐标优化的多维数据可视化方法,包括如下步骤:1)对多维数据进行Z-score标准化处理,降低输入数据的平均误差,保证数据之间的可
比性;
2)利用PCA降维算法对数据进行降维处理,降低数据集合复杂度,增强关键特征抑制其
他信息的表达,获得多维数据中的特征模式;
3)对主成分分析处理后的数据使用X-means聚类算法进行数据分析,将数据集分成若
干个簇,使每个子簇之间具有某种相似性,实现对数据的抽象,从而可以对聚类后的数据进
行分析和可视化;
4)利用CH指标聚类评估方法对聚类结果的优良特性作出准确的判断。
[0014] 步骤2)中,获得降维后的数据集步骤如下:1)将Z-score标准化处理后的标准化矩阵Z求相关系数矩阵R,根据相关系数矩阵的特
征方程|μIp-R|=0求出特征值μi和特征向量γi,
2)将特征向量的分量作为权重得出主成分,采用方差贡献率δi和累计方差贡献率εk得
到最终降维后的数据集P。
[0015] 步骤3)中,获取聚类后的数据集步骤如下:1)预先指定聚类数K并指定一个取值的区间[Kmin,Kmax],自动选择出一个最优的K值便
可实现聚类划分,
2)通过贝叶斯准则(BIC)对其进行评价并不断迭代直到获得不能分割的聚类数目为
止。