一种数据可视化中的差分隐私保护方法及其评价指标转让专利

申请号 : CN201710618400.2

文献号 : CN107392048B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张顺还超石润华吴金涛汪改

申请人 : 安徽大学

摘要 :

本发明公开了一种数据可视化中的差分隐私保护方法及其评价指标,包括1、将获取的分类属性数据集执行并行运算下满足差分隐私保护的数据聚合处理;2、选定一个聚合后的子集,进行可视化处理;3、通过3种评价指标精确量化由满足差分隐私保护的数据聚合后的可视化质量。本发明能有效解决海量的带有敏感信息的分类属性数据集在可视化过程中会出现数据展示重叠严重,敏感数据隐私泄露的问题;并显著减少数据聚合的时间,提高可视化的时效性。

权利要求 :

1.一种数据可视化中的差分隐私保护方法,是应用于云计算平台中,其特征是按如下步骤进行:步骤1、预处理:

步骤1.1、获取分类属性数据集H{x1,x2,…,xi,…,xn},其中,xi表示第i个数据,且第i个数据xi包含d个属性,i∈[1,n];

步骤1.2、将所述分类属性数据集H{x1,x2,…,xi,…,xn}均分为k个子集H{h0,h1,…,hj,…hk-1},其中,hj表示第j个子集,并有: hj,a表示第j个子集中第a个数据;a∈[1,Aj],其中,Aj表示第j个子集hj中所包含的数据个数,且Aj≤ceil(n/k),ceil(·)为向上取整函数,j∈[0,k-1];

步骤1.3、将第j个子集hj的第a个数据中的d个属性用一行文本的形式进行存储,从而完成k个子集中n个数据的存储,形成n行文本;

步骤1.4、根据所述云计算平台的计算能力,利用分片策略FileInputFormat函数将所述n行文本划分为M个数据片,用于并行计算M个Map任务和k个Reduce任务;

步骤2、统计所述第j个子集hj中第b个属性的属性值为c的总数,记为 从而获得k个子集H{h0,h1,…,hj,…hk-1}中所有属性的属性值的总数;

步骤3、获得聚类中心点:

步骤3.1、对所述第j个子集hj中第b个属性的属性值为c的总数 和第j个子集hj中所包含的数据个数Aj分别添加拉普拉斯噪声函数Lap((d+1)N/ε),得到添加噪声后的总数和数据个数A′j;N为满足差分隐私保护的数据聚合过程中所设定的最大迭代次数;ε为隐私预算参数;

步骤3.2、利用式(1)得到第j个子集hj中第b个属性的属性值为c的频率 从而得到第j个子集hj中所有属性的属性值的频率:步骤3.3、从所述第j个子集hj中第b个属性的所有属性值的频率中选取最大值作为所述第j个子集hj中第b个属性的聚类中心点,记为uj,b,从而得到第j个子集hj中所有属性的聚类中心点uj={uj,1,uj,2,…,uj,b,…,uj,d},b∈[1,d],进而得到k个子集的聚类中心点u={u0,u1,…,uj,…,uk-1};

步骤4、并行运算满足差分隐私保护的数据聚合处理:

步骤4.1、定义当前迭代次数为w,并初始化w=1;

步骤4.2、判断w=1是否成立,若成立,则执行步骤4.3;否则,直接执行步骤4.4;

步骤4.3、以所述k个子集的聚类中心点u={u0,u1,…,uj,…,uk-1}作为初始第w-1次迭代的聚类中心点uw-1;

步骤4.4、将第j个子集hj的聚类中心点uj分别与第j个子集中的所有数据组成第w-1次迭代的键值对,记为 表示第w-1次迭代中第j个子集中第a个数据属于聚类中心点uj;

步骤4.5、并行运算M个Map任务:

步骤4.5.1、利用匹配方法计算第w次迭代中第j个子集中第a个数据hj,a分别与第w-1次迭代的k个子集的聚类中心点uw-1的相异度,并得到相异度最小的聚类中心umin所对应的子集;

步骤4.5.2、判断所述相异度最小的聚类中心umin所对应的子集中所包含的数据个数是否超过ceil(n/k),若超过,则表示相应子集已满,并执行步骤5.2.3;否则,将所述第j个子集中第a个数据hj,a分配到相异度最小的聚类中心umin所在的子集中,从而得到第w次更新的键值对(umin,hj,a)w,min∈[0,k-1];

步骤4.5.3、寻找所述相异度次小的聚类中心所对应的子集,并按照步骤4.5.2进行判断,直到找到一个未满的子集,并将所述第j个子集中第a个数据hj,a分配到未满的子集中为止;从而得到第w次更新的键值对(umin,hj,a)w;

步骤4.5.4、重复步骤4.5.1-步骤4.5.3,从而将k个子集中的所有数据都进行第w次更新,并得到第w次更新后的n个键值对;

步骤4.5.5、判断第w次更新后的n个键值对与第w-1次迭代的n个键值进行比较,若两者完全相同,则表示完成满足差分隐私保护的数据聚合,并得到每个聚类中心所对应的数据并作为聚类结果 执行步骤5;若不相同,则执行步骤4.5.6;

步骤4.5.6、判断w=N是否成立,若成立,则表示完成满足差分隐私保护的数据聚合,并得到每个聚类中心所对应的数据并作为聚类结果 执行步骤5;否则,执行步骤4.6;

步骤4.6、并行运算k个Reduce任务:

步骤4.6.1、将第w次更新后的具有相同聚类中心的所有数据划分为一个新的子集,并将新的k个子集按照步骤3进行处理,得到k个子集的第w+1次聚类中心点uw+1;

步骤4.6.2、将w+1赋值给w,并按照步骤4.2执行;

步骤5、使用平行坐标法对所述聚类结果 中的任意一个子集进行

可视化处理。

2.一种权利要求1所述的数据可视化中的差分隐私保护方法的评价指标系统,其特征是,所述评价指标系统包括:数据抽象级别DAL,数据重合比例DCR,数据重合差异程度DCD;

所述数据抽象级别DAL通过式(2)获得:

式(2)中,Na表示所述聚类结果 中的任意一个子集所包含的数据个数;No表示所述分类属性数据集H所包含的数据个数;DAL∈[0,1];

所述数据重合比例DCR通过式(3)获得:

式(3)中,Lab表示所述聚类结果 中任意一个子集的第b个属性的最高频率所对应的属性值,Lob表示所述分类属性数据集H中第b个属性的最高频率所对应的属性值;若Lab=Lob,则令[Lab∈Lob]=1;否则,[Lab∈Lob]=0;DCR∈[0,1];

所述数据重合差异程度DCD通过式(4)获得:

式(4)中,Pab表示所述聚类结果 中任意一个子集的第b个属性的最高频率所对应的属性值所占的比例,Pob表示所述分类属性数据集H中第b个属性的最高频率所对应的属性值所占的比例;若Lab=Lob,则计算|Pab-Pob|;否则,令|Pab-Pob|=1;DCD∈[0,1]。

说明书 :

一种数据可视化中的差分隐私保护方法及其评价指标

技术领域

[0001] 本发明公开了一种应用于云计算平台中,使分类属性数据可视化的过程中满足差分隐私保护的方法。

背景技术

[0002] 随着数据的日益增长,数据可视化是一种有效手段用于信息获取,从维度丰富,数量巨大,更新迅速,类型繁多的大数据中挖掘出有用的信息。分类属性数据集是一种常见的数据集,由于大数据时代的海量数据特点,分类属性数据集可视化过程中数据展示重叠严重,图像质量差,辨识度低的问题。
[0003] 已有的一些针对分类属性数据集可视化方案。这些方案中主要体现在:
[0004] 1.数据聚合是众多数据可视化方法的基础性工作,针对分类属性数据集,提出了k-modes聚类算法,再从聚合后的子集中选择一个子集进行可视化,由于子集的数据数目减少,解决了数据展示重叠严重的问题。但是随着大数据时代的海量数据特点,单个计算机难以在可接受的时间内对数据进行有效的聚类分析。
[0005] 2.为了减少可视化过程中数据聚合的时间,提高了数据聚合效率,从而提高可视化的时效性,提出了HABOS聚类算法,再从聚合后的子集中选择一个子集进行可视化。但是数据聚合分析的结果在提供有价值信息的同时,可能会泄露数据集中单个数据的信息,对敏感数据隐私安全造成威胁。
[0006] 但是以上2种方案都是针对分类属性数据集,在可视化过程中利用有效的数据聚合,再将选定一个子集进行可视化,从而解决海量分类属性数据集可视化的图像重叠严重的问题。但是,没有考虑到分类属性数据集在聚合过程中可能会泄露数据集中单个数据的信息,对敏感数据隐私安全造成威胁。此外,针对分类属性数据集可视化方案,也没有标准的质量评价指标精确量化由数据聚合后的可视化质量。
[0007] 发明目的
[0008] 本发明为了解决上述现有技术存在的不足之处,提供一种数据可视化中的差分隐私保护方法及其评价指标,以期能有效的解决分类属性数据集在数据可视化过程中会泄露数据集中单个数据的信息的问题,并提供3种评价指标精确量化由满足差分隐私保护的数据聚合后的可视化质量,从而能使分类属性数据集在可视化过程中满足ε-差分隐私保护的同时,保证较好的数据可视化质量。
[0009] 本发明为解决技术问题所采用的技术方案是:
[0010] 本发明一种数据可视化中的差分隐私保护方法,是应用于云计算平台中,其特点是按如下步骤进行:
[0011] 步骤1、预处理:
[0012] 步骤1.1、获取分类属性数据集H{x1,x2,…,xi,…,xn},其中,xi表示第i个数据,且第i个数据xi包含d个属性,i∈[1,n];
[0013] 步骤1.2、将所述分类属性数据集H{x1,x2,…,xi,…,xn}均分为k个子集H{h0,h1,…,hj,…hk-1},其中,hj表示第j个子集,并有: hj,a表示第j个子集中第a个数据;a∈[1,Aj],其中,Aj表示第j个子集hj中所包含的数据个数,且Aj≤ceil(n/k),ceil(·)为向上取整函数,j∈[0,k-1];
[0014] 步骤1.3、将第j个子集hj的第a个数据中的d个属性用一行文本的形式进行存储,从而完成k个子集中n个数据的存储,形成n行文本;
[0015] 步骤1.4、根据所述云计算平台的计算能力,利用分片策略FileInputFormat函数将所述n行文本划分为M个数据片,用于并行计算M个Map任务和k个Reduce任务;
[0016] 步骤2、统计所述第j个子集hj中第b个属性的属性值为c的总数,记为 从而获得k个子集H{h0,h1,…,hj,…hk-1}中所有属性的属性值的总数;
[0017] 步骤3、获得聚类中心点:
[0018] 步骤3.1、对所述第j个子集hj中第b个属性的属性值为c的总数 和第j个子集hj中所包含的数据个数Aj分别添加拉普拉斯噪声函数Lap((d+1)N/ε),得到添加噪声后的总数 和数据个数A′j;N为满足差分隐私保护的数据聚合过程中所设定的最大迭代次数;ε为隐私预算参数;
[0019] 步骤3.2、利用式(1)得到第j个子集hj中第b个属性的属性值为c的频率 从而得到第j个子集hj中所有属性的属性值的频率:
[0020]
[0021] 步骤3.3、从所述第j个子集hj中第b个属性的所有属性值的频率中选取最大值作为所述第j个子集hj中第b个属性的聚类中心点,记为uj,b,从而得到第j个子集hj中所有属性的聚类中心点uj={uj,1,uj,2,…,uj,b,…,uj,d},b∈[1,d],进而得到k个子集的聚类中心点u={u0,u1,…,uj,…,uk-1};
[0022] 步骤4、并行运算满足差分隐私保护的数据聚合处理:
[0023] 步骤4.1、定义当前迭代次数为w,并初始化w=1;
[0024] 步骤4.2、判断w=1是否成立,若成立,则执行步骤4.3;否则,直接执行步骤4.4;
[0025] 步骤4.3、以所述k个子集的聚类中心点u={u0,u1,…,uj,…,uk-1}作为初始第w-1次迭代的聚类中心点uw-1;
[0026] 步骤4.4、将第j个子集hj的聚类中心点uj分别与第j个子集中的所有数据组成第w-1次迭代的键值对,记为
表示第w-1次迭代中第j个子集中第a个数据属于聚类中心点uj;
[0027] 步骤4.5、并行运算M个Map任务:
[0028] 步骤4.5.1、利用匹配方法计算第w次迭代中第j个子集中第a个数据hj,a分别与第w-1次迭代的k个子集的聚类中心点uw-1的相异度,并得到相异度最小的聚类中心umin所对应的子集;
[0029] 步骤4.5.2、判断所述相异度最小的聚类中心umin所对应的子集中所包含的数据个数是否超过ceil(n/k),若超过,则表示相应子集已满,并执行步骤5.2.3;否则,将所述第j个子集中第a个数据hj,a分配到相异度最小的聚类中心umin所在的子集中,从而得到第w次更新的键值对(umin,hj,a)w,min∈[0,k-1];
[0030] 步骤4.5.3、寻找所述相异度次小的聚类中心所对应的子集,并按照步骤4.5.2进行判断,直到找到一个未满的子集,并将所述第j个子集中第a个数据hj,a分配到未满的子集中为止;从而得到第w次更新的键值对(umin,hj,a)w;
[0031] 步骤4.5.4、重复步骤4.5.1-步骤4.5.3,从而将k个子集中的所有数据都进行第w次更新,并得到第w次更新后的n个键值对;
[0032] 步骤4.5.5、判断第w次更新后的n个键值对与第w-1次迭代的n个键值进行比较,若两者完全相同,则表示完成满足差分隐私保护的数据聚合,并得到每个聚类中心所对应的数据并作为聚类结果 执行步骤5;若不相同,则执行步骤4.5.6;
[0033] 步骤4.5.6、判断w=N是否成立,若成立,则表示完成满足差分隐私保护的数据聚合,并得到每个聚类中心所对应的数据并作为聚类结果 执行步骤5;否则,执行步骤4.6;
[0034] 步骤4.6、并行运算k个Reduce任务:
[0035] 步骤4.6.1、将第w次更新后的具有相同聚类中心的所有数据划分为一个新的子集,并将新的k个子集按照步骤3进行处理,得到k个子集的第w+1次聚类中心点uw+1;
[0036] 步骤4.6.2、将w+1赋值给w,并按照步骤4.2执行;
[0037] 步骤5、使用平行坐标法对所述聚类结果 中的任意一个子集进行可视化处理。
[0038] 本发明一种数据可视化中的差分隐私保护方法的评价指标的特点是,所述评价指标包括:数据抽象级别DAL,数据重合比例DCR,数据重合差异程度DCD;
[0039] 所述数据抽象级别DAL通过式(2)获得:
[0040]
[0041] 式(2)中,Na表示所述聚类结果 中的任意一个子集所包含的数据个数;No表示所述分类属性数据集H所包含的数据个数;DAL∈[0,1];
[0042] 所述数据重合比例DCR通过式(3)获得:
[0043]
[0044] 式(3)中,Lab表示所述聚类结果 中任意一个子集的第b个属性的最高频率所对应的属性值,Lob表示所述分类属性数据集H中第b个属性的最高频率所对应的属性值;若Lab=Lob,则令[Lab∈Lob]=1;否则,[Lab∈Lob]=0;DCR∈[0,1];
[0045] 所述数据重合差异程度DCD通过式(4)获得:
[0046]
[0047] 式(4)中,Pab表示所述聚类结果 中任意一个子集的第b个属性的最高频率所对应的属性值所占的比例,Pob表示所述分类属性数据集H中第b个属性的最高频率所对应的属性值所占的比例;若Lab=Lob,则计算|Pab-Pob|;否则,令|Pab-Pob|=
1;DCD∈[0,1]。
[0048] 与现有技术相比,本发明的有益效果体现在:
[0049] 1.相对于已有方法来说,本发明在可视化过程中,使用并行运算下满足差分隐私保护的数据聚合方法,能使分类属性数据集在可视化过程中满足差分隐私保护,再将选中一个聚合后的子集进行可视化,由于子集的数据数目减少,从而解决了大数据可视化过程中数据展示重叠严重的问题,提高了可视后图像的辨识度。
[0050] 2.本发明应用在云计算平台中,使用高效的MapReduce并行计算框架,快速实现差分隐私保护的数据聚合处理,显著减少了聚类的时间,提高了可视化的时效性。
[0051] 3.本发明在可视化过程中,使用的并行运算下满足差分隐私保护的数据聚合方法中,所添加的拉普拉斯噪声干扰较小,在一定程度上,能够保持原始数据在聚合后的关联、聚类,分布等特性。
[0052] 4.本发明针对分类属性数据集的可视化,提供了3种评价指标,精确量化由满足差分隐私保护的数据聚合后的可视化质量,保证了较好的数据可视化质量。

附图说明

[0053] 图1为本发明的几个主要实施步骤的流程图;
[0054] 图2为本发明的具体功能模块示意图;
[0055] 图3为满足差分隐私保护的“交通事故”数据聚合处理的平行坐标可视化图。

具体实施方式

[0056] 本实施例中,一种数据可视化中的差分隐私保护方法,是应用于云计算平台中,该方法是按如下步骤进行:
[0057] 步骤1、预处理:
[0058] 步骤1.1、如图1的步骤1所示,首先获取分类属性数据集H{x1,x2,…,xi,…,xn},其中,xi表示第i个数据,且第i个数据xi包含d个属性,i∈[1,n];本发明的具体实施例中,选择的分类属性数据集为“交通事故”数据集,在“交通事故”数据集中,约有80万条数据,每条数据中有7种属性,每种属性都有至少2个属性值;
[0059] 步骤1.2、如图2所示,将分类属性“交通事故”数据集H{x1,x2,…,xi,…,xn}均分为k个子集H{h0 ,h1 ,… ,hj ,…hk-1},其中 ,hj表示第j个子集 ,并有:hj,a表示第j个子集中第a个数据;a∈[1,Aj],其中Aj表示第j
个子集hj中所包含的数据个数,且Aj≤ceil(n/k),ceil(·)为向上取整函数,j∈[0,k-1];
[0060] 步骤1.3、将第j个子集hj的第a个数据中的d个属性用一行文本的形式进行存储,从而完成k个子集中n个数据的存储,形成n行文本,其中文本可以选择csv,excel,txt;
[0061] 步骤1.4、如图2所示,根据云计算平台的计算能力,利用分片策略FileInputFormat函数将n行文本划分为M个数据片,用于并行计算M个Map任务和k个Reduce任务;
[0062] (1.4.1)本发明的具体实施例中所搭建的云平台是指Hadoop完全分布式集群:一台机器作为Master,其他9台机器作为Slave;每台机器的配置为:3.60GHZ主频CPU,16G内存;
[0063] (1.4.2)云平台搭建完成后,定义分片策略FileInputFormat函数,根据Hadoop集群的计算能力与文本所包含的数据个数,将n行文本划分为M个数据片;
[0064] 步骤2、统计第j个子集hj中第b个属性的属性值为c的总数,记为 从而获得k个子集H{h0,h1,…,hj,…hk-1}中所有属性的属性值的总数;
[0065] 步骤3、如图2所示,获得聚类中心点:
[0066] 步骤3.1、对第j个子集hj中第b个属性的属性值为c的总数 和第j个子集hj中所包含的数据个数Aj分别添加拉普拉斯噪声函数Lap((d+1)N/ε),得到添加噪声后的总数和数据个数A′j;N为满足差分隐私保护的数据聚合过程中所设定的最大迭代次数;ε为隐私预算参数;
[0067] 步骤3.1中,添加的拉普拉斯噪声函数Lap((d+1)N/ε),使得聚合算法满足ε-差分隐私保护的原因在于:在分类属性“交通事故”数据集中添加任意一个点,对总数目影响为1,对于属性值总数影响最大为d,因此整个查询序列的敏感度等于d+1,迭代次数固定为N,则获取ε-差分隐私保护所添加的拉普拉斯噪声函数为:Lap((d+1)N/ε)。其中维度d=7,固定迭代次数N=50,隐私预算参数ε=1;
[0068] 步骤3.2、利用式(1)得到第j个子集hj中第b个属性的属性值为c的频率 从而得到第j个子集hj中所有属性的属性值的频率:
[0069]
[0070] 步骤3.3、从第j个子集hj中第b个属性的所有属性值的频率中选取最大值作为第j个子集hj中第b个属性的聚类中心点,记为uj,b,从而得到第j个子集hj中所有属性的聚类中心点uj={uj,1,uj,2,…,uj,b,…,uj,d},b∈[1,d],进而得到k个子集的聚类中心点u={u0,u1,…,uj,…,uk-1};
[0071] (3.3.1)从第j个子集hj中第b个属性的所有属性值的频率中选取最大值作为第j个子集hj中第b个属性的聚类中心点,判断最大值个数e=1是否成立,若成立,则记为uj,b,否则,执行步骤(3.3.2);
[0072] (3.3.2)从多个最大值 中,选取添加噪声后总数 最大的中心点,记为uj,b;
[0073] 步骤4、如图1的步骤2所示,并行运算下满足差分隐私保护的数据聚合处理:
[0074] 步骤4.1、定义当前迭代次数为w,并初始化w=1;
[0075] 步骤4.2、判断w=1是否成立,若成立,则执行步骤4.3;否则,直接执行步骤4.4;
[0076] 步骤4.3、以k个子集的聚类中心点u={u0,u1,…,uj,…,uk-1}作为初始第w-1次迭代的聚类中心点uw-1;
[0077] 步骤4.4、将第j个子集hj的聚类中心点uj分别与第j个子集中的所有数据组成第w-1次迭代的键值对,记为
表示第w-1次迭代中第j个子集中第a个数据属于聚类中心点uj;
[0078] 步骤4.5、如图2中M个Map任务所示,并行运算M个Map任务:
[0079] 步骤4.5.1、利用匹配方法计算第w次迭代中第j个子集中第a个数据hj,a分别与第w-1次迭代的k个子集的聚类中心点uw-1的相异度,并得到相异度最小的聚类中心umin所对应的子集;
[0080] 步骤4.5.2、判断相异度最小的聚类中心umin所对应的子集中所包含的数据个数是否超过ceil(n/k),若超过,则表示相应子集已满,并执行步骤5.2.3;否则,将第j个子集中第a个数据hj,a分配到相异度最小的聚类中心umin所在的子集中,从而得到第w次更新的键值对(umin,hj,a)w,min∈[0,k-1];
[0081] 步骤4.5.3、寻找相异度次小的聚类中心所对应的子集,并按照步骤4.5.2进行判断,直到找到一个未满的子集,并将第j个子集中第a个数据hj,a分配到未满的子集中为止;从而得到第w次更新的键值对(umin,hj,a)w;
[0082] 步骤4.5.4、重复步骤4.5.1-步骤4.5.3,从而将k个子集中的所有数据都进行第w次更新,并得到第w次更新后的n个键值对;
[0083] 步骤4.5.5、判断第w次更新后的n个键值对与第w-1次迭代的n个键值进行比较,若两者完全相同,则表示完成满足差分隐私保护的数据聚合,并得到每个聚类中心所对应的数据并作为聚类结果 执行步骤5;若不相同,则执行步骤4.5.6;
[0084] 步骤4.5.6、判断w=N是否成立,若成立,则表示完成满足差分隐私保护的数据聚合,并得到每个聚类中心所对应的数据并作为聚类结果 执行步骤5;否则,执行步骤4.6;
[0085] 步骤4.6、如图2中k个Reduce任务所示,并行运算k个Reduce任务:
[0086] 步骤4.6.1、将第w次更新后的具有相同聚类中心的所有数据划分为一个新的子集,并将新的k个子集按照步骤3进行处理,得到k个子集的第w+1次聚类中心点uw+1;
[0087] 步骤4.6.2、将w+1赋值给w,并按照步骤4.2执行;
[0088] 步骤5、如图1的步骤3所示,使用平行坐标法对聚类结果 中的任意一个子集进行可视化处理。本发明的具体实施例中使用Echarts提供的平行坐标API,对满足差分隐私保护的数据聚合处理的“交通事故”子集进行可视化,可视化图像如图
3所示。
[0089] 本实施例中,如图1的步骤4所示,数据可视化质量评价指标包括:数据抽象级别DAL,数据重合比例DCR,数据重合差异程度DCD;
[0090] 数据抽象级别DAL通过式(2)获得:
[0091]
[0092] 式(2)中,Na表示聚类结果 中的一个子集所包含的数据个数;No表示分类属性数据集H所包含的数据个数;DAL∈[0,1];在本发明的具体实施例中Na=2000,No=800000,所以数据抽象级别DAL=0.0025。
[0093] 数据重合比例DCR通过式(3)获得:
[0094]
[0095] 式(3)中,Lab表示聚类结果 中任意一个子集的第b个属性的最高频率所对应的属性值,Lob表示分类属性数据集H中第b个属性的最高频率所对应的属性值;若Lab=Lob,则令[Lab∈Lob]=1;否则,[Lab∈Lob]=0;DCR∈[0,1];数据重合比例DCR越大,可视化效果越好。在本发明的具体实施例中,如图3所示,聚合后的“交通事故”子集有Gender,Color,Race,Year,Alcohol,Level这6种属性的最高频率所对应的属性值与原始“交通事故”数据集中属性的最高频率所对应的属性值相同。所以数据重合比例DCR=
0.857。
[0096] 数据重合差异程度DCD通过式(4)获得:
[0097]
[0098] 式(4)中,Pab表示聚类结果 中任意一个子集的第b个属性的最高频率所对应的属性值所占的比例,Pob表示分类属性数据集H中第b个属性的最高频率所对应的属性值所占的比例;若Lab=Lob,则计算|Pab-Pob|;否则,令|Pab-Pob|=1;DCD∈[0,1]。数据重合差异程度DCD越小,可视化效果越好。在本发明的具体实施例中,如图3所示,经过计算,聚合后的“交通事故”子集的数据重合差异程度DCD=0.347。
[0099] 综上,本发明在一定程度上,能够保持原始分类属性“交通事故”数据集在聚合后的关联、聚类,分布等特性,解决了大数据可视化过程中数据展示重叠严重的问题,提高了可视后图像的辨识度。同时,能使分类属性“交通事故”数据集在可视化过程中满足差分隐私保护。
[0100] 此外,本发明不仅适用于分类属性“交通事故”数据集,而且可以高效地处理常见的分类属性“医疗诊断”,“传染病”,“评分系统”等带有敏感信息的数据集。