基于多属性排序的数据可视分析方法和应用转让专利

申请号 : CN201610601476.X

文献号 : CN106294298B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈谊田帅刘莹刘瑞军王瑜

申请人 : 北京工商大学

摘要 :

本发明公布了一种基于多属性排序的数据可视分析方法和应用,结合平行坐标可视化方法和条形图,用条形图长度表达数值,用平行坐标展示高维数据,对多属性进行综合排名,实现同时反映数据的排名情况和数据不同属性之间的关联关系。包括:得到数据中每种风险因子的属性值;对属性值赋权值生成综合评价值;对属性值通过条形图的方式显示,对综合评价值进行分类,提取出综合评估风险因子,通过放射环显示;并采用平行坐标连接全部风险因子;采用桑基图和地图显示;通过交互操作修改属性参数展示多属性排序结果。本发明方法可面向农药残留数据、大学的综合信息数据、学科数据等进行多属性排名可视分析。

权利要求 :

1.一种基于多属性排序的数据可视分析方法,通过结合平行坐标可视化方法和条形图可视化方法,用条形图长度表达数值,用平行坐标展示高维数据,并通过综合排名计算方法对多属性进行综合排名,实现同时反映数据的排名情况和数据不同属性之间的关联关系;

包括如下步骤:

步骤一、对原始数据进行统计分析,得到数据中每种风险因子的属性值;所述原始数据为农药残留数据;

步骤二、对步骤一中得到的风险因子的属性值赋权值,通过建立农产品综合污染评价模型,根据每种农产品的属性进行加权计分,生成综合评价值;所述农产品综合污染评价模型具体为式1:式1中:

αi∈A={α1,α2...αn}表示一种农产品;

wi∈W={w1,w2...wn}表示属性对应的权重;

pi∈P={p1,p2…pn}表示每个属性的取值;

pi'表示归一化后的属性值;

属性向量P被映射到0-1的范围,通过式2将多个属性归一化:其中,pmin和pmax分别是多个属性中的最小值和最大值;

步骤三、对步骤一中得到的风险因子的属性值,按照综合评价值,通过平行坐标可视化方法和条形图的方式排序显示,用条形图长度表达数值,用平行坐标展示高维数据,并通过综合排名计算方法对多属性进行综合排名,实现同时反映数据的排名情况和数据不同属性之间的关联关系;对步骤二中得到的综合评价值进行分类,提取出用于综合评估的风险因子,通过放射环显示;并采用平行坐标连接一种事物的全部风险因子;其中,提取用于综合评估的风险因子是根据农产品农药残留的风险因子归类得出,具体通过式3计算得到相关系数r:式3中,X、Y分别是两个需要比较的风险因子;

根据相关系数获得用于综合评估的风险因子;

步骤四、采用桑基图和地图,用于显示更多数据信息,得到可视化结果;

步骤五、可通过界面进行交互操作,通过交互操作修改属性参数对多属性排序结果进行展示,用于进行分析和比较。

2.如权利要求1所述基于多属性排序的数据可视分析方法,其特征是,步骤四所述可视化结果包括:可视化界面最左侧是用于进行交互操作的数据筛选框;最上面是排序组合图,包括一个平行坐标加条形图和放射环的组合图;左下角为热图;右下角是放射环放大图;最右面是桑基图。

3.如权利要求1所述基于多属性排序的数据可视分析方法,其特征是,步骤二采用专家评估法赋权值。

4.如权利要求1所述基于多属性排序的数据可视分析方法,其特征是,所述风险因子包括农产品中农药检出品种和频次、农药超标品种和频次、高剧毒农药检出品种和频次。

5.如权利要求1所述基于多属性排序的数据可视分析方法,其特征是,步骤一具体通过分类统计方法得到所述风险因子的属性值。

说明书 :

基于多属性排序的数据可视分析方法和应用

技术领域

[0001] 本发明属于信息可视化领域,涉及数据可视分析方法,尤其涉及一种基于多属性排序的数据可视分析方法和应用。

背景技术

[0002] 排序是一种常用的数据分析方法,普遍应用于各个领域。排序在我们的日常生活中随处可见,不论是全国大学排序还是专业收入排序。排序是无处不在的。排序的重要功能是帮助我们在浏览东西时提供指导,如什么被认为是“好”、“流行”、“高质量”等等。可以满足人们的需要过滤一些内容来获取信息。
[0003] 排序可以是单属性排序,即基于单个属性的值进行排序,如畅销书排行榜,根据书籍的销售数量来排名;也可以是多属性排序,即基于多个属性的综合值进行排序,例如根据价格,每加仑汽油行驶里程数,外观等来决定汽车的排名;还有根据教育水平、发表论文情况、获奖情况、教职工水平影响力等因素进行世界大学排名;根据城市人口数量,GDP,城市道路建设,绿化情况来排名最宜居城市等。食品安全领域的数据分析中涉及到大量的排序分析,如在对食品中农药残留检测结果的分析中,不仅要对农药检出种类数、农药检出量、农药检出频次、农药超标频次、禁药检出频次等多个独立的单属性进行排序分析;还需要对各地区的农药残留污染程度综合指数、各种农产品的综合安全指数进行排序分析,即多属性排序;有时还需要对各个单属性之间的关联及其对综合排序结果的影响进行分析。
[0004] 从方法上看,单属性排序研究侧重于准确高效的排序算法,如冒泡排序、选择排序、快速排序等;而多属性排序则需要先根据模型或专家经验将多个异构独立的单属性融合为一个综合属性,然后再用排序算法进行排序。如何将多个独立的异构的属性融合为一个综合属性并进行排序,分析各个独立属性之间的关联及其对综合排序的影响是一个颇具挑战性的问题。近年来出现的信息可视化技术通过可视化图形呈现数据中隐含的现象和规律,为解决这类问题提供了新手段。
[0005] 多属性排序可视化方法主要包括基于点、基于线和基于面三类。其中,基于点的方法利用位置作为视觉变量来可视化排名结果。如散点图(scatterplots)和散点矩阵(scatterplot matrix),可以被用来比较两个事物的排名。在文献[1](A.P.Sawant and C.G.Healey.Visualizing multidimensional query results using animation[J].In Proc.IS&T/SPIE Electronic Imaging.2008:680–904)中,Sawant和Healey利用多维空间填充螺旋来显示电影评级结果。每个电影以高低不同的条形柱表示,放在一个螺旋上。位置由里到外映射电影的评价由高到低。基于线的方法中,线可以用来连接多个值或比较多个排序结果,如斜坡图(Slop graph)和平行坐标(Parallel Coordinates)。在文献[2](M.Batty.Rank clocks[J].Nature.2006,444:592–596.)中,Batty设计了Rank Clocks,利用雷达图,一种特殊的平行坐标来显示跨越几个世纪的世界城市人口排序变化。在文献[3](Hui Lei,Jing Xia,FanzhouGuo.Visual Exploration of Latent Ranking Evolutions in Time Series[J].Journal of Visualization,2016:pp 1-13)中,RankEvo方法采用平行坐标来分析时间序列潜在的排序演进。在文献[4](Min  Lu,ZuchaoWang,XiaoruYuan.TrajRank Exploring Travel Behaviour on a Route by Trajectory Ranking[C].In Proceedings of IEEE Pacific VisualizationSymposium.2015:311-
318)中,TrajRank方法应用出租车数据,考察其运行轨迹,研究车辆行驶的路径并对各路段的轨迹排序。文献[5](David  H .S.Chung ,Matthew  L.Parry ,Iwan 
W.Griffiths.Knowledge-Assisted Ranking:A Visual Analytic Application for Sport Event Data[J].IEEE Computer Graphics.2015)记载的Knowledge-Assisted Ranking是一个分析体育数据的工具,该视觉分析系统可以将涉及到多个属性,分类标准,经常变化的体育视频数据进行排序。基于面的方法中,面积是另一个用来编码定量数据的有效视觉变量,如条形图和堆叠图。其中主题河流(Themeriver)就属于堆叠图的一种。文献[6](Conglei Shi,Weiwei Cui,ShixiaLiu.RankExplorer Visualization of Ranking Changes in Large Time Series Data[J].IEEE Transactions on Visualization and Computer Graphics,2012,18(12):2669-2678.)记载RankExplorer通过扩张Themeriver,将数据分成等级类别,用符号代表等级的变化。在文献[7](Michael Behrisch,James Davey,Svenja Simon,et al.Visual comparison of orderings and rankings[M].In Proceedings of theEuroVis Workshop on Visual Analytics.2013)中,Behrisch使用一个径向node-link表示不同的排序,该方法依赖于符号,每一个小的圆环图用来对比一对排序。
[0006] 如今,单一视图的可视化技术已经不能满足数据的增长和分析的需求,多种视图结合可以观察到更多信息。在文献[8](J.Seo and B.Shneiderman.A rank-by-feature framework for unsupervised multidimensional data exploration using low dimensionalprojections[J].In Proc.IEEE InfoVis.2004:65–72)中,Seo提出rank-by-feature方法,来帮助用户系统地预测多维数据集,用有序的柱状图对单一属性的排序结果展示,用散点图对两个属性排序结果展示。另外,也有一些可视化技术将线图和直方图结合,以便能显示属性的具体值并表示属性之间的关联。文献[9](Saori Okubo,TomoyaIwakura,KazuoMisue.Trend Analysis Tool with Simultaneous Visualization of Rank and Value.17th International Conference on Information Visualisation[C].2013,517-522.)中记载的趋势分析工具可以随时间同时显示事件的排序和价值,用文本标签代表事件类别,用颜色饱和度表示排序;同时用相应颜色的色带标记事件排序的变化。在文献[10](Samuel Gratzl,AlexanderLex,NilsGehlenborg,et al.LineUp:Visual Analysis of Multi-Attribute Rankings[J].IEEE Transactions on Visualization and Computer Graphics,2013,19(12):2277-2286)中,LineUp方法运用直方图的可扩展性,其主要优势是能够交互式地改善权值和属性映射,易于追踪属性排序的能力。
[0007] 现有可视化方法在解决排序的时候,往往无法兼顾多属性和单属性排序同时显示;而单独对属性进行排序的可视化方法,往往无法直观的展示其属性值。另外没有针对农药残留数据的排序可视分析方法。

发明内容

[0008] 为了克服上述现有技术的不足,本发明提供一种基于多属性排序的数据可视分析方法和应用,通过一种平行坐标结合条形图的可视化方法,将条形图长度表达数值的思想与平行坐标展示高维数据的可视化方法相结合,并应用综合排名算法对多属性进行综合排名,该方法同时能够反映数据的排名情况与不同属性间的关联关系。可面向农药残留数据、大学的综合信息数据、学科数据等进行多属性排名可视分析。
[0009] 本发明提供的技术方案是:
[0010] 一种基于多属性排序的数据可视分析方法,通过结合平行坐标可视化方法和条形图可视化方法,用条形图长度表达数值,用平行坐标展示高维数据,并通过综合排名计算方法对多属性进行综合排名,实现同时反映数据的排名情况和数据不同属性之间的关联关系;包括如下步骤:
[0011] 步骤一、对原始数据进行统计分析,得到数据中每种风险因子的属性值;
[0012] 步骤二、对步骤一中得到的风险因子的属性值赋权值,建立综合评价模型,生成综合评价值;
[0013] 步骤三、对步骤一中得到的风险因子的属性值通过条形图的方式排序显示,对步骤二中得到的综合评价值进行分类,提取出用于综合评估的风险因子,通过放射环显示;并采用平行坐标连接一种事物的全部风险因子;
[0014] 步骤四、采用桑基图和地图,以显示更多数据信息,得到可视化结果;
[0015] 步骤五、可通过界面进行交互操作,通过交互操作修改属性参数对多属性排序结果进行展示,用于进行分析和比较。
[0016] 针对上述基于多属性排序的数据可视分析方法,进一步地,步骤四所述可视化结果包括:可视化界面最左侧是用于进行交互操作的数据筛选框;最上面是排序组合图,包括一个平行坐标加条形图和放射环的组合图;左下角为热图;右下角是放射环放大图;最右面是桑基图。
[0017] 针对上述基于多属性排序的数据可视分析方法,进一步地,步骤二采用专家评估法赋权值。
[0018] 针对上述基于多属性排序的数据可视分析方法,进一步地,在本发明实施例中,所述原始数据为农药残留数据,所述风险因子包括农产品中农药检出品种和频次、农药超标品种和频次、高剧毒农药检出品种和频次。
[0019] 针对上述基于多属性排序的数据可视分析方法,进一步地,所述方法应用于农药残留数据多属性排序可视分析、大学综合排名分析或学科排名评估分析。
[0020] 将上述基于多属性排序的数据可视分析方法应用于农药残留数据多属性排序可视分析,其中,所述风险因子包括农产品中农药检出品种和频次、农药超标品种和频次、高剧毒农药检出品种和频次;通过分类统计方法得到所述风险因子的属性值;通过专家打分方法为每个属性设置权重;通过建立农产品综合污染评价模型,根据每种农产品的属性进行加权计分得出综合评价值;对得到的属性值按照综合评价值进行排序;通过结合平行坐标可视化方法和条形图可视化方法,用条形图长度表达数值,用平行坐标展示高维数据,并通过综合排名计算方法对多属性进行综合排名,实现同时反映数据的排名情况和数据不同属性之间的关联关系。
[0021] 上述基于多属性排序的数据可视分析方法的应用中,进一步地,所述农产品综合污染评价模型具体为式1:
[0022]
[0023] 式1中:
[0024] αi∈A={α1,α2…αn}表示一种农产品;
[0025] wi∈W={w1,w2…wn}表示属性对应的权重;
[0026] pi∈P={p1,p2…pn}表示每个属性的取值;
[0027] pi'表示归一化后的属性值;
[0028] 属性向量P被映射到0-1的范围,通过式2将多个属性归一化:
[0029]
[0030] 其中,pi*表示属性i归一化后的结果;pi是属性i归一化之前的结果;pmin和pmax分别是多个属性中的最小值和最大值。
[0031] 与现有技术相比,本发明的有益效果是:
[0032] 本发明提出一种基于多属性排序的数据可视分析方法和应用,通过一种平行坐标结合条形图的可视化方法,将条形图长度表达数值的思想与平行坐标展示高维数据的可视化方法相结合,并应用综合排名算法对多属性进行综合排名,该方法同时能够反映数据的排名情况与不同属性间的关联关系。可面向农药残留数据、大学的综合信息数据、学科数据等进行多属性排名可视分析。面向农药残留数据的多属性排序可视分析方法可同时展示农药残留数据的单属性排名和综合的多属性排名以及属性间关联关系,帮助用户查看数据的排名趋势变化,有助于进一步的数据分析。

附图说明

[0033] 图1为本发明实施例针对农残检测数据进行多属性排序可视分析的方法流程框图。
[0034] 图2为本发明实施例中采用平行坐标+条形图的可视化布局的截图;
[0035] 其中,向下的箭头r表示排名从高到低;每个矩形块的宽v表示属性值;每个轴左侧的数字1、2、3...表示具体排名;a、b、c分别表示三个属性;d表示下降;u表示上升。
[0036] 图3为本发明实施例中基于放射环的农药检出结果分布图;
[0037] 其中,内环的1、2、3、n表示父属性值的占比,对应的1.1、1.2、1.3是父属性1的三个子属性值相应的占比;φ0表示放射内环的初始角度,其次角度是φ1、φ2、φn;弧形箭头表示绘制扇形的方向是逆时针。
[0038] 图4为本发明实施例中面向农药残留数据的多属性排名可视化布局的截图;
[0039] 其中,1,2,3...表示每个属性的排名。
[0040] 图5为本发明实施例中农药检出农药种类、频次和超标情况分布的桑基图截图。
[0041] 图6为本发明实施例中多属性排名视图结合桑基图和地图的农药残留排名可视化结果截图。

具体实施方式

[0042] 下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
[0043] 本发明提供一种基于多属性排序的数据可视分析方法和应用,通过一种平行坐标结合条形图的可视化方法,将条形图长度表达数值的思想与平行坐标展示高维数据的可视化方法相结合,并应用综合排名算法对多属性进行综合排名,该方法同时能够反映数据的排名情况与不同属性间的关联关系。可面向农药残留数据、大学的综合信息数据、学科数据等进行多属性排名可视分析。
[0044] 本发明提供的针对排名问题的数据可视化方法,需要表达属性的排名和具体值。该方法的具体操作步骤为:
[0045] 步骤一、对原始数据进行统计分析,得到每种风险因子的属性值;
[0046] 在具体实施中,风险因子是通过相关部门的需求文档确定的;例如,针对农药残留数据,风险因子包括农产品中农药检出品种和频次、农药超标品种和频次、高剧毒农药检出品种和频次,这些数据是通过对部分原始数据的分类统计得出。如原始数据包含农产品检出的每种农药量,通过与中国农药残留最大限量MRL进行对比,大于MRL表示超标,小于就是不超标。以此来统计超标的农药品种和频次。
[0047] 步骤二、对步骤一中得到的风险因子的属性值赋权值,生成综合评价值;
[0048] 可采用专家评估法赋权值,专家估测法是在定量和定性分析的基础上,以打分等方式做出定量评价。先将每个属性值归一化为一个0-1内的一个数,乘以相应的权值,所有属性的权值相加和为1,权值的确定是由领域多位专家提供并取平均值确定。最后将所有属性值乘以权值后的数字加和得到综合评价值。
[0049] 步骤三、对步骤一中得到的属性值通过条形图的方式排序显示,对步骤一中得到的风险因子的属性值进行分类,提取出用于综合评估的风险因子,通过放射环显示,并使平行坐标连接一种事物(例如,农药残留数据中的一个农产品)的全部风险因子。
[0050] 步骤四、采用桑基图和地图,以显示更多数据信息;
[0051] 步骤五、用户可通过界面交互功能,在数据筛选框反复修改属性参数,观察排名变化。
[0052] 经过上述步骤的操作,得到最终可视化结果。本发明实施例中,最终可视化结果采用如下展示:最左侧是数据筛选框;最上面是排序的主图,包括一个平行坐标加条形图和放射环的组合图;左下角为热图;右下角是一个放射环的放大图;最右面是桑基图。
[0053] 以下实施例针对全国农产品农药残留检测结果数据,通过本发明提供的基于多属性排序的数据可视分析方法进行排序和可视化。图1为本发明实施例针对农残检测数据进行多属性排序可视分析的方法流程框图。原始数据如表1所示:
[0054] 表1农产品农药残留原始数据
[0055]
[0056] 根于农残数据设置综合评价的属性和权值,建立多属性综合评价模型(本实施例建立农产品综合污染评价模型):
[0057] 多属性排序问题是一个“黑箱”问题,由于我们不能准确地描述他们之间的关系,所以不能明确地分配属性之间的权重。通过多属性综合评价模型得到每个事物的综合评价值并用于排序。
[0058] 在本方法中多属性的综合评估采用比较简单直观的专家估测法,请n(n>5)位该领域专家,以打分的方式为每个属性设置权重,每个专家对一个属性的评分为s1,s2...sn。该属性的权重为(s1+s2+...+sn)/n,再根据每种农产品的属性加权计分得出总分S。由此本发明提出一个农产品综合污染评价模型,通过式1具体计算得到农产品的属性加权总分S,即多属性评价模型:
[0059]
[0060] 式1中:
[0061] αi∈A={α1,α2…αn}表示一种农产品;
[0062] wi∈W={w1,w2…wn}表示属性对应的权重;
[0063] pi∈P={p1,p2…pn}表示每个属性的取值;
[0064] pi'表示归一化后的属性值;由于属性的异构性,属性的单位和取值范围不同,需要归一化,属性向量P被映射到0-1的范围。以番茄为例,首先通过式2将八个属性归一化:
[0065]
[0066] 其中,pi*表示属性i归一化后的结果;pi是属性i归一化之前的结果;pmin和pmax分别是八个属性中的最小值和最大值。
[0067] pi再乘以各自的权值,得到S(番茄)=0.111。
[0068] 采用本发明提出的排名可视化方法,对上述数据进行可视化操作,其具体操作步骤为:
[0069] 步骤一、对原始数据(表1)进行统计分析,得到每种风险因子的属性值,包括农产品中农药检出品种、频次;农药超标品种、频次;高剧毒农药检出品种、频次,禁药检出品种、频次,如表2。
[0070] 表2农产品农药残留风险因子统计数据
[0071]
[0072] 步骤二、对步骤一中得到的属性值进行降序排序;
[0073] 步骤三、对步骤一中的相关属性通过专家打分求平均得出权值,其中综合评价的各风险因子是根据表2农产品农药残留的风险因子归类得出的,由于根据相关性分析,通过式3计算得到相关系数r:
[0074]
[0075] 式3中,X、Y分别是两个需要比较的风险因子。
[0076] 农药检出种类数和频次数相关系数0.8861,超标品种和频次的为0.7195,检出品种和超标品种的为0.7501,均属于具有显著相关。所以针对这四个属性,我们仅考虑检出农药品种数对农产品综合污染评价的影响;最终综合污染评价由农药检出品种数,检出农药毒性的频次以及农药超标情况三种因子来确定。对三种因子进行权值分配,专家给出的权值分配如表3。采用专家评估法,通过式1生成综合评价值,根据综合评价值排序,如表4。
[0077] 表3.综合评价各风险因子权值分配
[0078]
[0079] 表4.综合评价值排名情况
[0080]
[0081] 步骤四、对步骤二得到的属性值通过条形图的方式排序显示,并使用平行坐标连接一种农产品的全部风险因子,如图2所示,条形图的长度表示属性值的大小,每个轴表示各个属性,每个轴都是按降序排列,一条相同颜色的线连接一个农产品的全部属性,通过观察线的上下起伏可判断排序的变化。
[0082] 步骤五、对步骤三的数据综合评价各风险因子的属性值,即表3的属性,用放射环的形式显示,放射环共有三层,最内层的小圆由颜色的深浅映射一个属性值的大小。外面两层圆环,内外环各表示一个属性,两种属性是层次关系。环中每块区域代表该属性的一个类别,用不同的颜色表示。属性值映射到放射环上,在映射过程中,依次从圆心向右方向逆时针作为区间起始方向,面积越大的区间映射的属性值越高,每个区间所占的相位角度基于属性值的比例计算,第i层角度计算方法如公式4所示:
[0083]
[0084] 假设第i+1层,共有j个节点,即节点Tij的父节点为Ti,则节点Tij角度为:
[0085]
[0086] 其中,n为属性类别的个数.x为具体属性值,第一个扇形的起始角度0度,属性统计量映射如图3。
[0087] 步骤六、将步骤五中每种农产品用于求综合评价的风险因子用放射环显示,按照表4的综合排名顺序显示在平行坐标的最后一列,并与之前该农产品的各个属性相连接,如图4;
[0088] 步骤七、将表1农产品检出的农药名称及相应的表2统计出的检出频次和超标频次以桑基图的形式显示,如图5;
[0089] 步骤八、将一个省市的全部农产品的检出频次统计以热图的方式显示到地图上,如图6左下角图的热图。
[0090] 经过上述步骤的操作,得到最终可视化结果,如图6所示。
[0091] 本发明的可视化方法还可以应用到农药残留检测评估。农药残留监测数据中包含很多信息,如农药检出品种、频次;农药超标品种、频次;高剧毒农药检出品种、频次等。用户通常希望能够综合所需要的多个农药残留属性得出一个农产品综合的污染程度评价。来判定不同产地农产品的优劣以及同一地区不同农产品的污染情况。
[0092] 此外,本发明的可视化方法也可以应用到大学排名或学科评估上。大学的综合排名指标包括学校影响力、教学质量、教师资格、就业率、论文及出版物发表情况等。也属于多属性排序问题。可以用本发明展示每个指标并利用综合评价模型得出综合排名并显示。学科评估是对一个学校的各个学科的评估,如计算机系、数学系、艺术系、管理系等。指标包括师资队伍与资源、科学研究水平、人才培养质量、学科声誉等。在广泛征求各单位和各方面专家意见后确定每个指标的权重。也属于多属性排序问题,可用本发明的可视化方法表示。
[0093] 需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。