数据关联性分析方法及系统、可读存储介质转让专利
申请号 : CN201910592394.7
文献号 : CN110990777B
文献日 : 2022-03-18
发明人 : 侯占杰 , 周轶 , 季学伟 , 方理平 , 李燕 , 张艳艳 , 陈明 , 陈晓岚 , 刘耀峰 , 梅楠 , 张维 , 侯烺祎 , 贾娜莉 , 刘艳
申请人 : 北京市应急管理科学技术研究院 , 北京天之华软件系统技术有限责任公司
摘要 :
权利要求 :
1.一种数据关联性分析方法,其特征在于,包括如下步骤:获取待分析数据对象,所述待分析数据对象来自于不同的业务且对应于同一时间段,每一所述待分析数据对象具有特定的字段点;
根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果;
根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数绝对值;
根据所述社会网络关系矩阵绘制出不同业务之间的强相关业务的社会网络结构图,计算及排名出选到的各业务各字段点在所述社会网络结构中的中心度和中心势;
根据所述中心度对所述社会网络结构中的业务进行重要度排名;根据所述中心势确定所述社会网络结构中各业务的总体整合度。
2.根据权利要求1所述的数据关联性分析方法,其特征在于,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是连续型数据时选择对应的Pearson相关系数计算模型,所述Pearson相关系数计算模型为:其中,σX和σY分别表示X,Y两个变量的标准差;Cov(X,Y)表示X,Y两个变量的协方差,且X,Y两个变量的标准差均不等于零。
3.根据权利要求1所述的数据关联性分析方法,其特征在于,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是分类有序型数据时选择对应的Spearman相关系数计算模型,所述Spearman相关系数计算模型为:其中,m为等级个数;d为二列成对变量的等级差数。
4.根据权利要求1所述的数据关联性分析方法,其特征在于,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是分类无序型数据时选择对应的相关系数Kendall计算模型,所述Kendall计算模型为:其中,n表示同类统计对象的个数;number of concordant pairs表示同序对的数量,number of discordant pairs表示异序对的数量。
5.根据权利要求1‑4任一项所述的数据关联性分析方法,其特征在于,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,其中包含如下步骤:
根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的初始相关系数;
选择适当的回归预测模型对所述初始相关系数做回归拟合,通过检验及基于计算的预测误差做筛选,以得到所述相关系数和所述相关性计算结果。
6.根据权利要求5所述的数据关联性分析方法,其特征在于,选择适当的回归预测模型对所述初始相关系数做回归拟合,通过检验及基于计算的预测误差做筛选,以得到所述相关系数和所述相关性计算结果的步骤中:所述回归预测模型包括曲线估计模型和机器学习模型,所述曲线估计模型包括一次函数关系、非线性三次函数关系和对数函数关系,所述机器学习模型包括随机森林回归、支持向量机回归及神经网络回归。
7.根据权利要求6所述的数据关联性分析方法,其特征在于,根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数的步骤中:
若两个字段点之间的相关系数大于设定阈值,则判定两个字段点两两强显性相关,两个字段点对应的待分析数据对象为两两强显性相关。
8.一种数据关联性分析系统,其特征在于,包括至少一个处理器和至少一个存储器,至少一个所述存储器中存储有程序指令,至少一个所述处理器读取所述程序指令后执行权利要求1‑7任一项所述的数据关联性分析方法。
9.一种可读存储介质,其特征在于,所述存储介质中存储有程序指令,计算机读取所述程序指令后执行权利要求1‑7任一项所述的数据关联性分析方法。
说明书 :
数据关联性分析方法及系统、可读存储介质
技术领域
背景技术
系统中的数据之间是否有关联,而且分辨及快速掌握哪些数据是关键业务数据也较为困
难。操作人员不能确定各业务系统数据在整体系统中的重要程度如何,为各业务系统信息
整合、相互间信息交换与共享及信息资源合理布局等工作的有效进行增添了障碍或降低了
效率。
发明内容
题。
关性计算结果;
会网络关系矩阵中各向量间的关系值为对应的相关系数绝对值;
所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象
的字段点的特性字段变量是连续型数据时选择对应的Pearson相关系数计算模型,所述
Pearson相关系数计算模型为:
所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象
的字段点的特性字段变量是分类有序型数据时选择对应的Spearman相关系数计算模型,所
述Spearman相关系数计算模型为:
所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象
的字段点的特性字段变量是分类无序型数据时选择对应的相关系数Kendall计算模型,所
述Kendall计算模型为:
所述字段点两两之间的相关系数得到相关性计算结果,其中包含如下步骤:
相关性计算结果的步骤中:
支持向量机回归及神经网络回归。
数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相
关系数的步骤中:
行以上任一项所述的数据关联性分析方法。
引入业务管理信息系统的众多数据资源的分析中,将各业务系统中不同业务的数据对象的
字段点作为节点将其组成复杂的整体网来看待,社会实体为不同系统大节点、其涉及的众
多的业务数据指标及其指标涉及到的各个参数为小节点,来分析各系统各业务指标各业务
字段之间的关系。本发明有助于推动信息资源的精简及整合,明了不同平台或系统间业务
数据的联动性,发现业务关系及问题并指导及改善相关工作,实现平台或系统间的跨业务
应用及信息资源的跨平台或系统共享。
附图说明
具体实施方式
基于附图所示的方位或位置关系,仅是为了便于描述本发明的简化描述,而不是指示或暗
示所指的装置或组件必需具有特定的方位、以特定的方位构造和操作,因此不能理解为对
本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗
示相对重要性。其中,术语“第一位置”和“第二位置”为两个不同的位置。
以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是
两个组件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本
发明中的具体含义。
高或者同时低,那么这两个变量正相关。如果一个变量的高值对应于另一个变量的低值,且
该变量的低值对应于另一个变量的高值,那么这两个变量负相关。如果两个变量间没有关
系,即一个变量的变化对另一变量没有明显影响,那么这两个变量不相关。相关系数是反应
变量之间关系密切程度的统计指标,相关系数的取值区间在1到‑1之间。1表示两个变量完
全线性相关,‑1表示两个变量完全负相关,0表示两个变量不相关。数据越趋近于0表示相关
关系越弱。简单相关系数:又叫相关系数或线性相关系数,一般用字母r表示,用来度量两个
变量X和Y间的线性关系。
标准差,因此分母使用的是n‑1。
资源管理是指对信息本身即信息内容实施管理的过程。广义的信息资源管理是指对信息内
容及与信息内容相关的资源如设备、设施、技术、投资、信息人员等进行管理的过程。
信息价值的管理过程。信息整合共享与利用是实现信息资源有效管理的重要途径。
出或是改变系统自身的状态。假如存在两个(或是两个以上)的处理过程具有相同的数据输
入,那么我们称这两个(或是两个以上)处理过程具有“共享数据”。共享数据的集合就是那
些相同的输入数据。
社会实体,行动者信息可以静态也可以是动态。从方法论的角度上讲,行动者之间的关系是
社会网络分析最重要的内容。可以通过构建个体网络模型,或整体网络模型,从不同的关系
角度研究社会现象和社会结构,可以包含政治、经济、文化等各个方面。社会网络根据网络
行动者的类别可分类为人际关系网,城市网,国家网等。进一步根据行动者关系的内涵,可
将其分类为贸易网,营销同盟网,情感关系网等。
网络分析,首先确定网络结构,并确定各网络节点的位置和意义。网络结构是由各个网络节
点及其关系构成的复杂结构,一般包括以下几个构成要素:
的社会网络节点划分为信息专家、联系人和信息推送人。
容、方向、强度和主被动关系等特点。
络中的多联系节点越多,孤立节点越少,反之则说明网络越松。在人与人组成的网络中就表
明人与人之间的关系越淡薄。相关研究表明,网络密度过高或过低都不利于社会网络进行
知识共享。
凑也更稳定。
中心网和社会中心网的角度出发,中心性也被分为点中心性和网络中心性。在图论(Graph
Theory)与网络分析(Network Analysis)中,中心性(Centrality)是判定网络中节点重要
性的指标,是节点重要性的量化。
统指定的某段期间或自所有系统上线以来的所有需要分析的业务数据作为待分析对象,所
选择的数据位于同一时间段内。
系数得到相关性计算结果;以同企业关联的各业务系统涉及到的指标数据为例,以分散的
多系统业务数据为基础,基于企业ID和企业名称把各系统的数据关联起来,得到所有企业
的各系统相关业务字段值及经过加工转换的业务数据指标值,计算来自不同系统指定期间
的关联到的企业业务数据之间的相关系数,按照数据的计量层次,可以将统计数据分为定
类数据、定序数据、定距数据与定比数据。其中有些变量比如行业分类、设备类别等的数据
含有字母字符,需要把他们分别转化为数字类别分类再进行定类数据相关性的分析。根据
不同数据类型的业务数据选取不同的相关系数计算方法。不同类型的变量之间相关系数计
算模型选择可参见表1所示。
定距变量/定比变量 Pearson Spearman Kendall
定序变量 Spearman Kendall
定类变量 Kendall
字段值及经过加工转换的业务数据指标值,计算来自不同系统指定期间的关联到的这些业
务值或指标值之间的相关系数确定是否显性强相关。针对不同的系统数据选择X值和Y值的
确定方式,有的是直接取自对应业务表的字段值,有的是取自对应业务表有效数据中根据
各企业ID汇总每家企业此业务的记录条数,有的是取自对应业务表有效数据根据各企业ID
合计此业务各企业记录发生的总额。具体每个指标如何从所指定的表或字段中调出,可参
考图2对应的相关点关系表中的“取值逻辑”列。
述社会网络关系矩阵中各向量间的关系值为对应的相关系数绝对值;根据计算结果,经过
汇总、核实比较后选取两两强显性相关的不同系统业务指标或表字段。具体地,可参考表2,
表2中所给出的参数值仅是示例性的,具体的矩阵中的行数、列数以及其所选择的变量是根
据实际情况来选择的。
据各系统可选的强显性相关两两业务字段,构建基于相关性的各业务系统及指标的社会网
络关系矩阵,其中各向量间的关系值为其相关系数绝对值。本步骤中,以社会网络关系矩阵
为数据源,用相关SNA分析工具UCINET和NetDraw构建网络模型,绘制出各系统间强相关业
务的社会网络结构图,计算及排名出选到的各系统各字段点在这个由各系统组成的整体网
中的中心度和中心势。中心度与中心势是基于现有社会网络分析软件工具UCINET计算得出
的;绘制的网络结构图是基于画图软件NetDraw绘出的。中心度算法及中心度算法分类有多
种,UCINET软件自带算法设置的点度中心度为加权度。
关系绝对值加总数。点度中心势即网络整体中心度,表明了网络整体的“紧凑度”,记为CD。
其计算公式分别如下:
网络统计量。中心势是网络整体集中化程度的统计量。中心度(势)又分为度数中心度(势)、
中间中心度(势)和接近中心度(势),分别代表了个体或网络整体的核心集权地位、中间人
地位及独立性地位等网络特性。基于中心度(点度中心度、中间中心度、接近中心度)值对整
体网中所有业务点进行排名,以了解各点在整体网中不同分析角度的重要程度如何;以及
基于中心势分析整体网的一致性或总体整合度,中心势越高,说明中心度较大的节点对其
他节点具有较强控制力,节点分布比较集中,有较强的信息传递能力,整个网络内各系统之
间的联系足够紧密,跨系统应用交流互动频繁。通过分析各业务系统各业务指标的重要性
及哪些业务指标数据在整个系统网络中是关键点,为实际业务后续优化及有效管理与服务
提供参考。
点两两之间的初始相关系数;选择适当的回归预测模型对所述初始相关系数做回归拟合,
通过检验及基于计算的预测误差做筛选,以得到所述相关系数和所述相关性计算结果。所
述回归模型选择曲线估计模型和机器学习模型,所述曲线估计模型包括一次函数关系、非
线性三次函数关系和对数函数关系,所述机器学习模型包括随机森林回归、支持向量机回
归及神经网络回归。以上回归预测模型可以依据现有技术实现,本发明实施例中不再详细
描述。
数,涉及到的关联表的名称,确定的关联字段选择的相关系数的形式以及计算得到的相关
系数值和回归预测模型等。第1组数据中,关联表ZF_O_ZFJC_JCJL、关联字段avgjcjl的数据
对象与关联表AQY_O_SP_T49、关联字段aqy的数据对象之间的相关系数值为0.22,取其绝对
值0.22记入表2相关系数矩阵。相应地,能够计算任意两个待分析对象的相关系数绝对值,
根据实际情况对图2所示的表格的行数进行调整,可以增加系统如专职安全员系统、隐患排
查系统、重大危险源系统等。
现,其中节点的大小即可表示节点在整个网络中的中心度大小,不同节点之间的连线的粗
细程度可以代表二者之间相关系数的绝对值的大小。
要,此节点在整体网中的参与度也越高。执法系统和台账系统在此整体网中处于最重要的
位置,参与度最高。
明中心度较大的节点对其他节点具有较强控制力,节点分布比较集中,有较强的信息传递
能力。也说明整个网络内各系统之间的联系足够紧密,交流互动频繁。
是此节点对整个网络资源信息的控制程度。经过隐患排查系统和安全员检查次数两节点的
短路径最多,即隐患排查系统和安全员检查次数对整体网的数据信息相对控制程度最高,
在整个网络上的权利比较大,能够在较大程度上控制业务数据流转的进行。
点。行政执法系统和专职安全员系统在信息传播中依赖其他系统节点的程度较低,即其受
其他节点影响较小,是整个网络中的重心点。
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。