基于模糊优先级的二阶段实例层数据集成方法转让专利

申请号 : CN201310116388.7

文献号 : CN103164531B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 冯钧盛震宇唐志贤李士进朱跃龙万定生徐黎明冯读庆许潇姜康陈焕霖刘子源朱康康史涯晴

申请人 : 河海大学

摘要 :

本发明公开了一种基于模糊优先级的二阶段实例层数据集成方法,属于数据集成技术领域。所述二阶段实例层数据集成方法首先确定待集成记录所属分布式存储节点的优先级指标及每个指标的权重,并采用三角模糊数来表示模糊优先级;数据集成时,根据投票机制区分出实例层的强弱冲突;若为弱冲突,则采用多数一致属性值作为集成后的结果;若为强冲突,则通过构建去模糊化的融合决策矩阵,计算每条记录与正理想解的隶属度来决定集成所采用的属性值。本发明解决了在海量数据集成中集成效率低或集成结果精度低等问题。

权利要求 :

1.一种基于模糊优先级的二阶段实例层数据集成方法,其特征在于,包括模糊优先级模型建立和二阶段实例层数据集成,其中:所述模糊优先级模型建立包括分布式存储节点优先级指标的设置、优先级指标的模糊化表示;所述二阶段实例层数据集成包括利用投票机制的强弱冲突判断、弱冲突解决以及强冲突解决;

实现步骤如下:

步骤1,为分布式存储节点进行优先级指标定性判断,然后采用三角模糊数对优先级指标进行表示,同时为各个优先级指标根据应用需求赋以权值;

步骤2,对于发生实例层冲突的记录项,按照集成准确度的需求选用三分之二投票制或半数投票制的方法区分出强弱冲突;

若冲突为弱冲突,则转向步骤3;否则,转向步骤4;

步骤3,对于弱冲突情况,采用多数属性值一致的记录作为集成后的输出结果,转向步骤5;

步骤4,对于强冲突情况,根据记录所来源的分布式存储节点优先级指标进行集成,包括获取融合矩阵、规格化、构建融合决策矩阵、去模糊化、计算每条记录与正理想解和负理想解的距离、综合评估步骤,执行完毕后转向步骤5;

步骤5,若存在记录未集成,则重复步骤2;否则,集成完毕;

所述步骤4的具体实施步骤如下:

步骤4-1,将n条来自不同分布式存储节点的待集成记录,按照它们所属节点的优先级指标建立融合矩阵;

步骤4-2,根据步骤4-1所得到的融合矩阵中三角模糊数的值情况,进行成本型指标或收益型指标的规格化;

步骤4-3,通过步骤1所获得的优先级指标权值与步骤4-2获得的规格化融合矩阵构建融合决策矩阵;

步骤4-4,对步骤4-3获得的融合决策矩阵去模糊化处理;

步骤4-5,对步骤4-4获得的去模糊化后的融合决策矩阵,计算每条记录与正理想解和负理想解的距离;

步骤4-6,按照步骤4-5的处理结果,计算每条记录与正理想解的隶属度,并按照隶属度排序,隶属度最大的记录所存储的属性即为集成后的结果,结束步骤4;

所述分布式存储节点优先级包括置信度、可用性、出错性三个指标;置信度指标描述了分布式存储节点所提供数据的准确度及权威性;可用性指标描述了分布式存储节点上的数据在某一时段的可用程度;出错性指标描述了分布式存储节点运行的稳定性及发生故障的可能性;

所述优先级指标从其影响关系上可以分为两类:成本型指标和收益型指标;成本型指标值越大,表明其成本越低,优先级越高;反之,收益型的指标值越大,表明其收益越高,优先级越高;

所述优先级指标在优先级模型中存在权重关系,描述了各个指标在优先级中的作用程度,用权重向量w=(w1,w2,w3)表示;其中wj表示分布式存储节点的第j个优先级指标权值,且所述优先级指标的模糊化指的是对分布式存储节点的优先级指标采用三角模糊数进行描述;三角模糊数用M=(ml,m,mr)来表示,其中ml表示M所支撑的上界,mr表示M所支撑的下界,m表示M的中值;去模糊化的计算公式如下:  公式1

vM表示三角模糊数M去模糊化后的数值;

所述二阶段实例层数据集成指的是用投票机制将实例层冲突区分为强冲突与弱冲突;

对于弱冲突采用简化的集成方式进行处理;对于强冲突采用依据分布式节点优先级的关系进行处理;即对于任何实例层数据的集成均分为冲突判断与冲突解决两个阶段进行;

所述投票机制分为三分之二投票制与半数投票制两种;三分之二投票制指的是在现有的记录里满足:有不低于三分之二的记录对于发生冲突的属性它们的属性值是一致的;半数投票制指的是在现有记录里满足:指代现实世界同一对象的记录超过2条,且发生了属性值的冲突,同时,它们中有不低于一半的记录属性值是一致的;

所述弱冲突指数据集成过程中,实例层的冲突现象满足三分之二投票制或半数投票制的情况;

所述强冲突指数据集成过程中,实例层的冲突现象不满足三分之二投票制与半数投票制的情况;

所述弱冲突解决方法为:在三分之二投票制中,有不低于三分之二的记录,对于发生冲突的属性它们的属性值是一致的,则此时将以这些一致的属性值作为集成后的数据对外显示;在半数投票制中,有不低于一半的记录,对于发生冲突的属性它们的属性值是一致的,则将以这些一致的属性值作为集成后的数据对外显示;

所述融合矩阵为Fn×3=(fij)n×3,其中n表示有n条来自不同分布式节点的记录待集成;3表示每个分布式存储节点的3个优先级指标;fij表示第i条记录所属的分布式节点的第j个优先级指标;

所述规格化是为了便于数据的评估和比较,将分布式存储节点优先级指标规格化至一个统一的量纲;对于fij=(aij,bij,cij),成本型指标的值规格方式如下:  公式2

收益型指标的值规格方式如下:

  公式3

其中,rij表示第i条记录所属的分布式存储节点的第j个优先级指标规格化后的模糊数,n表示有n条来自不同分布式存储节点的记录待集成;3表示每个分布式存储节点的3个优先级指标;

所述构建融合决策矩阵是指将优先级指标权值加入融合矩阵;若权重向量w=(w1,w2,w3),规格化后的rij=(aij,bij,cij),则融合决策矩阵如下:dij=(a′ij,b′ij,c′ij)=wj(aij,bij,cij),(1≤i≤n,1≤j≤3)  公式4其中,dij表示融合决策矩阵中的每一个元素;

所述计算与正理想解和负理想解的距离中,正理想解向量由M+表示,定义为且 负理想解向量由M-表示,定义为且 其中vij表示融合决策矩阵中的每

一个元素去模糊化后的值;待选记录与正理想解之间的距离定义为:  公式5

待选记录与负理想解之间的距离定义为:

  公式6

所述综合评估指求出每个待选记录项与正理想解的隶属度μ(vi),计算公式如下:  公式7

然后对待选记录的隶属度排序,隶属度最大的待选记录值就是集成后的数据值。

说明书 :

基于模糊优先级的二阶段实例层数据集成方法

技术领域

[0001] 本发明涉及一种基于模糊优先级的二阶段实例层数据集成方法,关于数据存储节点模糊优先级指标的定义、实例层冲突判断及冲突解决的二阶段数据集成方法,属于数据集成的技术领域。

背景技术

[0002] 随着各领域信息化的进程,数据的采集、存储、处理和传播的数量也与日俱增。实现数据共享,可以使更多的行业部门充分使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。但是,在实施数据共享的过程当中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。
[0003] 数据集成的核心任务是要将分布式异构数据源集成到一起,使用户能够以透明和统一的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享率。透明的方式是指用户无需关心如何实现对异构数据源数据的访问,以及如何组织系统中的数据。数据集成可以将数据内容、格式、质量进行统一,便于共享。因此,它是解决数据共享的关键。
[0004] 为了支持正确决策,就要求集成系统管理的数据可靠、一致、没有错误、能准确地描述实际情况。指代同一现实世界对象的多条记录,如果它们的属性值存在不一致现象,这就称为实例层数据不一致。实例层数据不一致的消除可以使数据内容统一,是保障数据集成质量的关键步骤。
[0005] 目前处理实例层不一致性问题的主要方法包括三类:基于冲突产生原因的处理策略、基于SQL方法及自定义函数的处理策略、基于集成质量评估的处理策略。第一类方法使用了相似度计算来检测或排除实例层的不一致,在数据源无偏向性的情况下,这类方法针对字符形式的数据处理十分有效。但是这类方法没有考虑数据源的偏向性,某些情况无法做出正确判断,且对非字符形式的实例层不一致无法有效解决;第二类方法给出了集成异构数据源的操作,处理实例层不一致问题的策略简单易行,效率高。但是它们对数据不一致处理操作可控性不足,无法预知集成结果,缺乏质量评估,无法满足高质量数据集成的要求;第三类方法考虑了数据源的质量评估,有效提高了数据集成的质量,在对集成数据质量要求高的环境下,这类方法较为合适。但是这类方法只考虑了数据源的质量,而没有考虑到分布式环境下其它要素的评估。同时,这一类方法对数据不一致性处理方式单一,集成效率不高,不适合海量数据集成。
[0006] 在实际数据集成工作中,由于数据量呈现海量趋势,传统方法只靠单一处理方式显得不足。如果采用复杂的方法,数据集成结果精度提高了,但是效率很低;如果采用简单方法,效率提高了,但是缺乏准确度。因此,我们希望提出一种二阶段数据集成方法,先对集成情况进行判断,区分出实例层的强弱冲突。然后根据判断情况,分别使用强冲突处理方法和弱冲突处理方法来实现集成。并且为了提高强冲突时集成的准确度,我们对存储节点采用模糊优先级评估,消除主观误差。所以,我们的方法在提高集成效率的同时,尽量提高结果准确度。

发明内容

[0007] 发明目的:本发明针对现有数据集成方法中集成效率与结果准确度无法同时平衡的不足,本发明提供一种基于模糊优先级的二阶段实例层数据集成方法。先确定待集成记录所属分布式存储节点的优先级指标及每个指标的权重,采用三角模糊数来表示模糊优先级;数据集成时,根据投票机制区分出实例层的强弱冲突;若为弱冲突,则采用多数一致属性值作为集成后的结果;若为强冲突,则通过构建去模糊化的融合决策矩阵,计算每条记录与正理想解的隶属度来决定集成所采用的属性值。本发明保证了海量数据集成中的集成效率并提高了集成结果精度。
[0008] 技术方案:一种基于模糊优先级的二阶段实例层数据集成方法,一种基于模糊优先级的二阶段实例层数据集成方法,其特征在于,包括模糊优先级模型建立和二阶段实例层数据集成,其中:所述模糊优先级模型建立包括分布式存储节点优先级指标的设置、优先级指标的模糊化表示;所述二阶段实例层数据集成包括利用投票机制的强弱冲突判断、弱冲突解决以及强冲突解决;
[0009] 实现步骤如下:
[0010] 步骤1,为分布式存储节点进行优先级指标定性判断,然后采用三角模糊数对优先级指标进行表示,同时为各个优先级指标根据应用需求赋以权值;
[0011] 步骤2,对于发生实例层冲突的记录项,按照集成准确度的需求选用三分之二投票制或半数投票制的方法区分出强弱冲突;
[0012] 若冲突为弱冲突,则转向步骤3;否则,转向步骤4;
[0013] 步骤3,对于弱冲突情况,采用多数属性值一致的记录作为集成后的输出结果,转向步骤5;
[0014] 步骤4,对于强冲突情况,根据记录所来源的分布式存储节点优先级指标进行集成,包括获取融合矩阵、规格化、构建融合决策矩阵、去模糊化、计算与正理想解和负理想解的距离、综合评估步骤,执行完毕后转向步骤5;
[0015] 步骤5,若存在记录未集成,则重复步骤2;否则,集成完毕。
[0016] 所述基于模糊优先级的二阶段实例层数据集成方法中,步骤4的具体实施步骤如下:
[0017] 步骤4-1,将n条来自不同分布式节点的待集成记录,按照它们所属节点的三个优先级指标建立融合矩阵;
[0018] 步骤4-2,根据步骤4-1所得到的融合矩阵中三角模糊数的值情况,按照公式2或者公式3进行成本型指标或收益型指标的规格化;
[0019] 步骤4-3,将步骤1所获得的优先级指标权值与步骤4-2获得的规格化融合矩阵按公式4构建融合决策矩阵;
[0020] 步骤4-4,对步骤4-3获得的融合决策矩阵去模糊化处理;
[0021] 步骤4-5,对步骤4-4获得的去模糊化后的融合决策矩阵,计算每条记录与正理想解和负理想解的距离;
[0022] 步骤4-6,按照步骤4-5的处理结果,计算每条记录与正理想解的隶属度,并按照隶属度排序,隶属度最大的记录所存储的属性即为集成后的结果,结束步骤4。
[0023] 所述分布式存储节点优先级包括置信度、可用性、出错性三个指标。置信度指标描述了分布式存储节点所提供数据的准确度及权威性;可用性指标描述了节点上的数据在某一时段的可用程度;出错性指标描述了节点运行的稳定性及发生故障的可能性;
[0024] 所述优先级指标从其影响关系上可以分为两类:成本型指标和收益型指标。成本型指标值越大,表明其成本越低,优先级越高,例如出错性指标;反之,收益型的指标值越大,表明其收益越高,优先级越高,例如置信度指标及可用性指标;
[0025] 所述优先级指标在优先级模型中存在权重关系,描述了各个指标在优先级中的作用程度,用权重向量w=(w1,w2,w3)表示。其中wj表示分布式存储节点的第j个优先级指标权值,且
[0026] 所述优先级模糊化指的是对分布式存储节点的优先级指标采用三角模糊数进行描述。三角模糊数用M=(ml,m,mr)来表示,其中ml表示M所支撑的上界,mr表示M所支撑的下界,m表示M的中值。去模糊化的计算公式如下:
[0027]    公式1
[0028] vM表示三角模糊数M去模糊化后的数值。
[0029] 所述二阶段实例层数据集成方法指的是用投票机制将实例层冲突区分为强冲突与弱冲突。对于弱冲突采用简化的集成方式进行处理;对于强冲突采用依据分布式节点优先级的关系进行处理。即对于任何实例层数据的集成均分为冲突判断与冲突解决两个阶段进行;
[0030] 所述投票机制分为三分之二投票制与半数投票制两种。三分之二投票制指的是在现有的记录里满足:有不低于三分之二的记录对于发生冲突的属性它们的属性值是一致的;半数投票制指的是在现有记录里满足:指代现实世界同一对象的记录超过2条,且发生了属性值的冲突,同时,它们中有不低于一半的记录属性值是一致的;
[0031] 所述弱冲突指数据集成过程中,实例层的冲突现象满足三分之二投票制或半数投票制的情况;
[0032] 所述强冲突指数据集成过程中,实例层的冲突现象不满足三分之二投票制与半数投票制的情况;
[0033] 所述弱冲突解决方法为:在三分之二投票制中,有不低于三分之二的记录,对于发生冲突的属性它们的属性值是一致的,则此时将以这些一致的属性值作为集成后的数据对外显示;在半数投票制中,有不低于一半的记录,对于发生冲突的属性它们的属性值是一致的,则将以这些一致的属性值作为集成后的数据对外显示;
[0034] 所述强冲突解决方法是根据记录所来源的分布式节点优先级指标进行集成,包括获取融合矩阵、规格化、构建融合决策矩阵、去模糊化、计算与正理想解和负理想解的距离、综合评估等步骤;
[0035] 所述融合矩阵为Fn×3=(fij)n×3,其中n表示有n条来自不同分布式节点的记录待集成;3表示每个分布式存储节点的3个优先级指标;fij表示第i条记录所属的分布式节点的第j个优先级指标;
[0036] 所述规格化是为了便于数据的评估和比较,将分布式节点优先级指标规格化至一个统一的量纲。对于fij=(aij,bij,cij),成本型指标的值规格方式如下:
[0037]    公式2
[0038] 收益型指标的值规格方式如下:
[0039]     公式3
[0040] 其中,rij表示第i条记录所属的分布式节点的第j个优先级指标规格化后的模糊数,n表示有n条来自不同分布式节点的记录待集成;3表示每个分布式存储节点的3个优先级指标;
[0041] 所述构建融合决策矩阵是指将优先级指标权值加入融合矩阵。若权重向量w=(w1,w2,w3),规格化后的rij=(aij,bij,cij),则融合决策矩阵如下:
[0042] dij=(aij',bij',cij')=wj(aij,bij,cij),(1≤i≤n,1≤j≤3)    公式4[0043] 其中,dij表示融合决策矩阵中的每一个元素;
[0044] 所述计算与正理想解和负理想解的距离中,正理想解向量由M+表示,定义为且 负理想解向量由M-表示,定义为且 其中vij表示融合决策矩阵中的每
一个元素去模糊化后的值;待选记录与正理想解之间的距离定义为:
[0045]    公式5
[0046] 待选记录与负理想解之间的距离定义为:
[0047]    公式6
[0048] 所述综合评估指求出每个待选记录项与正理想解的隶属度μ(vi),计算公式如下:
[0049]    公式7
[0050] 然后对待选记录的隶属度排序,隶属度最大的待选记录值就是集成后的数据值。
[0051] 本发明采用上述技术方案,具有以下有益效果:采用模糊优先级指标评价分布式存储节点,可以比数据源更加准确的定义数据记录的质量,从而提高集成准确度;通过二阶段实例层数据集成方法,可以保证海量数据集成效率的同时提高集成结果精度。

附图说明

[0052] 图1为本发明实施例的方法流程图;
[0053] 图2为本发明实施例中强冲突解决方法流程图。

具体实施方式

[0054] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0055] 如图1所示,基于模糊优先级的二阶段实例层数据集成方法分为五个步骤:
[0056] 步骤1,建立模糊优先级模型。本方法对记录所属的分布式存储节点采用三个优先级指标描述,包括置信度、可用性、出错性三个指标,并对它们采用模糊化处理。对每个指标均采用7个定性判断标准,然后用三角模糊数进行量化,所用定性与定量指标间转换关系如表1。置信度、可用性两个指标属于收益型指标,即定性评价越高越好;出错性属于成本型指标,即定性评价越低越好。
[0057] 表1定性与定量指标间转换关系
[0058]
[0059]
[0060] 步骤2,采用投票机制区分强弱冲突。投票机制分为三分之二投票制与半数投票制两种。三分之二投票制指的是在现有的记录里满足:有不低于三分之二的记录对于发生冲突的属性它们的属性值是一致的;半数投票制指的是在现有记录里满足:指代现实世界同一对象的记录超过2条,且发生了属性值的冲突,同时,它们中有不低于一半的记录属性值是一致的。例如表2中的四条记录:
[0061] 表2四条来自不同分布式存储节点的同一学生信息记录
[0062]ID NAME AGE SCORE
5153 Li Lei 18 80
5153 Li Lei 19 80
5153 Li Lei 19 80
5153 Li Lei 17 80
[0063] 四条记录里年龄属性一致的记录总数没有超过2条的,故此时若采用半数投票制属于弱冲突;采用三分之二投票制属于强冲突。
[0064] 步骤3,弱冲突处理。在三分之二投票制中,有不低于三分之二的记录,对于发生冲突的属性它们的属性值是一致的,则此时将以这些一致的属性值作为集成后的数据对外显示;在半数投票制中,有不低于一半的记录,对于发生冲突的属性它们的属性值是一致的,则将以这些一致的属性值作为集成后的数据对外显示。表2中的情况若属于弱冲突,则以19作为集成后的年龄属性值;若属于强冲突,则按步骤4处理。
[0065] 步骤4,强冲突处理。对于强冲突情况,根据记录所来源的分布式节点优先级指标进行集成,包括获取融合矩阵、规格化、构建融合决策矩阵、去模糊化、计算与正理想解和负理想解的距离、综合评估等步骤,如附图2,具体如下:
[0066] 设权重向量w=(0.4,0.3,0.3),对表2的四条记录所属分布式存储节点设置模糊优先级指标如下:
[0067] 表3四条记录所属分布式存储节点的模糊优先级指标
[0068]
[0069] 所得融合矩阵为:
[0070]
[0071] 利用公式2和3对融合矩阵规格化得到:
[0072]
[0073] 利用公式4得到融合决策矩阵:
[0074]
[0075] 利用公式1去模糊化得到:
[0076]
[0077] 正负理想解为:
[0078] M+=(0.324,0.325,0.350)
[0079] M-=(0.203,0.232,0.122)
[0080] 利用公式5和6计算每条记录与正负理想解的距离为:
[0081]
[0082]
[0083] 利用公式7求出每个待选记录项与正理想解的隶属度μ(vi):
[0084] μ(v1)=0.31μ(v2)=0.35μ(v3)=0.81μ(v4)=0.11
[0085] 对隶属度排序,最大的μ(v3)即为所求,故第三条记录的AGE属性值将作为集成后的结果。
[0086] 步骤5,若存在记录未集成,则重复步骤2;否则,集成完毕。