一种多源主附实体同一性甄别及数据自补的处理方法转让专利

申请号 : CN202210592302.7

文献号 : CN114969041B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴峰张朝宗李银生王红聂永川任雁毋鹏杰杨扬刘淼张义倩

申请人 : 河北省科学技术情报研究院(河北省科技创新战略研究院)

摘要 :

本发明公开了一种多源主附实体同一性甄别及数据自补的处理方法,应用于大数据处理领域中,提出按主附实体剥离多源数据实体,按照同场景、实体属性分类和权值等进行同一实体甄别,并针对甄别概率进行分别处理和存储。本发明通过主实体与附属实体同一性概率计算、同一实体的指标补充与数据合并、实体名录项提取与存储、实体子名录项分离等技术方法,系统性解决了主附实体按同一性概率分别处理与归集、跨源实体合并与数据补充、实体关系统一存储、实体按需分离等问题,为进行多源、大规模数据关联运算提供了可行性的解决方案。

权利要求 :

1.一种多源主附实体同一性甄别及数据自补的处理方法,其特征在于,具体包括以下步骤:A1.从源A的实体题录项数据库EFDB提取主实体题录项MEFS、附属实体题录项SEFS,从源A的实体应用场景数据库ESDB提取主实体m(m)与附属实体s(m)之间的应用场景es,从实体静态数据库RSDB提取实体静态库相关实体信息,利用单源同一实体甄别及数据补充器,依据主实体、同场景信息,提取表征单源同一实体的信息,存入同一实体数据库SEDB,并进行数据补充;其中,实体静态数据库RSDB存放来源于同一源的多库的数据;

步骤A1中所述单源同一实体甄别及数据补充器的工作方法为:

A11.从源A的实体静态库数据库RSDB中,读取单源多库数据集合DSB;

A12.从源A的实体题录项数据库EFDB中,读取未入库的库个数N1,设n1=1;

A13.读取库n1的主实体题录项MEFS,获得主实体题录项MEFS的数据集合DSA,同时获得数据集合DSA记录的条数I1,设i1=1;

A14.读取数据集合DSA中的第i1条记录,利用题录项数据的唯一项K,与数据集合DSB中的数据进行匹配,如果匹配成功,则执行步骤A15,如果匹配不成功,执行步骤A19;

A15.提取记录i1对应的主实体m1的表征单源实体同一性的相关信息,写入同一实体数据库SEDB;

A16.从同一实体数据库SEDB中,读取主实体m1在源A中的表征同一实体的相关信息数据集合DSC;

A17.从实体应用场景数据库ESDB中,读取主实体m1对应的附属实体信息集合DSS,利用同场景SS规则,判别具体附属实体s是否存在同一实体;如果存在同一实体,则执行步骤A18,否则,执行步骤A19;

A18.提取具体附属实体s的同一实体相关信息,写入同一实体数据库SEDB;

A19.判断I1>i1是否为真,如果为真,则执行i1=i1+1,跳转到步骤A14执行;否则跳转到步骤A110执行;

A110.判断N1>n1是否为真,如果为真,则执行n1=n1+1,跳转到步骤A13执行;否则,结束;

A2.从实体静态数据库RSDB提取实体静态库相关实体信息,从源B的实体题录项数据库EFDB提取附属实体题录项SEFS,从源B的实体应用场景数据库ESDB提取主实体m(m)与附属实体s(m)之间的应用场景es,从实体动态数据库RVDB提取动态库实体数据信息,从同一实体数据库SEDB提取同一实体数据信息,利用异源同一实体甄别器,依据规则,判别异源实体的同一性,提取表征异源同一实体的信息,传入异源实体数据增补器,同时存入主实体动态数据库RVDB;其中,实体动态数据库RVDB存放来自于异源且经过整合之后的实体的指标及数据;

A3.从实体动态数据库RVDB提取动态库实体数据信息,从同一实体数据库SEDB提取同一实体数据信息,从异源同一实体甄别器接收同一源同一实体的信息,利用异源实体数据增补器,依据时间最近原则,进行异源实体信息的增补,同时将异源实体增补信息,存入实体动态数据库RVDB;

A4.从同一实体数据库SEDB提取同一实体数据信息,从实体动态数据库RVDB提取动态库实体数据信息,利用实体名录项自动提取生成器,依据实体名录必要项eles,提取实体名录信息,存入实体名录数据库EDDB;

A5.从实体动态数据库RVDB提取动态库实体数据信息,从实体名录数据库EDDB提取实体名录信息,利用子实体自动分离器,依据规则,从实体名录数据库EDDB中自动分离子实体信息,形成子实体名录信息,存入实体名录数据库EDDB。

2.根据权利要求1所述的一种多源主附实体同一性甄别及数据自补的处理方法,其特征在于,步骤A2中所述异源同一实体甄别器判别异源实体同一性的具体方法为:A21.从源B的实体题录项数据库EFDB中,按照实体类型,读取未入库的附属实体类型个数N2,设n2=1;

A22.读取具体附属实体类型n2的相关信息,同时获得系统设定的附属实体类型n2的入库阈值TH;

A23.依据附属实体类型n2,判断对应的实体动态数据库RVDB是否存在,如果存在,则执行步骤A24,如果不存在,则跳转到步骤A214执行;

A24.依据附属实体类型n2,从同一实体数据库SEDB中,读取表征同一附属实体类型n2的相关信息数据集合DSF;

A25.从实体动态库RVDB中读取动态库信息数据集合DSD;

A26.从源B的附属实体题录项数据库EFDB中,读取附属实体类型n2的集合DSG,获得记录条数M2,设m2=1;

A27.从集合DSG中,读取附属实体题录项的第m2条记录;

A28.依据附属实体类型n2及记录m2,从源B的实体应用场景数据库ESDB中读取记录m2对应的附属实体与主实体之间的具体应用场景es;

A29.依据附属实体类型n2及记录m2,从源B的实体静态数据库RSDB中读取记录m2对应的具体静态库数据集DSE;

A210.从步骤A24获得集合DSF信息,从步骤A25获得集合DSD信息,从步骤A27获得记录m2信息,从步骤A28获得应用场景es信息,从步骤A29获得集合DSE信息,利用附属实体题录项的记录m2的唯一项、不变项和常用项属性,以及应用场景es、集合DSD、集合DSE、集合DSF信息,依据设定规则,在集合DSD中匹配,并计算实体间的相似概率P(A);

A211.判断P(A)>TH是否为真,如果不为真,则跳转到步骤A213执行,如果为真,则将P(A)及表征实体项的信息写入同一实体数据库SEDB;

A212.判断P(A)=100%是否为真,如果不为真,则跳转到步骤A213执行,如果为真,则将记录m2、集合DSD对应的具体记录项d、集合DSE对应的具体记录项e、集合DSF对应的具体记录项f信息传入异源实体数据增补器,并启动其运行;

A213.判断M2>m2是否为真,如果为真,则执行m2=m2+1,同时跳转到步骤A26执行;如果不为真,则执行步骤A214;

A214.判断N2>n2是否为真,如果为真,则执行n2=n2+1,同时跳转到步骤A22执行;如果不为真,结束。

3.根据权利要求2所述的一种多源主附实体同一性甄别及数据自补的处理方法,其特征在于,步骤A3中所述异源实体信息增补的具体方法为:A31.接收记录m2、集合DSD对应的具体记录项d、集合DSE对应的具体记录项e、集合DSF对应的具体记录项f信息;

A32.针对具体题录项的唯一项、不变项和常用项属性,获得属性个数N3,设n3=1;

A33.获得第n3个属性的属性名称name;

A34.依据属性名称name,读取记录项d的对应数据dn,同时,依次读取记录m2、记录项e、记录项f的对应数据,与dn进行比对;

A35.判断dn是否为空,如果为空,则跳转到步骤A36执行,如果不为空,则转到步骤A37执行;

A36.按照时间最近原则,将记录m2、记录项e、记录项f中对应的最新数据补充到dn中,并记录补充数据的时间戳、来源信息;

A37.标记记录m2、记录项e、记录项f中的对应属性数据的时间戳及来源信息;

A38.形成临时记录项d',判断N3>n3是否成立,如果成立,则跳转到步骤A33执行,否则执行步骤A39;

A39.针对除唯一项、不变项和常用项外的其它属性,依次读取记录项m2、记录项e、记录项f中的对应属性数据,与记录项d进行比对;

A310.记录时间戳、来源信息,形成最新的临时记录项;更新入实体动态数据库RVDB。

4.根据权利要求3所述的一种多源主附实体同一性甄别及数据自补的处理方法,其特征在于,步骤A4中所述实体名录信息的生成方法为:A41.依据系统设定实体类型,获得实体类型个数N4,设n4=1;

A42.读取实体n4的实体名录项els和实体名录必要项eles;

A43.从同一实体数据库SEDB中读取P(A)=100%的实体n的同一实体数据集合DSH;

A44.依据集合DSH,按照最近时间原则,从实体动态数据库中抽取实体n4的实体名录项els相关数据信息,形成临时数据集合DSI;

A45.按照实体n4的实体名录必要项eles的数据非空原则,过滤集合DSI,形成数据子集DSJ;

A46.将集合DSJ作为实体n4的实体名录信息,写入实体名录数据库EDDB;

A47.判断N4>n4是否成立,如果成立,令n4=n4+1,并跳转到步骤A42执行,否则结束。

5.根据权利要求4所述的一种多源主附实体同一性甄别及数据自补的处理方法,其特征在于,步骤A5中所述子实体名录信息的自动分离方法为:A51.依据用户指令,启动具体实体n5的子实体分离程序;

A52.读取用户指定或预设的实体分离规则r;

A53.从实体名录数据库EDDB中读取具体实体n5的名录数据集合DSO,设置临时数据集合DSP;

A54.获得集合DSO中的记录条数I5,设i5=1;

A55.读取集合DSO中的记录n5,并依据记录n5的信息,读取实体动态数据库RVDB中对应的动态库实体数据信息,进行匹配,如果匹配成功,则执行步骤A56,否则,执行步骤A57;

A56.将记录n5加入数据集合DSP中;

A57.判断I5>i5是否成立,如果成立,则执行i5=i5+1,并跳转到步骤A55执行,如果不成立,则执行步骤A58;

A58.将数据集合DSP写入实体名录数据库EDDB中。

说明书 :

一种多源主附实体同一性甄别及数据自补的处理方法

技术领域

[0001] 本发明涉及大数据应用技术领域,特别是一种多源主附实体同一性甄别及数据自补的处理方法。

背景技术

[0002] 现有处理多源数据的实体识别、提取与存储的方法,通常为按源或类型归集,依据数据的实体属性逐一进行匹配和识别,由于缺少实体题录项、同场景、实体属性分类及权值等判别机制,导致数据冗余、表达不统一、匹配准确度不高、执行效率低、识别过程信息丢失等,主要体现在以下几个方面:
[0003] 1)数据冗余,无法统一表达。现有技术在归集异源数据的实体时,通常采用按源或类型归集,由于其数据内部表征实体的指标多样,往往导致归集的实体数据指标不一致,无法统一存储、标准表达以及对外提供服务。
[0004] 2)实体匹配准确度不高。现有针对实体的识别技术,通常依据数据的实体属性进行匹配和识别,由于受实体属性多样、数据量庞大等因素制约,普遍存在匹配度低、精度不高等问题。
[0005] 3)实体识别的执行效率不高。现有技术通常按照实体的属性顺序,依次判别实体,由于缺乏针对实体属性的分类定义、权重赋值等,往往导致实体识别计算时间长、属性先后矛盾等问题。
[0006] 4)实体相对静止,数据质量无法提高。现有技术在识别、抽取实体时,通常采用直接分离的方式,属性扩展有限,没有或很少依据数据之间的隐含属性进行数据的相互校正、补充与扩展,无法实现数据自我完善,也无法有效保证数据质量。
[0007] 5)识别过程信息丢失。现有技术在识别实体时,通常只记录识别成功的同一实体属性信息,很少记录识别实体过程中的大概率事件,比如判别两个实体大概率为同一实体,但又不能完全判别为同一实体的情况,不利于数据关系的深度挖掘与分析。

发明内容

[0008] 本发明提供一种多源主附实体同一性甄别及数据自补的处理方法,用于解决多源多期数据的主附实体同一性甄别、数据自动合并与增补等问题,为进行多源、大规模数据关联运算提供可行性的解决方案。
[0009] 为解决上述技术问题,本发明所采取的技术方案如下。
[0010] 一种多源主附实体同一性甄别及数据自补的处理方法,具体包括以下步骤:
[0011] A1.从源A的实体题录项数据库EFDB提取主实体题录项MEFS、附属实体题录项SEFS,从源A的实体应用场景数据库ESDB提取主实体M(M)与附属实体S(M)之间的应用场景ES,从实体静态数据库RSDB提取实体静态库相关实体信息,利用单源同一实体甄别及数据补充器,依据主实体、同场景信息,提取表征单源同一实体的信息,存入同一实体数据库SEDB,并进行数据补充;
[0012] A2.从实体静态数据库RSDB提取实体静态库相关实体信息,从源B的实体题录项数据库EFDB提取附属实体题录项SEFS,从源B的实体应用场景数据库ESDB提取主实体M(M)与附属实体S(M)之间的应用场景ES,从实体动态数据库RVDB提取动态库实体数据信息,从同一实体数据库SEDB提取同一实体数据信息,利用异源同一实体甄别器,依据规则,判别异源实体的同一性,提取表征异源同一实体的信息,传入异源实体数据增补器,同时存入主实体动态数据库RVDB;
[0013] A3.从实体动态数据库RVDB提取动态库实体数据信息,从同一实体数据库SEDB提取同一实体数据信息,从异源同一实体甄别器接收同一源同一实体的信息,利用异源实体数据增补器,依据时间最近原则,进行异源实体信息的增补,同时将异源实体增补信息,存入实体动态数据库RVDB;
[0014] A4.从同一实体数据库SEDB提取同一实体数据信息,从实体动态数据库RVDB提取动态库实体数据信息,利用实体名录项自动提取生成器,依据实体名录必要项ELES,提取实体名录ELS信息,存入实体名录数据库EDDB;
[0015] A5.从实体动态数据库RVDB提取动态库实体数据信息,从实体名录数据库EDDB提取实体名录信息,利用子实体自动分离器,依据规则,从实体名录数据库EDDB中自动分离子实体信息,形成子实体名录信息,存入实体名录数据库EDDB。
[0016] 上述一种多源主附实体同一性甄别及数据自补的处理方法,步骤A1中所述单源同一实体甄别及数据补充器的工作方法为:
[0017] A11.从源A的实体静态库数据库RSDB中,读取单源多库数据集合DSB;
[0018] A12.从源A的实体题录项数据库EFDB中,读取未入库的库个数N1,设n1=1;
[0019] A13.读取库n1的主实体题录项MEFS,获得主实体题录项MEFS的数据集合DSA,同时获得数据集合DSA记录的条数I1,设i1=1;
[0020] A14.读取数据集合DSA中的第i1条记录,利用题录项数据的唯一项K,与数据集合DSB中的数据进行匹配,如果匹配成功,则执行步骤A15,如果匹配不成功,执行步骤A19;
[0021] A15.提取记录i1对应的主实体m1的表征单源实体同一性的相关信息,写入同一实体数据库SEDB;
[0022] A16.从同一实体数据库SEDB中,读取主实体m1在源A中的表征同一实体的相关信息数据集合DSC;
[0023] A17.从实体应用场景数据库ESDB中,读取主实体m1对应的附属实体信息集合DSS,利用同场景SS规则,判别具体附属实体s是否存在同一实体;如果存在同一实体,则执行步骤A18,否则,执行步骤A19;
[0024] A18.提取具体附属实体s的同一实体相关信息,写入同一实体数据库SEDB;
[0025] A19.判断I1>i1是否为真,如果为真,则执行i1=i1+1,跳转到步骤A14执行;否则跳转到步骤A110执行;
[0026] A110.判断N1>n1是否为真,如果为真,则执行n1=n1+1,跳转到步骤A13执行;否则,结束。
[0027] 上述一种多源主附实体同一性甄别及数据自补的处理方法,步骤A2中所述异源同一实体甄别器判别异源实体同一性的具体方法为:
[0028] A21.从源B的实体题录项数据库EFDB中,按照实体类型,读取未入库的附属实体类型个数N2,设n2=1;
[0029] A22.读取具体附属实体类型n2的相关信息,同时获得系统设定的附属实体类型n2的入库阈值TH;
[0030] A23.依据附属实体类型n2,判断对应的实体动态数据库RVDB是否存在,如果存在,则执行步骤A24,如果不存在,则跳转到步骤A214执行;
[0031] A24.依据附属实体类型n2,从同一实体数据库SEDB中,读取表征同一附属实体类型n2的相关信息数据集合DSF;
[0032] A25.从实体动态库RVDB中读取动态库信息数据集合DSD;
[0033] A26.从源B的附属实体题录项数据库EFDB中,读取附属实体类型n2的集合DSG,获得记录条数M2,设m2=1;
[0034] A27.从集合DSG中,读取附属实体题录项的第m2条记录;
[0035] A28.依据附属实体类型n2及记录m2,从源B的实体应用场景数据库ESDB中读取记录m2对应的附属实体与主实体之间的具体应用场景es;
[0036] A29.依据附属实体类型n2及记录m2,从源B的实体静态数据库RSDB中读取记录m2对应的具体静态库数据集DSE;
[0037] A210.从步骤A24获得集合DSF信息,从步骤A25获得集合DSD信息,从步骤A27获得记录m2信息,从步骤A28获得应用场景es信息,从步骤A29获得集合DSE信息,利用附属实体题录项的记录m2的唯一项、不变项和常用项属性,以及应用场景es、集合DSD、集合DSE、集合DSF信息,依据设定规则,在集合DSD中匹配,并计算实体间的相似概率P(A);
[0038] A211.判断P(A)>TH是否为真,如果不为真,则跳转到步骤A213执行,如果为真,则将P(A)及表征实体项的信息写入同一实体数据库SEDB;
[0039] A212.判断P(A)=100%是否为真,如果不为真,则跳转到步骤A213执行,如果为真,则将记录m2、集合DSD对应的具体记录项d、集合DSE对应的具体记录项e、集合DSF对应的具体记录项f信息传入异源实体数据增补器,并启动其运行;
[0040] A213.判断M2>m2是否为真,如果为真,则执行m2=m2+1,同时跳转到步骤A26执行;如果不为真,则执行步骤A214;
[0041] A214.判断N2>n2是否为真,如果为真,则执行n2=n2+1,同时跳转到步骤A22执行;如果不为真,结束。
[0042] 上述一种多源主附实体同一性甄别及数据自补的处理方法,步骤A3中所述异源实体信息增补的具体方法为:
[0043] A31.接收记录m2、集合DSD对应的具体记录项d、集合DSE对应的具体记录项e、集合DSF对应的具体记录项f信息;
[0044] A32.针对具体题录项的唯一项、不变项和常用项属性,获得属性个数N3,设n3=1;
[0045] A33.获得第n3个属性的属性名称name;
[0046] A34.依据属性名称name,读取记录项d的对应数据dn,同时,依次读取记录m2、记录项e、记录项f的对应数据,与dn进行比对;
[0047] A35.判断dn是否为空,如果为空,则跳转到步骤A36执行,如果不为空,则转到步骤A37执行;
[0048] A36.按照时间最近原则,将记录m2、记录项e、记录项f中对应的最新数据补充到dn中,并记录补充数据的时间戳、来源信息;
[0049] A37.标记记录m2、记录项e、记录项f中的对应属性数据的时间戳及来源信息;
[0050] A38.形成临时记录项d',判断N3>n3是否成立,如果成立,则跳转到步骤A33执行,否则执行步骤A39;
[0051] A39.针对除唯一项、不变项和常用项外的其它属性,依次读取记录项m2、记录项e、记录项f中的对应属性数据,与记录项d进行比对;
[0052] A310.记录时间戳、来源信息,形成最新的临时记录项;更新入实体动态数据库RVDB。
[0053] 上述一种多源主附实体同一性甄别及数据自补的处理方法,步骤A4中所述实体名录信息的生成方法为:
[0054] A41.依据系统设定实体类型,获得实体类型个数N4,设n4=1;
[0055] A42.读取实体n4的实体名录项els和实体名录必要项eles;
[0056] A43.从同一实体数据库SEDB中读取P(A)=100%的实体n的同一实体数据集合DSH;
[0057] A44.依据集合DSH,按照最近时间原则,从实体动态数据库中抽取实体n4的实体名录项els相关数据信息,形成临时数据集合DSI;
[0058] A45.按照实体n4的实体名录必要项eles的数据非空原则,过滤集合DSI,形成数据子集DSJ;
[0059] A46.将集合DSJ作为实体n4的实体名录ELS信息,写入实体名录数据库EDDB;
[0060] A47.判断N4>n4是否成立,如果成立,令n4=n4+1,并跳转到步骤A42执行,否则结束。
[0061] 上述一种多源主附实体同一性甄别及数据自补的处理方法,步骤A5中所述子实体名录信息的自动分离方法为:
[0062] A51.依据用户指令,启动具体实体n5的子实体分离程序;
[0063] A52.读取用户指定或预设的实体分离规则r;
[0064] A53.从实体名录数据库EDDB中读取具体实体n5的名录数据集合DSO,设置临时数据集合DSP;
[0065] A54.获得集合DSO中的记录条数I5,设i5=1;
[0066] A55.读取集合DSO中的记录n5,并依据记录n5的信息,读取实体动态数据库RVDB中对应的动态库实体数据信息,进行匹配,如果匹配成功,则执行步骤A56,否则,执行步骤A57;
[0067] A56.将记录n5加入数据集合DSP中;
[0068] A57.判断I5>i5是否成立,如果成立,则执行i5=i5+1,并跳转到步骤A55执行,如果不成立,则执行步骤A58;
[0069] A58.将数据集合DSP写入实体名录数据库EDDB中。
[0070] 由于采用了以上技术方案,本发明所取得技术进步如下。
[0071] 本发明通过主实体与附属实体同一性概率计算、同一实体的指标补充与数据合并、实体名录项提取与存储、实体子名录项分离等技术方法,系统性解决了主附实体按同一性概率分别处理与归集、跨源实体合并与数据补充、实体关系统一存储、实体按需分离等问题,为进行多源、大规模数据关联运算提供了可行性的解决方案。
[0072] 主要具有以下显著效果。
[0073] 1)数据规整、表达统一。由于本发明提出按照实体题录项进行识别、提取、存储,按照实体名录项进行数据二次加工和抽取,与现有技术相比,指标实现了标准化、统一化,数据能够规整、统一存储,实体表达的更统一、使用更灵活。
[0074] 2)实体匹配精准度和执行效率提高。由于本发明将实体的具体属性分类,并赋予不同的权值,同时结合同场景等信息,进行实体匹配和提取,与现有技术相比,匹配难度更小、匹配精度更高;计算的属性更少、执行效率更高;能有效缓解属性值前后矛盾、不一致等问题。
[0075] 3)数据质量提高。本发明在实体数据提取、存储过程中,通过对隐含属性的提取与识别,实现了的实体数据的自我完善与修正,与现有技术相比,数据之间能够自动对比与校正,实体属性能够自动补充与拓展,数据更丰富、质量更高。
[0076] 4)记录同一实体概率。本发明按照识别过程中的同一实体概率进行分别存储与处理,与现有技术相比,提高了数据融合准确度;降低了二次实体识别的难度;有利于不同场景应用、实体关系的深度挖掘与数据分析。

附图说明

[0077] 图1为本发明的结构示意图;
[0078] 图2为本发明的流程图;
[0079] 图3为本发明所述单源同一实体甄别及数据补充器的工作流程示意图;
[0080] 图4为本发明所述异源同一实体甄别器的工作流程示意图;
[0081] 图5为本发明所述异源实体数据增补器的工作流程示意图;
[0082] 图6为本发明所述实体名录项自动提取生成器的工作流程示意图;
[0083] 图7为本发明所述子实体自动分离器的工作流程示意图。

具体实施方式

[0084] 下面将结合附图和具体实施方式对本发明进行进一步详细说明。
[0085] 一种多源主附实体同一性甄别及数据自补的处理方法,应用于大数据处理领域中,提出按主附实体剥离多源数据实体,按照同场景、实体属性分类和权值等进行同一实体甄别,并针对甄别概率进行分别处理和存储,为数据的不同场景应用、实体关系的深度挖掘与数据分析提供了可行性的技术方案。
[0086] 实际操作时,首先提取表征单源同一实体的信息;然后判别异源同一实体信息,并进行数据增补和扩展;最后形成实体名录项和实体子名录项。
[0087] 在本发明中,应用到以下数据库:1)实体静态数据库RSDB(RelativeStatic Database),存放来源于同一源(单源)的多库的数据;2)实体动态数据库RVDB(RelativeVarietyDatabase),存放来自于异源且经过整合之后的实体的指标及数据;3)实体题录项数据库EFDB(EntityFeatureDatabase),存储主实体题录项MEFS及相关数据、附属实体题录项SEFS及相关数据等信息;4)实体应用场景数据库ESDB(EntitySenseDatabase),存放主实体M(M)与附属实体S(M)之间的应用场景ES。
[0088] 在本发明中,所应用到的专有名词包括:1)源(Source)S,用来描述特定研究对象的一组数据集合,在一定时期内,具有稳定性和连续性;2)库(Data‑Set)DS,指由源产生的一定时期的一组数据集合,可以由一个或多个二维数据表构成;3)表(Table)T,指库中的一个二维数据表;4)实体(Entity),可用一组特征变量进行描述的具有相对稳定性、唯一性的研究对象,依据不同实体间的相互依附关系,实体分为主实体和附属实体;5)主实体(MainEntity),指源中全部或大部分的属性所描述的研究实体,一般一个源中只有一个主实体,用“实体(实体对应的主实体)”格式表示,主实体表示为M(M);6)附属实体(Subsidiary Entity),指源中依存于主实体的实体,通常附属实体是主实体的一部分或者是用来描述主实体属性的一组变量,用“实体(实体对应的主实体)”格式表示,附属实体表示为S(M);7)实体题录项EFS(EntityFeatureStructure:实体特征结构),能反映实体属性的一组指标集合;8)主实体题录项MEFS(MainEntity FeatureStructure:主要实体特征结构),指能反映主实体属性的一组指标集合;9)附属实体题录项SEFS(SubsidiaryEntityFeatureStructure:次要实体特征结构):指能反映附属实体及附属实体与主实体的关联关系的一组指标集合,既能够体现附属实体的自身属性,又能够体现附属实体所在的主实体的状态的有关属性;10)同场景SS(SameSense),在剥离实体时,针对同源中的附属实体,当指标一致且对应的具体主实体一致时即为同场景。
[0089] 为了进行实体同一性识别,将实体题录项的属性划分为唯一项、不变项和常用项,其中:唯一项K(Key)指能表征实体唯一性的属性,例如:身份证号、统一社会信用代码、组织机构代码等;不变项UC(Unchange)指实体一般情况下不经常或从来不会改变的属性,例如:人员实体的姓名、性别等,机构实体的单位名称、地址等;常用项N(Normal)指实体除唯一项K和不变项UC之外的属性。
[0090] 为了应用实体对外提供服务及进行实体名录项提取,所用到的实体名录项、实体名录必要项,其中:实体名录项els(EntityListStructure)指根据具体应用选定的能反映实体基本状况的有限属性集合,例如:针对“机构”实体,基本项可设定为“机构名称”、“统一社会信用代码”、“地址”等;实体名录必要项ELES(EntityListEssentialStructure)指根据具体应用选定的能保证实体名录有意义的有限属性集合,通常为名称类属性,其缺失会导致具体实体无意义,例如:“机构”实体的“机构名称”、“人员”实体的“姓名”等。
[0091] 本发明中,将异源数据按实体识别、提取、加工之后,分别存储在以下两个数据库中:实体名录数据库EDDB(EntityDirectoryDatabase)存放异源对外提供服务的实体名录信息;同一实体数据库SEDB(SameEntityDatabase)存放表征同一实体的信息。
[0092] 本发明的实施依赖于多个模块实现,如图1所示,包括单源同一实体甄别及数据补充器、异源同一实体甄别器、异源实体数据增补器、实体名录项自动提取生成器、子实体自动分离器。
[0093] 一种多源主附实体同一性甄别及数据自补的处理方法,其流程如图2所示,具体包括以下步骤。
[0094] A1.从源A的实体题录项数据库EFDB提取主实体题录项MEFS、附属实体题录项SEFS,从源A的实体应用场景数据库ESDB提取主实体M(M)与附属实体S(M)之间的应用场景ES,从实体静态数据库RSDB提取实体静态库相关实体信息,利用单源同一实体甄别及数据补充器,依据主实体、同场景等信息,提取表征单源同一实体的信息,存入同一实体数据库SEDB,并进行数据补充。
[0095] 本步骤中,所述单源同一实体甄别及数据补充器的工作方法如图3所示,具体如下。
[0096] A11.从源A的实体静态库数据库RSDB中,读取单源多库数据集合DSB;
[0097] A12.从源A的实体题录项数据库EFDB中,读取未入库的库个数N1,设n1=1;
[0098] A13.读取库n1的主实体题录项MEFS,获得主实体题录项MEFS的数据集合DSA,同时获得数据集合DSA记录的条数I1,设i1=1;
[0099] A14.读取数据集合DSA中的第i1条记录,利用题录项数据的唯一项K,与数据集合DSB中的数据进行匹配,如果匹配成功,则执行步骤A15,如果匹配不成功,执行步骤A19;
[0100] A15.提取记录i1对应的主实体m1的表征单源实体同一性的相关信息,写入同一实体数据库SEDB;
[0101] A16.从同一实体数据库SEDB中,读取主实体m1在源A中的表征同一实体的相关信息数据集合DSC;
[0102] A17.从实体应用场景数据库ESDB中,读取主实体m1对应的附属实体信息集合DSS,利用同场景SS规则,判别具体附属实体s是否存在同一实体;如果存在同一实体,则执行步骤A18,否则,执行步骤A19;
[0103] A18.提取具体附属实体s的同一实体相关信息,写入同一实体数据库SEDB;
[0104] A19.判断I1>i1是否为真,如果为真,则执行i1=i1+1,跳转到步骤A14执行;否则跳转到步骤A110执行;
[0105] A110.判断N1>n1是否为真,如果为真,则执行n1=n1+1,跳转到步骤A13执行;否则,结束。
[0106] A2.从实体静态数据库RSDB提取实体静态库相关实体信息,从源B的实体题录项数据库EFDB提取附属实体题录项SEFS,从源B的实体应用场景数据库ESDB提取主实体M(M)与附属实体S(M)之间的应用场景ES,从实体动态数据库RVDB提取动态库实体数据信息,从同一实体数据库SEDB提取同一实体数据信息,利用异源同一实体甄别器,依据规则,判别异源实体的同一性,提取表征异源同一实体的信息,传入异源实体数据增补器,同时存入主实体动态数据库RVDB。
[0107] 本步骤中,所述异源同一实体甄别器判别异源实体同一性的流程如图4所示,具体方法如下。
[0108] A21.从源B的实体题录项数据库EFDB中,按照实体类型,读取未入库的附属实体类型个数N2,设n=1;
[0109] A22.读取具体附属实体类型n2的相关信息,同时获得系统设定的附属实体类型n2的入库阈值TH;
[0110] A23.依据附属实体类型n2,判断对应的实体动态数据库RVDB是否存在,如果存在,则执行步骤A24,如果不存在,则跳转到步骤A214执行;
[0111] A24.依据附属实体类型n2,从同一实体数据库SEDB中,读取表征同一附属实体类型n2的相关信息数据集合DSF;
[0112] A25.从实体动态库RVDB中读取动态库信息数据集合DSD;
[0113] A26.从源B的附属实体题录项数据库EFDB中,读取附属实体类型n的集合DSG,获得记录条数M,设m=1;
[0114] A27.从集合DSG中,读取附属实体题录项的第m2条记录;
[0115] A28.依据附属实体类型n2及记录m2,从源B的实体应用场景数据库ESDB中读取记录m2对应的附属实体与主实体之间的具体应用场景es;
[0116] A29.依据附属实体类型n2及记录m2,从源B的实体静态数据库RSDB中读取记录m2对应的具体静态库数据集DSE;
[0117] A210.从步骤A24获得集合DSF信息,从步骤A25获得集合DSD信息,从步骤A27获得记录m信息,从步骤A28获得应用场景es信息,从步骤A29获得集合DSE信息,利用附属实体题录项的记录m2的唯一项、不变项和常用项属性,以及应用场景es、集合DSD、集合DSE、集合DSF信息,依据设定规则,在集合DSD中匹配,并计算实体间的相似概率P(A);
[0118] 本实施例中:在对人员实体进行匹配时,针对两个人员的信息,如果身份证号相同,P(A)为100%;如果姓名和手机号相同,P(A)为100%;如果姓名和单位相同,P(A)为80%等。
[0119] A211.判断P(A)>TH是否为真,如果不为真,则跳转到步骤A213执行,如果为真,则将P(A)及表征实体项的信息写入同一实体数据库SEDB;
[0120] A212.判断P(A)=100%是否为真,如果不为真,则跳转到步骤A213执行,如果为真,则将记录m2、集合DSD对应的具体记录项d、集合DSE对应的具体记录项e、集合DSF对应的具体记录项f信息传入异源实体数据增补器,并启动其运行;
[0121] A213.判断M2>m2是否为真,如果为真,则执行m2=m2+1,同时跳转到步骤A26执行;如果不为真,则执行步骤A214;
[0122] A214.判断N2>n2是否为真,如果为真,则执行n2=n2+1,同时跳转到步骤A22执行;如果不为真,结束。
[0123] A3.从实体动态数据库RVDB提取动态库实体数据信息,从同一实体数据库SEDB提取同一实体数据信息,从异源同一实体甄别器接收同一源同一实体的信息,利用异源实体数据增补器,依据时间最近等原则,进行异源实体信息的增补,同时将异源实体增补信息,存入实体动态数据库RVDB。
[0124] 本步骤中,所述异源实体信息增补的流程如图5所示,具体方法如下。
[0125] A31.接收记录m2、集合DSD对应的具体记录项d、集合DSE对应的具体记录项e、集合DSF对应的具体记录项f信息;
[0126] A32.针对具体题录项的唯一项、不变项和常用项属性,获得属性个数N3,设n3=1;
[0127] A33.获得第n3个属性的属性名称name;
[0128] A34.依据属性名称name,读取记录项d的对应数据dn,同时,依次读取记录m2、记录项e、记录项f的对应数据,与dn进行比对;
[0129] A35.判断dn是否为空,如果为空,则跳转到步骤A36执行,如果不为空,则转到步骤A37执行;
[0130] A36.按照时间最近原则,将记录m2、记录项e、记录项f中对应的最新数据补充到dn中,并记录补充数据的时间戳、来源信息;
[0131] A37.标记记录m2、记录项e、记录项f中的对应属性数据的时间戳及来源信息;
[0132] A38.形成临时记录项d',判断N3>n3是否成立,如果成立,则跳转到步骤A33执行,否则执行步骤A39;
[0133] A39.针对除唯一项、不变项和常用项外的其它属性,依次读取记录m2、记录项e、记录项f中的对应属性数据,与记录项d进行比对;
[0134] A310.记录时间戳、来源信息,形成最新的临时记录项;更新入实体动态数据库RVDB。
[0135] A4.从同一实体数据库SEDB提取同一实体数据信息,从实体动态数据库RVDB提取动态库实体数据信息,利用实体名录项自动提取生成器,依据实体名录必要项ELES,提取实体名录ELS信息,存入实体名录数据库EDDB。
[0136] 本步骤中,所述实体名录信息的具体流程如图6所示,其生成方法如下。
[0137] A41.依据系统设定实体类型,获得实体类型个数N4,设n4=1;
[0138] A42.读取实体n4的实体名录项els和实体名录必要项eles;
[0139] A43.从同一实体数据库SEDB中读取P(A)=100%的实体n的同一实体数据集合DSH;
[0140] A44.依据集合DSH,按照最近时间原则,从实体动态数据库中抽取实体n的实体名录项els相关数据信息,形成临时数据集合DSI;
[0141] A45.按照实体n的实体名录必要项eles的数据非空原则,过滤集合DSI,形成数据子集DSJ;
[0142] A46.将集合DSJ作为实体n4的实体名录ELS信息,写入实体名录数据库EDDB;
[0143] A47.判断N4>n4是否成立,如果成立,令n4=n4+1,并跳转到步骤A42执行,否则结束。
[0144] A5.从实体动态数据库RVDB提取动态库实体数据信息,从实体名录数据库EDDB提取实体名录信息,利用子实体自动分离器,依据规则,从实体名录数据库EDDB中自动分离子实体信息,形成子实体名录信息,存入实体名录数据库EDDB。
[0145] 本步骤中,所述子实体名录信息的自动分离方法如图7所示,具体如下。
[0146] A51.依据用户指令,启动具体实体n的子实体分离程序;
[0147] A52.读取用户指定或预设的实体分离规则r;
[0148] A53.从实体名录数据库EDDB中读取具体实体n的名录数据集合DSO,设置临时数据集合DSP;
[0149] A54.获得集合DSO中的记录条数I5,设5i=1;
[0150] A55.读取集合DSO中的记录n5,并依据记录n5的信息,读取实体动态数据库RVDB中对应的动态库实体数据信息,进行匹配,如果匹配成功,则执行步骤A56,否则,执行步骤A57;
[0151] A56.将记录n5加入数据集合DSP中;
[0152] A57.判断I5>i5是否成立,如果成立,则执行i5=i5+1,并跳转到步骤A55执行,如果不成立,则执行步骤A58;
[0153] A58.将数据集合DSP写入实体名录数据库EDDB中。
[0154] 本发明的应用,可实现以下功能。
[0155] 1)提出主附实体题录项和名录项。在异源数据的实体识别时,将大量的、多样的数据指标项,按照主附实体题录项进行甄别和提取,有利于表征实体的指标一致以及数据统一存储,同时按照实体名录项进行数据二次加工和抽取,有利于数据统一对外服务和大规模数据关系计算。
[0156] 2)实体同场景匹配。在利用数据的实体属性进行匹配和识别的同时,依据数据的实体应用场景,引入实体的同场景识别机制,降低实体匹配难度和复杂度,提高实体匹配准确度。
[0157] 3)提出实体属性分类和权值。依据实体属性特点,将实体题录项的属性分为唯一项、不变项和常用项,并分别赋予不同权重值,利用权重值进行实体识别,有利于减少实体识别计算时间,缓解属性前后矛盾等问题。
[0158] 4)甄别概率分别存储与处理。在识别实体过程中,除记录识别成功的同一实体信息,还记录多个实体间的同一实体概率,并分别存储与处理,降低二次实体识别的难度,有利于不同场景应用以及实体关系的深度挖掘与数据分析。