基于消歧的企业实体唯一ID创建方法及系统转让专利

申请号 : CN202010492495.X

文献号 : CN111797130A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李倩刘世林吕司君吴桐

申请人 : 成都数联铭品科技有限公司

摘要 :

本发明涉及基于消歧的企业实体唯一ID创建方法及系统;本发明方法系统中对企业的标识码和成立时间信息进行编码,建立企业ID体系,由于企业的标识码和成立时间相互不同,实现以较小的计算量,保证了企业ID的全局唯一性;并且将新数据先与已有数据进行对比,快速建立备选企业集合,在备选企业集合中进一步判断企业的相似性,判断新数据是否属于现有企业,相比于对每个新获取企业数据先创建ID,再判断企业信息相似性的做法,本发明专利计算量更小,需要的存储量更小。并且企业信息变化的前后的ID一致,保持了同一企业ID的唯一性和恒定性。并且在创建企业ID或者重新赋值的过程中记录创建和赋值时间,方便进行历史数据追溯。

权利要求 :

1.基于消歧的企业实体唯一ID创建方法,其特征在于,包含以下实现步骤:S1读取企业的标识码和成立日期数据,根据企业标识码和成立时间信息进行编码,生成企业ID,存入企业基础数据库;

S2对新获取的企业数据进行分析,判断新获取数据的企业是属于已有企业还是新增企业;

S3如果判断为新获取企业与已有企业是同一企业,则将对应已有企业的ID赋予到新获取企业数据;

S4如果判断新获取企业不属于已有企业,则使用与所述步骤S1同样的方法,建立该企业的ID。

2.如权利要求1所述的方法,其特征在于,所述步骤S2将新获取到的企业数据与数据库中的所述企业基础数据库中现有企业数据进行对比,找出具有任意两项相同项信息的企业作为备选企业,建立备选企业集合,所述对比项为企业属性数据包括:企业名称、注册号、统一社会信用代码、企业地址、成立时间和法人代表信息。

3.如权利要求2所述的方法,其特征在于,所述步骤S2中,在备选企业集合中使用多属性相似度加权平均算法来计算新数据与备选企业集合各企业数据的相似性,判断相似性超过阈值且为备选企业中相似性最高的备选企业为新数据的相同企业。

4.如权利要求3所述的方法,其特征在于,所述步骤S1中对企业进行ID编码过程中记录编码时间。

5.如权利要求4所述的方法,其特征在于,所述步骤S3中,将已有企业的ID赋予到新获取到的企业数据中时,记录赋值时间。

6.如权利要求5所述的方法,其特征在于,所述步骤S1和所述步骤S2中,使用hash编码算法来创建企业实体ID。

7.基于消歧的企业实体唯一ID创建系统,其特征在于,所述系统包含数据获取模块,数据处理模块和数据存储模块;

所述数据获取模块、数据处理模块和数据存储模块分别相连;

所述数据获取模块获取到企业信息的实时数据,输入到数据存储模块中进行存储;

所述数据存储模块存储数据获取模块的输出数据和所述数据处理模块的输入输出数据;

所述数据处理模块根据包含以下步骤的方法来实现企业实体的唯一ID创建:S1读取企业的标识码和成立日期数据,根据企业标识码和成立时间信息进行编码,生成企业ID;

S2对新获取的企业数据进行分析,判断新获取数据的企业是属于已有企业还是新增企业;

S3如果判断为新获取企业与已有企业是同一企业,则将对应已有企业的ID赋予到新获取企业数据;

S4如果判断新获取企业不属于已有企业,则使用与所述步骤S1同样的方法,建立该企业的ID。

8.如权利要求7所述的系统,其特征在于,所述系统还包括新获取数据的ID创建的触发模块;

所述模块与所述数据获取模块以及所述数据处理模块相连;

当数据获取模块获取到新的企业数据,所述触发模块自动检测到,触发数据处理模块执行所述步骤S2、S3和S4的操作。

9.如权利要求7所述的系统,其特征在于,所述步骤S2将新获取到的企业数据与数据库中的所述企业基础数据库中现有企业数据进行对比,找出具有任意两项相同项信息的企业作为备选企业,建立备选企业集合,所述对比项为企业属性数据包括:企业名称、注册号、统一社会信用代码、企业地址、成立时间和法人代表信息。

10.如权利要求9所述的系统,其特征在于,所述步骤S2中,在备选企业集合中使用多属性相似度加权平均算法来计算新数据与备选企业集合各企业数据的相似性,判断相似性超过阈值且为备选企业中相似性最高的备选企业为新数据的相同企业。

11.如权利要求10所述的系统,其特征在于,所述系统中所述步骤S3中,将已有企业的ID赋予到新获取到的企业数据中时,记录赋值时间。

12.如权利要求11所述的系统,其特征在于,所述系统中所述步骤S1和所述步骤S2中,使用hash算法来创建企业实体ID。

说明书 :

基于消歧的企业实体唯一ID创建方法及系统

技术领域

[0001] 本发明涉及数据处理技术领域,特别涉及基于消歧的企业实体唯一ID创建方法及系统。

背景技术

[0002] 随着大数据行业的不断发展,如何多维的使用数据,如何将数据中相同的实体能够标记出来;另外实体的信息不是一成不变的,在经营过程中,需要根据实际的需求进行变更,如何将进行实体标记;不同的系统,不同信息对于同一实体的信息是不对等的,也需要进行标记。如企业,其公司名、法人、注册地址、注册资本等信息都会随着企业的发展而变更,同时统一社会信用代码等可以用于企业标记的证照号码,在实际运用的过程中也会不可避免带来一些错误,导致信息的不匹配。以上这些都造成多维信息的使用带来了挑战。
[0003] 在针对企业实体方面,我们采用企业自身的信息,如企业名称,法定代表人,注册地址,注册资本,注册号,统一社会信用代码等信息作为标记的依据,构建模型,生成实体唯一ID用于实体的标记,确保实体标记的正确性。
[0004] 在做数据的过程中发现,企业的所有信息除了成立不会变化,其他所有信息都在变化。登记机关因为职能变更,或者行政规划变更,名称也会变化。因为这些变化很容易将同一企业认定为不同企业。我们在观察到企业的这些情况后,基于企业基本信息的元素构建模型进行唯一ID的标记。当有新数据再需要标记时,将会把对应的元素进行比较,计算其相似性,这里也必然要考虑到企业的历史状态,再基于一定的规范最终确定是否是同一家公司。

发明内容

[0005] 本发明的目的提供基于消歧的企业实体唯一ID创建方法及系统,通过对企业数据进行梳理,建立企业ID的编码体系,并且针对新增数据,在判断是否属于原有企业变更的基础上来进行数据合并或者新建ID;以减小的计算量建立起一个稳定可靠的企业实体ID体系;实现实体消歧,减少数据冗余,并保证企业数据在变更的过程中的同一企业的ID保持恒定;实现企业生命周期的信息动态记录和可溯源性。
[0006] 基于消歧的企业实体唯一ID创建方法,包含以下实现步骤:
[0007] S1读取企业的标识码和成立日期数据,根据企业标识码和成立时间信息进行编码,生成企业ID,存入企业基础数据库;
[0008] S2对新获取的企业数据进行分析,判断新获取数据的企业是属于已有企业还是新增企业;
[0009] S3如果判断为新获取企业与已有企业是同一企业,则将对应已有企业的ID赋予到新获取企业数据;
[0010] S4如果判断新获取企业不属于已有企业,则使用与所述步骤S1同样的方法,建立该企业的ID。
[0011] 进一步的,所述企业标识码包括:统一社会信用代码、注册号。
[0012] 进一步的,所述步骤S2将新获取到的企业数据与数据库中的所述企业基础数据库中现有企业数据进行对比,找出具有任意两项相同项信息的企业作为备选企业,建立备选企业集合,所述对比项为企业属性数据包括:企业名称、注册号、统一社会信用代码、企业地址、成立时间和法人代表信息。
[0013] 进一步的,所述步骤S2中,在备选企业集合中使用多属性相似度加权平均算法来计算新数据与备选企业集合各企业数据的相似性,判断相似性超过阈值且为备选企业中相似性最高的备选企业为新数据的相同企业。
[0014] 进一步的,所述步骤S1中对企业进行ID编码过程中记录编码时间。
[0015] 进一步的,所述步骤S3中,将已有企业的ID赋予到新获取到的企业数据中时,记录赋值时间。
[0016] 作为一种优选,所述步骤S1和所述步骤S2中,使用uuid算法来创建企业实体ID。
[0017] 进一步的,本发明提供基于消歧的企业实体唯一ID创建系统,所述系统包含数据获取模块,数据处理模块和数据存储模块;所述数据获取模块、数据处理模块和数据存储模块分别相连;所述数据获取模块获取到企业信息的实时数据,输入到数据存储模块中进行存储;所述数据存储模块存储数据获取模块的输出数据和所述数据处理模块的输入输出数据;所述数据处理模块根据包含以下步骤的方法来实现企业实体的唯一ID创建:
[0018] S1读取企业的标识码和成立日期数据,根据企业标识码和成立时间信息进行编码,生成企业ID;
[0019] S2对新获取的企业数据进行分析,判断新获取数据的企业是属于已有企业还是新增企业;
[0020] S3如果判断为新获取企业与已有企业是同一企业,则将对应已有企业的ID赋予到新获取企业数据;
[0021] S4如果判断新获取企业不属于已有企业,则使用与所述步骤S1同样的方法,建立该企业的ID。
[0022] 进一步的,所述系统还包括新获取数据的ID创建的触发模块;所述模块与所述数据获取模块以及所述数据处理模块相连,当数据获取模块获取到新的企业数据,所述触发模块自动检测到,触发数据处理模块完成所述步骤S2、S3和S4。
[0023] 进一步的,所述系统中所述步骤S2将新获取到的企业数据与数据库中的所述企业基础数据库中现有企业数据进行对比,找出具有任意两项相同项信息的企业作为备选企业,建立备选企业集合,所述对比项为企业属性数据包括:企业名称、注册号、统一社会信用代码、企业地址、成立时间和法人代表信息。
[0024] 进一步的,所述系统中所述步骤S2中,在备选企业集合中使用多属性相似度加权平均算法来计算新数据与备选企业集合各企业数据的相似性,判断相似性超过阈值且为备选企业中相似性最高的备选企业为新数据的相同企业。
[0025] 进一步的,所述系统中所述步骤S1中对企业进行ID编码过程中记录编码时间。
[0026] 进一步的,所述系统中所述步骤S3中,将已有企业的ID赋予到新获取到的企业数据中时,记录赋值时间。
[0027] 进一步的,所述系统中所述步骤S1和所述步骤S2中,使用hash算法来创建企业实体ID。
[0028] 有益效果:
[0029] 本发明提供基于消歧的企业实体唯一ID创建方法及系统;本发明方法中对企业的标识码和成立时间信息进行编码,建立企业ID体系,由于企业的标识码和成立时间相互不同,实现以较小的计算量,保证了企业ID的全局唯一性;并且当企业的信息发生变化时,将新数据先与已有数据进行对比,快速建立备选企业集合,在备选企业集合中进一步判断企业的相似性,判断新数据是否属于现有企业,并找出具体的现有企业,将现有企业ID值赋予到新数据中,相比于对每个新获取企业数据先创建ID,再判断企业信息相似性的做法,本发明专利计算量更小(判断为相同企业后直接采用原企业的ID,避免先建ID后判断的ID创建过程),需要的存储量更小(不需要存储额外的ID)。并且企业信息变化的前后的ID一致,保证了企业的ID不随企业信息的变动而改变,保持了同一企业ID的唯一性和恒定性。并且在创建企业ID或者重新赋值的过程中记录创建和赋值时间,方便进行历史数据追溯。

附图说明

[0030] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0031] 图1为基于消歧的企业实体唯一ID创建方法的流程示意图。
[0032] 图2为本发明方法对于新获取数据的处理流程示意图。
[0033] 图3为本发明系统结构示意图。

具体实施方式

[0034] 下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0035] 本发明的目的提供基于消歧的企业实体唯一ID创建方法及系统,通过对企业数据进行梳理,建立企业ID的编码体系,并且针对新增数据,在判断是否属于原有企业变更的基础上来进行数据合并或者新建ID;建立起一个稳定可靠的企业实体ID体系;实现实体消歧,减少数据冗余。
[0036] 基于消歧的企业实体唯一ID创建方法,包含如图1所示的以下实现步骤:
[0037] S1读取企业的标识码和成立日期数据,根据企业标识码和成立时间信息进行编码,生成企业ID;
[0038] S2对新获取的企业数据进行分析,判断新获取数据的企业是属于已有企业还是新增企业;
[0039] S3如果判断为新获取企业与已有企业是同一企业,则将对应已有企业的ID赋予到新获取企业数据;
[0040] S4如果判断新获取企业不属于已有企业,则使用与所述步骤S1同样的方法,建立该企业的ID。新获取数据处理如图2所示。
[0041] 本发明方法中对企业的标识码和成立时间信息进行编码,建立企业ID体系,由于企业的标识码和成立时间相互不同,实现以较小的计算量,保证了企业ID的全局唯一性;
[0042] 并且当企业的信息发生变化时,将新数据先与已有数据进行对比,根据对比的情况来决定是否新建企业ID或者将原企业ID赋值与新获取企业数据中,相比于对每个新获取企业数据先创建ID,再判断企业信息相似性的做法,本发明专利计算量更小(判断为相同企业后直接采用原企业的ID,避免先建ID后判断的ID创建过程),需要的存储量更小(不需要存储额外的ID)。并且企业信息变化的前后的ID一致,保证了企业的ID不随企业信息的变动而改变,保持了同一企业ID的唯一性和恒定性。
[0043] 进一步的,所述企业标识码包括:统一社会信用代码、注册号。
[0044] 进一步的,所述步骤S2将新获取到的企业数据与数据库中的所述企业基础数据库中现有企业数据进行对比,找出具有任意两项相同项信息的企业作为备选企业,建立备选企业集合,所述对比项为企业属性数据包括:企业名称、注册号、统一社会信用代码、企业地址、成立时间和法人代表信息。企业数据经过处理具有结构化的特点,某企业信息的变更通常是某些项目的变更,不会出现以上所有信息全部变更的情形;通过直接进行结构化的数据对比,可以快速定位和匹配新企业数据与现有企业数据的异同,如果找到已有企业中有上述两项及以上信息与现有某企业相同,那么两个企业是同一个企业的可能性是极大的,通过上述方式快速筛选备选的相似企业。直接对比的情况下,计算量很小且准确率较高,缩小多属性相似性加权平均的计算范围。
[0045] 进一步的,所述步骤S2中,在备选企业集合中使用多属性相似度加权平均算法来计算新数据与备选企业集合各企业数据的相似性,判断相似性超过阈值且为备选企业中相似性最高的备选企业为新数据的相同企业。所述多属性加权平均算法是指分别判断企业属性数据的相似性,所述属性包含:企业名称、注册号、统一社会信用代码、企业地址、成立时间和法人代表信息;并对上述属性信息的相似性数值的加和求平均值。
[0046] 在备选企业集中通过多属性相似度加权平均算法来综合判断选出相似度最高且超过判断阈值的企业,极大的提高了相似企业判断的准确性。
[0047] 进一步的,所述步骤S1中对企业进行ID编码过程中记录编码时间。时间记录便于后续数据更新时可以查询,了解数据更新或者变化的过程及时间点。
[0048] 进一步的,所述步骤S3中,将已有企业的ID赋予到新获取到的企业数据中时,记录赋值时间。新数据判读后将原企业ID赋值,并记录新赋值的时间,时间记录便于后续查询,了解数据更新或者变化的过程及时间点。
[0049] 作为一种优选,所述步骤S1和所述步骤S2中,使用hash算法来创建企业实体ID。
[0050] 进一步的,所述步骤S1和所述步骤S2中,编码信息包含附加信息;附加信息具有极大的选择空间,可以是任意符号、文字等。只要不公开附加信息,数据的其他使用者也不能破解出具体的编码字段信息,避免了数据被非法窃取和沿用,从而保障了数据的安全,保护了数据持有者的合理权益。
[0051] 进一步的,本发明提供基于消歧的企业实体唯一ID创建系统,所述系统包含如图3所示的数据获取模块,数据处理模块和数据存储模块;所述数据获取模块、数据处理模块和数据存储模块分别相连;所述数据获取模块获取到企业信息的实时数据,输入到数据存储模块中进行存储;所述数据存储模块存储数据获取模块的输出数据和所述数据处理模块的输入输出数据;通过数据获取模块,获取到实时的企业数据,对于,企业信息的变化及时获取到,保证数据的时效;并且通过数据获取模块,及时获取到新增企业数据,保证企业数据体系的持续更新和及时更新。
[0052] 所述数据处理模块根据包含以下步骤的方法来实现企业实体的唯一ID创建:
[0053] S1读取企业的标识码和成立日期数据,根据企业标识码和成立时间信息进行编码,生成企业ID;
[0054] S2对新获取的企业数据进行分析,判断新获取数据的企业是属于已有企业还是新增企业;
[0055] S3如果判断为新获取企业与已有企业是同一企业,则将对应已有企业的ID赋予到新获取企业数据;
[0056] S4如果判断新获取企业不属于已有企业,则使用与所述步骤S1同样的方法,建立该企业的ID。
[0057] 进一步的,所述系统还包括新获取数据的ID创建的触发模块;所述模块与所述数据获取模块以及所述数据处理模块相连,当数据获取模块获取到新的企业数据,所述触发模块自动检测到,触发数据处理模块完成所述步骤S2、S3和S4。所述触发模块通过检测到数据获取模块输出的新数据,自动触发新数据与已有数据的对比过程;保证整个企业ID构建体系的自动化,减少人工干预,提高整个数据处理流程的处理效率。
[0058] 进一步的,系统中所述步骤S2将新获取到的企业数据与数据库中的现有企业数据进行对比,所述对比项包括:企业名称、统一社会信用代码、企业注册号、企业地址、成立时间和法人代表信息。
[0059] 其中上述对比项中任意两项信息完全相同,则将两家企业判断为同一家企业,并将已有企业的对应ID赋予到新获取的企业数据中。
[0060] 进一步的,所述系统中所述步骤S1中对企业进行ID编码过程中记录编码时间。
[0061] 进一步的,所述系统中所述步骤S3中,将已有企业的ID赋予到新获取到的企业数据中时,记录赋值时间。
[0062] 进一步的,所述系统中所述步骤S1和所述步骤S2中,使用hash算法来创建企业实体ID。
[0063] 进一步的,所述步骤S1和所述步骤S2中,编码信息包含附加信息;附加信息具有极大的选择空间,可以是任意符号、文字等。只要不公开附加信息,数据的其他使用者也不能破解出具体的编码字段信息,避免了数据被非法窃取和沿用,从而保障了数据的安全,保护了数据持有者的合理权益。
[0064] 本领域普通技术人员可以意识到,结合本文中所公开的描述的功能系统,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。
[0065] 实施例1
[0066] 假设首次采集数据包含如表1所示的以下数据
[0067] 表1
[0068]
[0069]
[0070] 使用本发明方法,使用附加信息+企业统一社会信用代码或者注册号(仅仅当没有企业统一社会信用代码信息时,才使用企业注册号);使用hash算法中的HAS1来产生企业的唯一ID(hash算法有很多种,可以根据需要采用其他hash算法);如下表2[0071] 表2
[0072]
[0073]
[0074] 假设新获取的4条新的企业数据,如下表3
[0075] 表3
[0076]
[0077]
[0078] 对以上数据逐一与企业基础数据库中的已有企业信息进行对比,对比第一条数据发现,除企业名称不相同外,其余信息相同,相同信息大于两项,将A贸易有限公司选入备选企业集合,假设经过多属性相似性加权平均计算,发现备选企业集合中A贸易有限公司与AB贸易有限公司的近似度最高,并超过已设置的阈值;可以判断此条数据中AB贸易有限公司与数据库中已有的A贸易有限公司是同一家企业,将已有企业A贸易有限公司的企业ID赋予给AB贸易有限公司数据,并记录赋值时间;将赋值后的数据存入数据库中。
[0079] 对比第二条数据发现除法人代表信息不相同外,其余信息相同;相同信息大于两项,将已有B科技有限公司选入备选企业集合,假设经过多属性相似性加权平均计算,发现备选企业集合中B科技有限公司与新增B科技有限公司的近似度最高,并超过已设置的阈值可以判断此条数据中B科技有限公司与数据库中已有的B科技有限公司是同一家企业,将已有企业B科技有限公司的企业ID赋予给新获取的B科技有限公司数据,并记录赋值时间;将赋值后的数据存入数据库中。
[0080] 对比第三条数据发现除统一社会信用代码信息不相同外,其余信息相同;相同信息大于两项,将已有C娱乐有限公司选入备选企业集合,假设经过多属性相似性加权平均计算,发现备选企业集合中C娱乐有限公司与新增C娱乐有限公司的近似度最高,并超过已设置的阈值可以判断此条数据中C娱乐有限公司与数据库中已有的C娱乐有限公司是同一家企业,将已有C娱乐有限公司的企业ID赋予给新获取的C娱乐有限公司,并记录赋值时间;将赋值后的数据存入数据库中。
[0081] 对比第四条数据发现没有可以匹配的现有企业,可以判断此条数据中E运输服务有限公司是新的企业,使用E运输服务有限公司的统一社会信用代码和成立时间来进行hah1编码,获得企业ID为38d6b8e404174b1acca5588630928d1ce88801ab;并记录编码时间;将编码后的该条数据存入数据库中。
[0082] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。