会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 请求书 / 发明名称 / 用于识别名称集中的非独特名称的方法与系统

用于识别名称集中的非独特名称的方法与系统

阅读:249发布:2020-05-11

IPRDB可以提供用于识别名称集中的非独特名称的方法与系统专利检索,专利查询,专利分析的服务。并且本发明公开了用于识别名称集中的非独特名称的方法和系统。针对第一实体获得名称集。响应于比较该名称集中的第一名称和第二名称,确定所述第一名称与第二名称相似。搜索所述第一名称和第二名称中的起首字母。响应于搜索指示在所述第一名称和第二名称中的至少一个中存在至少一个起首字母,确定所述至少一个起首字母与所述第一名称和第二名称中的另一个名称中的对应起首字母相匹配,并把所述第一名称和第二名称中的一个名称标记为非独特名称。应用交叉实体打分技术,这种技术使用用于第一实体的名称集中的独特名称和用于第二实体的另一名称集中的名称。,下面是用于识别名称集中的非独特名称的方法与系统专利的具体信息内容。

1.一种用于识别名称集中的非独特名称的方法,包括:利用计算机的处理器,获得用于第一实体的名称集;

响应于比较所述名称集中的第一名称和第二名称,确定所述第一名称与第二名称相似;

在所述第一名称和第二名称中搜索起首字母;

响应于所述搜索指示在所述第一名称和第二名称中的至少一个中存在至少一个起首字母,确定所述至少一个起首字母与所述第一名称和第二名称中的另一个名称中的对应起首字母相匹配;及把所述第一名称和第二名称中的一个名称标记为非独特名称;及应用交叉实体打分技术,该技术使用用于所述第一实体的名称集中的独特名称和用于第二实体的另一名称集中的名称。

2.如权利要求1所述的方法,还包括:

响应于所述搜索指示在所述第一名称和第二名称中不存在起首字母,把所述第一名称和第二名称中的一个名称标记为非独特名称。

3.如权利要求1所述的方法,其中,确定所述至少一个起首字母与对应起首字母相匹配还包括:确定在所述第一名称和第二名称中是否存在对应匹配起首字母,或者在所述第一名称和第二名称中的一个名称中是否存在在第一位置具有与所述第一名称和第二名称中的另一个名称中的对应标志相匹配的字符的标志;及响应于确定所述第一名称和第二名称中存在对应匹配起首字母,或者在所述第一名称和第二名称中的一个名称中存在在所述第一位置具有与所述第一名称和第二名称中的另一个名称中的对应标志相匹配的字符的标志,把所述第一名称和第二名称中的一个名称标记为非独特名称。

4.如权利要求1所述的方法,其中,确定所述第一名称与第二名称相似还包括:计算所述第一名称和第二名称之间的公共字符计数;

计算所述第一名称和第二名称之间的换位计数;及如果所述公共字符计数等于所述第一名称的长度而且所述换位计数小于可配置的数字,则确定所述第一名称和第二名称是相似的。

5.如权利要求4所述的方法,还包括:

响应于确定所述公共字符计数等于所述第一名称的长度而且所述换位计数小于所述可配置的数字,比较一个或多个起首字母标志。

6.如权利要求4所述的方法,其中,所述公共字符计数是基于通过从左向右移动来识别匹配且处于相同的相对位置的字符而执行所述第一名称和第二名称之间的字符比较。

7.如权利要求4所述的方法,其中,对于所述第一名称中没有被匹配的任何字符,所述公共字符计数是基于在所述第一名称和第二名称中在可配置的搜索范围内向前和向后搜索来识别匹配的字符。

8.如权利要求4所述的方法,其中,计算换位计数还包括:计数换位的次数;及

用二去除计数出的换位次数。

9.一种用于识别名称集中的非独特名称的计算机系统,包括:处理器;及

存储设备,其连接到所述处理器;

其中所述存储设备上存储有程序,及

其中所述处理器配置成执行程序的指令以执行操作,其中所述操作包括:获得用于第一实体的名称集;

响应于比较所述名称集中的第一名称和第二名称,确定所述第一名称与第二名称相似;

在所述第一名称和第二名称中搜索起首字母;

响应于所述搜索指示在所述第一名称和第二名称中的至少一个中存在至少一个起首字母,确定所述至少一个起首字母与所述第一名称和第二名称中的另一个名称中的对应起首字母相匹配;及把所述第一名称和第二名称中的一个名称标记为非独特名称;及应用交叉实体打分技术,该技术使用用于所述第一实体的名称集中的独特名称和用于第二实体的另一名称集中的名称。

10.如权利要求9所述的计算机系统,其中,所述操作还包括:响应于所述搜索指示在所述第一名称和第二名称中不存在起首字母,把所述第一名称和第二名称中的一个名称标记为非独特名称。

11.如权利要求9所述的计算机系统,其中确定所述至少一个起首字母与对应起首字母相匹配的操作还包括:确定在所述第一名称和第二名称中是否存在对应匹配起首字母,或者在所述第一名称和第二名称中的一个名称中是否存在在第一位置具有与所述第一名称和第二名称中的另一个名称中的对应标志相匹配的字符的标志;及响应于确定所述第一名称和第二名称中存在对应匹配起首字母,或者在所述第一名称和第二名称中的一个名称中存在在所述第一位置具有与所述第一名称和第二名称中的另一个名称中的对应标志相匹配的字符的标志,把所述第一名称和第二名称中的一个名称标记为非独特名称。

12.如权利要求9所述的计算机系统,其中确定所述第一名称与第二名称相似的操作还包括:计算所述第一名称和第二名称之间的公共字符计数;

计算所述第一名称和第二名称之间的换位计数;及如果所述公共字符计数等于所述第一名称的长度而且所述换位计数小于可配置的数字,则确定所述第一名称和第二名称是相似的。

13.如权利要求12所述的计算机系统,其中所述操作还包括:响应于确定所述公共字符计数等于所述第一名称的长度而且所述换位计数小于所述可配置的数字,比较一个或多个起首字母标志。

14.如权利要求12所述的计算机系统,其中,所述公共字符计数是基于通过从左向右移动来识别匹配且处于相同的相对位置的字符而执行所述第一名称和第二名称之间的字符比较。

15.如权利要求12所述的计算机系统,其中,对于所述第一名称中没有被匹配的任何字符,所述公共字符计数是基于在所述第一名称和第二名称中在可配置的搜索范围内向前和向后搜索来识别匹配的字符。

16.如权利要求12所述的计算机系统,其中,计算换位计数的操作还包括:计数换位的次数;及

用二去除计数出的换位次数。

说明书全文

用于识别名称集中的非独特名称的方法与系统

技术领域

[0001] 本发明的实施方式涉及识别名称集中的非独特名称。

背景技术

[0002] 实体解析(或者身份消歧)技术可以用于确定什么时候两个或更多个实体(例如,人、建筑物、地方、组织、文档、汽车、事物、其它对象,等等)尽管有不同的描述但是代表相同的物理实体。有时候这些技术被称为重复数据删除、匹配/合并、身份解析、语义和解或者有其它的名称。例如,包含CustID#1[Bob Jones,位于123Main Street,生日(DOB)为6/21/45]的第一个记录有可能代表与包含CustID#2[Bob K Jones,位于123 S.Main Street,DOB为6/21/1945]的第二个记录相同的实体。实体解析可以在单个数据源中用于找出重复,跨数据源确定完全不同的事务如何关联到一个实体,或者同时用在多个数据源中和跨多个数据源使用。
[0003] 实体解析的结果可以用包含身份数据阵列的数据集提供。然而,存在许多其主要识别属性是名称的数据集。对于任何实体,都可以存在代表该实体的多个名称,有些名称不如其它名称独特。作为一个实体独特表示的名称是增加对其身份的理解或者提供对其身份的更多前后关系的名称。名称可以包括以下中的一个或多个:姓或起首字母,中间名或起首字母,名或起首字母,等等。
[0004] 以下是一个例子,其中实体1有三个名称(即,实体1的表示),而实体2有两个名称(即,实体2的表示)。
[0005] 实体1: 实体2:
[0006] JOHN B.SMITH JOHN DAVID SMITH
[0007] JOHN BRIAN SMITH PETE THOMPSON
[0008] JOHN SMITH
[0009] 基于各种匹配特征(例如,每个名称的相同的社会保险号),可以知道用于单个实体的多个名称与那单个实体关联。因而,尽管JOHN DAVID SMITH和PETE THOMPSON看起来不一样,但是仍然知道这两个名称与实体2关联。
[0010] 实体1中的名称JOHN SMITH是实体1中每个其它名称的显然非独特的重复性表示。名称JOHN SMITH没有增加对实体1中名称的任何前后关系或者理解。另外,实体1中的名称JOHN SMITH也可能是实体2中名称JOHN DAVID SMITH的非独特表示。
[0011] 在尝试确定两个实体的名称的相似度时,实体解析系统可以执行交叉实体打分技术,该技术执行名称叉积的成对比较(例如,在比较的每一对名称中,一个名称来自实体1,而另一个名称来自实体2)并且为每对名称产生一个得分,可能产生以下结果:
[0012]
[0013] 这个例子中最高的得分来自于与实体1最不独特表示的名称(JOHN SMITH)的比较。尽管这可能是合理的得分,但是这个得分并没有准确地表示实体中的名称多相似或者多不同。相反,最高的得分指示这些实体是非常相似的,但是事实上,它们有一些显著的冲突(中间名)。类似地,最低的得分是从比较非常不同的名称(PETE THOMPSON)产生的。同样,这个低得分是合理的,但是最低的得分可能没有准确地反映两个实体中名称之间的相似度。即使实体解析系统使用得分的平均值,而不是最高或最低得分,来基于这些得分决定这些名称的相似度,结果也将最有可能偏离更高。
[0014] 有些系统可以采取统计方法,其中给定名称的基数(cardinality)直接关联到数据集中实例的个数。这种方法可以假定不偏的数据集,可以假定不知道名称的真正区别,而且可以仅仅依赖于名称在给定数据集中的出现。而且,这种方法可以假定包含全世界名称的学习集。
[0015] 有些系统可以采取生存方法。生存是把每个实体向下减少到只有最佳元素的过程。在这种系统中,实体将不包含多个名称,因为生存规则将把一列名称减少到一个名称。一般来说,生存规则是简单的规则(例如,最长的串或者最多的词)。

发明内容

[0016] 提供了用于识别名称集中的非独特名称的方法、计算机程序产品和系统。该名称集是针对第一实体获得的。响应于比较该名称集中的第一名称和第二名称,确定所述第一名称与第二名称相似。搜索所述第一名称和第二名称中的起首字母。响应于所述搜索指示在所述第一名称和第二名称中的至少一个中存在至少一个起首字母,确定所述至少一个起首字母匹配所述第一名称和第二名称中的另一个中的对应起首字母,而且所述第一名称和第二名称中的一个被标记为非独特名称。应用交叉实体打分技术,该技术利用用于所述第一实体的所述名称集中的独特名称和用于第二实体的另一名称集中的名称。

附图说明

[0017] 现在参考附图,其中贯穿所有附图,相同的标号都代表对应的部件:
[0018] 图1以框图例示了根据某些实施方式的计算设备。
[0019] 图2A和2B以流程图例示了根据某些实施方式的由实体解析系统执行的用以检测实体集中的独特名称的逻辑。
[0020] 图3以流程图例示了根据某些实施方式的由实体解析系统执行的用以确定第一名称和第二名称是否相似的逻辑。
[0021] 图4以框图例示了根据某些实施方式的来自用于名称比较的原型的打分日志。
[0022] 图5以框图例示了根据某些实施方式可以使用的计算机体系结构。

具体实施方式

[0023] 为了说明,给出本发明各种实施方式的描述,但所述描述不是详尽的或者限定到所公开的实施方式。在不背离所述实施方式的范围与主旨的范围内,许多修改和变化对于本领域普通技术人员都是显而易见的。在此所使用的术语选择成最好地解释所述实施方式的原理、实践应用或者超越市场中可以找到的技术的技术改进,或者使本领域普通技术人员能够理解在此所公开的实施方式。
[0024] 图1以框图例示了根据某些实施方式的计算设备100。计算设备100包括实体解析系统110。计算设备100耦合到数据仓库(data store)150。数据仓库150存储用于多个实体(例如,人、建筑物、地方、组织、文档、汽车、事物、其它对象,等等)的多个名称。
[0025] 在某些实施方式中,数据仓库150是数据库。关系数据库是计算机化信息存储与检索系统。关系数据库组织成包含数据行与列的表。行可以称为元组(tuple)或者记录或者行。一个数据库一般有许多表,而且每个表一般都有多个记录和多个列。
[0026] 实体解析系统110获得用于单个实体的多个名称。实体解析系统110比较一个实体的两个名称(例如,用于实体1的两个名称)并确定这两个名称中的一个是否是另一个名称的较不独特版本。在某些实施方式中,实体解析系统110不依赖任何名称数据存档/全局数据源、文化信息或者解析数据。
[0027] 例如,参考实体1,如果根据分析忽略了最不独特的名称(JOHN SMITH、JOHN B.SMITH),则结果产生的交叉实体打分将更准确地代表名称中的相似性或者不同,而且由实体解析系统110基于这些得分做出的决定将导致更高的质量分析。例如,最高的得分将准确地代表贡献于最高保真度数据的实体中名称之间的最高匹配水平;而最低的得分将准确地代表最大的冲突;而平均值将不会偏离更高,因为平均值将基于提供关于该实体的最非一般信息的名称。
[0028] 实体解析系统110提供把评估或交叉实体打分限制到只有代表一个实体的独特名称的能力,而且这导致更准确的分析结果。包括较不独特的名称更有可能产生每个实体中名称的相似性的偏离分析。
[0029] 实体解析系统110评估本地空间中的每个给定的名称,以便确定将提供实体解析框架中最准确结果的独特名称集。即,实体解析系统110将用于单个实体的名称与用于该实体的其它名称进行比较。即,在这个时候,实体解析系统110不看其它实体。因而,这是单实体(其具有代表那单个实体的多个名称)处理。
[0030] 图2A和2B以流程图例示了根据某些实施方式的由实体解析系统110执行的用以检测实体的名称集中的独特名称的逻辑。控制在块200处以实体解析系统110获得用于第一实体的名称集开始。该名称集可以描述为包括代表单个实体的多个名称。在某些实施方式中,基于各种匹配特征(例如,用于每个名称的相同的社会保险号),可以知道该名称集与第一实体关联。
[0031] 以下是一个例子,其中实体1有三个名称:
[0032] 实体1:
[0033] JOHN B.SMITH
[0034] JOHN BRIAN SMITH
[0035] JOHN SMITH
[0036] 在块202,从第一对名称开始,实体解析系统110从用于第一实体的该名称集中选择下一对名称进行比较,其中来自这对名称的一个名称被指定为第一名称,而来自这对名称的另一个名称被指定为第二名称。例如,第一名称“JOHN B.SMITH”与第二名称“JOHN BRIAN SMITH”进行比较。
[0037] 在块204,实体解析系统110比较第一名称和第二名称,以确定它们是否相似。在块206,基于所述比较,实体解析系统110确定第一名称和第二名称是否相似。图3提供了根据某些实施方式的用于执行这种确定的附加细节。如果第一名称和第二名称是相似的,则处理继续到块208(图2B),否则,处理继续到块216。在某些实施方式中,确定两个名称相似是基于确定一个名称的所有字符都包括在另一个名称当中(即,两个名称匹配)。
[0038] 在某些实施方式中,实体解析系统110标记(即,指定)该名称对中的一个(例如,JOHN SMITH)为候选的非独特名称。即,如果发现两个名称相似,则一个名称可以是另一个名称的非独特版本。
[0039] 在块208中,实体解析系统110搜索第一名称和第二名称中的起首字母。在块210,实体解析系统110确定在第一名称和第二名称中是否找到了起首字母。如果找到了,则处理继续到块212,否则,处理继续到块214。即,实体解析系统110评估第一名称和第二名称中任何起首字母的存在。这是为了防止诸如MARY T.JONES的名称被认为是MARY ELIZABETH JONES的非独特表示,并且允许MARY E.JONES被认为是MARY ELIZABETH JONES的较不独特版本。如果起首字母在第一名称或第二名称的任何一个中都不存在,则处理继续到块214。
[0040] 在块212,实体解析系统110确定在第一名称和第二名称中是否有对应的匹配的起首字母(例如,尝试匹配MARY T.JONES中的“T”与MARY E.JONES中的“E”)或者在名称对中的一个名称中(即,在第一名称或第二名称中)是否存在在第一位置具有与该名称对中另一个名称中对应标志(token)匹配的字符的标志(例如,尝试匹配“B”与“Brain”)。如果有,则处理继续到块214,否则,处理继续到块216(图2A)。即,响应于搜索指示在第一名称和第二名称中的至少一个名称中有至少一个起首字母,实体解析系统110确定第一名称和第二名称中的至少一个名称中的至少一个起首字母是否匹配于第一名称和第二名称中的另一个名称中对应的起首字母。
[0041] 在块214,实体解析系统110把其中一个名称标记为非独特名称。被标记的名称是名称对中另一个名称的较不独特版本。在某些实施方式中,如果实体解析系统110把一个名称标记为候选的非独特名称,则实体解析系统110把该名称的标记从候选的非独特名称变成非独特名称。因而,通过把第一名称标记为名称集中非独特的,从而把第一名称从交叉实体打分技术排除,实体解析系统110更新名称集。集合中没有标记为非独特的名称被认为是独特的名称。在某些实施方式中,实体解析系统110可以把一些名称标记为独特的。处理从块214继续到块216(图2A)。
[0042] 因而,如果发现第一名称和第二名称相似而且在第一名称或第二名称中没有找到起首字母,则实体解析系统110确定一个名称是另一个名称的非独特表示。而且,如果发现第一名称和第二名称相似而且在第一名称或第二名称中找到了起首字母,则,如果存在对应的匹配起首字母或者一个名称中的标志在第一位置具有与另一个名称中该标记匹配的字符,那么实体解析系统110确定第一名称是第二名称的非独特表示。
[0043] 在块216,实体解析系统110确定名称集中剩余的所有名称对是否都已经被选择。在某些实施方式中,标记为非独特的名称不被选择为后续对另一个名称对选择中的一个名称。如果是这样,处理就继续到块218,否则,处理循环返回块202,以选择另一个名称对。
[0044] 在块218,实体解析系统110应用交叉实体打分技术来确定用于第一实体的名称集中的独特名称与用于第二实体的另一名称集中名称的相似性。如以上所提到的,一个集合中没有标记为非独特的名称被看作独特的。这些独特的名称被交叉实体打分技术使用。即,该更新集合不包括非独特名称。交叉实体打分技术执行名称叉积的成对比较(例如,在所比较的每一对名称中,一个名称来自实体1,而另一个名称来自实体2)并且为每对名称产生一个得分。
[0045] 以这种方式,实体解析系统110使用公共字符计数、换位计数及起首字母来确定两个名称之间的独特性。
[0046] 在任何交叉实体打分技术之前,实体解析系统110对名称集应用这些技术。然后,通过对只包含独特名称的结果名称集(而不是在块200获得的原始集合)应用交叉实体打分技术,实体解析系统110获得更准确的得分。
[0047] 通过对实体1和实体2应用这些技术,在给每个实体中的名称打分之前,新创建的要打分的独特名称集合变成:
[0048] 实体1: 实体2:
[0049] JOHN BRIAN SMITH JOHN DAVID SMITH
[0050] PETE THOMPSON
[0051] 以下是(在块218中)基于独特名称集合应用交叉实体打分技术的示例结果:
[0052] JOHN DAVID SMITH对JOHN BRIAN SMITH 80%
[0053] PETE THOMPSON对JOHN BRIAN SMITH 2%
[0054] 当不使用非独特名称时,交叉实体打分技术执行两个成对比较(而不是六个成对比较)。在这个例子中,高得分和平均得分更准确地代表两个实体中的名称之间的相似性,而低得分保持不变。
[0055] 而且,实体解析系统110具有提高的应用性能,因为更少的名称对将可能通过任何昂贵的计算交叉实体打分技术。
[0056] 图3以流程图例示了根据某些实施方式的由实体解析系统执行的用以确定第一名称和第二名称是否相似的逻辑。控制在块300开始,其中实体解析系统110计算公共字符计数,以利用字符比较指示用于单个实体的一对名称中第一名称和第二名称之间的相似性。
[0057] 在某些实施方式中,实体解析系统110采用Jaro-Winkler距离技术来执行第一名称和第二名称之间的字符比较。Jaro-Winkler距离技术的目标是计算指示两个名称之间相似性的公共字符计数(即,得分)。
[0058] 在某些实施方式中,实体解析系统110使用Jaro-Winkler距离技术的一部分执行字符比较,但实体解析系统110不使用由Jaro-Winkler距离技术执行的任何得分来确定名称的独特性。实体解析系统110与Jaro-Winkler距离技术的不同在于,实体解析系统110基于由Jaro-Winkler距离技术产生的所得Jaro-Winkler公共字符计数执行检查起首字母的处理,来确定独特性。在某些实施方式中,实体解析系统110考虑单字符起首字母。
[0059] 例如,为了确定公共字符计数,从左向右比较一对名称,查找第一名称和第二名称中匹配并且在相同的相对位置的字符。这些精确的字符匹配被记录,而且每找到一个字符匹配就递增公共字符的计数。例如,当比较JOHN BRIAN SMITH[16个字符]与JOHN SMITH[10个字符]时,获得公共字符计数6(其中,空格也包括在比较当中)。接下来,对于不匹配的任何字符,Jaro-Winkler距离技术在名称当中向前和向后搜索匹配的字符,直到可配置的搜索范围(即,最大搜索范围)。在某些实施方式中,可配置的搜索范围是通过用2去除最长串中所有字符和空格的计数(即,“最长串中所有字符和空格的计数”/2)来计算的。如果在可配置的搜索范围内存在匹配的字符,则匹配被记录并且公共字符计数递增1。
[0060] 从以上的例子,可配置的搜索范围是8,而公共字符计数由4递增至10。
[0061] 在块302中,实体解析系统100计算换位计数。在某些实施方式中,所有匹配的字符都针对换位进行评估。换位可以定义为字符匹配,但是字符或者(a)不在名称中精确的数字位置或者(b)在名称中不按照相同的次序。在块302中,实体解析系统110计数换位的次数。然后,实体解析系统110通过用2去除所计算出的换位计数(即,“所计算出的换位计数”/2)确定最终的换位计数。
[0062] 对于这个例子,所计算出的换位次数是1(3/2的整数部分)。
[0063] 在这个时候,实体解析系统110已经生成了公共字符计数(即,匹配的字符的计数)和换位计数(即,换位次数的计数),如下:
[0064] 公共字符计数=10
[0065] 换位计数=1。
[0066] 图4以框图例示了根据某些实施方式的来自用于名称比较的原型的打分日志。
[0067] 在块304中,如果公共字符计数等于(用于实体的名称对中的)第一名称的长度而且换位计数小于可配置的数字,则实体解析系统110确定第一名称和第二名称是相似的。在某些实施方式中,可配置的数字设置成第一名称中最短的非起首字母标志中字符的总数。标志可以描述为词、起首字母或者其它的原子解析元素。
[0068] 特别地,如果第一名称中的所有字符都在第二名称中具有匹配的字符(即,公共字符计数等于第一名称的长度)而且换位计数小于第一名称中最短的非起首字母的标记中字符的总数(例如,没有标志冲突),则实体解析系统110确定第一名称是否是被认为非独特的候选。
[0069] 因而,在尝试解析可能相关的实体之前,实体解析系统110在用于单个实体的一组相关名称中找到最独特的一个或多个名称。在其中一个名称不明确地匹配多个实体记录的那些情况下,实体解析系统110允许多个实体记录的多次自动合并(merging)。实体解析系统110关于是否合并实体提供更大量准确、自动的决定。
[0070] 实体解析系统110标记用于第一实体的名称集中的名称,来识别非独特名称,而剩余的名称被认为是要用于针对用于第二实体的另一名称集打分的独特名称。所述集合中的名称可以指单个实体,包括但不限于人、建筑物、地方、组织、文档、汽车、事物、其它对象等等。所述集合具有多个名称,这些名称可以是或者可以不是唯一的。任何不太完整或者不太独特的名称都不使用。最终集合中的名称个数大小没有限制,但总是至少一个。
[0071] 在某些实施方式中,对较不完整或者较不独特的名称的确定包括通过计数两个名称之间在相同位置匹配的字符的个数并在可配置的搜索范围内在名称中向前和向后搜索附加的匹配字符而在两个名称之间执行字符比较。而且,所述确定包括评估用于换位的匹配字符。
[0072] 如果用于一个实体的一个名称的所有字符都在用于同一实体的第二名称中具有匹配的字符而且换位的次数小于可配置的数字,则实体解析系统110确定该名称是候选的非独特名称。实体解析系统110针对起首字母的出现评估候选的非独特名称。如果不包括起首字母,则实体解析系统110确定一个候选的非独特名称是非独特名称。而且,如果第二名称包含一个或多个对应的起首字母,则实体解析系统110确定一个候选的非独特名称是非独特名称。如果第二名称包含一个或多个以一个或多个对应起首字母开始的名称标志,则实体解析系统110确定一个候选的非独特名称是非独特名称。
[0073] 附加的实施方式细节
[0074] 如本领域技术人员将认识到的,本发明的各方面可以体现为系统、方法或者计算机程序产品。因此,本发明的各方面可以采取完全硬件实施方式、完全软件实施方式(包括固件、驻留软件、微代码,等等)或者结合软件与硬件方面的实施方式的形式,所有这些在这里都可以总体上称为“电路”、“模块”或者“系统”。此外,本发明的各方面可采取体现在一种或多种计算机可读介质中的计算机程序产品的形式,所述计算机可读介质具有体现在其上的计算机可读程序代码。
[0075] 一种或多种计算机可读介质的任意组合都可以使用。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质可以是例如但不限于电、磁、光、电磁、红外或者半导体系统、装置或设备,或者以上所述的任意合适组合。计算机可读存储介质的更具体例子(非穷尽列表)将包括以下:具有一条或多条电线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或者闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁性存储设备、固态存储器、磁带或者以上所述的任意合适组合。在本文档的背景下,计算机可读存储介质可以是可包含或者存储由指令执行系统、装置或设备使用或者与其联系使用的程序的任何有形介质。
[0076] 计算机可读信号介质可以包括传播数据信号,具有体现在其中的计算机可读程序代码,例如,在基带中或者作为载波的一部分。这种传播信号可以采取多种形式中的任何一种,包括但不限于电磁、光或者其任意合适组合。计算机可读信号介质可以是非计算机可读存储介质而且可以传送、传播或者运输由指令执行系统、装置或设备使用或者与其联系使用的程序的任何计算机可读介质。
[0077] 体现在计算机可读介质上的程序代码可以利用任何合适的介质发送,包括但不限于无线、有线线路、光纤线缆、RF等或者以上所述的任意合适组合。
[0078] 用于执行本发明各方面的操作的计算机程序代码可以用一种或多种编程语言的任意组合来书写,包括面向对象的编程语言,例如Java、Smalltalk、C++等,及传统的过程性编程语言,例如“C”编程语言或类似的编程语言。程序代码可以完全在用户的计算机上、部分地在用户的计算机上、作为独立的软件包、部分在用户的计算机上且部分在远端计算机上或者完全在远端计算机或服务器上执行。在后一种场景下,远端计算机可以通过包括局域网(LAN)或者广域网(WAN)的任何类型的网络连接到用户的计算机,或者可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。
[0079] 以下参考根据本发明实施方式的方法、装置(系统)和计算机程序产品的流程图说明和/或框图来描述本发明实施方式的各方面。应当理解,流程图说明和/或框图的每一块及流程图说明和/或框图中块的组合可以通过计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或者其它可编程数据处理装置的处理器,以产生一种机器,使得当所述指令经计算机或者其它可编程数据处理装置的处理器执行时,产生用于实现在流程图和/或框图块中指定的功能/动作的部件。
[0080] 这些计算机程序指令还可以存储在计算机可读介质中,所述介质指示计算机、其它可编程数据处理装置或者其它设备以特定的方式起作用,使得存储在所述计算机可读介质中的指令产生包括指令的制造物品,所述指令实现在流程图和/或框图的一个或多个块中指定的功能/动作。
[0081] 计算机程序指令还可以加载到计算机、其它可编程数据处理装置或者其它设备上,使得一系列操作处理(例如,操作或步骤)在计算机、其它可编程装置或其它设备上执行,以产生一种计算机实现的过程,使得在计算机或其它可编程装置上执行的指令提供用于实现在流程图和/或框图的一个或多个块中指定的功能/动作的过程。
[0082] 实现所述操作的代码还可以在硬件逻辑或电路系统(例如,集成电路芯片、可编程门阵列(PGA)、专用集成电路(ASIC)等)中实现。硬件逻辑可以耦合到处理器,以便执行操作。
[0083] 实体解析系统110可以实现为硬件(例如,硬件逻辑或者电路系统)、软件或者硬件与软件的组合。
[0084] 图5例示了根据某些实施方式可以使用的计算机体系结构500。计算设备100可以实现计算机体系结构500。计算机体系结构500适于存储和/或执行程序代码并且包括至少一个直接或者通过系统总线520间接耦合到存储器元件504的处理器502。存储器元件504可以包括在程序代码真正执行过程中采用的本地存储器、大容量储存器及提供对至少一些程序代码的临时存储以便减少在执行过程中必须从大容量储存器检索代码的次数的高速缓冲存储器。存储器元件504包括操作系统505及一个或多个计算机程序506。
[0085] 输入/输出(I/O)设备512、514(包括但不限于键盘、显示器、指向设备,等等)可以直接地或者通过中间I/O控制器510耦合到系统。
[0086] 网络适配器508也可以耦合到系统,使数据处理系统通过中间的私有或公共网络变得耦合到其它数据处理系统或者远端打印机或存储设备。调制解调器、线缆调制解调器和以太网卡仅仅是一些当前可用类型的网络适配器508。
[0087] 计算机体系结构500可以耦合到储存器516(例如,非易失性存储区域,例如磁盘驱动器、光盘驱动器、磁带驱动器,等等)。储存器516可以包括内部存储设备或者附连的或可网络访问的储存器。储存器516中的计算机程序506可以加载到存储器元件504中并且以本领域中已知的方式被处理器502执行。
[0088] 计算机体系结构500可以包括比所例示的部件更少的部件、在此未例示的附加部件或者所例示的部件与附加部件的某种组合。计算机体系结构500可以包括本领域中已知的任何计算设备,例如大型机、服务器、个人计算机、工作站、膝上型计算机、手持式计算机、电话设备、网络设备、虚拟化设备、存储控制器,等等。
[0089] 附图中的流程图和框图例示了根据本发明各种实施方式的系统、方法与计算机程序产品的可能实现的体系结构、功能和操作。在这方面,流程图或框图中的每一块都可以代表代码的一个模块、片段或者部分,这可以包括用于实现所指定逻辑功能的一条或多条可执行指令。还应当指出,在有些备选实现中,块中所指出的功能可以不以图中所指出的次序发生。例如,依赖所涉及的功能性,依次示出的两个块事实上可以基本上同时执行,或者有时候块可以以颠倒的次序执行。还应当指出,框图和/或流程图说明的每一块及框图和/或流程图说明中块的组合可以由执行特定功能或动作的基于硬件的专用系统或者专用硬件与计算机指令的组合实现。
[0090] 在此所使用的术语是为了描述特定的实施方式而不是要作为本发明的限制。如在此所使用的,除非上下文清楚地另外指示,否则单数形式“一个”和“该”也要包括复数形式。还应当理解,当在本说明书中使用时,术语“包括”指定所陈述特征、整体、步骤、操作、元件和/或部件的存在,但不排除一个或多个其它特征、整体、步骤、操作、元件、部件和/或其组的存在或增加。
[0091] 以下权利要求中的对应结构、材料、动作以及所有功能性限定的装置(means)或步骤的等同替换,旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或动作。所给出的对本发明的描述其目的在于例示和描述,并非是穷尽性的,也并非是要把本发明限定到所公开的形式。对于本领域普通技术人员来说,在不偏离本发明范围和主旨的情况下,显然可以作出许多修改和变型。对实施方式的选择和说明,是为了最好地解释本发明的原理和实际应用,使本领域其他普通技术人员能够明了,本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。
[0092] 给出对本发明实施方式的以上描述是为了例示和描述。它不是穷尽的或者要把实施方式限定到所公开的精确形式。根据以上教义,许多修改和变化都是可能的。实施方式的范围不是由所述具体描述而是由所附权利要求来限制的。以上说明书、示例和数据提供了对实施方式组成的制造与使用的完整描述。由于在不背离本发明的主旨与范围的情况下可以构成许多实施方式,因此所述实施方式在下文所附的权利要求或者任何后续提交的权利要求及其等同物中。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用