多源异构数据处理方法及装置转让专利

申请号 : CN202010492097.8

文献号 : CN111400392B

文献日 : 2020-08-21

本申请实施例提供一种多源异构数据处理方法及装置，通过确定多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据，然后，从预先配置的转换字段库中，确定每个待处理数据源下的待转换字段在目标数据维度的目标标准属性字段。接着，将每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段，得到每个待处理数据源下的目标标准属性字段的字段数据，由此合成目标数据维度的多源异构标准数据。如此，能够将不同数据源提供的待转换字段的字段数据抽象出标准统一的多源异构标准数据，提高数据汇总时字段数据的使用体验，并且改善字段数据的完整性。

1.一种多源异构数据处理方法，其特征在于，应用于与用户终端通信连接的服务器，所述方法包括：获取目标数据维度的多源异构数据，并确定所述多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据；

从预先配置的转换字段库中，确定每个待处理数据源下的待转换字段在所述目标数据维度的目标标准属性字段，其中，所述预先配置的转换字段库包括每个预设数据源在不同数据维度的标准属性字段下相对应的可转换字段；

将所述每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段，得到所述每个待处理数据源下的目标标准属性字段的字段数据；

根据所述每个待处理数据源下的目标标准属性字段的字段数据合成所述目标数据维度的多源异构标准数据，所述根据所述每个待处理数据源下的目标标准属性字段的字段数据合成所述目标数据维度的多源异构标准数据的步骤，包括：针对每个待处理数据源，根据所述目标数据维度所对应的预设去重字段，分别对该待处理数据源下的目标标准属性字段的字段数据进行第一次去重处理，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据；

对每个待处理数据源下去重处理后的目标标准属性字段的字段数据进行第二次去重处理后，并将第二次去重处理后的字段数据进行组合得到所述目标数据维度的多源异构标准数据；

所述根据所述目标数据维度所对应的预设去重字段，分别对该待处理数据源下的目标标准属性字段的字段数据进行第一次去重处理，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据的步骤，包括：当所述目标数据维度为列表型数据维度时，解析所述目标数据维度的数据业务含义，确定所述目标数据维度的关键业务字段，作为所述目标数据维度所对应的预设去重字段；

查找该待处理数据源下与所述预设去重字段匹配的目标字段数据，并剔除所有存在重复的目标字段数据后，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据；

其中，当所述目标数据维度的关键业务字段为多个，且存在部分目标关键业务字段为空时，从预先配置的补充字段库中获取所述部分目标关键业务字段所对应的补充去重字段，并将所述补充去重字段和剩余的关键业务字段作为所述预设去重字段，所述预先配置的补充字段库包括每个关键业务字段所对应的补充去重字段，所述对每个待处理数据源下去重处理后的目标标准属性字段的字段数据进行第二次去重处理后，并将第二次去重处理后的字段数据进行组合得到所述目标数据维度的多源异构标准数据的步骤，包括：获取每个待处理数据源的优先级，并以最高优先级的基础数据源为基础，查找所述基础数据源下的目标标准属性字段中是否存在所述目标数据维度的所有标准属性字段；

当所述基础数据源下的目标标准属性字段中存在所述目标数据维度的所有标准属性字段时，将所述基础数据源下的目标标准属性字段的字段数据确定为所述目标数据维度的多源异构标准数据；

当所述基础数据源下的目标标准属性字段中不存在所述目标数据维度的至少部分标准属性字段时，获取不存在于所述目标数据维度的所有标准属性字段中的填充标准属性字段；

基于所述填充标准属性字段，经过至少一个迭代周期的查找，得到待填充字段数据，并将所述待填充字段数据填充到所述基础数据源下，组合得到所述目标数据维度的多源异构标准数据；

其中，每经过一个迭代周期时，查找下一优先级的补充数据源下的目标标准属性字段中是否存在上一迭代周期获取到的至少部分填充标准属性字段，当该迭代周期的补充数据源下的目标标准属性字段中存在所有填充标准属性字段时，将该迭代周期的补充数据源下的填充标准属性字段的字段数据作为所述待填充字段数据，并结束迭代周期；以及当该迭代周期的补充数据源下的目标标准属性字段中仅存在部分填充标准属性字段时，将该迭代周期的补充数据源下的该部分填充标准属性字段的字段数据作为所述待填充字段数据，并继续执行下一迭代周期；以及当该迭代周期的补充数据源下的目标标准属性字段中不存在任何填充标准属性字段时，继续执行下一迭代周期，当迭代查找所有待处理数据源下的目标标准属性字段之后，结束迭代周期，得到查找到的所有填充标准属性字段的字段数据作为所述待填充字段数据。

2.根据权利要求1所述的多源异构数据处理方法，其特征在于，所述方法还包括配置每个预设数据源在不同数据维度的标准属性字段下相对应的可转换字段的步骤，具体包括：获取待标准化的数据维度，以及不同预设数据源在每个待标准化的数据维度下的数据字段；

获取每个待标准化的数据维度所对应的有效字段内容，确定每个待标准化的数据维度下的标准属性字段，并根据标准属性字段的语义分析结果，确定每个预设数据源在标准属性字段下相对应的可转换字段；

建立每个数据源在不同数据维度对应的标准属性字段下相对应的可转换字段。

3.根据权利要求2所述的多源异构数据处理方法，其特征在于，所述根据标准属性字段的语义分析结果，确定每个预设数据源在标准属性字段下相对应的可转换字段的步骤，包括：获取标准属性字段的语义分析结果，并查找网络公开数据库中与所述语义分析结果匹配的匹配字段序列；

从针对所述匹配字段序列的选择操作指令中，确定每个预设数据源在标准属性字段下相对应的可转换字段。

4.根据权利要求1所述的多源异构数据处理方法，其特征在于，所述根据所述目标数据维度所对应的预设去重字段，分别对该待处理数据源下的目标标准属性字段的字段数据进行第一次去重处理，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据的步骤，包括：当所述目标数据维度为单条型数据维度时，获取所述目标数据维度的搜索关键字段作为所述目标数据维度所对应的预设去重字段；

查找该待处理数据源下与所述预设去重字段匹配的目标字段数据，并剔除所有存在重复的目标字段数据后，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据。

5.一种多源异构数据处理装置，其特征在于，应用于与用户终端通信连接的服务器，所述装置包括：获取模块，用于获取目标数据维度的多源异构数据，并确定所述多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据；

确定模块，用于从预先配置的转换字段库中，确定每个待处理数据源下的待转换字段在所述目标数据维度的目标标准属性字段，其中，所述预先配置的转换字段库包括每个预设数据源在不同数据维度的标准属性字段下相对应的可转换字段；

转换模块，用于将所述每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段，得到所述每个待处理数据源下的目标标准属性字段的字段数据；

合成模块，用于根据所述每个待处理数据源下的目标标准属性字段的字段数据合成所述目标数据维度的多源异构标准数据；

所述合成模块具体用于：

针对每个待处理数据源，根据所述目标数据维度所对应的预设去重字段，分别对该待处理数据源下的目标标准属性字段的字段数据进行第一次去重处理，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据；

当所述目标数据维度为列表型数据维度时，所述合成模块具体用于：

解析所述目标数据维度的数据业务含义，确定所述目标数据维度的关键业务字段，作为所述目标数据维度所对应的预设去重字段；

其中，当所述目标数据维度的关键业务字段为多个，且存在部分目标关键业务字段为空时，从预先配置的补充字段库中获取所述部分目标关键业务字段所对应的补充去重字段，并将所述补充去重字段和剩余的关键业务字段作为所述预设去重字段，所述预先配置的补充字段库包括每个关键业务字段所对应的补充去重字段，所述合成模块具体用于：获取每个待处理数据源的优先级，并以最高优先级的基础数据源为基础，查找所述基础数据源下的目标标准属性字段中是否存在所述目标数据维度的所有标准属性字段；

多源异构数据处理方法及装置

技术领域

[0001] 本申请涉及数据处理技术领域，具体而言，涉及一种多源异构数据处理方法及装置。

背景技术

[0002] 目前，现有的企业相关数据通常都是由各个数据源的企业数据提供商提供的，例如可以包括工商、无形资产、司法、行政负面等多个数据维度，通常每个数据维度的各个数据字段都是各个数据源的企业数据提供商定义的。然而，经本申请发明人研究发现，不同数据源厂商定义的数据字段不尽相同，导致在进行数据汇总时字段数据使用困难，同时字段数据也不完整。

发明内容

[0003] 有鉴于此，本申请的目的在于提供一种多源异构数据处理方法及装置，能够将不同数据源提供的待转换字段的字段数据抽象出标准统一的多源异构标准数据，提高数据汇总时字段数据的使用体验，并且改善字段数据的完整性。

[0004] 根据本申请的第一方面，提供一种多源异构数据处理方法，应用于与用户终端通信连接的服务器，所述方法包括：

[0005] 获取目标数据维度的多源异构数据，并确定所述多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据；

[0006] 从预先配置的转换字段库中，确定每个待处理数据源下的待转换字段在所述目标数据维度的目标标准属性字段，其中，所述预先配置的转换字段库包括每个预设数据源在不同数据维度的标准属性字段下相对应的可转换字段；

[0007] 将所述每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段，得到所述每个待处理数据源下的目标标准属性字段的字段数据；

[0008] 根据所述每个待处理数据源下的目标标准属性字段的字段数据合成所述目标数据维度的多源异构标准数据。

[0009] 在第一方面的一种可能的实施方式中，所述方法还包括配置每个预设数据源在不同数据维度的标准属性字段下相对应的可转换字段的步骤，具体包括：

[0010] 获取待标准化的数据维度，以及不同预设数据源在每个待标准化的数据维度下的数据字段；

[0011] 获取每个待标准化的数据维度所对应的有效字段内容，确定每个待标准化的数据维度下的标准属性字段，并根据标准属性字段的语义分析结果，确定每个预设数据源在标准属性字段下相对应的可转换字段；

[0012] 建立每个数据源在不同数据维度对应的标准属性字段下相对应的可转换字段。

[0013] 在第一方面的一种可能的实施方式中，所述根据标准属性字段的语义分析结果，确定每个预设数据源在标准属性字段下相对应的可转换字段的步骤，包括：

[0014] 获取标准属性字段的语义分析结果，并查找网络公开数据库中与所述语义分析结果匹配的匹配字段序列；

[0015] 从针对所述匹配字段序列的选择操作指令中，确定每个预设数据源在标准属性字段下相对应的可转换字段。

[0016] 在第一方面的一种可能的实施方式中，所述根据所述每个待处理数据源下的目标标准属性字段的字段数据合成所述目标数据维度的多源异构标准数据的步骤，包括：

[0017] 针对每个待处理数据源，根据所述目标数据维度所对应的预设去重字段，分别对该待处理数据源下的目标标准属性字段的字段数据进行第一次去重处理，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据；

[0018] 对每个待处理数据源下去重处理后的目标标准属性字段的字段数据进行第二次去重处理后，并将第二次去重处理后的字段数据进行组合得到所述目标数据维度的多源异构标准数据。

[0019] 在第一方面的一种可能的实施方式中，所述根据所述目标数据维度所对应的预设去重字段，分别对该待处理数据源下的目标标准属性字段的字段数据进行第一次去重处理，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据的步骤，包括：

[0020] 当所述目标数据维度为单条型数据维度时，获取所述目标数据维度的搜索关键字段作为所述目标数据维度所对应的预设去重字段；

[0021] 查找该待处理数据源下与所述预设去重字段匹配的目标字段数据，并剔除所有存在重复的目标字段数据后，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据。

[0022] 在第一方面的一种可能的实施方式中，所述根据所述目标数据维度所对应的预设去重字段，分别对该待处理数据源下的目标标准属性字段的字段数据进行第一次去重处理，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据的步骤，包括：

[0023] 当所述目标数据维度为列表型数据维度时，解析所述目标数据维度的数据业务含义，确定所述目标数据维度的关键业务字段，作为所述目标数据维度所对应的预设去重字段；

[0024] 查找该待处理数据源下与所述预设去重字段匹配的目标字段数据，并剔除所有存在重复的目标字段数据后，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据；

[0025] 其中，当所述目标数据维度的关键业务字段为多个，且存在部分目标关键业务字段为空时，从预先配置的补充字段库中获取所述部分目标关键业务字段所对应的补充去重字段，并将所述补充去重字段和剩余的关键业务字段作为所述预设去重字段，所述预先配置的补充字段库包括每个关键业务字段所对应的补充去重字段。

[0026] 在第一方面的一种可能的实施方式中，所述对每个待处理数据源下去重处理后的目标标准属性字段的字段数据进行第二次去重处理后，并将第二次去重处理后的字段数据进行组合得到所述目标数据维度的多源异构标准数据的步骤，包括：

[0027] 获取每个待处理数据源的优先级，并以最高优先级的基础数据源为基础，查找所述基础数据源下的目标标准属性字段中是否存在所述目标数据维度的所有标准属性字段；

[0028] 当所述基础数据源下的目标标准属性字段中存在所述目标数据维度的所有标准属性字段时，将所述基础数据源下的目标标准属性字段的字段数据确定为所述目标数据维度的多源异构标准数据；

[0029] 当所述基础数据源下的目标标准属性字段中不存在所述目标数据维度的至少部分标准属性字段时，获取不存在于所述目标数据维度的所有标准属性字段中的填充标准属性字段；

[0030] 基于所述填充标准属性字段，经过至少一个迭代周期的查找，得到待填充字段数据，并将所述待填充字段数据填充到所述基础数据源下，组合得到所述目标数据维度的多源异构标准数据；

[0031] 其中，每经过一个迭代周期时，查找下一优先级的补充数据源下的目标标准属性字段中是否存在上一迭代周期获取到的至少部分填充标准属性字段，当该迭代周期的补充数据源下的目标标准属性字段中存在所有填充标准属性字段时，将该迭代周期的补充数据源下的填充标准属性字段的字段数据作为所述待填充字段数据，并结束迭代周期；以及[0032] 当该迭代周期的补充数据源下的目标标准属性字段中仅存在部分填充标准属性字段时，将该迭代周期的补充数据源下的该部分填充标准属性字段的字段数据作为所述待填充字段数据，并继续执行下一迭代周期；以及

[0033] 当该迭代周期的补充数据源下的目标标准属性字段中不存在任何填充标准属性字段时，继续执行下一迭代周期，当迭代查找所有待处理数据源下的目标标准属性字段之后，结束迭代周期，得到查找到的所有填充标准属性字段的字段数据作为所述待填充字段数据。

[0034] 第二方面，本申请实施例还提供一种多源异构数据处理装置，应用于与用户终端通信连接的服务器，所述装置包括：

[0035] 获取模块，用于获取目标数据维度的多源异构数据，并确定所述多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据；

[0036] 确定模块，用于从预先配置的转换字段库中，确定每个待处理数据源下的待转换字段在所述目标数据维度的目标标准属性字段，其中，所述预先配置的转换字段库包括每个预设数据源在不同数据维度的标准属性字段下相对应的可转换字段；

[0037] 转换模块，用于将所述每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段，得到所述每个待处理数据源下的目标标准属性字段的字段数据；

[0038] 合成模块，用于根据所述每个待处理数据源下的目标标准属性字段的字段数据合成所述目标数据维度的多源异构标准数据。

[0039] 基于上述任一方面，本申请通过确定多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据，然后，从预先配置的转换字段库中，确定每个待处理数据源下的待转换字段在目标数据维度的目标标准属性字段。接着，将每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段，得到每个待处理数据源下的目标标准属性字段的字段数据，由此合成目标数据维度的多源异构标准数据。如此，能够将不同数据源提供的待转换字段的字段数据抽象出标准统一的多源异构标准数据，提高数据汇总时字段数据的使用体验，并且改善字段数据的完整性。

附图说明

[0040] 为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

[0041] 图1示出了本申请实施例所提供的多源异构数据处理系统的应用场景示意图；

[0042] 图2示出了本申请实施例所提供的多源异构数据处理方法的流程示意图；

[0043] 图3示出了本申请实施例所提供的多源异构数据处理装置的功能模块示意图；

[0044] 图4示出了本申请实施例所提供的用于执行上述的多源异构数据处理方法的服务器的组件结构示意图。

具体实施方式

[0045] 为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其它操作，也可以从流程图中移除一个或多个操作。

[0046] 另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本申请保护的范围。

[0047] 图1示出了本申请实施例所提供的多源异构数据处理系统10的应用场景示意图。本实施例中，多源异构数据处理系统10可以包括服务器100以及与服务器100通信连接的用户终端200。

[0048] 用户终端200可以包括但不限于智能手机、平板计算机、膝上型计算机、个人电脑、工作站等，在此不作详细限定。

[0049] 在一种可能的实施方式中，服务器100可以是单个服务器，也可以是一个服务器组。服务器组可以是集中式的，也可以是分布式的（例如，服务器100可以是分布式系统）。

[0050] 可以理解，在其它可能的实施方式中，该多源异构数据处理系统10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

[0051] 图2示出了本申请实施例提供的多源异构数据处理方法的流程示意图，本实施例中，该多源异构数据处理方法可以由图1中所示的服务器100执行。应当理解，在其它实施例中，本实施例的多源异构数据处理方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该多源异构数据处理方法的详细步骤介绍如下。

[0052] 步骤S110，获取目标数据维度的多源异构数据，并确定多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据。

[0053] 步骤S120，从预先配置的转换字段库中，确定每个待处理数据源下的待转换字段在目标数据维度的目标标准属性字段。

[0054] 步骤S130，将每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段，得到每个待处理数据源下的目标标准属性字段的字段数据。

[0055] 步骤S140，根据每个待处理数据源下的目标标准属性字段的字段数据合成目标数据维度的多源异构标准数据。

[0056] 本实施例中，目标数据维度可以根据用户的实际需求进行选择，以企业相关数据为例，目标数据维度可以是但不限于工商基本信息、股东信息、主要人员、分支机构、个人对外投资、清算信息、变更信息、动产抵押、股权出质、行政处罚、经营异常、企业对外投资、企业法人对外投资、企业法人对外任职、企业法人对外担任法人、司法拍卖、严重违法、商标、专利、软件著作权、作品著作权、网站、证书、招聘信息、行政许可、抽查检查、开庭公告、裁判文书、案件流程、法院公告、被执行人、失信被执行人、司法协助、欠税公告、涉税处罚、纳税非正常户、纳税信用等级、食品药品监督、质量监督、环保处罚、环保重点监控、行政黑名单、央行监管、海关企业、海关许可、海关信用等级、海关处罚等维度数据。在目标数据维度下，可以收集相关的多源异构数据，并确定多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据。

[0057] 本实施例中，待处理数据源可以是指用于提供目标数据维度相关的字段数据的数据源提供方，例如企查查数据源、启信宝数据源等，在此不作具体限定。

[0058] 本实施例中，预先配置的转换字段库可以包括每个预设数据源在不同数据维度的标准属性字段下相对应的可转换字段。例如，可以包括以上示例中的企查查数据源、启信宝数据源在工商基本信息维度、开庭公告维度的标准属性字段下相对应的可转换字段。

[0059] 由此，可以将每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段，得到每个待处理数据源下的目标标准属性字段的字段数据，然后根据每个待处理数据源下的目标标准属性字段的字段数据合成目标数据维度的多源异构标准数据，从而能够将不同数据源提供的待转换字段的字段数据抽象出标准统一的多源异构标准数据，提高数据汇总时字段数据的使用体验，并且改善字段数据的完整性。

[0060] 在一种可能的实施方式中，下面对配置每个预设数据源在不同数据维度的标准属性字段下相对应的可转换字段的过程进行示例性阐述，该配置过程可以通过以下实施方式来实现，详细描述如下。

[0061] （1）获取待标准化的数据维度，以及不同预设数据源在每个待标准化的数据维度下的数据字段。

[0062] （2）获取每个待标准化的数据维度所对应的有效字段内容，确定每个待标准化的数据维度下的标准属性字段，并根据标准属性字段的语义分析结果，确定每个预设数据源在标准属性字段下相对应的可转换字段。

[0063] （3）建立每个数据源在不同数据维度对应的标准属性字段下相对应的可转换字段。

[0064] 例如，每个数据源（数据源1和数据源2）在某个待标准化的数据维度对应的标准属性字段下相对应的可转换字段可以如下所示。

[0065]

[0066] 由此，在步骤S120和步骤S130中，针对数据源1下的可转换字段1、可转换字段2、可转换字段3的字段数据，可以查找到可转换字段1、可转换字段2、可转换字段3分别对应的标准属性字段1、标准属性字段2以及标准属性字段3。然后，分别将可转换字段1、可转换字段2、可转换字段3转换为标准属性字段1、标准属性字段2以及标准属性字段3，并保留原有的可转换字段1、可转换字段2、可转换字段3的字段数据。

[0067] 同样地，针对数据源2下的可转换字段4、可转换字段5、可转换字段6的字段数据，可以查找到可转换字段4、可转换字段5、可转换字段6分别对应的标准属性字段1、标准属性字段2以及标准属性字段3。然后，分别将可转换字段4、可转换字段5、可转换字段6转换为标准属性字段1、标准属性字段2以及标准属性字段3，并保留原有的可转换字段4、可转换字段5、可转换字段6的字段数据。

[0068] 在一种可能的实施方式中，在上述配置过程的实施方式（2）的过程中，为了提高可转换字段的配置效率，本实施例可以获取标准属性字段的语义分析结果（例如可以通过机器识别的语义分析获得语义分析结果），并查找网络公开数据库中与语义分析结果匹配的匹配字段序列。然后，从针对匹配字段序列的选择操作指令中，确定每个预设数据源在标准属性字段下相对应的可转换字段。

[0069] 例如，用户可以根据标准属性字段的语义分析结果，自定义配置可能相关的可转换字段，也可以通过自动查找网络公开数据库中与语义分析结果匹配的匹配字段序列，然后根据语义分析结果从匹配字段序列中选择更匹配标准属性字段的语义的可转换字段。

[0070] 在一种可能的实施方式中，针对步骤S140，本申请发明人经过研究发现，由于字段数据处于不同数据源，可能会导致在合成目标数据维度的多源异构标准数据的过程中可能出现大量的重复数据，从而影响后续字段数据的使用体验。基于此，还需要进行进一步的去重操作，步骤S140可以进一步通过以下子步骤S141和子步骤S142实现，示例性描述如下。

[0071] 子步骤S141，针对每个待处理数据源，根据目标数据维度所对应的预设去重字段，分别对该待处理数据源下的目标标准属性字段的字段数据进行第一次去重处理，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据。

[0072] 子步骤S142，对每个待处理数据源下去重处理后的目标标准属性字段的字段数据进行第二次去重处理后，并将第二次去重处理后的字段数据进行组合得到目标数据维度的多源异构标准数据。

[0073] 本实施例中，不同的数据维度需要预先进行分类，例如可以分为单条型数据维度和列表型数据维度。以工商基本信息维度和开庭公告维度为例，通常一家企业只会存在唯一的1条工商基本信息，但是该企业可能会产生多次的司法纠纷，也就会存在多条开庭公告。因此，工商基本信息维度可以理解为单条型数据维度，而开庭公告维度可以理解为列表型数据维度。

[0074] 例如，在子步骤S141中，当目标数据维度为单条型数据维度时，可以获取目标数据维度的搜索关键字段作为目标数据维度所对应的预设去重字段。例如，对于工商基本信息维度而言，通常的搜索关键字段是企业名称。也就是说，基于用户的搜索习惯而言，在搜索企业的工商基本信息的时候，通常是以企业名称字段作为搜索关键字段，而用户并不希望搜索结果中存在大量重复的企业名称字段的字段数据，因此需要以企业名称字段作为工商基本信息维度所对应的预设去重字段。

[0075] 在此基础上，可以查找该待处理数据源下与预设去重字段匹配的目标字段数据，并剔除所有存在重复的目标字段数据后，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据。

[0076] 例如，可以查找该待处理数据源下与企业名称字段匹配的目标字段数据，并剔除所有存在重复的目标字段数据后，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据。

[0077] 再例如，在子步骤S141中，当目标数据维度为列表型数据维度时，可以解析目标数据维度的数据业务含义，确定目标数据维度的关键业务字段，作为目标数据维度所对应的预设去重字段。

[0078] 本实施例中，针对列表型数据维度而言，由于其可能会存在多条相关信息，因此在用户搜索时可能需要不止一个搜索关键字段，所以需要根据列表型数据维度的具体业务含义的字段设定预设去重字段。例如，以开庭公告数据维度为例，预设去重字段通常可以是法院字段、开庭时间字段和当事人字段。也就是说，当法院字段、开庭时间字段和当事人字段确定时，即可确定唯一的字段数据。或者说，其中的部分字段确定时，可以确定唯一的字段数据，如开庭时间字段和当事人字段完全一致，就可以唯一确定一次开庭公告数据。

[0079] 此外，上述示例中的法院字段、开庭时间字段和当事人字段下的数据格式也需要进行统一，例如开庭时间字段可以采用YYYY年MM月DD日的规则，当事人字段可以进行字典顺序排序，法院也可以采用统一的命名规则，如A省B市中级人民法院和B市中级人民法院实际上是同一家法院，应该进行统一的命名。

[0080] 在此基础上，可以查找该待处理数据源下与预设去重字段匹配的目标字段数据，并剔除所有存在重复的目标字段数据后，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据。

[0081] 例如，仍旧以上述示例为例，可以查找该待处理数据源下与法院字段、开庭时间字段和当事人字段的目标字段数据，并剔除法院字段、开庭时间字段和当事人字段的目标字段数据中所有存在重复的目标字段数据后，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据。

[0082] 其中，当上述目标数据维度的关键业务字段为多个，且存在部分目标关键业务字段为空时，为了确保去重效果，本实施例还可以从预先配置的补充字段库中获取部分目标关键业务字段所对应的补充去重字段，并将补充去重字段和剩余的关键业务字段作为预设去重字段。其中，预先配置的补充字段库包括每个关键业务字段所对应的补充去重字段。

[0083] 例如，当法院字段为空，仅开庭时间字段和当事人字段存在于该预设数据源时，针对法院字段的补充去重字段可以是案由字段和案号字段。也就是说，当法院字段为空时，仍旧可以通过补充的案由字段和案号字段来代替法院字段执行以上的去重操作。

[0084] 在以上描述的基础上，接下来需要对以上待处理数据源下去重处理后的目标标准属性字段的字段数据进行第二次去重处理，以确保在合成过程中避免存在不同预设数据源下多余的字段数据。在一种可能的实施方式中，针对子步骤S142，可以通过以下示例性的实施方式中来实现，具体描述如下。

[0085] （1）获取每个待处理数据源的优先级，并以最高优先级的基础数据源为基础，查找基础数据源下的目标标准属性字段中是否存在目标数据维度的所有标准属性字段。

[0086] 本实施例中，可以预先配置每个待处理数据源的优先级，然后对每个待处理数据源按照优先级进行排序，例如，假设有三个待处理数据源，按照优先级的排序结果可以是待处理数据源1、待处理数据源2、待处理数据源3，那么待处理数据源1的优先级最高，因此待处理数据源1可以作为基础数据源，此时可以查找待处理数据源1下的目标标准属性字段中是否存在目标数据维度的所有标准属性字段。

[0087] 例如，假设目标数据维度的所有标准属性字段包括标准属性字段1、标准属性字段2、标准属性字段3、标准属性字段4以及标准属性字段5，此时可以查找待处理数据源1下的目标标准属性字段中是否存在标准属性字段1、标准属性字段2、标准属性字段3、标准属性字段4以及标准属性字段5。

[0088] （2）当基础数据源下的目标标准属性字段中存在目标数据维度的所有标准属性字段时，将基础数据源下的目标标准属性字段的字段数据确定为目标数据维度的多源异构标准数据。

[0089] 以上述示例为例，当待处理数据源1下的目标标准属性字段中存在标准属性字段1、标准属性字段2、标准属性字段3、标准属性字段4以及标准属性字段5时，则将待处理数据源1下的标准属性字段1、标准属性字段2、标准属性字段3、标准属性字段4以及标准属性字段5的字段数据确定为目标数据维度的多源异构标准数据。

[0090] （3）当基础数据源下的目标标准属性字段中不存在目标数据维度的至少部分标准属性字段时，获取不存在于目标数据维度的所有标准属性字段中的填充标准属性字段。

[0091] 仍旧以上述示例为例，当待处理数据源1下的目标标准属性字段中存在标准属性字段1、标准属性字段2、标准属性字段3、标准属性字段4以及标准属性字段5中的部分标准属性时，则可以获取不存在于标准属性字段1、标准属性字段2、标准属性字段3、标准属性字段4以及标准属性字段5中的填充标准属性字段。

[0092] （4）基于填充标准属性字段，经过至少一个迭代周期的查找，得到待填充字段数据，并将待填充字段数据填充到基础数据源下，组合得到目标数据维度的多源异构标准数据。

[0093] 其中，每经过一个迭代周期时，查找下一优先级的补充数据源下的目标标准属性字段中是否存在上一迭代周期获取到的至少部分填充标准属性字段，当该迭代周期的补充数据源下的目标标准属性字段中存在所有填充标准属性字段时，将该迭代周期的补充数据源下的填充标准属性字段的字段数据作为待填充字段数据，并结束迭代周期。

[0094] 例如，假设不存在于标准属性字段1、标准属性字段2、标准属性字段3、标准属性字段4以及标准属性字段5中的填充标准属性字段为标准属性字段1和标准属性字段2，那么可以查找下一优先级的补充数据源，也即待处理数据源2下的目标标准属性字段中是否存在标准属性字段1和标准属性字段2。当待处理数据源2下的目标标准属性字段中存在标准属性字段1和标准属性字段2时，将待处理数据源2下的标准属性字段1和标准属性字段2的字段数据作为待填充字段数据，并结束迭代周期。由此，可以将待处理数据源2下的标准属性字段1和标准属性字段2的字段数据填充到待处理数据源1下，组合得到目标数据维度的多源异构标准数据。

[0095] 或者，当该迭代周期的补充数据源下的目标标准属性字段中仅存在部分填充标准属性字段时，将该迭代周期的补充数据源下的该部分填充标准属性字段的字段数据作为待填充字段数据，并继续执行下一迭代周期。

[0096] 例如，假设待处理数据源2下的目标标准属性字段中仅存在标准属性字段1时，那么可以将待处理数据源2下的标准属性字段1的字段数据作为待填充字段数据，并继续执行迭代周期。例如，可以进一步查找待处理数据源3下的目标标准属性字段中是否包括标准属性字段2，当待处理数据源3下的目标标准属性字段中包括标准属性字段2时，可以将待处理数据源3下的标准属性字段2的字段数据作为待填充字段数据，从而结束迭代周期。由此，可以将待处理数据源2下的标准属性字段1的字段数据和待处理数据源3下的标准属性字段2的字段数据填充到待处理数据源1下，组合得到目标数据维度的多源异构标准数据。

[0097] 又如，当该迭代周期的补充数据源下的目标标准属性字段中不存在任何填充标准属性字段时，继续执行下一迭代周期，当迭代查找所有待处理数据源下的目标标准属性字段之后，结束迭代周期，得到查找到的所有填充标准属性字段的字段数据作为待填充字段数据。

[0098] 例如，仍旧以上述示例为例，假设待处理数据源2下的目标标准属性字段中均不存在标准属性字段1和标准属性字段2时，那么则继续查找待处理数据源2下的目标标准属性字段中是否存在标准属性字段1和标准属性字段2，然后继续参照上述流程进行判定，如果迭代查找所有待处理数据源（例如待处理数据源1、待处理数据源2以及待处理数据源3）下的目标标准属性字段之后，则结束迭代周期，得到查找到的所有填充标准属性字段的字段数据作为待填充字段数据。

[0099] 基于同一发明构思，请参阅图3，示出了本申请实施例提供的多源异构数据处理装置110的功能模块示意图，本实施例可以根据上述方法实施例对多源异构数据处理装置110进行功能模块的划分。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。比如，在采用对应各个功能划分各个功能模块的情况下，图3示出的多源异构数据处理装置110只是一种装置示意图。其中，多源异构数据处理装置110可以包括获取模块111、确定模块112、转换模块113以及合成模块114，下面分别对该多源异构数据处理装置110的各个功能模块的功能进行详细阐述。

[0100] 获取模块111，用于获取目标数据维度的多源异构数据，并确定多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据。可以理解，该获取模块111可以用于执行上述步骤S110，关于该获取模块111的详细实现方式可以参照上述对步骤S110有关的内容。

[0101] 确定模块112，用于从预先配置的转换字段库中，确定每个待处理数据源下的待转换字段在目标数据维度的目标标准属性字段，其中，预先配置的转换字段库包括每个预设数据源在不同数据维度的标准属性字段下相对应的可转换字段。可以理解，该确定模块112可以用于执行上述步骤S120，关于该确定模块112的详细实现方式可以参照上述对步骤S120有关的内容。

[0102] 转换模块113，用于将每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段，得到每个待处理数据源下的目标标准属性字段的字段数据。可以理解，该转换模块113可以用于执行上述步骤S130，关于该转换模块113的详细实现方式可以参照上述对步骤S130有关的内容。

[0103] 合成模块114，用于根据每个待处理数据源下的目标标准属性字段的字段数据合成目标数据维度的多源异构标准数据。可以理解，该合成模块114可以用于执行上述步骤S140，关于该合成模块114的详细实现方式可以参照上述对步骤S140有关的内容。

[0104] 在一种可能的实施方式中，多源异构数据处理装置110还可以包括包括配置模块，配置模块具体可以用于配置每个预设数据源在不同数据维度的标准属性字段下相对应的可转换字段，例如可以获取待标准化的数据维度，以及不同预设数据源在每个待标准化的数据维度下的数据字段，然后获取每个待标准化的数据维度所对应的有效字段内容，确定每个待标准化的数据维度下的标准属性字段，并根据标准属性字段的语义分析结果，确定每个预设数据源在标准属性字段下相对应的可转换字段，最后建立每个数据源在不同数据维度对应的标准属性字段下相对应的可转换字段。

[0105] 在一种可能的实施方式中，配置模块可以通过以下方式确定每个预设数据源在标准属性字段下相对应的可转换字段：

[0106] 获取标准属性字段的语义分析结果，并查找网络公开数据库中与语义分析结果匹配的匹配字段序列；

[0107] 从针对匹配字段序列的选择操作指令中，确定每个预设数据源在标准属性字段下相对应的可转换字段。

[0108] 在一种可能的实施方式中，合成模块114可以通过以下方式合成目标数据维度的多源异构标准数据：

[0109] 针对每个待处理数据源，根据目标数据维度所对应的预设去重字段，分别对该待处理数据源下的目标标准属性字段的字段数据进行第一次去重处理，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据；

[0110] 对每个待处理数据源下去重处理后的目标标准属性字段的字段数据进行第二次去重处理后，并将第二次去重处理后的字段数据进行组合得到目标数据维度的多源异构标准数据。

[0111] 在一种可能的实施方式中，合成模块114可以通过以下方式分别对该待处理数据源下的目标标准属性字段的字段数据进行第一次去重处理，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据：

[0112] 当目标数据维度为单条型数据维度时，获取目标数据维度的搜索关键字段作为目标数据维度所对应的预设去重字段；

[0113] 查找该待处理数据源下与预设去重字段匹配的目标字段数据，并剔除所有存在重复的目标字段数据后，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据。

[0114] 在一种可能的实施方式中，合成模块114可以通过以下方式分别对该待处理数据源下的目标标准属性字段的字段数据进行第一次去重处理，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据：

[0115] 当目标数据维度为列表型数据维度时，解析目标数据维度的数据业务含义，确定目标数据维度的关键业务字段，作为目标数据维度所对应的预设去重字段；

[0116] 查找该待处理数据源下与预设去重字段匹配的目标字段数据，并剔除所有存在重复的目标字段数据后，得到该待处理数据源下去重处理后的目标标准属性字段的字段数据；

[0117] 其中，当目标数据维度的关键业务字段为多个，且存在部分目标关键业务字段为空时，从预先配置的补充字段库中获取部分目标关键业务字段所对应的补充去重字段，并将补充去重字段和剩余的关键业务字段作为预设去重字段，预先配置的补充字段库包括每个关键业务字段所对应的补充去重字段。

[0118] 在一种可能的实施方式中，合成模块114可以通过以下方式对每个待处理数据源下去重处理后的目标标准属性字段的字段数据进行第二次去重处理后，并将第二次去重处理后的字段数据进行组合得到目标数据维度的多源异构标准数据：

[0119] 获取每个待处理数据源的优先级，并以最高优先级的基础数据源为基础，查找基础数据源下的目标标准属性字段中是否存在目标数据维度的所有标准属性字段；

[0120] 当基础数据源下的目标标准属性字段中存在目标数据维度的所有标准属性字段时，将基础数据源下的目标标准属性字段的字段数据确定为目标数据维度的多源异构标准数据；

[0121] 当基础数据源下的目标标准属性字段中不存在目标数据维度的至少部分标准属性字段时，获取不存在于目标数据维度的所有标准属性字段中的填充标准属性字段；

[0122] 基于填充标准属性字段，经过至少一个迭代周期的查找，得到待填充字段数据，并将待填充字段数据填充到基础数据源下，组合得到目标数据维度的多源异构标准数据；

[0123] 其中，每经过一个迭代周期时，查找下一优先级的补充数据源下的目标标准属性字段中是否存在上一迭代周期获取到的至少部分填充标准属性字段，当该迭代周期的补充数据源下的目标标准属性字段中存在所有填充标准属性字段时，将该迭代周期的补充数据源下的填充标准属性字段的字段数据作为待填充字段数据，并结束迭代周期；以及[0124] 当该迭代周期的补充数据源下的目标标准属性字段中仅存在部分填充标准属性字段时，将该迭代周期的补充数据源下的该部分填充标准属性字段的字段数据作为待填充字段数据，并继续执行下一迭代周期；以及

[0125] 当该迭代周期的补充数据源下的目标标准属性字段中不存在任何填充标准属性字段时，继续执行下一迭代周期，当迭代查找所有待处理数据源下的目标标准属性字段之后，结束迭代周期，得到查找到的所有填充标准属性字段的字段数据作为待填充字段数据。

[0126] 基于同一发明构思，请参阅图4，示出了本申请实施例提供的用于执行上述多源异构数据处理方法的服务器100的结构示意框图，该服务器100可以包括多源异构数据处理装置110、机器可读存储介质120和处理器130。

[0127] 本实施例中，机器可读存储介质120与处理器130均位于服务器100中且二者分离设置。然而，应当理解的是，机器可读存储介质120也可以是独立于服务器100之外，且可以由处理器130通过总线接口来访问。可替换地，机器可读存储介质120也可以集成到处理器130中，例如，可以是高速缓存和/或通用寄存器。

[0128] 多源异构数据处理装置110可以包括存储在机器可读存储介质120的软件功能模块（例如图3中所示的获取模块111、确定模块112、转换模块113以及合成模块114），当处理器130执行多源异构数据处理装置110中的软件功能模块时，以实现前述方法实施例提供的多源异构数据处理方法。

[0129] 由于本申请实施例提供的服务器100是上述服务器100执行的方法实施例的另一种实现形式，且服务器100可用于执行上述方法实施例提供的多源异构数据处理方法，因此其所能获得的技术效果可参考上述方法实施例，在此不再赘述。

[0130] 以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

多源异构数据处理方法及装置转让专利

申请号 : CN202010492097.8

文献号 : CN111400392B

文献日 : 2020-08-21

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 顾凌云 , 郭志攀 , 王凯 , 王轩

申请人 : 上海冰鉴信息科技有限公司

摘要 :

权利要求 :

说明书 :