异构数据源的数据集成方法、系统以及终端转让专利

申请号 : CN202010566643.8

文献号 : CN111767332B

文献日 : 2021-07-30

本发明的异构数据源的数据集成方法、系统以及终端，用于解决现有技术中基于大量异构数据，尤其是对结构化数据以及非结构化数据集成时，数据集成不完整、效率不高、难以扩展，并且数据缺乏治理，应用范围受到限制，将集成范围扩展到新应用的时候需要重复开发，成本较高的问题。本发明将多个子系统的异构数据库转换成数据湖所支持的统一的数据格式，并对异构数据之间数据内容标准不一致的问题进行了深度治理，实现了数据集成、共享，并且建立了数据标准，方便后续数据应用，可扩展性好。

1.一种异构数据源的数据集成方法，其特征在于，包括：对多个异构数据库中各数据源进行抽象映射，以获得在该映射关系下的各元模型的元数据，其中，每个元模型对应一个数据源；

将各异构数据库复制到复制数据库，并在该复制数据库上建立变更捕获，以获得记录各异构数据库中变化数据的变更表；

将读取到的各异构数据库中的变化数据转换为与所述元数据统一的数据格式；

将经过统一数据格式转换的所述变化数据与所述元数据进行数据治理，并储存至集成的数据湖中；

其中，所述对多个异构数据库中各数据源进行抽象映射，以获得在该映射关系下获得的各元模型的元数据的方式包括：对多个异构数据库中的各数据源中的由不同语义类型和/或业务逻辑管理的物理模型按照映射关系进行抽象映射，分别生成具有统一逻辑关系的元模型；基于各元模型，获得各数据源在该映射关系下的元模型的由同一语义类型和/或业务逻辑管理的元数据；

所述将各异构数据库复制到复制数据库，并在该复制数据库上建立变更捕获，以获得记录各异构数据库中变化数据的变更表包括：将各异构数据库中的数据同步复制到复制数据库；每经过一个时间阈值，将所述复制数据库中的新的变化数据捕获到变更表中。

2.根据权利要求1所述的异构数据源的数据集成方法，其特征在于，所述异构数据库包含结构化数据和/或非结构化数据。

3.根据权利要求2所述的异构数据源的数据集成方法，其特征在于，所述非结构化数据包括：患者病历数据、检查报告数据、图像数据、文字数据以及录音数据库的一种或多种。

4.根据权利要求1所述的异构数据源的数据集成方法，其特征在于，所述复制数据库支持的数据结构包括：DB2,Oracle,Sqlserver以及Mysql数据库中的一种或多种。

5.根据权利要求1所述的异构数据源的数据集成方法，其特征在于，所述数据治理的方式包括：去除无效数据、统一数据定义、处理缺失数据以及提取非结构化数据的有效变量方式中的一种或多种。

6.一种异构数据源的数据集成系统，其特征在于，所述系统包括：元数据管理模块，用于对多个异构数据库中各数据源进行抽象映射，以获得在该映射关系下的各元模型的元数据，其中，每个元模型对应一个数据源；

复制数据库模块，用于将各异构数据库复制到复制数据库，并在该复制数据库上建立变更捕获，以获得记录各异构数据库中变化数据的变更表；

数据集成模块，连接所述元数据管理模块以及复制数据库模块，用于将读取到的各异构数据库中的变化数据转换为与所述元数据统一的数据格式；

数据治理模块，连接所述数据集成模块，用于将经过统一数据格式转换的所述变化数据与所述元数据进行数据治理，并储存至集成的数据湖中；

7.一种异构数据源的数据集成终端，其特征在于，包括：存储器，用于存储计算机程序；

处理器，用于执行如权利要求1至5中任一项所述的异构数据源的数据集成方法。

异构数据源的数据集成方法、系统以及终端

技术领域

[0001] 本发明涉及数据信息处理技术领域，特别是涉及一种异构数据源的数据集成方法、系统以及终端。

背景技术

[0002] 数据是可传输和可存储的计算机信息。“数据库”则是指将一组相关数据以特定的逻辑结构进行存储，组织和操纵。为了确保事务处理速率，可靠性，可维护性，可伸缩性和成
本，现有的大型应用程序通常通过“数据库管理软件”(DBMS)访问数据库，获取所需数据或
进行数据维护。IBM DB2，Oracle，Mysql，SqlServer等数据库管理软件在大型数据处理应用
程序中占主导地位。

[0003] 一个企业内部可能会同时存在多个子应用系统，随着信息化建设的发展，如果一个企业希望通过数据分析，商业智能(BI)来支撑企业内部的运营管理，那势必要建立统一
的数据仓库，将各个子应用系统的数据进行集中存储，保证数据一致性，实现数据互联互
通、各数据源之间高效地交换与共享，减少数据收集的重复劳动和相应费用。然而，由于不
同的应用系统使用的数据库软件各不相同，各系统的数据存储结构、数据维护方式也千差
万别，异构数据的交换问题由此产生。异构数据不仅指不同类型的数据库软件，还包括不同
结构数据之间的异构，如结构化数据和非结构化数据。

[0004] 特别在医疗场景，非结构化数据非常常见，如患者的病历，检查报告，图像，文字，录音等。

[0005] 为了解决该问题，现有的技术一般是在需要集成的子系统之间开发独立的数据接口，按规定的数据内容和格式进行数据集成，但是限制较多，无法满足企业内所有系统的大
量数据交换。另外，数据缺乏治理，应用范围受到一定的限制，将集成范围扩展到新应用的
时候需要重复开发，成本较高。

发明内容

[0006] 鉴于以上所述现有技术的缺点，本发明的目的在于提供一种异构数据源的数据集成方法、系统以及终端，用于解决现有技术中基于大量异构数据，尤其是对结构化数据以及
非结构化数据集成时，数据集成不完整、效率不高、难以扩展，并且数据缺乏治理，应用范围
受到限制，将集成范围扩展到新应用的时候需要重复开发，成本较高的问题。

[0007] 为实现上述目的及其他相关目的，本发明提供一种异构数据源的数据集成方法，包括：对多个异构数据库中各数据源进行抽象映射，以获得在该映射关系下的各元模型的
元数据，其中，所述每个元模型对应一个数据源；将各异构数据库复制到复制数据库，并在
该复制数据库上建立变更捕获，以获得记录各异构数据库中变化数据的变更表；将读取到
的各异构数据库中的变化数据转换为与所述元数据统一的数据格式；将经过统一数据格式
转换的所述变化数据与所述元数据进行数据治理，并储存至集成的数据湖中。

[0008] 于本发明的一实施例中，所述对多个异构数据库中各数据源进行抽象映射，以获得在该映射关系下获得的各元模型的元数据的方式包括：对多个异构数据库中的各数据源
中的物理模型按照映射关系进行抽象映射，分别生成具有逻辑关系的元模型；基于各元模
型，获得各数据源在该映射关系下的元模型的元数据。

[0009] 于本发明的一实施例中，所述异构数据库包含结构化数据和/或非结构化数据。

[0010] 于本发明的一实施例中，所述非结构化数据包括：患者病历数据、检查报告数据、图像数据、文字数据以及录音数据库的一种或多种。

[0011] 于本发明的一实施例中，所述将各异构数据库复制到复制数据库，并在该复制数据库上建立变更捕获，以获得记录各异构数据库中变化数据的变更表包括：将各异构数据
库中的数据同步复制到复制数据库；每经过一个时间阈值，将所述复制数据库中的新的变
化数据捕获到变更表中。

[0012] 于本发明的一实施例中，所述复制数据库支持的数据结构包括：DB2,Oracle,Sqlserver以及Mysql数据库中的一种或多种。

[0013] 于本发明的一实施例中，所述数据治理的方式包括：去除无效数据、统一数据定义、处理缺失数据以及提取非结构化数据的有效变量方式中的一种或多种。

[0014] 为实现上述目的及其他相关目的，本发明提供一种异构数据源的数据集成系统，所述系统包括：元数据管理模块，用于对多个异构数据库中各数据源进行抽象映射，以获得
在该映射关系下的各元模型的元数据，其中，所述每个元模型对应一个数据源；复制数据库
模块，用于将各异构数据库复制到复制数据库，并在该复制数据库上建立变更捕获，以获得
记录各异构数据库中变化数据的变更表；数据集成模块，连接所述元数据管理模块以及复
制数据库模块，用于将读取到的各异构数据库中的变化数据转换为与所述元数据统一的数
据格式；数据治理模块，连接所述数据集成模块，用于将经过统一数据格式转换的所述变化
数据与所述元数据进行数据治理，并储存至集成的数据湖中。

[0015] 于本发明的一实施例中，所述对多个异构数据库中各数据源进行抽象映射，以获得在该映射关系下获得的各元模型的元数据的方式包括：对多个异构数据库中的各数据源
中的物理模型按照映射关系进行抽象映射，分别生成具有逻辑关系的元模型；基于各元模
型，获得各数据源在该映射关系下的元模型的元数据。

[0016] 为实现上述目的及其他相关目的，本发明提供一种异构数据源的数据集成终端，包括：存储器，用于存储计算机程序；处理器，用于执行所述的异构数据源的数据集成方法。

[0017] 如上所述，本发明的一种异构数据源的数据集成方法、系统以及终端，具有以下有益效果：本发明将多个子系统的异构数据库转换成数据湖所支持的统一的数据格式，并对
异构数据之间数据内容标准不一致的问题进行了深度治理，实现了数据集成、共享，并且建
立了数据标准，方便后续数据应用，可扩展性好。

附图说明

[0018] 图1显示为本发明一实施例中的异构数据源的数据集成方法的流程示意图。

[0019] 图2显示为本发明一实施例中的异构数据源的数据集成方法的流程示意图。

[0020] 图3显示为本发明一实施例中的异构数据源的数据集成方法的流程示意图。

[0021] 图4显示为本发明一实施例中的异构数据源的数据集成方法的流程示意图。

[0022] 图5显示为本发明一实施例中的异构数据源的数据集成系统的结构示意图。

[0023] 图6显示为本发明一实施例中的异构数据源的数据集成终端的结构示意图。

具体实施方式

[0024] 以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实
施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离
本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施
例中的特征可以相互组合。

[0025] 需要说明的是，在下述描述中，参考附图，附图描述了本发明的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本发明的精神和范围的情况下进行机械组
成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本发明
的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定
实施例，而并非旨在限制本发明。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下
方”、““下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与
另一元件或特征的关系。

[0026] 在通篇说明书中，当说某部分与另一部分“连接”时，这不仅包括“直接连接”的情形，也包括在其中间把其它元件置于其间而“间接连接”的情形。另外，当说某种部分“包括”
某种构成要素时，只要没有特别相反的记载，则并非将其它构成要素，排除在外，而是意味
着可以还包括其它构成要素。

[0027] 其中提到的第一、第二及第三等术语是为了说明多样的部分、成份、区域、层及/或段而使用的，但并非限定于此。这些术语只用于把某部分、成份、区域、层或段区别于其它部
分、成份、区域、层或段。因此，以下叙述的第一部分、成份、区域、层或段在不超出本发明范
围的范围内，可以言及到第二部分、成份、区域、层或段。

[0028] 再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特
征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组
件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括
性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：
A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相
排斥时，才会出现该定义的例外。

[0029] 因此，本发明实施例中提供一种异构数据源的数据集成方法，用于解决现有技术中基于大量异构数据，尤其是对结构化数据以及非结构化数据集成时，数据集成不完整、效
率不高、难以扩展，并且数据缺乏治理，应用范围受到限制，将集成范围扩展到新应用的时
候需要重复开发，成本较高的问题。本发明将多个子系统的异构数据库转换成数据湖所支
持的统一的数据格式，并对异构数据之间数据内容标准不一致的问题进行了深度治理，实
现了数据集成、共享，并且建立了数据标准，方便后续数据应用，可扩展性好。

[0030] 下面以附图为参考，针对本发明的实施例进行详细说明，以便本发明所述技术领域的技术人员能够容易地实施。本发明可以以多种不同形态体现，并不限于此处说明的实
施例。

[0031] 如图1所示，展示本发明实施例中的异构数据源的数据集成方法的流程示意图。

[0032] 所述方法包括：

[0033] 步骤S11：对多个异构数据库中各数据源进行抽象映射，以获得在该映射关系下对应于各元模型的元数据。

[0034] 可选的，所述异构数据库包括：计算机体系结构异构数据库、操作系统异构数据库、数据格式异构数据库以及数据储存地点异构数据库等异构数据库，在本申请中不作限
定。

[0035] 可选的，对多个异构数据库中的各数据源中的物理模型按照映射关系进行抽象映射，分别生成具有逻辑关系的元模型；基于各元模型，获得各数据源在该映射关系下的元模
型的元数据。

[0036] 具体的，对多个异构数据库中的各数据源的物理模型分别按照映射关系进行抽象映射，获得多个具有逻辑关系的元模型；基于各数据源对应的元模型获得各数据源在该映
射关系下的元模型的元数据。

[0037] 其中，对于每个异构数据库，对所述异构数据库中数据源的物理模型按照映射关系进行抽象映射，获得具有逻辑关系的元模型(逻辑模型)；获得该数据源在该映射关系下
的元模型的元数据，如图2所示。

[0038] 优选的，所述映射关系用于将不同语义类型和/或业务逻辑管理的物理模型的数据源的数据进行转换为统一逻辑关系的数据。其中利用该逻辑关系或映射关系来获得同一
指定数据源语义类型标准和/或同一业务逻辑标准来管理的元数据。

[0039] 可选的，所述异构数据库包含结构化数据和/或非结构化数据。

[0040] 可选的，在医疗场景下，所述非结构化数据包括：患者病历数据、检查报告数据、图像数据、文字数据以及录音数据库的一种或多种。以上各种数据库根据设定的映射关系获
得同一指定数据源语义类型标准和/或同一业务逻辑标准来管理的元数据。

[0041] 可选的，通过元数据管理工具对多个异构数据库中各数据源进行抽象映射，以获得在该映射关系下的各元模型的元数据，其中，所述每个元模型对应一个数据源。

[0042] 可选的，所述元数据管理工具还可以对获得元模型以及元数据进行删除、增加、抽取、储存、查询以及管理等。

[0043] 步骤S12：将各异构数据库复制到复制数据库，并在该复制数据库上建立变更捕获，以获得记录各异构数据库中变化数据的变更表。

[0044] 可选的，将各异构数据库中的数据同步复制到复制数据库；每经过一个时间阈值，将所述复制数据库中的新的变化数据捕获到变更表中，如图3所示。

[0045] 具体的，将各异构数据库中的数据分别进行同步复制生成多个复制数据库；其中，每个复制数据库对应一个异构数据库；需要注意的是，当各异构数据库的数据发生变化时，
所述复制数据库同步发生变动。

[0046] 每经过设定的一个时间阈值，对当前数据库进行变更捕获，生成包含捕获的变化数据的变更表。其中所述时间阈值根据具体需求而定，时间阈值设定的越短，捕获变更效果
越好。

[0047] 可选的，所述复制数据库支持的数据结构包括：DB2,Oracle,Sqlserver以及Mysql数据库中的一种或多种。

[0048] 步骤S13：将读取到的各异构数据库中的变化数据转换为与所述元数据统一的数据格式。

[0049] 可选的，根据对每个复制数据库捕获的变更表读取到的各异构数据库中的变化数据与获得统一映射关系获得的元数据进行格式统一。以达到对各异构数据库中不断的变化
的数据进行更新并统一格式。

[0050] 可选的，所述统一的格式与元数据的格式相同。

[0051] 步骤S14：将经过统一数据格式转换的所述变化数据与所述元数据进行数据治理，并储存至集成的数据湖中。

[0052] 可选的，将经过统一数据格式转换的所述变化数据与所述元数据进行数据治理；将经过数据治理后的所述变化数据与所述元数据输出到集成的数据湖中储存。其中，经过
数据治理的的所述变化数据与所述元数据的格式为所述数据湖所支持的统一的数据格式，
如图4所示。

[0053] 可选的，所述数据治理的方式包括：去除无效数据、统一数据定义、处理缺失数据以及提取非结构化数据的有效变量方式中的一种或多种，目的生成标准化以及归一化的数
据，以储存至所述集成的数据湖中。

[0054] 与上述实施例原理相似的是，本发明提供一种异构数据源的数据集成系统。

[0055] 以下结合附图提供具体实施例：

[0056] 如图5所示展示本发明实施例中的一种异构数据源的数据集成系统的结构示意图。

[0057] 所述系统包括：

[0058] 元数据管理模块51，用于对多个异构数据库中各数据源进行抽象映射，以获得在该映射关系下的各元模型的元数据，其中，所述每个元模型对应一个数据源；

[0059] 复制数据库模块52，用于将各异构数据库复制到复制数据库，并在该复制数据库上建立变更捕获，以获得记录各异构数据库中变化数据的变更表；

[0060] 数据集成模块53，连接所述元数据管理模块51以及复制数据库模块52，用于将读取到的各异构数据库中的变化数据转换为与所述元数据统一的数据格式；

[0061] 数据治理模块54，连接所述数据集成模块53，用于将经过统一数据格式转换的所述变化数据与所述元数据进行数据治理，并储存至集成的数据湖中。

[0062] 可选的，所述异构数据库包括：计算机体系结构异构数据库、操作系统异构数据库、数据格式异构数据库以及数据储存地点异构数据库等异构数据库，在本申请中不作限
定。

[0063] 可选的，所述元数据管理模块51对多个异构数据库中的各数据源中的物理模型按照映射关系进行抽象映射，分别生成具有逻辑关系的元模型；基于各元模型，获得各数据源
在该映射关系下的元模型的元数据。

[0064] 具体的，所述元数据管理模块51对多个异构数据库中的各数据源的物理模型分别按照映射关系进行抽象映射，获得多个具有逻辑关系的元模型；基于各数据源对应的元模
型获得各数据源在该映射关系下的元模型的元数据。

[0065] 其中，对于每个异构数据库，所述元数据管理模块51对所述异构数据库中数据源的物理模型按照映射关系进行抽象映射，获得具有逻辑关系的元模型(逻辑模型)；获得该
数据源在该映射关系下的元模型的元数据。

[0066] 优选的，所述映射关系用于将不同语义类型和/或业务逻辑管理的物理模型的数据源的数据进行转换为统一逻辑关系的数据。其中利用该逻辑关系或映射关系来获得同一
指定数据源语义类型标准和/或同一业务逻辑标准来管理的元数据。

[0067] 可选的，所述异构数据库包含结构化数据和/或非结构化数据。

[0068] 可选的，所述非结构化数据包括：患者病历数据、检查报告数据、图像数据、文字数据以及录音数据库的一种或多种。以上各种数据库根据设定的映射关系获得同一指定数据
源语义类型标准和/或同一业务逻辑标准来管理的元数据。

[0069] 可选的，所述元数据管理模块51通过元数据管理工具对多个异构数据库中各数据源进行抽象映射，以获得在该映射关系下的各元模型的元数据，其中，所述每个元模型对应
一个数据源。

[0070] 可选的，所述元数据管理工具还可以对获得元模型以及元数据进行删除、增加、抽取、储存、查询以及管理等。

[0071] 可选的，所述元数据管理工具包括：ODBC、文件适配器、XML适配器等加载组件，以及储存装置。

[0072] 可选的，所述复制数据库模块52将各异构数据库中的数据同步复制到复制数据库；每经过一个时间阈值，将所述复制数据库中的新的变化数据捕获到变更表中。

[0073] 具体的，所述复制数据库模块52将各异构数据库中的数据分别进行同步复制生成多个复制数据库；其中，每个复制数据库对应一个异构数据库；需要注意的是，当各异构数
据库的数据发生变化时，所述复制数据库同步发生变动。

[0074] 每经过设定的一个时间阈值，所述复制数据库模块52对当前数据库进行变更捕获，生成包含捕获的变化数据的变更表。其中所述时间阈值根据具体需求而定，时间阈值设
定的越短，捕获变更效果越好。

[0075] 可选的，所述复制数据库支持的数据结构包括：DB2,Oracle,Sqlserver以及Mysql数据库中的一种或多种。

[0076] 可选的，所述数据集成模块53根据对每个复制数据库捕获的变更表读取到的各异构数据库中的变化数据与获得统一映射关系获得的元数据进行格式统一。以达到对各异构
数据库中不断的变化的数据进行更新并统一格式。

[0077] 可选的，所述统一的格式与元数据的格式相同。

[0078] 可选的，所述数据治理模块54将经过统一数据格式转换的所述变化数据与所述元数据进行数据治理；将经过数据治理后的所述变化数据与所述元数据输出到集成的数据湖
中储存。其中，经过数据治理的的所述变化数据与所述元数据的格式为所述数据湖所支持
的统一的数据格式。

[0079] 可选的，所述数据治理的方式包括：去除无效数据、统一数据定义、处理缺失数据以及提取非结构化数据的有效变量方式中的一种或多种，目的生成标准化以及归一化的数
据，以储存至所述集成的数据湖中。

[0080] 如图6所示，展示本发明实施例中的异构数据源的数据集成终端60的结构示意图。

[0081] 所述异构数据源的数据集成终端60包括：存储器61及处理器62所述存储器61用于存储计算机程序；所述处理器62运行计算机程序实现如图1所述的异构数据源的数据集成
方法。

[0082] 可选的，所述存储器61的数量均可以是一或多个，所述处理器62的数量均可以是一或多个，而图6中均以一个为例。

[0083] 可选的，所述异构数据源的数据集成终端60中的处理器62会按照如图1所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器61中，并由处理器62来运行
存储在第一存储器61中的应用程序，从而实现如图1所述异构数据源的数据集成方法中的
各种功能。

[0084] 可选的，所述存储器61，可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备；所述处理器
62，可能包括但不限于中央处理器(Central Processing Unit，简称CPU)、网络处理器
(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal
Processing，简称DSP)、专用集成电路 (Application Specific Integrated Circuit，简
称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编
程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

[0085] 可选的，所述处理器62可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器
(Digital Signal Processing，简称DSP)、专用集成电路(Application Specific
Integrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，
简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

[0086] 本发明还提供计算机可读存储介质，存储有计算机程序，所述计算机程序运行时实现如图1所示的异构数据源的数据集成方法。所述计算机可读存储介质可包括，但不限
于，软盘、光盘、CD‑ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储
器)、 EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光
卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读
存储介质可以是未接入计算机设备的产品，也可以是已接入计算机设备使用的部件。

[0087] 综上所述，本发明异构数据源的数据集成方法、系统、终端及介质，解决了现有技术中基于大量异构数据，尤其是对结构化数据以及非结构化数据集成时，数据集成不完整、
效率不高、难以扩展，并且数据缺乏治理，应用范围受到限制，将集成范围扩展到新应用的
时候需要重复开发，成本较高的问题。本发明将多个子系统的异构数据库转换成数据湖所
支持的统一的数据格式，并对异构数据之间数据内容标准不一致的问题进行了深度治理，
实现了数据集成、共享，并且建立了数据标准，方便后续数据应用，可扩展性好。所以，本发
明有效克服了现有技术中的种种缺点而具高度产业利用价值。

[0088] 上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因
此，但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完
成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

异构数据源的数据集成方法、系统以及终端转让专利

申请号 : CN202010566643.8

文献号 : CN111767332B

文献日 : 2021-07-30

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王福 , 陈良

申请人 : 上海森亿医疗科技有限公司

摘要 :

权利要求 :

说明书 :