异构数据源的数据集成方法、系统以及终端转让专利
申请号 : CN202010566643.8
文献号 : CN111767332B
文献日 : 2021-07-30
发明人 : 王福 , 陈良
申请人 : 上海森亿医疗科技有限公司
摘要 :
权利要求 :
1.一种异构数据源的数据集成方法,其特征在于,包括:对多个异构数据库中各数据源进行抽象映射,以获得在该映射关系下的各元模型的元数据,其中,每个元模型对应一个数据源;
将各异构数据库复制到复制数据库,并在该复制数据库上建立变更捕获,以获得记录各异构数据库中变化数据的变更表;
将读取到的各异构数据库中的变化数据转换为与所述元数据统一的数据格式;
将经过统一数据格式转换的所述变化数据与所述元数据进行数据治理,并储存至集成的数据湖中;
其中,所述对多个异构数据库中各数据源进行抽象映射,以获得在该映射关系下获得的各元模型的元数据的方式包括:对多个异构数据库中的各数据源中的由不同语义类型和/或业务逻辑管理的物理模型按照映射关系进行抽象映射,分别生成具有统一逻辑关系的元模型;基于各元模型,获得各数据源在该映射关系下的元模型的由同一语义类型和/或业务逻辑管理的元数据;
所述将各异构数据库复制到复制数据库,并在该复制数据库上建立变更捕获,以获得记录各异构数据库中变化数据的变更表包括:将各异构数据库中的数据同步复制到复制数据库;每经过一个时间阈值,将所述复制数据库中的新的变化数据捕获到变更表中。
2.根据权利要求1所述的异构数据源的数据集成方法,其特征在于,所述异构数据库包含结构化数据和/或非结构化数据。
3.根据权利要求2所述的异构数据源的数据集成方法,其特征在于,所述非结构化数据包括:患者病历数据、检查报告数据、图像数据、文字数据以及录音数据库的一种或多种。
4.根据权利要求1所述的异构数据源的数据集成方法,其特征在于,所述复制数据库支持的数据结构包括:DB2,Oracle,Sqlserver以及Mysql数据库中的一种或多种。
5.根据权利要求1所述的异构数据源的数据集成方法,其特征在于,所述数据治理的方式包括:去除无效数据、统一数据定义、处理缺失数据以及提取非结构化数据的有效变量方式中的一种或多种。
6.一种异构数据源的数据集成系统,其特征在于,所述系统包括:元数据管理模块,用于对多个异构数据库中各数据源进行抽象映射,以获得在该映射关系下的各元模型的元数据,其中,每个元模型对应一个数据源;
复制数据库模块,用于将各异构数据库复制到复制数据库,并在该复制数据库上建立变更捕获,以获得记录各异构数据库中变化数据的变更表;
数据集成模块,连接所述元数据管理模块以及复制数据库模块,用于将读取到的各异构数据库中的变化数据转换为与所述元数据统一的数据格式;
数据治理模块,连接所述数据集成模块,用于将经过统一数据格式转换的所述变化数据与所述元数据进行数据治理,并储存至集成的数据湖中;
其中,所述对多个异构数据库中各数据源进行抽象映射,以获得在该映射关系下获得的各元模型的元数据的方式包括:对多个异构数据库中的各数据源中的由不同语义类型和/或业务逻辑管理的物理模型按照映射关系进行抽象映射,分别生成具有统一逻辑关系的元模型;基于各元模型,获得各数据源在该映射关系下的元模型的由同一语义类型和/或业务逻辑管理的元数据;
所述将各异构数据库复制到复制数据库,并在该复制数据库上建立变更捕获,以获得记录各异构数据库中变化数据的变更表包括:将各异构数据库中的数据同步复制到复制数据库;每经过一个时间阈值,将所述复制数据库中的新的变化数据捕获到变更表中。
7.一种异构数据源的数据集成终端,其特征在于,包括:存储器,用于存储计算机程序;
处理器,用于执行如权利要求1至5中任一项所述的异构数据源的数据集成方法。
说明书 :
异构数据源的数据集成方法、系统以及终端
技术领域
背景技术
本,现有的大型应用程序通常通过“数据库管理软件”(DBMS)访问数据库,获取所需数据或
进行数据维护。IBM DB2,Oracle,Mysql,SqlServer等数据库管理软件在大型数据处理应用
程序中占主导地位。
的数据仓库,将各个子应用系统的数据进行集中存储,保证数据一致性,实现数据互联互
通、各数据源之间高效地交换与共享,减少数据收集的重复劳动和相应费用。然而,由于不
同的应用系统使用的数据库软件各不相同,各系统的数据存储结构、数据维护方式也千差
万别,异构数据的交换问题由此产生。异构数据不仅指不同类型的数据库软件,还包括不同
结构数据之间的异构,如结构化数据和非结构化数据。
量数据交换。另外,数据缺乏治理,应用范围受到一定的限制,将集成范围扩展到新应用的
时候需要重复开发,成本较高。
发明内容
非结构化数据集成时,数据集成不完整、效率不高、难以扩展,并且数据缺乏治理,应用范围
受到限制,将集成范围扩展到新应用的时候需要重复开发,成本较高的问题。
元数据,其中,所述每个元模型对应一个数据源;将各异构数据库复制到复制数据库,并在
该复制数据库上建立变更捕获,以获得记录各异构数据库中变化数据的变更表;将读取到
的各异构数据库中的变化数据转换为与所述元数据统一的数据格式;将经过统一数据格式
转换的所述变化数据与所述元数据进行数据治理,并储存至集成的数据湖中。
中的物理模型按照映射关系进行抽象映射,分别生成具有逻辑关系的元模型;基于各元模
型,获得各数据源在该映射关系下的元模型的元数据。
库中的数据同步复制到复制数据库;每经过一个时间阈值,将所述复制数据库中的新的变
化数据捕获到变更表中。
在该映射关系下的各元模型的元数据,其中,所述每个元模型对应一个数据源;复制数据库
模块,用于将各异构数据库复制到复制数据库,并在该复制数据库上建立变更捕获,以获得
记录各异构数据库中变化数据的变更表;数据集成模块,连接所述元数据管理模块以及复
制数据库模块,用于将读取到的各异构数据库中的变化数据转换为与所述元数据统一的数
据格式;数据治理模块,连接所述数据集成模块,用于将经过统一数据格式转换的所述变化
数据与所述元数据进行数据治理,并储存至集成的数据湖中。
中的物理模型按照映射关系进行抽象映射,分别生成具有逻辑关系的元模型;基于各元模
型,获得各数据源在该映射关系下的元模型的元数据。
异构数据之间数据内容标准不一致的问题进行了深度治理,实现了数据集成、共享,并且建
立了数据标准,方便后续数据应用,可扩展性好。
附图说明
具体实施方式
施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离
本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施
例中的特征可以相互组合。
成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本发明
的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定
实施例,而并非旨在限制本发明。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下
方”、““下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与
另一元件或特征的关系。
某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素,排除在外,而是意味
着可以还包括其它构成要素。
分、成份、区域、层或段。因此,以下叙述的第一部分、成份、区域、层或段在不超出本发明范
围的范围内,可以言及到第二部分、成份、区域、层或段。
征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组
件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括
性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:
A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相
排斥时,才会出现该定义的例外。
率不高、难以扩展,并且数据缺乏治理,应用范围受到限制,将集成范围扩展到新应用的时
候需要重复开发,成本较高的问题。本发明将多个子系统的异构数据库转换成数据湖所支
持的统一的数据格式,并对异构数据之间数据内容标准不一致的问题进行了深度治理,实
现了数据集成、共享,并且建立了数据标准,方便后续数据应用,可扩展性好。
施例。
定。
型的元数据。
射关系下的元模型的元数据。
的元模型的元数据,如图2所示。
指定数据源语义类型标准和/或同一业务逻辑标准来管理的元数据。
得同一指定数据源语义类型标准和/或同一业务逻辑标准来管理的元数据。
所述复制数据库同步发生变动。
越好。
的数据进行更新并统一格式。
数据治理的的所述变化数据与所述元数据的格式为所述数据湖所支持的统一的数据格式,
如图4所示。
据,以储存至所述集成的数据湖中。
定。
在该映射关系下的元模型的元数据。
型获得各数据源在该映射关系下的元模型的元数据。
数据源在该映射关系下的元模型的元数据。
指定数据源语义类型标准和/或同一业务逻辑标准来管理的元数据。
源语义类型标准和/或同一业务逻辑标准来管理的元数据。
一个数据源。
据库的数据发生变化时,所述复制数据库同步发生变动。
定的越短,捕获变更效果越好。
数据库中不断的变化的数据进行更新并统一格式。
中储存。其中,经过数据治理的的所述变化数据与所述元数据的格式为所述数据湖所支持
的统一的数据格式。
据,以储存至所述集成的数据湖中。
方法。
存储在第一存储器61中的应用程序,从而实现如图1所述异构数据源的数据集成方法中的
各种功能。
62,可能包括但不限于中央处理器(Central Processing Unit,简称CPU)、网络处理器
(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal
Processing,简称DSP)、专用集成电路 (Application Specific Integrated Circuit,简
称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编
程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
(Digital Signal Processing,简称DSP)、专用集成电路(Application Specific
Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,
简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
于,软盘、光盘、CD‑ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储
器)、 EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光
卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读
存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
效率不高、难以扩展,并且数据缺乏治理,应用范围受到限制,将集成范围扩展到新应用的
时候需要重复开发,成本较高的问题。本发明将多个子系统的异构数据库转换成数据湖所
支持的统一的数据格式,并对异构数据之间数据内容标准不一致的问题进行了深度治理,
实现了数据集成、共享,并且建立了数据标准,方便后续数据应用,可扩展性好。所以,本发
明有效克服了现有技术中的种种缺点而具高度产业利用价值。
此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完
成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。