一种基于数据血统的信息数据回流系统及方法转让专利

申请号 : CN201810230914.5

文献号 : CN109033116B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 危明铸袁峰

申请人 : 广州中国科学院软件应用技术研究所

摘要 :

本发明涉及企事业单位及政府部门数据处理和共享技术领域,具体涉及一种基于数据血统的信息数据回流系统及方法。系统包括数据采集单元采集数据来源方的信息数据;数据处理单元对采集的信息数据进行清洗、抽取和整合,建立共享平台数据库;数据应用单元按需实时对整合后的信息数据进行应用;数据回流单元对修改后的信息数据实时回流反馈。本发明提供的系统及方法,可以根据数据血统信息可快速追溯数据来源,有效提高数据回流的效率和节省工作量;可以自动记录数据的来源信息,减少人工干预的误差率,实现数据回流的高准确率,避免由于数据不对称造成的损失;对数据管理中的数据追溯管理方法的有效补充,可以保证数据追溯的规范性和一致性。

权利要求 :

1.一种基于数据血统的信息数据回流系统,其特征在于,所述系统包括数据采集单元,数据处理单元,数据应用单元和数据回流单元;

数据采集单元,采集数据来源方的信息数据;

数据处理单元,对采集的信息数据进行清洗、抽取和整合,建立共享平台数据库;

数据应用单元,按需实时对整合后的信息数据进行应用;

数据回流单元,对在应用系统中修改后的信息数据实时回流反馈至数据来源方和数据应用方;

所述数据回流单元包括通知模块和路由模块;

所述通知模块,用于提供标准的数据变更接口,获取应用系统变更的信息数据,将发生变更的字段提交给路由模块,获取受影响的数据来源方和数据应用方,并把变更后的信息数据实时回流至相对应的数据来源方和数据应用方;

所述路由模块,获取通知模块的变更信息数据,根据数据项的编码查询数据血统档案获得整个数据血统档案树,遍历树上的每个节点,获取数据处理的路径和所有受影响的数据来源方和数据应用方;

所述系统还包括数据记录单元,用于记录和写入信息数据,建立数据血统档案;

所述数据记录单元包括记录模块和写入模块;

所述记录模块,用于记录各数据表的来源信息,建立数据血统档案;

所述写入模块,用于记录每个字段的数据来源和数据使用方,写入数据血统档案;

所述用于记录各数据表的来源信息,建立数据血统档案是指在数据共享平台数据库里,当信息数据发生流动时,将触发信息数据记录事件,共享平台数据库调用所述记录模块,将数据的变化的信息记录到数据血统档案表里,所述记录模块识别变化信息数据项的身份,把同一信息数据项聚集成同一组信息数据血统记录,形成独立的数据血统档案。

2.根据权利要求1所述一种基于数据血统的信息数据回流系统,其特征在于,所述数据血统档案使用nosql数据库为存储载体。

3.根据权利要求1所述一种基于数据血统的信息数据回流系统,其特征在于,所述数据血统档案的内容包括数据基本信息和数据流向信息;

所述数据基本信息包括数据项ID、名称、类型和所属数据资源;

所述数据流向信息包括原数据项编码、目标数据项编码、数据流动时间和数据变化类型。

4.根据权利要求3所述一种基于数据血统的信息数据回流系统,其特征在于,所述数据流向信息采用树形结构进行路径划分。

5.一种基于数据血统的信息数据回流方法,特征在于,所述方法包括如下步骤:S1,采集数据来源方的信息数据;

S2,对采集的信息数据进行清洗、抽取和整合,建立共享平台数据库;

S3,按需实时对整合后的信息数据进行应用;

S4,对在应用系统中修改后的信息数据实时回流反馈至数据来源方和数据应用方;

所述方法还包括:

于步骤S2中,当信息数据发生流动时,将触发信息数据记录事件,共享平台数据库调用记录模块,将数据的变化信息记录到数据血统档案表里,所述记录模块识别变化信息数据项的身份,把同一信息数据项聚集成同一组信息数据血统记录,形成独立的数据血统档案;

记录每个字段的数据来源和数据使用方,写入数据血统档案;

于步骤S4中,提供标准的数据变更接口,用于获取应用系统变更的信息数据,将发生变更的字段提交给路由模块,获取受影响的数据来源方和数据应用方,并把变更后的信息数据实时回流至相对应的数据来源方和数据应用方;

获取通知模块的变更信息数据,根据数据项的编码查询数据血统档案获得整个数据血统档案树,遍历树上的每个节点,获取数据处理的路径和所有受影响的数据来源方和数据应用方。

说明书 :

一种基于数据血统的信息数据回流系统及方法

技术领域

[0001] 本发明涉及企事业单位及政府部门数据处理和共享技术领域,具体涉及一种基于数据血统的信息数据回流系统及方法。

背景技术

[0002] 为了解决“信息孤岛”问题,企业和政府部门正在逐步建设数据共享和交换平台(简称数据共享平台),通过共享平台可以将来自不同来源的数据资源汇集起来,经过清洗
整合后形成各类专题共享库,再通过前置机或接口等方式共享给各部门进行使用。专题共
享库由来自不同来源的数据资源整合而成,共享时又会提供给不同的数据使用者,这样在
数据提供、数据整合和数据使用过程中形成了数据血统。数据血统记载了对数据处理的整
个历史,包括数据的起源和处理这些数据的所有后继过程(数据产生、并随着时间推移而演
变的整个过程)。通过数据血统追踪,可以获得数据在数据流中的演化过程。
[0003] 各部门在使用数据共享平台提供的数据时,往往需要对部分数据进行纠错和完善,这些修改过的数据需要通过一定的方式回流到数据来源处和其他数据使用者,以避免
其他数据使用者使用过期和错误的数据。而在数据共享平台的数据中,每个数据项都可能
具有不同的数据血统,这使得数据回流过程相当困难和复杂。
[0004] 以在基于数据共享平台的食品药品市场监管应用为例,相关的数据资源包括来自工商局的开业登记信息(数据项包括企业注册号、企业名称、法定代表人、住所、联系电话
等),来自地税局的税务登记信息(数据项包括企业注册号、纳税人识别号、联系电话),来自
食药监局的许可证信息(数据项包括许可信息编码、许可证号、企业名称、证书状态、工商注
册号、许可证名称、许可内容、经营地址)等。以注册号作为关联字段,融合以上三张表的信
息,构建企业信息表,可作为食品药品市场监管应用专题共享库的组成部分。食品药品市场
监管应用将使用此企业信息支撑现场监管业务,当巡查员发现企业信息有差异(如联系电
话、注册地址有更新)时,将通过应用系统修改这些信息。
[0005] 然而,这些修改过的信息一般由人工判别,并离线提交给数据的源头部门(如联系电话修改了要通知工商局和地税局;经营地址修改了要通知工商局和食药监局)。同时,还
要检查还有哪些下游系统使用到了此类数据,如行政许可系统,企业信用公示系统等也可
能使用到了这些过期的数据,他们也需要收到更新的信息。
[0006] 传统的数据回流方式多以人工判别为主,而且传统的数据回流方式效率低、问题多,由于没有记录每个数据项的来源和使用系统,当数据发生更改时,只能通知并提交数据
到所有的数据来源处,通过数据提供者再将数据通过数据共享平台传递给其他数据使用
者。这种方式数据更新不及时,效率低且不准确。
[0007] 1、数据来源复杂时(如不同数据项对应不同的数据源、同一数据项有多个数据源等),更改过的数据很难准确回流到数据提供者。
[0008] 2、由于数据更新要从数据源头处开始,作为数据使用的下游应用,不能及时得到其他使用者的数据更新信息。
[0009] 3、整个数据平台缺乏对数据血统(数据产生、流向等)的管理,对数据流经部门、更新情况等缺乏总体的视图,无法保证数据的一致性。

发明内容

[0010] 为克服上述传统的数据回流数据修改方很难及时、准确知道该更新数据的有哪些源头部门和使用部门,以及难做到数据字段级的更新通知,而且被通知部门往往需要自行
判断是那些数据项发生了更改,造成系统间信息的不一致,导致应用系统使用数据的不及
时和不准确的不足。
[0011] 本发明提供一种基于数据血统的信息数据回流系统及方法,目的在于有效提高数据回流的效率,减少人工干预的误差率,实现数据回流的高准确率,保证数据追溯的规范性
和一致性。
[0012] 本发明提出一种基于数据血统的信息数据回流系统,具体地所述系统包括数据采集单元,数据处理单元,数据应用单元和数据回流单元;
[0013] 数据采集单元,采集数据来源方的信息数据;
[0014] 数据处理单元,对采集的信息数据进行清洗、抽取和整合,建立共享平台数据库;
[0015] 数据应用单元,按需实时对整合后的信息数据进行应用;
[0016] 数据回流单元,对在应用系统中修改后的信息数据实时回流反馈至数据来源方和数据应用方。
[0017] 进一步地,所述系统还包括数据记录单元,用于记录和写入信息数据,建立数据血统档案;
[0018] 所述数据记录单元包括记录模块和写入模块;
[0019] 所述记录模块,用于记录各数据表的来源信息,建立数据血统档案;
[0020] 所述写入模块,用于记录每个字段的数据来源和数据使用方,写入数据血统档案;
[0021] 进一步地,所述用于记录各数据表的来源信息,建立数据血统档案是指在数据共享平台数据库里,当信息数据发生流动时,将触发信息数据记录事件,共享平台数据库调用
所述记录模块,将数据的变化的信息记录到数据血统档案表里,所述记录模块识别变化信
息数据项的身份,把同一信息数据项聚集成同一组信息数据血统记录,形成独立的数据血
统档案。
[0022] 进一步地,所述数据血统档案使用nosql数据库为存储载体。
[0023] 进一步地,所述数据血统档案的内容包括数据基本信息和数据流向信息;
[0024] 所述数据基本信息包括数据项ID、名称、类型和所属数据资源;
[0025] 所述数据流向信息包括原数据项编码、目标数据项编码、数据流动时间和数据变化类型。
[0026] 进一步地,所述数据流向信息采用树形结构进行路径划分。
[0027] 进一步地,所述数据回流单元包括通知模块和路由模块;
[0028] 所述通知模块,用于提供标准的数据变更接口,用于获取应用系统变更的信息数据,将发生变更的字段提交给路由模块,获取受影响的数据来源方和数据应用方,并把变更
后的信息数据实时回流至相对应的数据来源方和数据应用方;
[0029] 所述路由模块,获取通知模块的变更信息数据,根据数据项的编码查询数据血统档案获得整个数据血统档案树,遍历树上的每个节点,获取数据处理的路径和所有受影响
的数据来源方和数据应用方。
[0030] 为达到上述目的,本发明还提供一种基于数据血统的信息数据回流方法,所述方法具体包括如下步骤:
[0031] S1,采集数据来源方的信息数据;
[0032] S2,对采集的信息数据进行清洗、抽取和整合,建立共享平台数据库;
[0033] S3,按需实时对整合后的信息数据进行应用;
[0034] S4,对在应用系统中修改后的信息数据实时回流反馈至数据来源方和数据应用方。
[0035] 进一步地,所述方法还包括:
[0036] 于步骤S2中,当信息数据发生流动时,将触发信息数据记录事件,共享平台数据库调用记录模块,将数据的变化信息记录到数据血统档案表里,所述记录模块识别变化信息
数据项的身份,把同一信息数据项聚集成同一组信息数据血统记录,形成独立的数据血统
档案;
[0037] 记录每个字段的数据来源和数据使用方,写入数据血统档案;
[0038] 于步骤S4中,提供标准的数据变更接口,用于获取应用系统变更的信息数据,将发生变更的字段提交给路由模块,获取受影响的数据来源方和数据应用方,并把变更后的信
息数据实时回流至相对应的数据来源方和数据应用方;
[0039] 获取通知模块的变更信息数据,根据数据项的编码查询数据血统档案获得整个数据血统档案树,遍历树上的每个节点,获取数据处理的路径和所有受影响的数据来源方和
数据应用方。
[0040] 与现有技术相比,本发明具有以下有益效果:
[0041] 本发明基于一种基于数据血统的信息数据回流系统及方法,通过数据采集单元,数据处理单元,数据应用单元、数据回流单元的通知模块与路由模块和记录单元的记录模
块与写入模块共同作用,可以根据数据血统信息可快速追溯数据来源,有效提高数据回流
的效率,大大节省大量的人工查找和核对的工作量;本发明系统还可以自动记录数据的来
源信息,可减少人工干预的误差率,实现数据回流的高准确率,避免由于数据不对称造成的
损失;而且本发明系统是对数据管理中的数据追溯管理方法的有效补充,可以保证数据追
溯的规范性和一致性。

附图说明

[0042] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图;
[0043] 图1为本发明系统框架示意图;
[0044] 图2为本发明一种基于数据血统的信息数据回流系统流程实现示意图;
[0045] 图3为本发明方法步骤示意图。

具体实施方式

[0046] 为使本发明的目的、技术方案和优点更加清楚,下面通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发
明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中
的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
[0047] 如图1所示,一种基于数据血统的信息数据回流系统,具体包括数据采集单元,数据处理单元,数据应用单元和数据回流单元;
[0048] 数据采集单元,采集数据来源方的信息数据;
[0049] 数据处理单元,对采集的信息数据进行清洗、抽取和整合,建立共享平台数据库;
[0050] 数据应用单元,按需实时对整合后的信息数据进行应用;
[0051] 数据回流单元,对在应用系统中修改后的信息数据实时回流反馈至数据来源方和数据应用方。
[0052] 优选地,所述系统还包括数据记录单元,用于记录和写入信息数据,建立数据血统档案;
[0053] 所述数据记录单元包括记录模块和写入模块;
[0054] 所述记录模块,用于记录各数据表的来源信息,建立数据血统档案;
[0055] 所述写入模块,用于记录每个字段的数据来源和数据使用方,写入数据血统档案;
[0056] 具体地,所述用于记录各数据表的来源信息,建立数据血统档案是指在数据共享平台数据库里,当信息数据发生流动时,将触发信息数据记录事件,共享平台数据库调用所
述记录模块,将数据的变化信息记录到数据血统档案表里,所述记录模块识别变化信息数
据项的身份,把同一信息数据项聚集成同一组信息数据血统记录,形成独立的数据血统档
案。
[0057] 所述数据血统档案使用nosql数据库为存储载体。
[0058] 所述数据血统档案的内容包括数据基本信息和数据流向信息;所述数据基本信息包括数据项ID、名称、类型和所属数据资源;所述数据流向信息包括原数据项编码、目标数
据项编码、数据流动时间和数据变化类型。所述数据流向信息采用树形结构进行路径划分,
即所述数据流向信息是一张树形结构路径表。
[0059] 也就是说,在数据共享平台数据库里,当数据产生流动时(如数据采集、数据处理、数据应用等)将触发信息数据记录事件,数据共享平台数据库会调用记录模块的处理方法,
将数据的变化信息记录到数据血统档案表里。记录模块通过识别变化信息数据项的身份,
把同一信息数据项会聚集成同一组信息数据血统记录,形成独立的数据血统档案。在本发
明系统中,数据血统档案使用nosql数据库为存储载体,以数据资源的数据项(数据表的字
段)为单位,数据血统档案内容由数据基本信息和数据流向信息组成,基本信息包括数据项
ID、名称、类型、所属数据资源等等;数据流向信息包括原数据项编码、目标数据项编码、数
据流动时间、数据变化类型等,具体地,数据流向信息实质是一张树形结构的路径表。
[0060] 在本发明系统中,所述数据回流单元包括通知模块和路由模块;
[0061] 所述通知模块,用于提供标准的数据变更接口,用于获取应用系统变更的信息数据,将发生变更的字段提交给路由模块,获取受影响的数据来源方和数据应用方,并把变更
后的信息数据实时回流至相对应的数据来源方和数据应用方;也就是说,所述通知模块提
供标准的数据变更接口,接收应用系统更改数据的信息数据,将发生变更的字段提交给路
由模块,获取受影响的数据来源方和数据应用方,将回流反馈信息数据传递给受影响的各
方。
[0062] 所述路由模块,获取通知模块的变更信息数据,根据数据项的编码查询数据血统档案获得整个数据血统档案树,并遍历树上的每个节点,获取数据处理的路径和所有受影
响的数据来源方和数据应用方。也就是说,在信息数据处理和使用的整个过程中,当信息数
据项内容发生更改时将触发信息数据回流事件,信息数据共享平台数据库会调用路由模块
的查询方法,根据信息数据项的编码可以得到整个数据血统档案树,并会遍历树上的每个
节点,获取数据处理的路径和所有受影响的数据来源方和数据应用方。
[0063] 具体地,如图2所示,本发明的技术实现方法的一种,通过数据采集单元采集各部门提交相应的信息数据,数据处理单元对采集的信息数据进行清洗、抽取和整合,根据采集
到的各数据来源方的信息数据建立信息数据共享平台数据库,于此同时数据记录单元的记
录模块,记录各数据表的来源信息,建立数据血统档案;即当信息数据发生流动时,将触发
信息数据记录事件,共享平台数据库调用所述记录模块的处理方法,将数据的变化信息记
录到数据血统档案表里,所述记录模块会识别变化信息数据项的身份,把同一信息数据项
聚集成同一组信息数据血统记录,形成独立的数据血统档案。
[0064] 数据共享平台数据库对信息数据进行清洗、抽取和整合,并推送给数据应用单元的应用系统,于此同时,数据处理单元的记录模块同步记录每个字段的数据来源和数据使
用方,写入数据血统档案。
[0065] 数据应用单元的应用系统通过数据共享平台数据库获取和使用信息数据,如果在使用过程中对数据进行了更改,同时调用标准接口将更改信息返回数据回流单元的通知模
块。通知模块获取数据应用单元的应用系统变更数据的信息,并提交数据回流单元的路由
模块获取数据受影响的数据来源方和数据应用方。数据回流单元的路由模块通过数据血统
档案获取数据路径返回通知模块,通知模块通过标准接口将数据变更信息提交给受影响的
各方,实现数据回流。
[0066] 如图3所示,本发明还提供了一种基于数据血统的信息数据回流方法,具体包括如下步骤:
[0067] S1,采集数据来源方的信息数据;
[0068] S2,对采集的信息数据进行清洗、抽取和整合,建立共享平台数据库;
[0069] S3,按需实时对整合后的信息数据进行应用;
[0070] S4,对在应用系统中修改后的信息数据实时回流反馈至数据来源方和数据应用方。
[0071] 相应地,所述方法还包括:
[0072] 于步骤S2中,当信息数据发生流动时,将触发信息数据记录事件,共享平台数据库调用记录模块,将数据的变化信息记录到数据血统档案表里,所述记录模块识别变化信息
数据项的身份,把同一信息数据项聚集成同一组信息数据血统记录,形成独立的数据血统
档案;
[0073] 记录每个字段的数据来源和数据使用方,写入数据血统档案;
[0074] 于步骤S4中,提供标准的数据变更接口,用于获取应用系统变更的信息数据,将发生变更的字段提交给路由模块,获取受影响的数据来源方和数据应用方,并把变更后的信
息数据实时回流至相对应的数据来源方和数据应用方;
[0075] 获取通知模块的变更信息数据,通根据数据项的编码查询数据血统档案获得整个数据血统档案树,遍历树上的每个节点,获取数据处理的路径和所有受影响的数据来源方
和数据应用方。
[0076] 本发明一种基于数据血统的信息数据回流系统及方法,可以根据数据血统信息可快速追溯数据来源,有效提高数据回流的效率,大大节省大量的人工查找和核对的工作量。
本发明系统可以自动记录数据的来源信息,可减少人工干预的误差率,实现数据回流的高
准确率,避免由于数据不对称造成的损失;本发明系统是对数据管理中的数据追溯管理方
法的有效补充,可以保证数据追溯的规范性和一致性。
[0077] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于
所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变
动。这里无需也无法对所以的实施方式予以穷举。凡在本发明的精神和原则之内,所作的任
何修改、等同替换和改进等,均应包含在本发明的保护范围之内。