一种数据质量管理方法及系统转让专利

申请号 : CN201811228360.1

文献号 : CN109522318B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 范怡蒋先虎彭轶高迪

申请人 : 中国银行股份有限公司

摘要 :

本发明公开了一种数据质量管理方法及系统,该方法包括:对数据观测指标进行配置,获得指标配置表,其中,数据观测指标表征数据报送中的关注点;对指标配置表中的指标配置信息,对数据观测指标进行计算获得指标值,并根据指标值在预设时间范围内的变化数据,生成指标数据质量报告;确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告;根据指标值,确定预警阈值,对数据观测指标进行预警处理,获得预警信息;根据指标数量质量报告、主题化的数据质量报告和预警信息,生成数据质量监控分析报告。通过本发明实现了提高数据报送质量和对数据质量的监控的准确性。

权利要求 :

1.一种数据质量管理方法,其特征在于,该方法包括:对数据观测指标进行配置,获得指标配置表,其中,所述数据观测指标表征数据报送中的关注点,所述指标配置表包括:支持分系统运算、支持分省运算、支持不同频度运算、支持指标依赖、支持指标明细存储、支持部分指标执行和支持多维度计算;

对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告;

确定监管报送数据的主题,其中,所述主题包括上游系统数据、人工补录数据、数据报送、反馈错误和逾期数据;

对所述上游系统数据进行数据来源分析,并进行数据校验分析,获得上游系统数据分析结果;

对所述人工补录数据进行数据量统计,并进行补录原因分析,获得人工补录数据分析结果;

对所述数据报送进行分析,获得数据报送结果,其中,所述数据报送结果包括正常报送数据量和逾期报送数据量;

根据预设字段维度对所述反馈错误进行分析,获得反馈错误分析结果;

对所述逾期数据进行统计分析,获得逾期数据分析结果;

根据所述上游系统数据分析结果、人工补录数据分析结果、数据报送结果、反馈错误分析结果和逾期数据分析结果,生成主题化的数据质量报告;

根据所述指标值,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息;

根据所述指标数量质量报告、所述主题化的数据质量报告和所述预警信息,生成数据质量监控分析报告。

2.根据权利要求1所述的方法,其特征在于,所述对数据观测指标进行配置,获得指标配置表,包括:

获取数据报送中的关注点,将所述关注点定义为数据观测指标;

根据各个关注点之间的关联关系,确定各个数据观测指标之间的指标依赖关系;

对所述指标依赖关系进行校验,获得满足校验条件的指标依赖关系;

根据所述数据观测指标和校验后的指标依赖关系,对所述数据观测指标进行配置,获得指标配置表。

3.根据权利要求2所述的方法,其特征在于,所述对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,包括:对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;

判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;

根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;

根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可视化展示。

4.根据权利要求1所述的方法,其特征在于,所述根据所述指标值,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息,包括:根据所述指标值,计算获得数据观测指标的均值和方差;

根据所述均值和方差,确定所述数据观测指标的置信区间;

基于所述置信区间,确定预警阈值;

依据所述预警阈值,对所述数据观测指标进行预警处理,获得预警信息。

5.一种数据质量管理系统,其特征在于,该系统包括:配置单元,用于对数据观测指标进行配置,获得指标配置表,其中,所述数据观测指标表征数据报送中的关注点,所述指标配置表包括:支持分系统运算、支持分省运算、支持不同频度运算、支持指标依赖、支持指标明细存储、支持部分指标执行和支持多维度计算;

指标计算单元,用于对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告;

主题分析单元,用于确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告;

预警单元,用于根据所述指标值,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息;

报告生成单元,用于根据所述指标数量质量报告、所述主题化的数据质量报告和所述预警信息,生成数据质量监控分析报告;

所述主题分析单元包括:

主题确定子单元,用于确定监管报送数据的主题,其中,所述主题包括上游系统数据、人工补录数据、数据报送、反馈错误和逾期数据;

第一分析子单元,用于对所述上游系统数据进行数据来源分析,并进行数据校验分析,获得上游系统数据分析结果;

第二分析子单元,用于对所述人工补录数据进行数据量统计,并进行补录原因分析,获得人工补录数据分析结果;

第三分析子单元,用于对所述数据报送进行分析,获得数据报送结果,其中,所述数据报送结果包括正常报送数据量和逾期报送数据量;

第四分析子单元,用于根据预设字段维度对所述反馈错误进行分析,获得反馈错误分析结果;

第五分析子单元,用于对所述逾期数据进行统计分析,获得逾期数据分析结果;

第二报告生成子单元,用于根据所述上游系统数据分析结果、人工补录数据分析结果、数据报送结果、反馈错误分析结果和逾期数据分析结果,生成主题化的数据质量报告。

6.根据权利要求5所述的系统,其特征在于,所述配置单元包括:获取子单元,由于获取数据报送中的关注点,将所述关注点定义为数据观测指标;

关系确定子单元,用于根据各个关注点之间的关联关系,确定各个数据观测指标之间的指标依赖关系;

校验子单元,用于对所述指标依赖关系进行校验,获得满足校验条件的指标依赖关系;

配置子单元,用于根据所述数据观测指标和校验后的指标依赖关系,对所述数据观测指标进行配置,获得指标配置表。

7.根据权利要求6所述的系统,其特征在于,所述指标计算单元包括:解析子单元,用于对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;

判断子单元,用于判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;

第一计算子单元,用于根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;

第一报告生成子单元,用于根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可视化展示。

8.根据权利要求5所述的系统,其特征在于,所述预警单元包括:第二计算子单元,用于根据所述指标值,计算获得数据观测指标的均值和方差;

区间确定子单元,用于根据所述均值和方差,确定所述数据观测指标的置信区间;

阈值确定子单元,用于基于所述置信区间,确定预警阈值;

预警处理子单元,用你有依据所述预警阈值,对所述数据观测指标进行预警处理,获得预警信息。

说明书 :

一种数据质量管理方法及系统

技术领域

[0001] 本发明涉及数据处理技术领域,特别是涉及一种数据质量管理方法及系统。

背景技术

[0002] 在金融机构的某些申报系统中,由于这些申报系统通常会面向外管局、人民银行等监管机构,报送监管系统。随着监管机构对于数据质量要求的不断提升,原有的上游采集
加报送的模式,已经逐渐无法应对监管机构的监管压力。一些银行的总行和分行的业务部
门也反馈系统内数据越来越多,监管压力日益增大。
[0003] 在现有对数据进行监控的过程会使用数据质量监控分析工具,基于该工具产生的结果数据是以报表的形式实现的,即以表格的形式展示数据情况,并且在数据预警方面,预
警阈值大多依赖于业务部门人工参数维护。由于数据以表格形式展现,使得数据可读性较
差,并且基于人工设置的预警阈值,会降低数据预警的准确性和时更性较差的问题,从而降
低数据报送质量。

发明内容

[0004] 针对于上述问题,本发明提供一种数据质量管理方法及系统,实现了提高数据报送质量和对数据质量的监控的准确性。
[0005] 为了实现上述目的,本发明提供了如下技术方案:
[0006] 一种数据质量管理方法,该方法包括:
[0007] 对数据观测指标进行配置,获得指标配置表,其中,所述数据观测指标表征数据报送中的关注点;
[0008] 对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告;
[0009] 确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告;
[0010] 根据所述指标值,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息;
[0011] 根据所述指标数量质量报告、所述主题化的数据质量报告和所述预警信息,生成数据质量监控分析报告。
[0012] 可选地,所述对数据观测指标进行配置,获得指标配置表,包括:
[0013] 获取数据报送中的关注点,将所述关注点定义为数据观测指标;
[0014] 根据各个关注点之间的关联关系,确定各个数据观测指标之间的指标依赖关系;
[0015] 对所述指标依赖关系进行校验,获得满足校验条件的指标依赖关系;
[0016] 根据所述数据观测指标和校验后的指标依赖关系,对所述数据观测指标进行配置,获得指标配置表。
[0017] 可选地,所述对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,
包括:
[0018] 对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;
[0019] 判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;
[0020] 根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;
[0021] 根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可视化展示。
[0022] 可选地,所述确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告,包括:
[0023] 确定监管报送数据的主题,其中,所述主题包括上游系统数据、人工补录数据、数据报送、反馈错误和逾期数据;
[0024] 对所述上游系统数据进行数据来源分析,并进行数据校验分析,获得上游系统数据分析结果;
[0025] 对所述人工补录数据进行数据量统计,并进行补录原因分析,获得人工补录数据分析结果;
[0026] 对所述数据报送进行分析,获得数据报送结果,其中,所述数据报送结果包括正常报送数据量和逾期报送数据量;
[0027] 根据预设字段维度对所述反馈错误进行分析,获得反馈错误分析结果;
[0028] 对所述逾期数据进行统计分析,获得逾期数据分析结果;
[0029] 根据所述上游系统数据分析结果、人工补录数据分析结果、数据报送结果、反馈错误分析结果和逾期数据分析结果,生成主题化的数据质量报告。
[0030] 可选地,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息,包括:
[0031] 根据所述指标值,计算获得数据观测指标的均值和方差;
[0032] 根据所述均值和方差,确定所述数据观测指标的置信区间;
[0033] 基于所述置信区间,确定预警阈值;
[0034] 依据所述预警阈值,对所述数据观测指标进行预警处理,获得预警信息。
[0035] 一种数据质量管理系统,该系统包括:
[0036] 配置单元,用于对数据观测指标进行配置,获得指标配置表,其中,所述数据观测指标表征数据报送中的关注点;
[0037] 指标计算单元,用于对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据质
量报告;
[0038] 主题分析单元,用于确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告;
[0039] 预警单元,用于根据所述指标值,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息;
[0040] 报告生成单元,用于根据所述指标数量质量报告、所述主题化的数据质量报告和所述预警信息,生成数据质量监控分析报告。
[0041] 可选地,所述配置单元包括:
[0042] 获取子单元,由于获取数据报送中的关注点,将所述关注点定义为数据观测指标;
[0043] 关系确定子单元,用于根据各个关注点之间的关联关系,确定各个数据观测指标之间的指标依赖关系;
[0044] 校验子单元,用于对所述指标依赖关系进行校验,获得满足校验条件的指标依赖关系;
[0045] 配置子单元,用于根据所述数据观测指标和校验后的指标依赖关系,对所述数据观测指标进行配置,获得指标配置表。
[0046] 可选地,所述指标计算单元包括:
[0047] 解析子单元,用于对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;
[0048] 判断子单元,用于判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;
[0049] 第一计算子单元,用于根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;
[0050] 第一报告生成子单元,用于根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可
视化展示。
[0051] 可选地,所述主题分析单元包括:
[0052] 主题确定子单元,用于确定监管报送数据的主题,其中,所述主题包括上游系统数据、人工补录数据、数据报送、反馈错误和逾期数据;
[0053] 第一分析子单元,用于对所述上游系统数据进行数据来源分析,并进行数据校验分析,获得上游系统数据分析结果;
[0054] 第二分析子单元,用于对所述人工补录数据进行数据量统计,并进行补录原因分析,获得人工补录数据分析结果;
[0055] 第三分析子单元,用于对所述数据报送进行分析,获得数据报送结果,其中,所述数据报送结果包括正常报送数据量和逾期报送数据量;
[0056] 第四分析子单元,用于根据预设字段维度对所述反馈错误进行分析,获得反馈错误分析结果;
[0057] 第五分析子单元,用于对所述逾期数据进行统计分析,获得逾期数据分析结果;
[0058] 第二报告生成子单元,用于根据所述上游系统数据分析结果、人工补录数据分析结果、数据报送结果、反馈错误分析结果和逾期数据分析结果,生成主题化的数据质量报
告。
[0059] 可选地,所述预警单元包括:
[0060] 第二计算子单元,用于根据所述指标值,计算获得数据观测指标的均值和方差;
[0061] 区间确定子单元,用于根据所述均值和方差,确定所述数据观测指标的置信区间;
[0062] 阈值确定子单元,用于基于所述置信区间,确定预警阈值;
[0063] 预警处理子单元,用你有依据所述预警阈值,对所述数据观测指标进行预警处理,获得预警信息
[0064] 相较于现有技术,本发明提供了一种数据质量管理方法及装置,在该方法中将数据报送中的关注点确定为数据观测指标,并对数据观测指标配置得到指标配置表,然后基
于指标配置表对各个数据观测指标进行数据跟踪分析、计算获得是标志,实现了可以快速
响应和调整指标的目的,使得生成的指标数据质量报告更加精准,并能够进行可视化展示,
同时基于主题进行分析可进行主题数据的分析和展示,使得数据的监控更加完整,根据指
标值进行预警阈值的确定,能够使得阈值更加精准并且具有实时性,最终生成的数据质量
监控分析报告能够更加清晰、完整和准确的展示数据质量信息,实现了提高数据报送质量
和对数据质量的监控的准确性。

附图说明

[0065] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
提供的附图获得其他的附图。
[0066] 图1为本发明实施例提供的一种数据质量管理方法的流程示意图;
[0067] 图2为本发明实施例提供的一种获取指标配置表的方法的流程示意图;
[0068] 图3为本发明实施例提供的一种指标运算方法的流程示意图;
[0069] 图4为本发明实施例提供的一种数据质量管理系统的结构示意图。

具体实施方式

[0070] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
[0071] 本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,
意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设
备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
[0072] 在本发明实施例中提供了一种数据质量管理方法,参见图1,该方法包括:
[0073] S101、对数据观测指标进行配置,获得指标配置表;
[0074] 其中,数据观测指标表征数据报送中的关注点。在本发明实施例中以“指标”形式,标准化业务人员每日关注的数据质量点,将每个数据质量的关注点,化为一个数据观测指
标。以数据观测指标为最小单位,计算各数据报送中的关注点,并且需要对数据观测指标之
间的依赖关系进行验证,同时要根据数据观测指标的相关信息进行配置,获得指标配置表。
[0075] S102、对指标配置表中的指标配置信息,对数据观测指标进行计算获得指标值,并根据指标值在预设时间范围内的变化数据,生成指标数据质量报告。
[0076] 具体的该过程包括:
[0077] 对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;
[0078] 判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;
[0079] 根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;
[0080] 根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可视化展示。
[0081] S103、确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告;
[0082] 监管报送类系统的通用模式一般为:上游采集、系统加工、业务干预、报送监管、监管反馈。基于以上流程,在本发明实施例中以主题的形式,进行进一步的分析与展示,目前
已有的主题包括以下几项:上游系统数据、人工补录数据、数据报送、反馈错误和逾期数据。
分析主题所依赖的数据大部分来自于指标计算结果,但因指标配置的灵活性、通用性,少量
系统特性的数据计算,将在分析主题辅助数据计算中完成。
[0083] S104、根据指标值,确定预警阈值,对数据观测指标进行预警处理,获得预警信息;
[0084] 监管类系统的阈值设置一般凭借业务部门经验进行,阈值有效性、更新及时性存在不足,因此在指标预警部分,设计阈值区间定期计算功能,提供业务人员参考,如业务人
员接受系统计算阈值结果,则可采纳并生效。
[0085] 具体的,该过程可以包括:
[0086] 根据所述指标值,计算获得数据观测指标的均值和方差;
[0087] 根据所述均值和方差,确定所述数据观测指标的置信区间;
[0088] 基于所述置信区间,确定预警阈值;
[0089] 依据所述预警阈值,对所述数据观测指标进行预警处理,获得预警信息。
[0090] S105、根据指标数量质量报告、主题化的数据质量报告和预警信息,生成数据质量监控分析报告。
[0091] 可视化的数据质量分析报告、主题化的数据质量分析、每日动态预警,并基于以上三项形成数据质量监控分析报告,提供全面、直观的每日数据情况视图。
[0092] 本发明提供了一种数据质量管理方法,在该方法中将数据报送中的关注点确定为数据观测指标,并对数据观测指标配置得到指标配置表,然后基于指标配置表对各个数据
观测指标进行数据跟踪分析、计算获得是标志,实现了可以快速响应和调整指标的目的,使
得生成的指标数据质量报告更加精准,并能够进行可视化展示,同时基于主题进行分析可
进行主题数据的分析和展示,使得数据的监控更加完整,根据指标值进行预警阈值的确定,
能够使得阈值更加精准并且具有实时性,最终生成的数据质量监控分析报告能够更加清
晰、完整和准确的展示数据质量信息,实现了提高数据报送质量和对数据质量的监控的准
确性。
[0093] 在上述实施例的基础上,参见图2,在本分明的另一实施例中还提供了一种获取指标配置表的方法,包括:
[0094] S201、获取数据报送中的关注点,将所述关注点定义为数据观测指标;
[0095] S202、根据各个关注点之间的关联关系,确定各个数据观测指标之间的指标依赖关系;
[0096] S203、对所述指标依赖关系进行校验,获得满足校验条件的指标依赖关系;
[0097] S204、根据所述数据观测指标和校验后的指标依赖关系,对所述数据观测指标进行配置,获得指标配置表。
[0098] 具体的,以数据观测指标为最小单位,计算各数据报送中的关注点,因关注点间可能存在关联关系,例如,计算比例、占比等情况,指标支持相互依赖,例如,A指标可依赖于B
指标的计算结果,则执行计算前,进行指标依赖关系合法性校验,避免发生指标依赖嵌套或
指标依赖于不存在的指标等情况。根据上述需求,设计指标配置表中主要包括如下信息:
[0099] 支持分系统运算:通过SYSTEM字段配置,不同系统不同配置,分别运算;
[0100] 支持分省运算:通过BYBRANCH字段配置,考虑不同系统分省依据不同,分省依据在另一系统配置表内配置;
[0101] 支持不同频度运算:通过TARGET_TYPE配置指标运算频率,可按日、按月、按年进行配置;
[0102] 支持指标依赖:通过REL_TARGET进行配置;
[0103] 支持指标明细存储:在业务人员日常查看时,时常需要查看某数值下具体对应明细,如告诉业务人员,今天有10笔反馈错误,如果能够同时提供10笔反馈的具体明细,而不
是让业务人员通过其他功能再次查询、查看,能够提升业务人员的数据处理及操作便利性,
增加其对功能的使用好感。因此可通过NEED_DETAIL配置是否需要明细,同时为了降低明细
存储代价、同时保证配置的灵活性,NEED_DETAIL配置为Y时,需配置DATA_KEY字段,记录明
细的主键(明细信息仅存储主键);
[0104] 支持部分指标执行:通过VALID配置,可对指标进行部分执行(诸如遇到某些指标项需重新计算的情况时,无需全量计算);
[0105] 支持多维度计算:配置有TARGET_UNIT字段,可适应监控在金额、笔数等多维度监控。
[0106] 在本发明实施例中还提供了一种指标计算方法,包括:
[0107] 对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;
[0108] 判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;
[0109] 根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;
[0110] 根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可视化展示。
[0111] 需要说明的是,指标运算依据指标配置表内的配置,从叶子指标(即不依赖于其他指标的指标)开始,循环计算,直至所有生效指标计算完毕为止。下面以指标运算模式为分
省运算,参见图3,为本发明实施例提供的一种指标运算方法的流程示意图,该过程包括:
[0112] S301、更新待执行指标状态为初始状态;
[0113] S302、在状态为初始状态的指标中,查找可运算的指标;
[0114] S303、判断是否有可运算的指标,如果是,则执行S304;
[0115] S304、判断是否需要分省执行,如果是,则执行S305,否则执行S306;
[0116] S305、读取分省依据表,依据分省机构循环分省执行;
[0117] S306、执行全辖汇总计算;
[0118] S307、是否需要记录明细,如果是,则执行S308,否则执行S309;
[0119] S308、读取明细配置表,记录明细;
[0120] S309、执行完毕,更新指标状态为目标状态。
[0121] 明细存储的部分,如上一点中所述,业务人员希望看到的往往是基础数据的明细,如反馈了5条错误,业务希望看到的是错误了什么,如迟报了10条,业务会希望看到是哪十
条迟报了,因此明细的存储涉及的表覆盖面广,同时表内的数据均是系统已有的,如在明细
存储时,将对应数据重新复制、提取存储,将导致数据重复存储、扩展性、灵活性不足的问
题,因此设计如下:
[0122] 建立指标明细表:以“指标—日期—明细主键”的形式记录明细,即仅记录主键,同时在指标明细配置表中,记录指标对应的具体业务表名称,在用户查询、查看明细时,通过
关联明细表与指标明细配置表,读取具体业务数据表中的数据并进行展示。该设计可灵活
支持不同业务数据表的明细展示,同时后期新增指标、新增明细时,仅通过配置即可实现,
无需重新建表、重新开发查询导出功能。
[0123] 在本发明实施例中还提供了一种主题数据分析的方法,包括:
[0124] 确定监管报送数据的主题,其中,所述主题包括上游系统数据、人工补录数据、数据报送、反馈错误和逾期数据;
[0125] 对所述上游系统数据进行数据来源分析,并进行数据校验分析,获得上游系统数据分析结果;
[0126] 对所述人工补录数据进行数据量统计,并进行补录原因分析,获得人工补录数据分析结果;
[0127] 对所述数据报送进行分析,获得数据报送结果,其中,所述数据报送结果包括正常报送数据量和逾期报送数据量;
[0128] 根据预设字段维度对所述反馈错误进行分析,获得反馈错误分析结果;
[0129] 对所述逾期数据进行统计分析,获得逾期数据分析结果;
[0130] 根据所述上游系统数据分析结果、人工补录数据分析结果、数据报送结果、反馈错误分析结果和逾期数据分析结果,生成主题化的数据质量报告。
[0131] 举例说明,项目组依据日常生产运维经验,以及与业务部门的沟通了解,配置了以下指标,主要涉及上游数据情况、人工补录情况、数据报送情况、反馈错误情况、逾期数据五
个主题:
[0132] 上游系统数据分析:
[0133] 监管报送类系统一般涉及数个乃至十数个、数十个上游系统,上游系统的数据质量对于报送数据有着举足轻重的影响,可以说,提升上游系统数据质量,是提升监管报送质
量、降低人工干预的基础,因此设计了以下几项源系统数据分析:
[0134] 各系统数据量统计分析‑‑统计分析每日数据来源分布情况;
[0135] 各系统数据质量统计分析—统计分析每日各系统所涉数据的校验情况,即上游系统给了多少正确数据、多少错误数据,错误原因有哪些,涉及了哪些字段;
[0136] 通过以上分析结果,可协助项目组与业务部门,及时发现上游系统存在的问题,及时与上游系统沟通分析,改进源系统质量,从根本上降低错误数据、人工干预量。
[0137] 人工补录数据分析:
[0138] 目前仍存在部分业务不通过上游采集,由业务人员直接录入系统的情况,该情况各分行有各分行不同的原因及困难,因此设计了人工补录数据分析,每日统计各分行人工
补录的数据量,并提供对应分行操作柜员信息,以在观察一段时间后,项目组能够主动发起
联系总行及所涉分行,讨论人工补录数据原因并分析能否通过自动采集的方式采集数据。
[0139] 数据报送分析:包括正常报送数据量和逾期报送数据量。
[0140] 反馈错误分析:
[0141] 监管机构对于报送数据将进行错误反馈,因此设计了反馈错误分析,每日统计当日错误反馈情况,目前包含以下几部分:
[0142] 字段维度的反馈错误分析–以字段为维度,统计反馈错误情况,发现错误集中的字段,进行及时干预。
[0143] 分行维度的反馈错误分析—以机构为维度,展示反馈错误情况,发现错误集中的分行,及时联系并与其分析解决方案。
[0144] 逾期数据分析:
[0145] 逾期数据一直是业务部门监管报送时的痛点,逾期将造成监管机构的扣分或处罚,因此如何发现逾期、及时处理逾期,是系统需要协助业务部门所进行的,因此设计了逾
期数据分析的功能,从机构维度统计分析每日逾期情况,协助总分行抓住重点、区分轻重缓
急,以较小的精力达成提升数据质量的目的。
[0146] 并且定期结合前日数据情况,动态生成预警阈值,以最近的数据经验为基础,生成最为准确的预警阈值,根据上述指标为维度,进行监控预警,及时发现异常数据点。
[0147] 例如,监管类信通的阈值设置一般凭借业务部分经验进行,阈值有效性、更新及时性存在不足,因此在指标预警部分,设计阈值区间定期计算功能,提供业务人员参考,如业
务人员接受系统计算阈值结果,则可采纳并生效。阈值计算使用正态分布公式,通过定期计
算预设时间范围(例如过去一年)内指标的均值和方差,得到该指标的置信区间。在计算过
程中,考虑到银行系统和监管报送的特性(如节假日不报送数据,节假日后第一个工作日报
送前N个休息日的数据),对不同指标可进行计算日、工作日、节假日、节假日后首个工作日
等类型的设置,按不同类型,计算同置信区间。计算得到的置信区间,将提供运维、业务部门
参考,如采纳,将作为指标的上下阈值,进行预警判定。
[0148] 在本发明实施例中生成了数据质量监控分析报告,将在系统的前端提供该报告的展示,该报告的展示项依据指标、主题、主题分析的配置,动态生成。同时可以利用可视化工
具(例如echarts3工具)进行展示。例如可以将展示页面分为左右两个展示页面,左侧展示
指标数据质量报告,可以通过读取期中的指标配置表及指标计算结果表,展示下辖数据情
况,点击数值字段,可在页面下方查看指标近一个月的变化情况,并支持当日明细查询导
出。可以通过右侧的主题化的数据质量报告中读取主题分析配置表,展示对应主题配置的
分析功能,并且可以设置对应的链接,通过点击链接,将在页面下方查看具体分析结果,可
以使得后续随业务需求、监管要求继续不断添加、细化。即在报告的展示过程中实现了可视
化的数据展示,例如趋势图等展示。
[0149] 本发明通过将数据质量分析报告框架化,将数据质量监控点指标化,达到监控系统数据质量的目的,同时做到了能够快速响应、及时调整监控点,适应外部监管、内部管理
的变化需求。在指标预警方面,依据历史指标数据,进行每月指标阈值计算,借鉴历史数据,
协助业务人员及时调整阈值参数,适应数据的不断变化。采用了可视化工具,将枯燥的数据
质量分析报告化为各种直观的趋势、变化图形,同时框架化的数据质量分析报告,又能够支
持后续更多的可视化分析及时按照业务需求开发并配置入报告内,不断提升数据质量分析
报告的价值。
[0150] 对应的,在本发明的另一实施例中还提供了一种数据质量管理系统,参见图4,该系统包括:
[0151] 配置单元401,用于对数据观测指标进行配置,获得指标配置表,其中,所述数据观测指标表征数据报送中的关注点;
[0152] 指标计算单元402,用于对所述指标配置表中的指标配置信息,对所述数据观测指标进行计算获得指标值,并根据所述指标值在预设时间范围内的变化数据,生成指标数据
质量报告;
[0153] 主题分析单元403,用于确定监管报送数据的主题,对每个主题进行数据分析,获得主题化的数据质量报告;
[0154] 预警单元404,用于根据所述指标值,确定预警阈值,对所述数据观测指标进行预警处理,获得预警信息;
[0155] 报告生成单元405,用于根据所述指标数量质量报告、所述主题化的数据质量报告和所述预警信息,生成数据质量监控分析报告。
[0156] 本发明提供了一种数据质量管理装置,将数据报送中的关注点确定为数据观测指标,并在配置单元中对数据观测指标配置得到指标配置表,然后基于指标配置表在指标计
算单元中对各个数据观测指标进行数据跟踪分析、计算获得是标志,实现了可以快速响应
和调整指标的目的,使得生成的指标数据质量报告更加精准,并能够进行可视化展示,同时
在主题分析单元中基于主题进行分析可进行主题数据的分析和展示,使得数据的监控更加
完整,根据指标值进行预警阈值的确定,能够使得阈值更加精准并且具有实时性,最终在报
告生成单元中生成的数据质量监控分析报告能够更加清晰、完整和准确的展示数据质量信
息,实现了提高数据报送质量和对数据质量的监控的准确性。
[0157] 在上述实施例的基础上,所述配置单元包括:
[0158] 获取子单元,由于获取数据报送中的关注点,将所述关注点定义为数据观测指标;
[0159] 关系确定子单元,用于根据各个关注点之间的关联关系,确定各个数据观测指标之间的指标依赖关系;
[0160] 校验子单元,用于对所述指标依赖关系进行校验,获得满足校验条件的指标依赖关系;
[0161] 配置子单元,用于根据所述数据观测指标和校验后的指标依赖关系,对所述数据观测指标进行配置,获得指标配置表。
[0162] 可选地,所述指标计算单元包括:
[0163] 解析子单元,用于对所述指标配置表中的指标配置信息进行解析,获得指标运算模式;
[0164] 判断子单元,用于判断所述指标配置表中是否存在待运算指标,如果是,则确定与所述待运算指标相匹配的指标运算模式;
[0165] 第一计算子单元,用于根据与所述待运算指标相匹配的指标运算模式,对所述待运算指标进行汇总计算,获得指标值;
[0166] 第一报告生成子单元,用于根据所述指标值在预设时间范围内的变化数据,生成指标数据质量报告,其中,所述指标数据质量报告用于对数据观测指标的相关数据进行可
视化展示。
[0167] 可选地,所述主题分析单元包括:
[0168] 主题确定子单元,用于确定监管报送数据的主题,其中,所述主题包括上游系统数据、人工补录数据、数据报送、反馈错误和逾期数据;
[0169] 第一分析子单元,用于对所述上游系统数据进行数据来源分析,并进行数据校验分析,获得上游系统数据分析结果;
[0170] 第二分析子单元,用于对所述人工补录数据进行数据量统计,并进行补录原因分析,获得人工补录数据分析结果;
[0171] 第三分析子单元,用于对所述数据报送进行分析,获得数据报送结果,其中,所述数据报送结果包括正常报送数据量和逾期报送数据量;
[0172] 第四分析子单元,用于根据预设字段维度对所述反馈错误进行分析,获得反馈错误分析结果;
[0173] 第五分析子单元,用于对所述逾期数据进行统计分析,获得逾期数据分析结果;
[0174] 第二报告生成子单元,用于根据所述上游系统数据分析结果、人工补录数据分析结果、数据报送结果、反馈错误分析结果和逾期数据分析结果,生成主题化的数据质量报
告。
[0175] 可选地,所述预警单元包括:
[0176] 第二计算子单元,用于根据所述指标值,计算获得数据观测指标的均值和方差;
[0177] 区间确定子单元,用于根据所述均值和方差,确定所述数据观测指标的置信区间;
[0178] 阈值确定子单元,用于基于所述置信区间,确定预警阈值;
[0179] 预警处理子单元,用你有依据所述预警阈值,对所述数据观测指标进行预警处理,获得预警信息
[0180] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置
而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说
明即可。
[0181] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的
一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明
将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一
致的最宽的范围。