一种基于多维分析技术的数据质量健康度分析方法及系统转让专利

申请号 : CN202011362385.8

文献号 : CN112380190B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 金震王兆君康进港李明曹朝辉

申请人 : 北京三维天地科技股份有限公司

摘要 :

本发明公开了一种基于多维分析技术的数据质量健康度分析方法及系统,包括:获取第一数量个目标业务数据样本,利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型,接收目标用户选择的目标评估类型,根据目标评估类型利用数据分析模型对第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告,将质量健康度分析报告以图形化的格式进行展示。既可以避免人工排查而浪费人力情况的发生又可以准确地对业务数据样本的数据质量做出全面、高效的分析,及时地剔除掉无用数据从避免无用数据占用数据情况的发生,使得用户可以无需面对无用数据的干扰,提高了用户的使用体验感。

权利要求 :

1.一种基于多维分析技术的数据质量健康度分析方法,其特征在于,包括以下步骤:获取第一数量个目标业务数据样本;

利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型;

接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告;

将所述质量健康度分析报告以图形化的格式进行展示;

其中,所述目标评估类型为:相似度评估、完整性评估、唯一性评估和关联性评估中的一种或者多种;

对所述第一数量个目标业务数据样本进行真实性检测,其步骤包括:将每个目标业务数据样本进行分段,获得多个数据段;

对每个目标业务数据样本的每个数据段进行功能数据处理获得每个数据段的哈希值;

根据每个目标业务数据样本的多个哈希值获取每个目标业务数据样本的来源加权值;

根据每个目标业务数据样本的多个哈希值和来源加权值利用预设真实度算法计算出每个目标业务数据样本的目标真实度;

将目标真实度小于预设真实度的第一目标业务数据样本进行删除,保留目标真实度大于等于所述预设真实度的第二目标业务数据样本;

统计所述第二目标业务数据样本的数量,共获得第三数量个第二目标业务数据样本。

2.根据权利要求1所述基于多维分析技术的数据质量健康度分析方法,其特征在于,在获取第一数量个目标业务数据样本之前,所述方法还包括:通过预设条件确定数据样本的第一数量;

基于所述第一数量确定状态函数;

根据所述状态函数确定筛选条件,在第二数量个初始业务数据样本中筛选出满足所述筛选条件的第一数量个初始业务数据样本,其中,所述第二数量大于所述第一数量;

将所述第一数量个初始业务数据样本确认为所述第一数量个目标业务数据样本。

3.根据权利要求1所述基于多维分析技术的数据质量健康度分析方法,其特征在于,所述利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型,包括:构建初始网络模型;

在所述初始网络模型中设置四个网络节点;

将所述预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则分别与所述四个网络节点进行对应;

对应完毕后,检测每个网络节点的稳定性;

当每个网络节点的稳定性都合格时,确认所述始网络模型收敛,获得所述数据分析模型。

4.根据权利要求1所述基于多维分析技术的数据质量健康度分析方法,其特征在于,在接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告之前,所述方法还包括:对所述数据分析模型进行检验,步骤包括:获取第四数量个预设业务数据样本;

预先确定每个预设业务数据样本的第一完整性、每个预设业务数据样本与其他预设业务数据样本的第一相似度、每个预设业务数据样本的第一唯一性和每个预设业务数据样本与其他预设业务数据样本的第一关联性,获取第一确定结果;

将所述第四数量个预设业务样本输入到所述数据分析模型中,接收所述数据分析模型输出的每个预设业务数据样本的第二完整性、每个预设业务数据样本与其他预设业务数据样本的第二相似度、每个预设业务数据样本的第二唯一性和每个预设业务数据样本与其他预设业务数据样本的第二关联性,获取第二确定结果;

确认所述第一确定结果是否与第二确定结果相同,若是,确认所述数据分析模型准确无误,否则,确认所述数据分析模型输出数据有偏差,向目标用户发出修复所述数据分析模型的提醒。

5.根据权利要求1所述基于多维分析技术的数据质量健康度分析方法,其特征在于,所述接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告,包括:向所述目标目标用户推荐四种预设评估类型;

接收所述用户在四种预设评估类型中选择的目标评估类型;

当所述目标评估类型为相似度评估时,提取所述第一数量个目标业务数据样本中每个目标业务数据样本的分类编码和元数据,利用基于词法分析和语法分析的相似度算法对每个目标业务数据样本的分类编码和元数据与其他目标业务数据样本的分类编码和元数据进行相似度评估,生成第一评估结果;

当所述目标评估类型为完整性评估时,对每个目标业务数据样本的分类编码和元数据进行完整性流程检测,所述完整性流程检测包括:数据是否为空、数据长度检测、数据枚举值检测和数据一致性检测,生成第二评估结果;

当所述目标评估类型为唯一性评估时,检测每个目标业务数据样本的分类编码和元数据是是否为唯一一个,若是,确认第一数量个目标业务数据样本通过唯一性检测,否则,提取出重复出现的目标分类编码和目标元数据以及二者所属的缺陷目标业务数据样本,生成第三评估结果;

当所述目标评估类型为关联性评估时,对每个目标业务数据样本的分类编码和元数据与其他目标业务数据样本的分类编码和元数据进行关联度评估,获取第四评估结果;

利用所述第一评估结果、第二评估结果、第三评估结果和第四评估结果进行综合分析,获得所述质量健康度分析报告。

6.根据权利要求5所述基于多维分析技术的数据质量健康度分析方法,其特征在于,将所述质量健康度分析报告以图形化的格式进行展示,包括:将所述第一评估结果、第二评估结果、第三评估结果和第四评估结果分别以第一雷达图的格式进行绘制并且展示;

将利用所述第一评估结果、第二评估结果、第三评估结果和第四评估结果进行综合分析后的质量健康度分析报告以第二雷达图的格式绘制并且展示。

7.根据权利要求3所述基于多维分析技术的数据质量健康度分析方法,其特征在于,所述对应完毕后,检测每个网络节点的稳定性,包括:获取预设时长内每个节点心跳检测超时的次数;

将心跳检测超时的次数按照从多到少的顺序将所述四个网络节点进行排序,获取排序结果;

确定所述排序结果中每个网络节点的网络连接状态;

当每个网络节点的网络连接状态为通畅时,判断所述四个网络节点的工作状态正常,当有任意一个网络节点的网络连接状态为断开时,确定断开网络的第一目标网络节点,判断所述第一目标网络节点的工作状态异常,生成异常报告进行显示,判定所述第一目标网络节点的稳定性差;

当判断每个网络节点的工作状态都为正常时,将每个网络节点作为发起节点;

将每个发起节点的第一资源占用状态发送至其相邻网络节点;

强行关闭每个发起节点的第一资源占用状态,确认其相邻网络节点所接收的第一资源占用状态是否发生改变;

若发生改变,检测所述相邻网络节点的第二资源占用状态是否与第一资源占用状态相同,若是,确认所述相邻网络节点异常,判定所述相邻网络节点稳定性差,否则,确认所述网络节点正常;

当确认所述网络节点正常时,同时启动所述四个网络节点,确认每个网络节点之间是否有干扰情况发生,若是,将相互出现干扰情况的第二目标网络节点进行标记,判定所述第二目标网络节点的稳定性差,否则,确认所述网络节点工作模式正常;

检测所述每个网络节点输出的目标数据和预设数据的异同,若每个网络节点输出的目标数据都与预设数据相同,确认所述网络节点的输出数据精度正常,判定所述每个网络节点的稳定性为优秀,若有任一网络节点的输出的目标数据与预设数据不相同时,提取出输出的目标数据与预设数据不相同的第三目标网络节点,判定所述第三目标网络节点的稳定性差。

8.根据权利要求1所述基于多维分析技术的数据质量健康度分析方法,其特征在于,在获取第一数量个目标业务数据样本之后,利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型之前,所述方法还包括:对所述第一数量个目标业务数据样本进行合格性检测,具体步骤包括:获取每个目标业务数据样本的保密系数;

根据每个目标业务数据样本的保密系数计算出每个目标业务数据样本的目标安全性指数:

其中, 表示为第i个目标业务数据样本的目标安全性指数, 表示为第i个目标业务数据样本的自由度,()表示为伽玛函数,表示为圆周率, 表示为自然对数, 表示为第i个目标业务数据样本的保密系数;

扫描每个目标业务数据样本的样本数据内容,根据每个目标业务数据样本的样本数据内容确定每个目标业务数据样本的完整度和真实度;

利用每个目标业务数据样本的目标安全性指数、完整度以及真实度计算出每个业务数据样本的目标合格系数:

其中, 表示为第i个目标业务数据样本的目标安全性指数在计算的第i个目标业务数据样本的合格系数中的权重值, 表示为第i个目标业务数据样本的完整度, 表示为第i个目标业务数据样本的完整度在计算的第i个目标业务数据样本的合格系数中的权重值, 表示为第i个目标业务数据样本的真实度, 表示为第i个目标业务数据样本的真实度在计算的第i个目标业务数据样本的合格系数中的权重值,N表示为第一数量, 表示为利用预设打分规则为第i个目标业务数据样本所打的评分值,取值为[0.5,1],表示为计算过程中的误差因子,取值为[0.05,0.1], 表示为第i个目标业务数据样本的目标合格系数;

确认每个目标业务数据样本的目标合格系数是否大于等于预设合格系数,将目标合格系数小于所述预设合格系数的第三目标业务数据样本进行数量统计;

确认目标数量个第三目标业务数据样本无法通过合格检测,生成检测报告;

将所述检测报告进行显示。

9.一种基于多维分析技术的数据质量健康度分析系统,其特征在于,该系统包括:获取模块,用于获取第一数量个目标业务数据样本;

构建模块,用于利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型;

生成模块,用于接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告;

展示模块,用于将所述质量健康度分析报告以图形化的格式进行展示;

其中,所述目标评估类型为:相似度评估、完整性评估、唯一性评估和关联性评估中的一种或者多种;

对所述第一数量个目标业务数据样本进行真实性检测,其步骤包括:将每个目标业务数据样本进行分段,获得多个数据段;

对每个目标业务数据样本的每个数据段进行功能数据处理获得每个数据段的哈希值;

根据每个目标业务数据样本的多个哈希值获取每个目标业务数据样本的来源加权值;

根据每个目标业务数据样本的多个哈希值和来源加权值利用预设真实度算法计算出每个目标业务数据样本的目标真实度;

将目标真实度小于预设真实度的第一目标业务数据样本进行删除,保留目标真实度大于等于所述预设真实度的第二目标业务数据样本;

统计所述第二目标业务数据样本的数量,共获得第三数量个第二目标业务数据样本。

说明书 :

一种基于多维分析技术的数据质量健康度分析方法及系统

技术领域

[0001] 本发明涉及数据处理技术领域,尤其涉及一种基于多维分析技术的数据质量健康度分析方法及系统。

背景技术

[0002] 在企业数据标准化常态经营过程中,期望通过数据标准化管理反馈价值至业务,数据质量的重要性无论如何强调都是不过分的。在企业标准化数据常态经营过程中,低质
量数据的产生是不可避免的,大批量的数据初始化、未处理历史数据带来的问题扩散、紧急
业务产生的低质量数据,都将影响数据标准编码库的质量。控制低质量数据的产生几率和
及时发现低质量数据并进行有效的处理,是企业能够组织开展的举措,因此对企业数据质
量管理的正确理解,并非是不产生低质量数据,这从实际而言是理论级目标,在企业数据质
量管理实际操作中,是通过科学、有效、专业的管理和技术支持,减低并控制低质量数据的
产生率和存在率,及时发现低质量数据并进行有效的处理,控制标准编码库的高健康度,但
由于数据编码库的数据量庞大、数据信息复杂性、专业要求高等因素,人工进行质量保障存
在难度,需通过专业的质量管理工具对标准数据编码库进行检测,发现需要处理缺失数据、
需去除的重复数据、需去除的噪声数据、需处理的异常(但真实)的数据,通过专业化的数据
质量管理平台提供数据健康度分析,为数据清洗和治理提供依据,再使用数据清洗平台进
行数据清洗治理,从而保证数据的完整性、唯一性、一致性、精确性、合法性、及时性等数据
质量。现有技术中的数据质量管理方法无法对数据质量做出全面、高效的分析,进而导致无
用数据的清理不完全从而占用数据内存和影响用户调用数据,严重地影响了用户的使用体
验感。

发明内容

[0003] 针对上述所显示出来的问题,本发明提出了一种基于多维分析技术的数据质量健康度分析方法及系统用以解决背景技术中提到的现有技术中的数据质量管理方法无法对
数据质量做出全面、高效的分析,进而导致无用数据的清理不完全从而占用数据内存和影
响用户调用数据,严重地影响了用户的使用体验感的问题。
[0004] 一种基于多维分析技术的数据质量健康度分析方法,包括以下步骤:
[0005] 获取第一数量个目标业务数据样本;
[0006] 利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型;
[0007] 接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告;
[0008] 将所述质量健康度分析报告以图形化的格式进行展示;
[0009] 其中,所述目标评估类型为:相似度评估、完整性评估、唯一性评估和关联性评估中的一种或者多种。
[0010] 优选的,在获取第一数量个目标业务数据样本之前,所述方法还包括:
[0011] 通过预设条件确定数据样本的第一数量;
[0012] 基于所述第一数量确定状态函数;
[0013] 根据所述状态函数确定筛选条件,在第二数量个初始业务数据样本中筛选出满足所述筛选条件的第一数量个初始业务数据样本,其中,所述第二数量大于所述第一数量;
[0014] 将所述第一数量个初始业务数据样本确认为所述第一数量个目标业务数据样本。
[0015] 优选的,所述利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型,包括:
[0016] 构建初始网络模型;
[0017] 在所述初始网络模型中设置四个网络节点;
[0018] 将所述预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则分别与所述四个网络节点进行对应;
[0019] 对应完毕后,检测每个网络节点的稳定性;
[0020] 当每个网络节点的稳定性都合格时,确认所述始网络模型收敛,获得所述数据分析模型。
[0021] 优选的,在接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报
告之前,所述方法还包括:对所述第一数量个目标业务数据样本进行真实性检测,其步骤包
括:
[0022] 将每个目标业务数据样本进行分段,获得多个数据段;
[0023] 对每个目标业务数据样本的每个数据段进行功能数据处理获得每个数据段的哈希值;
[0024] 根据每个目标业务数据样本的多个哈希值获取每个目标业务数据样本的来源加权值;
[0025] 根据每个目标业务数据样本的多个哈希值和来源加权值利用预设真实度算法计算出每个目标业务数据样本的目标真实度;
[0026] 将目标真实度小于预设真实度的第一目标业务数据样本进行删除,保留目标真实度大于等于所述预设真实度的第二目标业务数据样本;
[0027] 统计所述第二目标业务数据样本的数量,共获得第三数量个第二目标业务数据样本。
[0028] 优选的,在接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报
告之前,所述方法还包括:对所述数据分析模型进行检验,步骤包括:
[0029] 获取第四数量个预设业务数据样本;
[0030] 预先确定每个预设业务数据样本的第一完整性、每个预设业务数据样本与其他预设业务数据样本的第一相似度、每个预设业务数据样本的第一唯一性和每个预设业务数据
样本与其他预设业务数据样本的第一关联性,获取第一确定结果;
[0031] 将所述第四数量个预设业务样本输入到所述数据分析模型中,接收所述数据分析模型输出的每个预设业务数据样本的第二完整性、每个预设业务数据样本与其他预设业务
数据样本的第二相似度、每个预设业务数据样本的第二唯一性和每个预设业务数据样本与
其他预设业务数据样本的第二关联性,获取第二确定结果;
[0032] 确认所述第一确定结果是否与第二确定结果相同,若是,确认所述数据分析模型准确无误,否则,确认所述数据分析模型输出数据有偏差,向目标用户发出修复所述数据分
析模型的提醒。
[0033] 优选的,所述接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析
报告,包括:
[0034] 向所述目标目标用户推荐四种预设评估类型;
[0035] 接收所述用户在四种预设评估类型中选择的目标评估类型;
[0036] 当所述目标评估类型为相似度评估时,提取所述第一数量个目标业务数据样本中每个目标业务数据样本的分类编码和元数据,利用基于词法分析和语法分析的相似度算法
对每个目标业务数据样本的分类编码和元数据与其他目标业务数据样本的分类编码和元
数据进行相似度评估,生成第一评估结果;
[0037] 当所述目标评估类型为完整性评估时,对每个目标业务数据样本的分类编码和元数据进行完整性流程检测,所述完整性流程检测包括:数据是否为空、数据长度检测、数据
枚举值检测和数据一致性检测,生成第二评估结果;
[0038] 当所述目标评估类型为唯一性评估时,检测每个目标业务数据样本的分类编码和元数据是是否为唯一一个,若是,确认第一数量个目标业务数据样本通过唯一性检测,否
则,提取出重复出现的目标分类编码和目标元数据以及二者所属的缺陷目标业务数据样
本,生成第三评估结果;
[0039] 当所述目标评估类型为关联性评估时,对每个目标业务数据样本的分类编码和元数据与其他目标业务数据样本的分类编码和元数据进行关联度评估,获取第四评估结果;
[0040] 利用所述第一评估结果、第二评估结果、第三评估结果和第四评估结果进行综合分析,获得所述质量健康度分析报告。
[0041] 优选的,将所述质量健康度分析报告以图形化的格式进行展示,包括:
[0042] 将所述第一评估结果、第二评估结果、第三评估结果和第四评估结果分别以第一雷达图的格式进行绘制并且展示;
[0043] 将利用所述第一评估结果、第二评估结果、第三评估结果和第四评估结果进行综合分析后的质量健康度分析报告以第二雷达图的格式绘制并且展示。
[0044] 优选的,所述对应完毕后,检测每个网络节点的稳定性,包括:
[0045] 获取预设时长内每个节点心跳检测超时的次数;
[0046] 将心跳检测超时的次数按照从多到少的顺序将所述四个网络节点进行排序,获取排序结果;
[0047] 确定所述排序结果中每个网络节点的网络连接状态;
[0048] 当每个网络节点的网络连接状态为通畅时,判断所述四个网络节点的工作状态正常,当有任意一个网络节点的网络连接状态为断开时,确定断开网络的第一目标网络节点,
判断所述第一目标网络节点的工作状态异常,生成异常报告进行显示,判定所述第一目标
网络节点的稳定性差;
[0049] 当判断每个网络节点的工作状态都为正常时,将每个网络节点作为发起节点;
[0050] 将每个发起节点的第一资源占用状态发送至其相邻网络节点;
[0051] 强行关闭每个发起节点的第一资源占用状态,确认其相邻网络节点所接收的第一资源占用状态是否发生改变;
[0052] 若发生改变,检测所述相邻网络节点的第二资源占用状态是否与第一资源占用状态相同,若是,确认所述相邻网络节点异常,判定所述相邻网络节点稳定性差,否则,确认所
述网络节点正常;
[0053] 当确认所述网络节点正常时,同时启动所述四个网络节点,确认每个网络节点之间是否有干扰情况发生,若是,将相互出现干扰情况的第二目标网络节点进行标记,判定所
述第二目标网络节点的稳定性差,否则,确认所述网络节点工作模式正常;
[0054] 检测所述每个网络节点输出的目标数据和预设数据的异同,若每个网络节点输出的目标数据都与预设数据相同,确认所述网络节点的输出数据精度正常,判定所述每个网
络节点的稳定性为优秀,若有任一网络节点的输出的目标数据与预设数据不相同时,提取
出输出的目标数据与预设数据不相同的第三目标网络节点,判定所述第三目标网络节点的
稳定性差。
[0055] 优选的,在获取第一数量个目标业务数据样本之后,利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型之
前,所述方法还包括:对所述第一数量个目标业务数据样本进行合格性检测,具体步骤包
括:
[0056] 获取每个目标业务数据样本的保密系数;
[0057] 根据每个目标业务数据样本的保密系数计算出每个目标业务数据样本的目标安全性指数:
[0058]
[0059] 其中,Pi表示为第i个目标业务数据样本的目标安全性指数,Si表示为第i个目标业务数据样本的自由度,Γ()表示为伽玛函数,π表示为圆周率,ln表示为自然对数,Xi表示为
第i个目标业务数据样本的保密系数;
[0060] 扫描每个目标业务数据样本的样本数据内容,根据每个目标业务数据样本的样本数据内容确定每个目标业务数据样本的完整度和真实度;
[0061] 利用每个目标业务数据样本的目标安全性指数、完整度以及真实度计算出每个业务数据样本的目标合格系数:
[0062]
[0063] 其中,θi1表示为第i个目标业务数据样本的目标安全性指数在计算的第i个目标业务数据样本的合格系数中的权重值,Qi表示为第i个目标业务数据样本的完整度,θi2表示为
第i个目标业务数据样本的完整度在计算的第i个目标业务数据样本的合格系数中的权重
值,Ui表示为第i个目标业务数据样本的真实度,θi3表示为第i个目标业务数据样本的真实
度在计算的第i个目标业务数据样本的合格系数中的权重值,N表示为第一数量,Mi表示为
利用预设打分规则为第i个目标业务数据样本所打的评分值,取值为[0.5,1],a表示为计算
过程中的误差因子,取值为[0.05,0.1],Wi表示为第i个目标业务数据样本的目标合格系
数;
[0064] 确认每个目标业务数据样本的目标合格系数是否大于等于预设合格系数,将目标合格系数小于所述预设合格系数的第三目标业务数据样本进行数量统计;
[0065] 确认目标数量个第三目标业务数据样本无法通过合格检测,生成检测报告;
[0066] 将所述检测报告进行显示。
[0067] 一种基于多维分析技术的数据质量健康度分析系统,该系统包括:
[0068] 获取模块,用于获取第一数量个目标业务数据样本;
[0069] 构建模块,用于利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型;
[0070] 生成模块,用于接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分
析报告;
[0071] 展示模块,用于将所述质量健康度分析报告以图形化的格式进行展示;
[0072] 其中,所述目标评估类型为:相似度评估、完整性评估、唯一性评估和关联性评估中的一种或者多种。
[0073] 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明
书以及附图中所特别指出的结构来实现和获得。
[0074] 下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

[0075] 附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
[0076] 图1为本发明所提供的一种基于多维分析技术的数据质量健康度分析方法的工作流程图;
[0077] 图2为本发明所提供的一种基于多维分析技术的数据质量健康度分析方法的另一工作流程图;
[0078] 图3为本发明所提供的一种基于多维分析技术的数据质量健康度分析方法的又一工作流程图;
[0079] 图4为本发明所提供的一种基于多维分析技术的数据质量健康度分析平台的工作流程截图;
[0080] 图5为本发明所提供的一种基于多维分析技术的数据质量健康度分析平台的功能示意图;
[0081] 图6为本发明所提供的一种基于多维分析技术的数据质量健康度分析平台的数据质量健康度分析维度截图;
[0082] 图7为本发明所提供的一种基于多维分析技术的数据质量健康度分析系统的结构示意图。

具体实施方式

[0083] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例
中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附
权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0084] 在企业数据标准化常态经营过程中,期望通过数据标准化管理反馈价值至业务,数据质量的重要性无论如何强调都是不过分的。在企业标准化数据常态经营过程中,低质
量数据的产生是不可避免的,大批量的数据初始化、未处理历史数据带来的问题扩散、紧急
业务产生的低质量数据,都将影响数据标准编码库的质量。控制低质量数据的产生几率和
及时发现低质量数据并进行有效的处理,是企业能够组织开展的举措,因此对企业数据质
量管理的正确理解,并非是不产生低质量数据,这从实际而言是理论级目标,在企业数据质
量管理实际操作中,是通过科学、有效、专业的管理和技术支持,减低并控制低质量数据的
产生率和存在率,及时发现低质量数据并进行有效的处理,控制标准编码库的高健康度,但
由于数据编码库的数据量庞大、数据信息复杂性、专业要求高等因素,人工进行质量保障存
在难度,需通过专业的质量管理工具对标准数据编码库进行检测,发现需要处理缺失数据、
需去除的重复数据、需去除的噪声数据、需处理的异常(但真实)的数据,通过专业化的数据
质量管理平台提供数据健康度分析,为数据清洗和治理提供依据,再使用数据清洗平台进
行数据清洗治理,从而保证数据的完整性、唯一性、一致性、精确性、合法性、及时性等数据
质量。现有技术中的数据质量管理方法无法对数据质量做出全面、高效的分析,进而导致无
用数据的清理不完全从而占用数据内存和影响用户调用数据,严重地影响了用户的使用体
验感。为了解决上述问题,本实施例公开了一种基于多维分析技术的数据质量健康度分析
方法。
[0085] 一种基于多维分析技术的数据质量健康度分析方法,如图1所示,包括以下步骤:
[0086] 步骤S101、获取第一数量个目标业务数据样本;
[0087] 步骤S102、利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型;
[0088] 步骤S103、接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报
告;
[0089] 步骤S104、将所述质量健康度分析报告以图形化的格式进行展示;
[0090] 其中,所述目标评估类型为:相似度评估、完整性评估、唯一性评估和关联性评估中的一种或者多种。
[0091] 上述技术方案的工作原理为:获取第一数量个目标业务数据样本,利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数
据分析模型,接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分
析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度分析报告,将
所述质量健康度分析报告以图形化的格式进行展示。
[0092] 上述技术方案的有益效果为:通过利用数据分析模型来对业务数据样本进行完整性的质量健康度分析既可以避免人工排查而浪费人力情况的发生又可以准确地对业务数
据样本的数据质量做出全面、高效的分析,及时地剔除掉无用数据从避免无用数据占用数
据情况的发生,使得用户可以无需面对无用数据的干扰,提高了用户的使用体验感,进一步
地,用户可以有针对性地对业务数据样本的分析角度进行选择,进一步地提高了用户的体
验感,单一性角度地分析也使得最终的数据质量健康度分析结果更加准确无误,提高了稳
定性。
[0093] 在一个实施例中,如图2所示,在获取第一数量个目标业务数据样本之前,所述方法还包括:
[0094] 步骤S201、通过预设条件确定数据样本的第一数量;
[0095] 步骤S202、基于所述第一数量确定状态函数;
[0096] 步骤S203、根据所述状态函数确定筛选条件,在第二数量个初始业务数据样本中筛选出满足所述筛选条件的第一数量个初始业务数据样本,其中,所述第二数量大于所述
第一数量;
[0097] 步骤S204、将所述第一数量个初始业务数据样本确认为所述第一数量个目标业务数据样本。
[0098] 上述技术方案的有益效果为:通过利用状态函数来确定筛选条件可以从客观上合理地筛出符合条件的第一数量个目标业务数据样本,使得选择地样本更加实用和具有代表
性,保证了数据的精确性,也为后续的数据质量健康度分析提供良好的标本。
[0099] 在一个实施例中,如图3所示,所述利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型,包括:
[0100] 步骤S301、构建初始网络模型;
[0101] 步骤S302、在所述初始网络模型中设置四个网络节点;
[0102] 步骤S303、将所述预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则分别与所述四个网络节点进行对应;
[0103] 步骤S304、对应完毕后,检测每个网络节点的稳定性;
[0104] 步骤S305、当每个网络节点的稳定性都合格时,确认所述始网络模型收敛,获得所述数据分析模型。
[0105] 上述技术方案的有益效果为:通过设置网络节点的方式来与每个规则进行对应使得每个节点可以独立的完成对业务数据样本的一个项目的分析,避免多个分析项目夹杂在
一起而导致最终的分析结果出现混乱情况的发生,进一步地提高了稳定性。
[0106] 在一个实施例中,在接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康
度分析报告之前,所述方法还包括:对所述第一数量个目标业务数据样本进行真实性检测,
其步骤包括:
[0107] 将每个目标业务数据样本进行分段,获得多个数据段;
[0108] 对每个目标业务数据样本的每个数据段进行功能数据处理获得每个数据段的哈希值;
[0109] 根据每个目标业务数据样本的多个哈希值获取每个目标业务数据样本的来源加权值;
[0110] 根据每个目标业务数据样本的多个哈希值和来源加权值利用预设真实度算法计算出每个目标业务数据样本的目标真实度;
[0111] 将目标真实度小于预设真实度的第一目标业务数据样本进行删除,保留目标真实度大于等于所述预设真实度的第二目标业务数据样本;
[0112] 统计所述第二目标业务数据样本的数量,共获得第三数量个第二目标业务数据样本。
[0113] 上述技术方案的有益效果为:通过对业务数据样本进行真实性检测可以进一步地保证数据的精度,同时,利用每个目标业务数据样本独有的哈希值来进行真实性评估可以
更真实准确地计算出每个目标业务数据样本的真实度,提高了安全性。
[0114] 在一个实施例中,在接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康
度分析报告之前,所述方法还包括:对所述数据分析模型进行检验,步骤包括:
[0115] 获取第四数量个预设业务数据样本;
[0116] 预先确定每个预设业务数据样本的第一完整性、每个预设业务数据样本与其他预设业务数据样本的第一相似度、每个预设业务数据样本的第一唯一性和每个预设业务数据
样本与其他预设业务数据样本的第一关联性,获取第一确定结果;
[0117] 将所述第四数量个预设业务样本输入到所述数据分析模型中,接收所述数据分析模型输出的每个预设业务数据样本的第二完整性、每个预设业务数据样本与其他预设业务
数据样本的第二相似度、每个预设业务数据样本的第二唯一性和每个预设业务数据样本与
其他预设业务数据样本的第二关联性,获取第二确定结果;
[0118] 确认所述第一确定结果是否与第二确定结果相同,若是,确认所述数据分析模型准确无误,否则,确认所述数据分析模型输出数据有偏差,向目标用户发出修复所述数据分
析模型的提醒。
[0119] 上述技术方案的有益效果为:通过对分析模型进行检验可以确保分析模型最终的质量健康度分析结果与实际结果完美符合,避免出现漏识别无用数据情况的发生,进一步
地提供了稳定性和用户的体验感。
[0120] 在一个实施例中,所述接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健
康度分析报告,包括:
[0121] 向所述目标目标用户推荐四种预设评估类型;
[0122] 接收所述用户在四种预设评估类型中选择的目标评估类型;
[0123] 当所述目标评估类型为相似度评估时,提取所述第一数量个目标业务数据样本中每个目标业务数据样本的分类编码和元数据,利用基于词法分析和语法分析的相似度算法
对每个目标业务数据样本的分类编码和元数据与其他目标业务数据样本的分类编码和元
数据进行相似度评估,生成第一评估结果;
[0124] 当所述目标评估类型为完整性评估时,对每个目标业务数据样本的分类编码和元数据进行完整性流程检测,所述完整性流程检测包括:数据是否为空、数据长度检测、数据
枚举值检测和数据一致性检测,生成第二评估结果;
[0125] 当所述目标评估类型为唯一性评估时,检测每个目标业务数据样本的分类编码和元数据是是否为唯一一个,若是,确认第一数量个目标业务数据样本通过唯一性检测,否
则,提取出重复出现的目标分类编码和目标元数据以及二者所属的缺陷目标业务数据样
本,生成第三评估结果;
[0126] 当所述目标评估类型为关联性评估时,对每个目标业务数据样本的分类编码和元数据与其他目标业务数据样本的分类编码和元数据进行关联度评估,获取第四评估结果;
[0127] 利用所述第一评估结果、第二评估结果、第三评估结果和第四评估结果进行综合分析,获得所述质量健康度分析报告。
[0128] 上述技术方案的有益效果为:通过对目标业务数据样本进行全方位的分析,获取多个评估结果进而根据多个评估结果进行综合分析生成质量健康度分析报告可以保证每
个项目的评估都保持独立不说其他项目的影响,进而可以保证每个评估结果的准确性,同
时也保证了最终的质量健康度分析报告的准确性。
[0129] 在一个实施例中,将所述质量健康度分析报告以图形化的格式进行展示,包括:
[0130] 将所述第一评估结果、第二评估结果、第三评估结果和第四评估结果分别以第一雷达图的格式进行绘制并且展示;
[0131] 将利用所述第一评估结果、第二评估结果、第三评估结果和第四评估结果进行综合分析后的质量健康度分析报告以第二雷达图的格式绘制并且展示。
[0132] 上述技术方案的有益效果为:通过雷达图可以准确地将第一数量个目标业务样本的各个评估结果中各个检测项目综合显示,使得用户可以一目了然地对质量健康度分析报
告进行查阅和理解,进一步地提高了用户的体验感。
[0133] 在一个实施例中,所述对应完毕后,检测每个网络节点的稳定性,包括:
[0134] 获取预设时长内每个节点心跳检测超时的次数;
[0135] 将心跳检测超时的次数按照从多到少的顺序将所述四个网络节点进行排序,获取排序结果;
[0136] 确定所述排序结果中每个网络节点的网络连接状态;
[0137] 当每个网络节点的网络连接状态为通畅时,判断所述四个网络节点的工作状态正常,当有任意一个网络节点的网络连接状态为断开时,确定断开网络的第一目标网络节点,
判断所述第一目标网络节点的工作状态异常,生成异常报告进行显示,判定所述第一目标
网络节点的稳定性差;
[0138] 当判断每个网络节点的工作状态都为正常时,将每个网络节点作为发起节点;
[0139] 将每个发起节点的第一资源占用状态发送至其相邻网络节点;
[0140] 强行关闭每个发起节点的第一资源占用状态,确认其相邻网络节点所接收的第一资源占用状态是否发生改变;
[0141] 若发生改变,检测所述相邻网络节点的第二资源占用状态是否与第一资源占用状态相同,若是,确认所述相邻网络节点异常,判定所述相邻网络节点稳定性差,否则,确认所
述网络节点正常;
[0142] 当确认所述网络节点正常时,同时启动所述四个网络节点,确认每个网络节点之间是否有干扰情况发生,若是,将相互出现干扰情况的第二目标网络节点进行标记,判定所
述第二目标网络节点的稳定性差,否则,确认所述网络节点工作模式正常;
[0143] 检测所述每个网络节点输出的目标数据和预设数据的异同,若每个网络节点输出的目标数据都与预设数据相同,确认所述网络节点的输出数据精度正常,判定所述每个网
络节点的稳定性为优秀,若有任一网络节点的输出的目标数据与预设数据不相同时,提取
出输出的目标数据与预设数据不相同的第三目标网络节点,判定所述第三目标网络节点的
稳定性差。
[0144] 上述技术方案的有益效果为:通过从多个角度判定目标网络节点的稳定性可以更宏观的确定目标网络节点的工作是否符合实际要求,降低了风险,保证了每个目标网络节
点的工作性能,进而可以保证后续对目标业务数据样本的质量健康度评估结果的准确性,
同时也提高了模型的稳定性,使得数据分析模型可以针对大量的业务数据样本进行质量健
康度评估,提高了工作效率。
[0145] 在一个实施例中,在获取第一数量个目标业务数据样本之后,利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分
析模型之前,所述方法还包括:对所述第一数量个目标业务数据样本进行合格性检测,具体
步骤包括:
[0146] 获取每个目标业务数据样本的保密系数;
[0147] 根据每个目标业务数据样本的保密系数计算出每个目标业务数据样本的目标安全性指数:
[0148]
[0149] 其中,Pi表示为第i个目标业务数据样本的目标安全性指数,Si表示为第i个目标业务数据样本的自由度,Γ()表示为伽玛函数,π表示为圆周率,ln表示为自然对数,Xi表示为
第i个目标业务数据样本的保密系数;
[0150] 扫描每个目标业务数据样本的样本数据内容,根据每个目标业务数据样本的样本数据内容确定每个目标业务数据样本的完整度和真实度;
[0151] 利用每个目标业务数据样本的目标安全性指数、完整度以及真实度计算出每个业务数据样本的目标合格系数:
[0152]
[0153] 其中,θi1表示为第i个目标业务数据样本的目标安全性指数在计算的第i个目标业务数据样本的合格系数中的权重值,Qi表示为第i个目标业务数据样本的完整度,θi2表示为
第i个目标业务数据样本的完整度在计算的第i个目标业务数据样本的合格系数中的权重
值,Ui表示为第i个目标业务数据样本的真实度,θi3表示为第i个目标业务数据样本的真实
度在计算的第i个目标业务数据样本的合格系数中的权重值,N表示为第一数量,Mi表示为
利用预设打分规则为第i个目标业务数据样本所打的评分值,取值为[0.5,1],a表示为计算
过程中的误差因子,取值为[0.05,0.1],Wi表示为第i个目标业务数据样本的目标合格系
数;
[0154] 确认每个目标业务数据样本的目标合格系数是否大于等于预设合格系数,将目标合格系数小于所述预设合格系数的第三目标业务数据样本进行数量统计;
[0155] 确认目标数量个第三目标业务数据样本无法通过合格检测,生成检测报告;
[0156] 将所述检测报告进行显示。
[0157] 上述技术方案的有益效果为:通过计算每个目标业务数据样本的目标安全性指数可以根据安全性指数大致退算出每个目标业务数据样本的完整度和真实度,由于安全性越
高的数据其完整度和真实度越高,故而再根据每个目标业务数据样本的真实度、完整度和
安全性指数计算出每个目标业务数据样本的合格系数实现了从外界角度和目标业务数据
样本的自身参数共同确定目标业务数据样本的合格性,确保了最终的合格性检测的准确
性,进一步地,通过将不合格的目标数量个第三目标业务数据样本进行显示可以使用户选
择性的更换目标业务数据样本,进一步地保证了后续目标业务数据样本质量健康度评估的
准确性,同时也为后续目标业务数据样本质量健康度评估提供合格完美的数据样本。
[0158] 在一个实施例中,如图4‑6所示,包括:
[0159] 一种基于多维分析技术的数据质量健康度分析平台,其利用了本发明所述方法,工作过程为利用实体数据模型获取业务数据,确定业务数据中的动态数据即主数据,根据
数据分析模型中的相似性规则、完整性规则、唯一性规则和关联性规则对业务数据进行健
康分析,将分析结果通过图形化格式进行展示,并且生成数据质量分析报告。
[0160] 本平台还具有以下功能:
[0161] 支持重码匹配条件的配置;
[0162] 系统支持定期进行主数据重码检查,并提供主数据的重码清单;
[0163] 支持精确查重功能,并可配置查重规则;
[0164] 支持建立统一的审核流程;
[0165] 支持重码清单的公示与意见收集:主数据重码清单只公示给在业务系统使用将被删除的主数据的子公司或业务单位。
[0166] 通过可配置的数据检查条件,对数据进行多种检查功能;
[0167] 支持主数据重码清单的批量导出;
[0168] 支持对发布的重码清单进行各业务系统处理情况跟踪:建立主数据重码的映射关系,并对被删除主数据的业务处理(包括未清业务与主数据处理状态)情况进行跟踪;
[0169] 实现数据约束规则的建立;
[0170] 实现字段的强制检查功能;
[0171] 实现关系字段检查功能;
[0172] 系统支持定期进行主数据健康度分析,对主数据重码检查,并提供主数据的重码清单;
[0173] 支持重码清单的审核、公示、意见收集、发布与导出;
[0174] 支持对发布的重码清单进行处理跟踪。
[0175] 数据管理平台支持多种校验规则,并可自定义校验规则,例如:支持取值范围校验、相关附属表校验、正则表达式校验、同名库校验以及自定义规则校验。
[0176] 输入选择,包括:支持值列表模板选择、支持自定义附属表选择、支持任意附件上传以及数据健康度分析。
[0177] 支持配置健康度分析参数,实现标准编码库的常态监控分析,并按照健康度参数模型,产出各类主数据编码库的状态分析报告,提供需处理的数据清单,为数据清洗提供依
据。
[0178] 上述技术方案的有益效果为:通过数据质量管理平台,对不同类型数据模型配置相应质量管控和分析参数,实现对不同类标准数据进行常态质量监控管理,可实现对数据
之间的精确查重和模糊查重,并可提供可配置的多种数据检查功能。支持对数据的唯一性、
完整性和一致性进行校验和检查。
[0179] 本实施例还公开了一种基于多维分析技术的数据质量健康度分析系统,如图7所示,该系统包括:
[0180] 获取模块701,用于获取第一数量个目标业务数据样本;
[0181] 构建模块702,用于利用预设相似度对比规则、预设完整性评估规则、预设唯一性评估规则和预设关联性评估规则来构建数据分析模型;
[0182] 生成模块703,用于接收目标用户选择的目标评估类型,根据所述目标评估类型利用所述数据分析模型对所述第一数量个目标业务数据样本进行分析评估,生成质量健康度
分析报告;
[0183] 展示模块704,用于将所述质量健康度分析报告以图形化的格式进行展示;
[0184] 其中,所述目标评估类型为:相似度评估、完整性评估、唯一性评估和关联性评估中的一种或者多种。
[0185] 上述技术方案的工作原理和有益效果在方法权利要求中已经说明,此处不再赘述。
[0186] 本领域技术人员应当理解的是,本发明中的第一、第二指的是不同应用阶段而已。
[0187] 本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途
或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常
识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面
的权利要求指出。
[0188] 应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。