会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 人工神经网络 / 前馈神经网络 / 多层感知器 / 输出层 / 数据仓库模型技术层面差异比对方法

数据仓库模型技术层面差异比对方法

阅读:1017发布:2021-02-16

IPRDB可以提供数据仓库模型技术层面差异比对方法专利检索,专利查询,专利分析的服务。并且本发明涉及一种数据仓库模型技术层面差异比对方法。表比对模型:根据输入的分析与结构化的表,进行遍历国网标准明细层数据模型的表,对表按既定的模型比对方法进行匹配,从而输出表层面的差异性;字段比对模型:对模型的输出成果进行细化到字段层面的遍历,对于遍历的字段与国网标准明细层数据模型的字段,按照字段模型比对方法进行匹配,输出字段层面的差异性;类型比对模型则基于表比对模型和字段比对模型的输出成果进行遍历,与国网标准明细层数据模型的字段类型进行,按照字段类型比对方法进行匹配,输出类型层面的差异性。本发明通过表差异、字段差异、类型差异的输出,完成缓冲区数据模型与国网标准明细层数据模型的技术层面差异比对工作。,下面是数据仓库模型技术层面差异比对方法专利的具体信息内容。

1.一种数据仓库模型技术层面差异比对方法,其特征在于:采用自动化比对模型,包括表比对模型、字段比对模型及类型比对模型;

(1)对于表比对模型,按照循环遍历的方法以及统一的模型标准进行模型输入的规范化处理,通过国网标准明细层数据模型的关联匹配,将匹配的结果集以及未匹配的结果集进行差异性的输出;

(2)对于字段比对模型,对表的差异性进行判断,判断出缓冲区数据模型与国网标准明细层数据模型的差异性,从而基于缓冲区数据表模型与国网标准明细层数据表模型的交集部分进行处理,按照循环遍历的方法及统一的模型标准进行模型输入的规范化处理,通过国网标准明细层数据模型的关联匹配,将匹配的结果集以及未匹配的结果集进行差异性的输出;

(3)对于类型比对模型,基于缓冲区数据表模型与国网标准明细层数据表模型的交集部分和缓冲区数据表字段模型与国网标准明细层数据表字段模型的交集部分进行数据处理,并将这部分数据,作为输入对象,按照统一的模型标准进行模型输入的规范化处理,通过循环遍历的方法,进行细化到表字段类型层面的关联匹配,将匹配的结果进行差异性的输出。

2.根据权利要求1所述的数据仓库模型技术层面差异比对方法,其特征在于:所述表比对模型的具体实现过程为:第一步,按照循环遍历的方法,获取分析域缓冲区数据表模型;

第二步,通过国网标准明细层数据模型的关联匹配,将匹配的结果集以及未匹配的结果集进行差异性的输出;第三步,将输出结果标识为新增表、缺失表、相同表。

3.根据权利要求2所述的数据仓库模型技术层面差异比对方法,其特征在于:所述字段比对模型的具体实现过程为:第一步,将新增表的所有字段判断为新增字段;第二步,将缺失表的所有字段判断为缺失字段;第三步,将相同表的字段进行循环遍历,然后与国网标准明细层数据表字段模型的关联匹配,输出差异,输出结果标识为新增字段、缺失字段、相同字段。

4.根据权利要求3所述的数据仓库模型技术层面差异比对方法,其特征在于:所述类型比对模型的具体实现过程为:第一步,针对新增字段的类型进行判断为新增类型;第二步,针对缺失字段的类型进行判断为缺失类型;第三步,针对相同字段的判断类型是否相同,如果相同则判断类型相同,否则判断为类型修改;第四步,针对类型修改的字段则修改为国网标准明细层数据模型的标准字段类型。

5.根据权利要求4所述的数据仓库模型技术层面差异比对方法,其特征在于:针对输出的差异性的表、字段、类型需进行转换,按照数据仓库的标准模型进行对照转换,包括表名的命名规范转换、字段的规范转换,以及类型的转义。

6.根据权利要求5所述的数据仓库模型技术层面差异比对方法,其特征在于:针对输出的成果、以及转义的成果进行,进行建模语句的输入,生成本地文件。

说明书全文

数据仓库模型技术层面差异比对方法

技术领域

[0001] 本发明涉及一种数据仓库模型技术层面差异比对方法,该方法基于分析域结构化数据抽取接入成果及国网标准明细层数据模型设计成果,开展分析缓冲区数据模型与国网标准明细层数据模型的技术层面差异比对工作,针对差异性的表、字段、类型等进行快速、准确地输出差异,为数据仓库建模的差异性方面提供技术支撑。

背景技术

[0002] 随着总部统一数据仓库模型设计成果落地,国网福建电力基于总部统一数据仓库模型设计成果并结合国网福建电力实际业务流程开展数据仓库物理模型差异比对及落地工作,考虑到分析域建设过程中涉及的接入系统及数据表数量较多,如果单纯依靠人工进行数据仓库物理模型差异比对及落地,耗时长而且人工形成数据仓库物理模型的过程中容易出错。另外,目前系统建设工期紧、任务重,如果将大量的人力及时间放在数据仓库物理模型差异比对上,则分析域整体建设进度将受到影响。鉴于以上情况,基于分析域结构化数据抽取接入成果,从技术层面开展数据仓库模型差异比对研究出一套方法来辅助开展进行数据仓库物理模型差异比对工作,通过技术层面开展数据仓库模型差异比对后再根据业务层面判别数据仓库模型的准确性,大大节约人工成本。

发明内容

[0003] 本发明的目的在于提供一种数据仓库模型技术层面差异比对方法,该方法基于分析域结构化数据抽取接入成果及国网标准明细层数据模型设计成果,开展分析缓冲区数据模型与国网标准明细层数据模型的技术层面差异比对工作,针对差异性的表、字段、类型等进行快速、准确地输出差异,为数据仓库建模的差异性方面提供技术支撑。
[0004] 为实现上述目的,本发明的技术方案是:一种数据仓库模型技术层面差异比对方法,采用自动化比对模型,包括表比对模型、字段比对模型及类型比对模型;(1)对于表比对模型,按照循环遍历的方法以及统一的模型标准进行模型输入的规范化处理,通过国网标准明细层数据模型的关联匹配,将匹配的结果集以及未匹配的结果集进行差异性的输出;
(2)对于字段比对模型,对表的差异性进行判断,判断出缓冲区数据模型与国网标准明细层数据模型的差异性,从而基于缓冲区数据表模型与国网标准明细层数据表模型的交集部分进行处理,按照循环遍历的方法及统一的模型标准进行模型输入的规范化处理,通过国网标准明细层数据模型的关联匹配,将匹配的结果集以及未匹配的结果集进行差异性的输出;
(3)对于类型比对模型,基于缓冲区数据表模型与国网标准明细层数据表模型的交集部分和缓冲区数据表字段模型与国网标准明细层数据表字段模型的交集部分进行数据处理,并将这部分数据,作为输入对象,按照统一的模型标准进行模型输入的规范化处理,通过循环遍历的方法,进行细化到表字段类型层面的关联匹配,将匹配的结果进行差异性的输出。
[0005] 在本发明一实施例中,所述表比对模型的具体实现过程为:第一步,按照循环遍历的方法,获取分析域缓冲区数据表模型;第二步,通过国网标准明细层数据模型的关联匹配,将匹配的结果集以及未匹配的结果集进行差异性的输出;第三步,将输出结果标识为新增表、缺失表、相同表。
[0006] 在本发明一实施例中,所述字段比对模型的具体实现过程为:第一步,将新增表的所有字段判断为新增字段;第二步,将缺失表的所有字段判断为缺失字段;第三步,将相同表的字段进行循环遍历,然后与国网标准明细层数据表字段模型的关联匹配,输出差异,输出结果标识为新增字段、缺失字段、相同字段。
[0007] 在本发明一实施例中,所述类型比对模型的具体实现过程为:第一步,针对新增字段的类型进行判断为新增类型;第二步,针对缺失字段的类型进行判断为缺失类型;第三步,针对相同字段的判断类型是否相同,如果相同则判断类型相同,否则判断为类型修改;第四步,针对类型修改的字段则修改为国网标准明细层数据模型的标准字段类型。
[0008] 在本发明一实施例中,针对输出的差异性的表、字段、类型需进行转换,按照数据仓库的标准模型进行对照转换,包括表名的命名规范转换、字段的规范转换,以及类型的转义。
[0009] 在本发明一实施例中,针对输出的成果、以及转义的成果进行,进行建模语句的输入,生成本地文件。
[0010] 相较于现有技术,本发明具有以下有益效果:本发明通过技术数据仓库模型层面差异比对方法,通过自定义的模型比对,利用表层面的模型比对、字段层面的模型比对、类型层面的模型比对,挖掘表差异信息,下钻到字段的差异信息以及类型差异信息,节约了数据仓库物理模型差异比对的人工工作量并提高了模型差异比对的准确性, 保障全业务数据接入与清洗以及全业务统一数据中心数据分析域的建成,为数据仓库建模提供技术支持。

附图说明

[0011] 图1为本发明的分析流程图。

具体实施方式

[0012] 下面结合附图,对本发明的技术方案进行具体说明。
[0013] 本发明的一种数据仓库模型技术层面差异比对方法,采用自动化比对模型,包括表比对模型、字段比对模型及类型比对模型;(1)对于表比对模型,按照循环遍历的方法以及统一的模型标准进行模型输入的规范化处理,通过国网标准明细层数据模型的关联匹配,将匹配的结果集以及未匹配的结果集进行差异性的输出;
(2)对于字段比对模型,对表的差异性进行判断,判断出缓冲区数据模型与国网标准明细层数据模型的差异性,从而基于缓冲区数据表模型与国网标准明细层数据表模型的交集部分进行处理,按照循环遍历的方法及统一的模型标准进行模型输入的规范化处理,通过国网标准明细层数据模型的关联匹配,将匹配的结果集以及未匹配的结果集进行差异性的输出;
(3)对于类型比对模型,基于缓冲区数据表模型与国网标准明细层数据表模型的交集部分和缓冲区数据表字段模型与国网标准明细层数据表字段模型的交集部分进行数据处理,并将这部分数据,作为输入对象,按照统一的模型标准进行模型输入的规范化处理,通过循环遍历的方法,进行细化到表字段类型层面的关联匹配,将匹配的结果进行差异性的输出。
[0014] 所述表比对模型的具体实现过程为:第一步,按照循环遍历的方法,获取分析域缓冲区数据表模型;第二步,通过国网标准明细层数据模型的关联匹配,将匹配的结果集以及未匹配的结果集进行差异性的输出;第三步,将输出结果标识为新增表、缺失表、相同表。
[0015] 所述字段比对模型的具体实现过程为:第一步,将新增表的所有字段判断为新增字段;第二步,将缺失表的所有字段判断为缺失字段;第三步,将相同表的字段进行循环遍历,然后与国网标准明细层数据表字段模型的关联匹配,输出差异,输出结果标识为新增字段、缺失字段、相同字段。
[0016] 所述类型比对模型的具体实现过程为:第一步,针对新增字段的类型进行判断为新增类型;第二步,针对缺失字段的类型进行判断为缺失类型;第三步,针对相同字段的判断类型是否相同,如果相同则判断类型相同,否则判断为类型修改;第四步,针对类型修改的字段则修改为国网标准明细层数据模型的标准字段类型。
[0017] 针对输出的差异性的表、字段、类型需进行转换,按照数据仓库的标准模型进行对照转换,包括表名的命名规范转换、字段的规范转换,以及类型的转义。
[0018] 针对输出的成果、以及转义的成果进行,进行建模语句的输入,生成本地文件。
[0019] 以下为本发明的具体实施过程。
[0020] 本发明提出自动化比对模型,这种模型包含三个子模型,分别是表比对模型、字段比对模型和类型比对模型,整体流程如图1所示。
[0021] 1、表比对模型表比对模型的主要思想是根据将分析域缓冲区数据模型进行输入的规范化处理,然后规范化的数据进行模型比对计算,输出表差异信息。该方法的具体实现流程是:
①首先对分析域结构化数据抽取接入成果进行数据输入规范化处理,判断表名是否存在错误、是否大小写混合写、是否存在重复、是否存在空格等问题,对该问题进行输入前的处理;
②通过算法语句,将过滤后规范化的表进行循环遍历,以读取游标的方式进行获取单行数据,将该行与标准表模型进行匹配;
③判断是否完全匹配,如果完全匹配,则输出“相同表”;
④如果不匹配,则判断输出“新增表”;
⑤最后标准表模型中未匹配上的表,全部输出为“缺失表”。
[0022] 2、字段比对模型字段比对模型的主要思想是基于表比对模型的输出成果,然后对字段规范化处理,通过模型比对计算,输出表字段差异信息。该方法的具体实现流程是:
①首先表比对模型的输出成果,进行字段的规范化处理,判断表字段名是否存在错误、是否大小写混合写、是否存在重复、是否存在空格等;
②通过算法语句,将过滤后规范化的表字段进行循环遍历,以读取游标的方式进行获取单行数据,将该行与标准表字段模型进行匹配;
③如果表比对模型输出的为“新增表”,则所有字段输出为“新增字段”;
④如果表比对模型输出的为“缺失表”,则所有字段输出为“缺失字段”;
⑤如果表比对模型输出的为“相同表”,则判断字段是否与标准表字段模型匹配,如果匹配,则为“相同字段”,如果不匹配,则判断为“新增字段”,最后标准表字段模型中未匹配上的字段,全部输出为“缺失字段”。
[0023] 3、类型比对模型类型比对模型的主要思想是基于表比对模型的输出成果,然后对字段规范化处理,通过模型比对计算,输出表字段差异信息。该方法的具体实现流程是:
①首先字段比对模型的输出成果,进行类型的规范化处理,判断表类型是否存在错误、是否大小写混合写、是否存在重复、是否存在空格等;
②通过算法语句,将过滤后规范化的表字段类型进行循环遍历,以读取游标的方式进行获取单行数据,将该行与标准表字段类型模型进行匹配;
③如果字段比对模型输出的为“新增字段”,则所有字段输出为“新增类型”;
④如果字段比对模型输出的为“缺失字段”,则所有字段输出为“缺失类型”;
⑤如果字段比对模型输出的为“相同字段”,则判断字段类型是否与标准表字段类型模型匹配,如果匹配,则为“类型相同”,如果不匹配,则判断为“类型修改”,针对“类型修改”的字段则修改为国网标准明细层数据模型的标准字段类型。
[0024] 4、转义类型比对模型的主要思想是基于表比对模型的输出成果,然后对字段规范化处理,通过模型比对计算,输出表字段差异信息。该方法的具体实现流程是:
①首先字段比对模型的输出成果,进行类型的规范化处理,判断表类型是否存在错误、是否大小写混合写、是否存在重复、是否存在空格等;
②通过算法语句,将过滤后规范化的表字段类型进行循环遍历,以读取游标的方式进行获取单行数据,将该行与标准表字段类型模型进行匹配;
③如果字段比对模型输出的为“新增字段”,则所有字段输出为“新增类型”;
④如果字段比对模型输出的为“缺失字段”,则所有字段输出为“缺失类型”;
⑤如果字段比对模型输出的为“相同字段”,则判断字段类型是否与标准表字段类型模型匹配,如果匹配,则为“类型相同”,如果不匹配,则判断为“类型修改”,针对“类型修改”的字段则修改为国网标准明细层数据模型的标准字段类型。
[0025] 针对输出的差异性的表、字段、类型进行转换,按照数据仓库的标准模型进行对照转换,包括表名的命名规范转换、字段的规范转换,以及类型的转义。
[0026] 第四部分,针对输出的成果、以及转义的成果进行,按既定程序,进行建模语句的输入,生成本地文件。
[0027] 以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用