一种基于海量数据快速数据治理方法转让专利

申请号 : CN202210322898.9

文献号 : CN114707039B

文献日 : 2023-03-17

本发明公开了一种基于海量数据快速数据治理方法，涉及数据处理技术领域。本发明包括如下步骤：对获取的海量数据分析，进行流程的分解、分类和划分每个数据的层次类别；对数据采用CURE的方法进行分类，应用HilbertR‑tree构建索引；根据数据类别的划分结果，对每个分解的数据进行整理输出；对每个数据进行层级、元素类别、属性的模型概念定义；构建成多层次的数据流程的总体模型；对总体的多层次数据流程模型运行实际的数据实例并进行监控和管理。本发明通过对海量数据进行分析、分类和划分，经过聚类的数据体应用HilbertR‑tree创建索引，按照多层次的数据治理建模技术将各种模型元素构建成多层次的数据流程的总体模型来处理管控数据，提高数据读取速度和系统性能。

1.一种基于海量数据快速数据治理方法，其特征在于，包括如下步骤：步骤S1：对获取的海量数据进行分析，根据其特点和治理要求由上至下进行流程的分解、分类和划分每个数据的层次类别；

步骤S2：对数据采用CURE的方法进行分类，对经过聚类的数据体应用Hilbert R‑tree构建索引；

步骤S3：根据数据类别的划分结果，对每个分解的数据进行整理输出；

步骤S4：针对每个输出的数据点和状态值定义的多层次数据的元素对象，对每个数据进行层级、元素类别、属性的模型概念定义；

步骤S5：按照多层次的数据治理建模技术将各种模型元素构建成多层次的数据流程的总体模型；

步骤S6：对总体的多层次数据流程模型运行实际的数据实例并进行监控和管理；

其中，所述步骤S2中，CURE聚类算法具体步骤如下：CURE1：对原数据集随机抽取一部分样本作为子集；

CURE2：采用切诺夫边界来确定最小取样数据量；

CURE3：对子集进行划分，在划分后的集合上运行CURE聚类算法得到每个集合的簇；

CURE4：删除每个几个簇的离群点；

CURE5：对这些簇进一步进行CURE层次聚类，删除其中的离群点；

CURE6：对磁盘中剩余的数据集样本点进行划分，从而实现全局聚类；

其中，所述步骤S2中，Hilbert R‑tree构建索引具体步骤如下：步骤R1：构建三维Hilbert空间填充曲线；

步骤R2：从空间集S中取n个样本的数据对象，计算每个对象的最小包围盒边界坐标；

步骤R3：将这n个数据对象划分为P个分区，对每个分区执行聚类操作；

步骤R4：删除第一次聚类过程中的离群点后，在新生成的簇上执行聚类操作，然后移除第二聚类过程中的异常点，并获得最终的聚类结果；

步骤R5：计算剩余MBB的中心与每个现有聚类中心之间的距离，并按距离最近准则将剩余数据合并到相应的聚类中，完成全局的聚类操作；

步骤R6：对各聚类按其聚类中心的Hilbert码值进行升序排列，当聚类中的数据量小于等于Hilbert R‑tree节点的最大容量时，则将其构成一个叶节点，否则将聚类中的对象按Hilbert码值进行升序排列，顺序构成若干个叶节点；

步骤R7：按生成叶节点的时间顺序自下而上构成各层的中间节点和根节点，最终生成一棵Hilbert R‑tree树；

其中，所述步骤R5中，聚类的操作步骤如下：

步骤R51：将每个对象看作一个独立的聚类，聚类的中心点为MBB的中心点，并设为center Mi(ai,bi,ci)；

步骤R52：依次计算两两MBB之间的距离，公式为：

式中，最短距离h＝hmin；

步骤R53：若2个MBB之间的距离h小于等于hmin，则将其对应数据对象合并为一个聚类；

步骤R54：若聚类的数据量达到Hilbert R‑tree节点的最大容量，则结束该聚类并返回步骤R52，否则以其新的聚类中心作为中心点计算该聚类与其他聚类之间的距离，如果距离小于等于hmin，则将它们再进行合并；

步骤R55：重复步骤R54，直至在该分区完成聚类。

2.根据权利要求1所述的一种基于海量数据快速数据治理方法，其特征在于，所述步骤S1中，数据由上至下依次划分成节点元素、事务元素、环节元素和任务元素；所述节点元素，用于包含所有各类数据所一栏或归属的外部实体对象；所述事务元素，用于表示节点下为达成处理目标而发生的所有活动的集合；所述环节元素，用于表示组成事务的业务活动集合；所述任务元素，用于表示完成子业务活动所执行的逻辑操作，任务与逻辑操作一一对应。

3.根据权利要求1所述的一种基于海量数据快速数据治理方法，其特征在于，所述步骤S2中，CURE聚类算法预处理是将随机取样得到每个数据或者数据集都视为一个聚类，然后将最近聚类的联合，直到聚类的个数满足指定的k。

4.根据权利要求3所述的一种基于海量数据快速数据治理方法，其特征在于，所述CURE聚类算法预处理是将随机取样得到的每个点或者数据集都视为一个聚类，并将距离最近的聚类联合，直到聚类的个数满足指定的k，具体流程如下：步骤C1：对原始数据集X＝{xi|i＝1,2,3,...,m}，随机抽取n个样本，S＝{x0,x1,...,xn‑1}；

步骤C2：获取样本S的坐标点集，并随机初始化多个聚类中心；

步骤C3：在第k次迭代中，对任意一个样本点，将没有同属于一个标注的样本点的聚类作为候选聚类；

步骤C4：获取到各候选聚类中心的欧式距离,并将该样本点归到距离最短的中心所在的候选聚类；

步骤C5：利用均值更新每个聚类的中心,对于K个聚类中心,迭代法更新后,若值保持不变,则迭代结束。

5.根据权利要求2所述的一种基于海量数据快速数据治理方法，其特征在于，所述步骤S1中，最小取样量数据采用切诺夫边界来确定最小取样数据量：式中，ζ为最小聚类包含的数据点数，δ为属于聚类的数据点的个数小于n/p的概率。

一种基于海量数据快速数据治理方法

技术领域

[0001] 本发明属于数据处理技术领域，特别是涉及一种基于海量数据快速数据治理方法。

背景技术

[0002] 随着社会信息化的发展，海量数据已经出现在卫星遥感、医学、逆向工程等各个社会领域，如何存储、提取、处理、分析这些海量数据已经成为了科研人员面临的一个重要问题。海量数据存储技术可以分为直接附加存储(direct attached storage，DAS)和网络存储(fabric attached storage，FAS)两种。

[0003] 近年来，网络存储在P2P技术、网络存储系统等方面有了很好的发展，尤其是基于对象存储的Lustre文件系统，以其并行的数据访问、分布式的元数据管理在性能上超越了传统的网络存储架构。然而，随着当前多核处理器性能的急速提升，对于采用DAS存储方式将外部存储设备直接挂接在服务器内部总线上的个人计算机或小型服务器，其海量数据的读取速度已经难以满足处理器计算的需求，如果文件的数据量过大甚至会出现操作系统不支持的情况，以导致系统直接崩溃。

发明内容

[0004] 本发明的目的在于提供一种基于海量数据快速数据治理方法，通过对海量数据进行分析、分类和划分，应用数据树创建索引，构建数据流程的总体模型来处理管控数据，解决了现有的海量数据读取速度满足不了需求、系统容易崩溃的问题。

[0005] 为解决上述技术问题，本发明是通过以下技术方案实现的：

[0006] 本发明为一种基于海量数据快速数据治理方法，包括如下步骤：

[0007] 步骤S1：对获取的海量数据进行分析，根据其特点和治理要求由上至下进行流程的分解、分类和划分每个数据的层次类别；

[0008] 步骤S2：对数据采用CURE的方法进行分类，对经过聚类的数据体应用Hilbert R‑tree构建索引；

[0009] 步骤S3：根据数据类别的划分结果，对每个分解的数据进行整理输出；

[0010] 步骤S4：针对每个输出的数据点和状态值定义的多层次数据的元素对象，对每个数据进行层级、元素类别、属性的模型概念定义；

[0011] 步骤S5：按照多层次的数据治理建模技术将各种模型元素构建成多层次的数据流程的总体模型；

[0012] 步骤S6：对总体的多层次数据流程模型运行实际的数据实例并进行监控和管理。

[0013] 作为一种优选的技术方案，所述步骤S1中，数据由上至下依次划分成节点元素、事务元素、环节元素和任务元素；所述节点元素，用于包含所有各类数据所一栏或归属的外部实体对象；所述事务元素，用于表示节点下为达成处理目标而发生的所有活动的集合；所述环节元素，用于表示组成事务的业务活动集合；所述任务元素，用于表示完成子业务活动所执行的逻辑操作，任务与院子逻辑炒作一一对应。

[0014] 作为一种优选的技术方案，所述步骤S2中，CURE聚类算法预处理是将随机取样得到每个数据或者数据集都视为一个聚类，然后将最近聚类的联合，直到聚类的个数满足指定的k。

[0015] 作为一种优选的技术方案，所述CURE聚类算法具体步骤如下：

[0016] CURE1：对原数据集随机抽取一部分样本作为子集；

[0017] CURE2：采用切诺夫边界来确定最小取样数据量；

[0018] CURE3：对子集进行划分，在划分后的集合上运行CURE聚类算法得到每个集合的簇；

[0019] CURE4：删除每个几个簇的离群点；

[0020] CURE5：对这些簇进一步进行CURE层次聚类，删除其中的离群点；

[0021] CURE6：对磁盘中剩余的数据集样本点进行划分，从而实现全局聚类。

[0022] 作为一种优选的技术方案，所述步骤S2中，Hilbert R‑tree构建索引具体步骤如下：

[0023] 步骤R1：构建三维Hilbert空间填充曲线；

[0024] 步骤R2：从空间集S中取n个样本的数据对象，计算每个对象的最小包围盒边界坐标；

[0025] 步骤R3：将这n个数据对象划分为P个分区，对每个分区执行聚类操作；

[0026] 步骤R4：删除第一次聚类过程中的离群点后，在新生成的簇上执行聚类操作，然后移除第二聚类过程中的异常点，并获得最终的聚类结果；

[0027] 步骤R5：计算剩余MBB的中心与每个现有聚类中心之间的距离，并按距离最近准则将剩余数据合并到相应的聚类中，完成全局的聚类操作；

[0028] 步骤R6：对各聚类按其聚类中心的Hilbert码值进行升序排列，当聚类中的数据量小于等于Hilbert R‑tree节点的最大容量时，则将其构成一个叶节点，否则将聚类中的对象按Hilbert码值进行升序排列，顺序构成若干个叶节点；

[0029] 步骤R7：按生成叶节点的时间顺序自下而上构成各层的中间节点和根节点，最终生成一棵Hilbert R‑tree树。

[0030] 作为一种优选的技术方案，所述CURE聚类算法预处理是将随机取样得到的每个点或者数据集都视为一个聚类，并将距离最近的聚类联合，直到聚类的个数满足指定的k，具体流程如下：

[0031] 步骤C1：对原始数据集X＝{xi|i＝1,2,3,...,m}，随机抽取n个样本，S＝{x0,x1,...,xn‑1}；

[0032] 步骤C2：获取样本S的坐标点集，并随机初始化多个聚类中心；

[0033] 步骤C3：在第k次迭代中，对任意一个样本点，将没有同属于一个标注的样本点的聚类作为候选聚类；

[0034] 步骤C4：获取到各候选聚类中心的欧式距离,并将该样本点归到距离最短的中心所在的候选聚类；

[0035] 步骤C5：利用均值更新每个聚类的中心,对于K个聚类中心,迭代法更新后,若值保持不变,则迭代结束。

[0036] 作为一种优选的技术方案，所述步骤S1中，最小取样量数据采用切诺夫边界来确定最小取样数据量：

[0037]

[0038] 式中，ζ为最小聚类包含的数据点数，δ为属于聚类的数据点的个数小于n/p的概率。

[0039] 作为一种优选的技术方案，所述步骤R5中，聚类的操作步骤如下：

[0040] 步骤R51：将每个对象看作一个独立的聚类，聚类的中心点为MBB的中心点，并设为center Mi(ai,bi,ci)；

[0041] 步骤R52：依次计算两两MBB之间的距离，公式为：

[0042]

[0043] 式中，最短距离h＝hmin；

[0044] 步骤R53：若2个MBB之间的距离h小于等于hmin，则将其对应数据对象合并为一个聚类；

[0045] 步骤R54：若该合成聚类的数据量达到Hilbert R‑tree节点的最大容量，则结束该聚类并返回步骤R52，否则以其新的聚类中心作为中心点计算该聚类与其他聚类之间的距离，如果距离小于等于hmin，则将它们再进行合并；

[0046] 步骤R55：重复步骤R54，直至在该分区完成聚类。

[0047] 本发明具有以下有益效果：

[0048] 本发明通过对海量数据进行分析、分类和划分，经过聚类的数据体应用Hilbert R‑tree创建索引，按照多层次的数据治理建模技术将各种模型元素构建成多层次的数据流程的总体模型来处理管控数据，提高数据读取速度和系统性能。

[0049] 当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

[0050] 为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0051] 图1为本发明的一种基于海量数据快速数据治理方法流程图。

具体实施方式

[0052] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

[0053] 请参阅图1所示，本发明为一种基于海量数据快速数据治理方法，包括如下步骤：

[0054] 步骤S1：对获取的海量数据进行分析，根据其特点和治理要求由上至下进行流程的分解、分类和划分每个数据的层次类别；

[0055] 步骤S2：对数据采用CURE的方法进行分类，对经过聚类的数据体应用Hilbert R‑tree构建索引；

[0056] 步骤S3：根据数据类别的划分结果，对每个分解的数据进行整理输出；

[0057] 步骤S4：针对每个输出的数据点和状态值定义的多层次数据的元素对象，对每个数据进行层级、元素类别、属性的模型概念定义；

[0058] 步骤S5：按照多层次的数据治理建模技术将各种模型元素构建成多层次的数据流程的总体模型；

[0059] 步骤S6：对总体的多层次数据流程模型运行实际的数据实例并进行监控和管理。

[0060] 在CURE聚类的基础上使用Hilbert R‑tree对载入数据建立快速索引,其次结合视点运动速度及位置判断视点是否规则运动,若视点规则运动,则结合相应的约束条件,建立可视化区域预测模型,将数据划分为可见域、预测域、非加载域,然后将预测域和可见域数据导入GPU,GPU对可见域数据进行渲染、显示,随着视点坐标的变化,GPU直接加载位于显存缓存区的预测域中的数据块,并将非加载域数据块从显存中卸载。如果判断视点不移动或随机移动,则不执行预预加载操作,直接将当前视点对应的可视区域导入内存供GPU加载显示。

[0061] 步骤S1中，数据由上至下依次划分成节点元素、事务元素、环节元素和任务元素；节点元素，用于包含所有各类数据所一栏或归属的外部实体对象；事务元素，用于表示节点下为达成处理目标而发生的所有活动的集合；环节元素，用于表示组成事务的业务活动集合；任务元素，用于表示完成子业务活动所执行的逻辑操作，任务与院子逻辑炒作一一对应。

[0062] 步骤S2中，CURE聚类算法预处理是将随机取样得到每个数据或者数据集都视为一个聚类，然后将最近聚类的联合，直到聚类的个数满足指定的k。

[0063] CURE聚类算法具体步骤如下：

[0064] CURE1：对原数据集随机抽取一部分样本作为子集；

[0065] CURE2：采用切诺夫边界来确定最小取样数据量；

[0066] CURE3：对子集进行划分，在划分后的集合上运行CURE聚类算法得到每个集合的簇；

[0067] CURE4：删除每个几个簇的离群点；

[0068] CURE5：对这些簇进一步进行CURE层次聚类，删除其中的离群点；

[0069] CURE6：对磁盘中剩余的数据集样本点进行划分，从而实现全局聚类。

[0070] 步骤S2中，Hilbert R‑tree构建索引具体步骤如下：

[0071] 步骤R1：构建三维Hilbert空间填充曲线；

[0072] 步骤R2：从空间集S中取n个样本的数据对象，计算每个对象的最小包围盒边界坐标；

[0073] 步骤R3：将这n个数据对象划分为P个分区，对每个分区执行聚类操作；

[0074] 步骤R4：删除第一次聚类过程中的离群点后，在新生成的簇上执行聚类操作，然后移除第二聚类过程中的异常点，并获得最终的聚类结果；

[0075] 步骤R5：计算剩余MBB的中心与每个现有聚类中心之间的距离，并按距离最近准则将剩余数据合并到相应的聚类中，完成全局的聚类操作；

[0076] 步骤R6：对各聚类按其聚类中心的Hilbert码值进行升序排列，当聚类中的数据量小于等于Hilbert R‑tree节点的最大容量时，则将其构成一个叶节点，否则将聚类中的对象按Hilbert码值进行升序排列，顺序构成若干个叶节点；

[0077] 步骤R7：按生成叶节点的时间顺序自下而上构成各层的中间节点和根节点，最终生成一棵Hilbert R‑tree树。

[0078] CURE聚类算法预处理是将随机取样得到的每个点或者数据集都视为一个聚类，并将距离最近的聚类联合，直到聚类的个数满足指定的k，具体流程如下：

[0079] 步骤C1：对原始数据集X＝{xi|i＝1,2,3,...,m}，随机抽取n个样本，S＝{x0,x1,...,xn‑1}；

[0080] 步骤C2：获取样本S的坐标点集，并随机初始化多个聚类中心；

[0081] 步骤C3：在第k次迭代中，对任意一个样本点，将没有同属于一个标注的样本点的聚类作为候选聚类；

[0082] 步骤C4：获取到各候选聚类中心的欧式距离,并将该样本点归到距离最短的中心所在的候选聚类；

[0083] 步骤C5：利用均值更新每个聚类的中心,对于K个聚类中心,迭代法更新后,若值保持不变,则迭代结束。

[0084] 步骤S1中，最小取样量数据采用切诺夫边界来确定最小取样数据量：

[0085]

[0086] 式中，ζ为最小聚类包含的数据点数，δ为属于聚类的数据点的个数小于n/p的概率。

[0087] 步骤R5中，聚类的操作步骤如下：

[0088] 步骤R51：将每个对象看作一个独立的聚类，聚类的中心点为MBB的中心点，并设为center Mi(ai,bi,ci)；

[0089] 步骤R52：依次计算两两MBB之间的距离，公式为：

[0090]

[0091] 式中，最短距离h＝hmin；

[0092] 步骤R53：若2个MBB之间的距离h小于等于hmin，则将其对应数据对象合并为一个聚类；

[0093] 步骤R54：若该合成聚类的数据量达到Hilbert R‑tree节点的最大容量，则结束该聚类并返回步骤R52，否则以其新的聚类中心作为中心点计算该聚类与其他聚类之间的距离，如果距离小于等于hmin，则将它们再进行合并；

[0094] 步骤R55：重复步骤R54，直至在该分区完成聚类。

[0095] 值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

[0096] 另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

[0097] 以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

一种基于海量数据快速数据治理方法转让专利

申请号 : CN202210322898.9

文献号 : CN114707039B

文献日 : 2023-03-17

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 杨永青

申请人 : 安徽体育运动职业技术学院

摘要 :

权利要求 :

说明书 :