一种基于分布模型下的大数据交叉索引方法转让专利

申请号 : CN202111119891.9

文献号 : CN113836141B

文献日 : 2022-04-19

本发明公开了一种基于分布模型下的大数据交叉索引方法，包括：获取待分析处理数据及所述待分析处理数据对应的数据类型；根据所述数据类型对所述待分析处理数据进行聚类分析，得到若干个分类集合；根据所述若干个分类集合基于交叉索引技术建立分布模型。用递归的方式把所有维度与其他维度所关联，组织维度和维度之间的关系，迅速在各个维度之间建立交叉索引,其效率和速度大大提高，实现快速高效的查询和分析，而占用资源却大大降低。

1.一种基于分布模型下的大数据交叉索引方法，其特征在于，包括：获取待分析处理数据及所述待分析处理数据对应的数据类型；

根据所述数据类型对所述待分析处理数据进行聚类分析，得到若干个分类集合；

根据所述若干个分类集合基于交叉索引技术建立分布模型；

还包括：

在建立分布模型后，确定为目标分布模型，获取目标分布模型的第一模型信息；所述第一模型信息包括构建目标分布模型的待分析处理数据的类型、维度字段；

获取若干个历史分布模型及所述若干个历史分布模型的第二模型信息；所述第二模型信息包括构建历史分布模型的待分析处理数据的类型、维度字段；

根据所述第一模型信息及所述第二模型信息确定所述目标分布模型与所述若干个历史分布模型的关联度，并根据所述关联度从高到低进行排序，确定历史分布模型的排队队列；

根据所述目标分布模型进行业务处理，在业务处理过程中，根据所述目标分布模型的模型标识确定预设时间段内参与业务处理的参与频率，并将所述参与频率与预设参与频率进行比较，根据比较结果确定所述目标分布模型进行业务处理是否合法；

在确定所述目标分布模型进行业务处理合法时，确定目标数据，根据所述目标数据确定所述目标分布模型在进行数据请求时的权限等级；

根据所述权限等级确定目标关联度，并根据所述目标关联度确定所述排队队列中对应的历史分布模型，将对应的历史分布模型及对应的历史分布模型之后的历史分布模型均作为数据供方分布模型，并将所述对应的历史分布模型作为第一个数据供方分布模型；

生成数据请求信息，将所述数据请求信息发送至第一个数据供方分布模型；

获取所述第一个数据供方分布模型返回的反馈信息，根据所述反馈信息对所述数据请求信息进行更新，将更新后的数据请求信息发送至第二个数据供方分布模型；

根据第二个数据供方分布模型返回的反馈信息，对更新后的数据请求信息再次进行更新后发送至下一个数据供方分布模型；对所述数据请求信息根据得到的若干个反馈信息进行不断更新以生成目标数据；

根据所述目标数据及所述目标分布模型进行业务处理。

2.如权利要求1所述的基于分布模型下的大数据交叉索引方法，其特征在于，所述根据所述若干个分类集合基于交叉索引技术建立分布模型，包括：将每一个分类集合中的待分析处理数据分为用于分析的维度字段、用于对维度做描述的信息字段和用于统计分析的摘要字段；

根据所述维度字段、信息字段及摘要字段建立分布模型。

3.如权利要求2所述的基于分布模型下的大数据交叉索引方法，其特征在于，所述维度字段的获取方法，包括：

获取每一个分类集合内的不同待分析处理数据之间的类内关联关系；

获取不同分类集合间的待分析处理数据之间的类间关联关系；

根据所述类内关联关系及所述类间关联关系基于交叉索引技术确定所述维度字段。

4.如权利要求2所述的基于分布模型下的大数据交叉索引方法，其特征在于，所述根据所述维度字段、信息字段及摘要字段建立分布模型，包括：基于计算函数对所述摘要字段进行建模前的计算修改；

基于所述信息字段建立描述脚本，运行描述脚本中设计好的操作程序来进行建模；

在建模过程中，对所述维度字段包括的分析维度使用交叉索引技术进行辅助以加快数据量的访问速度，最终建立分布模型。

5.如权利要求1所述的基于分布模型下的大数据交叉索引方法，其特征在于，所述分布模型包括具体数据，且以模型文件形式存放，所述模型文件还包括数据分析统计信息。

6.如权利要求1所述的基于分布模型下的大数据交叉索引方法，其特征在于，还包括对建立的分布模型进行管理，包括：

获取所述分布模型的维度，在确定所述维度大于预设维度时，将所述分布模型确定为第一类模型，将所述第一类模型中的维度进行归类，并将所述第一类模型中的信息字段转换为动态维度；

或

对增量的数据进行定时抽取和建模，将增量的数据确定的分布模型作为第二类模型，获取历史创建的分布模型，将所述第二类模型与所述历史创建的分布模型进行纵向合并；

或

获取现有分布模型的数量，在确定所述数量大于预设数量时，获取所述现有分布模型的维度字段，建立现有分布模型之间维度字段的关联关系，根据所述关联关系基于关联查询功能进行现有分布模型之间的匹配，实现所述现有分布模型的横向合并。

7.如权利要求6所述的基于分布模型下的大数据交叉索引方法，其特征在于，在对建立的分布模型进行管理后，将管理操作生成一个索引路径的管理文件，所述管理文件用于保存管理操作的逻辑关系，不保存具体数据。

8.如权利要求1所述的基于分布模型下的大数据交叉索引方法，其特征在于，所述分布模型采用星型构架和以二进制为基础的数据管理模式。

9.如权利要求1所述的基于分布模型下的大数据交叉索引方法，其特征在于，还包括：建立所述分布模型的数据矩阵，根据所述数据矩阵确定所述分布模型的评价指标；

建立评价指标之间的关联关系，生成评价指标体系；

设置所述评价指标体系中评价指标的权重及计算参数；

对所述分布模型根据所述评价指标体系进行综合评价，计算得到评价值，并判断是否小于预设评价值；在确定所述评价值小于预设评价值时，对所述分布模型进行重新构建。

一种基于分布模型下的大数据交叉索引方法

技术领域

[0001] 本发明涉及大数据处理技术领域，特别涉及一种基于分布模型下的大数据交叉索引方法。

背景技术

[0002] 随着大数据的时代的到来,大数据技术发展迅猛,其中最为典型的变化是计算模式的丰富多样,由最初的批处理计算发展到后来的流计算,实时交互式计算等。但不同的计
算框架的应用场景比较有限,批处理计算虽能轻松处理海量数据,但响应时间较长；与批处
理不同,流式计算是一种连续计算的模式,能够快速响应用户事件；实时交互计算以一种交
互式的方式实现大数据处理,也有着快速的响应速度。由于大数据应用场景越来越复杂,传
统的单一计算框架模式不能很好的满足数据应用的要求。现在出现了一些关于混合系统的
研究,旨在融合多种计算系统,统一大数据计算平台提供多种计算服务。

[0003] 联机分析处理的概念最早由关系数据库之父E.F.Codd于1993年提出。Codd认为，联机事务处理已不能满足终端用户对数据库查询分析的要求，SQL对大容量数据库的简单
查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量的计算才能
得到结果，而查询的结果并不能满足决策者提出的需求。因此，Codd提出了多维数据库和多
维分析的概念，即OLAP。OLAP委员会对联机分析处理的定义为：使分析人员、管理人员或执
行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反
映企业维特性的信息进行快速、一致、交互的存取，从而获得对数据更深入了解的一类软件
技术。

[0004] 联机分析处理的主要特点，是直接仿照用户的多角度思考模式，预先为用户组建多维的分布模型，在这里，维指的是用户的分析角度。例如对销售数据的分析，时间周期是
一个维度，产品类别、分销渠道、地理分布、客户群类也分别是一个维度。一旦多维分布模型
建立完成，用户可以快速地从各个分析角度获取数据，也能动态的在各个角度之间切换或
者进行多角度综合分析，具有极大的分析灵活性。这也是联机分析处理被广泛关注的根本
原因，它从设计理念和真正实现上都与旧有的数据处理系统有着本质的区别。

[0005] 在数据量大的情况下，对表关联后再进行实时的聚合，group by，sum,count等操作，传统大数据分析和计算都是基于数据库索引，对所需的数据字段进行汇总计算，多个字
段之间的关系没有任何处理和缓存，基于不同数据库的性能瓶颈，会需要较长的响应时间，
特别是在Hadoop架构之上进行表之间的join关联操作,效率非常低,占用计算资源大,这在
大数据时代,无法实时满足大数据计算和分析需要。

发明内容

[0006] 本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此，本发明的目的在于提出一种基于分布模型下的大数据交叉索引方法，用递归的方式把所有维度与其他
维度所关联，组织维度和维度之间的关系，迅速在各个维度之间建立交叉索引,其效率和速
度大大提高，实现快速高效的查询和分析，而占用资源却大大降低。

[0007] 为达到上述目的，本发明实施例提出了一种基于分布模型下的大数据交叉索引方法，包括：

[0008] 获取待分析处理数据及所述待分析处理数据对应的数据类型；

[0009] 根据所述数据类型对所述待分析处理数据进行聚类分析，得到若干个分类集合；

[0010] 根据所述若干个分类集合基于交叉索引技术建立分布模型。

[0011] 根据本发明的一些实施例，所述根据所述若干个分类集合基于交叉索引技术建立分布模型，包括：

[0012] 将每一个分类集合中的待分析处理数据分为用于分析的维度字段、用于对维度做描述的信息字段和用于统计分析的摘要字段；

[0013] 根据所述维度字段、信息字段及摘要字段建立分布模型。

[0014] 根据本发明的一些实施例，所述维度字段的获取方法，包括：

[0015] 获取每一个分类集合内的不同待分析处理数据之间的类内关联关系；

[0016] 获取不同分类集合间的待分析处理数据之间的类间关联关系；

[0017] 根据所述类内关联关系及所述类间关联关系基于交叉索引技术确定所述维度字段。

[0018] 根据本发明的一些实施例，所述根据所述维度字段、信息字段及摘要字段建立分布模型，包括：

[0019] 基于计算函数对所述摘要字段进行建模前的计算修改；

[0020] 基于所述信息字段建立描述脚本，运行描述脚本中设计好的操作程序来进行建模；

[0021] 在建模过程中，对所述维度字段包括的分析维度使用交叉索引技术进行辅助以加快数据量的访问速度，最终建立分布模型。

[0022] 根据本发明的一些实施例，所述分布模型包括具体数据，且以模型文件形式存放，所述模型文件还包括数据分析统计信息。

[0023] 根据本发明的一些实施例，还包括对建立的分布模型进行管理，包括：

[0024] 获取所述分布模型的维度，在确定所述维度大于预设维度时，将所述分布模型确定为第一类模型，将所述第一类模型中的维度进行归类，并将所述第一类模型中的信息字
段转换为动态维度；

[0025] 或

[0026] 对增量的数据进行进行定时抽取和建模，将增量的数据确定的分布模型作为第二类模型，获取历史创建的分布模型，将所述第二类模型与所述历史创建的分布模型进行纵
向合并；

[0027] 或

[0028] 获取现有分布模型的数量，在确定所述数量大于预设数量时，获取所述现有分布模型的维度字段，建立现有分布模型之间维度字段的关联关系，根据所述关联关系基于关
联查询功能进行现有分布模型之间的匹配，实现所述现有分布模型的横向合并。

[0029] 根据本发明的一些实施例，在对建立的分布模型进行管理后，将管理操作生成一个索引路径的管理文件，所述管理文件用于保存管理操作的逻辑关系，不保存具体数据。

[0030] 根据本发明的一些实施例，所述分布模型采用星型构架和以二进制为基础的数据管理模式。

[0031] 根据本发明的一些实施例，还包括：

[0032] 在建立分布模型后，确定为目标分布模型，获取目标分布模型的第一模型信息；

[0033] 获取若干个历史分布模型及所述若干个历史分布模型的第二模型信息；

[0034] 根据所述第一模型信息及所述第二模型信息确定所述目标分布模型与所述若干个历史分布模型中的关联度，并根据所述关联度从高到低进行排序，确定历史分布模型的
排队队列；

[0035] 根据所述目标分布模型进行业务处理，在业务处理过程中，根据所述目标分布模型的模型标识确定预设时间段内参与业务处理的参与频率，并将所述参与频率与预设参与
频率进行比较，根据比较结果确定所述目标分布模型进行业务处理是否合法；

[0036] 在确定所述目标分布模型进行业务处理合法时，确定目标数据，根据所述目标数据确定所述目标分布模型在进行数据请求时的权限等级；

[0037] 根据所述权限等级确定目标关联度，并根据所述目标关联度确定所述排队队列中对应的历史分布模型，将对应的历史分布模型及对应的历史分布模型之后的历史分布模型
均作为数据供方分布模型，并将所述对应的历史分布模型作为第一个数据供方分布模型；

[0038] 生成数据请求信息，将所述数据请求信息发送至第一个数据供方分布模型；

[0039] 获取所述第一个数据供方分布模型返回的反馈信息，根据所述反馈信息对所述数据请求信息进行更新，将更新后的数据请求信息发送至第二个数据供方分布模型；

[0040] 重复上述步骤，直至根据得到的若干个反馈信息生成目标数据；

[0041] 根据所述目标数据及所述目标分布模型进行业务处理。

[0042] 根据本发明的一些实施例，还包括：

[0043] 建立所述分布模型的数据矩阵，根据所述数据矩阵确定所述分布模型的评价指标；

[0044] 建立评价指标之间的关联关系，生成评价指标体系；

[0045] 设置所述评价指标体系中评价指标的权重及计算参数；

[0046] 对所述分布模型根据所述评价指标体系进行综合评价，计算得到评价值，并判断是否小于预设评价值；在确定所述评价值小于预设评价值时，对所述分布模型进行重新构
建。

[0047] 有益效果：

[0048] 1、基于阵列的多维度交叉索引技术可以把大量不同的源数据转换成高度优化的模型，是报表、数据分析和数据可视化的理想选择。通过运用数据索引一切可能的查询路
径，不管模型有多少个维度，抑或运算有多么复杂，独特的分布模型仍然能迅速持久地对分
析型查询、报表、仪表盘及可视化作出反应。

[0049] 2、强大灵活的分布模型使用户在不需要对基本数据结构全面了解的情况下，从一个维度"潜入"另一个任意的维度。多维分布模型运用了改良的星型构架和以二进制为基础
的数据管理模式。这种数据管理结构排除了数据分级或当下行业内及传统数据处理软件中
其他数据导航方面的限制。通常，维护特殊数据仓库、传统关系型或多维联机分析技术
(OLAP)会产生专门成本，基于星型结构可减少对这种成本的需求。基于独特的分布模型和
综合信息合并组件可将创建数据仓库产生的额外开销降到最低，甚至直接省去。

[0050] 3、本技术的分布模型以及它对内存技术的独到运用，成就了持续得到快速反应的用户体验，且不受潜在数据量大小的影响。本技术执行以它总体偏低的购置成本、高效的价
值产生和快速的布局得到广泛认可。

[0051] 4、依靠灵活的综合平台功能，相对于传统数据处理技术，本技术执行起来尤为迅速。本技术占用资源较少归因于以下三点∶第一，避免传统OLAP工具带来的额外数据库成本
消耗；第二，利用现有数据储存和操作系统；第三，协调内存中的数据量，追求性能最大化。
本技术不需要购买或得到任何基本数据库的授权，也不需要昂贵且先于价值产生之前的数
据仓库建设成本。传统基于OLAP的BI技术通常需要基本数据库或数据仓库来建设和分配数
据立方体或专门的数据仓库，即便这一切都发生在数据分析和报表产生之前。这种隐性成
本给原本希望避免传统BI技术或专业分析应用开销，转而直接寻求报表和数据分析功能的
企业设置了巨大障碍。

[0052] 5、新数据源的快速增加并不会增加解决方案本身的成本。添加新用户简单易行，本技术用户数量可随着部署的扩大而简单迅速地展开，将BI带来的利益分配至企业的各个
角落。在相对较短的时间内，本技术能获得很多便利，例如收益增加，成本大量节省，花在报
表上的工作时间减少，更通畅的客户联系等，此外，在投资对象和一体化销售程序方面也有
了更多基于数据的成功决策。

[0053] 6、本技术能达到内存中最佳的数据平衡，因此它可以将系统性能最大化，这样用户就能得到持续快速的反应。快速的部署和性能最大化使用户真正体验到了"大数据价
值"，以更快的速度为企业增值。

[0054] 本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明
书以及附图中所特别指出的结构来实现和获得。

[0055] 下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

[0056] 附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

[0057] 图1是根据本发明第一个实施例的一种基于分布模型下的大数据交叉索引方法的流程图；

[0058] 图2是根据本发明第二个实施例的一种基于分布模型下的大数据交叉索引方法的流程图；

[0059] 图3是根据本发明第三个实施例的一种基于分布模型下的大数据交叉索引方法的流程图；

[0060] 图4是根据本发明第一个实施例的模型文件里的逻辑结构的示意图；

[0061] 图5是根据本发明第二个实施例的模型文件里的逻辑结构的示意图；

[0062] 图6是根据本发明第三个实施例的模型文件里的逻辑结构的示意图。

具体实施方式

[0063] 以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

[0064] 如图1所示，本发明实施例提出了一种基于分布模型下的大数据交叉索引方法，包括步骤S1‑S3：

[0065] S1、获取待分析处理数据及所述待分析处理数据对应的数据类型；

[0066] S2、根据所述数据类型对所述待分析处理数据进行聚类分析，得到若干个分类集合；

[0067] S3、根据所述若干个分类集合基于交叉索引技术建立分布模型。

[0068] 上述技术方案的工作原理：获取待分析处理数据及所述待分析处理数据对应的数据类型；根据所述数据类型对所述待分析处理数据进行聚类分析，得到若干个分类集合；根
据所述若干个分类集合基于交叉索引技术建立分布模型。对需要分析处理的数据建立分布
模型，通过对数据的自由交叉索引处理，实现任意“维”之间的关联和潜入来获取最需要的
信息，即多维度交叉分析。在来自于不用类型数据源的数据之间自由交叉，通过建模之后，
用户获得了有效的处理信息。分布模型也即数据模型。

[0069] 上述技术方案的有益效果：用递归的方式把所有维度与其他维度所关联，组织维度和维度之间的关系，迅速在各个维度之间建立交叉索引,其效率和速度大大提高，实现快
速高效的查询和分析，而占用资源却大大降低。

[0070] 如图2所示，根据本发明的一些实施例，所述根据所述若干个分类集合基于交叉索引技术建立分布模型，包括：

[0071] S31、将每一个分类集合中的待分析处理数据分为用于分析的维度字段、用于对维度做描述的信息字段和用于统计分析的摘要字段；

[0072] S32、根据所述维度字段、信息字段及摘要字段建立分布模型。

[0073] 上述技术方案的工作原理：对数据建立模型，所有的信息划分为的三个组成要素：用于分析的维度字段、用于对维度做描述的信息字段和用于统计分析的摘要字段。根据所
述维度字段、信息字段及摘要字段建立分布模型。分布模型中包含了3个数据域：维、摘要和
信息字段。建模中被定义成维的字段是被做经过交叉索引处理的，可以对任意维和维之间
相互快速的潜入来获取我们最需要的信息。数据中用来做数学统计的字段被定义成摘要。
信息字段包含了和维相关的额外信息。

[0074] 上述技术方案的有益效果：实现不用类型数据源的数据之间自由交叉，保证建立的分布模型的准确性。

[0075] 根据本发明的一些实施例，所述维度字段的获取方法，包括：

[0076] 获取每一个分类集合内的不同待分析处理数据之间的类内关联关系；

[0077] 获取不同分类集合间的待分析处理数据之间的类间关联关系；

[0078] 根据所述类内关联关系及所述类间关联关系基于交叉索引技术确定所述维度字段。

[0079] 上述技术方案的工作原理：获取每一个分类集合内的不同待分析处理数据之间的类内关联关系；获取不同分类集合间的待分析处理数据之间的类间关联关系；根据所述类
内关联关系及所述类间关联关系基于交叉索引技术确定所述维度字段。

[0080] 上述技术方案的有益效果：根据所述类内关联关系及所述类间关联关系保证确定维度字段的准确性。

[0081] 如图3所示，根据本发明的一些实施例，所述根据所述维度字段、信息字段及摘要字段建立分布模型，包括：

[0082] S321、基于计算函数对所述摘要字段进行建模前的计算修改；

[0083] S322、基于所述信息字段建立描述脚本，运行描述脚本中设计好的操作程序来进行建模；

[0084] S323、在建模过程中，对所述维度字段包括的分析维度使用交叉索引技术进行辅助以加快数据量的访问速度，最终建立分布模型。

[0085] 上述技术方案的工作原理：提供了大量的计算函数来对一些摘要字段进行建模前的计算修改。基于所述信息字段建立描述脚本，当用户在描述脚本中设计好这些操作时程
序会运行这个脚本来进行建模，并且在建模的过程中对对所述维度字段包括的分析维度使
用“交叉索引”的技术，以加快数据量的访问速度，最终建立分布模型。

[0086] 上述技术方案的有益效果：提高建立的分布模型的准确性。

[0087] 根据本发明的一些实施例，所述分布模型包括具体数据，且以模型文件形式存放，所述模型文件还包括数据分析统计信息。

[0088] 上述技术方案的工作原理及有益效果：分布模型包括具体数据，且以模型文件形式存放，用户之后的数据分析统计都将基于该数据模型文件，脱离了数据库形式的数据仓
库模式，节省现有技术中基于数据库进行数据处理的成本。

[0089] 在数据模型文件中，程序已经对所有设计好的维度进行分析，并组织维度和维度之间的关系。每个维度使用递归的方式与其他维度所关联，并建立交叉索引，所以模型文件
的大小会比原始的数据文件要大，这取决于用户所设计的维度和数据量多少来决定。

[0090] 如图4‑6展示了数据模型文件里的逻辑结构，具体的，在图4中，首先会对查询“规格”表里面的数据，然后将规格表中的数据，比如“听”去连接客户、产品、发票的其他的表，
再一层，基于“听‑客户‑摘要表”的“Dan”连接“听‑Dan‑产品摘要表”实现各个维度件的不断
交叉索引，直到所有的数据都相互关联完毕。图5‑图6为相同的原理。

[0091] 模型文件可以分散存储在多台独立的设备上。

[0092] 根据本发明的一些实施例，还包括对建立的分布模型进行管理，包括：

[0093] 获取所述分布模型的维度，在确定所述维度大于预设维度时，将所述分布模型确定为第一类模型，将所述第一类模型中的维度进行归类，并将所述第一类模型中的信息字
段转换为动态维度；

[0094] 或

[0095] 对增量的数据进行进行定时抽取和建模，将增量的数据确定的分布模型作为第二类模型，获取历史创建的分布模型，将所述第二类模型与所述历史创建的分布模型进行纵
向合并；

[0096] 或

[0097] 获取现有分布模型的数量，在确定所述数量大于预设数量时，获取所述现有分布模型的维度字段，建立现有分布模型之间维度字段的关联关系，根据所述关联关系基于关
联查询功能进行现有分布模型之间的匹配，实现所述现有分布模型的横向合并。

[0098] 上述技术方案的工作原理及有益效果：获取所述分布模型的维度，在确定所述维度大于预设维度时，将所述分布模型确定为第一类模型，将所述第一类模型中的维度进行
归类，并将所述第一类模型中的信息字段转换为动态维度；即对维度多且复杂的分布模型，
可以将分布模型中的维度进行规类，以方便用户的分析潜入，并且可以将分布模型中的信
息字段转换成“动态维度”，用户同样可以在这些“动态维度”上进行潜入分析。对增量的数
据进行进行定时抽取和建模，将增量的数据确定的分布模型作为第二类模型，获取历史创
建的分布模型，将所述第二类模型与所述历史创建的分布模型进行纵向合并；而无须重新
建立新模型，节省时间及成本，从而可以完成用户所关心的数据增量的问题。获取现有分布
模型的数量，在确定所述数量大于预设数量时，获取所述现有分布模型的维度字段，建立现
有分布模型之间维度字段的关联关系，根据所述关联关系基于关联查询功能进行现有分布
模型之间的匹配，实现所述现有分布模型的横向合并，从而帮助用户增加更多的分析点来
用于数据挖掘分析。

[0099] 根据本发明的一些实施例，在对建立的分布模型进行管理后，将管理操作生成一个索引路径的管理文件，所述管理文件用于保存管理操作的逻辑关系，不保存具体数据。

[0100] 上述技术方案的有益效果：提高对管理文件的有效管理，节省内存，同时提高了分布模型的管理的效率。

[0101] 根据本发明的一些实施例，所述分布模型采用星型构架和以二进制为基础的数据管理模式。

[0102] 根据本发明的一些实施例，还包括：

[0103] 在建立分布模型后，确定为目标分布模型，获取目标分布模型的第一模型信息；

[0104] 获取若干个历史分布模型及所述若干个历史分布模型的第二模型信息；

[0105] 根据所述第一模型信息及所述第二模型信息确定所述目标分布模型与所述若干个历史分布模型中的关联度，并根据所述关联度从高到低进行排序，确定历史分布模型的
排队队列；

[0106] 根据所述目标分布模型进行业务处理，在业务处理过程中，根据所述目标分布模型的模型标识确定预设时间段内参与业务处理的参与频率，并将所述参与频率与预设参与
频率进行比较，根据比较结果确定所述目标分布模型进行业务处理是否合法；

[0107] 在确定所述目标分布模型进行业务处理合法时，确定目标数据，根据所述目标数据确定所述目标分布模型在进行数据请求时的权限等级；

[0108] 根据所述权限等级确定目标关联度，并根据所述目标关联度确定所述排队队列中对应的历史分布模型，将对应的历史分布模型及对应的历史分布模型之后的历史分布模型
均作为数据供方分布模型，并将所述对应的历史分布模型作为第一个数据供方分布模型；

[0109] 生成数据请求信息，将所述数据请求信息发送至第一个数据供方分布模型；

[0110] 获取所述第一个数据供方分布模型返回的反馈信息，根据所述反馈信息对所述数据请求信息进行更新，将更新后的数据请求信息发送至第二个数据供方分布模型；

[0111] 重复上述步骤，直至根据得到的若干个反馈信息生成目标数据；

[0112] 根据所述目标数据及所述目标分布模型进行业务处理。

[0113] 上述技术方案的工作原理：在建立分布模型后，确定为目标分布模型，获取目标分布模型的第一模型信息；第一模型信息包括构建目标分布模型的待分析处理数据的类型、
维度字段等。获取若干个历史分布模型及所述若干个历史分布模型的第二模型信息；根据
所述第一模型信息及所述第二模型信息确定所述目标分布模型与所述若干个历史分布模
型中的关联度，并根据所述关联度从高到低进行排序，确定历史分布模型的排队队列；根据
所述目标分布模型进行业务处理，在业务处理过程中，根据所述目标分布模型的模型标识
确定预设时间段内参与业务处理的参与频率，并将所述参与频率与预设参与频率进行比
较，根据比较结果确定所述目标分布模型进行业务处理是否合法；在确定参与频率小于等
于预设频率时，表示所述目标分布模型进行业务处理是合法的。在确定所述目标分布模型
进行业务处理合法时，确定目标数据，根据所述目标数据确定所述目标分布模型在进行数
据请求时的权限等级；目标数据为所述目标分布模型进行业务处理的所缺数据。根据所述
权限等级确定目标关联度，并根据所述目标关联度确定所述排队队列中对应的历史分布模
型，将对应的历史分布模型及对应的历史分布模型之后的历史分布模型均作为数据供方分
布模型，并将所述对应的历史分布模型作为第一个数据供方分布模型；生成数据请求信息，
将所述数据请求信息发送至第一个数据供方分布模型；获取所述第一个数据供方分布模型
返回的反馈信息，根据所述反馈信息对所述数据请求信息进行更新，将更新后的数据请求
信息发送至第二个数据供方分布模型；重复上述步骤，直至根据得到的若干个反馈信息生
成目标数据；根据所述目标数据及所述目标分布模型进行业务处理。

[0114] 上述技术方案的有益效果：在基于目标分布模型进行业务处理时，首先确定历史分布模型的排队队列，便于在进行业务处理时，从历史分布模型中调用相关数据。判断目标
分布模型进行业务处理是否合法，可以提高基于目标分布模型进行业务处理的安全性，保
证数据的安全性，避免数据被盗用。基于根据所述目标数据确定所述目标分布模型在进行
数据请求时的权限等级，进而确定目标关联度，不涉及更高等级的数据，便于保证数据的安
全性，实现不同等级的数据获取级别。根据反馈信息对数据请求信息进行不断更新，保证数
据请求信息更加具有针对性，数据供方分布模型根据更新后的数据请求信息快速且准确的
确定反馈信息，缩短获取目标数据的时间，便于根据所述目标数据及所述目标分布模型快
速进行业务处理，提高进行业务处理的效率及准确性。

[0115] 根据本发明的一些实施例，还包括：

[0116] 建立所述分布模型的数据矩阵，根据所述数据矩阵确定所述分布模型的评价指标；

[0117] 建立评价指标之间的关联关系，生成评价指标体系；

[0118] 设置所述评价指标体系中评价指标的权重及计算参数；

[0119] 对所述分布模型根据所述评价指标体系进行综合评价，计算得到评价值，并判断是否小于预设评价值；在确定所述评价值小于预设评价值时，对所述分布模型进行重新构
建。

[0120] 上述技术方案的工作原理：建立所述分布模型的数据矩阵，根据所述数据矩阵确定所述分布模型的评价指标；建立评价指标之间的关联关系，生成评价指标体系；设置所述
评价指标体系中评价指标的权重及计算参数；对所述分布模型根据所述评价指标体系进行
综合评价，计算得到评价值，并判断是否小于预设评价值；在确定所述评价值小于预设评价
值时，对所述分布模型进行重新构建。数据矩阵为基于分布模型包括的待分析处理数据抽
象得到的，可以准确将分布模型中的有效数据进行全面且准确的展示，避免进行综合评价
时，有效数据的缺失问题。评价指标包括数据质量指标、完整性指标、冗余性指标等。

[0121] 上述技术方案的有益效果：便于准确验证建立的分布模型的合理性，在确定分布模型不合理时，进行重新构建，保证对数据处理的准确性。

[0122] 在一实施例中，根据所述关联关系基于关联查询功能进行现有分布模型之间的匹配，实现所述现有分布模型的横向合并，包括：

[0123] 将第一个现有分布模型中包括的第一图像与第二个现有分布模型中包括的第二图像进行图像融合处理，得到融合图像；

[0124] 对所述融合图像进行评估，计算得到评估值，根据所述评估值查询预设的评估值‑融合质量等级表，得到第一个现有分布模型及第二个现有分布模型的融合质量等级，在确
定所述融合质量等级小于预设融合质量等级时，对第一个现有分布模型及第二个现有分布
模型进行重新融合。

[0125] 所述对所述融合图像进行评估，计算得到评估值S，包括：

[0126]

[0127] 其中，M为融合图像的长度；N为融合图像的宽度；F(i，j)为融合图像上(i，j)处的像素值；F(i，j‑1)为融合图像上(i，j‑1)处的像素值；F(i‑1，j)为融合图像上(i‑1，j)处的
像素值。

[0128] 上述技术方案的工作原理及有益效果：将第一个现有分布模型中包括的第一图像与第二个现有分布模型中包括的第二图像进行图像融合处理，得到融合图像；对所述融合
图像进行评估，计算得到评估值，根据所述评估值查询预设的评估值‑融合质量等级表，得
到第一个现有分布模型及第二个现有分布模型的融合质量等级，在确定所述融合质量等级
小于预设融合质量等级时，对第一个现有分布模型及第二个现有分布模型进行重新融合。
便于保证现有分布模型的融合质量，提高数据的利用率及准确率，避免在融合过程中数据
的丢失问题。基于上述公式准确计算出对融合图像的评估值，进而保证查询得到的融合质
量等级的准确性。

[0129] 有益效果：

[0130] 1、基于阵列的多维度交叉索引技术可以把大量不同的源数据转换成高度优化的模型，是报表、数据分析和数据可视化的理想选择。通过运用数据索引一切可能的查询路
径，不管模型有多少个维度，抑或运算有多么复杂，独特的分布模型仍然能迅速持久地对分
析型查询、报表、仪表盘及可视化作出反应。

[0131] 2、强大灵活的分布模型使用户在不需要对基本数据结构全面了解的情况下，从一个维度"潜入"另一个任意的维度。多维分布模型运用了改良的星型构架和以二进制为基础
的数据管理模式。这种数据管理结构排除了数据分级或当下行业内及传统数据处理软件中
其他数据导航方面的限制。通常，维护特殊数据仓库、传统关系型或多维联机分析技术
(OLAP)会产生专门成本，基于星型结构可减少对这种成本的需求。基于独特的分布模型和
综合信息合并组件可将创建数据仓库产生的额外开销降到最低，甚至直接省去。

[0132] 3、本技术的分布模型以及它对内存技术的独到运用，成就了持续得到快速反应的用户体验，且不受潜在数据量大小的影响。本技术执行以它总体偏低的购置成本、高效的价
值产生和快速的布局得到广泛认可。

[0133] 4、依靠灵活的综合平台功能，相对于传统数据处理技术，本技术执行起来尤为迅速。本技术占用资源较少归因于以下三点∶第一，避免传统OLAP工具带来的额外数据库成本
消耗；第二，利用现有数据储存和操作系统；第三，协调内存中的数据量，追求性能最大化。
本技术不需要购买或得到任何基本数据库的授权，也不需要昂贵且先于价值产生之前的数
据仓库建设成本。传统基于OLAP的BI技术通常需要基本数据库或数据仓库来建设和分配数
据立方体或专门的数据仓库，即便这一切都发生在数据分析和报表产生之前。这种隐性成
本给原本希望避免传统BI技术或专业分析应用开销，转而直接寻求报表和数据分析功能的
企业设置了巨大障碍。

[0134] 5、新数据源的快速增加并不会增加解决方案本身的成本。添加新用户简单易行，本技术用户数量可随着部署的扩大而简单迅速地展开，将BI带来的利益分配至企业的各个
角落。在相对较短的时间内，本技术能获得很多便利，例如收益增加，成本大量节省，花在报
表上的工作时间减少，更通畅的客户联系等，此外，在投资对象和一体化销售程序方面也有
了更多基于数据的成功决策。

[0135] 6、本技术能达到内存中最佳的数据平衡，因此它可以将系统性能最大化，这样用户就能得到持续快速的反应。快速的部署和性能最大化使用户真正体验到了"大数据价
值"，以更快的速度为企业增值。

[0136] 显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围
之内，则本发明也意图包含这些改动和变型在内。

一种基于分布模型下的大数据交叉索引方法转让专利

申请号 : CN202111119891.9

文献号 : CN113836141B

文献日 : 2022-04-19

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 张才明

申请人 : 中国劳动关系学院

摘要 :

权利要求 :

说明书 :