一种基于分布模型下的大数据交叉索引方法转让专利
申请号 : CN202111119891.9
文献号 : CN113836141B
文献日 : 2022-04-19
发明人 : 张才明
申请人 : 中国劳动关系学院
摘要 :
权利要求 :
1.一种基于分布模型下的大数据交叉索引方法,其特征在于,包括:获取待分析处理数据及所述待分析处理数据对应的数据类型;
根据所述数据类型对所述待分析处理数据进行聚类分析,得到若干个分类集合;
根据所述若干个分类集合基于交叉索引技术建立分布模型;
还包括:
在建立分布模型后,确定为目标分布模型,获取目标分布模型的第一模型信息;所述第一模型信息包括构建目标分布模型的待分析处理数据的类型、维度字段;
获取若干个历史分布模型及所述若干个历史分布模型的第二模型信息;所述第二模型信息包括构建历史分布模型的待分析处理数据的类型、维度字段;
根据所述第一模型信息及所述第二模型信息确定所述目标分布模型与所述若干个历史分布模型的关联度,并根据所述关联度从高到低进行排序,确定历史分布模型的排队队列;
根据所述目标分布模型进行业务处理,在业务处理过程中,根据所述目标分布模型的模型标识确定预设时间段内参与业务处理的参与频率,并将所述参与频率与预设参与频率进行比较,根据比较结果确定所述目标分布模型进行业务处理是否合法;
在确定所述目标分布模型进行业务处理合法时,确定目标数据,根据所述目标数据确定所述目标分布模型在进行数据请求时的权限等级;
根据所述权限等级确定目标关联度,并根据所述目标关联度确定所述排队队列中对应的历史分布模型,将对应的历史分布模型及对应的历史分布模型之后的历史分布模型均作为数据供方分布模型,并将所述对应的历史分布模型作为第一个数据供方分布模型;
生成数据请求信息,将所述数据请求信息发送至第一个数据供方分布模型;
获取所述第一个数据供方分布模型返回的反馈信息,根据所述反馈信息对所述数据请求信息进行更新,将更新后的数据请求信息发送至第二个数据供方分布模型;
根据第二个数据供方分布模型返回的反馈信息,对更新后的数据请求信息再次进行更新后发送至下一个数据供方分布模型;对所述数据请求信息根据得到的若干个反馈信息进行不断更新以生成目标数据;
根据所述目标数据及所述目标分布模型进行业务处理。
2.如权利要求1所述的基于分布模型下的大数据交叉索引方法,其特征在于,所述根据所述若干个分类集合基于交叉索引技术建立分布模型,包括:将每一个分类集合中的待分析处理数据分为用于分析的维度字段、用于对维度做描述的信息字段和用于统计分析的摘要字段;
根据所述维度字段、信息字段及摘要字段建立分布模型。
3.如权利要求2所述的基于分布模型下的大数据交叉索引方法,其特征在于,所述维度字段的获取方法,包括:
获取每一个分类集合内的不同待分析处理数据之间的类内关联关系;
获取不同分类集合间的待分析处理数据之间的类间关联关系;
根据所述类内关联关系及所述类间关联关系基于交叉索引技术确定所述维度字段。
4.如权利要求2所述的基于分布模型下的大数据交叉索引方法,其特征在于,所述根据所述维度字段、信息字段及摘要字段建立分布模型,包括:基于计算函数对所述摘要字段进行建模前的计算修改;
基于所述信息字段建立描述脚本,运行描述脚本中设计好的操作程序来进行建模;
在建模过程中,对所述维度字段包括的分析维度使用交叉索引技术进行辅助以加快数据量的访问速度,最终建立分布模型。
5.如权利要求1所述的基于分布模型下的大数据交叉索引方法,其特征在于,所述分布模型包括具体数据,且以模型文件形式存放,所述模型文件还包括数据分析统计信息。
6.如权利要求1所述的基于分布模型下的大数据交叉索引方法,其特征在于,还包括对建立的分布模型进行管理,包括:
获取所述分布模型的维度,在确定所述维度大于预设维度时,将所述分布模型确定为第一类模型,将所述第一类模型中的维度进行归类,并将所述第一类模型中的信息字段转换为动态维度;
或
对增量的数据进行定时抽取和建模,将增量的数据确定的分布模型作为第二类模型,获取历史创建的分布模型,将所述第二类模型与所述历史创建的分布模型进行纵向合并;
或
获取现有分布模型的数量,在确定所述数量大于预设数量时,获取所述现有分布模型的维度字段,建立现有分布模型之间维度字段的关联关系,根据所述关联关系基于关联查询功能进行现有分布模型之间的匹配,实现所述现有分布模型的横向合并。
7.如权利要求6所述的基于分布模型下的大数据交叉索引方法,其特征在于,在对建立的分布模型进行管理后,将管理操作生成一个索引路径的管理文件,所述管理文件用于保存管理操作的逻辑关系,不保存具体数据。
8.如权利要求1所述的基于分布模型下的大数据交叉索引方法,其特征在于,所述分布模型采用星型构架和以二进制为基础的数据管理模式。
9.如权利要求1所述的基于分布模型下的大数据交叉索引方法,其特征在于,还包括:建立所述分布模型的数据矩阵,根据所述数据矩阵确定所述分布模型的评价指标;
建立评价指标之间的关联关系,生成评价指标体系;
设置所述评价指标体系中评价指标的权重及计算参数;
对所述分布模型根据所述评价指标体系进行综合评价,计算得到评价值,并判断是否小于预设评价值;在确定所述评价值小于预设评价值时,对所述分布模型进行重新构建。
说明书 :
一种基于分布模型下的大数据交叉索引方法
技术领域
背景技术
算框架的应用场景比较有限,批处理计算虽能轻松处理海量数据,但响应时间较长;与批处
理不同,流式计算是一种连续计算的模式,能够快速响应用户事件;实时交互计算以一种交
互式的方式实现大数据处理,也有着快速的响应速度。由于大数据应用场景越来越复杂,传
统的单一计算框架模式不能很好的满足数据应用的要求。现在出现了一些关于混合系统的
研究,旨在融合多种计算系统,统一大数据计算平台提供多种计算服务。
查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量的计算才能
得到结果,而查询的结果并不能满足决策者提出的需求。因此,Codd提出了多维数据库和多
维分析的概念,即OLAP。OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执
行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反
映企业维特性的信息进行快速、一致、交互的存取,从而获得对数据更深入了解的一类软件
技术。
一个维度,产品类别、分销渠道、地理分布、客户群类也分别是一个维度。一旦多维分布模型
建立完成,用户可以快速地从各个分析角度获取数据,也能动态的在各个角度之间切换或
者进行多角度综合分析,具有极大的分析灵活性。这也是联机分析处理被广泛关注的根本
原因,它从设计理念和真正实现上都与旧有的数据处理系统有着本质的区别。
段之间的关系没有任何处理和缓存,基于不同数据库的性能瓶颈,会需要较长的响应时间,
特别是在Hadoop架构之上进行表之间的join关联操作,效率非常低,占用计算资源大,这在
大数据时代,无法实时满足大数据计算和分析需要。
发明内容
维度所关联,组织维度和维度之间的关系,迅速在各个维度之间建立交叉索引,其效率和速
度大大提高,实现快速高效的查询和分析,而占用资源却大大降低。
段转换为动态维度;
向合并;
联查询功能进行现有分布模型之间的匹配,实现所述现有分布模型的横向合并。
排队队列;
频率进行比较,根据比较结果确定所述目标分布模型进行业务处理是否合法;
均作为数据供方分布模型,并将所述对应的历史分布模型作为第一个数据供方分布模型;
建。
径,不管模型有多少个维度,抑或运算有多么复杂,独特的分布模型仍然能迅速持久地对分
析型查询、报表、仪表盘及可视化作出反应。
的数据管理模式。这种数据管理结构排除了数据分级或当下行业内及传统数据处理软件中
其他数据导航方面的限制。通常,维护特殊数据仓库、传统关系型或多维联机分析技术
(OLAP)会产生专门成本,基于星型结构可减少对这种成本的需求。基于独特的分布模型和
综合信息合并组件可将创建数据仓库产生的额外开销降到最低,甚至直接省去。
值产生和快速的布局得到广泛认可。
消耗;第二,利用现有数据储存和操作系统;第三,协调内存中的数据量,追求性能最大化。
本技术不需要购买或得到任何基本数据库的授权,也不需要昂贵且先于价值产生之前的数
据仓库建设成本。传统基于OLAP的BI技术通常需要基本数据库或数据仓库来建设和分配数
据立方体或专门的数据仓库,即便这一切都发生在数据分析和报表产生之前。这种隐性成
本给原本希望避免传统BI技术或专业分析应用开销,转而直接寻求报表和数据分析功能的
企业设置了巨大障碍。
角落。在相对较短的时间内,本技术能获得很多便利,例如收益增加,成本大量节省,花在报
表上的工作时间减少,更通畅的客户联系等,此外,在投资对象和一体化销售程序方面也有
了更多基于数据的成功决策。
值",以更快的速度为企业增值。
书以及附图中所特别指出的结构来实现和获得。
附图说明
具体实施方式
据所述若干个分类集合基于交叉索引技术建立分布模型。对需要分析处理的数据建立分布
模型,通过对数据的自由交叉索引处理,实现任意“维”之间的关联和潜入来获取最需要的
信息,即多维度交叉分析。在来自于不用类型数据源的数据之间自由交叉,通过建模之后,
用户获得了有效的处理信息。分布模型也即数据模型。
速高效的查询和分析,而占用资源却大大降低。
述维度字段、信息字段及摘要字段建立分布模型。分布模型中包含了3个数据域:维、摘要和
信息字段。建模中被定义成维的字段是被做经过交叉索引处理的,可以对任意维和维之间
相互快速的潜入来获取我们最需要的信息。数据中用来做数学统计的字段被定义成摘要。
信息字段包含了和维相关的额外信息。
内关联关系及所述类间关联关系基于交叉索引技术确定所述维度字段。
序会运行这个脚本来进行建模,并且在建模的过程中对对所述维度字段包括的分析维度使
用“交叉索引”的技术,以加快数据量的访问速度,最终建立分布模型。
库模式,节省现有技术中基于数据库进行数据处理的成本。
的大小会比原始的数据文件要大,这取决于用户所设计的维度和数据量多少来决定。
再一层,基于“听‑客户‑摘要表”的“Dan”连接“听‑Dan‑产品摘要表”实现各个维度件的不断
交叉索引,直到所有的数据都相互关联完毕。图5‑图6为相同的原理。
段转换为动态维度;
向合并;
联查询功能进行现有分布模型之间的匹配,实现所述现有分布模型的横向合并。
归类,并将所述第一类模型中的信息字段转换为动态维度;即对维度多且复杂的分布模型,
可以将分布模型中的维度进行规类,以方便用户的分析潜入,并且可以将分布模型中的信
息字段转换成“动态维度”,用户同样可以在这些“动态维度”上进行潜入分析。对增量的数
据进行进行定时抽取和建模,将增量的数据确定的分布模型作为第二类模型,获取历史创
建的分布模型,将所述第二类模型与所述历史创建的分布模型进行纵向合并;而无须重新
建立新模型,节省时间及成本,从而可以完成用户所关心的数据增量的问题。获取现有分布
模型的数量,在确定所述数量大于预设数量时,获取所述现有分布模型的维度字段,建立现
有分布模型之间维度字段的关联关系,根据所述关联关系基于关联查询功能进行现有分布
模型之间的匹配,实现所述现有分布模型的横向合并,从而帮助用户增加更多的分析点来
用于数据挖掘分析。
排队队列;
频率进行比较,根据比较结果确定所述目标分布模型进行业务处理是否合法;
均作为数据供方分布模型,并将所述对应的历史分布模型作为第一个数据供方分布模型;
维度字段等。获取若干个历史分布模型及所述若干个历史分布模型的第二模型信息;根据
所述第一模型信息及所述第二模型信息确定所述目标分布模型与所述若干个历史分布模
型中的关联度,并根据所述关联度从高到低进行排序,确定历史分布模型的排队队列;根据
所述目标分布模型进行业务处理,在业务处理过程中,根据所述目标分布模型的模型标识
确定预设时间段内参与业务处理的参与频率,并将所述参与频率与预设参与频率进行比
较,根据比较结果确定所述目标分布模型进行业务处理是否合法;在确定参与频率小于等
于预设频率时,表示所述目标分布模型进行业务处理是合法的。在确定所述目标分布模型
进行业务处理合法时,确定目标数据,根据所述目标数据确定所述目标分布模型在进行数
据请求时的权限等级;目标数据为所述目标分布模型进行业务处理的所缺数据。根据所述
权限等级确定目标关联度,并根据所述目标关联度确定所述排队队列中对应的历史分布模
型,将对应的历史分布模型及对应的历史分布模型之后的历史分布模型均作为数据供方分
布模型,并将所述对应的历史分布模型作为第一个数据供方分布模型;生成数据请求信息,
将所述数据请求信息发送至第一个数据供方分布模型;获取所述第一个数据供方分布模型
返回的反馈信息,根据所述反馈信息对所述数据请求信息进行更新,将更新后的数据请求
信息发送至第二个数据供方分布模型;重复上述步骤,直至根据得到的若干个反馈信息生
成目标数据;根据所述目标数据及所述目标分布模型进行业务处理。
分布模型进行业务处理是否合法,可以提高基于目标分布模型进行业务处理的安全性,保
证数据的安全性,避免数据被盗用。基于根据所述目标数据确定所述目标分布模型在进行
数据请求时的权限等级,进而确定目标关联度,不涉及更高等级的数据,便于保证数据的安
全性,实现不同等级的数据获取级别。根据反馈信息对数据请求信息进行不断更新,保证数
据请求信息更加具有针对性,数据供方分布模型根据更新后的数据请求信息快速且准确的
确定反馈信息,缩短获取目标数据的时间,便于根据所述目标数据及所述目标分布模型快
速进行业务处理,提高进行业务处理的效率及准确性。
建。
评价指标体系中评价指标的权重及计算参数;对所述分布模型根据所述评价指标体系进行
综合评价,计算得到评价值,并判断是否小于预设评价值;在确定所述评价值小于预设评价
值时,对所述分布模型进行重新构建。数据矩阵为基于分布模型包括的待分析处理数据抽
象得到的,可以准确将分布模型中的有效数据进行全面且准确的展示,避免进行综合评价
时,有效数据的缺失问题。评价指标包括数据质量指标、完整性指标、冗余性指标等。
定所述融合质量等级小于预设融合质量等级时,对第一个现有分布模型及第二个现有分布
模型进行重新融合。
像素值。
图像进行评估,计算得到评估值,根据所述评估值查询预设的评估值‑融合质量等级表,得
到第一个现有分布模型及第二个现有分布模型的融合质量等级,在确定所述融合质量等级
小于预设融合质量等级时,对第一个现有分布模型及第二个现有分布模型进行重新融合。
便于保证现有分布模型的融合质量,提高数据的利用率及准确率,避免在融合过程中数据
的丢失问题。基于上述公式准确计算出对融合图像的评估值,进而保证查询得到的融合质
量等级的准确性。
径,不管模型有多少个维度,抑或运算有多么复杂,独特的分布模型仍然能迅速持久地对分
析型查询、报表、仪表盘及可视化作出反应。
的数据管理模式。这种数据管理结构排除了数据分级或当下行业内及传统数据处理软件中
其他数据导航方面的限制。通常,维护特殊数据仓库、传统关系型或多维联机分析技术
(OLAP)会产生专门成本,基于星型结构可减少对这种成本的需求。基于独特的分布模型和
综合信息合并组件可将创建数据仓库产生的额外开销降到最低,甚至直接省去。
值产生和快速的布局得到广泛认可。
消耗;第二,利用现有数据储存和操作系统;第三,协调内存中的数据量,追求性能最大化。
本技术不需要购买或得到任何基本数据库的授权,也不需要昂贵且先于价值产生之前的数
据仓库建设成本。传统基于OLAP的BI技术通常需要基本数据库或数据仓库来建设和分配数
据立方体或专门的数据仓库,即便这一切都发生在数据分析和报表产生之前。这种隐性成
本给原本希望避免传统BI技术或专业分析应用开销,转而直接寻求报表和数据分析功能的
企业设置了巨大障碍。
角落。在相对较短的时间内,本技术能获得很多便利,例如收益增加,成本大量节省,花在报
表上的工作时间减少,更通畅的客户联系等,此外,在投资对象和一体化销售程序方面也有
了更多基于数据的成功决策。
值",以更快的速度为企业增值。
之内,则本发明也意图包含这些改动和变型在内。