基于完全随机森林的矢量空间计算强度预测方法及系统转让专利

申请号 : CN201711387102.3

文献号 : CN108052755B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郭明强黄颖谢忠关庆锋吴亮刘袁缘

申请人 : 中国地质大学(武汉)

摘要 :

一种基于完全随机森林的矢量空间计算强度预测方法及系统,通过输入与矢量空间计算强度相关的所有特征,训练多棵完全回归决策树,实现对特征复杂多样的矢量空间计算域的计算强度建模,并对完全随机森林的预测结果进行优化,剔除与预测结果偏差较大的预测值,提高完全随机森林的预测精度,有利于在并行计算环境中,对矢量空间计算强度进行精准的预测。本发明在随机森林的训练过程中,每棵回归决策树的训练样本是从原始样本中随机选择的,且选择的特征包括原始样本的全部特征,该模型能够应对重要特征少、冗余特征多的矢量空间计算强度的预测,本发明可以为并行计算资源均衡调度与分配提供依据,提高并行计算效率。

权利要求 :

1.一种基于完全随机森林的矢量空间计算强度预测方法,其特征在于,包括以下步骤:

S1、获取矢量空间计算强度原始样本集,每个矢量空间计算强度样本中均包括以下13个类型的数值:矢量图层包含的要素个数、要素几何类型、数据库类型、图层空间范围宽度、图层空间范围高度、空间计算域内要素个数、空间计算域内顶点数、窗口像素宽度、窗口像素高度、窗口地理宽度、窗口地理高度、容差半径、计算时间;使用二维数组RawSamples[i][j]存储矢量空间计算强度原始样本集,RawSamples[i][j]表示第i个样本第j个属性值;

S2、使用整型随机数生成器,生成N个大于等于0且小于N的整型数值,使用生成的N个整型数值,将其分别作为数组索引从原始样本集的各个样本中选取N个样本作为新的样本,将其存储到二维数组TreeSamples[i][j]中;其中,N为原始样本集中样本数量;

S3、采用回归决策树训练方法,利用步骤S2中得到的二维数组TreeSamples[i][j]进行训练,建立回归决策树;

S4、循环执行S2至S3,直到获得TN棵回归决策树,TN棵回归决策树构成了完全随机森林FRF;其中TN为完全随机森林中回归决策树的数量;

S5、获取待预测的矢量空间计算强度样本集,每个待预测的矢量空间计算强度样本包含以下12个类型的数值:矢量图层包含的要素个数、要素几何类型、数据库类型、图层空间范围宽度,图层空间范围高度、空间计算域内要素个数、空间计算域内顶点数、窗口像素宽度,窗口像素高度、窗口地理宽度、窗口地理高度、容差半径;使用一维数组NewSample存储待预测样本,NewSample[i]表示待预测样本的第i个属性值,将待预测的矢量空间计算强度样本输入到FRF中,调用FRF中的TN棵回归决策树的预测方法对待预测样本的计算时间进行预测,获得TN个预测结果,计算TN个预测结果的平均值AVG;

S6、分别计算TN棵回归决策树的预测结果与AVG之间的差值的绝对值,判断该差值的绝对值是否大于AVG*R,其中R是预先设定的百分比,如果回归决策树的预测结果与AVG之间的差值的绝对值大于AVG*R,则将其剔除,反之保留;

S7、计算S6中保留下来的回归决策树的预测结果的平均值FINALAVG,将平均值FINALAVG作为最终的计算强度预测结果。

2.一种基于完全随机森林的矢量空间计算强度预测系统,其特征在于,包括以下模块:

原始样本集处理模块,用于获取矢量空间计算强度原始样本集,每个矢量空间计算强度样本中均包括以下13个类型的数值:矢量图层包含的要素个数、要素几何类型、数据库类型、图层空间范围宽度、图层空间范围高度、空间计算域内要素个数、空间计算域内顶点数、窗口像素宽度、窗口像素高度、窗口地理宽度、窗口地理高度、容差半径、计算时间;使用二维数组RawSamples[i][j]存储矢量空间计算强度原始样本集,RawSamples[i][j]表示第i个样本第j个属性值;

整型数值生成模块,用于使用整型随机数生成器,生成N个大于等于0且小于N的整型数值,使用生成的N个整型数值,将其分别作为数组索引从原始样本集中获得N个样本作为新的样本,将其存储到二维数组TreeSamples[i][j]中;其中,N为原始样本集中样本数量;

决策树建立模块,用于采用回归决策树训练方法,利用整型数值生成模块中得到的二维数组TreeSamples[i][j]进行训练,建立回归决策树;

循环执行处理模块,用于循环调用整型数值生成模块与决策树建立模块,直到获得TN棵回归决策树,TN棵回归决策树构成了完全随机森林FRF;其中TN为完全随机森林中回归决策树的数量;

预测样本集处理模块,用于获取待预测的矢量空间计算强度样本集,每个待预测的矢量空间计算强度样本包含以下12个类型的数值:矢量图层包含的要素个数、要素几何类型、数据库类型、图层空间范围宽度,图层空间范围高度、空间计算域内要素个数、空间计算域内顶点数、窗口像素宽度,窗口像素高度、窗口地理宽度、窗口地理高度、容差半径;使用一维数组NewSample存储待预测样本,NewSample[i]表示待预测样本的第i个属性值,将待预测的矢量空间计算强度样本输入到FRF中,调用FRF中的TN棵回归决策树的预测方法对待预测样本的计算时间进行预测,获得TN个预测结果,计算TN个预测结果的平均值AVG;

预测结果处理模块,用于分别计算TN棵回归决策树的预测结果与AVG之间的差值的绝对值,判断该差值的绝对值是否大于AVG*R,其中R是预先设定的百分比,如果回归决策树的预测结果与AVG之间的差值的绝对值大于AVG*R,则将其剔除,反之保留;

最终结果获取模块,用于计算预测结果处理模块中保留下来的回归决策树的预测结果的平均值FINALAVG,将平均值FINALAVG作为最终的计算强度预测结果。

说明书 :

基于完全随机森林的矢量空间计算强度预测方法及系统

技术领域

[0001] 本发明涉及高性能地理空间计算技术,尤其是一种基于完全随机森林的矢量空间计算强度预测方法及系统。

背景技术

[0002] 矢量空间计算强度的建模和预测是高性能空间计算中的需要解决的关键问题之一,在并行计算环境中,可根据矢量数据空间计算强度的大小,对并行计算资源进行均衡的调度,有利于获得更高的加速比。但现有的矢量空间计算强度预测模型主要以线性函数模型为主,考虑了部分矢量空间计算强度特征,但未考虑其它矢量空间计算强度特征的影响,且无法处理不同特征之间的交互影响。更重要的是,即便是使用优秀的随机森林建模方法,也无法适应重要特征少、冗余特征多的矢量空间计算强度的精准预测,使得目前难以实现矢量空间计算强度的精准度量。

发明内容

[0003] 本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于完全随机森林的矢量空间计算强度预测方法及系统,使用完全随机森林来解决特征多且杂的矢量空间计算强度的精准预测,并且对预测结果进行了优化,提高了预测精度。
[0004] 根据本发明的其中一方面,本发明为解决其技术问题,提供了一种基于完全随机森林的矢量空间计算强度预测方法,包括以下步骤:
[0005] S1、获取矢量空间计算强度原始样本,每个矢量空间计算强度样本中均包括以下13个类型的数值:矢量图层包含的要素个数、要素几何类型、数据库类型、图层空间范围宽度、图层空间范围高度、空间计算域内要素个数、空间计算域内顶点数、窗口像素宽度、窗口像素高度、窗口地理宽度、窗口地理高度、容差半径、计算时间;使用二维数组RawSamples[i][j]存储矢量空间计算强度原始样本集,RawSamples[i][j]表示第i个样本第j个属性值;
[0006] S2、使用整型随机数生成器,生成N个大于等于0且小于N的整型数值,使用生成的N个整型数值,将其分别作为数组索引从原始样本集的各个样本中选取N个样本作为新的样本,将其存储到二维数组TreeSamples[i][j]中;其中,N为原始样本集中样本数量;
[0007] S3、采用回归决策树训练方法,利用步骤S2中得到的二维数组TreeSamples[i][j]进行训练,建立回归决策树;
[0008] S4、循环执行S2至S3,直到获得TN棵回归决策树,TN棵回归决策树构成了完全随机森林FRF;其中TN为完全随机森林中回归决策树的数量;
[0009] S5、获取待预测的矢量空间计算强度样本,每个待预测的矢量空间计算强度样本包含以下12个类型的数值:矢量图层包含的要素个数、要素几何类型、数据库类型、图层空间范围宽度,图层空间范围高度、空间计算域内要素个数、空间计算域内顶点数、窗口像素宽度,窗口像素高度、窗口地理宽度、窗口地理高度、容差半径;使用一维数组NewSample存储待预测样本,NewSample[i]表示待预测样本的第i个属性值,将待预测的矢量空间计算强度样本输入到FRF中,调用FRF中的TN棵回归决策树的预测方法对待预测样本的计算时间进行预测,获得TN个预测结果,计算TN个预测结果的平均值AVG;
[0010] S6、分别计算TN棵回归决策树的预测结果与AVG之间的差值的绝对值,判断该差值的绝对值是否大于AVG*R,其中R是预先设定的百分比,如果回归决策树的预测结果大于AVG*R,则将其剔除,反之保留;
[0011] S7、计算S6中保留下来的回归决策树的预测结果的平均值FINALAVG,将平均值FINALAVG作为最终的计算强度预测结果。
[0012] 根据本发明的另一方面,本发明为解决其技术问题,本发明还提供了一种基于完全随机森林的矢量空间计算强度预测系统,包括以下模块:
[0013] 原始样本处理模块,用于获取矢量空间计算强度原始样本,每个矢量空间计算强度样本中均包括以下13个类型的数值:矢量图层包含的要素个数、要素几何类型、数据库类型、图层空间范围宽度、图层空间范围高度、空间计算域内要素个数、空间计算域内顶点数、窗口像素宽度、窗口像素高度、窗口地理宽度、窗口地理高度、容差半径、计算时间;使用二维数组RawSamples[i][j]存储矢量空间计算强度原始样本集,RawSamples[i][j]表示第i个样本第j个属性值;
[0014] 整型数值生成模块,用于使用整型随机数生成器,生成N个大于等于0且小于N的整型数值,使用生成的N个整型数值,将其分别作为数组索引从原始样本集的各个样本中选取N个样本作为新的样本,将其存储到二维数组TreeSamples[i][j]中;其中,N为原始样本集中样本数量;
[0015] 决策树建立模块,用于采用回归决策树训练方法,利用整型数值生成模块中得到的二维数组TreeSamples[i][j]进行训练,建立回归决策树;
[0016] 循环执行处理模块,用于循环调用整型数值生成模块与决策树建立模块,直到获得TN棵回归决策树,TN棵回归决策树构成了完全随机森林FRF;其中TN为完全随机森林中回归决策树的数量;
[0017] 预测样本处理模块,用于获取待预测的矢量空间计算强度样本,每个待预测的矢量空间计算强度样本包含以下12个类型的数值:矢量图层包含的要素个数、要素几何类型、数据库类型、图层空间范围宽度,图层空间范围高度、空间计算域内要素个数、空间计算域内顶点数、窗口像素宽度,窗口像素高度、窗口地理宽度、窗口地理高度、容差半径;使用一维数组NewSample存储待预测样本,NewSample[i]表示待预测样本的第i个属性值,将待预测的矢量空间计算强度样本输入到FRF中,调用FRF中的TN棵回归决策树的预测方法对待预测样本的计算时间进行预测,获得TN个预测结果,计算TN个预测结果的平均值AVG;
[0018] 预测结果处理模块,用于分别计算TN棵回归决策树的预测结果与AVG之间的差值的绝对值,判断该差值的绝对值是否大于AVG*R,其中R是预先设定的百分比,如果回归决策树的预测结果大于AVG*R,则将其剔除,反之保留;
[0019] 最终结果获取模块,用于计算预测结果处理模块中保留下来的回归决策树的预测结果的平均值FINALAVG,将平均值FINALAVG作为最终的计算强度预测结果。
[0020] 实施本发明的基于完全随机森林的矢量空间计算强度预测方法及系统,具有以下有益效果:通过输入与矢量空间计算强度相关的所有特征,训练多棵完全回归决策树,实现对特征复杂多样的矢量空间计算域的计算强度建模,并对完全随机森林的预测结果进行优化,剔除与预测结果偏差较大的预测值,提高完全随机森林的预测精度,有利于在并行计算环境中,对矢量空间计算强度进行精准的预测,为并行计算资源的分配和调度提供依据。本发明最明显的不同在于在随机森林的训练过程中,每棵回归决策树的训练样本是从原始样本中随机选择的,且选择的特征包括原始样本的全部特征,该模型能够应对重要特征少、冗余特征多的矢量空间计算强度的预测,本发明可以为并行计算资源均衡调度与分配提供依据,提高并行计算效率。

附图说明

[0021] 下面将结合附图及实施例对本发明作进一步说明,附图中:
[0022] 图1是本发明的矢量空间计算强度预测方法一优选实施例的流程图;
[0023] 图2是本发明的矢量空间计算强度预测系统一优选实施例的原理框图。

具体实施方式

[0024] 为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
[0025] 如图1所示,图1是本发明提供的基于完全随机森林的矢量空间计算强度预测方法的流程图,方法包括以下步骤:
[0026] 步骤1)获取矢量空间计算强度原始样本集,每个矢量空间计算强度样本包括13个个类型的数值,依次分别是矢量图层包含的要素个数,要素几何类型,数据库类型,图层空间范围宽度,图层空间范围高度,空间计算域内要素个数,空间计算域内顶点数,窗口像素宽度,窗口像素高度,窗口地理宽度,窗口地理高度,容差半径,计算时间。使用二维数组RawSamples[i][j]存储矢量空间计算强度原始样本集,RawSamples[i]代表第i个样本,RawSamples[i][j]表示第i个样本第j个属性值。
[0027] 步骤2)使用整型随机数生成器,生成N个大于等于0且小于N的整型数值,使用生成的N个整型数值,将其作为数组索引从原始样本集的各个样本中获得N个样本新的样本作为新的样本,将其存储到二维数组TreeSamples[i][j]中。其中,N为原始样本集中样本数量。
[0028] 例如:假设整型随机数生成器第一次生成一个随机数为2,则将RawSamples[2]存储到TreeSamples[0]中,即TreeSamples[0]=RawSamples[2]。
[0029] 步骤3)采用回归决策树训练方法,利用步骤S2中得到的二维数组TreeSamples[i][j]进行训练,建立回归决策树。
[0030] 步骤4)循环执行步骤2)至步骤3),直到获得TN棵回归决策树,TN棵回归决策树构成了完全随机森林FRF(Fully Random Forest)。其中TN为完全随机森林中回归决策树的数量。
[0031] 步骤5)获取待预测的矢量空间计算强度样本集,每个待预测的矢量空间计算强度样本包含12个类型的数值,依次分别是矢量图层包含的要素个数,要素几何类型,数据库类型,图层空间范围宽度,图层空间范围高度,空间计算域内要素个数,空间计算域内顶点数,窗口像素宽度,窗口像素高度,窗口地理宽度,窗口地理高度,容差半径。使用一维数组NewSample存储待预测样本,NewSample[i]表示待预测样本的第i个属性值。将待预测的矢量空间计算强度样本输入到FRF中,分别调用FRF中的TN棵回归决策树的预测方法对待预测样本的计算时间进行预测,获得TN个预测结果,计算TN个预测结果的平均值AVG。
[0032] 步骤6)分别计算TN棵回归决策树的预测结果与AVG之间的差值的绝对值,判断其是否大于AVG*R,其中R是预先设定的百分比,且大于0小于1。如果回归决策树的预测结果大于AVG*R,则将其剔除,反之保留。
[0033] R的取值建议设为0.05,在实施过程中,可以根据预测结果的精度对其进行调整。
[0034] 步骤7)计算步骤6)中保留下来的回归决策树的预测结果的平均值FINALAVG,将其作为最终的计算强度预测结果。
[0035] 本发明最明显的不同在于在随机森林的训练过程中,每棵回归决策树的训练样本是从原始样本中随机选择的,且选择的特征包括原始样本的全部特征,训练好的多棵回归决策树构成了完全随机森林,该模型能够应对重要特征少、冗余特征多的矢量空间计算强度的预测,采用本发明提供的矢量空间计算强度度量方法,可以为并行计算环境中的计算资源均衡调度与分配提供依据,提高并行计算效率,计算资源的利用率。
[0036] 参考图2,本实施例的基于完全随机森林的矢量空间计算强度预测系统,包括原始样本集处理模块21、整型数值生成模块22、决策树建立模块23、循环执行处理模块24、预测样本集处理模块25、预测结果处理模块26、最终结果获取模块27,各模块依次连接,且各模块的功能参考上述,这里不再赘述。
[0037] 上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。