一种基于集成学习的洪水敏感性风险评估方法转让专利
申请号 : CN202110231150.3
文献号 : CN112966926B
文献日 : 2022-04-22
发明人 : 胡鹤轩 , 王泽华 , 胡强 , 朱跃龙 , 胡震云 , 张晔
申请人 : 河海大学
摘要 :
权利要求 :
1.一种基于集成学习的洪水敏感性风险评估方法,其特征在于,包括以下步骤:步骤一、样本点初始数据的收集与整理:通过使用文献资料和实地调查绘制流域的洪水位置图并创建与洪水有关的空间数据库;并通过从文献中获得的数据以及现场调查,选择调节因素;选择数个洪水调节因子进行敏感性分析,并建立这些因子的空间数据库;
步骤二、对所收集的初始数据进行清洗、标准化处理并赋值给每个评价单元,转换成栅格数据存储格式,所有的数据都经过投影转换与重采样操作;对于每一个研究区域,从它对应的水文站获取历史流量数据,找出每年洪水流量峰值日期,并选择对应日期的MODIS影像来反映该洪水过程的淹没状况;将流量峰值对应的数个影像反映的淹没范围叠置,生成一个合并的最大的淹没范围图,作为流量峰值所对应的淹没范围图,即最大淹没范围;在最大淹没范围内随机选取数量为N的洪水淹没样本点,在非最大洪水淹没范围内随机选取数量为N的非洪水淹没样本点,共同构成总数为2N的样本点;将上述样本点分为训练集和测试集,其中70%的样本点作为训练集,30%的样本点作为测试集;
步骤三、计算拉普拉斯得分确定最后的特征子集:利用拉普拉斯得分对步骤二中所述的训练集样本的特征进行打分,得到每一个特征的分数,最后再取分数最高的k个特征作为选择的特征子集;对步骤二中总数为2N的样本点进行特征子集的抽取,形成新的训练集和测试集;
步骤四、利用步骤三中新的训练集对集成学习LightGBM模型进行训练;得到集成学习LightGBM模型在新的训练集和测试集的准确率;
步骤五、利用训练好的模型对整个流域进行计算,得到整个流域洪水风险敏感性的概率值;
步骤一中所述的数个因子包括:大气、蒸发、地形、河网;可从该4项因子中提出10项洪水风险敏感性评估指标即特征包括高程、坡度、曲率、TWI、SPI、距河流距离、土壤、植被、坡向和降雨;根据流域洪水的机理;将这些因素均基于ArcGIS软件进行计算和处理,其中SPI和TWI使用以下公式计算:
TWI=Ln(α/tanβ) (1)SPI=Astanβ (2)式中α是通过一个点的累计坡面排水量,As为特定流域面积,tanβ是该点处的坡度角。
2.根据权利要求1所述的一种基于集成学习的洪水敏感性风险评估方法,其特征在于,所述步骤二中初始数据标准化处理,包括:对样本数据集合S进行数据清洗,去除有缺失和不需要的数据并进行关联性验证;
所有尺度条件因子均使用流行的分位数方法进行分类;准备好数据集后,将每个条件因子转换为m*n大小的网格空间数据库,并构造流域地区的网格图。
3.根据权利要求1所述的一种基于集成学习的洪水敏感性风险评估方法,其特征在于,步骤三中所述的计算拉普拉斯得分确定最后特征子集的过程包括:针对步骤二中训练集样本,构建一张邻接矩阵G:当type(i)=type(j)时,Gij=1,否则Gij=0,然后对于矩阵中Gij=1的点,令 其中t为合适的常数;
由此得到的矩阵就是该训练集的权重矩阵S,其中计算拉普拉斯得分的公式为:
其中,Lr为第r个特征的拉普拉斯得分;fri‑frj为第i个样本和第j个样本的第r个特征的差值;Sij为权重矩阵中的对应的值;Var(fr)为第r个特征在所有样本上的方差。
4.根据权利要求1所述的一种基于集成学习的洪水敏感性风险评估方法,其特征在于,在所述步骤五中,将洪水灾害风险研究区域等级分为五级:低风险区、较低风险区、中等风险区、高风险和极高风险地区。
说明书 :
一种基于集成学习的洪水敏感性风险评估方法
技术领域
背景技术
风险敏感性评估领域的研究意义重大。洪水风险敏感性评估是对区域洪水灾害自然属性和
社会属性的综合评价,旨在更准确地把握洪水风险的空间分布和其发生规律。由于洪水风
险敏感性评估是一个十分复杂的过程,其评估过程涉及多个评价指标,因此一直是国内外
灾害研究的难点和热点之一。
水灾害风险评估的方法,利用AHP层次分析法与熵权法耦合模型评估研究区内洪水灾害风
险值并划分风险等级。但是这种方法需要收集大量的自然及社会数据作为输入,一旦数据
量偏低或者数据质量不高都会对结果造成比较大的偏差。另一方面,这种方法对操作人员
的专业知识要求较高,当洪水影响因子的数量较多时会引起操作人员的判断混乱,从而对
评估结果产生影响。
问题。
长,精度相对不高。
发明内容
害防灾减灾措施。该方法避免了大量的人工数据收集,效率高,便于操作,且操作运行时间
短,精度高。
查,选择调节因素;选择数个洪水调节因子进行敏感性分析,并建立这些因子的空间数据
库;
它对应的水文站获取历史流量数据,找出每年洪水流量峰值日期,并选择对应日期的MODIS
影像来反映该洪水过程的淹没状况;将流量峰值对应的数个影像反映的淹没范围叠置,生
成一个合并的最大的淹没范围图,作为流量峰值所对应的淹没范围图,即最大淹没范围;在
最大淹没范围内随机选取数量为N的洪水淹没样本点,在非最大洪水淹没范围内随机选取
数量为N的非洪水淹没样本点,共同构成总数为2N的样本点;将上述样本点分为训练集和测
试集,其中70%的样本点作为训练集,30%的样本点作为测试集;
作为选择的特征子集;对步骤二中总数为2N的样本点进行特征子集的抽取,形成新的训练
集和测试集;
被、坡向和降雨;根据流域洪水的机理;将这些因素均基于ArcGIS软件进行计算和处理,其
中SPI和TWI使用以下公式计算:
的人工数据收集工作,大大提高了效率。
响因子进行预防,相比于传统的人工判断,使可操作性大大提高。
附图说明
具体实施方式
据历史水位数据和遥感数据提取研究流域历史淹没点与非淹没点;利用拉普拉斯得分选择
最优的特征子集;将样本点分为训练集和测试集并对集成学习模型进行训练;利用训练好
的模型对整个流域进行洪水风险敏感性计算,生成流域洪水敏感性风险等级分布图。本发
明使用研究区各特征数据作为输入,采用了新颖的集成学习模型,提高了流域洪水风险评
估的准确性,最后生成流域洪水风险映射图,可直观地展现研究区的洪水风险状况。
洪水有关的空间数据库。其次通过从文献中获得的数据以及现场调查,选择调节因素。最后
选择数个洪水调节因子进行敏感性分析,并建立这些因子的空间数据库。
标包括高程,坡度,曲率,TWI,SPI,距河流距离,土壤,植被,坡向和降雨。根据流域洪水的机
理,将这些因素均基于ArcGIS软件进行计算和处理。其中SPI和TWI使用以下公式计算:
的数据都经过投影转换与重采样操作。由于流量洪峰是引发洪涝灾害最主要的原因,所以
对于每一个研究区域,从它对应的水文站获取历史流量数据后,找出每年的洪水流量峰值
日期,并选择对应日期的MODIS影像来反映该洪水过程的淹没状况。利用ENVI5.3提取洪水
淹没范围,并将流量峰值对应的数个影像反映的淹没范围叠置,生成一个合并的最大的淹
没范围图,作为流量峰值所对应的淹没范围图,即得到最大淹没范围。在最大淹没范围内随
机选取数量为N的洪水淹没样本点,在非最大洪水淹没范围内随机选取数量为N的非洪水淹
没样本点,共同构成总数为2N的样本点。将上述样本点分为训练集和测试集,其中70%的样
本点作为训练集,30%的样本点作为测试集。该样本点选取方法利用了历史遥感技术提取
最大淹没范围图,具有直观性好,准确性高的优点,同时也避免了大量的人工数据收集工
作,大大提高了效率。
作为选择的特征子集;对步骤二中总数为2N的样本点进行特征子集的抽取,形成新的训练
集和测试集。如图2所示,是本发明的一种实施例的计算拉普拉斯得分流程图。
合适的常数),这样得到的矩阵就是该训练集的权重矩阵S,其中 进一步,
计算拉普拉斯得分,计算公式为:
要程度,在整体进行了洪水风险评估之后,操作人员可以直接对对结果影响程度较高的影
响因子进行预防,相比于传统的人工判断,拉普拉斯得分法大大降低了操作门槛。
基于传统机器学习模型GBDT(梯度下降树)的一种集成学习提升方法,它有效的降低了算法
运算的复杂度,与传统的集成学习方法相比,LightGBM主要采用了GOSS(单边梯度采样)方
法,根据样本采样结果计算梯度。GOSS在对待梯度较大的样本时,保留全部样本,在对待梯
度较小的样本时,GOSS对样本进行随机抽样。采用的GOSS算法主要流程如下:
LightGBM模型损失函数的负梯度方向表示为g1,…,gn,决策树通过最优切分点(最大信息
增益点)将样本数据划分到各个叶结点,特征j的分割点d定义为:
的集成学习模型,并且得到集成学习LightGBM模型在新的训练集和测试集的准确率。
分类,研究中存在各种方法,例如等间隔,分位数,标准差。其中针对洪水流域使用分位数方
法一般可获得最佳输出,由此获得洪水风险敏感性图,并将洪水灾害风险研究区域分为五
类洪水敏感性:低风险区、较低风险区、中等风险区、高风险和极高风险地区。
并从中随机取样。研究区总共选取了300个淹没样本点和300个非淹没样本点,其中70%作
为训练集,30%作为测试集。研究区选取了高程、坡度、坡向、曲率、SPI、TWI、距河流距离、土
壤、植被和降雨量总共10个洪水影响因子,并分别计算了个洪水影响因子的拉普拉斯得分,
计算结果如表一所示。
率为81.29%,并且运行的速度要远高于XGBoost。
示。