一种基于集成学习的洪水敏感性风险评估方法转让专利

申请号 : CN202110231150.3

文献号 : CN112966926B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 胡鹤轩王泽华胡强朱跃龙胡震云张晔

申请人 : 河海大学

摘要 :

本发明公开了一种基于集成学习的洪水敏感性风险评估方法,包括:收集研究区的地形地貌、水文气象、土壤植被等数据作为特征数据,并将特征数据进行标准化处理;根据历史水位数据和遥感数据提取研究流域历史淹没点与非淹没点;利用拉普拉斯得分选择最优的特征子集;将样本点分为训练集和测试集并对集成学习模型进行训练;利用训练好的模型对整个流域进行洪水风险敏感性计算,生成流域洪水敏感性风险等级分布图。本发明使用研究区各特征数据作为输入,采用了新颖的集成学习模型,提高了流域洪水风险评估的准确性,最后生成流域洪水风险映射图,可直观地展现研究区的洪水风险状况。

权利要求 :

1.一种基于集成学习的洪水敏感性风险评估方法,其特征在于,包括以下步骤:步骤一、样本点初始数据的收集与整理:通过使用文献资料和实地调查绘制流域的洪水位置图并创建与洪水有关的空间数据库;并通过从文献中获得的数据以及现场调查,选择调节因素;选择数个洪水调节因子进行敏感性分析,并建立这些因子的空间数据库;

步骤二、对所收集的初始数据进行清洗、标准化处理并赋值给每个评价单元,转换成栅格数据存储格式,所有的数据都经过投影转换与重采样操作;对于每一个研究区域,从它对应的水文站获取历史流量数据,找出每年洪水流量峰值日期,并选择对应日期的MODIS影像来反映该洪水过程的淹没状况;将流量峰值对应的数个影像反映的淹没范围叠置,生成一个合并的最大的淹没范围图,作为流量峰值所对应的淹没范围图,即最大淹没范围;在最大淹没范围内随机选取数量为N的洪水淹没样本点,在非最大洪水淹没范围内随机选取数量为N的非洪水淹没样本点,共同构成总数为2N的样本点;将上述样本点分为训练集和测试集,其中70%的样本点作为训练集,30%的样本点作为测试集;

步骤三、计算拉普拉斯得分确定最后的特征子集:利用拉普拉斯得分对步骤二中所述的训练集样本的特征进行打分,得到每一个特征的分数,最后再取分数最高的k个特征作为选择的特征子集;对步骤二中总数为2N的样本点进行特征子集的抽取,形成新的训练集和测试集;

步骤四、利用步骤三中新的训练集对集成学习LightGBM模型进行训练;得到集成学习LightGBM模型在新的训练集和测试集的准确率;

步骤五、利用训练好的模型对整个流域进行计算,得到整个流域洪水风险敏感性的概率值;

步骤一中所述的数个因子包括:大气、蒸发、地形、河网;可从该4项因子中提出10项洪水风险敏感性评估指标即特征包括高程、坡度、曲率、TWI、SPI、距河流距离、土壤、植被、坡向和降雨;根据流域洪水的机理;将这些因素均基于ArcGIS软件进行计算和处理,其中SPI和TWI使用以下公式计算:

TWI=Ln(α/tanβ)                           (1)SPI=Astanβ                               (2)式中α是通过一个点的累计坡面排水量,As为特定流域面积,tanβ是该点处的坡度角。

2.根据权利要求1所述的一种基于集成学习的洪水敏感性风险评估方法,其特征在于,所述步骤二中初始数据标准化处理,包括:对样本数据集合S进行数据清洗,去除有缺失和不需要的数据并进行关联性验证;

所有尺度条件因子均使用流行的分位数方法进行分类;准备好数据集后,将每个条件因子转换为m*n大小的网格空间数据库,并构造流域地区的网格图。

3.根据权利要求1所述的一种基于集成学习的洪水敏感性风险评估方法,其特征在于,步骤三中所述的计算拉普拉斯得分确定最后特征子集的过程包括:针对步骤二中训练集样本,构建一张邻接矩阵G:当type(i)=type(j)时,Gij=1,否则Gij=0,然后对于矩阵中Gij=1的点,令 其中t为合适的常数;

由此得到的矩阵就是该训练集的权重矩阵S,其中计算拉普拉斯得分的公式为:

其中,Lr为第r个特征的拉普拉斯得分;fri‑frj为第i个样本和第j个样本的第r个特征的差值;Sij为权重矩阵中的对应的值;Var(fr)为第r个特征在所有样本上的方差。

4.根据权利要求1所述的一种基于集成学习的洪水敏感性风险评估方法,其特征在于,在所述步骤五中,将洪水灾害风险研究区域等级分为五级:低风险区、较低风险区、中等风险区、高风险和极高风险地区。

说明书 :

一种基于集成学习的洪水敏感性风险评估方法

技术领域

[0001] 本发明属于洪水灾害风险评估技术领域,尤其涉及一种基于集成学习的洪水敏感性风险评估方法。

背景技术

[0002] 洪涝灾害是一种破坏性大,突发性强且发生频率高的自然灾害。中国是洪涝灾害发生最频繁的国家之一,每年都会因洪涝灾害而造成大量经济损失和人员伤亡,故在洪水
风险敏感性评估领域的研究意义重大。洪水风险敏感性评估是对区域洪水灾害自然属性和
社会属性的综合评价,旨在更准确地把握洪水风险的空间分布和其发生规律。由于洪水风
险敏感性评估是一个十分复杂的过程,其评估过程涉及多个评价指标,因此一直是国内外
灾害研究的难点和热点之一。
[0003] 随着人工智能技术的发展,将机器学习算法应用于目标评价已成为一种趋势,但仍存在一些不足。例如,在现有技术中,专利申请CN106651211A公开了一种不同尺度区域洪
水灾害风险评估的方法,利用AHP层次分析法与熵权法耦合模型评估研究区内洪水灾害风
险值并划分风险等级。但是这种方法需要收集大量的自然及社会数据作为输入,一旦数据
量偏低或者数据质量不高都会对结果造成比较大的偏差。另一方面,这种方法对操作人员
的专业知识要求较高,当洪水影响因子的数量较多时会引起操作人员的判断混乱,从而对
评估结果产生影响。
[0004] 而由赖成光等人于2015年1月在《水利学报》第46卷第一期58页提出的基于随机森林的洪灾风险评估方法,则简化了风险评估过程,但是具有运行时间相对较长,精度不高的
问题。
[0005] 综上所述,现有的洪水敏感性风险评估方法具有以下缺陷:(1)需要大量的自然以及社会数据,数据收集工作量大。(2)对操作人员的专业知识要求较高。(3)操作运行时间
长,精度相对不高。

发明内容

[0006] 本发明的目的在于克服现有技术的缺陷,提供一种基于集成学习的洪水敏感性风险评估方法,可有效建立洪水灾害风险评估模型,为气象部门及相关地方政府解决洪水灾
害防灾减灾措施。该方法避免了大量的人工数据收集,效率高,便于操作,且操作运行时间
短,精度高。
[0007] 为了解决上述技术问题,本申请采用以下技术方案。
[0008] 一种基于集成学习的洪水敏感性风险评估方法,包括以下步骤:
[0009] 步骤一、样本点初始数据的收集与整理:通过使用文献资料和实地调查绘制流域的洪水位置图并创建与洪水有关的空间数据库;并通过从文献中获得的数据以及现场调
查,选择调节因素;选择数个洪水调节因子进行敏感性分析,并建立这些因子的空间数据
库;
[0010] 步骤二、对所收集的初始数据进行清洗、标准化处理并赋值给每个评价单元,转换成栅格数据存储格式,所有的数据都经过投影转换与重采样操作;对于每一个研究区域,从
它对应的水文站获取历史流量数据,找出每年洪水流量峰值日期,并选择对应日期的MODIS
影像来反映该洪水过程的淹没状况;将流量峰值对应的数个影像反映的淹没范围叠置,生
成一个合并的最大的淹没范围图,作为流量峰值所对应的淹没范围图,即最大淹没范围;在
最大淹没范围内随机选取数量为N的洪水淹没样本点,在非最大洪水淹没范围内随机选取
数量为N的非洪水淹没样本点,共同构成总数为2N的样本点;将上述样本点分为训练集和测
试集,其中70%的样本点作为训练集,30%的样本点作为测试集;
[0011] 步骤三、计算拉普拉斯得分确定最后的特征子集:利用拉普拉斯得分对步骤二中所述的训练集样本的特征进行打分,得到每一个特征的分数,最后再取分数最高的k个特征
作为选择的特征子集;对步骤二中总数为2N的样本点进行特征子集的抽取,形成新的训练
集和测试集;
[0012] 步骤四、利用步骤三中新的训练集对集成学习LightGBM模型进行训练;得到集成学习LightGBM模型在新的训练集和测试集的准确率;
[0013] 步骤五、利用训练好的模型对整个流域进行计算,得到整个流域洪水风险敏感性的概率值;
[0014] 进一步地,步骤一中所述的数个因子包括:大气、蒸发、地形、河网;可从该4项因子中提出10项洪水风险敏感性评估指标包括高程、坡度、曲率、TWI、SPI、距河流距离、土壤、植
被、坡向和降雨;根据流域洪水的机理;将这些因素均基于ArcGIS软件进行计算和处理,其
中SPI和TWI使用以下公式计算:
[0015] TWI=Ln(α/tanβ)                         (1)
[0016] SPI=As tanβ                         (2)
[0017] 式中α是通过一个点的累计坡面排水量,As为特定流域面积,tanβ是该点处的坡度角。
[0018] 进一步地,所述步骤二中初始数据标准化处理,包括:
[0019] 对样本数据集合S进行数据清洗,去除有缺失和不需要的数据并进行关联性验证;
[0020] 所有尺度条件因子均使用流行的分位数方法进行分类;准备好数据集后,将每个条件因子转换为m*n大小的网格空间数据库,并构造流域地区的网格图。
[0021] 进一步地,步骤三中所述的计算拉普拉斯得分确定最后特征子集的过程包括:
[0022] 针对步骤二中训练集样本,构建一张邻接矩阵G:当type(i)=type(j)时,Gij=1,否则Gij=0,然后对于矩阵中Gij=1的点,令 其中t为合适的常数;
[0023] 由此得到的矩阵就是该训练集的权重矩阵S,其中
[0024] 计算拉普拉斯得分的公式为:
[0025]
[0026] 其中,Lr为第r个特征的拉普拉斯得分;fri‑frj为第i个样本和第j个样本的第r个特征的差值;Sij为权重矩阵中的对应的值;Var(fr)为第r个特征在所有样本上的方差。
[0027] 进一步地,在所述步骤五中,将洪水灾害风险研究区域等级分为五级:低风险区、较低风险区、中等风险区、高风险和极高风险地区。
[0028] 与现有技术相比,本发明具有以下优点和有益效果:
[0029] (1)采用历史遥感技术提取每年洪水流量峰值日期的MODIS影像来反映该洪水过程的淹没状况,生成最大淹没范围图,具有直观性好,准确性高的优点,同时也避免了大量
的人工数据收集工作,大大提高了效率。
[0030] (2)利用拉普拉斯得分法可以直观的看出各个洪水影响因子对评估结果影响的重要程度,在整体进行了洪水风险评估之后,操作人员可以直接对对结果影响程度较高的影
响因子进行预防,相比于传统的人工判断,使可操作性大大提高。
[0031] (3)与传统的集成学习方法相比,本发明采用的LightGBM占用的内存更小,运算的时间更少,精度也越高。

附图说明

[0032] 图1是本发明的一种实施例的方法流程图。
[0033] 图2是本发明的一种实施例的计算拉普拉斯得分流程图。
[0034] 图3是本发明的一种实施验证方法结果图。

具体实施方式

[0035] 本发明提供了一种基于集成学习的洪水敏感性风险评估方法,包括:收集研究区的地形地貌、水文气象、土壤植被等数据作为特征数据,并将特征数据进行标准化处理;根
据历史水位数据和遥感数据提取研究流域历史淹没点与非淹没点;利用拉普拉斯得分选择
最优的特征子集;将样本点分为训练集和测试集并对集成学习模型进行训练;利用训练好
的模型对整个流域进行洪水风险敏感性计算,生成流域洪水敏感性风险等级分布图。本发
明使用研究区各特征数据作为输入,采用了新颖的集成学习模型,提高了流域洪水风险评
估的准确性,最后生成流域洪水风险映射图,可直观地展现研究区的洪水风险状况。
[0036] 下面结合附图对本发明做进一步详细说明。
[0037] 图1是本发明提供的一种基于集成学习的洪水敏感性风险评估方法流程图。
[0038] 步骤一、样本点数据的收集与整理。为了估算某个地区未来的洪灾事件,分析其过去的记录非常重要。首先,通过使用文献资料和实地调查绘制流域的洪水位置图并创建与
洪水有关的空间数据库。其次通过从文献中获得的数据以及现场调查,选择调节因素。最后
选择数个洪水调节因子进行敏感性分析,并建立这些因子的空间数据库。
[0039] 其中选择用历史遥感抽取历史发生洪水的样本点信息并选取和洪水发生有关的数项因子包括:大气,蒸发,地形,河网,并从该4项因子中提出10项洪水风险敏感性评估指
标包括高程,坡度,曲率,TWI,SPI,距河流距离,土壤,植被,坡向和降雨。根据流域洪水的机
理,将这些因素均基于ArcGIS软件进行计算和处理。其中SPI和TWI使用以下公式计算:
[0040] TWI=Ln(α/tanβ)                     (1)
[0041] SPI=As tanβ                       (2)
[0042] 式中α是通过一个点的累计坡面排水量,As为特定流域面积,tanβ是该点处的坡度角。
[0043] 步骤二、对所收集的初始数据进行清洗并标准化处理,统一坐标系;对步骤一所述原始样本数据进行标准化处理并赋值给每个评价单元,并转换成栅格数据存储格式,所有
的数据都经过投影转换与重采样操作。由于流量洪峰是引发洪涝灾害最主要的原因,所以
对于每一个研究区域,从它对应的水文站获取历史流量数据后,找出每年的洪水流量峰值
日期,并选择对应日期的MODIS影像来反映该洪水过程的淹没状况。利用ENVI5.3提取洪水
淹没范围,并将流量峰值对应的数个影像反映的淹没范围叠置,生成一个合并的最大的淹
没范围图,作为流量峰值所对应的淹没范围图,即得到最大淹没范围。在最大淹没范围内随
机选取数量为N的洪水淹没样本点,在非最大洪水淹没范围内随机选取数量为N的非洪水淹
没样本点,共同构成总数为2N的样本点。将上述样本点分为训练集和测试集,其中70%的样
本点作为训练集,30%的样本点作为测试集。该样本点选取方法利用了历史遥感技术提取
最大淹没范围图,具有直观性好,准确性高的优点,同时也避免了大量的人工数据收集工
作,大大提高了效率。
[0044] 步骤三、计算拉普拉斯得分确定最后的特征子集:利用拉普拉斯得分对步骤二中所述的训练集样本的特征进行打分,得到每一个特征的分数,最后再取分数最高的k个特征
作为选择的特征子集;对步骤二中总数为2N的样本点进行特征子集的抽取,形成新的训练
集和测试集。如图2所示,是本发明的一种实施例的计算拉普拉斯得分流程图。
[0045] 其具体方法包括:针对步骤二中训练集样本,构建一张邻接矩阵G(当type(i)=type(j)时,Gij=1,否则Gij=0),然后对于矩阵中Gij=1的点,令 (其中t为
合适的常数),这样得到的矩阵就是该训练集的权重矩阵S,其中 进一步,
计算拉普拉斯得分,计算公式为:
[0046]
[0047] 其中:
[0048] Lr为第r个特征的拉普拉斯得分;
[0049] fri‑frj为第i个样本和第j个样本的第r个特征的差值;
[0050] Sij为权重矩阵中的对应的值;
[0051] Var(fr)为第r个特征在所有样本上的方差;
[0052] 至此,每一个特征都会打出一个分数,最后再取分数最高的k个特征作为最后选择的特征子集。利用拉普拉斯得分法可以直观的看出各个洪水影响因子对评估结果影响的重
要程度,在整体进行了洪水风险评估之后,操作人员可以直接对对结果影响程度较高的影
响因子进行预防,相比于传统的人工判断,拉普拉斯得分法大大降低了操作门槛。
[0053] 步骤四、利用步骤三中新的训练集对集成学习LightGBM模型进行训练;得到集成学习LightGBM模型在新的训练集和测试集的准确率。LightGBM(轻量级梯度提升树)是一个
基于传统机器学习模型GBDT(梯度下降树)的一种集成学习提升方法,它有效的降低了算法
运算的复杂度,与传统的集成学习方法相比,LightGBM主要采用了GOSS(单边梯度采样)方
法,根据样本采样结果计算梯度。GOSS在对待梯度较大的样本时,保留全部样本,在对待梯
度较小的样本时,GOSS对样本进行随机抽样。采用的GOSS算法主要流程如下:
[0054] 首先GOSS使用决策树学习获得一个将输入空间映射到梯度空间的函数。假设步骤三利用拉普拉斯得分法得到的特征子集共有n个实例,特征维度为s,每次进行梯度迭代时,
LightGBM模型损失函数的负梯度方向表示为g1,…,gn,决策树通过最优切分点(最大信息
增益点)将样本数据划分到各个叶结点,特征j的分割点d定义为:
[0055]
[0056] 其中nO=∑I[xi∈O], O表示某个固定节点的训练集。
[0057] 接着GOSS根据梯度训练降序排序,保留top a个样本实例,作为数据子集A。对剩下的小梯度样本,随机采样大小为b的数据子集B,随后将数据集A和B合并。
[0058] 最后通过公式(5)估计信息增益:
[0059]
[0060] 经过一次GOSS计算,训练出一个弱分类器;接着重复GOSS算法训练多个弱分类器,直到公式(5)收敛或到达迭代步数,最后将所有训练好的弱分类器信息增益相加,得到最终
的集成学习模型,并且得到集成学习LightGBM模型在新的训练集和测试集的准确率。
[0061] 步骤五、利用训练好的模型对整个流域进行计算,得到整个流域洪水风险敏感性的概率值,为了对洪水易感位置进行可视化解释,需要将概率图分类为不同区域。为了进行
分类,研究中存在各种方法,例如等间隔,分位数,标准差。其中针对洪水流域使用分位数方
法一般可获得最佳输出,由此获得洪水风险敏感性图,并将洪水灾害风险研究区域分为五
类洪水敏感性:低风险区、较低风险区、中等风险区、高风险和极高风险地区。
[0062] 为了验证本发明方法的可行性,选取黄河流域的三门峡到花园口为研究区,利用从水文书籍中记载的历史洪水数据获取MODIS遥感图像,从而得到研究区的最大淹没范围,
并从中随机取样。研究区总共选取了300个淹没样本点和300个非淹没样本点,其中70%作
为训练集,30%作为测试集。研究区选取了高程、坡度、坡向、曲率、SPI、TWI、距河流距离、土
壤、植被和降雨量总共10个洪水影响因子,并分别计算了个洪水影响因子的拉普拉斯得分,
计算结果如表一所示。
[0063] 在进行模型训练时,本发明选取了LightGBM和市面上主流的集成学习方法XGBoost进行对比试验,经过对比试验,发现XGBoost的准确率为80.97%,LightGBM的准确
率为81.29%,并且运行的速度要远高于XGBoost。
[0064] 将研究区数据都输入到LightGBM模型中,生成洪水敏感性概率图并按照分位数方法,将概率图分为极高风险、高风险、中风险、低风险和极低风险五类,其试验结果如图3所
示。
[0065] 表1
[0066]