一种基于随机森林模型的管线健康状态评估方法转让专利

申请号 : CN201610179367.3

文献号 : CN105678481B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘书明常田吴雪

申请人 : 清华大学

摘要 :

一种基于随机森林模型的管线健康状态评估方法,属于城市供水管网技术领域。所述方法包括:分别从城市供水管网的基础数据库和破损数据库中提取管线基本信息和历史破损情况;对获取到的管线信息进行数据预处理;利用随机森林模型建立自变量与因变量之间的关系,评价模型的分类效果;利用通过分类效果评估的随机森林模型预测供水管网的破损概率;对预测结果进行分级,用不同颜色表示健康等级,绘制健康状态专题图;评价管线破损影响因子重要性,分析影响规律。应用本发明对管网健康状态评估,其预测结果与实际情况基本相符,能够有效地评价管道状态,为供水企业制定管线维护改造优先次序、优化维修计划提供一定的理论支持。

权利要求 :

1.一种基于随机森林模型的管线健康状态评估方法,其特征在于该方法包括如下步骤:

1)分别从城市供水管网的基础数据库和破损数据库中提取管线基本信息和历史破损情况,所述的基本信息包括管线属性信息、地理环境、运行状况和空间位置四大类;所述的历史破损情况包括破损管线编号、破损时间、破损原因和破损位置;

2)对获取到的管线信息进行数据预处理:

a.数据库关联:对城市供水管网的基础数据库和破损数据库按照管线编号或者空间位置进行关联,匹配出每根管线的历史破损信息;

b.确定影响因子:筛选出对管线健康有直接或间接影响的属性因子作为模型的输入参数,该输入参数包括管材、管径、管龄、管长、接口类型、管道防腐、埋深、道路负荷、覆土类型、杂散电流和运行压力;

c.数字编码:根据影响因子的数据属性,将其分为连续变量和分类变量,对分类变量进行数字编码,用不同数字表示数据类别;对于管线的历史破损信息,用0表示管线未发生过破损,用1表示管线发生破损;

3)利用随机森林模型建立自变量与因变量之间的关系,评价模型的分类效果:自变量为筛选出的影响因子,因变量为用0和1表示的历史破损信息;模型分类误差小于20%时,认为模型效果较好,误差大于20%时,可通过调整参数重新建立模型;

4)利用通过分类效果评估的随机森林模型预测供水管网的破损概率:

预测结果为介于[0,1]之间的数值,其值越接近于1,管线越危险,越接近于0,管线越健康;

5)对预测结果进行分级,用不同颜色表示健康等级,绘制健康状态专题图;

6)评价管线破损影响因子重要性,分析影响规律:用平均精度下降和平均基尼指数下降两个参数评价管线破损影响因子的重要性,其值越大表示因子重要性越大:通过绘制偏相关图,用图表描述一个因子对类的概率的边际效应,来分析各因子对管线破损的影响规律。

2.按照权利要求1所述的一种基于随机森林模型的管线健康状态评估方法,其特征在于,步骤3)利用随机森林模型中,原始数据样本集由破损管线和未破损管线两部分组成,数据量占比为1:1。

3.按照权利要求1所述的一种基于随机森林模型的管线健康状态评估方法,其特征在于,步骤3)评价模型分类效果时,采用随机森林自身特有的OOB误差估计模型误差。

4.按照权利要求1所述的一种基于随机森林模型的管线健康状态评估方法,其特征在于,步骤5)所述的对预测结果进行分级,采用等间隔分类法,根据0~0.2、0.2~0.4、0.4~

0.6、0.6~0.8、0.8~1的概率区间将健康状态评估结果分别划分为健康、较好、一般、较差和危险五个等级,并在ArcGIS平台上用不同的颜色表示,绘制健康状态专题图。

说明书 :

一种基于随机森林模型的管线健康状态评估方法

技术领域

[0001] 本发明涉及一种对管线健康状态进行日常评估的方法,属于城市供水管网领域。

背景技术

[0002] 作为城市基础设施的重要组成部分,城市供水管网的安全、高效运行是人民正常生活、发展生产的重要保障。目前我国的城市供水管网存在管线老化严重、维护难度大、管理水平落后、维护管理不力等问题,不可避免地导致破损事故多发,影响供水系统的服务水平。这一方面浪费大量优质水资源,增加供水成本;另一方面引发地下公共设施的损坏,甚至妨碍交通,破坏市民生活和生产秩序。因此,对城市管网进行有计划的更新势在必行,而确定大型复杂管网的优化更新方案,对管网进行有效、可行的健康状态评估必不可少。
[0003] 现有管线健康状态评估方法大致分成两大类,直接检测法和建模分析法。直接检测法能够更为准确的得到管道的运行情况,但是往往需要大量资金的投入,并且实际监测会受到场地等情况的限制;建模分析法节省人力物力,是国内外专家学者的研究热点。
[0004] 管线健康的影响因素众多,存在复杂的非线性关系,且难以定量评价其影响程度;我国管网数据库的建设水平滞后,对历史数据的记录不完整、不准确,缺乏统一标准,差异性较大。目前已有的管线评价方法多采用Logistic广义线型回归(CN102222169)、遗传算法(CN102072409)、层次分析法(CN103578045)、神经网络(CN103258243)等方法建立模型,而这些方法不同程度上存在主观性较强、数据质量要求高、适用于特定管网、计算量大等不足。

发明内容

[0005] 鉴于上述问题,本发明的目的是提供一种新的对数据质量要求不高、适用范围广、准确性较高的基于随机森林模型的管线健康状态评估方法,以便在事故发生前发现管线问题,为管线维护、更新改造计划的制定提供参考,辅助供水管网日常管理的科学决策。
[0006] 本发明的技术方案如下:
[0007] 一种基于随机森林模型的管线健康状态评估方法,其特征在于该方法包括如下步骤:
[0008] 1)分别从城市供水管网的基础数据库和破损数据库中提取管线基本信息和历史破损情况,所述的基本信息包括管线属性信息、地理环境、运行状况和空间位置四大类;所述的历史破损情况包括破损管线编号、破损时间、破损原因和破损位置;
[0009] 2)对获取到的管线信息进行数据预处理:
[0010] a.数据库关联:对城市供水管网的基础数据库和破损数据库按照管线编号或者空间位置进行关联,匹配出每根管线的历史破损信息;
[0011] b.确定影响因子:筛选出对管线健康有直接或间接影响的属性因子作为模型的输入参数,该输入参数包括管材、管径、管龄、管长、接口类型、管道防腐、埋深、道路负荷、覆土类型、杂散电流和运行压力;
[0012] c.数字编码:根据影响因子的数据属性,将其分为连续变量和分类变量,对分类变量进行数字编码,用不同数字表示数据类别;对于管线的历史破损信息,用0表示管线未发生过破损,用1表示管线发生破损;
[0013] 3)利用随机森林模型建立自变量与因变量之间的关系,评价模型的分类效果:
[0014] 自变量为筛选出的影响因子,因变量为用0和1表示的历史破损信息;模型分类误差小于20%时,认为模型效果较好,误差大于20%时,可通过调整参数重新建立模型;评价模型分类效果时,采用随机森林自身特有的OOB误差估计模型误差。
[0015] 4)利用通过分类效果评估的随机森林模型预测供水管网的破损概率:
[0016] 预测结果为介于[0,1]之间的数值,其值越接近于1,管线越危险,越接近于0,管线越健康;
[0017] 5)对预测结果进行分级,用不同颜色表示健康等级,绘制健康状态专题图;
[0018] 6)评价管线破损影响因子重要性,分析影响规律:用平均精度下降和平均基尼指数下降两个参数评价管线破损影响因子的重要性,其值越大表示因子重要性越大:
[0019] 通过绘制偏相关图,用图表描述一个因子对类的概率的边际效应,来分析各因子对管线破损的影响规律。
[0020] 上述技术方案中,步骤3)利用随机森林模型中,原始数据样本集由破损管线和未破损管线两部分组成,数据量占比为1:1;评价模型分类效果时,采用随机森林自身特有的OOB误差估计模型误差。
[0021] 本发明步骤5)中,所述的对预测结果进行分级,采用等间隔分类法,根据0~0.2、0.2~0.4、0.4~0.6、0.6~0.8、0.8~1的概率区间将健康状态评估结果分别划分为健康、较好、一般、较差和危险五个等级,并在ArcGIS平台上用不同的颜色表示,绘制健康状态专题图。
[0022] 与现有城市供水管网评估方法相比,本发明具有以下优点及突出性的技术效果:
[0023] ①随机森林模型虽然结构复杂,但是简单易用。与传统模型相比,需要的假设条件及模型参数少,一般情况下,模型参数的缺省值即可得到最优结果。对于众多影响管线健康的因素,无需检查各因素间的交互作用和非线性关系是否显著。
[0024] ②随机森林的学习过程快,通过随机抽取样本和随机抽取特征降低了对异常值和噪声的敏感程度,提高了准确率和稳定性。针对我国城市供水管网数据量大、记录不完整不准确等问题,依然可以高效处理,在较小的运算量下提供较高的预测准确度。
[0025] ③随机森林模型具备影响因子重要性评价和影响规律分析功能,拓展了管线健康状态评估的成果,对供水管网的日常管理工作具有较好地实际意义。
[0026] ④我国各城市供水管网的数据记录标准不同,用于评估管线状态的数据指标存在差异。应用随机森林模型,只需针对不同城市的实际情况,改变输入输出参数,模型自身即可通过学习新的样本,建立适合该数据集的“森林”,可使评价结果更科学、准确。因此,本技术的适用范围非常广泛。

附图说明

[0027] 图1示出了基于随机森林模型的管线健康状态评估方法的流程图。
[0028] 图2示出了随机森林方法的原理图。
[0029] 图3(a)和图3(b)示出了随机森林方法预测专题图与实际情况对比图。
[0030] 图4示出了管线破损影响因子重要性评价图。
[0031] 图5(a)和图5(b)示出了管线破损影响因子的影响规律分析图

具体实施方式

[0032] 为更好的理解和实施本发明,下面将结合附图和具体实施例对本发明进行详细阐述。
[0033] 为了提升供水管网的服务水平,优化管线维护改造计划制定的科学方法,需要在供水管线发生事故前,建立健康状态评估方法,确定问题管线,制定维护方案与优先次序,及时发现管线安全隐患并排除,以节省管网检测耗费的大量人力物力财力。
[0034] 为实现上述目的,本发明利用R软件作为健康状态评估方法的开发平台。R是一个免费、开源的自由软件,有着强大的统计分析功能及作图功能,内置丰富的数学计算、统计计算函数。本发明采用RandomForest功能包,编写相应代码以实现所需功能,大大提高了开发效率。
[0035] 图1示出了基于随机森林模型的管线健康状态评估方法的流程图,主要步骤如下:
[0036] 1)分别从城市供水管网的基础数据库和破损数据库中提取管线基本信息和历史破损情况。
[0037] 从城市供水管网的基础数据库中,提取管线的基础属性信息、地理环境、运行状况、空间位置。其中基础属性信息包括管线编号、管材、管径、管长、管龄、接口类型等,地理环境信息包括管道埋深、道路负荷、土壤性质等,运行状况包括运行压力、海森-威廉系数等。在具体实施中,可根据实际数据质量情况,扩充数据类型。
[0038] 从城市供水管网的破损数据库中,提取管线的历史破损情况,包括破损管线编号、破损时间、破损原因、破损位置信息。
[0039] 2)对获取到的管线信息进行数据预处理:
[0040] 数据筛选:剔除非自然因素(第三方、人为)导致事故的破损记录;修正录入错误,剔除明显异常数据;
[0041] 数据库关联:对城市供水管网的基础数据库和破损数据库按照管线编号或者空间位置进行关联,匹配出每根管线的历史破损信息;
[0042] 确定影响因子:筛选出对管线健康有直接或间接影响的属性因子作为模型的输入参数,该输入参数包括管材、管径、管龄、管长、接口类型、管道防腐、埋深、道路负荷、覆土类型、杂散电流和运行压力;
[0043] 数字编码:根据影响因子的数据属性,将其分为连续变量和分类变量,对分类变量进行数字编码,用不同数字表示数据类别;对于管线的历史破损信息,用0表示管线未发生过破损,用1表示管线发生破损;
[0044] 3)利用随机森林模型建立自变量与因变量之间的关系,评价模型的分类效果:
[0045] 自变量为筛选出的影响因子,因变量为用0和1表示的历史破损信息;模型分类误差小于20%时,认为模型效果较好,误差大于20%时,可通过调整参数重新建立模型;利用随机森林模型中,原始数据样本集由破损管线和未破损管线两部分组成,数据量占比为1:1。评价模型分类效果时,可采用随机森林自身特有的OOB误差估计模型误差。
[0046] 4)利用通过分类效果评估的随机森林模型预测供水管网的破损概率:
[0047] 预测结果为介于[0,1]之间的数值,其值越接近于1,管线越危险,越接近于0,管线越健康;
[0048] 5)对预测结果进行分级,用不同颜色表示健康等级,绘制健康状态专题图;
[0049] 6)评价管线破损影响因子重要性,分析影响规律:用平均精度下降和平均基尼指数下降两个参数评价管线破损影响因子的重要性,其值越大表示因子重要性越大:
[0050] 通过绘制偏相关图,用图表描述一个因子对类的概率的边际效应,来分析各因子对管线破损的影响规律。
[0051] 下面以我国南方某城市供水管网为实施例,详细介绍基于随机森林模型的管线健康状态评估的具体步骤:
[0052] (1)分别从城市供水管网的基础数据库和破损数据库中提取管线基本信息和历史破损情况。
[0053] 从城市供水管网的基础数据库中,提取管线的基础属信息包括:管线编号、管材、管径、管长、建设年份、道路负荷、杂散电流、运行压力、地理位置、土壤腐蚀等。在具体实施中,可根据实际数据质量情况,扩充数据类型。
[0054] 从城市供水管网的破损数据库中,提取破损管线编号、破损时间、破损原因、破损类型、破损点X、Y坐标。
[0055] (2)对获取到的管线信息进行数据预处理。
[0056] 在本具体实施例中,根据数据的完整性、准确性,选取管径、管材、管龄、道路负荷、运行压力、杂散电流六个基本属性作为管线破损的影响因子,是否发生破损作为管线状态的标签。其中,道路负荷是根据该市各区域综合交通规划图,定义每条道路的负荷,若铺设管道在该道路下方,则将道路类型值赋予到管道上;杂散电流是设定地铁及铁路左右10米范围内为杂散电流影响区域,若管道分布在此区域,则认为该管道可能受到杂散电流影响。数据集示例见表1,分类变量数字编码对照表见表2。
[0057] 表1管线数据集示例
[0058]管线编号 管径 管材 管龄 道路负荷 运行压力 杂散电流 是否发生破损
315711 400 2 9 4 34.07 1 1
106787 1000 5 14 2 42.78 0 1
489678 300 6 20 0 42.76 0 0
193536 250 4 4 3 37.14 0 0
102190 200 1 16 5 44.36 1 1
110772 800 5 32 0 41.75 0 1
309219 600 2 11 1 43.34 1 1
615496 200 6 5 0 29.66 0 0
507080 300 6 7 3 35.16 0 0
109813 800 5 17 0 41.98 0 0
[0059] 表2分类变量数字编码对照表
[0060]
[0061] (3)利用随机森林模型建立自变量与因变量之间的关系,评价模型的分类效果。
[0062] 随机森林是2001年提出的一种比较新的机器学习算法,图2示出了随机森林方法的原理图。给定原始数据样本集D,样本数量为N,从中有放回的重复取样N次,构成一个新的训练集D1,用于生成一棵决策树;在生成决策树的过程中,给定每一个样本共有M个特征向量,在决策树的每个节点随机选择m(<M)个特征,通过计算选择其中最优特征对节点进行分裂;重复上述步骤k次,生成k棵决策树,将其组成随机森林,用于分类预测,最终由每棵树投票决定最优结果。
[0063] 可以这样简单地理解随机森林算法:每一棵决策树就是一个精通于某一个窄领域的专家,随机森林中有很多个精通不同领域的专家,对于同一个问题,分别用不同的角度去看待,最终结果由各个专家民主投票产生。
[0064] 原始数据样本集由正样本和负样本同两部分组成,数据量为1:1,即选取等量的破损管线和未破损管线。
[0065] 随机森林模型的建立有两个重要参数:ntree——表示决策树的棵树,一般不少于100棵,缺省值为500;mtry——表示决策树分类结点处预选的特征个数,即上文原理介绍中的m,缺省值为 一般情况下采用缺省值即可得到最优结果。
[0066] 随机森林在有放回的重复取样生成新训练集的过程中,原始数据集中大约有1/3的样本不会被抽中,这部分样本称为袋外数据(Out-Of-Bag,OOB),可用于估计模型误差,评估预测效果,即OOB估计。OOB估计属于无偏估计,其本身的算法类似交叉验证,所以随机森林的训练不需要另外预留部分数据做交叉验证,无需测试集。
[0067] 在本具体实施例中,随机选取1000个破损数据(正样本)和等量的1000个未破损管线数据(负样本)作为原始数据集,以步骤(1)中筛选出的六个基本属性作为自变量,以是否发生破损作为因变量,两个参数均采用缺省值,建立随机森林模型挖掘自变量与因变量间的关系。经计算,本实施例的OOB误差为10.39%,即预测准确率达到89.61%,模型效果较好。
[0068] (4)利用通过分类效果评估的随机森林模型预测供水管网的破损概率。
[0069] 建立好的模型经过预测效果的评估后,即可应用于全研究管网。当利用数值表示分类变量(0代表未发生破损,1代表发生破损)作为因变量建立随机森林模型时,预测结果可得到发生/未发生破损的概率。预测结果示例见表3。
[0070] 表3预测结果示例
[0071]
[0072] 表中最后一列表示管线发生破损的概率,倒数第二列表示管线不发生破损的概率,两个值和为1。发生破损的概率越接近于1,管线越危险;越接近于0,管线越健康。
[0073] (5)对预测结果进行分级,用不同颜色表示健康等级,绘制健康状态专题图。
[0074] 为使评估结果一目了然,采用等间隔分类法,将健康状态评估结果划分为健康、较好、一般、较差、危险五个等级,详见表4。
[0075] 表4管线健康状态分级
[0076]健康等级 健康 较好 一般 较差 危险
预测结果 0~0.2 0.2~0.4 0.4~0.6 0.6~0.8 0.8~1
[0077] 将健康状态分级结果在ArcGIS中用不同的颜色分级显示,绘制健康状态专题图。图3(a)和图3(b)示出了在本具体实施例中实际情况与随机森林方法预测专题图对比图,预测专题图中颜色越深代表管线破损的概率越高,两张图的相似度较高,表明随机森林模型的预测效果较好。
[0078] (6)评价管线破损影响因子重要性,分析影响规律。
[0079] 随机森林模型可以通过varImpPlot函数用图形的方式展示因子的重要程度。衡量因子重要性的参数有2种:平均精度下降(MeanDecreaseAccuracy),衡量把一个因子的取值变为随机数,随机森林预测准确性的降低程度,该值越大表示该因子的重要性越大;平均基尼指数下降(MeanDecreaseGini),通过基尼指数计算每个因子对决策树每个节点不纯度的降低程度的影响,该值越大表示该因子的重要性越大。两种重要性参数衡量出的因子重要性会略有差距,但是差距不会很大。
[0080] 图4示出了在本具体实施例中管线破损影响因子重要性评价图。随机森林给出的因子重要性评价结果表明,影响管线破损的主导因素是管龄和运行压力,影响因素最小的是杂散电流。
[0081] 通过因子重要性排序,可以在模型优化过程中剔除影响较小的自变量;对重要性较高的因子,在今后的数据收集中可作为重要指标,提升数据质量。
[0082] 随机森林模型的另一个功能就是绘制偏相关图,用图表描述一个因子对类的概率的边际效应,通过partialPlot函数实现。该功能可以更好地分析各因子对管线破损的影响规律。
[0083] 偏相关图的纵坐标和横坐标是对数关系,因此主要关注曲线的相对走向变化。纵坐标值越大,则因子对管线破损的影响程度越大。
[0084] 以重要性最大的两个因子管龄和运行压力为例,图5(a)和图5(b)示出了管线破损影响因子的影响规律分析图。由图可知,本具体实施例中,10-15年的管线最易破损,运行压力过低或者过高的管线健康状态均较差。
[0085] 以上结果说明,采用随机森林对城市供水管网进行健康状态评估,预测结果与实际情况基本相符,表明该模型能够较有效地评价管道状态,因子重要性评价和影响规律分析其结果能够为供水企业制定管线维护改造优先次序、优化维修计划提供一定的理论支持。
[0086] 以上实施例仅用于更好地描述本发明,但并不限制本发明的应用范围。