基于卫星遥感和自动监测的水质反演方法、系统转让专利

申请号 : CN202310137494.7

文献号 : CN115830473B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 何苗李舸张悦薛健峰刘康钟亮金张禹徐韫致闻立杰

申请人 : 江苏省生态环境监测监控有限公司清华大学

摘要 :

本发明提供基于卫星遥感和自动监测的水质反演方法、系统。该基于卫星遥感和自动监测的水质反演方法包括以下步骤:根据历史卫星遥感图像和目标区域内水质监测站点的历史监测数据建立反演模型训练数据集。根据水质分类信息对训练数据集进行过采样,得到过采样训练样本,利用过采样训练样本训练分类模型,再利用过采样训练样本中各水质类别的样本分别训练回归模型,分类模型与回归模型耦合形成反演模型。获取目标水域的待反演卫星遥感图像,通过反演模型对待反演卫星遥感图像进行二维水质反演,得到所需污染物浓度反演结果。本发明利用卫星遥感图像与水质监测站点监测数据进行匹配,降低了获取样本成本;且利用多模型耦合提高了反演模型精度。

权利要求 :

1.一种基于卫星遥感和自动监测的水质反演方法,其用于获取目标水域的不同污染物二维水质空间分布情况,其特征在于,所述基于卫星遥感和自动监测的水质反演方法包括以下步骤:S1.根据历史卫星遥感图像和目标区域内水质监测站点的历史监测数据建立反演模型训练数据集;反演模型训练数据集的建立方法具体如下:S11.将目标区域内水质监测站点的坐标转化为历史卫星遥感图像中像素点的坐标并进行坐标匹配,进而使卫星遥感图像各波段的波段数据与目标区域内水质监测站点的历史监测数据关联;

S12.根据所述历史监测数据对所述波段数据增加水质分类信息,并根据时间情况对所述波段数据增加对应的季节信息及组合波段信息,得到组合波段数据;

S13.以各水质监测站点为中心向外扩充一个预设范围的区域作为水质监测区域,并将各水质监测站点的历史监测数据作为对应水质监测区域的历史水质数据;

S14.提取历史卫星遥感图像中与各水质监测区域对应像素的的组合波段数据,并与各水质监测区域的历史水质数据一起归集成训练数据集;

S2.根据水质分类信息对训练数据集进行过采样,得到过采样训练样本,且根据水质分类信息构建分类模型,将所述过采样训练样本输入至分类模型中进行训练,再利用过采样训练样本中各水质类别的样本分别训练回归模型,进而将分类模型与回归模型耦合形成综合反演模型;

S3.获取目标水域的待反演卫星遥感图像,通过所述反演模型对待反演卫星遥感图像进行二维水质反演,得到表征不同污染物在目标水域的二维水质空间分布情况的污染物浓度反演结果;其中,待反演卫星遥感图像的二维水质反演方法包括以下步骤:计算目标水域的待反演卫星遥感图像每个像素点的归一化水指数NDWI:

NDWI=(pG+pNIR)/(pG‑pNIR);

pG和pNIR分别为待反演卫星遥感图像绿波段与近红外波段在每个像素点的数值;

判断各像素点的归一化水指数NDWI是否大于一个预设的阈值,是则判定该像素点为水体像素点;

根据所述水体像素点在所述待反演卫星遥感图像上的像素点坐标获取对应的像素点波段数据,并根据待反演遥感图像的时间信息将对应的季节信息及组合波段信息添加至像素点波段数据中,重新组合后得到组合像素点波段数据;

根据待反演遥感图像的时间信息获取所述水体像素点所在的水质监测区域的水质数据,将该水质数据和所述组合像素点波段数据输入至所述反演模型中,得到所述目标水域的污染物浓度反演结果,其表征不同污染物在目标水域的二维水质空间分布情况。

2.根据权利要求1所述的基于卫星遥感和自动监测的水质反演方法,其特征在于,水质监测站点的坐标转化包括以下步骤:获取历史卫星遥感图像的投影坐标系,所述投影坐标系以X轴为横坐标、Y轴为纵坐标;

并将水质监测站点的地理坐标转化成相应的投影坐标(Xg,Yg);

根据历史卫星遥感图像的仿射矩阵计算出水质监测站点的投影坐标(Xg,Yg)在历史卫星遥感图像的投影坐标系上所对应的像素点的坐标(row,col);计算公式为:其中,X0为X轴起始点坐标,Y0为Y轴起始点坐标,Xres为X轴分辨率,Yres为Y轴分辨率,Xrot和Yrot为历史卫星遥感图像的旋转信息。

3.根据权利要求1所述的基于卫星遥感和自动监测的水质反演方法,其特征在于,水质监测站点监测数据的获取方法包括以下步骤:根据所需的数据日期范围及空间区域范围,拉取该空间区域范围内覆盖的水质监测站点数据;

将水质监测站点数据以特定的格式输出站点列表文件和站点数据文件;所述站点列表文件包括水质监测站点ID及经纬度信息;站点数据文件包括自动监测时间、化学需氧量、氨氮、总磷及总氮监测结果,并以水质监测站点ID为名称命名。

4.根据权利要求1所述的基于卫星遥感和自动监测的水质反演方法,其特征在于,所述历史卫星遥感图像的获取方法包括以下步骤:获取所需的数据区域的编码文件、数据产品类型、云量范围以及数据日期范围,构建获取数据端口并生成待下载文件列表;

根据待下载文件列表下载卫星影像数据库中存储的卫星遥感图像。

5.根据权利要求1所述的基于卫星遥感和自动监测的水质反演方法,其特征在于,水质分类等级由优到劣包括I类,II类,III类,IV类,V类,劣V类。

6.根据权利要求1所述的基于卫星遥感和自动监测的水质反演方法,其特征在于,所述训练数据集的过采样方式包括SMOTE过采样、随机过采样、Borderline‑SMOTE过采样或ADASYN自适应综合过采样。

7.根据权利要求6所述的基于卫星遥感和自动监测的水质反演方法,其特征在于,所述训练数据集进行SMOTE过采样的具体步骤如下:计算训练数据集中不同水质类别的样本数量Ni以及样本数量最大值Nmax=max{Ni};

每种水质类别的样本过采样倍率为Nmax/Ni;

在每类水质类别的样本中随机选取一个样本xi,查找其在欧式空间中的K个最近邻xij(j=1,2,...,K);其中,K为预设的大于0的正整数;

根据样本过采样倍率,在样本xi的K个最近邻中随机选取一个或多个样本xij,生成新的过采样训练样本xnew:xnew=xi+r*(xij‑xi);其中,r为[0,1]范围的随机数。

8.根据权利要求6所述的基于卫星遥感和自动监测的水质反演方法,其特征在于,所述分类模型的构建方法包括XGBoos算法、SVM算法、线性回归算法或神经网络算法。

9.一种基于卫星遥感和自动监测的水质反演系统,其特征在于,其采用如权利要求1至

8中任意一项所述的基于卫星遥感和自动监测的水质反演方法,基于卫星遥感和自动监测的水质反演系统包括:数据采集模块,其用于采集历史卫星遥感图像和目标区域内水质监测站点的历史监测数据;还用于采集目标水域的待反演卫星遥感图像;

数据处理模块,其用于根据历史卫星遥感图像和目标区域内水质监测站点的历史监测数据建立反演模型训练数据集;根据水质分类信息对训练数据集进行过采样,得到过采样训练样本,且根据水质分类信息构建分类模型,将所述过采样训练样本输入至分类模型中进行训练,再利用过采样训练样本中各水质类别的样本分别训练回归模型,进而将分类模型与回归模型耦合形成综合反演模型;还用于通过所述反演模型对待反演卫星遥感图像进行二维水质反演,得到表征不同污染物在目标水域的二维水质空间分布情况的污染物浓度反演结果;

数据输出模块,其用于输出污染物浓度反演结果。

说明书 :

基于卫星遥感和自动监测的水质反演方法、系统

技术领域

[0001] 本发明涉及环境监测与环境保护技术领域,具体为一种基于卫星遥感和自动监测的水质反演方法、系统。

背景技术

[0002] 河流、湖泊水质监测对于水环境质量评价优化、污染事件发现及溯源具有重要意义。通常可利用采样监测、自动监测和卫星反演等方式进行水质监测。其中采样监测需要经过人工采样、实验室分析等环节,精度高但时效性较差;自动水质监测站可以对监测点位水质开展实时监测,但存在建设运维成本高,只能进行单点监测等问题;基于卫星图像的水质反演可获取大尺度河流湖泊水质的二维分布情况,在水质管控、污染溯源等方面有独特的应用价值。
[0003] 基于卫星图像的水质反演依赖于水质反演模型的训练,目前应用机器学习及深度学习算法训练反演模型的方法均见诸报道,现有技术方案主要是以水质采样数据为基准(模型训练目标),通过时空匹配卫星影像和采样监测数据,形成样本库,进行模型训练,主要存在以下问题:
[0004] 1. 样本获取成本高。水质反演样本库的制作需要将卫星影像与水质采样数据进行时空匹配(一致的时间地点),该匹配过程专业化程度较高,耗时耗力,且现场水质采样成本较高,数据稀少。
[0005] 2. 水质反演模型精度不足。主要受到两个方面的限制,一是训练样本数量不足,二是样本不均衡问题突出,因为水质样本大量集中于优三类水质,导致训练模型对较差水质预测能力不足。

发明内容

[0006] 基于此,有必要针对现有技术中训练样本获取成本高、模型精准度不足的问题,提供一种基于卫星遥感和自动监测的水质反演方法、系统。
[0007] 为实现上述目的,本发明采用了以下技术方案:
[0008] 一种基于卫星遥感和自动监测的水质反演方法,包括以下步骤:
[0009] S1.根据历史卫星遥感图像和目标区域内水质监测站点的历史监测数据建立反演模型训练数据集,反演模型训练数据集的建立方法具体如下:
[0010] S11.将目标区域内水质监测站点的坐标转化为历史卫星遥感图像中像素点的坐标并进行坐标匹配,进而使卫星遥感图像各波段的波段数据与目标区域内水质监测站点的历史监测数据关联。
[0011] S12.根据历史监测数据对波段数据增加水质分类信息,并根据时间情况对波段数据增加对应的季节信息及组合波段信息,得到组合波段数据。
[0012] S13.以各水质监测站点为中心向外扩充一个预设范围的区域作为水质监测区域,并将各水质监测站点的历史监测数据作为对应水质监测区域的历史水质数据。
[0013] S14.提取历史卫星遥感图像中与各水质监测区域对应像素的组合波段数据,并与各水质监测区域的历史水质数据一起归集成训练数据集。
[0014] S2.根据水质分类信息对训练数据集进行过采样,得到过采样训练样本,且根据水质分类信息构建分类模型,将过采样训练样本输入至分类模型中进行训练,再利用过采样训练样本中各水质类别的样本分别训练回归模型,进而将分类模型与回归模型耦合形成综合反演模型。
[0015] S3.获取目标水域的待反演卫星遥感图像,通过反演模型对待反演卫星遥感图像进行二维水质反演,得到表征不同污染物在目标水域的二维水质空间分布情况的污染物浓度反演结果。
[0016] 进一步的,待反演卫星遥感图像的二维水质反演方法包括以下步骤:
[0017] 计算目标水域的待反演卫星遥感图像每个像素点的归一化水指数NDWI:
[0018] NDWI=(pG+pNIR)/(pG‑pNIR)。
[0019] pG和pNIR分别为待反演卫星遥感图像绿波段与近红外波段在每个像素点的数值。
[0020] 判断各像素点的归一化水指数NDWI是否大于一个预设的阈值,是则判定该像素点为水体像素点。
[0021] 根据水体像素点在待反演卫星遥感图像上的像素点坐标获取对应的像素点波段数据,并根据待反演遥感图像的时间信息将对应的季节信息及组合波段信息添加至像素点波段数据中,重新组合后得到组合像素点波段数据。
[0022] 根据待反演遥感图像的时间信息获取水体像素点所在的水质监测区域的水质数据,将该水质数据和组合像素点波段数据输入至反演模型中,得到目标水域的污染物浓度反演结果,其表征不同污染物在目标水域的二维水质空间分布情况。
[0023] 进一步的,水质监测站点的坐标转化包括以下步骤:
[0024] 获取历史卫星遥感图像的投影坐标系,所述投影坐标系以X轴为横坐标、Y轴为纵坐标;并将水质监测站点的地理坐标转化成相应的投影坐标(Xg,Yg)。
[0025] 根据历史卫星遥感图像的仿射矩阵计算出水质监测站点的投影坐标(Xg,Yg)在历史卫星遥感图像的投影坐标系上所对应的像素点的坐标(row,col)。计算公式为:
[0026] 。
[0027] 其中,X0为X轴起始点坐标,Y0为Y轴起始点坐标,Xres为X轴分辨率,Yres为Y轴分辨率,Xrot和Yrot为历史卫星遥感图像的旋转信息。
[0028] 进一步的,水质监测站点监测数据的获取方法包括以下步骤:
[0029] 根据所需的数据日期范围及空间区域范围,拉取该空间区域范围内覆盖的水质监测站点数据。
[0030] 将水质监测站点数据以特定的格式输出站点列表文件和站点数据文件。站点列表文件包括水质监测站点ID及经纬度信息。站点数据文件包括自动监测时间、化学需氧量、氨氮、总磷及总氮监测结果,并以水质监测站点ID为名称命名。
[0031] 进一步的,历史卫星遥感图像的获取方法包括以下步骤:
[0032] 获取所需的数据区域的编码文件、数据产品类型、云量范围以及数据日期范围,构建获取数据端口并生成待下载文件列表。
[0033] 根据待下载文件列表下载卫星影像数据库中存储的卫星遥感图像。
[0034] 进一步的,水质分类等级由优到劣包括I类,II类,III类,IV类,V类,劣V类。
[0035] 进一步的,训练数据集的过采样方式包括SMOTE过采样、随机过采样、Borderline‑SMOTE过采样或ADASYN自适应综合过采样。
[0036] 进一步的,训练数据集进行SMOTE过采样的具体步骤如下:
[0037] 计算训练数据集中不同水质类别的样本数量Ni以及样本数量最大值Nmax = max{Ni}。每种水质类别的样本过采样倍率为Nmax/Ni。
[0038] 在每类水质类别的样本中随机选取一个样本xi,查找其在欧式空间中的K个最近邻xij(j=1,2,...,K)。其中,K为预设的大于0的正整数。
[0039] 根据样本过采样倍率,在样本xi的K个最近邻中随机选取一个或多个样本xij,生成新的过采样训练样本xnew:xnew = xi + r*(xij‑xi)。其中,r为[0,1]范围的随机数。
[0040] 进一步的,分类模型的构建方法包括XGBoos算法、SVM算法、线性回归算法或神经网络算法。
[0041] 本发明还涉及一种基于卫星遥感和自动监测的水质反演系统,其采用如前述的基于卫星遥感和自动监测的水质反演方法,基于卫星遥感和自动监测的水质反演系统包括数据采集模块、数据处理模块和数据输出模块。
[0042] 数据采集模块用于采集历史卫星遥感图像和目标区域内水质监测站点的历史监测数据。还用于采集目标水域的待反演卫星遥感图像。
[0043] 数据处理模块用于根据历史卫星遥感图像和目标区域内水质监测站点的历史监测数据建立反演模型训练数据集。根据水质分类信息对训练数据集进行过采样,得到过采样训练样本,且根据水质分类信息构建分类模型,将所述过采样训练样本输入至分类模型中进行训练,再利用过采样训练样本中各水质类别的样本分别训练回归模型,进而将分类模型与回归模型耦合形成综合反演模型。还用于通过反演模型对待反演卫星遥感图像进行二维水质反演,得到表征不同污染物在目标水域的二维水质空间分布情况的污染物浓度反演结果。
[0044] 数据输出模块用于输出污染物浓度反演结果。
[0045] 与现有技术相比,本发明的有益效果包括:
[0046] 1、本发明通过半自动化星地匹配以及水质监测站点的连续自动监测数据作为反演目标提高了样本获取效率,二者的匹配提高了训练样本的时空覆盖度,降低了获取样本成本;且通过加入组合波段、季节信息两项特征提高了反演模型精度。
[0047] 2、本发明通过水质变化连续性原则进行样本扩充,提高了反演模型训练样本库容量,降低了训练样本获取成本,为训练高精度模型提供了基础数据保障。
[0048] 3、本发明通过样本过采样的方式减少了数据类型不均衡的问题,提高了反演模型精度;且通过耦合模型,以先判断水质类别,再进行污染浓度反演的方法进一步提高了反演模型精度。
[0049] 反演模型精度。

附图说明

[0050] 参照附图来说明本发明的公开内容。应当了解,附图仅仅用于说明目的,而并非意在对本发明的保护范围构成限制。其中:
[0051] 图1为本发明介绍的一种基于卫星遥感和自动监测的水质反演的流程图;
[0052] 图2为过采样前的总磷样本分布情况示意图;
[0053] 图3为过采样前的氨氮样本分布情况示意图;
[0054] 图4为过采样前的化学需氧量样本分布情况示意图;
[0055] 图5为过采样后的总磷样本分布情况示意图
[0056] 图6为过采样后的氨氮样本分布情况示意图;
[0057] 图7为过采样后的化学需氧量样本分布情况示意图;
[0058] 图8为采用训练数据集构建的总氮(TP)分类模型预测混淆矩阵示意图;
[0059] 图9为采用过采样训练样本构建的总氮(TP)分类模型预测混淆矩阵示意图;
[0060] 图10为长江流域2019.03和2020.03两个不同时间段四种主要水质污染物(高锰酸盐指数、氨氮、总氮、总磷)浓度反演结果。

具体实施方式

[0061] 容易理解,根据本发明的技术方案,在不变更本发明实质精神下,本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
[0062] 实施例1
[0063] 请参阅图1,本实施例介绍了一种基于卫星遥感和自动监测的水质反演方法,包括以下步骤:
[0064] 步骤1.根据历史卫星遥感图像和目标区域内水质监测站点的历史监测数据建立反演模型训练数据集。
[0065] 对于历史卫星遥感图像的获取,可以基于python的sentinelsat库实现卫星影像的自动下载。用户需要输入哥白尼数据开放获取中心的用户名、密码、获取数据区域的geojson文件、数据产品类型、云量范围以及获取数据日期范围,python将自动构建获取数据api并生成待下载文件列表,根据待下载文件列表程序将自动下载所需的历史卫星遥感图像。其中,GeoJSON是一种对各种地理数据结构进行编码的格式。
[0066] 对于目标区域内水质监测站点的历史监测数据的获取,根据自动下载的历史卫星遥感图像中的数据日期范围及空间区域范围,拉取该范围内覆盖的水质监测站点数据,并依照特定格式输出为csv格式文件,包括站点列表文件和站点数据文件。其中站点列表文件储存了站点ID及经纬度信息;站点数据文件以水质监测站点ID为名称命名,储存了自动监测时间、化学需氧量、氨氮、总磷及总氮监测结果。
[0067] 结合历史卫星遥感图像和目标区域内水质监测站点的历史监测数据,形成反演模型训练样本库。对于训练样本库的建立具体如下:
[0068] 步骤11.将目标区域内水质监测站点的坐标转化为历史卫星遥感图像中像素点的坐标并进行坐标匹配,进而使卫星遥感图像各波段的波段数据与目标区域内水质监测站点的历史监测数据关联。
[0069] 具体转化方式为:
[0070] 1)利用python GDAL库函数获取历史卫星遥感图像的投影坐标系,并以X轴为横坐标、Y轴为纵坐标。历史卫星遥感图像中包含各类数据信息,通过python GDAL库函数确定所需使用的坐标信息并作为投影坐标系。
[0071] 2)将水质监测站点经纬度(WGS地理坐标)转化为相应的投影坐标(Xg,Yg)。
[0072] 3)读取历史卫星遥感图像的仿射矩阵,获取历史卫星遥感图像X轴起始点坐标X0,Y轴起始点坐标Y0,X轴分辨率Xres,Y轴分辨率Yres,以及旋转信息Xrot和Yrot。
[0073] 4)根据公式解算水质监测站点在历史卫星遥感图像上对应的行(row)列(col)坐标:
[0074] 。
[0075] 由于历史卫星遥感图像上具有多个阵列分布的像素点,计算出的行(row)列(col)坐标能够确定水质监测站点与历史卫星遥感图像之间的相对位置关系,进而确定水质监测站点在历史卫星遥感图像上对应的像素点,该像素点坐标即为水质监测站点在历史卫星遥感图像上的坐标。
[0076] 5)匹配对应历史卫星遥感图像行(row)列(col)坐标上的波段数据及对应自动监测站点的历史监测数据,每一个波段对应一条记录包含历史卫星遥感图像波段信息及水质信息(化学需氧量、氨氮、总磷及总氮浓度)。
[0077] 步骤12.根据历史监测数据对波段数据增加水质分类信息,并根据时间情况对波段数据增加对应的季节信息及组合波段信息,得到组合波段数据。
[0078] 波段数据后处理包括在上述经过星地匹配形成的每一条记录中,根据水质信息增加该条记录对应的信息,具体为:
[0079] 1)水质分类信息。水质分类等级由优到劣分为I类,II类,III类,IV类,V类,劣V类。根据水质监测站点的监测信息将该区域归类到对应的水质等级内,得到水质监测站点所在的水域的水质分类信息。
[0080] 2)根据时间信息增加该条记录对应的季节信息;
[0081] 3)组合波段信息,组合波段信息为已有波段的线性组合,该特征有助于提高模型预测精准度。以哨兵2号B01 B12波段为例,可选用组合波段信息包括:B03/(B02+B08),B04/~B03,B02/B04,B04/B02,(B01+B03+B04)/B02,B03/(B02+B08)。但是组合波段信息不唯一,可能存在其它线性或者非线性的组合方式,因此根据实际情况确定组合波段信息。
[0082] 其中1)作为多模型耦合训练中分类模型的训练目标,2)、3)作为模型的时间信息输入。
[0083] 步骤13.以各水质监测站点为中心向外扩充一个预设范围的区域作为水质监测区域,并将各水质监测站点的历史监测数据作为对应水质监测区域的历史水质数据。
[0084] 基于水质连续变化假设,认为水质在一定范围内差异不大,因此可以以水质监测站点为中心,划定一个范围,认为该范围对应的卫星遥感图像对应的水质情况均与该水质监测站点结果一致。这个划定的范围则定义为水质监测区域。
[0085] 步骤14.提取历史卫星遥感图像中与各水质监测区域对应像素的组合波段数据,并与各水质监测区域的历史水质数据一起归集成训练数据集。
[0086] 以假定30m范围的水质基本不变为例,可对10m分辨率卫星遥感图像提取7x7网格(2*30m/10m+1)一致对应中心点的水质监测站点监测数据,由此可成倍扩充训练数据集。该样本增广方式,可将样本数量扩展35倍左右。
[0087] 步骤2.根据水质分类信息对训练数据集进行过采样,得到过采样训练样本,且根据水质分类信息构建分类模型,将所述过采样训练样本输入至分类模型中进行训练,再利用过采样训练样本中各水质类别的样本分别训练回归模型,进而将分类模型与回归模型耦合形成综合反演模型。
[0088] 在实际应用中,水质监测站点监测水质数据多集中在I类、II类及III类水质范围,IV类及以上样本数量较少,容易导致模型对较差水质的预测能力不足。而在应用中,较差水质的识别又恰恰是用户最为关心的问题。为克服这一问题,本实施例采用过采样+多模型耦合的技术方案以提高模型精准度,尤其是对较差水质预测的精准度。
[0089] 步骤2中的过采样方式可以是SMOTE过采样、随机过采样、Borderline‑SMOTE过采样或ADASYN自适应综合过采样,亦或者是其它可以实现过采样的方式。下面以SMOTE过采样举例说明对训练数据集进行过采样。
[0090] 由于本实施例将水质分类等级分为六类,依照样本不均一性,对各水质类别的样本进行过采样。首先计算六类水质样本数量Ni(i=1,2,...,6)。解算样本数量最大值Nmax = max{Ni}。各类别样本过采样倍率为Nmax/Ni。
[0091] 对于每类水质类别的样本,设定参数K为大于0的正整数,随机选取一个样本xi,查找其在欧式空间中的K个最近邻xij(j=1,2,...,K),依照以下公式生成新样本xnew:
[0092] xnew = xi + r*(xij‑xi)。
[0093] xnew 即为过采样训练样本。其中,r为[0,1]范围的随机数。需要强调的是,xi、xij、xnew均为包含输入数据和输出目标的样本向量。在本实施例中,xi、 xij、 xnew的向量长度为卫星遥感图像波段数+组合波段数+2(季节标签和分类标签)+4(四种污染物监测浓度,即化学需氧量、氨氮、总磷及总氮浓度)。
[0094] 对于过采样前后的对比,可以结合图2‑7所示,图2‑4为过采样前的总磷、氨氮、化学需氧量样本分布情况。其中,图2为总磷(TP)过采样前样本分布情况,图3为氨氮(NH3N)过采样前样本分布情况,图4为化学需氧量(CODMn)过采样前样本分布情况。图5‑7为过采样后的总磷、氨氮、化学需氧量样本分布情况。其中,图5为总磷(TP)过采样后样本分布情况,图6为氨氮(NH3N)过采样后样本分布情况,图7为化学需氧量(CODMn)过采样后样本分布情况。由过采样前后对比结果可知,通过过采样能够扩大IV类及以上样本数量。
[0095] 采用训练数据集构建的总氮(TP)分类模型预测混淆矩阵如图8所示。由图8可以看出,在真实分类(True label)的基础上,预测分类(Predicted label)主要集中在第一列,第三列的预测为0。采用过采样训练样本构建的总氮(TP)分类模型预测混淆矩阵如图9所示。由图9可知,在真实分类(True label)的基础上,第三列的预测达到0.6,第二列和第三列的预测指数均有提升。结合图8和图9可以看出,通过过采样能够提高预测的精准度。
[0096] 对于分类模型,可以采用XGBoos算法、SVM算法、线性回归算法或神经网络算法等机器学习算法进行构建。经过优化对比,本实施例具体采用XGBoost作为分类模型和回归模型。
[0097] 由于水质浓度变化范围较大,单一模拟对污染物浓度预测效果较差,经过实验研究论证,多模型耦合训练有助于提高模型精准度。
[0098] 首先构建分类模型,依照水质类型,将模型输出目标划定为三分类模型,三个分类含义分别为0(包含I类、II类、III类)、1(IV类)以及2(V类、劣V类)。再针对每一类分别训练回归模型,即输入具体污染物浓度数值。因此,对于每一种污染物的反演模型实际上是由1(分类模型)+3(三个回归模型)总共4个模型耦合而成。
[0099] 本实施例采用同样的数据将本实施例构建的反演模型和现有文献构建的模型进行对比现有文献模型采用的是2021年湖南大学发布的基于Sentinel‑2影像的水体提取和水质反演技术研究,对比情况如下表所示:
[0100] 表1:模型预测四污染物对比表
[0101]
[0102] 由上表可知,四种污染物监测浓度的精准度均得到了提升。
[0103] 步骤3.获取目标水域的待反演卫星遥感图像,通过反演模型对待反演卫星遥感图像进行二维水质反演,得到表征不同污染物在目标水域的二维水质空间分布情况的污染物浓度反演结果。
[0104] 基于上述构建的反演模型,可以对目标水域进行二维水质反演。待反演卫星遥感图像和历史卫星遥感图像的获取方式相同。计算目标水域的待反演卫星遥感图像每个像素点的归一化水指数NDWI:
[0105] NDWI=(pG+pNIR)/(pG‑pNIR)。
[0106] pG和pNIR分别为待反演卫星遥感图像绿波段与近红外波段在每个像素点的数值。
[0107] 判断各像素点的归一化水指数NDWI是否大于一个预设的阈值,是则判定该像素点为水体像素点。这个阈值可以设置为0.4。
[0108] 根据水体像素点在待反演卫星遥感图像上的像素点坐标获取对应的像素点波段数据,并根据待反演遥感图像的时间信息将对应的季节信息及组合波段信息添加至像素点波段数据中,重新组合后得到组合像素点波段数据。
[0109] 根据待反演遥感图像的时间信息获取水体像素点所在的水质监测区域的水质数据,将该水质数据和组合像素点波段数据输入至反演模型中,得到目标水域的污染物浓度反演结果,其表征不同污染物在目标水域的二维水质空间分布情况。
[0110] 按照空间位置重新排列所有水体像素点,可获得水体浓度反演结果。将反演结果映射到相应地理位置,则可得到反演结果图像。如图10所示,图10示出了长江流域2019.03和2020.03两个不同时间段四种主要水质污染物(高锰酸盐指数、氨氮、总氮、总磷)浓度反演结果。其中,高锰酸盐指数即为化学需氧量。
[0111] 基于此,本实施例介绍的基于卫星遥感和自动监测的水质反演方法主要步骤为以下几点:
[0112] 1.基于Python实现自动化卫星遥感图像下载及区域提取,结合环境监测大数据库,提取目标水域水质监测站点的监测数据,与卫星遥感图像进行自动匹配、分类和标注,建立训练数据集;
[0113] 2. 基于训练数据集进行过采样,建立先分类、再回归的多模型耦合反演模型,利用SMOTE过采样以及样本扩增技术,提高反演模型的准确性;
[0114] 3. 对待反演卫星遥感图像进行二维水质反演,并将结果映射到相应地理位置,生成对应污染物浓度反演结果图像。
[0115] 本实施例利用卫星遥感图像与水质监测站点自动监测数据进行匹配(而非手工采样数据),提高了训练样本的时空覆盖度,降低了获取样本成本。利用多模型耦合的技术方案,先判断水质类型,再反演污染物浓度,提高了整体模型精度。利用水质连续变化性质,假定一定范围内水质基本不变,进而将一定范围的遥感图像像素统一匹配其中心位置的水质自动站监测数据,成倍扩大了样本库容量。通过加入季节信息及组合波段信息,为模型提供了更丰富的信息,提高了反演精准度。通过利用过采样技术,减少样本不平衡的问题,提高了反演模型精度。基于Python的自动化处理技术,实现了数据下载、星地匹配、模型训练以及水质反演全流程的半自动化,提高了工作效率,降低了人工成本。
[0116] 实施例2
[0117] 本实施例介绍了基于卫星遥感和自动监测的水质反演系统。包括数据采集模块、数据处理模块和数据输出模块。本系统用于实现前述的基于卫星遥感和自动监测的水质反演方法。
[0118] 数据采集模块用于采集历史卫星遥感图像和目标区域内水质监测站点的历史监测数据。还用于采集目标水域的待反演卫星遥感图像。
[0119] 数据处理模块用于根据历史卫星遥感图像和目标区域内水质监测站点的历史监测数据建立反演模型训练数据集。还用于根据水质分类信息对训练数据集进行过采样,得到过采样训练样本,且根据水质分类信息构建分类模型,将过采样训练样本输入至分类模型中训练回归模型,进而分类模型与回归模型耦合训练成反演模型。还用于通过反演模型对待反演卫星遥感图像进行二维水质反演,得到表征不同污染物在目标水域的二维水质空间分布情况的污染物浓度反演结果。
[0120] 数据输出模块用于输出污染物浓度反演结果。
[0121] 本实施例具有和实施例1相同的有益效果。
[0122] 此外,基于实施例1的方法,可以在存储器或存储介质上存储计算机程序,计算机程序被执行时,实现实施例1的基于卫星遥感和自动监测的水质反演方法。
[0123] 本发明的技术范围不仅仅局限于上述说明中的内容,本领域技术人员可以在不脱离本发明技术思想的前提下,对上述实施例进行多种变形和修改,而这些变形和修改均应当属于本发明的保护范围内。