一种浮游生物的湿地碳汇数据监测系统转让专利

申请号 : CN202311601493.X

文献号 : CN117314020B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 梁迪文罗海林黄春荣董家华梁明易陈琛孙双双叶蓁董烜伊

申请人 : 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所)

摘要 :

本发明涉及数据处理技术领域,具体涉及一种浮游生物的湿地碳汇数据监测系统,包括:数据采集模块,用于采集温度序列和碳汇数据序列;初始异常程度获取模块,用于根据碳汇数据序列和温度序列得到若干碳汇数据段和温度数据段;获取每个碳汇数据段的上、下限阈值组合,计算每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的初始异常程度;最佳上、下限阈值获取模块,用于根据初始异常程度得到每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的最终异常程度;进而根据最终异常程度得到每个碳汇数据段的最佳上、下限阈值组合;准确异常检测模块,用于根据最佳上、下限阈值

权利要求 :

1.一种浮游生物的湿地碳汇数据监测系统,其特征在于,该系统包括以下模块:

数据采集模块,用于采集湿地的若干温度以及湿地溶解碳的若干碳汇数据,根据若干温度和若干碳汇数据得到温度序列和碳汇数据序列;

初始异常程度获取模块,用于根据碳汇数据序列中数据变动规律对碳汇数据序列和温度序列进行分段得到若干碳汇数据段和若干温度数据段;获取每个碳汇数据段的若干种上、下限阈值组合,根据每种上、下限阈值组合下每个碳汇数据段的异常检测结果的分布特征得到每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的初始异常程度;

最佳上、下限阈值获取模块,用于根据温度数据段对碳汇数据段的波动影响和每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的初始异常程度得到每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的最终异常程度;根据每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的最终异常程度对每个碳汇数据段的每种上、下限阈值组合的异常检测效果进行评估得到每个碳汇数据段的最佳上、下限阈值组合;

准确异常检测模块,用于利用每个碳汇数据段的最佳上、下限阈值组合进行异常检测得到可靠异常数据和可靠正常数据。

2.根据权利要求1所述一种浮游生物的湿地碳汇数据监测系统,其特征在于,所述根据碳汇数据序列中数据变动规律对碳汇数据序列和温度序列进行分段得到若干碳汇数据段和若干温度数据段,包括的具体方法为:将碳汇数据序列中第一个碳汇数据作为第一分析数据,获取第一分析数据的截止数据,判断第一分析数据的截止数据是否为碳汇数据序列的最后一个碳汇数据,当第一分析数据的截止数据为碳汇数据序列的最后一个碳汇数据时,停止循环;

当第一分析数据的截止数据不是碳汇数据序列的最后一个碳汇数据时,将第一分析数据的截止数据在碳汇数据序列中的下一个碳汇数据作为第二分析数据,获取第二分析数据的截止数据,判断第二分析数据的截止数据是否为碳汇数据序列的最后一个碳汇数据,当第二分析数据的截止数据为碳汇数据序列的最后一个碳汇数据时,停止循环;

以此类推,直至分析数据的截止数据为碳汇数据序列的最后一个碳汇数据时结束,得到若干截止数据;

将若干截止数据作为分段点,对碳汇数据序列进行分段处理得到若干碳汇数据段;

获取截止数据对应的时刻记为截止时刻,将若干截止时刻的温度作为分段点,将温度序列分割成若干温度数据段。

3.根据权利要求2所述一种浮游生物的湿地碳汇数据监测系统,其特征在于,所述获取第一分析数据的截止数据,包括的具体方法为:将第一分析数据及之后连续的S个碳汇数据构成的序列作为第一分析数据的第一探索子序列,将第一分析数据的第一探索子序列中所有碳汇数据的方差记为第一分析数据的第一探索子序列的方差,当第一分析数据的第一探索子序列的方差大于预设方差阈值Y1时,将第一探索子序列的最后一个碳汇数据作为第一分析数据的截止数据;

当第一分析数据的第一探索子序列的方差小于等于预设方差阈值Y1时,将第一分析数据及之后连续的S+1个碳汇数据构成的序列作为第一分析数据的第二探索子序列,将第一分析数据的第二探索子序列中所有碳汇数据的方差记为第一分析数据的第二探索子序列的方差,当第一分析数据的第二探索子序列的方差大于预设方差阈值Y1时,将第二探索子序列的最后一个碳汇数据作为第一分析数据的截止数据;

以此类推,直至第一分析数据的探索子序列的方差大于预设方差阈值Y1结束,得到第一分析数据的截止数据,S表示预设最小探索尺寸。

4.根据权利要求1所述一种浮游生物的湿地碳汇数据监测系统,其特征在于,所述获取每个碳汇数据段的若干种上、下限阈值组合,包括的具体方法为:获取每个碳汇数据段中所有碳汇数据的最大值H和最小值L,获取每个碳汇数据段中所有碳汇数据的上四分位数和下四分位数,将上四分位数据和下四分位数据分别作为第一上限阈值和第一下限阈值;

在每个碳汇数据段的所有碳汇数据中获取小于第一上限阈值,并且与第一上限阈值的差值绝对值最小的碳汇数据作为第二上限阈值;将第二上限阈值与L比较,当第二上限阈值小于等于L时,停止循环;当第二上限阈值大于L时,在每个碳汇数据段的所有碳汇数据中获取小于第二上限阈值,并且与第二上限阈值的差值绝对值最小的碳汇数据作为第三上限阈值;以此类推,直至上限阈值小于等于L时结束,得到每个碳汇数据段的若干上限阈值;

在每个碳汇数据段的所有碳汇数据中获取大于第一下限阈值,并且与第一下限阈值的差值绝对值最小的碳汇数据作为第二下限阈值;将第二下限阈值与H比较,当第二下限阈值大于等于H时,停止循环;当第二下限阈值小于H时,在每个碳汇数据段的所有碳汇数据中获取大于第二下限阈值,并且与第二下限阈值的差值绝对值最小的碳汇数据作为第三下限阈值;将第三下限阈值与H比较,当第三下限阈值大于等于H时,停止循环;以此类推,直至下限阈值大于等于H时结束,得到每个碳汇数据段的若干下限阈值;

将每个碳汇数据段的任意一个上限阈值与任意一个下限阈值组合得到每个碳汇数据段的若干种上、下限阈值组合。

5.根据权利要求1所述一种浮游生物的湿地碳汇数据监测系统,其特征在于,所述根据每种上、下限阈值组合下每个碳汇数据段的异常检测结果的分布特征得到每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的初始异常程度,包括的具体方法为:根据每种上、下限阈值组合对每个碳汇数据段中碳汇数据进行异常检测得到每种上、下限阈值组合下的每个碳汇数据段的若干异常数据和若干正常数据;

获取每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的缺失影响程度;

将每种上、下限阈值组合下的每个碳汇数据段的任意一个异常数据与任意一个正常数据组合得到每种上、下限阈值组合下每个碳汇数据段的若干双型组合,将每种上、下限阈值组合下的每个碳汇数据段的任意一个异常数据与任意一个异常数据组合得到每种上、下限阈值组合下的每个碳汇数据段的若干异常单型组合;将每种上、下限阈值组合下的每个碳汇数据段的每个异常单型组合中任意一个异常数据记为每种上、下限阈值组合下的每个碳汇数据段的每个异常单型组合的第一异常数据,将每种上、下限阈值组合下的每个碳汇数据段的每个异常单型组合中另外一个异常数据记为每种上、下限阈值组合下的每个碳汇数据段的每个异常单型组合的第二异常数据;

每种上、下限阈值组合下的每个碳汇数据段中每个异常数据的初始异常程度的计算方法为:

;

其中, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第k个双型组合中的正常数据, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第k个双型组合中的异常数据, 表示第z种上、下限阈值组合下的第i个碳汇数据段的双型组合的数量;

表示第z种上、下限阈值组合下的第i个碳汇数据段的第j个异常单型组合的第一异常数据,表示第z种上、下限阈值组合下的第i个碳汇数据段的第j个异常单型组合的第二异常数据, 表示第z种上、下限阈值组合下的第i个碳汇数据段的异常单型组合的数量;

表示第z种上、下限阈值组合下的每种第i个碳汇数据段的第s个异常数据的缺失影响程度, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第s个异常数据的初始异常程度。

6.根据权利要求5所述一种浮游生物的湿地碳汇数据监测系统,其特征在于,所述根据每种上、下限阈值组合对每个碳汇数据段中碳汇数据进行异常检测得到每种上、下限阈值组合下的每个碳汇数据段的若干异常数据和若干正常数据,包括的具体方法为:将每个碳汇数据段的每种上、下限阈值组合中的上限阈值和下限阈值分别作为箱线图法的上限阈值和下限阈值,利用箱线图法对每个碳汇数据段的所有碳汇数据进行异常检测,得到每种上、下限阈值组合下的每个碳汇数据段的若干异常数据和若干正常数据。

7.根据权利要求5所述一种浮游生物的湿地碳汇数据监测系统,其特征在于,所述获取每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的缺失影响程度,包括的具体方法为:将每种上、下限阈值组合下的任意一个碳汇数据段的任意一个异常数据记为每种上、下限阈值组合下的目标碳汇数据段的目标数据,将去除每种上、下限阈值组合下的目标数据后的目标碳汇数据段称为每种上、下限阈值组合下的目标数据的剩余碳汇数据段,将每种上、下限阈值组合下的目标碳汇数据段中所有碳汇数据的均值与剩余碳汇数据段中所有碳汇数据的均值的差值绝对值作为每种上、下限阈值组合下的目标碳汇数据段的目标数据的缺失影响程度;

获取每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的缺失影响程度。

8.根据权利要求1所述一种浮游生物的湿地碳汇数据监测系统,其特征在于,所述根据温度数据段对碳汇数据段的波动影响和每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的初始异常程度得到每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的最终异常程度,包括的具体方法为:获取每种上、下限阈值下的每个碳汇数据段的每个异常数据的整体拟合值和每个部分拟合值;

每种上、下限阈值组合下的每个碳汇数据段中每个异常数据的最终异常程度的计算方法为:

;

其中, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第s个异常数据,表示第z种上、下限阈值下的第i个碳汇数据段的第s个异常数据基于第r个部分指数函数的部分拟合值, 表示第z种上、下限阈值下的第i个碳汇数据段的第s个异常数据的整体拟合值; 表示第z种上、下限阈值组合下的第i个碳汇数据段的第s个异常数据的初始异常程度, 表示碳汇数据段的数量, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第s个异常数据的最终异常程度。

9.根据权利要求8所述一种浮游生物的湿地碳汇数据监测系统,其特征在于,所述获取每种上、下限阈值下的每个碳汇数据段的每个异常数据的整体拟合值和每个部分拟合值,包括的具体方法为:将温度序列中各温度数据作为自变量,将碳汇数据序列中各碳汇数据作为因变量,拟合温度序列中温度与碳汇数据序列中碳汇数据的指数函数,记为整体指数函数;

将第r个温度数据段中每个温度作为自变量,将第r个碳汇数据段中每个碳汇数据作为因变量,拟合第r温度数据段中温度与第r个碳汇数据段中碳汇数据的指数函数,记为第r个部分指数函数;对每个温度数据段和每个碳汇数据段进行拟合得到每个部分指数函数;

将每种上、下限阈值下的每个碳汇数据段的异常数据对应的温度称为每种上下限阈值下的每个温度数据段的异常温度,将每种上、下限阈值下的每个温度数据段的异常温度输入到第r个部分指数函数中得到每种上、下限阈值下的每个碳汇数据段的每个异常数据第r个部分拟合值;获取每种上、下限阈值下的每个碳汇数据段的每个异常数据的每个部分拟合值;

将每种上、下限阈值下的每个温度数据段的异常温度输入到整体指数函数中得到每种上、下限阈值下的每个碳汇数据段的每个异常数据的整体拟合值。

10.根据权利要求1所述一种浮游生物的湿地碳汇数据监测系统,其特征在于,所述根据每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的最终异常程度对每个碳汇数据段的每种上、下限阈值组合的异常检测效果进行评估得到每个碳汇数据段的最佳上、下限阈值组合,包括的具体方法为:将每种上、下限阈值组合中每个下限阈值与上限阈值的差值作为每种上、下限阈值组合的跨度值,按跨度值将所有种上、下限阈值组合进行升序排列得到上、下限阈值组合序列;将任意一个上、下限阈值组合记为目标阈值组合;按照上、下限阈值组合序列中的排列顺序,将目标阈值组合的前一个上、下限阈值组合记为目标阈值组合的前邻接阈值组合;

当每个碳汇数据段的碳汇数据在前邻接阈值组合下判定为异常数据,在目标阈值组合下判定为正常数据,将每个碳汇数据段的碳汇数据记为目标阈值组合下的每个碳汇数据段的相对异常数据;当每个碳汇数据段的碳汇数据在前邻接阈值组合下判定为异常数据,在目标阈值组合下依旧判定为异常数据,将每个碳汇数据段的碳汇数据记为目标阈值组合下的每个碳汇数据段的绝对异常数据;获取每种上、下限阈值组合下的每个碳汇数据段的相对异常数据和绝对异常数据;

将每种上、下限阈值组合下的每个碳汇数据段的所有绝对异常数据的异常程度的均值与所有相对异常数据的异常程度的均值的差值作为每个碳汇数据段的每种上、下限阈值组合的评估指标;

将每个碳汇数据段的所有种上、下限阈值组合的评估指标的最大值对应的上、下限阈值组合作为每个碳汇数据段的最佳上、下限阈值组合。

说明书 :

一种浮游生物的湿地碳汇数据监测系统

技术领域

[0001] 本发明涉及数据处理技术领域,具体涉及一种浮游生物的湿地碳汇数据监测系统。

背景技术

[0002] 湿地是全球最重要的碳储存库之一,溶解性有机碳(DOC)的碳汇数据对于湿地生态系统的监测和研究非常重要。通过对DOC数据进行监测,我们可以了解湿地生态系统的健康状况、碳循环过程以及水体质量状况。这有助于制定科学合理的湿地保护和管理策略,保护湿地生态系统的功能和服务,并促进可持续的湿地利用。因此,获取准确的DOC数据是有必要的。
[0003] 通常情况下对溶解性有机碳的碳汇数据进行分析前都需要对数据进行清洗,去除异常数据。箱线图是一种对溶解性有机碳的碳汇数据进行异常分析的常用方法。传统的箱线图一般利用溶解性有机碳的碳汇数据的上、下四分位数据来设置上下限阈值,只有溶解性有机碳的碳汇数据服从正态分布时,这种设置上下限阈值的方式才能较为准确的检测出异常数据。而实际上溶解性有机碳的碳汇数据会随温度数据的变动而变动,因而溶解性有机碳的碳汇数据存在一定的波动特征,因而溶解性有机碳的碳汇数据不太服从正态分布。因而基于该方法得到的上下限阈值进行的异常分析,其准确性较低。

发明内容

[0004] 本发明提供一种浮游生物的湿地碳汇数据监测系统,以解决现有的问题:如何通过准确的设置上下限阈值,进而相对准确的检测出溶解性有机碳的碳汇数据中的异常数据。
[0005] 本发明的一种浮游生物的湿地碳汇数据监测系统采用如下技术方案:
[0006] 本发明一个实施例提供了一种浮游生物的湿地碳汇数据监测系统,该系统包括以下模块:
[0007] 数据采集模块,用于采集湿地的若干温度以及湿地溶解碳的若干碳汇数据,根据若干温度和若干碳汇数据得到温度序列和碳汇数据序列;
[0008] 初始异常程度获取模块,用于根据碳汇数据序列中数据变动规律对碳汇数据序列和温度序列进行分段得到若干碳汇数据段和若干温度数据段;获取每个碳汇数据段的若干种上、下限阈值组合,根据每种上、下限阈值组合下每个碳汇数据段的异常检测结果的分布特征得到每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的初始异常程度;
[0009] 最佳上、下限阈值获取模块,用于根据温度数据段对碳汇数据段的波动影响和每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的初始异常程度得到每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的最终异常程度;根据每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的最终异常程度对每个碳汇数据段的每种上、下限阈值组合的异常检测效果进行评估得到每个碳汇数据段的最佳上、下限阈值组合;
[0010] 准确异常检测模块,用于利用每个碳汇数据段的最佳上、下限阈值组合进行异常检测得到可靠异常数据和可靠正常数据。
[0011] 优选的,所述根据碳汇数据序列中数据变动规律对碳汇数据序列和温度序列进行分段得到若干碳汇数据段和若干温度数据段,包括的具体方法为:
[0012] 将碳汇数据序列中第一个碳汇数据作为第一分析数据,获取第一分析数据的截止数据,判断第一分析数据的截止数据是否为碳汇数据序列的最后一个碳汇数据,当第一分析数据的截止数据为碳汇数据序列的最后一个碳汇数据时,停止循环;
[0013] 当第一分析数据的截止数据不是碳汇数据序列的最后一个碳汇数据时,将第一分析数据的截止数据在碳汇数据序列中的下一个碳汇数据作为第二分析数据,获取第二分析数据的截止数据,判断第二分析数据的截止数据是否为碳汇数据序列的最后一个碳汇数据,当第二分析数据的截止数据为碳汇数据序列的最后一个碳汇数据时,停止循环;
[0014] 以此类推,直至分析数据的截止数据为碳汇数据序列的最后一个碳汇数据时结束,得到若干截止数据;
[0015] 将若干截止数据作为分段点,对碳汇数据序列进行分段处理得到若干碳汇数据段;
[0016] 获取截止数据对应的时刻记为截止时刻,将若干截止时刻的温度作为分段点,将温度序列分割成若干温度数据段。
[0017] 优选的,所述获取第一分析数据的截止数据,包括的具体方法为:
[0018] 将第一分析数据及之后连续的S个碳汇数据构成的序列作为第一分析数据的第一探索子序列,将第一分析数据的第一探索子序列中所有碳汇数据的方差记为第一分析数据的第一探索子序列的方差,当第一分析数据的第一探索子序列的方差大于预设方差阈值Y1时,将第一探索子序列的最后一个碳汇数据作为第一分析数据的截止数据;
[0019] 当第一分析数据的第一探索子序列的方差小于等于预设方差阈值Y1时,将第一分析数据及之后连续的S+1个碳汇数据构成的序列作为第一分析数据的第二探索子序列,将第一分析数据的第二探索子序列中所有碳汇数据的方差记为第一分析数据的第二探索子序列的方差,当第一分析数据的第二探索子序列的方差大于预设方差阈值Y1时,将第二探索子序列的最后一个碳汇数据作为第一分析数据的截止数据;
[0020] 以此类推,直至第一分析数据的探索子序列的方差大于预设方差阈值Y1结束,得到第一分析数据的截止数据,S表示预设最小探索尺寸。
[0021] 优选的,所述获取每个碳汇数据段的若干种上、下限阈值组合,包括的具体方法为:
[0022] 获取每个碳汇数据段中所有碳汇数据的最大值H和最小值L,获取每个碳汇数据段中所有碳汇数据的上四分位数和下四分位数,将上四分位数据和下四分位数据分别作为第一上限阈值和第一下限阈值;
[0023] 在每个碳汇数据段的所有碳汇数据中获取小于第一上限阈值,并且与第一上限阈值的差值绝对值最小的碳汇数据作为第二上限阈值;将第二上限阈值与L比较,当第二上限阈值小于等于L时,停止循环;当第二上限阈值大于L时,在每个碳汇数据段的所有碳汇数据中获取小于第二上限阈值,并且与第二上限阈值的差值绝对值最小的碳汇数据作为第三上限阈值;以此类推,直至上限阈值小于等于L时结束,得到每个碳汇数据段的若干上限阈值;
[0024] 在每个碳汇数据段的所有碳汇数据中获取大于第一下限阈值,并且与第一下限阈值的差值绝对值最小的碳汇数据作为第二下限阈值;将第二下限阈值与H比较,当第二下限阈值大于等于H时,停止循环;当第二下限阈值小于H时,在每个碳汇数据段的所有碳汇数据中获取大于第二下限阈值,并且与第二下限阈值的差值绝对值最小的碳汇数据作为第三下限阈值;将第三下限阈值与H比较,当第三下限阈值大于等于H时,停止循环;以此类推,直至下限阈值大于等于H时结束,得到每个碳汇数据段的若干下限阈值;
[0025] 将每个碳汇数据段的任意一个上限阈值与任意一个下限阈值组合得到每个碳汇数据段的若干种上、下限阈值组合。
[0026] 优选的,所述根据每种上、下限阈值组合下每个碳汇数据段的异常检测结果的分布特征得到每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的初始异常程度,包括的具体方法为:
[0027] 根据每种上、下限阈值组合对每个碳汇数据段中碳汇数据进行异常检测得到每种上、下限阈值组合下的每个碳汇数据段的若干异常数据和若干正常数据;
[0028] 获取每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的缺失影响程度;
[0029] 将每种上、下限阈值组合下的每个碳汇数据段的任意一个异常数据与任意一个正常数据组合得到每种上、下限阈值组合下每个碳汇数据段的若干双型组合,将每种上、下限阈值组合下的每个碳汇数据段的任意一个异常数据与任意一个异常数据组合得到每种上、下限阈值组合下的每个碳汇数据段的若干异常单型组合;将每种上、下限阈值组合下的每个碳汇数据段的每个异常单型组合中任意一个异常数据记为每种上、下限阈值组合下的每个碳汇数据段的每个异常单型组合的第一异常数据,将每种上、下限阈值组合下的每个碳汇数据段的每个异常单型组合中另外一个异常数据记为每种上、下限阈值组合下的每个碳汇数据段的每个异常单型组合的第二异常数据;
[0030] 每种上、下限阈值组合下的每个碳汇数据段中每个异常数据的初始异常程度的计算方法为:
[0031] ;
[0032] 其中, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第k个双型组合中的正常数据, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第k个双型组合中的异常数据, 表示第z种上、下限阈值组合下的第i个碳汇数据段的双型组合的数量;表示第z种上、下限阈值组合下的第i个碳汇数据段的第j个异常单型组合的第一异常数据, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第j个异常单型组合的第二异常数据, 表示第z种上、下限阈值组合下的第i个碳汇数据段的异常单型组合的数量; 表示第z种上、下限阈值组合下的每种第i个碳汇数据段的第s个异常数据的缺失影响程度, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第s个异常数据的初始异常程度。
[0033] 优选的,所述根据每种上、下限阈值组合对每个碳汇数据段中碳汇数据进行异常检测得到每种上、下限阈值组合下的每个碳汇数据段的若干异常数据和若干正常数据,包括的具体方法为:
[0034] 将每个碳汇数据段的每种上、下限阈值组合中的上限阈值和下限阈值分别作为箱线图法的上限阈值和下限阈值,利用箱线图法对每个碳汇数据段的所有碳汇数据进行异常检测,得到每种上、下限阈值组合下的每个碳汇数据段的若干异常数据和若干正常数据。
[0035] 优选的,所述获取每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的缺失影响程度,包括的具体方法为:
[0036] 将每种上、下限阈值组合下的任意一个碳汇数据段的任意一个异常数据记为每种上、下限阈值组合下的目标碳汇数据段的目标数据,将去除每种上、下限阈值组合下的目标数据后的目标碳汇数据段称为每种上、下限阈值组合下的目标数据的剩余碳汇数据段,将每种上、下限阈值组合下的目标碳汇数据段中所有碳汇数据的均值与剩余碳汇数据段中所有碳汇数据的均值的差值绝对值作为每种上、下限阈值组合下的目标碳汇数据段的目标数据的缺失影响程度;
[0037] 获取每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的缺失影响程度。
[0038] 优选的,所述根据温度数据段对碳汇数据段的波动影响和每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的初始异常程度得到每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的最终异常程度,包括的具体方法为:
[0039] 获取每种上、下限阈值下的每个碳汇数据段的每个异常数据的整体拟合值和每个部分拟合值;
[0040] 每种上、下限阈值组合下的每个碳汇数据段中每个异常数据的最终异常程度的计算方法为:
[0041] ;
[0042] 其中, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第s个异常数据,表示第z种上、下限阈值下的第i个碳汇数据段的第s个异常数据基于第r个部分指数函数的部分拟合值, 表示第z种上、下限阈值下的第i个碳汇数据段的第s个异常数据的整体拟合值; 表示第z种上、下限阈值组合下的第i个碳汇数据段的第s个异常数据的初始异常程度, 表示碳汇数据段的数量, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第s个异常数据的最终异常程度。
[0043] 优选的,所述获取每种上、下限阈值下的每个碳汇数据段的每个异常数据的整体拟合值和每个部分拟合值,包括的具体方法为:
[0044] 将温度序列中各温度数据作为自变量,将碳汇数据序列中各碳汇数据作为因变量,拟合温度序列中温度与碳汇数据序列中碳汇数据的指数函数,记为整体指数函数;
[0045] 将第r个温度数据段中每个温度作为自变量,将第r个碳汇数据段中每个碳汇数据作为因变量,拟合第r温度数据段中温度与第r个碳汇数据段中碳汇数据的指数函数,记为第r个部分指数函数;对每个温度数据段和每个碳汇数据段进行拟合得到每个部分指数函数;
[0046] 将每种上、下限阈值下的每个碳汇数据段的异常数据对应的温度称为每种上下限阈值下的每个温度数据段的异常温度,将每种上、下限阈值下的每个温度数据段的异常温度输入到第r个部分指数函数中得到每种上、下限阈值下的每个碳汇数据段的每个异常数据第r个部分拟合值;获取每种上、下限阈值下的每个碳汇数据段的每个异常数据的每个部分拟合值;
[0047] 将每种上、下限阈值下的每个温度数据段的异常温度输入到整体指数函数中得到每种上、下限阈值下的每个碳汇数据段的每个异常数据的整体拟合值。
[0048] 优选的,所述根据每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的最终异常程度对每个碳汇数据段的每种上、下限阈值组合的异常检测效果进行评估得到每个碳汇数据段的最佳上、下限阈值组合,包括的具体方法为:
[0049] 将每种上、下限阈值组合中每个下限阈值与上限阈值的差值作为每种上、下限阈值组合的跨度值,按跨度值将所有种上、下限阈值组合进行升序排列得到上、下限阈值组合序列;将任意一个上、下限阈值组合记为目标阈值组合;按照上、下限阈值组合序列中的排列顺序,将目标阈值组合的前一个上、下限阈值组合记为目标阈值组合的前邻接阈值组合;
[0050] 当每个碳汇数据段的碳汇数据在前邻接阈值组合下判定为异常数据,在目标阈值组合下判定为正常数据,将每个碳汇数据段的碳汇数据记为目标阈值组合下的每个碳汇数据段的相对异常数据;当每个碳汇数据段的碳汇数据在前邻接阈值组合下判定为异常数据,在目标阈值组合下依旧判定为异常数据,将每个碳汇数据段的碳汇数据记为目标阈值组合下的每个碳汇数据段的绝对异常数据;获取每种上、下限阈值组合下的每个碳汇数据段的相对异常数据和绝对异常数据;
[0051] 将每种上、下限阈值组合下的每个碳汇数据段的所有绝对异常数据的异常程度的均值与所有相对异常数据的异常程度的均值的差值作为每个碳汇数据段的每种上、下限阈值组合的评估指标;
[0052] 将每个碳汇数据段的所有种上、下限阈值组合的评估指标的最大值对应的上、下限阈值组合作为每个碳汇数据段的最佳上、下限阈值组合。
[0053] 本发明的技术方案的有益效果是:
[0054] 传统碳汇数据异常检测方法没有考虑湿地碳的碳汇数据会随温度变动而变动,而碳汇数据的波动会造成碳汇数据分布较为离散,而异常检测算法很容易将离散的碳汇数据误判为异常数据。因而本发明通过排除温度波动引起的碳汇数据波动对异常检测的干扰,从而相对准确的检测出碳汇数据中的可靠异常数据。

附图说明

[0055] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0056] 图1为本发明一种浮游生物的湿地碳汇数据监测系统的结构框图。

具体实施方式

[0057] 为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种浮游生物的湿地碳汇数据监测系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
[0058] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
[0059] 下面结合附图具体的说明本发明所提供的一种浮游生物的湿地碳汇数据监测系统的具体方案。
[0060] 请参阅图1,其示出了本发明一个实施例提供的一种浮游生物的湿地碳汇数据监测系统的结构框图,该系统包括以下模块:
[0061] 数据采集模块101,用于采集湿地的若干温度以及溶解性有机碳的若干碳汇数据,根据若干碳汇数据和若干温度得到碳汇数据序列和温度序列。
[0062] 需要说明的是,溶解性有机碳的碳汇数据准确性是科学合理制定的湿地保护和管理策略的基础。因此需要去除溶解性有机碳的碳汇数据中的异常数据,保障碳汇数据的准确性。
[0063] 为了实现本实施例提出的一种浮游生物的湿地碳汇数据监测系统,首先需要采集碳汇数据序列和温度序列。
[0064] 获取碳汇数据序列的具体过程为:每间隔n秒,利用温度测量仪和TOC分析仪分别采集一次湿地中的温度和溶解性有机碳的碳汇数据,采集N次。将采集到的N个碳汇数据按时序排列得碳汇数据序列,将采集到的N个温度按时序排列得到温度序列。N表示预设采集次数,n表示预设采集间隔,本实施例以n取1、N取10000为例进行叙述,其他实施例可以取其他值,本实施例不进行具体限制。
[0065] 初始异常程度获取模块102,用于对碳汇数据序列进行分段处理得到若干碳汇数据段,获取每个碳汇数据段的若干种上、下限阈值组合,获取每种上、下限阈值组合下的每个碳汇数据段中每个碳汇数据的初始异常程度。
[0066] 需要说明的是,由于碳汇数据序列中每个位置的波动特征不同,而不同的波动特征其需要的上、下限阈值不同,因而需根据碳汇数据序列中每个位置的波动特征对碳汇数据序列进行分段处理。
[0067] 具体的,将碳汇数据序列中第一个碳汇数据作为第一分析数据,获取第一分析数据的截止数据,判断第一分析数据的截止数据是否为碳汇数据序列的最后一个碳汇数据,当第一分析数据的截止数据为碳汇数据序列的最后一个碳汇数据时,停止循环;
[0068] 当第一分析数据的截止数据不是碳汇数据序列的最后一个碳汇数据时,将第一分析数据的截止数据在碳汇数据序列中的下一个碳汇数据作为第二分析数据,获取第二分析数据的截止数据,判断第二分析数据的截止数据是否为碳汇数据序列的最后一个碳汇数据,当第二分析数据的截止数据为碳汇数据序列的最后一个碳汇数据时,停止循环;
[0069] 以此类推,直至分析数据的截止数据为碳汇数据序列的最后一个碳汇数据时结束,得到若干截止数据。
[0070] 进一步的,获取第一分析数据的截止数据的方法为:
[0071] 将第一分析数据及之后连续的S个碳汇数据构成的序列作为第一分析数据的第一探索子序列,将第一分析数据的第一探索子序列中所有碳汇数据的方差记为第一分析数据的第一探索子序列的方差,当第一分析数据的第一探索子序列的方差大于预设方差阈值Y1时,将第一探索子序列的最后一个碳汇数据作为第一分析数据的截止数据。
[0072] 当第一分析数据的第一探索子序列的方差小于等于预设方差阈值Y1时,将第一分析数据及之后连续的S+1个碳汇数据构成的序列作为第一分析数据的第二探索子序列,将第一分析数据的第二探索子序列中所有碳汇数据的方差记为第一分析数据的第二探索子序列的方差,当第一分析数据的第二探索子序列的方差大于预设方差阈值Y1时,将第二探索子序列的最后一个碳汇数据作为第一分析数据的截止数据。
[0073] 以此类推,直至第一分析数据的探索子序列的方差大于预设方差阈值Y1结束,得到第一分析数据的截止数据。
[0074] S表示预设最小探索尺寸,本实施例以S取10、Y1取0.75为例进行叙述,其他实施例可以取其他值,本实施例不进行具体限制。
[0075] 进一步的,将若干截止数据作为分段点,对碳汇数据序列进行分段处理得到若干碳汇数据段。
[0076] 获取截止数据对应的时刻记为截止时刻,将若干截止时刻的温度作为分段点,将温度序列分割成若干温度数据段。
[0077] 需要说明的是,为了对碳汇数据进行异常检测,需设置上、下先阈值,由于当前还无法确定出准确的上、下限阈值,因而需设置多种上、下限阈值组合,利用每种上、下限阈值组合均进行异常检测处理,然后对每种上、下限阈值组合的异常检测结果进行评估,获得准确的上、下限阈值。
[0078] 进一步的,获取每个碳汇数据段中所有碳汇数据的最大值H和最小值L,利用现有四分位数获取方法获取每个碳汇数据段中所有碳汇数据的上四分位数和下四分位数,将上四分位数据和下四分位数据分别作为第一上限阈值和第一下限阈值。
[0079] 在每个碳汇数据段的所有碳汇数据中获取小于第一上限阈值,并且与第一上限阈值的差值绝对值最小的碳汇数据作为第二上限阈值。将第二上限阈值与L比较,当第二上限阈值小于等于L时,停止循环。当第二上限阈值大于L时,在每个碳汇数据段的所有碳汇数据中获取小于第二上限阈值,并且与第二上限阈值的差值绝对值最小的碳汇数据作为第三上限阈值。以此类推,直至上限阈值小于等于L时结束,得到每个碳汇数据段的若干上限阈值。
[0080] 在每个碳汇数据段的所有碳汇数据中获取大于第一下限阈值,并且与第一下限阈值的差值绝对值最小的碳汇数据作为第二下限阈值。将第二下限阈值与H比较,当第二下限阈值大于等于H时,停止循环。当第二下限阈值小于H时,在每个碳汇数据段的所有碳汇数据中获取大于第二下限阈值,并且与第二下限阈值的差值绝对值最小的碳汇数据作为第三下限阈值。将第三下限阈值与H比较,当第三下限阈值大于等于H时,停止循环。以此类推,直至下限阈值大于等于H时结束,得到每个碳汇数据段的若干下限阈值。
[0081] 将每个碳汇数据段的任意一个上限阈值与任意一个下限阈值组合得到每个碳汇数据段的若干种上、下限阈值组合。
[0082] 至此,得到了每种上、下限阈值组合,下面对每种上、下限阈值组合的异常检测效果进行评估。
[0083] 需要说明的是,为了对每个上、下限阈值组合进行评估,需先构建一种能够评估每种上、下限阈值下的每个异常数据的异常情况的指标。
[0084] 进一步的,将每个碳汇数据段的每种上、下限阈值组合中的上限阈值和下限阈值分别作为箱线图法的上限阈值和下限阈值,利用箱线图法对每个碳汇数据段的所有碳汇数据进行异常检测,得到每种上、下限阈值组合下的每个碳汇数据段的若干异常数据和若干正常数据。
[0085] 进一步的,将每种上、下限阈值组合下的任意一个碳汇数据段的任意一个异常数据记为每种上、下限阈值组合下的目标碳汇数据段的目标数据,将去除每种上、下限阈值组合下的目标数据后的目标碳汇数据段称为每种上、下限阈值组合下的目标数据的剩余碳汇数据段,将每种上、下限阈值组合下的目标碳汇数据段中所有碳汇数据的均值与剩余碳汇数据段中所有碳汇数据的均值的差值绝对值作为每种上、下限阈值组合下的目标碳汇数据段的目标数据的缺失影响程度。同理获取每种上、下限阈值组合下的每个碳汇数据段的每个异常数据的缺失影响程度。
[0086] 将每种上、下限阈值组合下的每个碳汇数据段的任意一个异常数据与任意一个正常数据组合得到每种上、下限阈值组合下每个碳汇数据段的若干双型组合,将每种上、下限阈值组合下的每个碳汇数据段的任意一个异常数据与任意一个异常数据组合得到每种上、下限阈值组合下的每个碳汇数据段的若干异常单型组合。将每种上、下限阈值组合下的每个碳汇数据段的每个异常单型组合中任意一个异常数据记为每种上、下限阈值组合下的每个碳汇数据段的每个异常单型组合的第一异常数据,将每种上、下限阈值组合下的每个碳汇数据段的每个异常单型组合中另外一个异常数据记为每种上、下限阈值组合下的每个碳汇数据段的每个异常单型组合的第二异常数据。
[0087] 每种上、下限阈值组合下的每个碳汇数据段中每个异常数据的初始异常程度的计算方法为:
[0088] ;
[0089] 其中, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第k个双型组合中的正常数据, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第k个双型组合中的异常数据, 表示第z种上、下限阈值组合下的第i个碳汇数据段的双型组合的数量。表示第z种上、下限阈值组合下的第i个碳汇数据段的第j个异常单型组合的第一异常数据, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第j个异常单型组合的第二异常数据, 表示第z种上、下限阈值组合下的第i个碳汇数据段的异常单型组合的数量。 表示第z种上、下限阈值组合下的每种第i个碳汇数据段的第s个异常数据的缺失影响程度,该值越大,说明第i个碳汇数据段中第s个异常数据偏离大多数数据的程度越大,因而当该异常数据缺失时,对均值的影响较大,因而该异常数据的初始异常程度越大。
反映了在第z种上、下限阈值组合下的第i个碳汇数据段的正常数
据和异常数据的差异,该值越大说明差异越大,因而第z种上、下限阈值组合异常检测效果越好。 反映了在第z种上、下限阈值组合下的第i个碳汇数据段
的异常数据和异常数据的差异。由于异常数据一般分布较为离散,因而只有当异常数据之间的差异较大时,第z种上、下限阈值组合下的异常检测效果才越准确。 表示第z种上、下限阈值组合下的第i个碳汇数据段的第s个异常数据的初始异常程度。
[0090] 最佳上、下限阈值获取模块103,用于根据每种上、下限阈值下的每个碳汇数据段的每个碳汇数据的初始异常程度得到每种上、下限阈值下的每个碳汇数据段的每个碳汇数据的最终异常程度,根据每种上、下限阈值下的每个碳汇数据段的每个碳汇数据的最终异常程度得到每种上、下限阈值的评估指标,根据评估指标得到最佳上、下限阈值。
[0091] 需要说明的是,在上述过程中在分析每种上、下限阈值组合下的每个异常数据的初始异常程度时没有考虑数据波动对数据异常评估的影响。同时一般溶解碳的各项指标会随温度的变化为变化,即碳汇数据会随着温度数据的变化而变化,因而需排除温度变化引起的碳汇数据波动对异常检测的影响。
[0092] 需要说明的是,每个异常数据的离群可能是由自身异常导致,也有可能是温度变动引起的碳汇数据波动导致,而温度与碳汇数据之间存在一定的变动关系,因而可以通过分析拟合温度与碳汇数据的拟合关系来得到每个异常数据的相对准确的值,因而可以通过分析每个碳汇数据段中每个异常数据与拟合值的差异来进一步分析每个碳汇数据段的每个异常数据的异常情况。
[0093] 具体的,将温度序列中各温度数据作为自变量,将碳汇数据序列中各碳汇数据作为因变量,拟合温度序列中温度与碳汇数据序列中碳汇数据的指数函数,记为整体指数函数,本实施例中整体指数函数的形式为: ,其中 表示温度变量,表示碳汇数据变量,exp()表示以自然常数为底的指数函数,a,b表示指数函数的超参数。
[0094] 将第r个温度数据段中每个温度作为自变量,将第r个碳汇数据段中每个碳汇数据作为因变量,拟合第r温度数据段中温度与第r个碳汇数据段中碳汇数据的指数函数,记为第r个部分指数函数,本实施例中第r个部分指数函数的形式同样为:。同理对每个温度数据段和每个碳汇数据段进行拟合得到每个部分
指数函数。
[0095] 将每种上、下限阈值下的每个碳汇数据段的异常数据对应的温度称为每种上下限阈值下的每个温度数据段的异常温度,将每种上、下限阈值下的每个温度数据段的异常温度输入到第r个部分指数函数中得到每种上、下限阈值下的每个碳汇数据段的每个异常数据基于第r部分指数函数的部分拟合值。同理得到每种上、下限阈值下的每个碳汇数据段的每个异常数据基于每个部分指数函数的部分拟合值。将每种上、下限阈值下的每个温度数据段的异常温度输入到整体指数函数中得到每种上、下限阈值下的每个碳汇数据段的每个异常数据的整体拟合值。
[0096] 每种上、下限阈值组合下的每个碳汇数据段中每个异常数据的最终异常程度的计算方法为:
[0097] ;
[0098] 其中, 表示第z种上、下限阈值组合下的第i个碳汇数据段的第s个异常数据,表示第z种上、下限阈值下的第i个碳汇数据段的第s个异常数据基于第r个部分指数函数的部分拟合值, 表示第z种上、下限阈值下的第i个碳汇数据段的第s个异常数据的整体拟合值。 表示第z种上、下限阈值组合下的第i个碳汇数据段的第s个异常数据的初始异常程度。 反映了第z种上、下限阈值组合下的第i个碳汇数据段的第s个异常数据与每个部分拟合数据的差异,该值越大说明该异常数据越不符合该部分指数函数的变动规律。导致每个异常数据与部分拟合数据的差异较大的原因有:一个是异常数据本身较为异常,从而导致该异常数据不符合部分指数函数的变动规律。另一个是部分指数函数的对温度、碳汇数据的拟合准确性较低,导致部分指数函数拟合出的部分拟合值准确性较低。因而需评估每个部分指数函数的准确性,本实施例通过来评 估每 个 部分 指数 函 数的 拟合 准 确性 。然 后以
作为权重对 进行加权求和。 表示碳汇数据段
的数量。 表示第z种上、下限阈值组合下的第i个碳汇数据段的第s个异常数据的最终异常程度。
[0099] 需要说明的是,当上、下限阈值设置合适的时候,检测出的异常数据的异常程度较大,正常数据的异常程度较小,因而可以通过使正常数据与异常数据的异常程度的差异尽可能大来获取最佳上、下限阈值。
[0100] 进一步的,将每种上、下限阈值组合中每个下限阈值与上限阈值的差值作为每种上、下限阈值组合的跨度值,按跨度值将所有种上、下限阈值组合进行升序排列得到上、下限阈值组合序列。
[0101] 将任意一个上、下限阈值组合记为目标阈值组合。按照上、下限阈值组合序列中的排列顺序,将目标阈值组合的前一个上、下限阈值组合记为目标阈值组合的前邻接阈值组合。
[0102] 当每个碳汇数据段的碳汇数据在前邻接阈值组合下判定为异常数据,在目标阈值组合下判定为正常数据,将每个碳汇数据段的碳汇数据记为目标阈值组合下的每个碳汇数据段的相对异常数据。当每个碳汇数据段的碳汇数据在前邻接阈值组合下判定为异常数据,在目标阈值组合下依旧判定为异常数据,将每个碳汇数据段的碳汇数据记为目标阈值组合下的每个碳汇数据段的绝对异常数据。同理获取每种上、下限阈值组合下的每个碳汇数据段的相对异常数据和绝对异常数据。
[0103] 将每种上、下限阈值组合下的每个碳汇数据段的所有绝对异常数据的异常程度的均值与所有相对异常数据的异常程度的均值的差值作为每个碳汇数据段的每种上、下限阈值组合的评估指标。
[0104] 将每个碳汇数据段的所有种上、下限阈值组合的评估指标的最大值对应的上、下限阈值组合作为每个碳汇数据段的最佳上、下限阈值组合。
[0105] 需要说明的是,由于每种上、下限阈值组合不存在前邻接阈值组合时,无需计算该上、下限阈值组合下每个碳汇数据段的每个碳汇数据的异常程度。在获取每个碳汇数据段的最佳上、下限阈值组合时,无考虑不存在该上、下限阈值组合下的每个碳汇数据段的每个碳汇数据的异常程度。
[0106] 准确异常检测模块104,用于根据最佳上、下限阈值组合对每个碳汇数据段的碳汇数据进行异常检测得到若干可靠异常数据和若干可靠正常数据。
[0107] 具体的,基于每个碳汇数据段的最佳上、下限阈值组合中的上、下限阈值,利用箱线图法对每个碳汇数据段中的碳汇数据进行异常检测得到每个碳汇数据段的可靠异常数据和可靠正常数据。
[0108] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。