一种生态系统碳交换影响因素提取方法及系统转让专利

申请号 : CN201110367896.3

文献号 : CN102495919B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 薛月菊陈汉鸣王楷

申请人 : 华南农业大学

摘要 :

本发明公开一种生态系统碳交换影响因素提取方法及系统,本发明提取方法包括以下步骤:1)从碳通量数据观测站中获取碳通量样本的属性数据;2)输入由步骤1)获得的碳通量样本的属性数据,通过提出的混合蛙跳的模糊粗糙集约简算法或基于重要度的快速模糊粗糙集约简算法,选取最佳组合,找出与碳通量关系最密切的环境因子集;3)将步骤2)获得的环境因子集中的各个环境因子分别运用神经网络进行建模仿真,得出碳通量环境因子提取率。本发明提供的提取系统包括数据导入模块、因素提取模块、输入模块、评价模块。本发明能够有效缩小研究生态环境中与碳通量相关因子的范围,提高研究效率和发现环境因子间的内在规律。

权利要求 :

1.一种生态系统碳交换影响因素提取方法,其特征在于包括以下步骤:

1)从碳通量数据观测站中获取碳通量样本的属性数据;

2)输入由步骤1)获得的碳通量样本的属性数据,确定属性数据的隶属函数并计算各个属性隶属度,提取环境因子集重要度,获得与碳通量相关的环境因子集;

3)将步骤2)获得的环境因子集中的各个环境因子分别运用神经网络进行建模仿真,得出碳通量环境因子提取率;

所述碳通量属性数据的数据类型包括:连续的、缺失的、标称值的、离散的、序数的、数值型、字符型数据;

所述步骤2)具体包括:

21)根据获取的碳通量数据样本的属性数据,对碳通量数据样本进行数据预处理;

22)设置相关系数阈值,相关系数阈值范围为[0.9,0.95];

23)分别计算各个属性间相关系数值;将计算后的各个属性间的相关系数值与步骤

22)设置的相关系数阈值进行比较判定,如果属性间相关系数值大于相关系数阈值时,则将该环境因子剔除,小于相关系数阈值时则保留该环境因子,获得环境因子集;

24)将步骤23)保留获得的环境因子集通过隶属度函数进行映射,求出各属性数据的模糊上近似集、模糊下近似集和模糊粗糙集正域,通过模糊粗糙集正域计算出条件属性子集对决策属性重要度;

25)通过基于混合蛙跳的模糊粗糙集约简算法或基于重要度的模糊粗糙集快速约简算法,对属性进行组合,通过适应度函数,计算属性组合的适应度,当属性适应度达到最大时,满足停止搜索条件,输出保留的环境因子。

2.根据权利要求1所述生态系统碳交换影响因素提取方法,其特征在于所述步骤25)的基于混合蛙跳的模糊粗糙集约简算法具体实现如下,如果frenew>fbefore,则更新条件属性子集;直至遍历所有条件属性组合后,frenew小于或等于fbefore时,则frenew为步骤25)所述的最大属性适应度;frenew是指更新的条件属性子集适应度;fbefore是指更新之前条件属性子集适应度;

其中 式中a、b为取值(0,1)的系数,Nc为条件属性个数,Ns为约简后属性个数,γ为约简后条件属性子集对决策属性重要度;

所述步骤25)的基于重要度的快速模糊粗糙集约简算法的实现步骤包括:

251)通过单属性分析出各个属性重要度,统计属性个数,将属性按照条件属性对决策属性重要度由大到小排列;取其中条件属性个数的前1/3作为第一次尝试约简集Ctry;计算约简集Ctry对决策属性的重要度,记录为 ;

252)计算所有条件属性对决策属性的重要度γ'all,判断 与γ'all的关系,如果等于γ'all,则剔除Ctry中重要度最小的条件属性,直至满足 ,则停止剔除Ctry中的条件属性;

253)如果 不等于γ'all,则需要添加条件属性到Ctry中,重新计算添加了条件属性的重要度 ,直至满足 ,则停止添加条件属性,输出结果。

3.根据权利要求1所述生态系统碳交换影响因素提取方法,其特征在于所述步骤3)具体包括:

31)输入约简后碳通量样本的属性数据;

32)输入约简前碳通量样本的属性数据;

33)分别计算约简前碳通量样本的属性数据样本预测值、约简后碳通量样本的属性数据样本预测值与碳通量属性数据实测值的相关性;

34)通过约简前所有条件属性相对于决策属性重要度γall和约简后条件属性集相对于决策属性的重要度γreduce的比值,求得信息保留率γ,γ函数为:其中,P为条件属性,Q为决策属性,x为样本,

POS为正域表示符号,Fi为

第i个属性对应的函数映射区间F,U为总样本,μ为隶属度函数;

35)计算约简后属性个数和约简前环境因子个数,约简后属性个数与约简前环境因子个数的比值为碳通量环境因子提取率。

4.根据权利要求3所述生态系统碳交换影响因素提取方法,其特征在于,所述步骤33)是利用神经网络来建立仿真模型,计算训练集和测试集的相关度、均方根误差、训练集和测试集平均绝对误差。

5.一种生态系统碳交换影响因素提取方法所用的系统,其特征在于包括:数据导入模块(1),用于从各碳通量观测网站中获取生态系统的碳通量样本的属性数据;

因素提取模块(2),用于对所述生态系统的碳通量样本的属性数据进行数据挖掘,获得与碳通量相关的环境因子集;

输入模块(3),用于输入约简前碳通量样本的属性数据与约简后碳通量样本的属性数据;

评价模块(4),用于计算与碳通量相关的环境因子提取前和提取后的信息保留率和碳通量环境因子提取率;

所述碳通量属性数据的数据类型包括:连续的、缺失的、标称值的、离散的、序数的、数值型、字符型数据;

所述因素提取模块(2)包括:

数据预处理单元(21),用于对获取的生态系统的碳通量样本的属性数据进行属性填补、属性数据标准化;

输入单元(22),用于设定相关系数阈值及模糊粗糙集属性约简算法参数,相关系数阈值范围为[0.9,0.95];

数据挖掘单元(23),用于挖掘对碳量有主要影响的最优条件属性子集,输出约简结果,得到与碳通量数据相关环境因子集;具体是用于分别计算各个属性间相关系数,当属性间相关系数高于相关系数阈值时,剔除冗余属性,否则,保留;对初步去冗余后的属性数据,通过一种基于混合蛙跳的模糊粗糙集约简算法或提出的基于重要度的快速模糊粗糙集约简算法,进行属性约简,通过评价函数计算组合后的属性适应度,当属性适应度达到最大时,使其满足停止搜索条件,输出约简后的环境因子,得到与碳通量数据密切相关环境因子。

6.根据权利要求5所述的系统,其特征在于所述评价模块(4)包括:模型仿真单元(41),用于对输入的数据进行建模仿真;

模型计算单元(42),用于计算训练集和测试集的相关度、均方根误差、训练集和测试集平均绝对误差;

效率评价单元(43),用于计算约简后属性和约简前属性的碳通量环境因子提取率。

说明书 :

一种生态系统碳交换影响因素提取方法及系统

技术领域

[0001] 本发明涉及数据挖掘及模糊粗糙集技术领域,尤其涉及一种生态系统碳交换影响因素提取方法及系统。

背景技术

[0002] 对大气二氧化碳的研究关系到人类可持续发展和对生态系统间规律的认识,目前国内外通过在各生态系统设立观测站、建立碳塔来获取碳通量数据。然而,由于碳塔造价不菲、容易受到环境和仪器故障等影响不能够得广泛推广。并且,只有从碳通量观测站数据和遥感数据中,挖掘各环境和气象等因素与碳通量的关系,才有可能利用遥感图像和地面气象站等数据,研究区域的乃至全球的碳通量的时空模式。在数据分析上,国内外大多依靠统计学方法对生态学家认为重要的环境因子进行回归分析或统计分析,其缺陷是依靠经验对个别属性进行分析,缺乏全面性和容易忽视重要规律;虽然,近年来,已经有一些学者通过人工智能方法对碳通量的规律及模式进行研究,但侧重在对碳通量进行预测上,并未从影响碳通量环境因子的角度对其进行深入分析,其结果是导致预测模型复杂,且难以发现内在规律;另外,无法对不同生态系统的碳通量属性数据进行统一分析,发现各自的异同点也是现阶段存在的不足。

发明内容

[0003] 本发明的目的在于提供一种能缩小研究与碳通量相关的生态因子范围,降低分析难度,降低预测模型复杂度的生态系统碳交换影响因素提取方法。
[0004] 本发明的另一目的在于提供一种方便实用的生态系统碳交换影响因素提取方法所用的系统。
[0005] 为解决上述问题,本发明提出了一种生态系统碳交换影响因素提取方法,其包括以下步骤:
[0006] 1)从碳通量数据观测站中获取碳通量样本的属性数据;
[0007] 2)输入由步骤1)获得的碳通量样本的属性数据,确定属性数据的隶属函数并计算各个属性隶属度,提取环境因子集重要度,获得与碳通量相关的环境因子集;
[0008] 3)将步骤2)获得的环境因子集中的各个环境因子分别运用神经网络进行建模仿真,得出碳通量环境因子提取率。
[0009] 所述碳通量属性数据的数据类型包括:连续的、缺失的、标称值的、离散的、序数的、数值型、字符型数据。
[0010] 所述步骤2)具体包括以下步骤:
[0011] 21)根据获取的碳通量数据样本的属性数据,对碳通量数据样本进行数据预处理;
[0012] 22)设置相关系数阈值,相关系数阈值范围为[0.9,0.95];
[0013] 23)分别计算各个属性间相关系数值;将计算后的各个属性间的相关系数值与步骤22)设置的相关系数阈值进行比较判定,如果属性间相关系数值大于相关系数阈值时,则将该环境因子剔除,小于相关系数阈值时则保留该环境因子,获得环境因子集;
[0014] 24)将步骤23)保留获得的环境因子集通过隶属度函数进行映射,求出各属性数据的模糊上近似集、模糊下近似集和模糊粗糙集正域值,通过模糊粗糙集正域计算出条件属性子集对决策属性重要度;
[0015] 25)通过一种提出的基于混合蛙跳的模糊粗糙集约简算法或基于重要度的模糊粗糙集快速约简算法,对属性进行组合,通过评价函数计算组合后的属性适应度,当属性适应度达到最大时,使其满足停止搜索条件,输出保留的环境因子。
[0016] 所述步骤25)的基于混合蛙跳算法的模糊粗糙集约简优化算法,该方法是结合了基于模因进化的模因演算法和基于群体行为的粒子群算法两种种群智能优化算法的优点,仿照青蛙觅食跳跃过程,通过种群青蛙的跳跃找到食物较多的地方,该算法具有概念简单,调整的参数少,计算速度快,全局搜索寻优能力强,易于实现的特点。具体实现所属步骤如下:
[0017] 2511)随机初始化种群,每个青蛙表示一个不同条件属性子集,并对个体按适应值由大到小排序;
[0018] 2512)通过青蛙子群中最好个体和最差个体的运算获得新个体,计算新个体的属性个数 和模糊粗糙集重要度 ,从而获得目标函数的适应度 ;
[0019] ;
[0020] 式中:、为取值(0,1)的系数, 为条件属性个数, 为约简后属性个数, 为约简后条件属性子集对决策属性重要度;
[0021] 2513)如果 ,则更新条件属性子集,直至遍历所有条件属性组合后,小于或等于 时,则 为步骤25)所述的最大属性适应度, 是指更新的条件属性子集适应度; 是指更新之前条件属性子集适应度。
[0022] 所述步骤25)的基于重要度的快速模糊粗糙集约简算法,该方法是一种逆向约简方式,通过属性递增方式进行属性约简,其优点是可以在保持信息量损失率的同时,大幅度提高约简效率。具体实现步骤如下:
[0023] 2521)通过单属性分析出各个属性重要度,统计属性个数,将属性按照条件属性对决策属性重要度由大到小排列;取其中条件属性个数的前1/3作为第一次尝试约简集 ;计算约简集 对决策属性的重要度,记录为 ;
[0024] 2522)计算所有条件属性对决策属性的重要度 ,判断 与 的关系,若等于 ,则剔除 中重要度最小的条件属性,直至满足 则停止剔除 中的条件属性;
[0025] 2523)如果 不等于 ,则需要添加条件属性到 中,重新计算添加了属性的重要度 ,直至满足 ,停止添加条件属性,输出结果。
[0026] 所述步骤3)具体包括以下步骤:
[0027] 31)输入约简后碳通量样本的属性数据;
[0028] 32)输入约简前碳通量样本的属性数据;
[0029] 33)分别计算约简前碳通量样本的属性数据样本预测值、约简后碳通量样本的属性数据样本预测值与碳通量属性数据实测值的相关性;
[0030] 34)通过约简前所有条件属性相对于决策属性重要度 和约简后条件属性集相对于决策属性的重要度 的比值,求得信息保留率; 函数为:;其中,P为条件属性,Q为决策属性,x为样本,U为总
样本;
[0031] 35)通过计算约简后属性个数和约简前环境因子个数,,约简后属性个数与约简前环境因子个数的比值为碳通量环境因子提取率。
[0032] 所述步骤33)是利用神经网络来建立仿真模型,计算训练集和测试集的相关度、均方根误差、训练集和测试集平均绝对误差。
[0033] 本发明生态系统碳交换影响因素提取方法所用的系统,包括:
[0034] 数据导入模块,用于从各碳通量观测网站中获取生态系统的碳通量样本的属性数据;
[0035] 因素提取模块,用于对所述生态系统的碳通量样本的属性数据进行属性约简,获得与碳通量相关的环境因子集;
[0036] 输入模块,用于输入约简前碳通量样本的属性数据与约简后碳通量样本的属性数据;
[0037] 评价模块,用于计算与碳通量相关的环境因子提取前和提取后的信息保留率和碳通量环境因子提取率。
[0038] 所述碳通量属性数据的数据类型包括:连续的、缺失的、标称值的、离散的、序数的、数值型、字符型数据。
[0039] 其中所述因素提取模块包括:
[0040] 数据预处理单元,用于对获取的生态系统的碳通量样本的属性数据进行属性填补、属性数据标准化;
[0041] 输入单元,用于设定相关系数阈值及模糊粗糙集属性约简算法参数;
[0042] 数据挖掘单元,用于分别计算各个属性间相关系数,当属性间相关系数高于相关系数阈值时,剔除冗余属性,否则,保留;对初步去冗余后的属性数据,通过一种基于混合蛙跳的模糊粗糙集约简算法或提出的基于重要度的快速模糊粗糙集约简算法,进行属性约简,通过评价函数计算组合后的属性适应度,当属性适应度达到最大时,使其满足停止搜索条件,输出约简后的环境因子,得到与碳通量数据密切相关环境因子。
[0043] 所述评价模块包括:
[0044] 模型仿真单元,用于对输入的数据进行建模仿真;
[0045] 模型计算单元,用于计算训练集和测试集的相关度、均方根误差、训练集和测试集平均绝对误差;
[0046] 效率评价单元,用于计算约简后属性和约简前属性的碳通量环境因子提取率。
[0047] 本发明利用数据挖掘的方法从生态系统的碳通量属性数据中挖掘出主要因素,然后将挖掘出的碳通量属性数据与挖掘前的碳通量属性数据,通过评价模块仿真,得到约简的信息保留率和提取率,从而证明其有效性和正确性。本发明缩小研究与碳通量相关的生态因子范围,降低分析难度,降低预测模型复杂度,为研究各个生态因素与碳通量环境因子的关系提供理论基础和方向,所提出的基于混合蛙跳的模糊粗糙集约简算法和一种基于重要度快速模糊粗糙集约简算法是两种新的高效快速的模糊粗糙集约简算法。并且由于采用模糊理论,也避免了传统粗糙集约简算法在将连续属性离散化过程中引起的错分误差和信息损失。

附图说明

[0048] 图1为本发明一种生态系统碳交换影响因素提取方法在一个优选实施例中的流程图。
[0049] 图2为本发明一种生态系统碳交换影响因素提取方法在一个优选实施例中的框架图。
[0050] 图3为本发明一种生态系统碳交换影响因素提取方法在一个优选实施例中的详细结构框架图。
[0051] 图4为本发明一种生态系统碳交换影响因素提取方法中基于混合蛙跳算法的模糊粗糙集约简算法实现具体流程图。

具体实施方式

[0052] 下面结合附图详细说明本发明,通过实施例来说明本发明的原理。
[0053] 本发明提供了一种在不同生态系统中寻找与碳通量关系密切的环境因子方法,其包括以下步骤:
[0054] S01、从碳通量数据观测站中获取碳通量样本的属性数据;其中数据分别来自美国北卡罗来纳州布莱克伍德区杜克森林和美国肯德尔草原的碳塔;碳通量样本的属性数据支持连续的、缺失的、标称值的、离散的、序数的、数值型、字符型数据;本实施例根据美国北卡罗来纳州布莱克伍德区杜克森林和美国肯德尔草原的碳塔数据特点,数据类型基本都是连续的;其中碳通量属性为决策属性,其余属性皆为条件属性;本实施例将连续属性直接导入系统,不需要划分为不同的区段值或者离散化,这也避免了离散化会出现错分误差和信息损失等缺陷;属性简写如下表表1所示:
[0055] 表1
[0056]属性 缩写 属性 缩写
绝对湿度 H 射入辐射 Rn
空气温度 TA 土壤温度 TS
土壤水分含量 SWC 风速 WS
潜热通量 LE 水气压差 VPD
通量梯度 FG 二氧化碳 CO2
累计降雨量 PREC_cum 碳通量 FC
[0057] S02、数据预处理:填补、归一化、相关性分析;本实施例通过对数据缺失进行填补、归一化和相关性分析,通过预先设定的相关系数阈值max relevance对数据样本属性逐次进行统计、剪枝。这里max relevance选取95%,如当A条件属性与B条件属性之间的相关性高于95%,则删除A属性或B属性,否则保留;通过相关性筛选可以有效地简化输入数据的结构;
[0058] S03、对所述碳通量样本的属性数据通过计算,得到各环境因子对决策属性重要度;通过对碳通量样本属性数据进行统计分析,选择合适的隶属度函数,对各个条件属性进行映射,运用模糊粗糙集理论求解各个条件属性的上下近似集和模糊粗糙集正域,从而得出各个环境因子对决策属性的重要度;
[0059] S04、根据约简规则提取属性;通过S03计算出的单属性重要度,运用本发明提出的两种新的约简算法,例如此处运用基于混合蛙跳的模糊粗糙集约简算法或基于重要度的模糊粗糙集快速约简算法对碳通量数据进行属性约简,寻找最优组合解;
[0060] S05、输入约简前后碳通量属性样本数据;此处选取美国肯德尔草原为例子,输入属性约简前碳通量数据共22个属性,各条件属性间相关系数都低于95%;输入属性约简后碳通量数据共8个属性分别是FG、CO2、SWC、TS、TS、Rn、PREC_cum、TA; [0061] S06、计算环境因子提取率,通过神经网络对碳通量属性数据进行模型仿真,计算出约简后的环境因子提取率,以及信息保留率。
[0062] 具体的,所述步骤S03具体包括以下的步骤:
[0063] S031、根据获取的各个碳通量样本的属性数据,分别对各个碳通量样本计算各环境因子对决策属性隶属度;
[0064] S032、分别运用统计学方法统计各个属性分布规律,此处选用正态分布函数,作为各个属性隶属度函数,由自适应函数调整隶属度函数相关系数;
[0065] 隶属度函数如下:
[0066] 隶属区间一: ,
[0067] 其中 为第i个属性第j个样本对应的值, 为 映射值;a为方差、b为中心值;
[0068] 隶属区间二: ,
[0069] 此处以属性中TA的第一个样本作为例子说明,对于第一个隶属区间TA的第一个样本映射结果是: ,对于第二个隶属区间TA的第一个样本映射结果是: ;
[0070] S033、通过确定的隶属度函数计算每一个条件属性经正态分布函数映射到两个空间的隶属度;
[0071] S034、计算各个条件属性的对于模糊等价关系的模糊下近似集;
[0072] 公式如下: ,
[0073] 其中,X为模糊等价类, 为第i个属性对应的函数映射区间 ,而它表达的是第i个属性在隶属函数 下隶属于模糊等价关系X的模糊下近似程度;
[0074] 对于TA属性可表达为:
[0075] ;
[0076] 其中
[0077]
[0078] 而 是取最小值;
[0079] S035、通过计算第i个属性的各个样本在不同隶属函数下,隶属于模糊等价关系X的模糊下近似程度,求解模糊等价类的正域;
[0080] 公式如下:1、 ;
[0081] 2、 ;
[0082] 其中Q为决策属性,A是条件属性,POS为正域表示符号,x为样本, 第i个属性对应的函数映射区间 ;
[0083] S036、计算单属性对决策属性重要度;
[0084] 公式如下:
[0085] 其中,P为条件属性,Q为决策属性,x为样本,U为总样本;
[0086] 计算出所有输入的条件属性对决策属性的重要度,下面列举美国肯德尔草原和美国北卡罗来纳州布莱克伍德区杜克森林碳通量数据部分条件属性对决策的重要度,如表2、表3所示:
[0087] 表2
[0088]
[0089] 表3
[0090]
[0091] 通过选取美国肯德尔草原和美国北卡罗来纳州布莱克伍德区杜克森林碳通量数据3000和5000个样本进行试验,说明该方法更具有普遍适用性和正确性;通过两个不同生态系统的试验,可以发现不同生态系统间影响碳通量因子的环境因子基本是相同的,但存在个别因素的不同,这也是符合生态规律的;其中国内外很多学者研究发现光合有效辐射、土壤温度、土壤含水量等因素对碳通量因子影响很大,通过本实施例的方法对两个不同生态系统作为例子的实验得到的结果也同样支持这一结论,证明该方法的正确性和有效性。
[0092] 计算出个条件属性对决策属性的重要度后,需要通过属性约简提取条件属性集。本发明首次提出基于混合蛙跳的模糊粗糙集约简算法,或基于重要度的快速模糊粗糙集约简算法,与传统算法相比,该算法具有较高的效率,约简时间大大缩减;这些算法通过计算约简集对决策属性的重要度以及约简后属性个数,求解适应度;如果适应度不断变大,则证明该属性对决策属性有贡献,需要保留,否则删除;该算法的截止条件是适应度不再增加,则输出结果。
[0093] 以美国肯德尔草原和美国北卡罗来纳州布莱克伍德区杜克森林为例,假设计算出各个条件因子的单属性重要度,约简碳通量属性样本的实现步骤是S04具体包括:
[0094] S041、计算出待约简的碳通量样本相应的各条件属性对决策属性重要度;
[0095] S042、设置属性约简终止条件;
[0096] S043、通过约简算法约简条件属性,得到约简集。
[0097] 在设置对适应度函数最低适应度为0.01的情况下,寻找最优化的条件属性子集,使得属性集适应度: ,则终止迭代过程,输出最后结果,其中 是指新的条件属性子集的适应度; 是指旧的条件属性子集的适应度;通过设置的阈值,对美国肯德尔草原和美国北卡罗来纳州布莱克伍德区杜克森林的碳通量属性样本数据进行约简,结果如表4所示;
[0098] 表4
[0099]
[0100] 由表4可以看出,不同的生态系统约简后留下的环境因子个数不同,并且存在一定的差异性,约简的效率也有所不同,这取决于数据本身存在一定的噪声和生态系统的复杂程度不同。但是,在不同的属性中还是存在很多相同的属性,这也是符合生态规律的。试验表明,本发明约简效率高达50%,约简后信息保留率高达95%-98%,并且本发明的一种在不同生态系统中寻找与碳通量关系密切的环境因子方法大大提高影响碳通量环境因子的可解释性和缩小了研究的环境因子范围,提出了分析碳交换影响因素的新途径,降低了评价人员对碳通量研究领域知识的要求,并且能获得理想的碳通量属性预测精度。计算出碳通量属性样本环境因子提取率和提取信息保留率的实现步骤是S06具体包括:
[0101] S061、运用神经网络对约简前后碳通量数据进行模型仿真,选取神经元个数;
[0102] S062、将约简前后碳通量数据随机以80%和20%的比例分为训练集和测试集;
[0103] S063、导入数据训练网络;
[0104] S064、计算预测和实测数据的相关性、均方误差、平均绝对误差;
[0105] S065、计算信息保留率和提取率;
[0106] 结合实际情况,环境因子约简步骤可总结如下:
[0107] (1)数据预处理
[0108] 数据预处理主要的目的是形成规范化的数据库,包括数据清理(填充缺值、平滑数据、寻找孤立点、纠正数据不一致性)、数据集成(元数据、相关分析、数据冲突检测、语义异种性解释)、数据变换(数据规范化、特征构造、数据泛化)和数据归约(数据立方体聚类、维归约、数据压缩、数值归约、离散化和产生概念分层)几个过程。
[0109] (2)选择模糊隶属度函数,该函数可为正态分布函数、柯西分布函数、分段线性函数等。
[0110] (3)根据隶属度函数,将各个条件属性进行映射,计算各条件属性对决策属性的重要度。
[0111] (4)通过评价函数,设置约简算法终止条件,最小适应度阈值; [0112] 当新的条件属性子集不能使属性集重要度: ,则终止迭代过程,输出最后结果,其中 是指新条件属性子集的适应度; 是指旧的条件属性子集的适应度;
[0113] (5)根据约简规则提取与碳通量因子关系密切的环境因子;
[0114] 本发明的约简算法采用新提出的基于混合蛙跳的模糊粗糙集约简算法或基于重要度的模糊粗糙集快速约简算法。
[0115] 1)基于混合蛙跳的模糊粗糙集约简算法
[0116] 该算法每只青蛙下一个目标的选择和跳跃,借助群中最好个体与最差个体产生新个体(视为跳跃)。将一个子群中具有最优适应度的青蛙和所有子群中具有最优适应度的青蛙(全局最优青蛙)进行信息交互。如果各子群中新个体的适应度优于父代个体则进行替换,否则借助种群最好个体与该子群最差个体重新产生个体,如果优于父代则替换,否则随机产生一个新个体替换父代(第三次跳跃)。设置终止条件(最大跳跃数和目标函数),当种群中出现青蛙满足目标函数要求,则跳跃停止,输出结果。此处目标函数为:, 、 为取值(0,1)的系数, 为条件属性个数, 为约简后属性个
数, 为约简后属性集相对于决策属性的重要度; 为约简后属性集对应的适应度;
[0117] 具体实现步骤如下:
[0118] 11)选择青蛙个数n,确定子群数目N;
[0119] 12)随机初始化种群P( 0),每个青蛙表示一个不同条件属性子集,并对个体按适应值由大到小排序;
[0120] 13)对每个子群Pk( 0) ( 1≤k≤N,|Pk( 0) | = n/N) ,确定其G( k,0 ) 、W( k,0) 以及P( 0) 的B( 0) ,并令t = 1; G( k,0 ) 、W( k,0)为蛙群中最好个体和最差个体,B( 0)为整个种群中最好个体;
[0121] 14)通过青蛙子群中最好个体和最差个体的运算获得新个体,计算新个体的属性个数 和约简后属性集相对于决策属性的重要度 ,从而获得目标函数的适应度 ,;式中 、为取值(0,1)的系数;
[0122] 15)计算新个体的适应度 ,如 > 则更新子集,否则蛙群通过计算,重新获得新个体;直到满足 ;
[0123] 16)输出最优青蛙的信息,即属性约简的最优条件属性子集;
[0124] 2)基于重要度的模糊粗糙集快速约简算法
[0125] 该方法其思维方式刚好与传统约简算法相反,传统约简算法是通过逐个删除属性的方式,排除到无法排除为止,而现实中由于属性过多,冗余属性也很多,常常使计算量变得很大。本发明提出一种逆向约简方式,通过属性递增方式进行属性约简,其优点是可以在保持信息量损失率的同时,大幅度提高约简效率。具体实现步骤如下:
[0126] 21)通过单属性分析出各个属性重要度,统计属性个数,将属性按照条件属性对决策属性重要度由大到小排列;取其中条件属性个数的前1/3作为第一次尝试约简集 ;计算约简集 对决策属性的重要度,记录为 ;
[0127] 22)计算所有条件属性对决策属性的重要度 ,判断 与 的关系,若等于 ,则剔除 中重要度最小的条件属性,直至满足 ,则停止剔除 中的条件属性;
[0128] 23)如果 不等于 ,则需要添加条件属性到 中,重新计算添加了属性的重要度 ,直至满足 ,则停止添加条件属性,输出结果。
[0129] (6)输入约简前后碳通量数据样本;
[0130] 将约简前和约简后的碳通量数据样各随机的取80%的训练集和20%的测试集,将80%的训练集再细分为4个20%的集合;准备通过五倍交叉验证的方式求证仿真模型的正确性和有效性;
[0131] (7)建立仿真模型,计算环境因子提取率和有效性;
[0132] 1)交叉验证
[0133] 交叉验证主要用于建模应用中,交叉验证目的是为了得到可靠稳定的模型;K折交叉验证将初始化数据划分为k个互不相交的“折”:S1,S2,……Sk,每个折的大小相等,训练与测试进行k次,即对i=1,2……k,进行k次迭代,第i次迭代中,Si用作测试集,其余的S1……,Si-1,Si+1,……Sk为训练集,准确率是k次迭代中所有正确预测数除以初始数据的样本总数。但在本实施例中准确率的计算是通过计算k次迭代预测数与实测的相关度的均值。
[0134] 2)神经网络
[0135] 神经网络包括:BP神经网络、RBF神经网络、支持向量机神经网络、自组织神经网络、小波神经网络等;本实施例举前两种作为说明。
[0136] 1)BP神经网络
[0137] BP神经网络是属于有监督学习的方式,它是利用输出后的误差来估计输出层的直接前导层的误差,再用这个误差估计更前一层的误差,如此一层一层的反传下去,就获得了所有其他各层的误差估计,在外界输入样本的刺激下不断改变网络的权值,以使网络的输出不断地接近期望的输出。它通过正向传播和反向传播来修改权值,从而达到期望输出。
[0138] 2)RBF神经网络
[0139] RBF神经网络具有网络结构简单、非线性逼近能力强、收敛速度快以及全局收敛等优点,该网络已被广泛应用于模式识别,序列识别,医疗诊断,金融应用,电子邮件过滤等领域。RBF网络是一种三层前馈网络,从输入层到隐层的变换是非线性的,隐层的作用是对输入向量进行非线性变换,而从隐层到输出层的变换是线性的,也就是网络的输出是隐节点输出的线性加权和。
[0140] 本实施例通过运用神经网络对约简前后的属性数据进行建模仿真,比较实测值与预测值之间的相关性,通过交叉验证,求得训练集相关性(Tr_cor)、测试集相关性(Te_cor)、均方误差(MSE)、训练集平均绝对误差(Tr_MAE)、测试集平均绝对误差(Te_MAE),从而求得信息保留率(Inf_s)和提取率(P);
[0141] 信息保留率公式如下:
[0142] ;
[0143] 提取率公式如下:
[0144] ;
[0145] 对应地,此处还提供了一种碳通量相关环境因子提取系统,参考图2,其包括:
[0146] 数据导入模块1,用于从各碳通量观测网站中获取不同生态系统的碳通量样本的属性数据;
[0147] 因素提取模块2,用于对所述不同生态系统的碳通量样本的属性数据进行数据挖掘,找出与碳通量关系密切的环境因子;
[0148] 输入模块3,用于输入约简前和约简后碳通量样本的属性数据;
[0149] 评价模块4,用于计算与碳通量密切相关的环境因子提取前和提取后的信息保留率和提取率。
[0150] 参考图3,所述因素提取模块2包括:
[0151] 数据预处理单元21,用于对获取的生态系统的碳通量样本的属性数据进行属性填补、属性数据标准化
[0152] 输入单元22,用于设定相关系数阈值及两种新的模糊粗糙集属性约简算法参数;
[0153] 数据挖掘单元23,用于分别计算各个属性间相关系数,当属性间相关系数高于相关系数阈值时,剔除冗余属性,否则,保留,对初步去冗余后的属性数据规律,通过一种基于混合蛙跳的模糊粗糙集约简算法或提出的基于重要度的快速模糊粗糙集约简算法,进行属性约简,通过评价函数计算组合后的属性适应度,当属性适应度达到最大时,使其满足停止搜索条件,输出约简后的环境因子,得到与碳通量数据密切相关环境因子。
[0154] 所述因素提取模块4包括:
[0155] 模型仿真单元41,用于对输入的数据进行建模仿真;
[0156] 模型计算单元42,用于计算训练集和测试集的相关度、均方根误差、训练集和测试集平均绝对误差;
[0157] 效率评价单元43,用于计算约简后属性和约简前属性的碳通量环境因子提取率。
[0158] 经实验验证,本发明已可以应用在草原生态系统、森林生态系统、红松林生态系统、灌木林生态系统、红树林生态系统等单生态和多生态系统的碳通量因子相关环境因子特征约简的相关领域上。
[0159] 以上所揭露的仅为本发明的较佳实施例而已,当然不能以此来限定本发明之权利范围,依赖本发明所作的等同变化,仍属本发明所涵盖的范围。