基于ReliefF-SVM的钉螺密度预测方法及系统转让专利

申请号 : CN202210041036.9

文献号 : CN114420290B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王勇

申请人 : 中国科学院地理科学与资源研究所

摘要 :

本发明涉及一种基于ReliefF‑SVM的钉螺密度预测方法及系统,包括:获取螺情数据;螺情数据包括钉螺孳生地的位置和活螺平均密度;获取钉螺孳生地的位置的地理环境特征数据;地理环境特征数据包括气象数据、土壤质地数据、土壤类型数据、水系数据、植被类型数据和植被覆盖度数据;基于活螺平均密度和地理环境特征数据构建样本集;基于ReliefF算法,对样本集中的地理环境特征数据中的各特征进行选择;利用特征选择后的样本集对支持向量机进行训练,得到钉螺密度预测模型;利用钉螺密度预测模型进行钉螺密度的预测。基于ReliefF‑SVM组合模型进行钉螺密度预测,有效提高了预测的准确性以及预测的效率。

权利要求 :

1.一种基于ReliefF‑SVM的钉螺密度预测方法,其特征在于,包括:获取螺情数据;所述螺情数据包括钉螺孳生地的位置和活螺平均密度;

获取所述钉螺孳生地的位置的地理环境特征数据;所述地理环境特征数据包括气象数据、土壤质地数据、土壤类型数据、水系数据、植被类型数据和植被覆盖度数据;

基于所述活螺平均密度和所述地理环境特征数据构建样本集;

基于ReliefF算法,对所述样本集中的所述地理环境特征数据中的各特征进行选择,得到特征选择后的样本集;

利用所述特征选择后的样本集对支持向量机进行训练,得到钉螺密度预测模型;所述特征选择后的样本集包括所述活螺平均密度和选择后的地理环境特征数据;

利用所述钉螺密度预测模型进行钉螺密度的预测。

2.根据权利要求1所述的方法,其特征在于,所述构建样本集之前还包括:对所述活螺平均密度和所述地理环境特征数据进行归一化处理。

3.根据权利要求1所述的方法,其特征在于,基于ReliefF算法,对所述样本集中的所述地理环境特征数据中的各特征进行选择,得到特征选择后的样本集具体包括:设迭代次数为m,m≥1,设特征权值初始值 为0;

在m次迭代过程中,从所述样本集中随机选取一个样本x;所述样本x包括所述地理环境特征数据中的各特征;样本x属于c类;

从与所述样本x同类的样本集中找出k个近邻样本;

从与所述样本x不同类的样本集中找出k个近邻样本;

更新所述样本x的每个特征的权重 得到每个特征的特征权值;

设置权重阈值,输出大于所述权重阈值的所述特征权值对应的特征,得到特征选择后的样本集。

4.根据权利要求3所述的方法,其特征在于,所述更新所述样本x的每个特征的权重具体包括:其中, 表示选取的样本x的某一特征f的权值;p(c)表示c类样本数占总样本数的比例;class(x)表示样本x的类别号;p(class(x))表示样本x的类别号对应的样本数占样本总数的比例;Mj(x)表示与样本x每个不同类样本集中各找出的k个近邻样本形成的样本集;Hj(x)表示与样本x同类样本集中找出的k个近邻样本形成的样本集;diff(x,Mj(x))表示样本x与样本集Mj(x)平均特征差;diff(x,Hj(x))表示样本x与样本集Hj(x)平均特征差。

5.根据权利要求3所述的方法,其特征在于,所述设置权重阈值具体包括:根据所述支持向量机的回归准确率确定所述权重阈值。

6.根据权利要求1所述的方法,其特征在于,所述支持向量机的核函数为径向基核函数;利用V折交叉验证法选择所述径向基核函数的惩罚因子参数和核参数。

7.根据权利要求6所述的方法,其特征在于,所述利用所述特征选择后的样本集对支持向量机进行训练,得到钉螺密度预测模型之后还包括:确定训练样本集和测试样本集的划分比例;所述划分比例包括多个比例值;

任意选取一个所述比例值;

按照选取的所述比例值将所述特征选择后的样本集划分为训练样本集和测试样本集;

利用所述训练样本集和所述测试样本集训练和验证所述支持向量机,得到训练后的钉螺密度预测模型;

任意选取一个未被选取过的所述比例值,返回步骤“按照选取的所述比例值将所述特征选择后的样本集划分为训练样本集和测试样本集”,直至遍历所有的比例值,得到多个训练后的钉螺密度预测模型;

对每一所述训练后的钉螺密度预测模型计算相关系数以及均方根误差;

根据所述相关系数和所述均方根误差从所有所述训练后的钉螺密度预测模型中筛选出满足预设拟合要求的钉螺密度预测模型。

8.一种基于ReliefF‑SVM的钉螺密度预测系统,其特征在于,包括:螺情数据获取模块,用于获取螺情数据;所述螺情数据包括钉螺孳生地的位置和活螺平均密度;

特征数据获取模块,用于获取所述钉螺孳生地的位置的地理环境特征数据;所述地理环境特征数据包括气象数据、土壤质地数据、土壤类型数据、水系数据、植被类型数据和植被覆盖度数据;

样本集构建模块,用于基于所述活螺平均密度和所述地理环境特征数据构建样本集;

特征选择模块,用于基于ReliefF算法,对所述样本集中的所述地理环境特征数据中的各特征进行选择,得到特征选择后的样本集;

钉螺密度预测模型获取模块,用于利用所述特征选择后的样本集对支持向量机进行训练,得到钉螺密度预测模型;所述特征选择后的样本集包括所述活螺平均密度和选择后的地理环境特征数据;

预测模块,用于利用所述钉螺密度预测模型进行钉螺密度的预测。

9.根据权利要求8所述的系统,其特征在于,还包括归一化处理模块,用于对所述活螺平均密度和所述地理环境特征数据进行归一化处理。

10.根据权利要求8所述的系统,其特征在于,所述特征选择模块具体包括:设迭代次数为m,m≥1,设特征权值初始值 为0;

在m次迭代过程中,从所述样本集中随机选取一个样本x;所述样本x包括所述地理环境特征数据中的各特征;样本x属于c类;

从与所述样本x同类的样本集中找出k个近邻样本;

从与所述样本x不同类的样本集中找出k个近邻样本;

更新所述样本x的每个特征的权重 得到每个特征的特征权值;

设置权重阈值,输出大于所述权重阈值的所述特征权值对应的特征,得到特征选择后的样本集。

说明书 :

基于ReliefF‑SVM的钉螺密度预测方法及系统

技术领域

[0001] 本发明涉及血吸虫病控制及预防技术领域,特别是涉及一种基于ReliefF‑SVM组合模型的钉螺密度预测方法及系统。

背景技术

[0002] 血吸虫病是一种体表传染病,血吸虫的唯一中间宿主是钉螺,毛蚴在其体内,会发育成具有感染能力的尾蚴。钉螺的分布及生存环境是影响血吸虫病的最重要因素,因此准确识别钉螺孳生地对于把握血吸虫病的分布规律,对预防和控制血吸虫病具有非常关键的作用。
[0003] 传染病预测方法种类较多,分类方法各异。近些年来,神经网络模型被应用到传染病预测中。人工神经网络具有自组织、自适应及自学习功能,理论上可以逼近任意非线性系统,但神经网络却存在着网络拓扑结构难以确定、收敛速度慢、容易陷入局部极小点等问题。支持向量机(SVM)是在统计学习理论基础上发展起来的机器学习方法。它以统计学习理论中的VC维(Vapnik‑Ch‑ervonenkis Dimension)理论和结构风险最小原理为基础,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力,有效地解决了神经网络的学习问题,因此,SVM方法在传染病预测方面有着广泛的应用。朱杰等以某市1991‑2002年乙型肝炎月发病率数据建立最小二乘支持向量机预测模型,并与径向基函数(RBF)神经网络模型和累积式自回归动平均模型(ARIMA)预测结果进行比较,预测精度明显高于RBF网络模型和ARIMA模型;Wu等用环境因素数据对新加坡登革热数据建立支持向量机回归模型,证明了支持向量机在登革热传染病预测领域是一种有效地分析方法;
[0004] 这些方法表明支持向量机能较好地应用于传染病监测领域,并且对钉螺孳生地的监测研究大多只用到支持向量机分类,定性地确定有无钉螺生存区域,而没有定量的预测出钉螺的密度,所以本发明提出一种基于ReliefF‑SVM组合模型的钉螺密度预测方法及系统,实现钉螺密度的定量研究。

发明内容

[0005] 本发明的目的是提供一种基于ReliefF‑SVM的钉螺密度预测方法及系统,ReliefF算法能够较好地进行地理环境指示因子特征选择,去除不相关特征,然后利用钉螺密度数据和选择后的特征对支持向量机进行训练,得到钉螺密度预测模型,实现钉螺密度准确预测,实现钉螺密度的定量研究。
[0006] 为实现上述目的,本发明提供了如下方案:
[0007] 一种基于ReliefF‑SVM的钉螺密度预测方法,包括:
[0008] 获取螺情数据;所述螺情数据包括钉螺孳生地的位置和活螺平均密度;
[0009] 获取所述钉螺孳生地的位置的地理环境特征数据;所述地理环境特征数据包括气象数据、土壤质地数据、土壤类型数据、水系数据、植被类型数据和植被覆盖度数据;
[0010] 基于所述活螺平均密度和所述地理环境特征数据构建样本集;
[0011] 基于ReliefF算法,对所述样本集中的所述地理环境特征数据中的各特征进行选择,得到特征选择后的样本集;
[0012] 利用所述特征选择后的样本集对支持向量机进行训练,得到钉螺密度预测模型;所述特征选择后的样本集包括所述活螺平均密度和选择后的地理环境特征数据;
[0013] 利用所述钉螺密度预测模型进行钉螺密度的预测。
[0014] 一种基于ReliefF‑SVM的钉螺密度预测系统,包括:
[0015] 螺情数据获取模块,用于获取螺情数据;所述螺情数据包括钉螺孳生地的位置和活螺平均密度;
[0016] 特征数据获取模块,用于获取所述钉螺孳生地的位置的地理环境特征数据;所述地理环境特征数据包括气象数据、土壤质地数据、土壤类型数据、水系数据、植被类型数据和植被覆盖度数据;
[0017] 样本集构建模块,用于基于所述活螺平均密度和所述地理环境特征数据构建样本集;
[0018] 特征选择模块,用于基于ReliefF算法,对所述样本集中的所述地理环境特征数据中的各特征进行选择,得到特征选择后的样本集;
[0019] 钉螺密度预测模型获取模块,用于利用所述特征选择后的样本集对支持向量机进行训练,得到钉螺密度预测模型;所述特征选择后的样本集包括所述活螺平均密度和选择后的地理环境特征数据;
[0020] 预测模块,用于利用所述钉螺密度预测模型进行钉螺密度的预测。
[0021] 根据本发明提供的具体实施例,本发明公开了以下技术效果:
[0022] 本发明提供一种基于ReliefF‑SVM的钉螺密度预测方法及系统,包括:获取螺情数据;所述螺情数据包括钉螺孳生地的位置和活螺平均密度;获取所述钉螺孳生地的位置的地理环境特征数据;所述地理环境特征数据包括气象数据、土壤质地数据、土壤类型数据、水系数据、植被类型数据和植被覆盖度数据;基于所述活螺平均密度和所述地理环境特征数据构建样本集;基于ReliefF算法,对所述样本集中的所述地理环境特征数据中的各特征进行选择,得到特征选择后的样本集;利用所述特征选择后的样本集对支持向量机进行训练,得到钉螺密度预测模型;所述特征选择后的样本集包括所述活螺平均密度和选择后的地理环境特征数据;利用所述钉螺密度预测模型进行钉螺密度的预测。ReliefF算法能够较好地进行地理环境指示因子特征选择,去除不相关特征,提高回归精度和减少运算时间;同时利用支持向量机对钉螺密度进行预测,利用基于ReliefF‑SVM组合模型进行钉螺密度预测,有效提高了预测的准确性以及预测的效率,实现钉螺密度的定量研究。

附图说明

[0023] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024] 图1为本发明实施例1提供的一种基于ReliefF‑SVM的钉螺密度预测方法流程图;
[0025] 图2为本发明实施例1提供的ReliefF算法计算得到的权重序列;
[0026] 图3为本发明实施例1提供的Model‑1模型实测值与预测值的比较结果图;
[0027] 图4为本发明实施例1提供的Model‑2模型实测值与预测值的比较结果图;
[0028] 图5为本发明实施例1提供的Model‑3模型实测值与预测值的比较结果图;
[0029] 图6为本发明实施例1提供的Model‑4模型实测值与预测值的比较结果图;
[0030] 图7为本发明实施例2提供的一种基于ReliefF‑SVM的钉螺密度预测系统框图。

具体实施方式

[0031] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0032] 本发明的目的是提供一种基于ReliefF‑SVM的钉螺密度预测方法及系统,ReliefF算法能够较好地进行地理环境指示因子特征选择,去除不相关特征,然后利用钉螺密度数据和选择后的特征对支持向量机进行训练,得到钉螺密度预测模型,实现钉螺密度准确预测,实现钉螺密度的定量研究。
[0033] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0034] 实施例1
[0035] 如图1所示,本实施例提供一种基于ReliefF‑SVM的钉螺密度预测方法,包括:
[0036] S1:获取螺情数据;所述螺情数据包括钉螺孳生地的位置和活螺平均密度;
[0037] S2:获取所述钉螺孳生地的位置的地理环境特征数据;所述地理环境特征数据包括气象数据、土壤质地数据、土壤类型数据、水系数据、植被类型数据和植被覆盖度数据;
[0038] 所述构建样本集及步骤S2之前还包括:对所述活螺平均密度和所述地理环境特征数据进行归一化处理。
[0039] 以地理环境特征数据为例说明归一化方式:
[0040] 考虑到地理环境因素中各变量的量纲和数量级不同,为减小数值差异,将该数据进行了归一化处理。
[0041] X'=(X‑Xmin)/(Xmax‑Xmin)
[0042] 式中,X'为地理环境因素X归一化后的值;Xmin和Xmax分别代表X的最大值和最小值。
[0043] S3:基于所述活螺平均密度(类别数据)和所述地理环境特征数据(特征数据)构建样本集;
[0044] S4:基于ReliefF算法,对所述样本集中的所述地理环境特征数据中的各特征进行选择,得到特征选择后的样本集;
[0045] 步骤S4具体包括:
[0046] 设迭代次数为m,m≥1,设特征权值初始值 为0;
[0047] 在m次迭代过程中,从所述样本集中随机选取一个样本x;所述样本x包括所述地理环境特征数据中的各特征;样本x属于c类;
[0048] 从与所述样本x同类的样本集中找出k个近邻样本;
[0049] 从与所述样本x不同类的样本集中找出k个近邻样本;
[0050] 更新所述样本x的每个特征的权重 得到每个特征的特征权值;其中,[0051]
[0052] 其中, 表示选取的样本x的某一特征f的权值;p(c)表示c类样本数占总样本数的比例;class(x)表示样本x的类别号;p(class(x))表示样本x的类别号对应的样本数占样本总数的比例;Mj(x)表示与样本x每个不同类样本集中各找出的k个近邻样本形成的样本集;Hj(x)表示与样本x同类样本集中找出的k个近邻样本形成的样本集;diff(x,Mj(x))表示样本x与样本集Mj(x)平均特征差;diff(x,Hj(x))表示样本x与样本集Hj(x)平均特征差。
[0053] 设置权重阈值,输出大于所述权重阈值的所述特征权值对应的特征,得到特征选择后的样本集。根据所述支持向量机的回归准确率(均方根误差)确定所述权重阈值。
[0054] S5:利用所述特征选择后的样本集对支持向量机进行训练,得到钉螺密度预测模型;所述特征选择后的样本集包括所述活螺平均密度和选择后的地理环境特征数据;
[0055] 将所述特征选择后的样本集分为第一训练样本集和第一测试样本集;
[0056] 利用第一训练样本集对支持向量机进行训练,得到训练后的支持向量机;
[0057] 将第一测试样本集输入至训练后的支持向量机中得出钉螺密度预测值;
[0058] 根据钉螺密度预测值与实测值计算均方根误差;
[0059] 根据均方根误差判断训练后的支持向量机的预测效果。
[0060] 对于支持向量机核函数可以选择所述支持向量机的核函数为径向基核函数;利用V折交叉验证法选择所述径向基核函数的惩罚因子参数和核参数。
[0061] 考虑到训练样本集和测试样本集的划分比例不同可能会影响预测模型的预测效果,基于此在步骤S5之后还包括:
[0062] 确定第二训练样本集和第二测试样本集的划分比例;所述划分比例包括多个比例值;
[0063] 任意选取一个所述比例值;
[0064] 按照选取的所述比例值将所述特征选择后的样本集划分为第二训练样本集和第二测试样本集;
[0065] 利用所述第二训练样本集和所述第二测试样本集训练和验证所述钉螺密度预测模型,得到训练后的钉螺密度预测模型;
[0066] 任意选取一个未被选取过的所述比例值,返回步骤“按照选取的所述比例值将所述特征选择后的样本集划分为第二训练样本集和第二测试样本集”,直至遍历所有的比例值,得到多个训练后的钉螺密度预测模型;
[0067] 对每一训练后的钉螺密度预测模型计算相关系数以及均方根误差;
[0068] 根据所述相关系数和所述均方根误差从所有所述训练后的钉螺密度预测模型中筛选出满足拟合要求的钉螺密度预测模型。
[0069] S6:利用所述钉螺密度预测模型(满足拟合要求的钉螺密度预测模型)进行钉螺密度的预测。
[0070] 为了使本领域技术人员更清楚的理解本实施例的技术方案,下面将以湖南省洞庭湖区为研究区,以湖南省血吸虫病防治中心2011年春季血吸虫调查中的钉螺调查资料为数据资料,详细介绍基于ReliefF算法和SVM进行钉螺密度预测模型的构建具体过程:
[0071] (一)数据收集与处理
[0072] 数据资料包括:螺情数据和地理环境数据。
[0073] 螺情数据为湖南省血吸虫病防治中心2011年春季血吸虫调查中的钉螺调查资料,该资料包括钉螺孳生地的位置、活螺平均密度等。
[0074] 地理环境数据主要有:(1)气象数据:1km分辨率的全国2010年月平均降雨量,月平均温度、月最高温度、月最低温度栅格数据,计算得到年平均降雨量、年平均温度、年平均最高温度、年平均最低温度;(2)土壤质地数据:全国1:100万土壤质地数据集,反映了砂粒、粉砂粒、黏粒的百分比含量;(3)植被类型数据:全国1:100万植被图,该数据共有11个大类,55个亚类,对数据从1开始重新进行类别编号;(4)土壤类型数据:全国1:100万土壤类型分布数据,该数据最小制图单元为中国土系统分类的亚类,共有72个土类,247个亚类,对数据从1开始重新进行类别编号;(5)水系数据:包括5级以上河流和湖泊,经临近分析得到各钉螺分布点到最近水源的距离。上述原数据均来源于中国科学院资源环境科学数据中心。(6)植被覆盖度数据:1km分辨率的2010年MODIS中国NDVI月产品,计算得到年平均NDVI数据,数据来源于地理空间数据云(http://www.gscloud.cn/)。考虑到地理环境因素对钉螺影响的滞后性,选择的是上一年的气象数据和植被覆盖度数据。共计71个地理环境因素,即特征维数为71。
[0075] (二)数据归一化
[0076] 考虑到地理环境因素中各变量的量纲和数量级不同,为减小数值差异,将该数据按照式(1)进行了归一化处理。
[0077] X'=(X‑Xmin)/(Xmax‑Xmin)   (1)
[0078] 式中,X'为地理环境因素X归一化后的值,Xmin和Xmax分别代表X的最大值和最小值。
[0079] (三)ReliefF特征选择算法
[0080] ReliefF算法属于一种特征权重算法,根据各个特征和类别的相关性赋予特征不同的权重,权重小于某个阈值的特征将被移除。最早由Kira等提出的Relief算法局限于两类问题,随后Kononenko提出新的ReliefF算法,解决了多类问题和回归问题。特征权值公式如下:
[0081] 式中:P(C)代表C类目标样本数占样本总数的比例,即P(C)=C类目标样本数/集合D的样本总数,样本集合D由类别数据(钉螺密度)和特征数据(地理环境因素)组成。
[0082] ReliefF算法首先从样本集D中随机选择一个样本x;然后在x的同类样本集中找出与x距离最近的k个近邻样本(记为H(x));再从x的每个不同类样本集中各找出k个近邻样本(记为M(x)),然后按式(2)更新每个特征的权值。该过程重复迭代m次,最终得到累积后的特征权值向量W。
[0083] 由式(2)可知:对于某维特征f,若来自同一类别的两样本在f上的距离diff(A,H(x))越小,或来自不同类别的两样本在f上的距离diff(A,M(x))越大,表明特征A越有利于分类,其获得的权值Wf越大。这样通过阈值就可以选择新的特征子集,从而达到了降维的目的。
[0084] ReliefF算法的参数设定如下:迭代次数m设为输入样本的总个数,即钉螺样本总数699;根据初步迭代学习,最近邻样本个数k设为20。根据ReliefF评估可以得到按相关度从大到小排序的特征序列,要进行特征选择,只需决定删除多少排序靠后的特征即可。由于目前还不知道最优特征维数是多少,本文采用基于支持向量机的回归准确率作为特征子集的评估准则,进而决定删除的特征数目。
[0085] (四)支持向量机(SVM)
[0086] SVM理论基本思想可以概括为:首先通过用内积函数(即核函数)定义的非线性变换将输入空间变换到一个高维空间,在这个空间中求(广义)最优分类面。SVM分类函数形式上类似于一个神经网络,输出是中间节点的线性组合,每个中间节点对应一个支持向量。SVM通过将函数连续的输出转化为二值函数的分类问题,既而实现在回归或函数拟合中的应用。
[0087] 将向量从低维空间向高维空间映射,计算复杂度会变大,而核函数的引入则巧妙地避免了这个问题。核函数的主要作用是接受两个低维空间中的输入向量,计算出经过某种变换后二者在高维空间中的向量内积值,一般可表示为:
[0088]
[0089] 其中,K为核函数;xi、xj为两个低维空间列向量,在本研究中代表两组不同的样本,样本由类别数据(钉螺密度)和特征数据(地理环境因素)组成,为向高维空间映射的函数。
[0090] 目前,SVM中应用较多的核函数有3种:即多项式核函数、径向基核函数(RBF)和Sigmoid核函数。由于径向基函数可以将样本非线性的规划到更高维的空间中,从而解决线性核函数无法解决的非线性关系问题,而且线性核函数是RBF核函数的一个特例;而Sigmoid核函数只有在某些特定参数时,性能才能和径向基函数相同。因此,本实施例中选用的是径向基核函数,即:
[0091]
[0092] 选定核函数后,需确定相应的参数。选用V折交叉验证法(V‑fold Cross Validation)来选择RBF的两个参数:惩罚因子C(对超出样本误差的惩罚程度)和核参数γ。V折交叉验证法是机器学习中推广能力估计的一种重要方法,且具有无偏估计性。其基本思想如下:将训练集数据(大部分的螺情数据及对应的选择后的特征数据)平均分成V组,每组数据分别做一次验证集,其余的(V‑1)组数据为相应的训练集,在给定参数的情况下,训练得到V个模型,并将V个模型的平均验证准确度作为衡量模型参数好坏的指标。对于SVM回归问题,上述准确度指的是预测值与实测值的均方误差(MSE)。
[0093]
[0094] 式中,Dm为实测值,Dp为预测值,n为样本数。将训练集输入到SVM中,输出值即为预测值。
[0095] 采用LIBSVM软件进行建模,并设置核函数为RBF,选取使V个模型的均方误差(MSE)最小的那组C、γ值作为模型的参数。
[0096] 最佳的参数取值为C=1,γ=1,按最佳参数进行设置后,将训练集和测试集分别代入训练好的钉螺密度预测模型中。以测试集中回归准确率较高为标准,选择MSE=0.097对应的特征序列,即权重排在前37位的特征序列作为特征子集,权重序列如图2所示。其中权重较大的前11个序列编号对应的地理环境因素分别为土壤类型、4月NDVI数据、黏粒含量、砂粒含量、8月降雨量、6月平均温度、6月最小温度、12月最高温度、距水源距离、1月最高温度、11月平均温度。值越大具有越好的分类回归能力,筛选出来的地理环境因素可用来监测钉螺孳生地的分布。
[0097] 在样本学习中,分别按照1:1,2:1,3:1,4:1的比例随机将699组钉螺样本分为训练样本和测试样本,检验和评估模型的泛化性能。经过分析,按照2:1比例构建钉螺预测模型有着较好的拟合效果。模型的训练样本集由钉螺训练样本与其特征序列组成,测试样本集由钉螺测试样本与其特性序列组成。
[0098] 图3、图4、图5和图6为上述4种不同分组比例ReliefF‑SVM模型实测值与预测值的比较,图中的横坐标number表示数量;纵坐标densityofsnails表示钉螺密度,(/0.11m2)为密度单位;training set表示训练集;testing set表示测试集;measured data表示实测值;predicted data表示预测值;对各模型拟合能力的评价见表1。
[0099] 表1不同训练测试样本比例模型的拟合结果
[0100]
[0101]
[0102] 上述训练与测试结果均通过了显著性水平为0.01的t检验,结果表明,Model‑2的预测结果较好。其中Model‑1和Model‑3对测试样本的估算精度不高,与实测值的相关系数偏低,RMSE(RMSE为均方根误差,即式(5)中MSE开根号)较大。Model‑2和Model‑4的预测能力优于前2种模型,测试样本中拟合效果较好,与实测值的相关系数较大,均方根误差都较小。两者相比较,Model‑2在测试样本中的均方根误差要小一些。
[0103] 综上所述,对比训练测试样本预测结果,以及考虑到今后模型对其他地区钉螺密度预测的推广,选择Model‑2作为反演洞庭湖区钉螺密度的ReliefF‑SVM模型,在该模型的训练集中,R=0.822,RMSE=0.179;在测试集中,R=0.690,RMSE=0.253。预测值与实测值具有较高的一致性,该模型具备一定的实用价值。
[0104] 另一方面,从图3、图4、图5和图6中可以看出,预测值与实测值在变化趋势上都基本一致,四种模型的反演效果相差不大,即不同的分组比例对模型的影响效果不大,说明了该模型的较高的稳定性和较好的泛化性能。
[0105] 进一步观察可以发现,当钉螺密度较低时,预测值与实测值吻合良好;当钉螺密度很高时,预测值与实测值偏差较大。分析产生这一结果的原因可能是:在运用智能方法进行模型训练的过程中,如果训练集中高低目标值的个数不均等,最优的模型一般会偏向于个数多的那端。就本文模型而言,钉螺密度低值多,高值少,造成了模型对低值的模拟效果更好。
[0106] (五)用其他模型对比验证ReliefF‑SVM模型的反演精度
[0107] 常规的反演方法大多通过线性回归模型来实现反演,比如简单曲线估计、多元线性模型以及主成分分析模型。为了进一步证明ReliefF‑SVM模型的预测能力,利用Model‑2中训练样本集构建简单曲线估计、多元线性模型以及主成分分析模型,对比评价模型的拟合情况。
[0108] 对钉螺密度数据与71个地理环境因素特征做相关分析,Pearson相关系数大于0.1的结果如表2所示。
[0109] 表2钉螺密度与地理环境因素的相关系数
[0110]
[0111] 一般的回归模型只能对数值型变量进行回归,所以简单曲线估计和多元线性回归模型中自变量去除土壤类型和植被类型2个变量,用其余6个可用的变量进行回归。
[0112] 1)简单曲线估计
[0113] 选择最大相关系数对应的环境因素7月降雨量(X1)作为自变量,构建钉螺密度简单曲线估计,其中包括线性、对数、二次、三次回归模型。由于钉螺密度中有零值,所以不能构建幂函数、指数模型。其中拟合度最高的模型是二次回归模型:
[0114] G=2.67×10‑5X12‑0.01X1+1.079,R=0.308   (6)
[0115] 2)多元线性回归模型
[0116] 将表1中的6个地理环境因素都作为自变量,构建关于钉螺的多元线性回归模型:
[0117] G=‑0.002X1+1.1X2+0.01X3‑2.014X5+0.02X6+1.999X7,R=0.427   (7)[0118] 3)主成分分析模型(PCA)
[0119] 对全部71个地理环境因素进行主成分分析,提取出9个主成分因子,累计贡献率达到了92.642%,说明这9个主成分因子对钉螺密度的解释率还比较高,能够代替原有71个地理环境因素。基于这9个主成分因子的反演模型系数如表3:
[0120] 表3主成分分析模型系数表
[0121]
[0122] 观察系数表中显著性t检验中的sig值(significance),主成分因子5、主成分因子7和主成分因子9的显著性水平均大于0.05,这些变量保留在方程中是不正确的。所以该模型不可用,应重新建模。剔除主成分因子5、主成分因子7和主成分因子9,用其余6个主成分因子建模,最后的模型如下:
[0123] G=‑0.068F1‑0.069F2‑0.046F3+0.082F4+0.029F6+0.098F8+0.310,R=0.444  (8)[0124] 从式(6)、(7)和(8)中可以看出这三种传统模型都不能得到较好的拟合效果(R<0.5),因此不能用来做预测。
[0125] 与ReliefF‑SVM模型一样,上述三种传统建模方法都进行了特征提取。简单曲线估计和多元线性回归模型通过相关分析选择相关系数R>0.1的地理环境因素,PCA模型通过主成分分析得到主成分因子。其中简单曲线估计只用到1个地理环境因素,拟合得到的效果最差。多元线性回归和PCA模型都用了6个地理环境因素建立模型,其中PCA模型的拟合效果较好于多元线性回归模型,说明做特征选择主成分分析优于相关分析。然而主成分分析得到的主成分因子没有特定的指代意义,不能明确哪些地理环境因素可以用来指示钉螺孳生地的分布,在以后建模中还需要同样多的地理环境因素,造成了数据的浪费,阻碍了模型的推广。ReliefF算法可以得到按权重大小排序的地理环境因素特征,这些地理环境因素可用于其他技术监测钉螺孳生地。
[0126] 三种传统方法本质上都是通过建立线性回归模型来实现钉螺密度反演,虽然简单,但是也存在明显不足,因为地理环境数据与钉螺密度之间是非线性的;都以确定性的数学模型来估计地理环境因素数据与钉螺密度间的非线性关系,得到的结果是反演精度差,数据间的互补性较小,反演的结果不准确。因此,改进反演方法、提高反演精度成为钉螺密度预测的发展目标。与其他模型相比,ReliefF‑SVM模型对钉螺密度的拟合能力较好,为钉螺孳生地的监测提供了可借鉴的方法。
[0127] 基于上述的分析过程可得出:
[0128] 1)ReliefF算法能够较好地进行地理环境指示因子特征选择,去除不相关特征,提高回归精度和减少运算时间;
[0129] 2)筛选出的洞庭湖区江滩钉螺孳生地各主要地理环境因素为:土壤类型、4月NDVI数据、黏粒含量、砂粒含量、8月降雨量、6月平均温度、6月最小温度、12月最高温度、距水源距离、1月最高温度、11月平均温度。这些地理环境指示因子可用于其他技术监测钉螺孳生地,从而为采取有效的控螺措施提供科学依据。
[0130] 3)不同训练测试样本比例的ReliefF‑SVM模型的反演效果相差不大,说明了该模型的较高的稳定性和较好的泛化性能。对比训练测试样本预测结果,以及考虑到今后模型对其他地区钉螺密度预测的推广,选择了Model‑2作为反演洞庭湖区钉螺密度的ReliefF‑SVM模型,在该模型的训练集中,R=0.822,RMSE=0.179;在测试集中,R=0.690,RMSE=0.253。
[0131] 4)ReliefF‑SVM方法构建钉螺密度反演模型不仅是可行的,而且能够进一步提升钉螺密度的预测精度,显示出较好的应用前景。
[0132] 实施例2
[0133] 如图7所示,本实施例提供一种基于ReliefF‑SVM的钉螺密度预测系统,包括:
[0134] 螺情数据获取模块T1,用于获取螺情数据;所述螺情数据包括钉螺孳生地的位置和活螺平均密度;
[0135] 特征数据获取模块T2,用于获取所述钉螺孳生地的位置的地理环境特征数据;所述地理环境特征数据包括气象数据、土壤质地数据、土壤类型数据、水系数据、植被类型数据和植被覆盖度数据;
[0136] 样本集构建模块T3,用于基于所述活螺平均密度和所述地理环境特征数据构建样本集;
[0137] 特征选择模块T4,用于基于ReliefF算法,对所述样本集中的所述地理环境特征数据中的各特征进行选择,得到特征选择后的样本集;
[0138] 所述特征选择模块T4具体包括:
[0139] 设迭代次数为m,m≥1,设特征权值初始值 为0;
[0140] 在m次迭代过程中,从所述样本集中随机选取一个样本x;所述样本x包括所述地理环境特征数据中的各特征;样本x属于c类;
[0141] 从与所述样本x同类的样本集中找出k个近邻样本;
[0142] 从与所述样本x不同类的样本集中找出k个近邻样本;
[0143] 更新所述样本x的每个特征的权重 得到每个特征的特征权值;
[0144] 设置权重阈值,输出大于所述权重阈值的所述特征权值对应的特征,得到特征选择后的样本集。
[0145] 钉螺密度预测模型获取模块T5,用于利用所述特征选择后的样本集对支持向量机进行训练,得到钉螺密度预测模型;所述特征选择后的样本集包括所述活螺平均密度和选择后的地理环境特征数据;
[0146] 预测模块T6,用于利用所述钉螺密度预测模型进行钉螺密度的预测。
[0147] 其中系统还包括归一化处理模块,用于对所述活螺平均密度和所述地理环境特征数据进行归一化处理。
[0148] 对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0149] 本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。