会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 渔场 / 蓝点马鲛渔场的集合模型预测方法、系统、设备及应用

蓝点马鲛渔场的集合模型预测方法、系统、设备及应用

申请号 CN202110022289.7 申请日 2021-01-08 公开(公告)号 CN112686465A 公开(公告)日 2021-04-20
申请人 中国海洋大学; 发明人 刘阳; 刘殊豪; 田永军;
摘要 本发明属于智慧渔业技术领域,公开了一种蓝点马鲛渔场的集合模型预测方法、系统、设备及应用,环境因子的选择;利用物种存在数据生成伪缺失数据代替物种真实缺失数据;环境数据和物种存在、伪缺失数据的匹配;构建九种预测模型;设置阈值挑选模型构建集合模型;预测蓝点马鲛渔场分布。本发明将大数据理念应用到渔场预测中,将集合的理念运用到多种模型分析中,具备所有的调节参数的功能,准确对蓝点马鲛渔场分布进行预测,实现R与GIS交互使用,对渔场进行可视化分析,为其他海洋物种的预测提供新的方法。同时,本发明适用鱼种为蓝点马鲛,适用区域范围为中国近海蓝点马鲛的渔场,有助于制订保护政策和促进该区域渔业资源的可持续发展。
权利要求

1.一种蓝点马鲛渔场的集合模型预测方法,其特征在于,所述蓝点马鲛渔场的集合模型预测方法包括:

环境因子的选择;利用大数据优势使用了多种环境因子,根据蓝点马鲛的生态习性,在表层数据的基础上使用了次表层和水深处的数据;

利用物种存在数据生成伪缺失数据代替物种真实缺失数据;利用物种存在数据生成伪缺失数据代替物种真实缺失数据;

环境数据和物种存在、伪缺失数据的匹配;利用卫星,数值模拟数据得到物种存在、伪缺失所处的环境数据;

构建九种预测模型;设置阈值挑选模型构建集合模型;通过调整模型中不同的阈值参数使模型捕捉到每一种模型的预测准确的信号;

预测蓝点马鲛渔场分布。

2.如权利要求1所述的蓝点马鲛渔场的集合模型预测方法,其特征在于,所述环境因子的选择,包括:基于文献记载和经验推断选取叶绿素Chl‑a、海洋水深Depth、海表面高度SSH、海表面盐度SSS、海洋次表面盐度SSS‑5、海表面温度SST、海洋次表面温度SST‑5、海流经向流速V、海洋次表面经向流速V‑5、海流纬向流速U、海洋次表面纬向流速U‑5十一种环境因子影响蓝点马鲛分布的环境因子,作为预测蓝点马鲛渔场分布的预测因子。

3.如权利要求1所述的蓝点马鲛渔场的集合模型预测方法,其特征在于,所述利用物种存在数据生成伪缺失数据代替物种真实缺失数据,包括:根据物种存在数据,使用RSEP技术生成伪缺失点代替物种真实缺失点;所述RESP技术利用蓝点马鲛存在数据和环境栅格背景,使用支持向量机技术定义环境不适宜区域作为背景网格的环境范围,从背景中随机取样得到伪缺失点。

4.如权利要求3所述的蓝点马鲛渔场的集合模型预测方法,其特征在于,所述利用物种存在数据生成伪缺失数据代替物种真实缺失数据,包括:根据物种存在数据,使用RSEP技术生成伪缺失点代替物种真实缺失点;所述RESP技术利用蓝点马鲛存在数据和环境栅格背景,使用支持向量机技术定义环境不适宜区域作为背景网格的环境范围,从背景网格中随机取样得到伪缺失点;基于R语言的mopa包进行生成伪缺失点,包括:(1)读取渔业数据和环境栅格数据,定义背景网格;

(2)利用OCSVMprofiling函数通过支持向量机原理对环境栅格进行分析,分析得到存在数据的环境网格和缺失数据的环境网格;

(3)利用pseudoAbsences函数在排除适合蓝点马鲛存在的环境网格中生成伪缺失点,进而构建模型。

5.如权利要求1所述的蓝点马鲛渔场的集合模型预测方法,其特征在于,所述环境数据和物种存在、伪缺失数据的匹配,包括:(1)将栅格图像覆盖在渔业捕捞位置,利用经纬度值提取环境栅格图像的像素点值,即环境因子的值;

(2)使用ArcMap10.5工具箱中的“Spatial Analyst Tools”,“Extraction”,“Extract values to Points”获得渔业环境数据库从而获得预测模型的训练数据集,响应变量存在‑不存在和环境数据值Chl‑a,Depth,SSH,SSS,SSS‑5,SST,SST‑5,V,V‑5,U,U‑5;

所述数据库的构建方法包括:

1)使用2009‑2015年蓝点马鲛存在数据和伪缺失数据构成的渔业数据库;其中,所述数据库包括存在数据、伪缺失数据位置、时间和环境栅格数据;

2)将环境数据栅格匹配到渔业数据库,矢量数据向栅格数据转变,将渔业数据与每个特定时间的环境栅格数据进行匹配,以获得渔业信息数据库。

6.如权利要求1所述的蓝点马鲛渔场的集合模型预测方法,其特征在于,所述构建九种预测模型,包括:

(1)读取渔业环境数据库,定义坐标、响应变量和环境变量,使用BIOMOD_FormatingData函数生成待分析数据;

(2)利用BIOMOD_Modeling函数建模,在单一模型的运行中,采用70%:30%得到的训练集和测试集,所有模型重复运行10次,选择AUC和TSS值较高的模型来构建集合模型;

所述单一模型的参数设置,包括:

①广义线性模型GLM,参数:family=’binomial’(link=’logit’),type=’quadratic’,interaction.level=0.R包:stats 3.6.0;

②提升回归树GBM,参数:distribution=‘bernoulli’,number of trees=2500,shrinkage=0.001,interaction.depth=7,bag fraction=0.5,train fraction=1,n.cores=1,cv.folds=3.R包:gbm 2.1.8;

③广义加性模型GAM,参数:family=‘binomial’(link=‘logit’),type=‘s_smoother’.R包:mgcv 1.8‑31;

④分类树分析CTA,参数:method=class,cross‑validation folds=5.R包:rpart 

4.1‑15;

⑤人工神经网络模型ANN,参数:maximum iteration=200,NbCV=5,rang=0.1,maxit=200.R包:nnet 7.3‑14;

⑥表面分室模型SRE,参数:quant=0.025.R包:Biomod2 3.4.6;

⑦柔性判别分析FDA,参数:regression method=‘mars’.R包:mda 0.5‑2;

⑧随机森林RF,参数:number of trees=500,node size=5,maximum training iterations=200.R包:randomForest 4.6‑14;

⑨最大熵模型MAXRNT:memory_allocated=512,maximumiterations=500,lq2lqptthreshold=80,l2lqthreshold=10,hingethreshold=15,beta_threshold=‑1,beta_cat egorical=‑1,beta_lqp=‑1,beta_hinge=‑1,betamultiplier=1,defaultprevalence=0.5.Max Ent 3.4.0。

7.如权利要求1所述的蓝点马鲛渔场的集合模型预测方法,其特征在于,所述设置阈值挑选模型构建集合模型,包括:

(1)利用TSS和AUC对单一模型进行评价,建立基于TSS权重蓝点马鲛集合模型;

(2)将TSS>0.65作为阈值在90个模型中进行筛选,得到准确的单一模型;

(3)使用BIOMOD_EnsembleModeling函数按照TSS权重构成集合模型;

(4)评价集合模型的TSS和AUC,集合模型的TSS=0.973,AUC=0.999;

所述预测蓝点马鲛渔场分布,包括:

单一模型利用环境因子栅格映射栅格图,集合模型对单一模型的映射进行权重集合来构建蓝点马鲛渔场分布图;

所述预测蓝点马鲛渔场分布,还包括:(1)读取环境数据,定义坐标和环境变量矩阵;

(2)九种模型利用BIOMOD_Projection函数和环境数据进行预测映射;

(3)使用BIOMOD_EnsembleForecasting函数得到集合模型的预测映射结果。

8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:

环境因子的选择;

利用物种存在数据生成伪缺失数据代替物种真实缺失数据;

环境数据和物种存在、伪缺失数据的匹配;

构建九种预测模型;

设置阈值挑选模型构建集合模型;

预测蓝点马鲛渔场分布。

9.一种实施权利要求1~7任意一项所述蓝点马鲛渔场的集合模型预测方法的蓝点马鲛渔场的集合模型预测系统,其特征在于,所述蓝点马鲛渔场的集合模型预测系统包括:选择模块,用于实现环境因子的选择;

数据代替模块,用于利用物种存在数据生成伪缺失数据代替物种真实缺失数据;

数据匹配模块,用于实现环境数据和物种存在、伪缺失数据的匹配;

模型构建模块,用于构建九种预测模型;

阈值设置模块,用于设置阈值挑选模型构建集合模型;

预测结果输出模块,用于预测蓝点马鲛渔场分布。

10.一种智慧渔业系统,其特征在于,所述智慧渔业系统用于实现权利要求1~7任意一项所述的蓝点马鲛渔场的集合模型预测方法。

说明书全文

蓝点马鲛渔场的集合模型预测方法、系统、设备及应用

技术领域

[0001] 本发明属于智慧渔业技术领域,尤其涉及一种蓝点马鲛渔场的集合模型预测方法、系统、设备及应用。

背景技术

[0002] 目前,蓝点马鲛是一种广泛分布于我国渤、黄、东海的暖温性中上层鱼类,是我国海洋渔业的重点捕捞对象,是年渔获量超过10万吨的大型经济物种。蓝点马鲛肉质鲜美,含
蛋白质较多,可以加工作为罐头等产品。蓝点马鲛作为重要的水产品具有巨大的经济效益
和社会效益,是重要的国民经济物种。所以了解蓝点马鲛的产卵场、索饵场和越冬场的分布
已经蓝点马鲛的洄游路线至关重要,这有利于掌握蓝点马鲛的“春汛”和“秋汛”,渔民更有
效率的达到渔场捕捞渔获物,节约经济和人力成本,本发明获得的渔场分布信息有利于制
定政策来保护和合理利用渔业资源,促进渔业的的可持续发展。目前已有多种预测方法来
预测大洋性的经济鱼种的渔场,原理是根据渔业生产数据和环境数据来理解和量化鱼类与
环境之间的关系从而进行预测鱼类的分布。但是这些方法都是利用单一的模型对大洋性的
经济鱼种的渔场进行预测,还没有针对中国近海的重要经济鱼种进行多种模型的渔场预
测,也没有对比多种模型适用的鱼种和区域。利用单一模型进行预测缺乏对比性,因为运用
其它模型可能达到更好的预测精准度,这就需要构建多种模型进行预测找到最精确的模
型。大部分渔场预测的方法都是基于捕捞努力量数据或者单位捕捞努力量渔获量数据
(CPUE)进行预测,因为捕捞努力量并不是随机分配的而是倾向于鱼类密度较高的区域,而
且当渔获量和捕捞努力量都很高的时候,CPUE可能反而很低;而渔获量和捕捞努力量都很
低的时候,CPUE可能很高:基于CPUE数据的渔场预测可能会高估渔场的分布范围。而且大多
数的渔业作业或者渔业调查无法全面的覆盖整个海域,没有调查数据的海域不一定不存在
渔场,可能只是没有进行调查,无法获得全面的调查数据。渔业调查数据在进行统计的时候
可能会出现人工统计的失误,而很难判断数值变化是因为人工失误还是突发性的环境状
况,如果简单的将某些数值归类为异常值就有可能忽略特殊的海洋现象而造成的渔场变
化。因此,亟需一种新的蓝点马鲛渔场的预测方法。
[0003] 通过上述分析,现有技术存在的问题及缺陷为:
[0004] (1)现有预测方法都是利用单一的模型对大洋性的经济鱼种的渔场进行预测,还没有针对中国近海的重要经济鱼种进行多种模型的渔场预测,也没有对比多种模型适用的
鱼种和区域。利用单一模型进行预测缺乏对比性,运用其它模型可能达到更好的预测精度。
[0005] (2)现有预测方法都是基于捕捞努力量数据,渔获量,单位捕捞努力量渔获量数据(CPUE)进行预测,因为捕捞努力量并不是随机分配的而是倾向于鱼类密度较高的区域,而
且当渔获量和捕捞努力量都很高的时候,CPUE可能反而很低;而渔获量和捕捞努力量都很
低的时候,CPUE可能很高:基于CPUE数据的渔场预测可能会高估渔场的分布范围。而且大多
数的渔业作业或者渔业调查无法全面的覆盖整个海域,没有调查数据的海域不一定不存在
渔场,可能只是没有进行调查,无法获得全面的调查数据。渔业调查数据在进行统计的时候
可能会出现人工统计的失误,而很难判断数值变化是因为人工失误还是突发性的环境状况
导致的鱼群聚集。
[0006] 解决以上问题及缺陷的难度为:利用多种模型对渔场分布进行预测难度较高,不同的模型有不同的内部算法原理,需要对数据进行不同的处理方法,调整不同的大量的参
数,运算时间较长。这也是为什么大部分方法只利用单一模型。现有的调查渔业数据基本都
是CPUE,渔获量等数值型数据,考虑到调查的现场状况,很难完全消除人工统计的失误。全
海域的调查时间较长,经济成本较高,基本不可能进行全海域调查,因此基本不可能获得全
面的鱼种存在‑不存在的调查数据。
[0007] 解决以上问题及缺陷的意义为:创造性的采取了一种新型的蓝点马鲛渔场的预测方法,这是中国近海的渔场预测方法,也可以使用到其他经济鱼种的渔场预测当中。这一预
测方法没有拘泥于CPUE/渔获量数据,利用物种存在数据结合环境数据,利用机器学习算法
生成伪缺失数据代替物种真实缺失数据,尽可能减小了实际调查对渔场预测的影响(人工
统计,站位点设计),能够科学的补充基础数据,节约大量的人力物力财力成本。在过去大量
研究人员采取的方法上有了进一步创新,采用多种预测模型,经过大量模型的调试以及不
同参数的调整,最终能够准确的预测蓝点马鲛的渔场。单一模型在预测的时候有产生过拟
合的几率,整体预测效果表现较差的模型有可能在某一区域预测较为准确,本发明通过多
种模型集合捕捉到每一种单一模型的预测准确的信号,采用权重平均法给予高准确度模型
高的权重,运用集合的理念能够结合各个模型的优势达到最准确的效果。

发明内容

[0008] 针对现有技术存在的问题,本发明提供了一种蓝点马鲛渔场的集合模型预测方法、系统、设备及应用。
[0009] 本发明是这样实现的,一种蓝点马鲛渔场的集合模型预测方法,所述蓝点马鲛渔场的集合模型预测方法包括以下步骤:
[0010] 步骤一,环境因子的选择;本发明利用大数据优势使用了多种环境因子,根据蓝点马鲛的生态习性,在表层数据的基础上进一步使用了5米水深处的数据以提高模型的精确
性。
[0011] 步骤二,利用物种存在数据生成伪缺失数据代替物种真实缺失数据;利用物种存在数据生成伪缺失数据代替物种真实缺失数据;通过这一步骤可以解决传统预测模型中
“捕捞努力量并不是随机分配的而是倾向于鱼类密度较高的区域导致的CPUE并不能代表资
源量”这一问题,获得准确的物种存在‑缺失的数据,可以准确的代表蓝点马鲛渔场分布,节
省了大量的经济成本还能使准确的预测。
[0012] 步骤三,环境数据和物种存在、伪缺失数据的匹配;利用卫星,数值模拟数据得到物种存在、不存在所处的环境数据,减少现场调查测量这一繁琐复杂的步骤,节约成本,提
高效率。
[0013] 步骤四,构建九种预测模型;本发明通过多种预测模型的使用来提高预测的精确性,提供更多的模型选择性,尽可能概括所有的算法代表模型,利用各种算法的优势。
[0014] 步骤五,设置阈值挑选模型构建集合模型;本发明通过调整模型中不同的阈值参数使模型达到最优效果,避免单一模型导致的在某一时期的过拟合等问题,捕捉到每一种
模型的预测准确的信号从而达到整体准确的预测效果。
[0015] 步骤六,预测蓝点马鲛渔场分布;通过预测的渔场分布图可使研究人员进行后续研究——分析蓝点马鲛的生活习性从而达到种种研究目的,渔场的预报,资源的合理利用
和评估。
[0016] 进一步,步骤一中,所述环境因子的选择,包括:
[0017] 基于文献记载和经验推断选取叶绿素Chl‑a、海洋水深Depth、海表面高度SSH、海表面盐度SSS、海洋次表面盐度SSS‑5、海表面温度SST、海洋次表面温度SST‑5、海流经向流
速V、海洋次表面经向流速V‑5、海流纬向流速U、海洋次表面纬向流速U‑5十一种环境因子影
响蓝点马鲛分布的环境因子,作为预测蓝点马鲛渔场分布的预测因子。
[0018] 进一步,步骤二中,所述利用物种存在数据生成伪缺失数据代替物种真实缺失数据,包括:
[0019] 根据物种存在数据,使用RSEP技术生成伪缺失点代替物种真实缺失点;所述RESP技术利用蓝点马鲛存在数据和环境栅格背景,使用支持向量机技术定义环境不适宜区域作
为背景网格的环境范围,从背景中随机取样得到伪缺失点。
[0020] 进一步,基于R语言的mopa包进行生成伪缺失点,包括:
[0021] (1)读取渔业数据和环境栅格数据,定义背景网格;渔业数据一般处理为.CSV格式的数据。并且将相同分辨率和范围的栅格读取为栅格堆栈,并且赋予相同坐标系,基本为
WGS84。
[0022] (2)利用OCSVMprofiling函数通过支持向量机原理对环境栅格进行分析,分析得到存在数据的环境网格和缺失数据的环境网格;
[0023] (3)利用pseudoAbsences函数在排除适合蓝点马鲛存在的环境网格中生成伪缺失点,进而构建模型。设置存在数据和伪缺失数据比值1:10,间隔最小距离60km。
[0024] 进一步,步骤三中,所述环境数据和物种存在、伪缺失数据的匹配,包括:
[0025] (1)将栅格图像覆盖在物种存在、伪缺失位置,利用经纬度值提取环境栅格图像的像素点值,即环境因子的值;
[0026] (2)使用ArcMap10.5工具箱中的“Spatial Analyst Tools”,“Extraction”,“Extract values to Points”获得渔业环境数据库从而获得预测模型的训练数据集,响应
变量存在‑不存在和环境数据值Chl‑a,Depth,SSH,SSS,SSS‑5,SST,SST‑5,V,V‑5,U,U‑5。
[0027] 进一步,所述数据库的构建方法,包括:
[0028] 1)使用2009‑2015年蓝点马鲛存在数据和伪缺失数据构成的渔业数据库;其中,所述数据库包括存在数据、伪缺失数据位置、时间和环境栅格数据;
[0029] 2)将环境数据栅格匹配到渔业数据库,矢量数据向栅格数据转变,将渔业数据与每个特定时间的环境栅格数据进行匹配,以获得渔业信息数据库。
[0030] 进一步,步骤四中,所述构建九种预测模型,包括:
[0031] (1)读取渔业环境数据库,定义坐标、响应变量和环境变量,使用BIOMOD_FormatingData函数生成待分析数据;
[0032] (2)利用BIOMOD_Modeling函数建模,在单一模型的运行中,采用70%:30%得到的训练集和测试集,所有模型重复运行10次,选择AUC和TSS值较高的模型来构建集合模型。
[0033] 进一步,所述单一模型的参数设置,包括:
[0034] ①广义线性模型(GLM),参数:family=’binomial’(link=’logit’),type=’quadratic’,interaction.level=0.R包:stats 3.6.0;
[0035] ②提升回归树(GBM),参数:distribution=‘bernoulli’,number of trees=2500,shrinkage=0.001,interaction.depth=7,bag fraction=0.5,train fraction=
1,n.cores=1,cv.folds=3.R包:gbm 2.1.8;
[0036] ③广义加性模型(GAM),参数:family=‘binomial’(link=‘logit’),type=‘s_smoother’.R包:mgcv 1.8‑31;
[0037] ④分类树分析(CTA),参数:method=class,cross‑validation folds=5.R包:rpart 4.1‑15;
[0038] ⑤人工神经网络模型(ANN),参数:maximum iteration=200,NbCV=5,rang=0.1,maxit=200.R包:nnet 7.3‑14;
[0039] ⑥表面分室模型(SRE),参数:quant=0.025.R包:Biomod2 3.4.6;
[0040] ⑦柔性判别分析(FDA),参数:regression method=‘mars’.R包:mda 0.5‑2.
[0041] ⑧随机森林(RF),参数:number of trees=500,node size=5,maximum training iterations=200.R包:randomForest 4.6‑14;
[0042] ⑨最大熵模型(MAXRNT):memory_allocated=512,maximumiterations=500,lq2lqptthreshold=80,l2lqthreshold=10,hingethreshold=15,beta_threshold=‑1,
beta_cat egorical=‑1,beta_lqp=‑1,beta_hinge=‑1,betamultiplier=1,
defaultprevalence=0.5.Max Ent 3.4.0。
[0043] 进一步,步骤五中,所述设置阈值挑选模型构建集合模型,包括:
[0044] (1)利用TSS和AUC对单一模型进行评价,建立基于TSS权重蓝点马鲛集合模型;
[0045] (2)将TSS>0.65作为阈值在90个模型中进行筛选,得到准确的单一模型;
[0046] (3)使用BIOMOD_EnsembleModeling函数按照TSS权重构成集合模型;
[0047] (4)评价集合模型的TSS和AUC,集合模型的TSS=0.973,AUC=0.999。
[0048] 进一步,步骤六中,所述预测蓝点马鲛渔场分布,包括:
[0049] 单一模型利用环境因子栅格映射栅格图,集合模型对单一模型的映射进行权重集合来构建蓝点马鲛渔场分布图;
[0050] 进一步,步骤六中,所述预测蓝点马鲛渔场分布,还包括:
[0051] (1)读取环境数据,定义坐标和环境变量矩阵;
[0052] (2)九种模型利用BIOMOD_Projection函数和环境数据进行预测映射;
[0053] (3)使用BIOMOD_EnsembleForecasting函数得到集合模型的预测映射结果。
[0054] 本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
[0055] 环境因子的选择;
[0056] 利用物种存在数据生成伪缺失数据代替物种真实缺失数据;
[0057] 环境数据和物种存在、伪缺失数据的匹配;
[0058] 构建九种预测模型;
[0059] 设置阈值挑选模型构建集合模型;
[0060] 预测蓝点马鲛渔场分布。
[0061] 本发明的另一目的在于提供一种实施所述蓝点马鲛渔场的集合模型预测方法的蓝点马鲛渔场的集合模型预测系统,所述蓝点马鲛渔场的集合模型预测系统包括:
[0062] 选择模块,用于实现环境因子的选择;
[0063] 数据代替模块,用于利用物种存在数据生成伪缺失数据代替物种真实缺失数据;
[0064] 数据匹配模块,用于实现环境数据和物种存在、伪缺失数据的匹配;
[0065] 模型构建模块,用于构建九种预测模型;
[0066] 阈值设置模块,用于设置阈值挑选模型构建集合模型;
[0067] 预测结果输出模块,用于预测蓝点马鲛渔场分布。
[0068] 本发明的另一目的在于提供一种智慧渔业系统,所述智慧渔业系统用于实现所述的蓝点马鲛渔场的集合模型预测方法。
[0069] 结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的蓝点马鲛渔场的集合模型预测方法,将大数据理念应用到渔场预测中,通过多种阈值模型、分
类模型、回归模型、机器学习模型(广义线性模型、提升回归树、广义加性模型、分类树分析、
人工神经网络模型、表面分室模型,柔性判别分析、随机森林、最大熵模型)的中心渔场预报
模型筛选及预测方法,本发明主要适用鱼种为蓝点马鲛,适用区域范围为中国近海蓝点马
鲛的渔场。本发明具备所有的调节参数的功能,能够准确的对蓝点马鲛渔场分布进行预测,
实现R与GIS交互使用,对渔场进行可视化分析,为其他海洋物种的预测提供了新的方法。
[0070] 本发明提供一种适用于蓝点马鲛渔场预测的统计预报算法和流程,研究了阈值模型、分类模型、回归模型、机器学习模型:广义线性模型(GLM)、提升回归树(GBM)、广义加性
模型(GAM)、分类树分析(CTA)、人工神经网络模型(ANN)、表面分室模型(SRE),柔性判别分
析(FDA)、随机森林(RF)、最大熵模型(MAXRNT)对蓝点马鲛的预测效果,筛选出最适合蓝点
马鲛渔场的预测模型并构建集合模型对蓝点马鲛分布进行预报,这些信息将有助于制订保
护政策和促进该区域渔业资源的可持续发展。
[0071] 根据前人的发现,本发明利用蓝点马鲛存在点数据构建模型进行计算栖息地适宜指数(HSI)并预测绘制渔场分布图,并且在海洋环境变量的选择中最大限度的利用现有的
渔业信息数据。本发明将多种阈值模型、分类模型、回归模型、机器学习模型应用于中国近
海的蓝点马鲛鱼种进行渔场预测,进行不同模型的对比和验证得到集合模型,本发明基于
蓝点马鲛存在点的信息船数据、伪缺失点和环境数据,采用九种预测方法筛选后的集合模
型探究蓝点马鲛渔场和环境因子的关系计算HSI,以此来对蓝点马鲛渔场进行预测,推断蓝
点马鲛栖息地特征和绘制蓝点马鲛地理分布地图。集合模型能够降低单一模型而产生的的
过拟合现象并且最小化模型预测的错误(过高的预测和过低的预测),集合模型总结多种模
型预测海洋生物生境的优点,减少偏差解决单一模型预测的不确定性从而提高准确度。对
于模型准确度的评价采用两种指标分别是AUC(Area under receiver operating 
character curve,ROC曲线)和TSS(True skill statistic)。AUC是物种分布模型中最常用
的统计学精度验证指标,常被用来评价二分类模型的准确度,AUC的范围是0到1,其中1代表
模型能够完美预测,AUC值越大越好。TSS也是一种对于评价模型表现的高度有效的指标,将
特异性和敏感性考虑在内,与AUC模式类似,TSS取值范围是‑1到1,1代表模型精度完美,TSS
值越大越好。遥感技术为本发明能够大范围观察监测海洋提供了技术支持,数值模拟技术
在同化卫星、ARGO浮标和船舶获得的所有可用数据之后进行校正,能够提供全面、不易获得
的准确的数据,弥补了遥感数据的技术缺陷。地理信息系统(GIS)能够实现矢量数据与栅格
数据的转换,能够获取海洋信息并实现地图绘制的可视化。GIS,遥感技术,数值模拟和集合
预测模型的结合,能够获得不易观察到的海洋生物信息,绘制海洋生物分布图,进行渔场预
测,有助于指定渔业保护政策,提高捕捞效率、节约能源,促进海洋渔业资源的可持续发展。

附图说明

[0072] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的
附图。
[0073] 图1是本发明实施例提供的蓝点马鲛渔场的集合模型预测方法流程图。
[0074] 图2是本发明实施例提供的蓝点马鲛渔场的集合模型预测方法原理图。
[0075] 图3是本发明实施例提供的预测的蓝点马鲛2015年1月的HSI分布图。

具体实施方式

[0076] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于
限定本发明。
[0077] 针对现有技术存在的问题,本发明提供了一种蓝点马鲛渔场的集合模型预测方法、系统、设备及应用,下面结合附图对本发明作详细的描述。
[0078] 如图1所示,本发明实施例提供的蓝点马鲛渔场的集合模型预测方法包括以下步骤:
[0079] S101,环境因子的选择;
[0080] S102,利用物种存在数据生成伪缺失数据代替物种真实缺失数据;
[0081] S103,环境数据和物种存在、伪缺失数据的匹配;
[0082] S104,构建九种预测模型;
[0083] S105,设置阈值挑选模型构建集合模型;
[0084] S106,预测蓝点马鲛渔场分布。
[0085] 本发明提供的蓝点马鲛渔场的集合模型预测方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的蓝点马鲛渔场的集合模型预测方法仅仅是一个具
体实施例而已。
[0086] 本发明实施例提供的蓝点马鲛渔场的集合模型预测方法原理图如图2所示。
[0087] 下面结合实施例对本发明作进一步描述。
[0088] 本发明本发明实施例提供的蓝点马鲛渔场的集合模型预测方法是基于ArcGIS 10.5及其RStudio 1.3进行的,包括:(1)环境因子的选择;(2)利用物种存在数据生成伪缺
失数据代替物种真实缺失数据;(3)环境数据和物种存在、伪缺失数据的匹配;(4)构建九种
预测模型;(5)设置阈值挑选模型构建集合模型;(6)预测蓝点马鲛渔场分布。
[0089] (1)环境因子的选择:
[0090] 本发明基于文献记载和经验推断选取了叶绿素(Chl‑a),海洋水深(Depth),海表面高度(SSH),海表面盐度(SSS),海洋次表面盐度(SSS‑5),(SST),海洋次表面温度(SST‑
5),海流经向流速(V),海洋次表面经向流速(V‑5),海流纬向流速(U),海洋次表面纬向流速
(U‑5)。十一种环境因子影响蓝点马鲛分布的环境因子,作为预测蓝点马鲛渔场分布的预测
因子。在环境因子的选择上要考虑全面,尤其是鱼类自身的生态习性。
[0091] Chl‑a作为初级生产和食物可用性的指标,而且它与鱼类生物量生产有关。蓝点马鲛主要摄食鱼类,头足类和甲壳类。日本鳀作为蓝点马鲛的主要饵料,所以日本鳀别名“鲅
鱼食”,在黄渤海区,每年春汛期间蓝点马鲛主要摄食体长85‑120mm的日本鳀。日本鳀主要
摄食浮游动植物,Chl‑a往往是饵料的重要指标,与日本鳀分布有关,而日本鳀作为中间营
养级也与高营养级的蓝点马鲛的分布有关。蓝点马鲛作为中上层鱼类,有垂直移动的特征,
所以选择Depth作为一个影响蓝点马鲛分布的环境因子。
[0092] 水温是影响海洋生物种群分布、洄游、索饵、繁殖等过程的重要的环境因素,海水温度的空间分布、垂直分布都对鱼类集群的行为和鱼类密度有重要影响。海洋鱼类在适宜
的水温范围内集群从而形成渔场。海表面温度被广泛认为是影响鱼类分布的重要因子,根
据蓝点马鲛的生活史特征,蓝点马鲛在产卵期会在近岸活动,而中国近海水深较浅,蓝点马
鲛作为中上层鱼类,在水层的分布比较扩散,有垂直移动的特征,不只分布在海洋的表面,
因此选定海表面温度和海洋次表面温度(5m)为作为预测变量。中国近海有众多海流,虽然
成年蓝点马鲛具有自主游泳能力,但是海流往往也影响到蓝点马鲛的分布,所以选择海流
经向流速,海洋次表层经向流速(5m),海流纬向流速,海洋次表层纬向流速(5m)作为影响蓝
点马鲛分布的环境因子。海表面高度往往与海洋的涡旋,海水的上涌、汇聚发散有关系,而
这些海洋特征往往影响到鱼类的聚集分布。鱼类有自己的最适的盐度范围,也会影响到鱼
类的分布。基于日本鳀生活史特征分析和文献记载、经验推断,选出了十一种影响蓝点马鲛
分布的环境因子。
[0093] (2)利用物种存在数据生成伪缺失数据代替物种真实缺失数据:
[0094] 因为大多的物种分布模型需要物种存在数据和真实物种缺失数据作为存在/缺失的响应变量来生成函数来进行建模,但是对于大多数常规的调查和抽样调查都不能完全覆
盖整片海域,尤其是调查高度洄游的蓝点马鲛时候,随着采样面积和距离增加,采样难度在
不断加大,所以实际中往往只记录物种存在数据。本本发明根据蓝点马鲛存在数据,使用
RSEP(Random selection with environmental profiling)技术生成伪缺失点代替物种真
实缺失点。RESP技术主要是利用蓝点马鲛存在数据和环境因子,使用支持向量机技术定义
环境不适宜区域作为背景网格,从环境不适宜区域背景网格中随机取样得到伪缺失点。支
持向量机因为可以处理高纬度数据和预测因子之间复杂的非线性关系而作为实现这一目
标最适合的算法。
[0095] 首先根据数据的完整性(Chl‑a因为云层影响往往有很多缺失值)和基于经验选择,确定SSH,SSS,SST作为定义研究区域和之后生成伪缺失值带地理坐标的背景栅格。蓝点
马鲛渔场作为蓝点马鲛滞留、栖息、索饵、洄游经过的区域,分布密度高,面积占总海域面积
的一部份,实际生产作业中渔场并不是那么容易找的到,存在鱼的区域和没有鱼的区域面
积的比值并不是1:1存在的,基于实际情况和前人研究,本发明设定生成的伪缺失数据与存
在数据的比值是10:1,本发明根据蓝点马鲛的分散能力设定缓冲区为60km,代表渔场与非
渔场的最小距离是60km。
[0096] RESP技术通过支持向量机对要进行伪缺失采样背景的环境范围加以限制,得到只有存在数据的环境网格,然后只保留缺失数据的环境背景网格来生成伪缺失点。支持向量
机基于存在点将提供的环境背景网格排除适合蓝点马鲛存在的区域。
[0097] 本发明基于R语言的mopa包进行生成伪缺失点,具体实施方法如下:
[0098] 第一步,读取渔业数据和环境栅格数据,定义背景网格。渔业数据一般处理为.CSV格式的数据。并且将相同分辨率和范围的栅格读取为栅格堆栈,并且赋予相同坐标系,基本
为WGS84。
[0099] 第二步,利用OCSVMprofiling函数通过支持向量机原理对环境栅格进行分析,分析得到存在数据的环境网格和缺失数据的环境网格。
[0100] 第三步,利用pseudoAbsences函数在排除适合蓝点马鲛存在的环境网格中生成伪缺失点,从而进行下一步构建模型。设置存在数据和伪缺失数据比值1:10,间隔最小距离
60km。
[0101] (3)环境数据和物种存在、伪缺失数据的匹配:
[0102] 本发明使用2009‑2015年蓝点马鲛存在数据和伪缺失数据构成的渔业数据库,数据库包括位置(经纬度),是否存在(0‑1),时间。将环境数据栅格匹配到渔业数据库,矢量数
据向栅格数据转变,将物种存在、不存在与每个特定时间的环境栅格数据进行匹配,以获得
渔业信息数据库。
[0103] 具体实施方法:将栅格图像覆盖在渔业捕捞位置,利用经纬度值提取环境栅格图像的像素点值,即环境因子的值。使用ArcMap10.5工具箱中的“Spatial Analyst Tools”,
“Extraction”,“Extract values to Points”。获得渔业环境数据库从而获得预测模型的
训练数据集,响应变量(存在‑不存在)和环境数据值(Chl‑a,Depth,SSH,SSS,SSS‑5,SST,
SST‑5,V,V‑5,U,U‑5),为之后建模奠定基础,使用“Extract values to Points”可以对栅
格数据进行批量化处理,可以按照不同的时间分辨率进行提取,方便快捷。
[0104] 在这里有多种实现方法:
[0105] R:使用“stringr”,“raster”包,读取经纬度值,读取栅格值。
[0106] Python:使用netCDF4库,读取经纬度值,读取栅格值。
[0107] 不同的方法都能实现相同的效果,都很方便快捷。
[0108] (4)构建九种预测模型:
[0109] 本发明基于物种分布模型框架,使用存在‑伪缺失数据探究量化蓝点马鲛分布与环境变量的关系,计算HSI,其中接近或等于1的值代表高潜在的栖息地区域,接近0的值代
表较差的栖息地区域。本发明使用RStudio 1.3这一理想平台灵活的进行算法选择、参数调
整、模型拟合、性能评估、算法选择以及使用Biomod23.4.6包生成集合模型。以蓝点马鲛存
在‑伪缺失数据为响应变量,Chl‑a,Depth,SSH,SSS,SSS‑5,SST,SST‑5,V,V‑5,U,U‑5作为预
测环境变量,对数据集用70%:30%分割得到训练集和测试集,九种模型:广义线性模型
(GLM)、提升回归树(GBM)、广义加性模型(GAM)、分类树分析(CTA)、人工神经网络模型
(ANN)、表面分室模型(SRE),柔性判别分析(FDA)、随机森林(RF)、最大熵模型(MAXRNT)都重
复运行10次,得到各个环境变量的相对重要性,进行性能评估,具体实施方法如下:
[0110] 第一步,读取渔业环境数据库,定义坐标、响应变量、环境变量,使用BIOMOD_FormatingData函数生成待分析数据。重新排列输入数据,将数据均质化,以确保能被使用,
支持不同的数据类型。渔业环境数据库一般处理为.CSV格式的数据,其中经纬度读取为数
值型向量;环境因子数值读取为矩阵,便于后续分析。
[0111] 第二步,利用BIOMOD_Modeling函数建模,对数据进行70%:30%分割得到训练集和测试集,所有模型重复运行10次。本发明认为蓝点马鲛存在的点和不存在的点对于模型
预测同样重要,所以赋予存在‑伪缺失同样的权重,使用TSS和AUC作为评价指标。单一模型
的具体参数设置和代码来源如下:
[0112] 1.广义线性模型(GLM),主要参数:family=’binomial’(link=’logit’),type=’quadratic’,interaction.level=0.R包:stats 3.6.0.
[0113] 2.提升回归树(GBM),主要参数:distribution=‘bernoulli’,number of trees=2500,shrinkage=0.001,interaction.depth=7,bag fraction=0.5,train fraction
=1,n.cores=1,cv.folds=3.R包:gbm 2.1.8.
[0114] 3.广义加性模型(GAM),主要参数:family=‘binomial’(link=‘logit’),type=‘s_smoother’.R包:mgcv 1.8‑31.
[0115] 4.分类树分析(CTA),主要参数:method=class,cross‑validation folds=5.R包:rpart 4.1‑15.
[0116] 5.人工神经网络模型(ANN),主要参数:maximum iteration=200,NbCV=5,rang=0.1,maxit=200.R包:nnet 7.3‑14.
[0117] 6.表面分室模型(SRE),主要参数:quant=0.025.R包:Biomod2 3.4.6.
[0118] 7.柔性判别分析(FDA),主要参数:regression method=‘mars’.R包:mda 0.5‑2.
[0119] 8.随机森林(RF),主要参数:number of trees=500,node size=5,maximum training iterations=200.R包:randomForest 4.6‑14.
[0120] 9.最大熵模型(MAXRNT):memory_allocated=512,maximumiterations=500,lq2lqptthreshold=80,l2lqthreshold=10,hingethreshold=15,beta_threshold=‑1,
beta_categorical=‑1,beta_lqp=‑1,beta_hinge=‑1,betamultiplier=1,
defaultprevalence=0.5.MaxEnt 3.4.0
[0121] (5)设置阈值挑选模型构建集合模型:
[0122] 本发明使用AUC和TSS来评估九种单一模型的性能,AUC衡量了模型区分物种存在和没有物种存在地点的能力。TSS与模型的流行度无关,因此提供了更可靠的度量。本发明
有九种单一模型,每种模型重复运行10次,所以一共得到90个模型。本发明选择TSS>0.65作
为阈值来从90种模型当中挑选出准确的模型来生成集合模型,筛选出来的模型在集合模型
中的权重与模型自身的TSS成正比。具体实施方法如下:
[0123] 第一步,将TSS>0.65作为阈值在90个模型中进行筛选,得到准确的单一模型。
[0124] 第二步,使用BIOMOD_EnsembleModeling函数按照TSS权重构成集合模型,以便后续的评估和分析。
[0125] 第三步,评价集合模型的TSS和AUC,集合模型的TSS=0.973,AUC=0.999,集合模型非常准确。
[0126] (6)集合模型预测蓝点马鲛渔场分布:
[0127] 评价模型算法性能是一项重要的工作,本发明使用TSS和AUC两种指标来筛选模型,TSS是一种比其他指标更可靠的度量,反映了真实的生态现象,所以本发明使用TSS来生
成集合模型。影响模型性能的因素有很多,本身的数学原理,特定的区域,输入参数的设置
等等。集合模型从不同的模型按照TSS权重聚合输出结果,提高了准确率,最小化了固有模
型自身的限制。没有一种模型在预测真实海洋状况是完美的,单一模型可能会过拟合或者
欠拟合。集合模型能够最小化模型中的错误结果和不确定性,使用集合模型被认为是捕捉
到真实信号的最好的方法。在这里本发明设置一个TSS阈值,将90种模型中TSS大于阈值的
的映射按照TSS权重输入集合映射中,具体实施方法如下:
[0128] 第一步,读取环境数据,定义坐标和环境变量矩阵。
[0129] 第二步,九种模型利用BIOMOD_Projection函数和环境数据进行预测映射。能够预测指定地区,分辨率,时间尺度的分布情况。
[0130] 第三步,使用BIOMOD_EnsembleForecasting函数得到集合模型的预测映射结果。来自BIOMOD_EnsembleModeling集合模型和BIOMOD_Projection的单模型映射来建立蓝点
马鲛在空间和时间上的映射集合预测。
[0131] 第四步,使用get_variables_importance函数和get_evaluations函数分别获得环境因子重要性排序和集合模型的准确度评价指标。
[0132] 预测的蓝点马鲛2015年1月的HSI分布图如图3所示,预测的蓝点马鲛2015年1月的HSI分布图与实际捕捞点重叠。其中,红点表示实际捕鱼的位置,而栅格表示预测的HSI。
[0133] 本发明的方法具备所有的调节参数的功能,能够准确的对蓝点马鲛渔场分布进行预测,实现R与GIS交互使用,对渔场进行可视化分析,为其他海洋物种的预测提供了新的方
法。
[0134] 下面结合实验对本发明的技术效果作详细的描述。
[0135] 本发明利用2009‑2015年蓝点马鲛渔业数据构建渔业数据库,利用2009‑2015的卫星遥感和数值模型数据构建蓝点马鲛所处的环境信息,对数据进行70%:30%分割数据库
得到训练集和测试集,利用30%的测试集对预测的渔场进行验证。使用get_evaluations函
数获得集合模型的准确度评价指标。本发明使用TSS作为衡量标准,其中TSS,Sensitivity,
Specificity分别代表的意思是:
[0136] 表1
[0137]   实际存在 实际不存在预测存在 A B
预测不存在 C D
[0138] A:模型能够准确预测出渔场存在点的数量;
[0139] B:模型预测出渔场存在而实际上不存在的数量;
[0140] C:模型预测渔场不存在而实际上存在的数量;
[0141] D:模型预测渔场不存在而实际上不存在的数量;
[0142] Sensitivity=A/A+C
[0143] Specificity=B/B+D
[0144] TSS=Sensitivity+Specificity‑1
[0145] 使用实际调查数据对预测数据进行验证,TSS和AUC的值越接近1,说明预测越准确,结果如下:
[0146] 表2
[0147] TSS AUC Sensitivity Specificity0.973 0.999 0.988 0.985
[0148] 结果表明:集合模型能够较为准确的预测渔场存在‑缺失的地点,从而能够准确的得到蓝点马鲛的渔场分布图。
[0149] 具体的实施例子表明集合模型能够准确的预测蓝点马鲛的渔场动态,可以根据研究者需要预测不同的时间、空间分辨率,在这里本发明预测的月平均的中国近海蓝点马鲛
渔场分布,可以用作渔情预报,为渔民提供良好的指导,节约经济成本;为指定渔业保护政
策提供依据,更好的对鱼种进行资源评估,实现渔业资源的可持续发现。
[0150] 应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系
统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备
和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁
盘、CD或DVD‑ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电
子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模
集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编
程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软
件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
[0151] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所
作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。