船舶静态数据补充方法和装置、电子设备和可读存储介质转让专利

申请号 : CN202111400612.6

文献号 : CN113836118B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 邢璐韩斌

申请人 : 亿海蓝(北京)数据技术股份公司

摘要 :

本发明提供了一种船舶静态数据补充方法和装置、电子设备和可读存储介质。船舶静态数据补充方法包括:获取样本船舶集合;获取样本特征数据;构建特征有效性判断模型;采用特征有效性判断模型对样本特征数据进行有效性判断;构建静态数据补充模型;获取目标船舶信息;获取目标特征数据;采用特征有效性判断模型对目标特征数据进行有效性判断,并且,对无效数据进行第二有效值替换,得到第二数据;将第二数据输入至静态数据补充模型,对目标船舶静态信息进行静态数据补充,得到完整的目标船舶静态信息。本发明能够提高目标船舶静态信息补充数据的准确性。

权利要求 :

1.一种船舶静态数据补充方法,其特征在于,包括:获取样本船舶集合,所述样本船舶集合包括具有完整的船舶静态信息和船舶历史轨迹数据的船舶集合;

对所述样本船舶集合进行处理,得到样本特征数据;

基于所述样本特征数据,构建特征有效性判断模型;

采用所述特征有效性判断模型对所述样本特征数据进行有效性判断,并且,对无效数据进行第一有效值替换,得到第一数据;

通过所述第一数据,构建静态数据补充模型;

获取目标船舶信息,所述目标船舶信息包括目标船舶静态信息和目标船舶历史轨迹数据;

对所述目标船舶信息进行处理,得到目标特征数据;

采用所述特征有效性判断模型对所述目标特征数据进行有效性判断,并且,对无效数据进行第二有效值替换,得到第二数据;

将所述第二数据输入至所述静态数据补充模型,对所述目标船舶静态信息进行静态数据补充,得到完整的所述目标船舶静态信息;

所述特征有效性判断模型包括:

对所述样本特征数据中每个特征分别建立模型;和/或对所述样本特征数据中多个相关特征建立联合模型;

所述通过所述第一数据,构建静态数据补充模型,具体包括:基于加权分类回归树模型,通过所述第一数据,构建静态数据补充模型。

2.根据权利要求1所述的船舶静态数据补充方法,其特征在于,所述对所述样本船舶集合进行处理,得到样本特征数据,具体包括:采用目标变量编码方法对类别特征进行编码;

对所述船舶历史轨迹数据进行处理,生成轨迹特征。

3.根据权利要求1所述的船舶静态数据补充方法,其特征在于,所述基于所述样本特征数据,构建特征有效性判断模型,具体包括:基于所述样本特征数据,采用半监督的异常检测算法,构建特征有效性判断模型。

4.根据权利要求3所述的船舶静态数据补充方法,其特征在于,所述半监督的异常检测算法,具体包括:

设所述样本特征数据服从高斯分布,采用最小协方差行列式估计器估计所述样本特征数据的均值估计量和协方差估计量,基于所述协方差估计量,获取所述样本特征数据中的特征变量值与所述均值估计量的马氏距离,拟合出所述样本特征数据的椭圆形包络,所述椭圆形包络之内的特征变量值为有效值,所述椭圆形包络外的特征变量值为无效值。

5.根据权利要求1所述的船舶静态数据补充方法,其特征在于,所述加权分类回归树模型为基于分类回归树模型的改进,所述加权分类回归树模型对所述第一数据中不同的特征变量值进行赋权,采用加权均方误差作为损失函数,树生成时,递归按最优特征与最优特征下的最优取值对空间进行划分,直到满足停止条件,得到回归树,所述回归树即为所述静态数据补充模型。

6.一种船舶静态数据补充装置(100),其特征在于,包括:第一获取模块(110),所述第一获取模块(110)获取样本船舶集合,所述样本船舶集合包括具有完整的船舶静态信息和船舶历史轨迹数据的船舶集合;

第一特征生成模块(120),所述第一特征生成模块(120)对所述样本船舶集合进行处理,得到样本特征数据;

第一构建模块(130),所述第一构建模块(130)基于所述样本特征数据,构建特征有效性判断模型;

所述特征有效性判断模型包括:

对所述样本特征数据中的每个特征分别建立模型;和/或对所述样本特征数据中的多个相关特征建立联合模型;

第一预处理模块(140),所述第一预处理模块(140)采用所述特征有效性判断模型对所述样本特征数据进行有效性判断,并且,对无效数据进行有效值替换,得到第一数据;

第二构建模块(150),所述第二构建模块(150)基于加权分类回归树模型,通过所述第一数据,构建静态数据补充模型;

第二获取模块(160),所述第二获取模块(160)获取目标船舶信息,所述目标船舶信息包括目标船舶静态信息和目标船舶历史轨迹数据;

第二特征生成模块(170),所述第二特征生成模块(170)对所述目标船舶信息进行处理,得到目标特征数据;

第二预处理模块(180),所述第二预处理模块(180)采用所述特征有效性判断模型对所述目标特征数据进行有效性判断,并且,对无效数据进行有效值替换,得到第二数据;

预测模块(190),所述预测模块(190)将所述第二数据输入至所述静态数据补充模型,对所述目标船舶静态信息进行静态数据补充,得到完整的所述目标船舶静态信息。

7.一种电子设备(200),其特征在于,包括:存储器(210),存储有程序或指令;

处理器(220),执行所述程序或指令;

其中,所述处理器(220)在执行所述程序或指令时,实现如权利要求1至5中任一项所述的船舶静态数据补充方法的步骤。

8.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时,实现如权利要求1至5中任一项所述的船舶静态数据补充方法的步骤。

说明书 :

船舶静态数据补充方法和装置、电子设备和可读存储介质

技术领域

[0001] 本发明涉及计算机技术领域,具体而言,涉及一种船舶静态数据补充方法和装置、电子设备和可读存储介质。

背景技术

[0002] 相关技术中对船舶静态数据进行补充通常采用的是均值补充,或者学习需补充静态特征与船长之间的单变量回归关系,利用回归函数进行补充。采用均值进行补充,会导致
补充的数据准确率低的情况。单变量回归的方法不能充分利用AIS数据中的其他信息,也会
导致补充准确率过低的情况。

发明内容

[0003] 本发明旨在解决或改善上述技术问题的至少之一。
[0004] 为此,本发明的第一目的在于提供一种船舶静态数据补充方法。
[0005] 本发明的第二目的在于提供一种船舶静态数据补充装置。
[0006] 本发明的第三目的在于提供一种电子设备。
[0007] 本发明的第四目的在于提供一种可读存储介质。
[0008] 为实现本发明的第一目的,本发明的技术方案提供了一种船舶静态数据补充方法,包括:获取样本船舶集合,样本船舶集合包括具有完整的船舶静态信息和船舶历史轨迹
数据的船舶集合;对样本船舶集合进行处理,得到样本特征数据;基于样本特征数据,构建
特征有效性判断模型;采用特征有效性判断模型对样本特征数据进行有效性判断,并且,对
无效数据进行第一有效值替换,得到第一数据;通过第一数据,构建静态数据补充模型;获
取目标船舶信息,目标船舶信息包括目标船舶静态信息和目标船舶历史轨迹数据;对目标
船舶信息进行处理,得到目标特征数据;采用特征有效性判断模型对目标特征数据进行有
效性判断,并且,对无效数据进行第二有效值替换,得到第二数据;将第二数据输入至静态
数据补充模型,对目标船舶静态信息进行静态数据补充,得到完整的目标船舶静态信息。
[0009] 本实施例中,首先构建特征有效性判断模型、静态数据补充模型,通过目标船舶信息,得到目标特征数据,采用特征有效性判断模型对目标特征数据的无效值进行替换后,得
到第二数据,基于第二数据,通过静态数据补充模型对目标船舶静态信息进行静态数据补
充,得到完整的目标船舶静态信息,本实施例提高目标船舶静态信息补充数据的准确性。
[0010] 另外,本发明提供的技术方案还可以具有如下附加技术特征:
[0011] 上述技术方案中,对样本船舶集合进行处理,得到样本特征数据,具体包括:采用目标变量编码方法对类别特征进行编码;对船舶历史轨迹数据进行处理,生成轨迹特征。
[0012] 本实施例中,基于业务背景对所获取的样本船舶集合进行处理,形成适应机器学习模型的特征集,即样本特征数据。
[0013] 上述任一技术方案中,基于样本特征数据,构建特征有效性判断模型,具体包括:基于样本特征数据,采用半监督的异常检测算法,构建特征有效性判断模型。
[0014] 本实施例中,采用半监督的方式,通过异常检测算法构建特征有效性判断模型,通过特征有效性判断模型可以有效地识别特征变量值是否为无效值,提高识别准确率,进而
使补充的船舶静态数据的数据准确率增高。
[0015] 上述任一技术方案中,半监督的异常检测算法,具体包括:设样本特征数据服从高斯分布,采用最小协方差行列式估计器估计样本特征数据的均值估计量和协方差估计量,
基于协方差估计量,获取样本特征数据中的特征变量值与均值估计量的马氏距离,拟合出
样本特征数据的椭圆形包络,椭圆形包络之内的特征变量值为有效值,椭圆形包络外的特
征变量值为无效值。
[0016] 本实施例中,给出了椭圆包络模型的具体计算公式,通过公式可以快速准确对特征变量值进行无效判断,获取无效值,进而使补充的船舶静态数据的数据准确率增高。
[0017] 上述任一技术方案中,特征有效性判断模型包括:对样本特征数据中每个特征分别建立模型;和/或对样本特征数据中多个相关特征建立联合模型。
[0018] 本实施例中,提供了两种建模形式,可以根据具体实际情况,进行选择,通过构建特征有效性判断模型,快速准确对特征变量值进行无效判断,获取无效值,进而使补充的船
舶静态数据的数据准确率增高。
[0019] 上述任一技术方案中,通过第一数据,构建静态数据补充模型,具体包括:基于加权分类回归树模型,通过第一数据,构建静态数据补充模型。
[0020] 本实施例中,加权分类回归树模型的可解释性强并且所需计算代价低,可以很好地解决样本量足够大并且特征个数较少的静态数据补充问题。
[0021] 上述技术方案中,加权分类回归树模型为基于分类回归树模型的改进,加权分类回归树模型对第一数据中不同的特征变量值进行赋权,采用加权均方误差作为损失函数,
树生成时,递归按最优特征与最优特征下的最优取值对空间进行划分,直到满足停止条件,
得到回归树,回归树即为静态数据补充模型。
[0022] 本实施例中,给出了加权分类回归树模型的具体计算公式,通过公式可以快速准确构建静态数据补充模型,通过静态数据补充模型得到准确的需要补充的船舶静态数据。
[0023] 为实现本发明的第二目的,本发明的技术方案提供了一种船舶静态数据补充装置,包括:第一获取模块、第一特征生成模块、第一构建模块、第一预处理模块、第二构建模
块、第二获取模块、第二特征生成模块、第二预处理模块和预测模块,第一获取模块获取样
本船舶集合,样本船舶集合包括具有完整的船舶静态信息和船舶历史轨迹数据的船舶集
合;第一特征生成模块对样本船舶集合进行处理,得到样本特征数据;第一构建模块基于样
本特征数据,构建特征有效性判断模型;第一预处理模块采用特征有效性判断模型对样本
特征数据进行有效性判断,并且,对无效数据进行有效值替换,得到第一数据;第二构建模
块通过第一数据,构建静态数据补充模型;第二获取模块获取目标船舶信息,目标船舶信息
包括目标船舶静态信息和目标船舶历史轨迹数据;第二特征生成模块对目标船舶信息进行
处理,得到目标特征数据;第二预处理模块采用特征有效性判断模型对目标特征数据进行
有效性判断,并且,对无效数据进行有效值替换,得到第二数据;预测模块将第二数据输入
至静态数据补充模型,对目标船舶静态信息进行静态数据补充,得到完整的目标船舶静态
信息。
[0024] 本实施例中,第一构建模块构建特征有效性判断模型,第二构建模块构建静态数据补充模型,通过第二获取模块获取目标船舶信息,得到目标特征数据,第二预处理模块采
用特征有效性判断模型对目标特征数据的无效值进行替换后,得到第二数据,基于第二数
据,预测模块通过静态数据补充模型对目标船舶静态信息进行静态数据补充,得到完整的
目标船舶静态信息,本实施例提高目标船舶静态信息补充数据的准确性。
[0025] 为实现本发明的第三目的,本发明的技术方案提供了一种电子设备,包括:存储器和处理器,存储器存储有程序或指令,处理器执行程序或指令;其中,处理器在执行程序或
指令时,实现如本发明任一技术方案的船舶静态数据补充方法的步骤。
[0026] 本技术方案提供的电子设备实现如本发明任一技术方案的船舶静态数据补充方法的步骤,因而其具有如本发明任一技术方案的船舶静态数据补充方法的全部有益效果,
在此不再赘述。
[0027] 为实现本发明的第四目的,本发明的技术方案提供了一种可读存储介质,可读存储介质存储有程序或指令,程序或指令被执行时,实现上述任一技术方案的船舶静态数据
补充方法的步骤。
[0028] 本技术方案提供的可读存储介质实现如本发明任一技术方案的船舶静态数据补充方法的步骤,因而其具有如本发明任一技术方案的船舶静态数据补充方法的全部有益效
果,在此不再赘述。
[0029] 本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。

附图说明

[0030] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0031] 图1为根据本发明一个实施例的船舶静态数据补充方法流程图之一;
[0032] 图2为根据本发明一个实施例的船舶静态数据补充方法流程图之二;
[0033] 图3为根据本发明一个实施例的船舶静态数据补充方法流程图之三;
[0034] 图4为根据本发明一个实施例的船舶静态数据补充方法流程图之四;
[0035] 图5为根据本发明一个实施例的船舶静态数据补充方法流程图之五;
[0036] 图6为根据本发明一个实施例的船舶静态数据补充方法流程图之六;
[0037] 图7为根据本发明一个实施例的船舶静态数据补充方法流程图之七;
[0038] 图8为根据本发明一个实施例的船舶静态数据补充装置组成示意框图;
[0039] 图9为根据本发明一个实施例的电子设备组成示意框图;
[0040] 图10为根据本发明一个实施例的船舶静态数据补充方法流程图之八;
[0041] 图11为根据本发明一个实施例的货船类型船长船宽有效性判断示意图。
[0042] 其中,图8和图9中附图标记与部件名称之间的对应关系为:
[0043] 100:船舶静态数据补充装置,110:第一获取模块,120:第一特征生成模块,130:第一构建模块,140:第一预处理模块,150:第二构建模块,160:第二获取模块,170:第二特征
生成模块,180:第二预处理模块,190:预测模块,200:电子设备,210:存储器,220:处理器。

具体实施方式

[0044] 为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施
例及实施例中的特征可以相互组合。
[0045] 在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开
的具体实施例的限制。
[0046] 下面参照图1至图11描述本发明一些实施例的船舶静态数据补充方法和装置、电子设备和可读存储介质。
[0047] 船舶自动识别系统(Automatic Identification System,简称AIS系统)由岸基设施和船载设备共同组成,是一种新型的集网络技术、现代通讯技术、计算机技术、电子信息
显示技术为一体的数字助航系统和设备。AIS数据包含船舶静态数据和船舶动态数据,其中
静态数据包含船名、呼号、MMSI(水上移动通信业务标识码,Maritime Mobile Service 
Identify,简称“MMSI”)、IMO(国际海事组织,International Maritime Organization,简
称“IMO”)、船舶类型、船长、船宽、左舷距、船尾舷距、ETA(预计到达时间,Estimated Time 
of Arrival,简称“ETA”)、吃水、目的地等;动态数据包含实时信息上报的UTC(世界标准时
间,Universal Time Coordinated,简称“UTC”)时间、航线状态、旋转角速度、对地速度、对
地航向、船艏向、经度、纬度等。
[0048] AIS系统详实的动静态信息可被用来获取某个港口的船舶数量以及船舶作业时间等进行港口吞吐量估计和港口作业效率评估;也可被用来获取某个船舶的航行轨迹、实时
船位以及实时速度等对船舶进行实时跟踪。但是对于某些同样重要的海运业务,AIS所包含
的数据是不够的。例如计算船舶实际航行过程中的大气污染物排放量所需的关键特征,主
机功率、辅机功率、锅炉功率以及船舶设计最大速度等无法从AIS系统中获得。IHS档案数据
库包含船舶注册信息、船舶所属公司及联系方式、船舶吨位/尺寸/建造信息、以及主机功
率、辅机功率等详细的船舶设备信息,可以提供船舶大气污染物排放量计算所需特征。然
而,IHS档案数据库仅包含总吨在300GT以上的国际航行船舶,并不包括对中国沿海污染物
排放计算非常重要的非档案船舶。
[0049] 相关技术中对船舶静态数据进行补充通常采用的是均值补充,或者学习需补充静态特征与船长之间的单变量回归关系,利用回归函数进行补充。例如,当补充船舶主机功率
时,根据船舶主机功率有效的船舶样本数据集,学习主机功率与船长之间的拟合关系式。利
用待补充船舶的船长,根据拟合关系式得到船舶的主机功率。然而,单变量回归的方法仅利
用船舶的船长信息,没有充分利用AIS数据中的其他信息,补充的准确率往往过低。
[0050] 综上,本实施例的目的在于解决以上问题的至少之一,本实施例充分利用AIS数据中的静态信息和船舶历史轨迹信息,相比通常采用的均值补充方法或者仅利用船长信息的
单变量回归补充方法,大幅提升数据补充的准确性。
[0051] 实施例1:
[0052] 如图1所示,本实施例提供了一种船舶静态数据补充方法,包括以下步骤:
[0053] 步骤S102,获取样本船舶集合,样本船舶集合包括具有完整的船舶静态信息和船舶历史轨迹数据的船舶集合;
[0054] 步骤S104,对样本船舶集合进行处理,得到样本特征数据;
[0055] 步骤S106,基于样本特征数据,构建特征有效性判断模型;
[0056] 步骤S108,采用特征有效性判断模型对样本特征数据进行有效性判断,并且,对无效数据进行第一有效值替换,得到第一数据;
[0057] 步骤S110,通过第一数据,构建静态数据补充模型;
[0058] 步骤S112,获取目标船舶信息,目标船舶信息包括目标船舶静态信息和目标船舶历史轨迹数据;
[0059] 步骤S114,对目标船舶信息进行处理,得到目标特征数据;
[0060] 步骤S116,采用特征有效性判断模型对目标特征数据进行有效性判断,并且,对无效数据进行第二有效值替换,得到第二数据;
[0061] 步骤S118,将第二数据输入至静态数据补充模型,对目标船舶静态信息进行静态数据补充,得到完整的目标船舶静态信息。
[0062] 本实施例中,对于样本船舶集合的每一个样本船舶,通过IHS船舶档案获取其所有静态信息,通过AIS(船舶自动识别系统,Automatic Identification System,简称AIS系
统)数据获取船舶历史轨迹数据,船舶历史轨迹数据可以为2021年1月1日以来的船舶历史
轨迹数据。静态信息可以包括船舶MMSI(水上移动通信业务标识码,Maritime Mobile 
Service Identify,简称“MMSI”)、船名、船籍、船舶建造年份、船舶类型、船舶长度、船舶宽
度、船舶主机功率以及船舶吃水(此处的静态信息需要是完整的,包括需要进行补充数据参
数)。船舶历史轨迹数据中的每个轨迹点的信息可以包括船舶MMSI、时间戳、经度、纬度、船
舶对地速度、船舶对地航向、船艏向及船舶旋转角速度。
[0063] 本实施例中,基于业务背景对所获取的样本船舶集合进行处理,形成适应机器学习模型的特征集,即样本特征数据。
[0064] 本实施例中,采用特征有效性判断模型对样本特征数据进行有效性判断,并且,对无效数据进行第一有效值替换,有效值替换,可以是采用基于船舶类型的类别中位数替换
无效值。举例而言,可以采用货船的船长中位数替换无效的货船船长。通过采用基于船舶类
型的类别中位数替换无效值,可以使替换后得到的第一数据更加符合要求。
[0065] 本实施例通过构建特征有效性判断模型,可以有效的识别特征变量值是否为无效值,提高识别准确率,进而使补充的船舶静态数据的数据准确率增高。
[0066] 本实施例可以快速准确构建静态数据补充模型,通过静态数据补充模型得到准确的需要补充的船舶静态数据。
[0067] 本实施例中,获取目标船舶信息的具体方式为:对于目标船舶,通过AIS数据获取其所有静态信息以及船舶历史轨迹数据。其中目标船舶静态信息可以包括船舶MMSI、船名、
船籍、船舶建造年份、船舶类型、船舶长度、船舶宽度、船舶主机功率以及船舶吃水等(此时
目标船舶静态信息缺少需要进行补充的数据参数)。船舶历史轨迹中的每个轨迹点的信息
可以包括船舶MMSI、时间戳、经度、纬度、船舶对地速度、船舶对地航向、船艏向及船舶旋转
角速度。
[0068] 本实施例中,获取目标特征数据时,样本特征数据与目标特征数据的特征生成的逻辑一致。
[0069] 本实施例中,采用特征有效性判断模型对目标特征数据进行有效性判断,并且,对无效数据进行第二有效值替换,得到第二数据。第一有效值替换和第二有效值替换的替换
逻辑一致,第一有效值替换或第二有效值替换都可以采用基于船舶类型的类别中位数替换
无效值。
[0070] 本实施例中,首先构建特征有效性判断模型、静态数据补充模型,通过目标船舶信息,得到目标特征数据,采用特征有效性判断模型对目标特征数据的无效值进行替换后,得
到第二数据,基于第二数据,通过静态数据补充模型对目标船舶静态信息进行静态数据补
充,得到完整的目标船舶静态信息,本实施例提高目标船舶静态信息补充数据的准确性。
[0071] 本实施例充分利用AIS数据中的静态信息和船舶历史轨迹信息,相比通常采用的均值补充方法或者仅利用单一信息的单变量回归补充方法,大幅提升数据补充的准确性。
[0072] 实施例2:
[0073] 如图2所示,本实施例提供了一种船舶静态数据补充方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
[0074] 对样本船舶集合进行处理,得到样本特征数据,具体包括以下步骤:
[0075] 步骤S202,采用目标变量编码方法对类别特征进行编码;
[0076] 步骤S204,对船舶历史轨迹数据进行处理,生成轨迹特征。
[0077] 本实施例中,基于业务背景对所获取的样本船舶集合进行处理,形成适应机器学习模型的特征集,即样本特征数据。
[0078] 本实施例可以通过特征工程实现,特征工程包括采用目标变量编码方法对类别特征进行编码以及对船舶历史轨迹数据进行处理,生成轨迹特征。轨迹特征可以包括船舶历
史最大对地速度、船舶近一周内最大对地速度、船舶最大旋转角速度、船舶近一周内最大旋
转角速度、船舶对地速度变化率的最大值、船舶旋转角速度变化率的最大值,船舶对地航向
变化率的最大值。
[0079] 实施例3:
[0080] 如图3所示,本实施例提供了一种船舶静态数据补充方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
[0081] 基于样本特征数据,构建特征有效性判断模型,具体包括以下步骤:
[0082] 步骤S302,基于样本特征数据,采用半监督的异常检测算法,构建特征有效性判断模型。
[0083] 本实施例中,采用半监督的方式,通过异常检测算法构建特征有效性判断模型,通过特征有效性判断模型可以有效地识别特征变量值是否为无效值,提高识别准确率,进而
使补充的船舶静态数据的数据准确率增高。
[0084] 实施例4:
[0085] 如图4所示,本实施例提供了一种船舶静态数据补充方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
[0086] 半监督的异常检测算法,具体包括以下步骤:
[0087] 步骤S402,设样本特征数据服从高斯分布,采用最小协方差行列式估计器估计样本特征数据的均值估计量和协方差估计量,基于协方差估计量,获取样本特征数据中的特
征变量值与均值估计量的马氏距离,拟合出样本特征数据的椭圆形包络,椭圆形包络之内
的特征变量值为有效值,椭圆形包络外的特征变量值为无效值。
[0088] 本实施例中,半监督异常检测算法可以选择椭圆包络模型(EllipticEnvelope)。EllipticEnvelope模型中,假设特征数据服从高斯分布,采用最小协方差行列式估计器
(The Minimum Covariance Determinant estimator,MCD)估计样本特征数据的均值估计
量和协方差估计量,进而根据特征变量值与均值估计量的马氏距离(Mahalanobis 
Distance)判断样本特征数据的有效性。从几何意义来看,EllipticEnvelope模型为样本数
据拟合出椭圆形包络,椭圆之内的特征变量值为有效值,椭圆外的特征变量值为无效值。
[0089] 进一步地,最小协方差行列式估计器(MCD)计算的均值估计量和协方差估计量,具有更好的鲁棒性,避免了由于离群值造成的估计量偏移。均值估计量的公式为:
[0090]
[0091] 其中, 表示均值估计量,表示样本特征数据子集的样本量,表示样本特征数据中每个样本的下标, 表示样本量为 的样本特征数据子集,且在所有样本量为h的样
本特征数据子集中,该样本特征数据子集的协方差矩阵的行列式最小, 表示样本特征数
据中的第 个样本。
[0092] 协方差估计量的公式为:
[0093]
[0094] 其中, 表示协方差估计量, 为比例常数,保证协方差估计量的一致性和无偏性,表示样本特征数据中的样本个数,表示特征个数。一般情况下:
[0095]
[0096]
[0097] 其中, 表示 的概率, 表示自由度为 的卡方分布, 表示自由度为 的卡方分布的 分位数, 表示小样本情形下的纠偏系数。
[0098] 特征变量值与均值估计量之间的马氏距离为:
[0099]
[0100] 其中, 表示马氏距离。
[0101] 本实施例中,给出了椭圆包络模型的具体计算公式,通过公式可以快速准确对特征变量值进行无效判断,获取无效值,进而使补充的船舶静态数据的数据准确率增高。
[0102] 实施例5:
[0103] 如图5和图6所示,本实施例提供了一种船舶静态数据补充方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
[0104] 特征有效性判断模型包括以下步骤:
[0105] 步骤S502,对样本特征数据中每个特征分别建立模型;和/或
[0106] 步骤S504,对样本特征数据中多个相关特征建立联合模型。
[0107] 本实施例中,特征有效性判断模型可以是对样本特征数据的每个特征分别建立模型,也可以是对多个相关特征建立联合模型。举例而言,建立船舶历史最大对地速度的有效
性判断模型,即是根据样本船舶的历史最大对地速度拟合出一个椭圆,在单个特征的情况
下,椭圆退化为线段,则处于线段内部的速度为有效速度,反之,速度无效;建立船舶长度和
船舶宽度的联合有效性判断模型,货船类型船长船宽有效性判断如图11所示,既是根据样
本船舶的船舶长度和船舶宽度数据拟合出一个椭圆,则椭圆内部的船长和船宽为有效值,
椭圆外部的船长船宽无效,图中横坐标为船长,纵坐标为船宽,·表示船长和船宽无效值,
×表示船长和船宽有效值。
[0108] 本实施例中,提供了两种建模形式,可以根据具体实际情况,进行选择,通过构建特征有效性判断模型,快速准确对特征变量值进行无效判断,获取无效值,进而使补充的船
舶静态数据的数据准确率增高。
[0109] 实施例6:
[0110] 如图7所示,本实施例提供了一种船舶静态数据补充方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
[0111] 通过第一数据,构建静态数据补充模型,具体包括以下步骤:
[0112] 步骤S602,基于加权分类回归树模型,通过第一数据,构建静态数据补充模型。
[0113] 本实施例中,加权分类回归树模型是基于分类回归树模型(Classification And Regression Tree, CART)的改进。加权分类回归树模型的可解释性强并且所需计算代价
低,可以很好地解决样本量足够大并且特征个数较少的静态数据补充问题。
[0114] 实施例7:
[0115] 本实施例提供了一种船舶静态数据补充方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
[0116] 加权分类回归树模型为基于分类回归树模型的改进,加权分类回归树模型对第一数据中不同的特征变量值进行赋权,采用加权均方误差作为损失函数,树生成时,递归按最
优特征与最优特征下的最优取值对空间进行划分,直到满足停止条件,得到回归树,回归树
即为静态数据补充模型。
[0117] 本实施例中,加权分类回归树模型可以根据实际业务规律,灵活地给不同的特征进行赋权,其采用加权均方误差作为损失函数,树生成时,递归按最优特征与最优特征下的
最优取值对空间进行划分,直到满足停止条件为止,算法描述如下:
[0118] 输入:训练数据集,即第一数据, ,其中,表示训练数据集, 表示训练数据集中的第n个样本, 表示训练数据集中第n个样本对应的标签值,
表示训练数据集中样本的个数。
[0119] 输出:回归树 ,回归树即为静态数据补充模型。
[0120] (1)求解选择切分的特征 与切分特征的取值 ,依照 切分后,训练数据集 被划分为两个部分,分别为第一数据集 和第二数据集 ,定义为:
[0121]
[0122]
[0123] 其中, 表示第一数据集, 表示第二数据集, 表示训练数据集中第个样本, 表示第 个样本的第个特征的取值。
[0124] 第一数据集 和第二数据集 的构成的结点预测值分别为:
[0125]
[0126]
[0127] 其中, 表示由第一数据集构成的结点的预测值, 表示由第二数据集构成的结点的预测值, 表示第一数据集中的样本个数, 表示第二数据集中的样本个数, 表示训
练数据集中第i个样本对应的标签值。
[0128] (2)遍历所有可能的 ,找到最优的 使得其对应的损失函数值最小,即:
[0129]
[0130] 其中, 表示 的最优取值, 表示一个函数,求解使目标函数取最小值时的变量值, 表示特征 对应的权重。
[0131] (3)对于第一数据集 和第二数据集 ,递归地调用(2)至(3),直到满足停止条件。
[0132] (4)返回决策树 。
[0133] 本实施例中,给出了加权分类回归树模型的具体计算公式,通过公式可以快速准确构建静态数据补充模型,通过静态数据补充模型得到准确的需要补充的船舶静态数据。
[0134] 实施例8:
[0135] 如图8所示,本实施例提供了一种船舶静态数据补充装置100,包括:第一获取模块110、第一特征生成模块120、第一构建模块130、第一预处理模块140、第二构建模块150、第
二获取模块160、第二特征生成模块170、第二预处理模块180和预测模块190。第一获取模块
110获取样本船舶集合,样本船舶集合包括具有完整的船舶静态信息和船舶历史轨迹数据
的船舶集合。第一特征生成模块120对样本船舶集合进行处理,得到样本特征数据。第一构
建模块130基于样本特征数据,构建特征有效性判断模型。第一预处理模块140采用特征有
效性判断模型对样本特征数据进行有效性判断,并且,对无效数据进行有效值替换,得到第
一数据。第二构建模块150通过第一数据,构建静态数据补充模型。第二获取模块160获取目
标船舶信息,目标船舶信息包括目标船舶静态信息和目标船舶历史轨迹数据。第二特征生
成模块170对目标船舶信息进行处理,得到目标特征数据。第二预处理模块180采用特征有
效性判断模型对目标特征数据进行有效性判断,并且,对无效数据进行有效值替换,得到第
二数据。预测模块190将第二数据输入至静态数据补充模型,对目标船舶静态信息进行静态
数据补充,得到完整的目标船舶静态信息。
[0136] 举例而言,本实施例中第一获取模块110用于获取样本船舶集合。样本船舶集合,指的是船舶静态特征和历史轨迹都完整的船舶集合。对于样本船舶集合的每一个样本船
舶,通过IHS档案获取其所有静态信息,通过AIS数据获取其某天(可以为2021年1月1日)以
来的船舶历史轨迹数据。
[0137] 第一特征生成模块120用于基于业务背景对所获取的样本集进行处理形成适应机器学习模型的特征集。特征工程包括采用目标变量编码方法对类别特征进行编码以及对船
舶历史轨迹进行处理,生成轨迹特征。
[0138] 第一构建模块130用于基于预处理后的样本特征数据通过半监督异常检测算法构建特征有效性判断模型。有效性判断模型可以是对样本的每个特征分别建立模型,也可以
是对多个相关特征建立联合模型。
[0139] 第一预处理模块140用于基于特征有效性判断模型对样本特征进行有效性判断,并对无效数据进行有效值替换。
[0140] 第二构建模块150用于基于加权分类回归树模型构建静态数据补充模型。加权分类回归树模型,是基于分类回归树模型(Classification And Regression Tree, CART)的
改进,可以根据实际业务规律,灵活地给不同的特征进行赋权。
[0141] 第二获取模块160用于获取目标船舶信息。对于目标船舶,通过AIS数据获取其所有静态信息以及某天(可以为2021年1月1日)以来的船舶历史轨迹数据。
[0142] 第二特征生成模块170用于基于业务背景对所获取的目标船舶信息进行处理形成适应机器学习模型的特征集。特征生成包括采用目标变量编码方法对类别特征进行编码以
及对船舶历史轨迹进行处理,生成轨迹特征。其中,特征生成的逻辑与特征工程模块的一致。
[0143] 第二预处理模块180用于基于特征有效性判断模型对目标船舶的特征集进行有效性判断,并对无效数据进行有效值替换。有效值替换,与样本特征预处理模块的替换逻辑一致。
[0144] 预测模块190用于将处理后的数据送入静态数据补充模型进行静态数据补充,得到完整的静态数据。
[0145] 本实施例中,第一构建模块130构建特征有效性判断模型,第二构建模块150构建静态数据补充模型,通过第二获取模块160获取目标船舶信息,得到目标特征数据,第二预
处理模块180采用特征有效性判断模型对目标特征数据的无效值进行替换后,得到第二数
据,基于第二数据,预测模块190通过静态数据补充模型对目标船舶静态信息进行静态数据
补充,得到完整的目标船舶静态信息,本实施例提高目标船舶静态信息补充数据的准确性。
[0146] 实施例9:
[0147] 如图9所示,本实施例提供了一种电子设备200,包括:存储器210和处理器220,存储器210存储有程序或指令,处理器220执行程序或指令;其中,处理器220在执行程序或指
令时,实现如本发明任一实施例的船舶静态数据补充方法的步骤。
[0148] 实施例10:
[0149] 本实施例提供了一种可读存储介质,可读存储介质存储有程序或指令,程序或指令被处理器执行时,实现上述任一实施例的船舶静态数据补充方法的步骤。
[0150] 实施例11:
[0151] 针对相关技术中船舶静态数据补充准确率过低的问题,本实施例提供一种船舶静态数据补充方法,基于机器学习算法,实现了对船舶缺失的静态数据的补充。实施例通过获
取目标船舶信息,将目标船舶信息输入至静态数据补充模型,输出待补充的船舶静态特征。
船舶静态数据补充模型以样本船舶信息为样本,以与样本船舶信息对应的样本船舶的待补
充静态特征为样本标签训练得到。本实施例的船舶静态数据补充方法,通过利用经过训练
后的静态数据补充模型根据目标船舶信息预测出目标船舶静态特征,充分利用船舶的静态
信息和历史轨迹信息,大幅提升数据补充的准确性。
[0152] 如图10所示,一种船舶静态数据补充方法,用于补充船舶主机功率,包括以下步骤:
[0153] 步骤S702,获取样本船舶集合;
[0154] 步骤S704,对样本船舶集合的信息进行预处理,形成适应模型输入的训练数据集;
[0155] 步骤S706,基于预处理后的样本特征数据通过半监督异常检测算法,构建特征有效性判断模型;
[0156] 步骤S708,基于决策树构建船舶主机功率补充模型;
[0157] 步骤S710,利用交叉验证的方法对补充模型进行验证,调整模型中的超参数并进行特征选择;
[0158] 步骤S712,获取目标船舶信息;
[0159] 步骤S714,对所获取目标船舶信息进行预处理形成适应模型输入的数据;
[0160] 步骤S716,利用特征有效性判断模型对预处理后的目标船舶特征进行有效性判断;
[0161] 步骤S718,将处理后的数据以及特征有效性指标送入验证准确的补充模型进行主机功率数据补充。
[0162] 应用本实施例的船舶静态数据补充方法,可以准确地补充船舶主机功率。
[0163] 实施例12:
[0164] 本发明实施例提供一种船舶静态数据补充装置100,用于补充船舶主机功率,包括:
[0165] 第一获取模块110(即样本集获取模块),用于获取样本船舶集合。样本船舶集合,指的是船舶静态特征和历史轨迹都完整的船舶集合。对于样本船舶集合的每一个样本船
舶,通过IHS档案获取其所有静态信息,通过AIS数据获取其2021年1月1日以来的船舶历史
轨迹数据。其中静态信息可以包括船舶MMSI、船名、船籍、船舶建造年份、船舶类型、船舶长
度、船舶宽度以及船舶吃水,必须包括船舶主机功率。船舶历史轨迹中的每个轨迹点的信息
可以包括船舶MMSI、时间戳、经度、纬度、船舶对地速度、船舶对地航向、船艏向及船舶旋转
角速度。
[0166] 第一特征生成模块120(即特征工程模块),用于基于业务背景对所获取的样本集进行处理形成适应机器学习模型的特征集。特征工程包括采用目标变量编码方法对类别特
征进行编码以及对船舶历史轨迹进行处理,生成轨迹特征。轨迹特征可以包括船舶历史最
大对地速度、船舶近一周内最大对地速度、船舶最大旋转角速度、船舶近一周内最大旋转角
速度、船舶对地速度变化率的最大值、船舶旋转角速度变化率的最大值,船舶对地航向变化
率的最大值。
[0167] 第一构建模块130(即特征有效性判断模型构建模块),用于基于预处理后的样本特征数据通过半监督异常检测算法构建特征有效性判断模型。
[0168] 半监督异常检测算法可以选择椭圆包络模型(EllipticEnvelope)。EllipticEnvelope模型。
[0169] 第一预处理模块140(即样本特征预处理模块),用于基于特征有效性判断模型对样本特征进行有效性判断,并对无效数据进行有效值替换。有效值替换,可以是采用基于船
舶类型的类别中位数替换无效值。例如,采用货船的船长中位数替换无效的货船船长。
[0170] 第二构建模块150(即补充模型构建模块)用于基于加权分类回归树模型构建主机功率补充模型。
[0171] 第二获取模块160(即获取模块),用于获取目标船舶信息。对于目标船舶,通过AIS数据获取其所有静态信息以及2021年1月1日以来的船舶历史轨迹数据。其中静态信息可以
包括船舶MMSI、船名、船籍、船舶建造年份、船舶类型、船舶长度、船舶宽度以及船舶吃水。船
舶历史轨迹中的每个轨迹点的信息可以包括船舶MMSI、时间戳、经度、纬度、船舶对地速度、
船舶对地航向、船艏向及船舶旋转角速度。
[0172] 第二特征生成模块170(即特征生成模块),用于基于业务背景对所获取的目标船舶信息进行处理形成适应机器学习模型的特征集。特征生成包括采用目标变量编码方法对
类别特征进行编码以及对船舶历史轨迹进行处理,生成轨迹特征。轨迹特征可以包括船舶
历史最大对地速度、船舶近一周内最大对地速度、船舶最大旋转角速度、船舶近一周内最大
旋转角速度、船舶最大对地速度变化率、船舶最大旋转角速度变化率,船舶最大对地航向变
化率。其中,特征生成的逻辑与特征生成模块的一致。
[0173] 第二预处理模块180(即特征预处理模块),用于基于特征有效性判断模型对目标船舶的特征集进行有效性判断,并对无效数据进行有效值替换。有效值替换,与样本特征预
处理模块的替换逻辑一致。
[0174] 预测模块190,用于将通过预处理模块处理后的数据送入主机功率补充模型进行数据补充,得到目标船舶的主机功率。
[0175] 在本发明中,术语“第一”、“第二”、“第三”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、
“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可
拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本
领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0176] 本发明的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描
述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,
因此,不能理解为对本发明的限制。
[0177] 在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实
施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实
例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以
合适的方式结合。
[0178] 以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、
等同替换、改进等,均应包含在本发明的保护范围之内。