用于无人机遥感图像的实时铁路场景解析方法转让专利

申请号 : CN202110518589.4

文献号 : CN113160219B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王志鹏童磊贾利民秦勇耿毅轩

申请人 : 北京交通大学

摘要 :

本发明提供了一种用于无人机遥感图像的实时铁路场景解析方法,包括:实时获取无人机遥感图像,并对图像进行数据采集和处理得到数据集;构建铁路场景解析网络模型,根据得到数据集对铁路场景解析网络模型进行训练和验证,得到最佳线损失比例系数;根据所述的最佳线损失比例系数,采用不同计算机对模型进行测试,得到解析结果,并对解析结果进行综合评价。本方法实现了基于计算资源有限的无人机机载计算机,可以进行实时快速高效的铁路场景解析,以进行铁路场景中轨道区域的高精度分割。

权利要求 :

1.一种用于无人机遥感图像的实时铁路场景解析方法,其特征在于,包括:实时获取无人机遥感图像,并对所述图像进行数据采集和处理得到数据集;

构建铁路场景解析网络模型,根据得到的数据集对所述铁路场景解析网络模型进行训练和验证,得到最佳线损失比例系数;

所述构建铁路场景解析网络模型的整体架构如下表1所示:

表1

所述根据得到数据集对所述铁路场景解析网络模型进行训练和验证,包括:当所述数据集只有轨道区域和非轨道区域两个语义类别时,只采用线损失函数对铁路场景解析网络模型进行训练和验证;当还包含有其他语义类别时,则采用集成损失函数对铁路场景解析网络模型进行训练和验证;

所述的集成损失函数为下式(1)所示:

L=(1‑α)LCE+αLLL    (1)

其中,LCE表示交叉熵损失函数,LLL表示线损失函数,α表示比例系数,通过对α进行选择获得所述最佳线损失比例系数;所述的线损失函数如下式(2)所示:其中,图像中对应于轨道区域和非轨道区域的像素点集合分别Pr和Pn,其中|Pr|=N,|Pn|=M,对于像素点pi∈Pr和pj∈Pn的隶属于轨道区域的隶属度分别为1/λi和1/λj,fi和fj分别为像素点pi和pj被预测为轨道区域类别的概率;

当根据得到数据集对所述铁路场景解析网络模型进行训练和验证,铁路场景的无人机遥感图像中轨道区域必需为长条状;

根据所述的最佳线损失比例系数,采用不同计算机对所述模型进行测试,得到解析结果,并对解析结果进行综合评价。

2.根据权利要求1所述的方法,其特征在于,所述对所述图像进行数据采集和处理得到数据集,包括将获取到的图像进行筛选,把筛选出来的图像利用lableme软件进行数据标注后按一定比例分为训练集、验证集和测试集。

3.根据权利要求1所述的方法,其特征在于,所述的隶属度根据下式(3)计算:λ=d/d0    (3)

其中,当图像中只存在单个轨道区域,像素点p到轨道中心线l的距离是d,轨道区域边缘上的点到中心线l的距离为d0;

当图像中存在两个及以上的条状轨道区域,像素点p到中心线lβ的距离为d,第β个轨道区域边缘上的点到中心线lβ的距离是d0。

4.根据权利要求1所述的方法,其特征在于,所述的对解析结果进行综合评价,包括:采用测试集得到的解析结果与对应的标签真值进行计算,得出预测精度评价,同时对所述铁路场景解析网络模型的推理速度进行评价。

5.根据权利要求4所述的方法,其特征在于,所述的预测精度评价根据下式(3)‑(4)计算:其中,TP表示某一语义类别c的像素点中,预测为该类别的像素点个数;TN表示类别c的像素点中,预测为不是该类别的像素点个数;FP表示类别c的像素点中,预测为该类别,但事实上不是该类别的像素点个数;FN表示类别c的像素点中,预测为不是该类别,但事实上是该类别的像素点个数;IoU则表示类别c的交并比精度;公式(4)中,mIoU表示所有语义类别精度的均交并比,C表示语义类别的个数。

说明书 :

用于无人机遥感图像的实时铁路场景解析方法

技术领域

[0001] 本发明涉及轨道交通运营安全与保障领域,尤其涉及一种用于无人机遥感图像的实时铁路场景解析方法。

背景技术

[0002] 近来,无人机被广泛用于在许多领域中的场景解析任务中。作为人工巡检和轨检车巡检以外的重要辅助巡检方式,基于无人机的自动化巡检是高速铁路安全运营领域的重要发展趋势。无人机自动化巡检具有灵活、高效和低成本等多种优势,并且对列车的正常运行没有任何影响,可以为铁路运营提供先进的安全保障。无人机不仅可以搭载可见光相机等载荷设备,同时可以搭载体积和质量满足一定规格要求的小型的机载计算机(onboard computer),以对来自载荷设备的视频流等数据进行分析处理,同时也可以根据需求实时地对无人机进行更加灵活的和定制化的飞行控制。因此,基于无人机的铁路自动化巡检具有很广泛的应用前景,给铁路巡检带来了革命性的进步。
[0003] 深度学习近年来得到了极大的发展,其成果被广泛地应用于人脸识别、工业缺陷检测、智能机器人等诸多领域。在铁路自动化智能化巡检领域中,构建深度学习模型对与铁路巡检过程中关心的区域或对象进行有效的检测也成为重要的研究课题。然而要实现铁路自动化巡检,对铁路场景进行有效的解析则成为首当其冲的任务。基于深度学习技术构建的实时卷积神经网络模型则是能运行在无人机机载计算机上进行实时铁路场景分析的极具潜力的深度模型。
[0004] 因此,亟需一种采用深度学习方法的用于无人机遥感图像的实时铁路场景解析方法

发明内容

[0005] 本发明提供了一种用于无人机遥感图像的实时铁路场景解析方法,以解决现有技术问题中存在的缺陷。
[0006] 为了实现上述目的,本发明采取了如下技术方案。
[0007] 本发明实施例提供了一种用于无人机遥感图像的实时铁路场景解析方法,包括:
[0008] 实时获取无人机遥感图像,并对所述图像进行数据采集和处理得到数据集;
[0009] 构建铁路场景解析网络模型,根据得到数据集对所述铁路场景解析网络模型进行训练和验证,得到最佳线损失比例系数;
[0010] 根据所述的最佳线损失比例系数,采用不同计算机对所述模型进行测试,得到解析结果,并对解析结果进行综合评价。
[0011] 优选地,对图像进行数据采集和处理得到数据集,包括将获取到的图像进行筛选,把筛选出来的图像利用lableme软件进行数据标注后按一定比例分为训练集、验证集和测试集。
[0012] 优选地,根据得到数据集对所述铁路场景解析网络模型进行训练和验证,包括:当所述数据集只有轨道区域和非轨道区域两个语义类别时,只采用线损失函数对铁路场景解析网络模型进行训练和验证;当还包含有其他语义类别时,则采用集成损失函数对铁路场景解析网络模型进行训练和验证。
[0013] 优选地,集成损失函数为下式(1)所示:
[0014] L=(1‑α)LCE+αLLL  (1)
[0015] 其中,LCE表示交叉熵损失函数,LLL表示线损失函数,α表示比例系数。
[0016] 优选地,当根据得到数据集对所述铁路场景解析网络模型进行训练和验证,铁路场景的无人机遥感图像中轨道区域必需为长条状。
[0017] 优选地,构建铁路场景解析网络模型的整体架构如下表1所示:
[0018] 表1
[0019]
[0020] 优选地,线损失函数如下式(2)所示:
[0021]
[0022] 其中,图像中对应于轨道区域和非轨道区域的像素点集合分别Pr和Pn,其中|Pr|=N,|Pn|=M,对于像素点pi∈Pr和pj∈Pn的隶属于轨道区域的隶属度分别为1/λi和1/λj,fi和fj分别为像素点pi和pj被预测为轨道区域类别的概率。
[0023] 优选地,隶属度根据下式(3)计算:
[0024] λ=d/d0  (3)
[0025] 其中,当图像中只存在单个轨道区域,像素点p到轨道中心线l的距离是d,轨道区域边缘上的点到中心线l的距离为d0;
[0026] 当图像中存在两个及以上的条状轨道区域,像素点p到中心线lβ的距离为d,第β个轨道区域边缘上的点到中心线lβ的距离是d0。
[0027] 优选地,对解析结果进行综合评价,包括:采用测试集得到的解析结果与对应的标签真值进行计算,得出预测精度评价,同时对所述铁路场景解析网络模型的推理速度进行评价。
[0028] 优选地,预测精度评价根据下式(3)‑(4)计算:
[0029]
[0030]
[0031] 其中,TP表示某一语义类别c的像素点中,预测为该类别的像素点个数;TN表示类别c的像素点中,预测为不是该类别的像素点个数;FP表示类别c的像素点中,预测为该类别,但事实上不是该类别的像素点个数;FN表示类别c的像素点中,预测为不是该类别,但事实上是该类别的像素点个数;IoU则表示类别c的交并比精度;公式(4)中,mIoU表示所有语义类别精度的均交并比,C表示语义类别的个数。
[0032] 由上述本发明的用于无人机遥感图像的实时铁路场景解析方法提供的技术方案可以看出,本发明方法通过设计了一种深度完全解耦残差卷积网络,以在无人机机载计算机计算能力范围内,实现铁路场景的实时高效解析,以最大可能支撑基于无人机的铁路自动化巡检工作;通过设计一种定制化的辅助损失函数,在网络模型训练过程中,使用该辅助损失函数对网络进行训练,可以在不增加计算复杂度的情况下,同时约束轨道区域和非轨道区域的分割,使得预测的轨道区域精确地集中在长条形区域中,并阻止它们出现在其他不可能的局部区域,实现了基于计算资源有限的无人机机载计算机,可以进行实时快速高效的铁路场景解析,以进行铁路场景中轨道区域的高精度分割。
[0033] 本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

[0034] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035] 图1是本发明实施例的用于无人机遥感图像的实时铁路场景解析方法流程示意图;
[0036] 图2为完全解耦卷积和标准卷积滤波器比较示意图;
[0037] 图3是本实施例提出的完全解耦残差模块与现有技术的残差模块比较示意图;
[0038] 图4是传统像素坐标系与归一化坐标系比较示意图;
[0039] 图5是单轨道区域与双轨道区域及其中心线示意图;
[0040] 图6是提出的FDRNet和ERFNet不同类别预测精度随线损失函数比例α的变化情况示意图;
[0041] 图7是经过集成损失策略训练的FDRNet视觉效果图。

具体实施方式

[0042] 下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0043] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作和/或它们的组。应该理解,这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
[0044] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0045] 为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
[0046] 实施例
[0047] 图1是本发明实施例的用于无人机遥感图像的实时铁路场景解析方法流程示意图,参照图1,该方法包括:
[0048] S1实时获取无人机遥感图像,并对所述图像进行数据采集和处理得到数据集。
[0049] 在天气状况良好条件下,利用无人机在铁路沿线上空飞行并进行铁路场景遥感图像的获取,通过对获取到的图像进行筛选,剔除其中的不适用的图像。把筛选出来的图像利用lableme软件进行数据的标注,将图像中感兴趣的语义类别进行人工标注。示意性地在本实施例中,可以分为轨道、植物、裸地、道路、建筑物、背景5个类别。将制作好的数据集按一定比例分为训练集、验证集和测试集,其中训练集用来训练网络,验证集用来在训练过程中对网络性能进行验证,测试集用来对训练后的网络模型进行测试,以验证所构建模型的性能,示意性地,训练集、验证集和测试集的比例为7:2:1。
[0050] S2构建铁路场景解析网络模型,根据得到数据集对所述铁路场景解析网络模型进行训练和验证,得到最佳线损失比例系数。
[0051] 首先构建轻量化的铁路场景解析网络模型FDRNet(Fully Decoupled Residual ConvNet,FDRNet),以使得该模型能够在机载计算机上能够保持一定的速度运行。
[0052] 构建铁路场景解析网络模型:
[0053] 本实施例构建的铁路场景解析网络模型是完全解耦残差卷积网络模型,通过深度完全解耦卷积和深度完全解耦残差块的处理来具体构建铁路场景解析网络模型。
[0054] (1)深度完全解耦卷积
[0055] 完全解耦卷积的基本思路是进一步地对标准卷积进行相关性解耦,这意味着参数和计算量的极大减少,即在保持卷积的基本映射相关不变的基础上,可以大大减少参数量,从而避免在计算和资源占用上花费过多的时间。本实施例所提出的完全解耦卷积包括相关性解耦的两个方面:(1)跨通道相关性和空间相关性的解耦;(2)横向和纵向空间相关性的解耦。
[0056] 首先提出以下假设:卷积网络中的两种耦合相关模式可以完全解耦,即(1)特征图中的跨通道相关性和空间相关性可以完全解耦;(2)此外,特征图中的两种空间相关性(水平空间相关性和垂直空间相关性)也可以完全解耦。图2为完全解耦卷积和标准卷积滤波器比较示意图,如图2所示,该图比较了完全解耦卷积和标准卷积的滤波器组。完全解耦卷积将标准卷积分解为三个连续步骤:横向1D深度卷积,纵向1D深度卷积和跨通道1x1卷积。其中,前两种不同空间维度的深度卷积中的M个卷积核分别对应于输入特征图的M个通道。最终的1x1卷积是尺寸为1x1的普通标准卷积的特例。它主要完成卷积过程中跨通道相关性映射关系的建立,并且可以将输入特征图的通道数从M转换为N。
[0057] 用 表示非线性激活函数, 分别表示完全解耦卷积过程横向1D深度卷p积和纵向1D深度卷积的滤波器的第m层附加的偏置量,bi表示完全解耦卷积过程中跨通道
1x1卷积的第i个滤波器附加的偏置量; 分别为表示完全解耦卷积过程中横向1D深度卷积和纵向1D深度卷积的卷积核中的第m层权重参数所代表的向量, 表示完全解耦卷积过程中跨通道1x1卷积第i个滤波器的第m层权重参数所代表的向量; 表示输入特征图的第m层所代表的向量。完全解耦卷积过程输出特征图的第i个通道 可以表示为如下的输入
0
特征图a的函数,如公式(1)所示,其中*表示卷积操作:
[0058]
[0059] 由于卷积核 表示仅具有一个标量参数的1x1卷积,可以得到如下公式(2):
[0060]
[0061] (2)深度完全解耦残差块
[0062] 本实施例再通过进一步充分利用完全解耦卷积的这一分解形式,提出了完全解耦残差模块。图3是本实施例提出的完全解耦残差模块与现有技术的残差模块比较示意图,在进行这项工作之前,ResNet中提出了原始的剩余模块(瓶颈和非瓶颈版本),如3‑(a)和3‑(b)所示。考虑到非瓶颈设计版本可能会获得带来更高的精度,并且也注意到瓶颈设计还会带来其他的降级问题,ERFNet通过一维分解对非瓶颈残差模块进行了修改,以加快模型运行速度并同时减少原始非瓶颈残差模块的参数,称为非non‑bottleneck‑1D,如图3‑(c)所示。在这里,进一步对非瓶颈1D残差模块进行修改,采用提出的相关性完全解卷积,以进一步减少参数数量和时间成本,如图3‑(d)所示。本实施例提出的完全解耦残差模块,称为non‑bottleneck‑FD,由两个完全解耦的卷积和恒等映射连接组成。将非瓶颈1D中的1D卷积更改为两个仅考虑空间相关性的1D深度卷积,并附加了额外的1x1卷积(也称为逐点卷积)以实现特征图的最终跨通道相关性。同时也应注意到,ReLu非线性激活函数也被添加到了每个卷积过程之后。
[0063] (3)深度完全解耦残差网络
[0064] 本实施例构建铁路场景解析网络模型的架构如下表1所示,为一个紧凑但有效的网络架构,虽然采用non‑bottleneck‑FD模块可以使得网络参数大大降低,但是这也不可避免地导致网络性能下降。因此可以考虑扩大网络规模以弥补这种损失。网络规模的扩展从两个方向进行,一个是加深网络,另一个是拓宽网络。同时对这两个方向进行设计和实验,经验性的结果表明,扩展网络是更适合当前深度学习框架PyTorch的更优化的方向。同时分析表明,卷积中间环节数的增加会减慢网络速度,可能是由于PyTorch对网络深度比宽度更敏感。可以注意到,相比与传统标准卷积,本发明提出的完全解耦卷积的中间环节数有了增加(不计算其他额外的批次归一化和后续的非线性激活层),这本身将加深网络并导致前向推理时间的增加。通过表1,可以看出,编码器由1‑14层组成,解码器由15‑19层组成。受ERFNet的启发,本发明设计了更宽的卷积网络架构,在第1、2和8层中采用了一样的下采样模块,分别执行降采样。在这些下采样模块中,将最大池化结果和跨度为2的单个3x3卷积结果拼合起来作为下采样的最终结果,以捕获更多丰富的特征。网络采用了一些空洞率为2、4、8的空洞卷积,以获得更多的上下文信息和全局信息。本发明没有采用空洞率为16为的卷积层,放弃其可能带来的在上下文特征上的极小的增益,同时避免继续增加的网络深度。另外,采用的Dropout的比率为0.05,而在ERFNet中的比率为0.03。Dropout作为产生更好的特征表示的正则化措施也被包含在我们的架构中。对于上采样步骤,采用三个连续的转置卷积上采样模块,分别为层15、17和19,以将特征图的分辨率扩大到输入图像的原始大小。
[0065] 表1
[0066]
[0067] 需要说明的是,当根据得到数据集对所述铁路场景解析网络模型进行训练和验证,铁路场景的无人机遥感图像中轨道区域必需为长条状。
[0068] 当所述数据集只有轨道区域和非轨道区域两个语义类别时,只采用线损失函数对铁路场景解析网络模型进行训练和验证;当还包含有其他语义类别时,则采用集成损失函数对铁路场景解析网络模型进行训练和验证。
[0069] (1)线损失函数(LL,Line Loss function)
[0070] 铁路区域是基于无人机的铁路自动化巡检的主要关注领域。该区域的准确预测在诸如扣件检测,轨道检测和轨道板检测等未来的检测工作中起着重要作用。本实施例提出了一种新的线损失函数,以提高铁路场景解析任务中铁路类别的准确性。线损失函数着眼于长距离且相对较直的高速铁路的出色特性。通常对于高速公路而言,线路设计人员总是故意使其弯曲以防止驾驶员的视觉疲劳。与高速公路上人们故意设计的转弯概念不同,高速铁路的直线越长越好。因此,在直线度方面,铁路远远超过高速公路。而同时又可以注意到,在由无人机遥感影像覆盖的铁路局部区域中,轨道区域在大部分情况下是很直的。
[0071] 传统的交叉熵(cross entropy,CE)损失函数对整个图像的每个离散的像素点进行分类问题来解决此任务,而忽略了像素之间的固有关系。需要注意的是,无人机遥感图像中的轨道区域始终是一个长条状区域。因此,像素越靠近条状铁路区域的中心线,就越有可能成为铁路的一部分;像素离中心线越远,则它属于铁路区域的可能性就越小。为了充分利用这一思想,本实施例提出线损失函数。提出的线损失函数可以在很大程度上纠正传统损失函数所固有的铁路区域像素分类错误问题。
[0072] 1)归一化坐标系
[0073] 图4是传统像素坐标系与归一化坐标系比较示意图,传统意义上,基于图像中的像素点建立图像坐标系,以其中的一个像素点为一个单位长度,如4(a)所示。在这种坐标系下,当图像需要进行缩放的时候,放缩前后的图像中对应位置的两个点的距离不能满足距离保持不变这一良好特性。因此,为了解决这一问题,本实施例建立了一个归一化坐标系,如4(b)所示。该坐标系以整张图像的长和宽作为单位长度。对于一个分辨率为w0×h0的图像来说,如果传统坐标系下某点的坐标为(w,h),那么在归一化坐标系下的坐标则为(w/w0,h/h0)。可以在此归一化坐标系下计算两个像素点p1 and p2之间的距离d(p1,p2),其中d表示欧几里得距离。显然,归一化坐标系具有以下特性:(1)两个像素之间的距离对于图像的缩放变换是不变的;(2)归一化坐标系中两个像素之间的距离最大为
[0074] 2)基本假设
[0075] 假设一:如果在无人机采集的铁路场景图像中存在轨道区域,那么该区域的两条边界线互相平行。
[0076] 假设二:如果在无人机采集的铁路场景图像中存在两个轨道区域,那么这两个轨道区域也互相平行。
[0077] 线损失函数如下式(2)所示:
[0078]
[0079] 其中,图像中对应于轨道区域和非轨道区域的像素点集合分别Pr和Pn,其中|Pr|=N,|Pn|=M,对于像素点pi∈Pr和pj∈Pn的隶属于轨道区域的隶属度(Degree of Membership,DoM)分别为1/λi和1/λj,fi和fj分别为像素点pi和pj被预测为轨道区域类别的概率。借助CNN网络最后一层的特征图(也称为类探针),可以使用softmax函数来计算对每个像素进行分类的概率。
[0080] 隶属度根据下式(3)计算:
[0081] λ=d/d0  (3)
[0082] 图5是单轨道区域与双轨道区域及其中心线示意图,其中,当图像中只存在单个轨道区域,如图5(a)所示,像素点p到轨道中心线l的距离是d,轨道区域边缘上的点到中心线l的距离为d0;
[0083] 当图像中存在两个及以上的条状轨道区域,如5(b)所示,像素点p到中心线lβ的距离为d,第β个轨道区域边缘上的点到中心线lβ的距离是d0。
[0084] 非轨道区域像素点的隶属度均小于1,轨道区域像素点的隶属度均大于1。
[0085] 因为LL函数只能进行二分类任务,因此单独使用LL函数对网络进行训练,训练出来的网络只能区分出轨道区域和非轨道区域。因此,要使得网络能进行多分类,可以考虑结合使用交叉熵损失函数对网络进行训练。这样,利用CE损失函数对网络进行训练实现多分类任务的同时,可以同时使用辅助线损失函数LL对轨道区域进行更加严格的约束,以实现更加准确的轨道区域分割。集成损失函数如下式(4)所示:
[0086] L=(1‑α)LCE+αLLL  (4)
[0087] 其中,LCE表示交叉熵损失函数,LLL表示线损失函数,α表示比例系数。
[0088] 上式(4)表明,如果要想使得线损失函数降低,fi必须越来越大,fj则必须越来越小。当且仅当fi=1,fj=0时,线损失函数取到理想的最小值0。值得指出的是线损失函数只适用于轨道区域和非轨道区域的二分类任务。因此,只采用线损失函数训练的网络只能用来区分轨道区域和非轨道区域。为实现多分类,本实施例采用集合线损失函数和交叉熵损失函数的方式来训练该模型。
[0089] S3根据所述的最佳线损失比例系数,采用不同计算机对所述模型进行测试,得到解析结果,并对解析结果进行综合评价。
[0090] 利用步骤S1的训练集和验证集,采用线损失函数对铁路场景解析网络模型FDRNet进行充分有效的训练,训练完成后,选择线损失函数最佳比例系数α下的网络模型用来测试。将测试集中的图片输入到训练后的模型中,对所有图片逐一进行预测,对解析结果进行综合评价,包括:采用测试集得到的解析结果与对应的标签真值进行计算,得出预测精度评价,同时对所述铁路场景解析网络模型的推理速度进行评价。
[0091] 预测精度评价根据下式(5)‑(6)计算:
[0092]
[0093]
[0094] 其中,TP(true positive)表示某一语义类别c的像素点中,预测为该类别的像素点个数;TN(true negative)表示类别c的像素点中,预测为不是该类别的像素点个数;FP表示类别c的像素点中,预测为该类别,但事实上不是该类别的像素点个数;FN(false positive)表示类别c的像素点中,预测为不是该类别,但事实上是该类别的像素点个数;IoU则表示类别c的交并比精度;公式(4)中,mIoU表示所有语义类别精度的均交并比,C表示语义类别的个数。
[0095] 以下为采用本实施例方法的仿真事例,选择了京沪高铁廊坊段某三个位置A,B和C采集铁路场景图片,数据采集的当天天气情况较好光线充足。基于该数据,构建了一个基于无人机的铁路场景解析数据集,利用该数据集对构建的实时铁路场景解析网络模型进行了训练,最终在无人机机载计算机上完成了评价测试。
[0096] 步骤一:实时获取无人机遥感图像,并对所述图像进行数据采集和处理得到数据集。
[0097] 该数据集具有五个语义类别(即背景,轨道,建筑物,植被和道路),数据集中的每张图像进行了像素级的注释。数据集中采集的所有无人机遥感图像都是从京沪高铁廊坊段某三个位置A,B和C收集。为了演示不同模型的性能,使用了来自区域A和B的3000张图像来构造训练数据(2700)和验证数据(300),而使用来自区域C的300张图像进行测试。此处,区域C与区域A和B完全不同,以避免训练数据和测试数据之间的图像可能存在高度相似性。利用训练集上对提出的模型进行训练。
[0098] 步骤二:构建铁路场景解析网络模型,根据得到数据集对所述铁路场景解析网络模型进行训练和验证,得到最佳线损失比例系数。
[0099] 利用集成损失函数和步骤一中构建的数据集,对所构建的轻量化的铁路场景解析网络模型进行充分的训练。
[0100] 在本仿真示例中,训练模型采用的批大小为2(batch size=2),采用Adam优化器‑4 ‑4进行参数的优化,采用的动量参数大小为0.9,权重衰减为2e 和初始学习速率5e 。在本仿真示例中,对所有网络进行了100轮(epoch=100)训练。在代码实现中设置了一致的随机种子,以便可以使用固定的图片序列对所有网络进行训练,以确保工作的可重复性。同时在利用集成损失函数中线损失比例系数α在对网络进行训练过程中采用了以0.1为间隔从0到
0.9区间变化,从中选出最佳结果。
[0101] (1)线损失函数最佳比例
[0102] 根据实验,发现提出的线损失函数在约束网络以精确预测铁路区域方面比交叉损失函数要强得多。但是线损失函数只能对每个像素进行二分类。因此,利用线损失函数来约束网络的训练过程,同时采用CE损失函数来进行多类分类。因此,就如何同时限制在铁路区域和非铁路区域的训练过程而言,如何适当地组合CE和线损失函数功能是一个关键问题。关于此问题,与传统的训练过程相比,执行了一种完全不同的训练策略,该方法在每个训练步骤中都执行具有集成损失的反向传播。对于此策略,选择了以0.1为间隔从0到0.9变化的线损失函数的不同比例α。
[0103] 如图6所示,是提出的FDRNet不同类别预测精度随线损失函数比例α的变化情况示意图,即不同类别预测准确度IoU值以及mIoU值随α变化的趋势。就轨道区域预测准确度和总体的mIoU而言,提出的FDRNet,当采用适当的α时,线损失函数可以同时提高其准确度。而且还可以发现当α=0.7时,精度达到了最大值。
[0104] 此外,如表2所示,还描述了FDRNet在线损失函数比率从0到0.9变化的所有类别中的精度性能趋势,并说明了最大精度增量和α=0.7时的增量。可以肯定地得出结论,线损失函数不仅可以提高轨道区域的预测效果,而且可以提高非轨道区域的预测效果。容易理解的是,当轨道区域的预测精度降低时,意味着将更多的非轨道像素预测为轨道(FP情况)或将更多的轨道像素预测为非轨道(FN情况),最终导致非轨道区域的预测精度下降。表2显示了不同类别的像素点的精度增长。可以看出,轨道类别由于其相对较强的线性特性,其最大的准确度增量为7.58%,而道路类别的最大准确度增量为6.66%。通常,mIoU的准确度提高了3.36%。
[0105] 表3中列出了更多有关原始FDRNet和采用α=0.7进行集成损失策略训练的FDRNet的准确性之间的定量比较细节。可以看出,所有类别的精度都上升到更高的水平。背景,建筑物,植被,轨道,道路的精度分别从54.98%增加到57.04%,46.20%增加到47.34%,58.98%增加到61.12%,70.72%增加到78.30%和44.77%增加到48.67%。最终,mIoU从
55.13%增加到58.49%。特别的,轨道类别获得最大的增量。
[0106] 表2
[0107]
[0108] 表3
[0109]
[0110] 综上,本实施例所提出的线损失函数的优点如下:(1)集成损失策略可以大大提高铁路区域和非铁路区域的精度,最终提高整体精度。(2)根据LL函数的确切定义,使用线损失函数训练的模型可以使图像中预测的轨道区域集中在长条形区域,同时抑制其他不可能位置上轨道区域的出现。(3)线损失函数对铁路区域分割具有更强的解释性。
[0111] 步骤三:根据最佳线损失比例系数,采用不同计算机对模型进行测试,得到解析结果,并对解析结果进行综合评价。
[0112] 为了证明本方法的推理速度上的优势,分别在单个NVIDIA Jetson TX2嵌入式设备和单个NVIDIA GEFORCE RTX 2060卡上以不同的分辨率进行了对比实验。表4和5显示了本方法单个嵌入式设备TX2上推理速度对比和单个GEFORCE RTX 2060上推理速度对比,其中ms为推理一张图片需要的毫秒数,fps为每秒可以推理的图片数
[0113] 可以看出,借助TX2设备,FDRNet在512x256的分辨率下达到了12.8的峰值。对于RTX 2060GPU卡,可以注意到,FDRNet在512x256的分辨率下实现了90.9的峰值fps。
[0114] 表4
[0115]
[0116] 表5:
[0117]
[0118] 如表4所示,给出了FDRNet在不同训练策略下的结果,同时和其他模型精度进行了对比,其中“R.IoU”表示铁路轨道区域类别的精度,“mIoU”为所有类别精度综合评价,“scratch”表示模型为从头开始训练,没有采用预训练模型。“with LL”表示采用集成损失函数训练网络,“pretrained,with LL”表示采用预训练模型,并且采用集成损失函数训练模型。
[0119] 表6为FDRNet与其他模型综合性能对比,从下表6中可以看出,FDRNet在训练阶段没有使用线损失函数且从头开始进行训练无法获得令人满意的准确性,其轨道类别预测精度为70.72%,综合预测精度mIoU为55.13%,该精度效果并不是很好。
[0120] 但是,一旦采用集成损失回传策略,提出的方法将迅速改进并优于其他所有算法,其mIoU达到58.49%。值得注意的是,轨道类别准确度增加了7.58%。此外,通过在Cityscapes上采用预训练模型,本实施例的方法最终可以达到80.99%和58.82%的最优R.IoU和mIoU。
[0121] 表6
[0122]
[0123] 图7是经过集成损失策略训练的FDRNet与ERFNet视觉对比效果图,如图7所示,显示了FDRNet(c)生成的轨道区域预测的几个示例,FDRNet经过集成损失回传策略的训练,可以在局部细节和边缘上产生更精确的分割结果。大部分预测出来的轨道区域被约束在预期的两个长条状区域,这正是提出的定制化线损失(LL)函数的目的。当处理低亮度图片时,如图7的第5和第6行所示。这表明所提出的体系结构更适合于不同的光照条件,提出的方法同样能够精准的对轨道区域进行有效解析,这表明提出的模型在不同的工作环境中具有更高的鲁棒性,可以更好的服务于基于无人机的铁路自动化巡检。
[0124] 综上所述,可见本发明的方法能够实现快速高效的基于无人机的铁路场景解析。提出的网络架构能够用于无人机机载计算机进行实时运行,而且根据轨道区域相对平直、经常集中在长条状区域内的特性,大大提高了轨道区域分割提取的准确度,在基于无人机的铁路自动化巡检条件下,具有明显的应用价值。
[0125] 本领域技术人员应能理解上述的应用类型仅为举例,其他现有的或今后可能出现的应用类型如可适用于本发明实施例,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
[0126] 本领域技术人员应能理解,上述所举的根据用户信息决定调用策略仅为更好地说明本发明实施例的技术方案,而非对本发明实施例作出的限定。任何根据用户属性来决定调用策略的方法,均包含在本发明实施例的范围内。
[0127] 通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0128] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。