一种基于PSENet区域分割的列车车厢号定位方法转让专利

申请号 : CN202310937343.X

文献号 : CN116935394B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 喻春雨范沐阳陈刚

申请人 : 南京邮电大学

摘要 :

本发明公开了一种基于PSENet区域分割的列车车厢号定位方法,通过结合注意力机制SE模块从卷积通道特征角度对网络权重参数进行再分配,提高残差网络对车厢号特征的提取性能,采用特征金字塔和自底向上路径增强模块,传递浅层网络强定位信息到富含强语义信息的深层网络中,融合来自两种网络的特征得到多尺度特征图后采用渐进尺度扩展算法对车厢号区域进行分割,本发明可以使货运列车车厢号定位有较高精确率与召回率,有利于后续车厢号识别工作的进行。

权利要求 :

1.一种基于PSENet区域分割的列车车厢号定位方法,其特征在于,所述列车车厢号定位方法包括以下步骤:S1,利用位于铁路两侧的视频监控设备对包含车厢号的货车列车的视频图像进行采集,对采集的车厢图像做预处理,对车厢图像中的车厢号区域做标签后,生成车厢样本图像,并构建样本数据集;

S2,构建列车车厢号定位模型,所述列车车厢号定位模型包括残差网络模块、特征金字塔FPN模块、自底向上路径增强模块和渐进尺度扩展模块;

具体地,所述残差网络模块对导入的车厢图像进行多尺度特征提取,将提取的不同尺度特征图输出至特征金字塔FPN模块,由特征金字塔FPN模块将不同尺度特征图从深层网络通过上采样的方式与浅层网络进行初次融合,得到不同尺度的初次融合特征图;

所述自底向上路径增强模块将特征金字塔FPN模块输出的初次融合特征图从浅层网络通过下采样的方式与深层网络融合得到不同尺度的二次融合特征图,再将不同尺度的二次融合特征图合并成单张特征图;

所述渐进尺度扩展模块利用广度优先搜索算法从文本核分割图的最小尺度到最大尺度进行文本区域的尺度扩展,获得最终的文本检测结果;

S3,采用样本数据集对列车车厢号定位模型进行训练,利用训练完成的列车车厢号定位模型对待处理的车厢图像进行车厢号定位,输出定位得到的货车列车车厢号。

2.根据权利要求1所述的基于PSENet区域分割的列车车厢号定位方法,其特征在于,步骤S1中,对采集的车厢图像做预处理的过程包括以下步骤:从采集的货车列车的视频中提取出全部单帧图像,从中筛选出所有包括车厢号的车厢图像,对筛选出的车厢图像随机进行翻转、裁剪和旋转处理,将处理后的车厢图像尺寸进行标准化,再对标准化后的图像中的车厢号区域打标签。

3.根据权利要求1所述的基于PSENet区域分割的列车车厢号定位方法,其特征在于,步骤S2中,所述残差网络模块的主体结构采用ResNet50网络,包括依次连接的五个卷积层,除第一层卷积层之外,其他四层卷积层之后均连接有引入通道注意力机制的SE模块;并且第一层卷积层的卷积核大小为3×3;四个SE模块分别输出不同尺度特征图{f2,f3,f4,f5}。

4.根据权利要求3所述的基于PSENet区域分割的列车车厢号定位方法,其特征在于,所述SE模块包括两个分支,其中一个分支包括相互连接的压缩单元和激发单元,用来学习每个通道的权重,另一个分支完整保留原特征图信息,再将学习到的每个通道的权重作用于原特征图中;

所述压缩单元使用自适应平均池化将大小为H×W×C特征图f压缩成1×1×C,特征图的空间信息被压缩在通道域中:其中,zc表示被压缩的特征图空间信息,Fsq表示Squeeze操作,fc(c,h,l)表示特征图在空间(h,1)处的值,H和L分别表示特征图在行和列方向上的维度大小;

所述激发单元由两个全连接层组成,用于获取通道相关的依赖关系:

s=Fex(zc)=σ[D2δ(D1zc)]

其中,Fex表示Excitation操作,D1,D2分别为降维和升维的全连接层,δ表示ReLU函数,σ表示sigmoid函数。

5.根据权利要求1所述的基于PSENet区域分割的列车车厢号定位方法,其特征在于,步骤S2中,所述特征金字塔FPN模块将残差网络模块提出的不同尺度特征图{f2,f3,f4,f5}从深层网络通过上采样与浅层网络进行初次融合生成不同尺度特征图{F2,F3,F4,F5};

所述自底向上路径增强模块将传播路径从最低阶特征图F2开始通过下采样的方式逐层向最高阶特征图F5传播,生成新的融合特征图序列{P2,P3,P4,P5},再将融合特征图序列{P2,P3,P4,P5}拼接成单张特征图P输入渐进尺度扩展模块去扩展分割目标文本区域;其中P2是F2的直接映射,其他特征图Pi是每一层通过横向连接先获取高分辨率特征图Pi‑1和低分辨率特征图Fi后,将高分辨率特征图Pi‑1下采样与低分辨率特征图Fi映射相加生成的,i=3,4,5。

6.根据权利要求1所述的基于PSENet区域分割的列车车厢号定位方法,其特征在于,所述自底向上路径增强模块的C3单元是由多个CBS单元组合得到的跨区域特征融合模块;

所述C3单元包括两个支路,其中一个支路包括一个具有1×1卷积核的CBS单元,另一个支路用于融合车厢图像的局部信息和全局信息,包括三个依次连接的CBS单元,这三个依次连接的CBS单元的卷积核分别是1×1、3×3和3×3;

每个CBS单元均包括依次连接的Conv层、Bn层和SiLU激活函数层。

7.根据权利要求1所述的基于PSENet区域分割的列车车厢号定位方法,其特征在于,所述渐进尺度扩展模块接收路径增强模块输出的单张特征图,对其进行采样,将目标车厢号文本分割处理成多尺度的文本核(S1,S2,S3,...,Sn),再将从小尺寸文本核逐渐向大尺寸文本核扩展合并,获得最终的文本检测结果。

8.根据权利要求1所述的基于PSENet区域分割的列车车厢号定位方法,其特征在于,所述列车车厢号定位模型的损失函数为:L=λLf+(1‑λ)Lk

其中,Lf表示完整文本实例Sn的损失,用于区分文本核非文本区域;Lk表示文本核实例S1至Sn‑1的损失,用于查找文本区域的精细边框;λ为平衡系数;

采用Dice系数计算得到Lf和Lk:

Lf=1‑D(Sn·M,Gn·M)

式中,M表示OHEM给出的训练掩码,W表示0/1掩码, D(Sj,Gj)代表

Dice系数值,大小在[0,1]之间,值越大表明样本间越相似,

Sj,x,y和Gj,x,y分别表示预测结果Sj和真实结果Gj在(x,y)处的像素值。

说明书 :

一种基于PSENet区域分割的列车车厢号定位方法

技术领域

[0001] 本发明属于人工智能技术领域,具体涉及一种基于PSENet区域分割的列车车厢号定位方法。

背景技术

[0002] 货运列车车厢号检测是铁路运输管理系统信息化、智能化建设中的一项重要内容,主要功能是实现车次、车号自动识别,为铁路运输管理系统提供车次、车号等实时的基础信息。目前铁路运输站大多使用的基于射频识别(Radio Frequency Identification,RFID)技术的列车车号识别及定位监测系统方案,该方案检测识别准确率高,可以全天候24小时工作,不受光照和天气等客观条件影响,但是随着列车提速和系统使用年限的增加,车厢底部安装的射频标签会损坏或脱落,这会导致该方法的准确率急剧下降。
[0003] 近年,基于数字图像处理的列车车号检测定位方法凭借部署容易、使用成本低、精度高和效率高等优点脱颖而出,吸引了很多研究人员针对该方法容易遇到的问题展开了深入研究。有使用数学形态学方法和投影法相结合,将高速列车车号图像分割成多个连通区域,根据车号区域面积的变化范围,确定精确车号位置;也有使用数学形态学方法和连通体分析技术,利用列车车号字符间特定的几何比例关系定位车号区域;还有使用Faster R‑CNN神经网络,通过调整特征提取网络来增强特征图的细节特征,采用聚类算法求车号区域长宽比以改进锚定框的尺寸设计,使得目标文本检测框与实际车号区域更加贴合;此外,还有使用连接文本预选区域网络(Connection Text Proposal Network,CTPN),通过融合两个尺度特征图以增强特征信息,采用增加了水平回归层的区域建议网络,并设计了困难样本挖掘策略和边界敏感的文本框回归策略来获得字符级车号的精确定位。
[0004] 上述定位方法的前两种是基于传统数字图像处理,此类方法受光照和图像清晰度影响较大,而且货运列车常年运行,车号字符污染变形都是常见情况,容易造成车号字符与背景灰度值接近而难以分割、字符部分缺失不易识别等问题;后两种是基于深度学习中锚定框回归的文本检测,根据货运列车车厢号特征,对现有检测定位方法进行改进,着重针对静止列车车厢的小尺寸和水平文本目标,但在货运列车实际运营场景中效果不佳,非水平目标的漏检率较高,易受到非车号文本信息干扰。在日常监控视频中出现的车厢号图像并不能保证非常理想的视角和光照,因此在光照过强或过暗、车号污染缺损和因为视角造成的车号倾斜畸变的情况下成功完成车厢号检测任务是急需研究的问题。

发明内容

[0005] 解决的技术问题:本发明提供了一种基于PSENet区域分割的列车车厢号定位方法,针对货运列车车厢号特征和运营场景,通过结合注意力机制SE模块(Squeeze‑and‑Excitation Module,SEM)从卷积通道特征角度对网络权重参数进行再分配,提高残差网络(Residual Network,ResNet)对车厢号特征的提取性能,采用特征金字塔(Feature Pyramid Networks,FPN)和自底向上路径增强(Bottom‑Up Path Augmentation,BUPA)模块,传递浅层网络强定位信息到富含强语义信息的深层网络中,融合来自两种网络的特征得到多尺度特征图后采用渐进尺度扩展算法对车厢号区域进行分割,本发明可以使货运列车车厢号定位有较高精确率与召回率,有利于后续车厢号识别工作的进行。
[0006] 技术方案:
[0007] 一种基于PSENet区域分割的列车车厢号定位方法,所述列车车厢号定位方法包括以下步骤:
[0008] S1,利用位于铁路两侧的视频监控设备对包含车厢号的货车列车的视频图像进行采集,对采集的车厢图像做预处理,对车厢图像中的车厢号区域做标签后,生成车厢样本图像,并构建样本数据集;
[0009] S2,构建列车车厢号定位模型,所述列车车厢号定位模型包括残差网络模块、特征金字塔FPN模块、自底向上路径增强模块和渐进尺度扩展模块;
[0010] 具体地,所述残差网络模块对导入的车厢图像进行多尺度特征提取,将提取的不同尺度特征图输出至特征金字塔FPN模块,由特征金字塔FPN模块将不同尺度特征图从深层网络通过上采样的方式与浅层网络进行初次融合,得到不同尺度的初次融合特征图;
[0011] 所述自底向上路径增强模块将特征金字塔FPN模块输出的初次融合特征图从浅层网络通过下采样的方式与深层网络融合得到不同尺度的二次融合特征图,再将不同尺度的二次融合特征图合并成单张特征图;
[0012] 所述渐进尺度扩展模块利用广度优先搜索算法从文本核分割图的最小尺度到最大尺度进行文本区域的尺度扩展,获得最终的文本检测结果;
[0013] S3,采用样本数据集对列车车厢号定位模型进行训练,利用训练完成的列车车厢号定位模型对待处理的车厢图像进行车厢号定位,输出定位得到的货车列车车厢号。
[0014] 进一步地,步骤S1中,对采集的车厢图像做预处理的过程包括以下步骤:
[0015] 从采集的货车列车的视频中提取出全部单帧图像,从中筛选出所有包括车厢号的车厢图像,对筛选出的车厢图像随机进行翻转、裁剪和旋转处理,将处理后的车厢图像尺寸进行标准化,再对标准化后的图像中的车厢号区域打标签。
[0016] 进一步地,步骤S2中,所述残差网络模块的主体结构采用ResNet50网络,包括依次连接的五个卷积层,除第一层卷积层之外,其他四层卷积层之后均连接有引入通道注意力机制的SE模块;并且第一层卷积层的卷积核大小为3×3;四个SE模块分别输出不同尺度特征图{f2,f3,f4,f5}。
[0017] 进一步地,所述SE模块包括两个分支,其中一个分支包括相互连接的压缩单元和激发单元,用来学习每个通道的权重,另一个分支完整保留原特征图信息,再将学习到的每个通道的权重作用于原特征图中;
[0018] 所述压缩单元使用自适应平均池化将大小为H×W×C特征图f的压缩成1×1×C,特征图的空间信息被压缩在通道域中:
[0019]
[0020] 其中,zc表示被压缩的特征图空间信息,Fsq表示Squeeze操作,fc(c,h,l)表示特征图在空间(h,l)处的值,H和L分别表示特征图在行和列方向上的维度大小;
[0021] 所述激发单元由两个全连接层组成,用于获取通道相关的依赖关系:
[0022] s=Fex(zc)=σ[D2δ(D1zc)]
[0023] 其中,Fex表示Excitation操作,D1,D2分别为降维和升维的全连接层,δ表示ReLU函数,σ表示sigmoid函数。
[0024] 进一步地,步骤S2中,所述特征金字塔FPN模块将残差网络模块提出的不同尺度特征图{f2,f3,f4,f5}从深层网络通过上采样与浅层网络进行初次融合生成不同尺度特征图{F2,F3,F4,F5};
[0025] 所述自底向上路径增强模块将传播路径从最低阶特征图F2开始通过下采样的方式逐层向最高阶特征图F5传播,生成新的融合特征图序列{P2,P3,P4,P5},再将融合特征图序列{P2,P3,P4,P5}拼接成单张特征图P输入渐进尺度扩展模块去扩展分割目标文本区域;其中P2是F2的直接映射,其他特征图Pi是每一层通过横向连接先获取高分辨率特征图Pi‑1和低分辨率特征图Fi后,将高分辨率特征图Pi‑1下采样与低分辨率特征图Fi映射相加生成的,i=3,4,5。
[0026] 进一步地,所述自底向上路径增强模块的C3单元是由多个CBS单元组合得到的跨区域特征融合模块;
[0027] 所述C3单元包括两个支路,其中一个支路包括一个具有1×1卷积核的CBS单元,另一个支路用于融合车厢图像的局部信息和全局信息,包括三个依次连接的CBS单元,这三个依次连接的CBS单元的卷积核分别是1×1、3×3和3×3;
[0028] 每个CBS单元均包括依次连接的Conv层、Bn层和SiLU激活函数层。
[0029] 进一步地,所述渐进尺度扩展模块接收路径增强模块输出的单张特征图,对其进行采样,将目标车厢号文本分割处理成多尺度的文本核(S1,S2,S3,...,Sn),再将从小尺寸文本核逐渐向大尺寸文本核扩展合并,获得最终的文本检测结果。
[0030] 进一步地,所述列车车厢号定位模型的损失函数为:
[0031] L=λLf+(1‑λ)Lk
[0032] 其中,Lf表示完整文本实例Sn的损失,用于区分文本核非文本区域;Lk表示文本核实例S1至Sn‑1的损失,用于查找文本区域的精细边框;λ为平衡系数;
[0033] 采用Dice系数计算得到Lf和Lk:
[0034] Lf=1‑D(Sn·M,Gn·M)
[0035]
[0036] 式中,M表示OHEM给出的训练掩码,W表示0/1掩码,D(Sj,Gj)代表Dice系数值,大小在[0,1]之间,值越大表明样本间越相似, Sj,x,y和Gj,x,y分别表示预测结果Sj和真实结果Gj在(x,y)处的像素值。
[0037] 有益效果:
[0038] 第一,本发明的基于PSENet区域分割的列车车厢号定位方法,可以使货运列车车厢号定位有较高精确率与召回率,有利于后续车厢号识别工作的进行。
[0039] 第二,本发明的基于PSENet区域分割的列车车厢号定位方法,在残差模块特征提取的骨干网中加入注意力机制,提升模型对目标特征的敏感性,进一步加强骨干网对目标区域的特征提取。
[0040] 第三,本发明的基于PSENet区域分割的列车车厢号定位方法,在PSENet网络模型基础上加入传播路径增强模块,减少低维特征随着网络层数的加深产生的低维信息丢失,使顶层特征图得到底层网络丰富的位置信息,获得更加精确的文本核,降低车厢号的漏检问题。

附图说明

[0041] 图1为本发明的基于PSENet区域分割的货运列车车厢号定位方法的监控设备视野示意图;
[0042] 图2为本发明的列车车厢号定位模型结构示意图;
[0043] 图3为本发明的加入注意力机制SE模块‑残差网络模块结构示意图;
[0044] 图4为本发明的通道注意力SE模块结构示意图;
[0045] 图5为本发明的路径增强模块结构示意图;
[0046] 图6为本发明列车车厢号定位模型训练的精确率曲线图;
[0047] 图7为本发明的部分车厢号定位实例展示效果图。

具体实施方式

[0048] 下面的实施例可使本专业技术人员更全面地理解本发明,但不以任何方式限制本发明。
[0049] 本发明公开了一种基于PSENet区域分割的列车车厢号定位方法,所述列车车厢号定位方法包括以下步骤:
[0050] S1,利用位于铁路两侧的视频监控设备对包含车厢号的货车列车的视频图像进行采集,对采集的车厢图像做预处理,对车厢图像中的车厢号区域做标签后,生成车厢样本图像,并构建样本数据集。
[0051] S2,构建列车车厢号定位模型,所述列车车厢号定位模型包括残差网络模块、特征金字塔FPN模块、自底向上路径增强模块和渐进尺度扩展模块。
[0052] 具体地,所述残差网络模块对导入的车厢图像进行多尺度特征提取,将提取的不同尺度特征图输出至特征金字塔FPN模块,由特征金字塔FPN模块将不同尺度特征图从深层网络通过上采样的方式与浅层网络进行初次融合,得到不同尺度的初次融合特征图。
[0053] 所述自底向上路径增强模块将特征金字塔FPN模块输出的初次融合特征图从浅层网络通过下采样的方式与深层网络融合得到不同尺度的二次融合特征图,再将不同尺度的二次融合特征图合并成单张特征图。
[0054] 所述渐进尺度扩展模块利用广度优先搜索算法从文本核分割图的最小尺度到最大尺度进行文本区域的尺度扩展,获得最终的文本检测结果。
[0055] S3,采用样本数据集对列车车厢号定位模型进行训练,利用训练完成的列车车厢号定位模型对待处理的车厢图像进行车厢号定位,输出定位得到的货车列车车厢号。
[0056] 图1是夜间监控设备的视野情况,此时货车即将快速驶入视野。如图2所示,本发明的一种基于PSENet区域分割的货运列车车厢号定位方法,包括:
[0057] 利用货运站场内现有监控设备采集到的行驶中货运列车的视频,在对其预处理后生成样本数据集;
[0058] 利用铁路两侧监控设备采集的视频,可以弥补车厢任一侧车厢号缺损、被遮挡等因素而导致的车厢号定位不准确等识别失败问题;
[0059] 该方法除了适合现有安装方式的监控设备,也适合被布置在货运站场外的铁路监控设备。
[0060] 将生成的样本数据集导入基于PSENet网络构建的货运列车车厢号定位模型中,对模型进行训练;货运列车车厢号定位模型包括引入通道注意力的残差网络模块、特征金字塔FPN模块、自底向上路径增强模块和基于广度优先算法的渐进尺度扩展模块;
[0061] 如图2中的(a)、(b)两个区域所示,特征金字塔模块包括自底向上的特征提取过程和自顶向下的特征融合过程。
[0062] 如图2中的(a)区域所示,所述特征金字塔模块自底向上的特征提取过程包括五层卷积层,除第一层卷积层外,其他四层卷积层均结合通道注意力机制SE模块。所述引入通道注意力SE模块的残差网络结构的主体是常用的ResNet50,将第一层卷积层conv1使用3个卷积核大小为3×3的卷积层替换了ResNet50原来的3个卷积核大小为7×7的卷积层,既减少了参数量且保证了处理效果;如图3所示,第二卷积层conv2至第五卷积层conv5都加入通道注意力SE模块,SE模块的加入可以加强模型全局信息聚合能力,能够根据通道信息的重要性自适应调节激励,分配卷积特征的学习权重。在这四层卷积层结构中,conv表示卷积,Bn表示批归一化层,Relu表示激活函数;
[0063] 如图4所示,所述通道注意力SE模块包括两个分支,一个分支包括Squeeze和Excitation两个操作,用来学习每个通道的权重,另一个分支则完整保留原特征图信息,然后将学习到的每个通道的权重作用于原特征图中。
[0064] 所述Squeeze操作是使用自适应平均池化将大小为H×W×C特征图f的压缩成1×1×C,特征图的空间信息被压缩在通道域中并使用式(1)计算;
[0065]
[0066] 其中,zc表示被压缩的特征图空间信息,Fsq表示Squeeze操作,fc(c,h,l)表示特征图在空间(h,l)处的值,H和L分别表示特征图在行和列方向上的维度大小;
[0067] 所述激发单元由两个全连接层组成,用于获取通道相关的依赖关系:
[0068] s=Fex(zc)=σ[D2δ(D1zc)]
[0069] 其中,Fex表示Excitation操作,D1,D2分别为降维和升维的全连接层,δ表示ReLU函数,σ表示sigmoid函数。
[0070] 如图2中的(b)区域所示,所述特征金字塔模块自顶向下的特征融合过程包括四层卷积层,每个层次上将残差网络输出的不同尺度的特征图{f2,f3,f4,f5}从深层网络通过上采样与浅层网络进行融合后输出{F2,F3,F4,F5}。
[0071] 如图2中的(c)区域所示,所述路径增强模块与特征金字塔模块采用横向连接,其作用于{F2,F3,F4,F5},传播路径从最低阶特征图F2开始,逐渐向最高阶特征图F5传播;
[0072] 如图2中的(c)区域所示,所述路径增强模块生成的特征图序列{P2,P3,P4,P5},其中P2是F2的直接映射,其他特征图Pi(i=3,4,5)首先通过每一层横向连接获取高分辨率的特征图Pi‑1和低分辨率的特征图Fi,然后将高分辨率的特征图Pi‑1下采样结果与低分辨率的特征图Fi映射相加,最终通过C3单元生成新的特征图Pi;在获得完整特征序列{P2,P3,P4,P5}后,将其拼接成单张特征图P,输入渐进尺度扩展模块去扩展分割目标文本区域。
[0073] 图5中的(a)为信息向顶层传播的基本结构;如图5中的(b)所示,所述CBS单元包括Conv层、Bn层和SiLU激活函数,其中Conv层起到特征提取的作用,Bn层通过批归一化加速模型收敛和避免过拟合,SiLU激活函数去线性化;如图5中的(c)所示,所述路径增强模块的C3单元由多个CBS单元组合的跨区域特征融合模块,单一的CBS使用1×1卷积核以减少特征图的信息损失,CBS组合使用1个1×1的卷积核和2个3×3的卷积核,融合图像的局部信息和全局信息,以获取更大的感受野。
[0074] 如图2中的(d)区域所示,所述渐进尺度扩展模块的工作是基于广度优先搜索算法的渐进尺度扩展算法,其整体流程是将融合后的特征图P经过采样,目标车厢号文本被分割处理成多尺度的文本核(S1,S2,S3,...,Sn),从小尺寸文本核逐渐向大尺寸文本核扩展合并,最终获得精确目标车厢号区域。
[0075] 所述货运列车车厢号定位模型的损失函数定义为:
[0076] L=λLf+(1‑λ)Lk   (3)
[0077] 其中,Lf表示完整文本实例Sn的损失;Lk表示文本核实例(S1~Sn‑1)的损失;λ为平衡系数,取0.7。
[0078] 由于大多数车厢号文本实例在视频中的面积占比不大,所述车厢号定位模型使用语义分割中Dice系数(Dice coefficient)计算损失,其表达式为:
[0079]
[0080] 其中D(Si,Gi)代表Dice系数值,大小在[0,1]之间,值越大表明样本间越相似,Si,x,y和Gi,x,y分别表示预测结果Si和真实结果Gi在(x,y)处的像素值;
[0081] 为了提高训练样本数据集的效率,使用了在线困难样本挖掘策略(Online Hard Example Mining,OHEM),是在训练时对预测结果大概率为负例的样本进行标记,这个标记称为掩码。
[0082] 由此,式(3)中Lf、Lk通过Dice系数的计算表达式如下:
[0083] Lf=1‑D(Sn·M,Gn·M)   (5)
[0084]
[0085] 其中,Lf用于区分文本核非文本区域,Lk用于查找文本区域的精细边框,M表示OHEM给出的训练掩码,W表示0/1掩码。
[0086] 图6为了验证本发明提出的改进方法对行驶货运列车的车号定位的有效性和改进模块的具体性能,设计了如下实验:
[0087] 实验1,原始PSENet网络(在ImageNet上预训练,但是未在本发明数据集上训练);
[0088] 实验2,原始PSENet网络(在ImageNet上预训练,且在本发明数据集上训练);
[0089] 实验3,PSENet网络结合通道域注意力(在ImageNet上预训练,且在本发明数据集上训练);
[0090] 实验4,PSENet网络结合空间域注意力(在ImageNet上预训练,且在本发明数据集上训练)。
[0091] 实验5,PSENet网络结合混合域注意力(在ImageNet上预训练,且在本发明数据集上训练);
[0092] 实验6,PSENet网络结合路径增强模块(在ImageNet上预训练,且在本发明数据集上训练);
[0093] 实验7,增加通道域注意力的PSENet结合路径增强模块(在ImageNet上预训练,且在本发明数据集上训练)。
[0094] 从图6发现,在训练中精确率的整体趋势在前10个epoch迅速上升,此后则是波动上升直至平缓,实验2至实验5中模型的精确率从第20个epoch至第150个epoch之间持续较大波动,实验6的模型训练过程较为平缓。
[0095] 从表1实验结果可以看出,实验1和2体现出PSENet基础模型本身具有良好的定位效果,经过训练后其精确率增长了71.94%;实验3至5是针对不同作用域的注意力机制进行的实验,从表1看出三种作用域的注意力都对车厢号定位有积极作用,精确率比实验2分别提升了3.37%、2.63%和2.89%,召回率比实验2分别提升了0.37%、0.24%和0.61%;实验6在原始PSENet网络上增加路径增强模块,精确率和召回率分别提升到97.58%和93.53%,均已达到比较优秀的结果;从实验7可以看出,对PSENet的2项改进较原始网络而言,车号的定位精确率提升了3.78%,召回率提升了1.71%,F1分数提升了2.73%。
[0096] 表1
[0097] 方法 精确率 召回率 F1分数 预测耗时/s实验1:PSENet(原始) 0.5449 0.7558 0.6332 0.17
实验2:PSENet 0.9369 0.9243 0.9305 0.17
实验3:PSENet+SE 0.9706 0.9280 0.9488 0.17
实验4:PSENet+SA 0.9632 0.9267 0.9446 0.17
实验5:PSENet+CBAM 0.9658 0.9304 0.9478 0.19
实验6:PSENet+BUPA 0.9758 0.9353 0.9551 0.2
实验7:PSENet+SE+BUPA 0.9747 0.9414 0.9578 0.2
[0098] 本发明以图像分割为指导思路的,模型训练和预测的时间要久,而基础网络PSENet对单张预测需要O.17s,本发明需要0.2s,均满足实时要求。
[0099] 图7中的(a)‑(o)多张子图所示分别为在光线昏暗、光线过强、倾斜、模糊、车号少量缺损等情况进行车号定位情况,是多个其中浅灰色矩形框表示本发明的定位结果,白色矩形框表示漏检的目标区域,深灰色矩形框区域表示干扰的文本信息。从定位结果可以看出:各场景中绝大部分经过标注的目标车号区域都被准确检测;本发明对非车号目标不敏感,具有强车号标识特征的车厢信息文本均未被误检。整行车号漏检的情景大多发生车号区域残缺度较高或者车号区域与干扰的文本信息存在大规模重叠,单个字符的漏检情景大多发生在漏检字符与车号主体区域相离较远或者当前场景存在强光的干扰。本发明对货运列车车厢号的检测精确率达到97.47%,召回率达到94.14%,综合F1分数达到95.78%。说明本发明改善了利用原始PSENet对车号的定位效率。
[0100] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。