一种基于深度学习的车辆颜色识别方法与装置转让专利

申请号 : CN201710165620.4

文献号 : CN107067011B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 马华东傅慧源王高亚

申请人 : 北京邮电大学

摘要 :

本发明公开了一种基于深度学习的车辆颜色识别方法与装置包括:输入车辆图像作为测试样本与训练样本并进行预处理;使用训练样本训练卷积神经网络,提取深层颜色特征;使用深层颜色特征训练分类器识别测试样本的车辆颜色。本发明提高车辆颜色识别的准确率,精简结构参数,消除过拟合。

权利要求 :

1.一种基于深度学习的车辆颜色识别方法,其特征在于,包括:

输入车辆图像作为测试样本与训练样本并进行预处理;

使用随机和稀疏连接表在特征维度上构建每个卷积层,并根据多个卷积层构建卷积神经网络对车辆图像反复进行卷积与池化操作;

根据每个叠加层第一层的输入与网络叠加层拟合的底层映射学习卷积神经网络的残差映射,为分别在滤波器个数为256,512,1024的多尺度特征融合层后与网络叠加层拟合的底层映射学习卷积神经网络的残差映射添加具有三层构造的残差学习构造块并进行修正线性单元激活,其中,所述三层构造依次为1×1的卷积核、3×3的卷积核与1×1的卷积核;

将不同深度上的特征进行归一化并融合为深层颜色特征;

使用深层颜色特征训练分类器识别测试样本的车辆颜色。

2.根据权利要求1所述的方法,其特征在于,所述使用随机和稀疏连接表在特征维度上构建每个卷积层,根据多个卷积层构建卷积神经网络对车辆图像反复进行卷积与池化操作包括:卷积层在特征维度上使用随机和稀疏连接表组合密集的网络形成逐层结构,分析最后一层的数据统计并聚集成具有高相关性的神经元组,该神经元形成下一层的神经元并连接上一层的神经元;

相关的神经元集中在输入数据图像的局部区域,在下一层覆盖小尺寸的卷积层,小数量展开的神经元组被较大的卷积所覆盖,其中,融合多尺度特征的卷积层采用1×1,3×3和

5×5大小的过滤器,所有输出的滤波器组连接作为下一层的输入;

使用最大汇聚对局部区域中邻域内的特征点取最大值的方式进行池化操作;

在高计算量的3×3和5×5的卷积核之前添加1×1的卷积核。

3.根据权利要求1所述的方法,其特征在于,所述将不同深度上的特征进行归一化并融合为深层颜色特征,为在合并的特征图向量中的每个像素内进行归一化,并根据缩放因子对每个向量的通道独立的进行缩放;对残差学习后的特征按照输出由大到小分步进行池化操作,并利用归一化后的开端模型块进行合并使得图像信息的局部特征与全局特征相结合。

4.根据权利要求3所述的方法,其特征在于,利用归一化后的开端模型块进行合并,为对滤波器个数为256的特征的开端模型进行像素降维并与滤波器个数为512的特征的开端模型合并,生成的并联层再次进行像素降维并与滤波器个数为1024的特征的开端模型合并。

5.根据权利要求1所述的方法,其特征在于,所述使用深层颜色特征训练分类器识别测试样本的车辆颜色包括:使用深层颜色特征训练支持向量机分类器;

对比统计不同网络层输出特征识别车辆的准确率;

根据准确率最高的网络层特征识别测试样本的车辆颜色。

6.根据权利要求5所述的方法,其特征在于,所述不同网络层包括以下至少之一:汇聚层、经过残差学习模型块后的多尺度特征融合层、未经过残差学习模型块后的多尺度特征融合层以及全局特征局域特征融合层。

7.一种电子设备,其特征在于,包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6中任一项所述的方法。

说明书 :

一种基于深度学习的车辆颜色识别方法与装置

技术领域

[0001] 本发明涉及机器学习领域,特别地,涉及一种基于深度学习的车辆颜色识别方法与装置。

背景技术

[0002] 交通秩序管理是道路交通管理工作的重要组成部分,随着机动车辆与驾驶员数量的急剧增长,且驾驶员的法律安全意识普遍偏低,越来越多影响道路交通安全的风险和不确定因素不断浮现,让交警、公安等多个领域面临着严峻的挑战和形势,增大了道路交通秩序管理的工作难度。车牌长期以来作为智能交通系统领域的核心研究对象之一,面对部分遮挡、视角改变、噪声、模糊等条件下,车牌并非总是完全可见的。想比之下,车身颜色占据了车体的主要部分,并且对于部分遮挡、视角变化、噪声及模糊等诸多干扰因素相对不敏感。同时,颜色作为车辆的显著且稳定的属性,可以作为智能交通系统中各应用中有用且可靠的信息提示。因此,车身颜色识别已被广泛应用于视频监控、犯罪侦查及执法等领域的有价值的提示,这也是自然场景中车身颜色识别成为该领域重要研究课题的原因。
[0003] 然而,在自然场景中识别车辆颜色仍然是一项具有挑战性的工作。其挑战主要来自于自然场景不可控的因素对车身造成的颜色偏移。其中自然场景不可控的因素主要包括光照条件和天气干扰。光照对车身造成的反光使车身成像颜色失去了固有颜色的表现,雾天同样会造成图像整体偏向灰色,使图像偏离了图像固有颜色,雪天会导致图像背景以白色为主,对后续特征的提取及机器学习造成一定程度的干扰。
[0004] 虽然自然场景下的车辆颜色识别的正确率逐年提高,但基本都是假定在相对理想化或固定角度条件下进行的研究,缺少对周围环境变化的考虑,而环境变化的因素正是目前面临的重大问题,同样也是解决与提高车身颜色识别正确率关键技术中的难点。虽然已经有研究者提出利用深度学习的方法,自适应地学习车辆颜色特征,但其中对卷积神经网络的层次结构研究并不深 入,在参数冗余及过拟合现象方面的处理方式欠佳。因此在复杂的自然场景中,基于深度学习的方式提高车辆颜色识别的准确率,同时处理卷积神经网络每一层结构中参数冗余及其过拟合现象,成为业内技术人员所关注的课题。
[0005] 针对现有技术中车辆颜色识别的准确率低、参数冗余与过拟合的问题,目前尚未有有效的解决方案。

发明内容

[0006] 有鉴于此,本发明的目的在于提出一种基于深度学习的车辆颜色识别方法与装置,能够提高车辆颜色识别的准确率,精简结构参数,消除过拟合。
[0007] 基于上述目的,本发明提供的技术方案如下:
[0008] 根据本发明的一个方面,提供了一种基于深度学习的车辆颜色识别方法,包括:
[0009] 输入车辆图像作为测试样本与训练样本并进行预处理;
[0010] 使用训练样本训练卷积神经网络,提取深层颜色特征;
[0011] 使用深层颜色特征训练分类器识别测试样本的车辆颜色。
[0012] 在一些实施方式中,所述使用训练样本训练卷积神经网络,提取深层颜色特征包括:
[0013] 使用随机和稀疏连接表在特征维度上构建每个卷积层,并根据多个卷积层构建卷积神经网络对车辆图像反复进行卷积与池化操作;
[0014] 根据每个叠加层第一层的输入与网络叠加层拟合的底层映射学习卷积神经网络的残差映射;
[0015] 将不同深度上的特征进行归一化并融合为深层颜色特征。
[0016] 在一些实施方式中,所述使用随机和稀疏连接表在特征维度上构建每个卷积层,根据多个卷积层构建卷积神经网络对车辆图像反复进行卷积与池化操作包括:
[0017] 卷积层在特征维度上使用随机和稀疏连接表组合密集的网络形成逐层结构,分析最后一层的数据统计并聚集成具有高相关性的神经元组,该神经元形成下一层的神经元并连接上一层的神经元;
[0018] 相关的神经元集中在输入数据图像的局部区域,在下一层覆盖小尺寸的卷积层,小数量展开的神经元组被较大的卷积所覆盖,其中,融合多尺度特征的卷积层采用1×1,3×3和5×5大小的过滤器,所有输出的滤波器组连接 作为下一层的输入;
[0019] 使用最大汇聚对局部区域中邻域内的特征点取最大值的方式进行池化操作;
[0020] 在高计算量的3×3和5×5的卷积核之前添加1×1的卷积核。
[0021] 在一些实施方式中,所述根据每个叠加层第一层的输入与网络叠加层拟合的底层映射学习卷积神经网络的残差映射,为分别在滤波器个数为256,512,1024的多尺度特征融合层后与网络叠加层拟合的底层映射学习卷积神经网络的残差映射添加具有三层构造的残差学习构造块并进行修正线性单元激活,其中,所述三层构造依次为1×1的卷积核、3×3的卷积核与1×1的卷积核。
[0022] 在一些实施方式中,所述将不同深度上的特征进行归一化并融合为深层颜色特征,为在合并的特征图向量中的每个像素内进行归一化,并根据缩放因子对每个向量的通道独立的进行缩放;对残差学习后的特征按照输出由大到小分步进行池化操作,并利用归一化后的开端模型块进行合并使得图像信息的局部特征与全局特征相结合。
[0023] 在一些实施方式中,利用归一化后的开端模型块进行合并,为对滤波器个数为256的特征的开端模型进行像素降维并与滤波器个数为512的特征的开端模型合并,生成的并联层再次进行像素降维并与滤波器个数为1024的特征的开端模型合并.
[0024] 在一些实施方式中,所述使用深层颜色特征训练分类器识别测试样本的车辆颜色包括:
[0025] 使用深层颜色特征训练支持向量机分类器;
[0026] 对比统计不同网络层输出特征识别车辆的准确率;
[0027] 根据准确率最高的网络层特征识别测试样本的车辆颜色。
[0028] 在一些实施方式中,所述不同网络层包括以下至少之一:汇聚层、经过残差学习模型块后的多尺度特征融合层、未经过残差学习模型块后的多尺度特征融合层以及全局特征局域特征融合层。
[0029] 根据本发明的另一个方面,还提供了一种电子设备,包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器 执行,以使所述至少一个处理器能够执行上述方法。
[0030] 从上面所述可以看出,本发明提供的技术方案通过使用输入车辆图像作为测试样本与训练样本并进行预处理、使用训练样本训练卷积神经网络提取深层颜色特征、使用深层颜色特征训练分类器识别测试样本的车辆颜色的技术手段,提高车辆颜色识别的准确率,精简结构参数,消除过拟合。

附图说明

[0031] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0032] 图1为根据本发明实施例的一种基于深度学习的车辆颜色识别方法的流程图;
[0033] 图2为根据本发明实施例的一种基于深度学习的车辆颜色识别方法中,多尺度特征融合网络的模块示意图;
[0034] 图3为根据本发明实施例的一种基于深度学习的车辆颜色识别方法中,残差学习模块示意图;
[0035] 图4为根据本发明实施例的一种基于深度学习的车辆颜色识别方法中,滤波器个数为256,512,1024的多尺度特征融合层后添加残差学习模型图;
[0036] 图5为根据本发明实施例的一种基于深度学习的车辆颜色识别方法中,多尺度特征融合模型块的合并示意图;
[0037] 图6为本发明的执行一种基于深度学习的车辆颜色识别方法的电子设备的一个实施例的硬件结构示意图。

具体实施方式

[0038] 为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进一步进行清楚、完整、详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
[0039] 基于上述目的,本发明实施例的第一个方面,提出了一种能够针对不同用户或不同类型的节点进行基于深度学习的车辆颜色识别方法的第一个实施例。图1示出的是本发明提供的基于深度学习的车辆颜色识别方法的第一个实施例的流程示意图。
[0040] 如图1所示,根据本发明实施例提供的基于深度学习的车辆颜色识别方法包括:
[0041] 步骤S101,输入车辆图像作为测试样本与训练样本并进行预处理;
[0042] 步骤S103,使用训练样本训练卷积神经网络,提取深层颜色特征;
[0043] 步骤S105,使用深层颜色特征训练分类器识别测试样本的车辆颜色。
[0044] 在一些实施方式中,所述使用训练样本训练卷积神经网络,提取深层颜色特征包括:
[0045] 使用随机和稀疏连接表在特征维度上构建每个卷积层,并根据多个卷积层构建卷积神经网络对车辆图像反复进行卷积与池化操作;
[0046] 根据每个叠加层第一层的输入与网络叠加层拟合的底层映射学习卷积神经网络的残差映射;
[0047] 将不同深度上的特征进行归一化并融合为深层颜色特征。
[0048] 在一些实施方式中,所述使用随机和稀疏连接表在特征维度上构建每个卷积层,根据多个卷积层构建卷积神经网络对车辆图像反复进行卷积与池化操作包括:
[0049] 卷积层在特征维度上使用随机和稀疏连接表组合密集的网络形成逐层结构,分析最后一层的数据统计并聚集成具有高相关性的神经元组,该神经元形成下一层的神经元并连接上一层的神经元;
[0050] 相关的神经元集中在输入数据图像的局部区域,在下一层覆盖小尺寸的卷积层,小数量展开的神经元组被较大的卷积所覆盖,其中,融合多尺度特征的卷积层采用1×1,3×3和5×5大小的过滤器,所有输出的滤波器组连接作为下一层的输入;
[0051] 使用最大汇聚对局部区域中邻域内的特征点取最大值的方式进行池化操作;
[0052] 在高计算量的3×3和5×5的卷积核之前添加1×1的卷积核。
[0053] 在一些实施方式中,所述根据每个叠加层第一层的输入与网络叠加层拟合的底层映射学习卷积神经网络的残差映射,为分别在滤波器个数为256,512,1024的多尺度特征融合层后与网络叠加层拟合的底层映射学习卷积神经网络的残差映射添加具有三层构造的残差学习构造块并进行修正线性单元激活,其中,所述三层构造依次为1×1的卷积核、3×3的卷积核与1×1的卷积核。
[0054] 在一些实施方式中,所述将不同深度上的特征进行归一化并融合为深层颜色特征,为在合并的特征图向量中的每个像素内进行归一化,并根据缩放因子对每个向量的通道独立的进行缩放;对残差学习后的特征按照输出由大到小分步进行池化操作,并利用归一化后的开端模型块进行合并使得图像信息的局部特征与全局特征相结合。
[0055] 在一些实施方式中,利用归一化后的开端模型块进行合并,为对滤波器个数为256的特征的开端模型进行像素降维并与滤波器个数为512的特征的开端模型合并,生成的并联层再次进行像素降维并与滤波器个数为1024的特征的开端模型合并.
[0056] 在一些实施方式中,所述使用深层颜色特征训练分类器识别测试样本的车辆颜色包括:
[0057] 使用深层颜色特征训练支持向量机分类器;
[0058] 对比统计不同网络层输出特征识别车辆的准确率;
[0059] 根据准确率最高的网络层特征识别测试样本的车辆颜色。
[0060] 在一些实施方式中,所述不同网络层包括以下至少之一:汇聚层、经过残差学习模型块后的多尺度特征融合层、未经过残差学习模型块后的多尺度特征融合层以及全局特征局域特征融合层。
[0061] 从上面所述可以看出,本发明提供的技术方案通过使用输入车辆图像作为测试样本与训练样本并进行预处理、使用训练样本训练卷积神经网络提取深层颜色特征、使用深层颜色特征训练分类器识别测试样本的车辆颜色的技术手段,提高车辆颜色识别的准确率,精简结构参数,消除过拟合。
[0062] 基于上述目的,本发明还提出了一种能够针对不同用户或不同类型的用户进行基于深度学习的车辆颜色识别方法的第二个实施例。
[0063] 根据本发明实施例提供的基于深度学习的车辆颜色识别方法包括:
[0064] 网络模型的设计阶段:在对整个网络模型设计的过程中,主要解决大型网络在拥有大量参数的条件下,网络容易出现过拟合现象以及过度增加计算 资源的影响,在不增加大量参数的条件下提高网络的学习能力的问题。一般的大型网络结构往往存在其深层网络的损失值不小于其浅层网络损失值的缺点,MCFF-CNN网络通过残差映射,重构网络层的学习函数,将残差逼近零值的方式,有效的解决了该问题。同时MCFF-CNN网络通过合并不同尺寸网络层的输出特征,实现图像特征的多尺度融合。为使得网络进一步全方位的学习输入车辆图像的深层特征,实现局部特征与全局特征的融合,将深浅层网络结构进行合并。步骤101包括下列依次执行的操作内容:
[0065] (11)深度学习网络模型的设计:
[0066] 为打破非均匀稀疏数据结构在数值计算上的低效性并改进网络模型的学习能力,卷积层在特征维度上使用随机和稀疏连接表,同时组合密集的网络。形成一种逐层结构,需要分析最后一层的相关数据统计,并将它们聚集成具有高相关性的神经元组。这些神经元形成下一层的神经元,并连接上一层的神经元。在接近数据的较低层中,相关的神经元集中在输入数据图像的局部区域。即最终有大量的特征信息会集中在同一个局部区域,这会在下一层覆盖小尺寸的卷积层。并且存在小数量展开的神经元组可以被较大的卷积所覆盖。为了对齐像素尺寸,融合多尺度特征的卷积层采用1×1,3×3和5×5大小的过滤器。并将所有输出的滤波器组进行连接,作为下一层的输入;
[0067] 为保证特征在图像放生旋转、平移、伸缩等条件下的不变性,使用最大汇聚对局部区域中邻域内的特征点取最大值。以减小卷积层参数误差造成的估计均值偏移现象,更多的保留图像细节的纹理信息。
[0068] 由于该模型块彼此堆叠,他们的相关数据必然会发生变化。当高层的特征被更高层所捕获时,他们的空间集中度会变小,此时滤波器的大小应该随着网络层数的增高而变大。但是使用5×5的卷积核会带来巨大的计算量,若上一层的输出为100×100×128,则经过具有256个输出的5×5卷积核(stride=1,pad=2)之后,输出数据大小为100×100×256。其中,卷积层共有参数128×5×5×256个。显然这会带来高昂的计算量。一旦将pooling添加到inception中,由于输出过滤器的数量等于前一层中的过滤器数量,因此计算量会显著增加。合并层的输出与卷积层输出后的合并都将导致层间的输出数量的增加。
即使Inception结构可以覆盖最佳的稀疏结构,但计算的低效性会导致在迭代过程中发生计算量爆炸的现象。
[0069] 为解决5×5大小的卷积核带来巨大的计算量,并保持稀疏结构,压缩计 算量。在高计算量的3×3和5×5的卷积核之前采用1×1的卷积核减小计算量,其网络模型块结构如图2所示。
[0070] Inception网络体系由多个卷积层彼此堆叠而成,并加入最大汇聚将网络的分辨率减半。由于网络在训练期间的记忆性,多尺度特征融合模块在高层网络有很好的效果。该体系结构允许在每个阶段显著地增加神经元数量,且不会放大计算量。缩减尺寸的多尺度特征融合模型允许将每层最后的大量输入传递到下一层网络中去。多尺度特征融合结构中在每个较大的卷积核计算之前先减小卷积核的尺寸,即在多个尺度上处理视觉信息,然后聚合多尺度特征信息,使得下一层网络可以同时获得不同尺度的抽象特征。
[0071] (12)类似GoogleNet这样一个网络的整个网络模型具有22层,可以说是相对较大深度的网络,因此如何以一个有效地方式将梯度传播回所有层是一个重要的问题。相对较浅层的网络与中间层的网络所产生的特征区别是比较大的。GoogleNet通过添加连接中间网络层的辅助分类器,借助在较浅层的分类器增加传播回去的梯度信号,并提供额外的正则化。但GoogleNet模型仍然存在随着网络层次越深,精确度反而下降的问题。
[0072] 利用残差学习模型块将H(x)作为网络叠加层拟合的底层映射,其中x表示每个叠加层的第一层的输入。假设多个非线性网络层可以渐近地逼近复杂函数,等价于非线性层所渐近的残差函数,即H(x)-x。因此,让这些非线性层近似于残差函数:F(x)=H(x)-x。那么,原函数变为F(x)+x。
[0073] 虽然两种形式都可以渐近的逼近期望函数,但学习的容易性不同。添加层构造身份映射,以满足更深层的模型具有不大于其较浅层对等模型的训练误差。当身份映射最优时,简单的将多个非线性层的权重向零推进以接近身份映射。若最优函数不接近于零映射而是接近于恒等映射,则依据恒等映射寻找扰动。
[0074] 每个构造块的定义为y=F(x,{Wi})+x,这里x和y分别是该构造块的前一层输入和最后层的输出向量。函数F(x,{Wi})即为要学习的残差映射。
[0075] 这里以两层的残差学习的构造块为例,其中F=W2σ(W1x)中的σ表示ReLU激活,并且省略了偏置参数。y=F(x,{Wi})+x中的快捷链接不会引入额外的参数且不会增加计算的复杂度。在y=F(x,{Wi})+x中的x和F尺寸必须相等,当x和F的尺寸不相等时,通过线性投影匹配尺寸,如式:y=F(x,{Wi})+Wsx,残差学习对于单层的构造块,类似于线性层:y=W1x+x,并不能对深层网络起到优化的效果。故采用具有三层的残差学习构造块,如图3所示。
[0076] 研究发现,当残差学习的模型块中滤波器的数量超过1000时,残差学习会出现不稳定的现象。ResNet-50,ResNet-101,ResNet-152网络均在res4这层网络中达到了最高点,res4层滤波器的数量为1024,在res5层出现了明显的下降拐点,res5层的滤波器数量为2048。因此ResNet在滤波器数量超过1000时,网络表现出不稳定性,并且网络会在训练早期出现“死亡”的现象。通过降低学习率或对残差学习模型块添加额外的批次归一化并不能解决该问题。因此本发明的MCFF-CNN网络中的滤波器个数最多为1024个,分别在滤波器个数为256,512,1024的多尺度特征融合层后添加残差学习模型,如图4所示。
[0077] (13)在卷积神经网络中,256×256的图像经过多层的卷积之后,输出仅包含7×7大小的像素,显然不足以表达图像颜色特征信息。且随着网络的加深,相应特征图中每个像素收集的卷积信息越来越趋于全局化。因此会缺少图像本身的局部细节信息,使得最后卷积层的特征图对于整幅图像不那么具有代表性。因此,将全局特征与局部特征进行组合成为思考的问题。为了在多个尺度上扩展图像的深度特征,本发明对残差学习后的inception(3),inception(4)和inception(5)进行了融合。由于特征像素的通道数目,数值尺度和范数在三个inception模型块中是不同的,越深层的尺度越小。因此,简单的将三个inception模型块中的特征直接转成一维向量并进行连接是不合理的。因为尺度的差异对深层的权重而言过大需要重新调整,使得直接连接三个不同深度的层次特征的鲁棒性较差。
[0078] 因此本发明在对三个inception模型块连接之前优先对模型块进行了归一化处理。如此,网络能够学习到每一层中的缩放因子的值,并稳定了网络,提高了准确率。
[0079] 我们对每个向量应用归一化。归一化的操作在合并的特征图向量中的每一像素内进行。在归一化后,利用 对每个向量独立的进行缩放,其中X和X′分别表示原始像素向量和归一化后的像素向量,c代表每个向量中的通道数。然后将缩放因子αi应用于向量的每个通道,利用公式yi=αi·x′i。
[0080] 归一化后,我们再次对inception(3),inception(4)进行平均汇聚的操 作,由于inception(3)的输出大小为28×28×256,inception(4)的输出大小为14×14×512,inception(5)的输出大小为7×7×1024,若将inception(3)通过平均汇聚的操作由28×28降到7×7会丢失大多数的信息,因此我们现将inception(3)借助mean-pooling操作降到14×14,采用的步幅大小为2,平均汇聚将像素降维,保留了更多的背景信息,但多少会丢失部分信息,因此经过平均汇聚后滤波器的数量变为原来的两倍。将处理后的inception(3)与inception(4)合并成concat_1层,并对concat_1层进行与inception(3)同样的平均汇聚处理,再与inception(5)进行合并得到concat_2层,如图5所示。
[0081] 利用归一化后的inception模型块进行合并,在反向传播的过程中将图像信息的局部特征与全局特征结合在一起,相比GoogleNet借助较浅层的分类器增加传播回去的梯度信号,并提供额外的正则化所训练得到的误差更小。
[0082] 下面根据本发明实施例进一步具体描述步骤(11)(12)(13)的操作内容:
[0083] 将图像数据集送进本发明所设计的网络中开始进行深度学习。输入层中图像被再次调整为224×224×3,然后被送到卷积层conv1中,该卷积层的pad为3,64个特征,大小为7×7,步长为2,输出特征为112×112×64,然后进行ReLU激活,经过pool1进行pooling3×3的核,步长为2,输出特征为56×56×64,再进行归一化。之后被送入第二层卷基层conv2,该卷积层的pad为1,卷积核大小为3×3,共192个特征,故输出特征为56×56×192,再次进行ReLU激活,经过归一化后放入pool2中进行pooling,其中核大小为3×3,步长为2,输出特征为28×28×192。之后送入inception的模型块中,将特征分成四个分支,采用不同尺度的卷积核处理多尺度问题。这四个分支如下:
[0084] 1、经过64个1×1的卷积核后特征为28×28×64。
[0085] 2、经过96个1×1的卷积核后特征为28×28×96。经过ReLU激活后再进行128个3×3的卷积,特征为28×28×128。
[0086] 3、经过16个1×1的卷积核后特征为28×28×16。经过ReLU激活后再进行32个5×5的卷积,特征为28×28×32。
[0087] 4、经过pad为1,核大小为3×3的pool层后,输出特征仍然为28×28×192。经过32个1×1的卷积核后,特征变为28×28×32。
[0088] 将四个分支的输出特征进行连接,最终的输出特征为28×28×256。然后继续将该网络层的输出特征送入残差学习的模型块。首先经过64个1×1的卷积核,输出特征为28×28×64,再经过64个3×3的卷积核后特征仍然为28×28×64,最后经过256个1×1的卷积核后特征恢复为28×28×256。我们将经过残差学习模型块的输出特征与未经过残差学习模型块的特征一并作为下一个inception的输入特征。后续的inception模型块与残差学习模型块的结合类似,这里就不再重复描述。
[0089] 将inception(3),inception(4)和inception(5)三层的输出特征经过归一化后合并送入大小为7×7的平均池中,输出特征为1×1×1024,经过降低70%输出比的dropout层,最后送入具有softmax损失的线性层作为分类器,由于共分为8类,故softmax最终为8×1的向量。
[0090] 深度学习网络的solver文件参数中通过多次训练网络,我们调整学习率为0.0001,并以step的方式更新学习率,stepsize设为320000,最大迭代次数为2000000,权重衰减设为0.0002。
[0091] 颜色分类阶段:虽然在深度学习的网络结构中保留softmax分类,但每次都使用整个网络模型的softmax进行分类会造成巨大的计算量,容易发生过拟合现象,并且无法保证在最终的卷积层输出的特征经过softmax分类后的结果就是最佳分类结果。若要修改softmax分类的参数,整个深度学习的网络需要重新分类。为解决上述问题,采用SVM分类器对网络每层的输出特征进行训练,比较训练结果,选取最高正确率的网络层特征作为今后最终车辆图像的特征,解决了调整参数的灵活性,避免了重新训练网络的过程。
[0092] 从上面所述可以看出,本发明提供的技术方案通过使用输入车辆图像作为测试样本与训练样本并进行预处理、使用训练样本训练卷积神经网络提取深层颜色特征、使用深层颜色特征训练分类器识别测试样本的车辆颜色的技术手段,提高车辆颜色识别的准确率,精简结构参数,消除过拟合。
[0093] 基于上述目的,根据本发明的第三个实施例,提供了一种执行所述基于深度学习的车辆颜色识别方法的电子设备的一个实施例。
[0094] 所述执行所述基于深度学习的车辆颜色识别方法的电子设备包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处 理器执行,以使所述至少一个处理器能够执行如上所述任意一种方法。
[0095] 如图6所示,为本发明提供的执行所述实时通话中的语音处理方法的电子设备的一个实施例的硬件结构示意图。
[0096] 以如图6所示的电子设备为例,在该电子设备中包括一个处理器601以及一个存储器602,并还可以包括:输入装置603和输出装置604。
[0097] 处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
[0098] 存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述基于深度学习的车辆颜色识别方法对应的程序指令/模块。处理器601通过运行存储在存储器602中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的基于深度学习的车辆颜色识别方法。
[0099] 存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于深度学习的车辆颜色识别装置的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0100] 输入装置603可接收输入的数字或字符信息,以及产生与基于深度学习的车辆颜色识别装置的用户设置以及功能控制有关的键信号输入。输出装置604可包括显示屏等显示设备。
[0101] 所述一个或者多个模块存储在所述存储器602中,当被所述处理器601执行时,执行上述任意方法实施例中的基于深度学习的车辆颜色识别方法。
[0102] 所述执行所述基于深度学习的车辆颜色识别方法的电子设备的任何一个实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
[0103] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流 程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
[0104] 此外,典型地,本公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本公开的保护范围不应限定为某种特定类型的装置、设备。本公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
[0105] 此外,根据本公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本公开的方法中限定的上述功能。
[0106] 此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
[0107] 此外,应该明白的是,本发明所述的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接RambusRAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
[0108] 本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本公开的范围。
[0109] 结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。
[0110] 结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
[0111] 在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外先、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激 光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
[0112] 公开的示例性实施例,但是应当注公开的示例性实施例,但是应当注意,在不背离权利要求限定的本公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本公开的元素可以以个体形式描述或要求,但是也可以设想多个,除非明确限制为单数。
[0113] 应当理解的是,在本发明中使用的,除非上下文清楚地支持例外情况,单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是,在本发明中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
[0114] 上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
[0115] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。