一种基于视频的目标车辆提取方法转让专利

申请号 : CN201710674756.8

文献号 : CN107491748B

文献日 : 2018-10-02

本发明公开了一种基于视频的目标车辆提取方法，其旨在解决现有技术中目标车辆提取过程忽略同一车辆在不同帧中的特征信息存在的差异问题而导致部分帧目标车辆提取失败从而造成结果视频压缩准确率低的问题，本申请通过第一次特征提取，筛选出目标车辆，再进行去除静止车辆，再进行后续视频帧与目标车辆进行相似性匹配，匹配成功则不再进行特征提取与匹配，避免同一辆车在不同的视频帧中反映的特征信息有一定的差异而导致特征提取误差从而影响压缩的准确性的问题，本发明采用的方法提高了结果视频压缩的准确性，同时克服了现有技术中认为需要视频帧进行每帧每帧进行特征提取的技术壁垒；本申请适用于视频图像处理领域。

1.一种基于视频的目标车辆提取方法,其特征在于，包括以下步骤：步骤1、车辆检测与车辆跟踪

步骤1.1、车辆检测：定位出视频帧中的车辆；

步骤1.2、车辆跟踪：建立用于存放检测视频帧中车辆的车辆匹配列表，并后续帧中的车辆与车辆匹配列表的车辆进行相似性匹配，匹配成功则用后续帧中的车辆替换车辆匹配列表的车辆；

步骤2、特征提取与特征匹配

提取视频帧中车辆的车辆特征，并将提取的车辆特征与输入特征进行匹配，匹配成功时，则判断对应车辆为目标车辆；

步骤3、目标车辆提取

步骤3.1、去除静止车辆：建立静止车辆列表，在静止车辆列表设定时间标识位存储车辆在视频中存在的时间，所述步骤1.2中匹配成功则用后续帧中的车辆替换车辆匹配列表的车辆的同时，时间标识位进行累计，当时间标识位累计超过设定时间阈值时，则将车辆匹配列表对应车辆移到静止车辆列表；

步骤3.2、提取完整的车辆行驶过程：在步骤3.1处理后的车辆匹配列表中设定条件标识位存储当前目标车辆是否符合输入特征，如当前车辆目标符合输入特征，后续的视频帧中的车辆目标先与当前车辆匹配，如匹配成功就不再进行特征提取与特征匹配的操作，对应帧符合目标车辆提取的条件；

当条件标识位从初始变为符合时，系统会向前提取设定视频帧，获取目标车辆行驶的完整过程的结果视频。

2.如权利要求1所述一种基于视频的目标车辆提取方法,其特征在于，所述步骤3.2中设定视频帧为y，具体计算公式如下：width和height分别车辆检测框的宽度和高度，maxWidth和maxHeight是视频帧检测框的最大宽度和高度，其中x为车辆从此时到该车辆从视频中消失时间隔的帧数。

3.如权利要求2所述的一种基于视频的目标车辆提取方法,其特征在于，所述y取上限

100。

4.如权利要求1所述的一种基于视频的目标车辆提取方法,其特征在于，所述步骤1中的车辆跟踪的具体步骤为：步骤1.2.1、建立用于存放检测视频帧中车辆的车辆匹配列表；

步骤1.2.2、每当调用识别系统检测出一辆车，将这辆车对应视频帧及信息存放入车辆匹配列表中，并把车辆在匹配列表中的未匹配次数置0；

步骤1.2.3、使用相似性匹配处理时下一帧中车辆，相似性匹配成功则用匹配成功的视频帧替换列表中车辆匹配列表的视频帧，并把替换后的车辆匹配列表的视频帧的未匹配次数重新置为0，在处理一帧结束后，遍历车辆匹配列表，对所有在这帧未匹配的项的未匹配次数+1，并删除连续三帧未匹配上的项。

5.如权利要求1或4任一所述的一种基于视频的目标车辆提取方法,其特征在于，所述步骤1.2中的车辆跟踪的相似性匹配采用Dense-sift匹配方法，具体包括：将视频帧分成了n*n的方格，计算每个方格的Sift特征，提取方格数*128长度的特征向量，进行最大池化操作，获得当前帧的向量值a并获取下一帧的向量值b；

设定余弦相似性阈值，若余弦相似性值cosθ大于余弦相似性阈值，则当前帧与下一帧匹配成功，否则匹配不成功，其中余弦相似性值cosθ的计算公式为：其中a为当前帧的向量值，b为下一帧的向量值。

6.如权利要求1所述的一种基于视频的目标车辆提取方法,其特征在于，所述车辆特征包括车辆颜色和车辆车型。

7.如权利要求1或6任一所述的一种基于视频的目标车辆提取方法,其特征在于，所述车辆特征包括车辆颜色，所述步骤2中特征提取与匹配具体为：步骤2.1：特征提取，利用车辆颜色样本训练得到车辆颜色提取模型，车辆通过车辆颜色提取模型计算获取匹配列表中车辆的车辆颜色为C1和C2，对应的概率值为P1和P2；

步骤2.2：特征匹配，将步骤2.1获得的车辆的车辆颜色的概率值与输入的目标颜色特征为Ci进行匹配，如果P1≥0.5且C1为Ci，匹配成功，如果P1<0.5，但C1为Ci或者C2为Ci，匹配成功；否则匹配失败。

8.如权利要求7所述的一种基于视频的目标车辆提取方法,其特征在于，所述步骤2.1特征提取通过GoogleNet Inception V4网络结构训练得到车辆颜色提取模型。

一种基于视频的目标车辆提取方法

技术领域

[0001] 本发明涉及视频图像处理领域，具体来说，涉及一种基于视频的目标车辆提取方法。

背景技术

[0002] 随着社会的飞速发展，社会经济具有很大进步，交通随之发生着日新月异的变化。车辆对人们生活产生了巨大的改变，社会节奏得到很大程度的加快，人们的工作效率极大的得到提高。但是车辆也带来了许多社会问题，比如交通事故频发，那么如何进行车辆的形式监管成为一个热点。现在采用摄像头进行视频监管，但是视频数据量大，数据内容多，如何进行有效的目标车辆的提取就成为了另一个问题。现有的车牌自动识别、环形线圈检测法、事先划分识别方法等各种目标帧提取方法，但是在实际场景中，车牌号遮挡、车辆速度过快以及车身的损害等各种问题均有可能会影响目标帧提取的效果。在实际的应用中，通常需要在视频包中，先进行车辆特征提取，再将提取出包含目标车辆的完整视频进行压缩过程，简称结果视频，以判断目标车辆的行车过程。但是一段视频中，目标车辆的状态不一样，比如车辆突然加速等，那么就可能会导致特征提取失败，从而导致结果视频的提取准确性低；同时视频中的车辆一般行驶到视频中部甚至近处才会有正确的特征信息，那么就会导致目标车辆在结果视频中可能会突然出现或突然消失的情况，直接压缩会丢失车辆进入视频的过程也会导致车俩信息提取不完整，在需要结果视频进行判断车辆动作记录的时候，若结果视频记录不完整或关键部分的压缩失败，目标提取过程就会毫无意义，那么如何提取完整的目标车辆的行驶过程以及准确的结果视频压缩就成为了亟需解决的问题。同时在采集多个同类目标时候，有些属于目标车辆，但是其处于静止状态，没有检测或提取的必要，那么对于提取该静止的目标车辆的意义不大，提取之后会极大影响结果视频的压缩率等问题。

发明内容

[0003] 本发明的目的在于：针对现有技术中目标车辆提取过程忽略同一车辆在不同帧中的特征信息存在的差异问题而导致部分帧目标车辆提取失败从而造成结果视频压缩准确率低的问题，本发明提供了压缩准确率更高的一种基于视频的目标车辆提取方法。

[0004] 本发明采用的技术方案如下：

[0005] 本申请提供了一种基于视频的目标车辆提取方法,包括以下步骤：

[0006] 步骤1、车辆检测与车辆跟踪

[0007] 步骤1.1、车辆检测：定位出视频帧中的车辆；

[0008] 步骤1.2、车辆跟踪：建立用于存放检测视频帧中车辆的车辆匹配列表，并后续帧中的车辆与车辆匹配列表的车辆进行相似性匹配，匹配成功则用后续帧中的车辆替换车辆匹配列表的车辆；

[0009] 步骤2、特征提取与特征匹配

[0010] 步骤2.1、特征提取：提取视频帧中车辆的车辆特征；

[0011] 步骤2.2、特征匹配：将步骤2.1中的车辆特征与输入特征进行匹配，当匹配成功时，则判断对应车辆为目标车辆；

[0012] 步骤3、目标车辆提取

[0013] 步骤3.1、去除静止车辆：建立静止车辆列表，在静止车辆列表设定时间标识位存储车辆在视频中存在的时间，后续的视频帧的车辆对步骤1.2所述的车辆匹配列表中的车辆进行替换时，时间标识位进行累计，当时间标识位超过设定时间阈值时，则将车辆匹配列表对应车辆移到静止车辆列表；

[0014] 步骤3.2、提取完整的车辆行驶过程：在步骤3.1处理后的车辆匹配列表中设定条件标识位存储当前目标车辆是否符合输入特征，如当前车辆目标符合输入特征，后续的视频帧中的车辆目标先与当前车辆匹配，如匹配成功就不再进行特征提取与特征匹配的操作，对应帧符合目标车辆提取的条件；

[0015] 所述步骤3.2中的输入特征与步骤2.2中的输入特征属于同一概念。

[0016] 当条件标识位从初始变为符合时，系统会向前提取设定视频帧，获取目标车辆行驶的完整过程的结果视频。

[0017] 为了进一步确定向前提取的设定视频帧的取值，具体地，所述步骤3.2中设定视频帧为y，具体计算公式如下：

[0018]

[0019] width和height分别车辆检测框的宽度和高度，maxWidth和maxHeight是视频帧检测框的最大宽度和高度，其中x为车辆从此时到该车辆从视频中消失时间隔的帧数。

[0020] 具体地，所述y取上限100。

[0021] 其中y的取值并不固定，取y为100帧也就是4秒钟，车辆经过摄像头的时间与车速相关，大多在3s到10s之间；而一般目标车辆在视频的中部就会检测到，缺失的前部分大约在2s到5s左右，取了4s钟，所以选用y为100帧。

[0022] 具体地，所述步骤1.2的具体步骤为：

[0023] 步骤1.2.1、建立用于存放检测视频帧中车辆的车辆匹配列表；

[0024] 步骤1.2.2、每当调用识别系统检测出一辆车，将这辆车对应视频帧及信息存放入车辆匹配列表中，并把车辆在匹配列表中的未匹配次数置0；

[0025] 步骤1.2.3、使用相似性匹配处理时下一帧中车辆，相似性匹配成功则用匹配成功的视频帧替换列表中车辆匹配列表的视频帧，并把替换后的车辆匹配列表的视频帧的未匹配次数重新置0，在处理一帧结束后，遍历车辆匹配列表，对所有在这帧未匹配的项的未匹配次数+1，并且删除连续三帧未匹配上的项。

[0026] 为了更加准确进行相似性匹配，所述步骤1.2中的车辆跟踪的相似性匹配采用Dense-sift匹配方法，具体包括：

[0027] 将视频帧分成了n*n的方格，计算每个方格的Sift特征，提取方格数*128长度的特征向量，进行最大池化操作，获得当前帧的向量值a并获取下一帧的向量值b，设定余弦相似性阈值，若余弦相似性值cosθ大于余弦相似性阈值，则当前帧与下一帧匹配成功，否则匹配不成功，其中余弦相似性值cosθ的计算公式为：

[0028]

[0029] 其中a为当前帧的向量值，b为下一帧的向量值。

[0030] 具体地，所述车辆特征包括车辆颜色和车辆车型。

[0031] 具体地，所述车辆特征包括车辆颜色，所述步骤2中特征提取与匹配具体为：

[0032] 步骤2.1、特征提取，利用车辆颜色样本训练得到车辆颜色提取模型，车辆通过车辆颜色提取模型计算获取匹配列表中车辆的车辆颜色为C1和C2，对应的概率值为P1和P2；

[0033] 步骤2.2、特征匹配，将步骤2.1获得的车辆的车辆颜色的概率值与输入的目标颜色特征为Ci进行匹配，如果P1≥0.5且C1为Ci，匹配成功，如果P1<0.5，但C1为Ci或者C2为Ci，匹配成功；否则匹配失败。

[0034] 具体地，所述步骤2.1特征提取通过GoogleNet Inception V4网络结构训练得到车辆颜色提取模型。

[0035] 综上所述，由于采用了上述技术方案，本发明的有益效果是：

[0036] 1.本发明首先对目标车辆进行特征提取与匹配，输入条件标识，再进行进行目标车辆进行相似性匹配，匹配成功则不再进行特征提取与匹配，避免同一辆车在不同的视频帧中反映的特征信息有一定的差异而导致特征提取误差从而影响压缩的准确性的问题，即本申提高了结果视频压缩的准确性，同时克服了现有技术中认为视频需要进行每帧每帧特征提取的技术壁垒；

[0037] 2.本发明通过向前提取若干视频帧放入最终的结果视频中，以保证车辆行驶过程的完整性，避免出现最终的结果视频中车辆信息的缺失，解决了现有技术中目标车辆提取过程通常在目标车辆在不同视频帧的特征有差别而造成目标车辆从出现到消失过程提取不完整的问题，保证了结果视频的压缩完整性；

[0038] 3.本发明对目标车辆进行时间标识，时间标志位大于设定阈值时，将这辆车移到静止车辆列表中，新的视频帧中的车辆每次都会先和静止车辆列表中的车辆进行匹配，剔除出了一些无意义的静止目标车辆，实现了动态车辆的完整行驶过程记录，在降低了整个视频的压缩率的同时还提高了结果视频的压缩针对性；

[0039] 4.本发明通过改进的Dense-sift匹配方法来进行目标车辆跟踪，同时匹配车辆的颜色和车型特征，从而增加了目标车辆特征提取的准确性，从而进一步的增加了结果视频的压缩准确性；

[0040] 5.本发明中去除静止车辆，由此使得后期获取目标车辆的行驶过程中可以采用自适应车辆检测框，从而进一步提高了检测的准确性；

[0041] 6.目标车辆在视频的中部就会检测到，而车辆经过摄像头的时间为4秒左右，那么对应的y值为100，也就是当y取值为100的时候，能够保证车辆的行驶过程是完整连续的；

[0042] 7.本发明车辆跟踪步骤中建立车辆匹配列表，进行相似替换，避免了列表过于庞大的问题，同时也减少了后期处理量。

附图说明

[0043] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本发明的主旨。

[0044] 图1是本发明目标车辆提取方法的结构图；

[0045] 图2是本发明车辆检测过程的示意图；

[0046] 图3是本发明特征提取过程示意图；

[0047] 图4是IoU匹配方法矩形重叠示意图；

具体实施方式

[0048] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0049] 下面结合图1-图3对本发明作详细说明。

[0050] 实施例一

[0051] 步骤1、车辆检测与跟踪

[0052] 步骤1.1、车辆检测

[0053] 以应用场景的真实数据为训练样本训练SSD车辆检测模型，以输入视频为处理对象，可输入任何格式以及任何时间段的的视频录像，之后逐帧调用车辆检测模型，获取视频内车辆所在区域的坐标。

[0054] 步骤1.2、车辆跟踪

[0055] 通过一个匹配列表策略对每个相邻视频帧检测到的车辆进行匹配，完成对每个车辆的视频内的跟踪。

[0056] 匹配列表策略：

[0057] 系统维护了一个存放待匹配图像的列表来存放已经检测出的车辆，每当调用识别系统检测出一辆车而不是用匹配模块匹配出一辆车时，将这张车辆图片以及它的信息存放入待匹配列表中，并且把这张图的未匹配次数置0(所有的车辆都未匹配上这辆车的连续帧数，3代表连续处理3帧未匹配上)。使用匹配模块进行处理时如果某一项匹配上输入图片，就用匹配成功的图片替换列表中的相应图片，并把这张图的未匹配次数重新置0。在处理一帧结束后，遍历待匹配列表，对所有在这帧未匹配的项的未匹配次数+1，并且删除调值为3的项，这样就避免了列表过于庞大的问题；本申请采用的提取dense-sift特征进行相似度计算，通过这个策略，能够有效减少对图片进行识别的次数。

[0058] (1)Dense-sift匹配方法：

[0059] Dense-sift和传统的SIFT特征提取有一些细节上的区别，传统的SIFT是对目标的SIFT特征进行检测，然后提取最富有表现力的特征，而这个特征的数量是不确定的。而dense-sift是舍弃了筛选最富有表现力的特征的过程，而是直接把图片分成了n*n的方格，然后直接计算每个方格的Sift特征，这样每张样本提取的特征向量的维度是稳定的，均为方格数量*128。

[0060] 得到了方格数*128长度的特征向量后，由于向量维度巨大，不适合直接计算相似度，所以需要进行最大池化操作。余弦相似性指的是空间中两条向量之间的夹角theta，当两条向量越相似，他们的夹角theta的余弦值越接近于1，同时theta越接近于0，再使用一个阈值来判断是否匹配就能够完成匹配过程。两条向量的余弦值公式如下：

[0061]

[0062] (2)IoU匹配方法：

[0063] Dense-sift相比于IoU匹配方法更加准确，详细来说，IoU匹配方法借鉴的是物体检测中的一个性能指标，含义是真实物体的bounding box和检测出的bounding box的重叠率，这是一个非常简单的判断车辆匹配的方法。视频中的车辆在相同几帧间的移动距离有限，相同的车辆的bounding box在连续几帧中会有非常高的重叠率，只需要设定一个阈值就可以通过重叠率来判断是否为上一帧中同样的车辆。重叠率的计算为(A∩B)/(A∪B)。实验中设置阈值为0.6，即重叠率超过0.6的认为是同一辆车。这种方案的缺点是比较依赖于bounding box的检测，如果bounding box的检测具有波动性的话就会完全失去效果。

[0064] 步骤2、特征提取与匹配

[0065] 步骤2.1、特征提取

[0066] 特征提取即提取步骤1检测到的车辆的颜色和车型特征。通过大量的带标签的颜色和车型样本，采用GoogleNet Inception V4网络结构，分别训练车辆的颜色和车型特征提取模型。车辆通过模型计算返回车辆属于每个颜色或者车辆类别的概率，例如：车辆A通过颜色特征提取模型计算后的结果为：黑色75％，灰色20％，蓝色5％。

[0067] 步骤2.2、特征匹配

[0068] 特征匹配即将模型计算的结果与输入的特征进行匹配，为减少目标提取的漏检率，系统采用以下的匹配策略(以颜色特征为例)：输入的颜色特征类别为Ci，车辆经过颜色特征提取模型的返回的前两个类别为C1,C2，对应的概率为P1,P2：如果P1≥0.5且C1为Ci，匹配成功；如果P1<0.5，但C1为Ci或者C2为Ci，匹配成功；否则匹配失败。

[0069] 步骤3、目标车辆提取

[0070] 目标车辆提取即将视频中符合输入条件的车辆的视频片段提取出来，由于视频场景的多样性，系统选择车辆的车型和颜色这两种特征作为条件进行目标提取，将视频压缩位只包含目标车辆的短视频。整个压缩过程以步骤2的结果为依据，将匹配成功的车辆视频片段分别提取并整合，压缩为一段短视频。整个压缩过程存在以下问题：

[0071] (1)视频中存在符合输入条件的静止车辆，降低了整个视频的压缩率；

[0072] (2)同一辆车在不同的视频帧中反映的特征信息有一定的差异，影响压缩的准确性；

[0073] (3)视频中的车辆一般行驶到视频中部甚至近处才会有正确的特征信息，直接压缩会丢失车辆进入视频的过程。

[0074] 步骤3.1、去除静止车辆

[0075] 为解决视频中存在符合输入条件的静止车辆这一现象，系统采用了一个静止车辆列表策略。与匹配列表类似，通过维护一个静止车辆列表保存视频中所有的静止车辆图片。静止车辆列表的规定如下：在匹配列表中设定一个标识位存储车辆在视频中存在的时间，当一个新的视频帧对匹配列表中的某辆车进行更新时，时间标识位加1，当时间标志位大于某个阈值时，将这辆车移到静止车辆列表中。新的视频帧中的车辆每次都会先和静止车辆列表中的车辆进行匹配，只有匹配不成功才会继续和匹配列表中的车辆进行匹配。

[0076] 步骤3.2、提取完整的车辆行驶过程

[0077] 在进行车辆提取之前，系统会对输入视频进行一段时间的参数收集，提取各种类型的最大车辆检测框，系统用maxWidth和maxHeight2个参数来保存最大车辆检测框MRect，width为检测框的宽度，height为检测框的高度。

[0078] 在车辆匹配列表中，用一个条件标识位存储当前车辆目标是否符合输入条件，0表示当前目标不符合，1表示当前目标符合。初始时，该标识位置0，当该目标与输入条件进行特征匹配处理后，符合输入条件，将该标识位置1，之后的视频帧中的车辆目标如果与该车辆匹配，就不再进行特征提取与特征匹配的操作，直接视为该帧符合车辆提取的条件，这样就会避免当前视频帧之后的车辆特征提取错误后，造成目标提取视频帧的丢失。

[0079] 当某帧中，车辆的条件标识位从0变1，系统会向前提取若干视频帧放入最终的结果视频中，以保证车辆行驶过程的完整性，避免出现最终的结果视频中车辆信息的缺失。我们采用如下的方法确定提取的视频帧数：设定车辆的条件标识位从0变1时，该车辆检测框的宽度和高度分别为width和height，统计该车辆从此时到该车辆从视频中消失时间隔的帧数为x，则向前提取的视频帧数为：

[0080]

[0081] y的上限为100。通过这种方式，保证了最后的结果视频中目标从出现到消失始终是个完整的过程，不会出现目标突然出现的情况，也不会出现目标突然消失的情况。

[0082] 以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

一种基于视频的目标车辆提取方法转让专利

申请号 : CN201710674756.8

文献号 : CN107491748B

文献日 : 2018-10-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 牛新征 , 孔小江 , 李师航 , 卢享 , 李柯江

申请人 : 电子科技大学

摘要 :

权利要求 :

说明书 :