一种基于字典选择的关键帧提取方法转让专利

申请号 : CN201310142884.X

文献号 : CN104123709B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 丛杨黄疆坪唐延东

申请人 : 中国科学院沈阳自动化研究所

摘要 :

本发明涉及一种基于字典选择的关键帧提取方法,包括以下步骤:对原始视频的每一帧采用VIBE背景建模方法判断每一帧是前景帧还是背景帧,提取出具有连续前景帧的前景视频段;使用视频语义分割方法对前景视频段进行二次分割得到视频段;提取每一个视频段特征,将视频段的特征集合构成字典;使用字典选择方法提取出关键帧。本发明使用关键帧代替完整视频,提高了监控效率,节省了监控视频的传输时间和存储空间,减少了资源浪费,提高了设备的利用率。

权利要求 :

1.一种基于字典选择的关键帧提取方法,其特征在于,包括以下步骤:对原始视频的每一帧采用VIBE背景建模方法判断每一帧是前景帧还是背景帧,提取出具有连续前景帧的前景视频段;

使用视频语义分割方法对前景视频段进行二次分割得到子视频段;

提取每一个子视频段特征,将子视频段的特征集合构成字典;

使用字典选择方法提取出关键帧;

所述使用字典选择方法提取出关键帧包括以下步骤:T -1 T

根据字典得到系数矩阵X=(BB+λI) BB,其中,B为字典,λ为权重系数;

然后计算X的每一行的分值 并将所有s(i)组成分值向量S,其中x(i,j)为系数矩阵X第i行第j列的元素;子视频段有n帧;

得到S中k个最大值所对应的那些行,从子视频段中提取出那些行对应的帧即为关键帧。

2.根据权利要求1所述的一种基于字典选择的关键帧提取方法,其特征在于:所述VIBE背景建模方法中的当前点和样本点特征为RGB值和LBP值。

3.根据权利要求1所述的一种基于字典选择的关键帧提取方法,其特征在于:所述子视频段特征包括前景部分像素数量、前景部分边缘像素数量、前景部分颜色直方图、前景进入点数量和离开点数量、前景位置特征、前景连通域数量、前景连通域平均面积及前景连通域时间变化。

说明书 :

一种基于字典选择的关键帧提取方法

技术领域

[0001] 本发明涉及视频分析领域,具体的说是一种基于字典选择的关键帧提取方法。

背景技术

[0002] 随着现代社会发展对安全需求的提高,遍布全社会的监控探头记录下了大量的监控视频。通常我们将监控视频从探头处传输到监控中心,使用人工察看监控视频并将完整的监控视频存储下来。但监控视频中大部分都是静止的背景图像,仅有那些出现前景物体的帧才是监控人员有必要观看的,而且即使是这些前景帧,有很多都是相似的,即内容冗余。随着观看视频时间的增加,监控人员会疲劳,从而漏过重要信息。夹杂大量冗余信息的监控视频,其传输、存储消耗了大量的时间和空间,即降低了监控系统的设备利用率,也形成了巨大的浪费。
[0003] 为了提高监控效率,减少资源浪费,我们需要从监控视频中挑选出关键帧。一段监控视频所有的关键帧,其信息总量应与整段视频的信息总量相同或相近。因此我们仅仅将从监控地点挑选出的关键帧传输至监控中心并存储,监控人员也仅仅察看这些关键帧,而不是冗长的完整的监控视频。
[0004] 这样做的好处有:一方面节省了人力资源,缩短监控人员观看监控视频的时间,提高监控效率;另一方面节省了监控视频的传输时间和存储空间,减少了资源浪费,提高了设备的利用率。例如对于电梯门口的视频,我们可以提取出关键帧给监控人员观看,监控人员就能很容易的知道在什么时候有什么人进入电梯,而不必长时间的观看无人的电梯口;又或者需要远程监控仓库,受限于网络速度,难以实时传回完整的监控视频,可以在监控的当地提取出关键帧,只将关键帧传回给监控中心,这就节省了大量的网络资源。

发明内容

[0005] 针对现有技术中存在的上述问题,本发明提出了一种基于字典选择的关键帧提取方法。
[0006] 本发明为实现上述目的所采用的技术方案是:一种基于字典选择的关键帧提取方法,包括以下步骤:
[0007] 对原始视频的每一帧采用VIBE背景建模方法判断每一帧是前景帧还是背景帧,提取出具有连续前景帧的前景视频段;
[0008] 使用视频语义分割方法对前景视频段进行二次分割得到子视频段;
[0009] 提取每一个子视频段特征,将子视频段的特征集合构成字典;
[0010] 使用字典选择方法提取出关键帧。
[0011] 所述VIBE背景建模方法中的当前点和样本点特征为RGB值和LBP值。
[0012] 所述子视频段特征包括前景部分像素数量、前景部分边缘像素数量、前景部分颜色直方图、前景进入点数量和离开点数量、前景位置特征、前景连通域数量、前景连通域平均面积及前景连通域时间变化。
[0013] 所述使用字典选择方法提取出关键帧包括以下步骤:
[0014] 根据字典得到系数矩阵X=(BTB+λI)-1BTB,其中,B为字典,λ为权重系数;
[0015] 然后计算X的每一行的分值 并将所有s(i)组成分值向量S,其中x(i,j)为系数矩阵X第i行第j列的元素;
[0016] 得到S中k个最大值所对应的那些行,从子视频段中提取出那些行对应的帧即为关键帧。
[0017] 本发明具有以下优点:
[0018] 1.本发明针对监控视频的特点,采用背景建模方法获取前景帧,从前景帧中提取有效特征。
[0019] 2.本发明使用背景建模方法和视频语义分割方法将原始视频切割成易于处理的子视频。
[0020] 3.本发明利用从前景视频序列中提取的特征组成字典,使用所提出的字典选择模型来挑选出关键帧。
[0021] 4.本发明使用关键帧代替完整视频,提高了监控效率,节省了监控视频的传输时间和存储空间,减少了资源浪费,提高了设备的利用率。

附图说明

[0022] 图1为本发明方法流程图;
[0023] 图2为本发明实施例视频处理过程示意图及关键帧结果实例图。

具体实施方式

[0024] 下面结合附图及实施例对本发明做进一步的详细说明。
[0025] 本发明是一种基于字典选择的关键帧提取方法,包括以下步骤:
[0026] 对原始视频的每一帧采用改进型VIBE背景建模方法判断每一帧是前景帧还是背景帧,提取出具有连续前景帧的前景视频段;
[0027] 使用视频语义分割方法对前景视频段进行二次分割;
[0028] 对分割出来的每一个视频段,从其每一帧中提取出特征,该视频段的特征集合构成字典;
[0029] 使用字典选择方法提取出关键帧。
[0030] 其中,背景建模方法为使用RGB值和LBP值的改进型VIBE背景建模方法。
[0031] 视频语义分割方法为使用边缘变化率(ECR)值进行分割。
[0032] 特征可以是前景部分像素数量、前景部分边缘像素数量、前景部分颜色直方图、前景进入点数量和离开点数量、前景位置特征、前景连通域数量、平均面积及时间变化或上述特征的组合。
[0033] 字典选择方法使用F范数,使用解析解求出系数矩阵,依据分值向量的极大值确定关键帧。
[0034] 如图1所示,本发明具体包括如下步骤:
[0035] S01:前景视频段提取。利用VIBE背景建模方法,获得原始视频的前景图像序列,设定一个前景像素比例的的阈值,判定每一帧分为前景帧或背景帧,将连续的前景帧提取为前景视频段。
[0036] VIBE背景建模方法使用q个样本点作为样本集,每个点以其RGB值和LBP值作为特征。通过度量当前点与样本点的距离来标识当前点与样本点是否适合。若当前点与超过基数(pmin)个样本点适合,则该点被判定为背景,否则为前景。设cdk为当前点的第k维特征,相应的sdk为样本点的第k维特征(k=1,2,…,z),如果仅采用RGB值作为特征,则特征维数z为3;fi表示当前点与第i个样本点的适合度(i=1,2,…,q),pmin为基数,则有:
[0037]
[0038]
[0039] pmin为最小样本基数,若当前点与超过样本集中的pmin个点适合,即p(x,y)=0,则当前点被归为背景(0),否则当点(x,y)的类别p(x,y)=1时为前景(1)。这里R为距离阈值,z为特征维数,每个像素都具有q个样本点。在载入视频第一帧的时候,随机选择q个当前点的邻域点作为样本点,就完成了样本集的初始化。当某个点被判定为背景时,有一定的几率更新其自身和邻域点的样本集。
[0040] 基本的LBP值是将八个邻域像素以其中心像素的灰度为阈值进行比较,并产生一个8位的无符号数,即得到该像素的LBP(Local Binary Patterns)值,如下式所示:
[0041]
[0042] 这里gc是中心像素(xc,yc)的灰度值,gp是八个邻域像素的灰度值。而函数s(x)定义如下:
[0043]
[0044] 至此,我们在基于Vibe方法的背景提取中,每个像素使用了4个特征值,即像素的RGB值和LBP值,因此式(1)中,特征维数z=4。
[0045] 在没有有效信息的背景帧中,肯定不存在关键帧,因此我们依据下式将图像划分为背景帧或前景帧:
[0046]
[0047] 其中图像宽高分别为w和h,AN为图像的总像素数,即AN=w*h,ε为前景占比阈值。FN为前景像素数。当一副图像中,前景像素占整幅图像像素的比例低于ε时,我们简单地判定其为背景帧。对于背景帧,我们将其从待处理的原始视频中剔除,这样就从原始视频中提取出了前景视频段。
[0048] S02:对于由连续前景帧组成的前景视频段通常还是太长,难以用字典选择方法提取关键帧,因此,需要使用视频语义分割技术对视频再次分割。
[0049] 考虑监控视频的亮度变化(例如一天之中自然光的亮度变化),因此使用边缘作为检测的特征。用σn表示第n帧的边缘像素的数量,用σn-1表示第n-1帧边缘像素的数量, 和分别表示进入第n帧和离开第n-1帧的边缘点的数量,由此定义边缘变化率为:
[0050]
[0051] 其取值范围为[0,1]。为应对物体运动影响度量的准确性,一幅图像与另一幅图像相应位置处邻近的边缘像素不再被看做进入或离开的边缘像素。因此,在计算ECR之前,若相邻两帧中两个边缘点的距离小于τ(一般取值3或5),则这将这两个点视作同一位置的边缘点。
[0052] 我们仅在具有连续前景的子视频中计算ECR值,然后用求取ECR的局部极大值所对应的帧将连续前景视频段分割成更短的子视频。
[0053] S03:监控视频图像中背景画面所占比例较大,其特征值不明显,因此从视频的前景部分提取特征。本方法所提取的特征包括:
[0054] 1.前景面积,即前景部分像素点的数量;
[0055] 2.前景区域的周长,即前景中边缘点的数量;
[0056] 3.前景的归一化RGB直方图,每个颜色值的取值范围为0-255,因此归一化RGB直方图共有768维;
[0057] 4.前景的时间差异,包括进入点数量和离开点数量。进入点数量即上一帧为背景,当前帧为前景的像素的数量;离开点数量即即上一帧为前景,当前帧为背景的像素的数量。由于每一帧的前景像素数量不会相同,因此对进入点数量和离开点数量还需进行归一化处理,即对进入点数量除以当前帧前景像素总数,离开点数量除以上一帧前景像素总数。
[0058] 5.前景位置特征,即将画面中心作为原点,计算每个前景点到原点的距离,并累加所有前景点的该距离值,最后进行归一化处理,即除以所有点到中心点的距离和,得到前景位置特征。
[0059] 6.前景连通域数量c;
[0060] 7.前景连通域平均面积:
[0061]
[0062] 这里c为前景连通域总数,c(i)为第i个连通域的面积(即像素数量)。
[0063] 8.连通域时间变化|c-p|,这里c为当前帧的前景连通域数量,p为上一帧的前景连通域数量。
[0064] 从以上所述可知,我们从每一帧视频中提取出776维特征(768维加上述8维特征),即特征维数d=776,若某个子视频段有n帧,则所有这些帧的特征集合成字典B,[0065] S04:我们使用字典选择方法从子视频段中提取关键帧,即从原始字典B中挑选出具有最小尺寸的最优字典 这样,我们就从n帧视频中挑选出了m帧作为关键帧。字典选择的原理如下:
[0066]
[0067] 这里λ为权重系数,X是系数矩阵,且 ||X||F为F范数。使上式最小的系数矩阵X即对应于最优字典B′,即B′抽取自B中满足以下条件的那些行:||Xi.||2≠0的所有样本i组成,这里Xi.表示X的第i行。在实际应用中,为了抽取指定数量的关键帧(例如指定抽取m帧),计算X每一行的分值s(i):
[0068]
[0069] 这里x(i,j)为系数矩阵X第i行第j列的元素。所有s(i)组成分值向量S,且求出S中m个最大值所对应的那些行,即r=1,2,…m,则从子视频段中提取出对应的帧作为关键帧。
[0070] 从式(8)中求出系数矩阵X的方法如下:
[0071] F范数可被看作是L2范数的一种,可以写为 而tr(A)=∑iAii为矩阵A的迹。因此我们可重写式(8):
[0072] Fs=argminBtr((B-BX)T(B-BX))+λtr(XTX)    (10)
[0073] 这里 而 为了解出该等式,我们对其求导:
[0074]
[0075] 显然,这是一个凸优化问题,可以使用多项式优化方法解出来,即:
[0076]
[0077] 因此可得:
[0078]
[0079]
[0080] 则有:
[0081] -2BTB+2BTBX+λ2X=0    (15)
[0082] 即:
[0083] (BTB+λI)X=BTB    (16)
[0084] 此处 为单位阵。一般来说,λ>0因此(BTB+λI)是满秩矩阵,肯定存在逆矩阵,于是得到X的解析解:
[0085] X=(BTB+λI)-1BTB    (17)
[0086] 由上所述,我们根据式(17),由字典B可求出系数矩阵X。
[0087] 如图2所示,第一行表示首先使用VIBE背景建模方法标记出原始视频中的前景视频段,如#150~#8250。接着第二行表示针对每一个前景视频段,使用视频语义分割技术对其进行再次分割,得到每一个待处理的子视频段,如#200~#5200。第三行表示从子视频段的每一帧里提取出特征,组成原始字典,最后使用字典选择方法挑选出关键帧,如#506、#786、#923等等,显示在最后三行的图片墙里。