一种基于深度前景跟踪的彩色视频抠图方法转让专利

申请号 : CN201710639818.1

文献号 : CN107481261B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王灿进孙涛王挺峰王锐陈飞田玉珍

申请人 : 中国科学院长春光学精密机械与物理研究所

摘要 :

一种基于深度前景跟踪的彩色视频抠图方法,涉及数字图像处理领域,在开始抠图之前,由用户在深度图像上指定前景区域,明确搜索范围。随后在搜索框中,利用前背景的深度信息差,分割出前景目标。将深度图像重建到彩色图像的分辨率并进行配准,使二者逐像素对应,生成三分图;根据彩色图像的颜色信息,对三分图进行精细的调整,根据三分图和彩色图像,利用超像素梯度进行快速的前景提取;最后根据提取出的前景位置,建立和更新运动方程,预测下一帧的前景中心,更新搜索框位置。根据以上步骤,视频抠图即可逐帧完成。本发明与当前的视频抠图算法相比操作大大简化,算法复杂度低,能实现实时、准确的视频前景抠图。

权利要求 :

1.一种基于深度前景跟踪的彩色视频抠图方法,其特征在于,该方法包括如下步骤:

步骤一:判断当前帧是否为抠图第一帧:如果是,提示用户对深度图像上的前景目标做出标记,生成前景搜索框;如果否,重新寻找抠图第一帧;

步骤二:在深度图像中,根据步骤一所述的前景搜索框的位置进行前景检索,区分前景和背景;

步骤三:将步骤二所述的,区分出前景和背景的深度图像重建到步骤一中所述第一帧对应的彩色图像的尺度空间中并配准,并根据步骤二的区分结果,生成与彩色图像尺度相同的三分图;

步骤四:根据彩色图像,对三分图进行精细调整,使三分图中值为1的像素对应彩色图像的前景,值为0的像素对应彩色图像的背景,而0~1之间的像素对应前景与背景之间的边缘区域;

步骤五:利用三分图和彩色图像,将步骤四中所述的边缘区域划分为若干超像素,根据超像素梯度特征快速估计出每个超像素的不透明度,抠出当前帧的前景目标;首先对未知区域进行超像素分割,生成一系列的超像素{Sp1,Sp2,...Spi,...,Spn};假设Spi的中心为Cpi,计算其梯度Gra(Cpi),并判断:若Gra(Cpi)>Tgra,则认为Cpi是边缘上的点,沿着Gra(Cpi)的方向作直线,分别得到直线与前景区域和背景区域的第一个交点Fgi1和Bgi1,作为Spi中所有像素的前、背景点对(Fgbi、Bgbi);

若Gra(Cpi)

2.根据权利要求1所述的一种基于深度前景跟踪的彩色视频抠图方法,其特征在于,所述步骤二中,区分前景和背景的策略为,采用分水岭算法或者阈值分割。

3.根据权利要求1所述的一种基于深度前景跟踪的彩色视频抠图方法,其特征在于,所述步骤三中,将步骤二所述的,区分出前景和背景的深度图像重建到步骤一中所述第一帧对应的彩色图像的尺度空间中并配准,是基于像素位置区分的插值方法,通过固定采集深度图像的深度传感器和采集彩色图像的彩色传感器的相对位置,并对两个传感器分别进行标定得到的。

4.根据权利要求3所述的一种基于深度前景跟踪的彩色视频抠图方法,其特征在于,所述步骤三中的重建方法为,首先对深度图像用sobel算子作一次边缘检测,对于非边缘区域,采用双线性插值;对于边缘区域,采用双三次插值。

5.根据权利要求1所述的一种基于深度前景跟踪的彩色视频抠图方法,其特征在于,所述步骤四中三分图精细调整的方法,具体步骤为:假设前景区域深度均值为μm,对三分图中的每个未知区域像素 其中k为未知区域像素的编号,计算其彩色图像对应位置的3*3邻域中八个方向的三通道颜色梯度若对所有j, 并且 则 归为前景像素;

若 并且 则 归为背景像素;否则 仍为未知像素,式中Tg

和TD分别为颜色梯度阈值和深度阈值,D'HR为配准并变换到彩色图像Ic坐标空间的深度图像。

6.根据权利要求1所述的一种基于深度前景跟踪的彩色视频抠图方法,其特征在于,所述步骤六中建立并更新运动方程,具体步骤为:抠出目标后,计算前景中心Cfg,n,n为当前帧序列号,并根据前面多帧Cfg序列,建立kalman方程,预测下一帧的Cfg,n+1位置,将搜索框的中心移动至Cfg,n+1,即完成一帧抠图。

说明书 :

一种基于深度前景跟踪的彩色视频抠图方法

技术领域

[0001] 本发明涉及数字图像处理领域,具体涉及一种基于深度前景跟踪的彩色视频抠图方法。

背景技术

[0002] 视频抠图是数字图像抠图在视频上的扩展,即在每一帧中,分别计算出前景、背景和透明度,将前景目标从视频背景中抠出,随即可与任意背景图像合成,营造出逼真的换景效果。
[0003] 目前实时视频会话抠图往往需要一块纯绿色的幕布作为背景,将人物抠出后与其他背景合成。而复杂背景下的视频抠图则还停留在实验室研究阶段,需要采用关键帧或者三维时空体标记的手段,交互比较复杂,无法实时完成而只能对视频文件做事后处理。在关键帧标记法中,采用人工标记对关键帧的前景和背景分布进行标识,这些标识将采用传播策略传递到其余非关键帧中用于辅助抠图,例如CN102388391提供的前景-背景约束传播抠图、扩展贝叶斯抠图(Chuang Y Y,Agarwala A,Curless B,et al..Video matting of Complex Scenes[J].ACM Transactions on Graphics(TOG),2002,21(3):243-248)。而三维时空体标记中则将视频看作二维图像和时间坐标上的三维立方体,用户在该立方体中使用简单交互对每帧都进行标记,如交互式视频剪切(Interactive video cutout,Wang J,Bhat P,Colburn R A et al..Interactive video cutout[J].ACM Transactions on Graphics(TOG),2005,24(3):585-594)等。
[0004] 与单幅图像抠图不同的是,视频抠图应该保证时空一致性,即在同一视频序列中抠出的前景目标是一致的、完整的,同时抠图时间长短也是影响用户体验的关键因素。现有视频抠图策略的缺陷为:需要对视频序列中的某些关键帧帧进行标注,手工交互工作量大;处理时间无法满足实时性要求,算法往往是事后处理;受传播策略影响,局部边缘出现伪影和跳变。

发明内容

[0005] 为了解决现有技术中存在的问题,本发明提供了一种基于深度前景跟踪的彩色视频抠图方法,利用深度图像作为辅助信息,对前景进行检测、提取和跟踪,保证生成三分图的快速与连续性,随后根据未知区域超像素的梯度,快速选择前背景点对,估计出未知区域不透明度,完成彩色视频的抠图。
[0006] 本发明解决技术问题所采用的技术方案如下:
[0007] 一种基于深度前景跟踪的彩色视频抠图方法,该方法包括如下步骤:
[0008] 步骤一:判断当前帧是否为抠图第一帧:如果是,提示用户对深度图像上的前景目标做出标记,生成前景搜索框;如果否,重新寻找抠图第一帧;
[0009] 步骤二:在深度图像中,根据步骤一所述的前景搜索框的位置进行前景检索,区分前景和背景;
[0010] 步骤三:将步骤二所述的,区分出前景和背景的深度图像重建到步骤一中所述第一帧对应的彩色图像的尺度空间中并配准,并根据步骤二的区分结果,生成与彩色图像尺度相同的三分图;
[0011] 步骤四:根据彩色图像,对三分图进行精细调整,使三分图中值为1的像素对应彩色图像的前景,值为0的像素对应彩色图像的背景,而0~1之间的像素对应前景与背景之间的边缘区域;
[0012] 步骤五:利用三分图和彩色图像,将步骤四中所述的边缘区域划分为若干超像素,根据超像素梯度特征快速估计出每个超像素的不透明度,抠出当前帧的前景目标;
[0013] 步骤六:计算步骤五中所述当前帧前景目标的中心位置,建立并更新运动方程,对抠图结果进行传播,更新下一帧搜索框位置。
[0014] 本发明的有益效果是:本发明提出了一种对深度图像中的前景进行跟踪,并将其重构至彩色图像空间,从而辅助彩色视频抠图的方法,该方法通过搜索框的限定与更新,缩小了前景搜索范围,同时保证了时空连续性;同时,提出了一种根据超像素梯度快速估计未知区域不透明度的策略,该策略在保证估计精度的同时,计算开销很小。本发明同时使用深度传感器和彩色可见光传感器对同一目标区域进行成像,深度传感器和可见光传感器在视频拍摄过程中相对位置固定,利用深度图像作为视频抠图的辅助信息,只需用户在开始抠图之前进行一次简单的交互,在抠图过程中无需其他的交互操作,与当前的视频抠图算法相比操作大大简化,并且算法复杂度低,能实现实时、准确的视频前景抠图,在视频会话、电影制作等领域具有很好的应用前景。

附图说明

[0015] 图1是本发明一种基于深度前景跟踪的彩色视频抠图方法的流程示意图[0016] 图2是本发明提升深度图像分辨率的流程图
[0017] 图3是本发明实施例使用Kinect进行视频抠图的流程图

具体实施方式

[0018] 下面结合附图和实施例对本发明做进一步详细说明。
[0019] 一种基于深度前景跟踪的彩色视频抠图方法,如图1所示,在开始抠图之前,由用户在深度图像上指定前景的大致区域,明确搜索范围,提高抠图准确度。随后在搜索框中,利用前背景的深度信息差,分割出前景目标。将深度图像重建到彩色图像的分辨率并进行配准,使二者逐像素对应,生成三分图;根据彩色图像的颜色信息,对三分图进行精细的调整,使三分图中值为1的像素对应彩色图像的前景,值为0的像素对应彩色图像的背景,而0~1之间的像素对应前景与背景之间的边缘区域;根据三分图和彩色图像,利用超像素梯度进行快速的前景提取;最后根据提取出的前景位置,建立和更新运动方程,预测下一帧的前景中心,更新搜索框位置。根据以上步骤,视频抠图即可逐帧完成。
[0020] 步骤一,由用户在深度图像上指定前景的大致区域。最简单的方式是绘制矩形,确定搜索框;绘制时应该注意:矩形框中应该包含完整的前景目标,尽量贴近边缘,较少包含背景和其他干扰物;
[0021] 步骤二,在搜索框中,利用前景和背景的深度信息差,分割出前景目标。经过用户指定后,搜索框内的前背景区分已经比较明确,可采用简单的分水岭算法或者阈值分割勾勒出目标轮廓。由于目标的表面弧度等原因,位于边缘处的深度值有可能不均匀,导致分割出的前景小于真实目标前景,该误差将在接下来的步骤中做修正,不影响三分图生成精度。
[0022] 步骤三,需要将深度图像进行超分辨率重建,变换到彩色图像的位置和尺度空间,使其逐像素对准。这需要两个步骤:即深度图像重建和深度、彩色图像配准。深度图像重建是指将深度图像的分辨率提升到与彩色图像一致,最简单的方法是采用像素插值。本发明提出基于像素位置区分的插值方法,具体来说,如图2所示,首先对深度图像用sobel算子作一次边缘检测。
[0023] 对于非边缘区域,采用双线性插值:
[0024]
[0025] 其中:D为深度图像,u、v分别是待插值点与坐标(i,j)在水平和垂直方向的距离。
[0026] 对于边缘区域,采用双三次插值:
[0027] D(i+u,j+v)=ABC  (2)
[0028] A=[S(1+u) S(u) S(1-u) S(2-u)]  (3)
[0029]
[0030] C=[S(1+v) S(v) S(1-v) S(2-v)]T  (5)
[0031]
[0032] 其中:S(w)是双三次插值基函数,A是沿水平坐标方向的插值系数矩阵,B是16邻域深度值矩阵,C是沿垂直坐标方向的插值系数矩阵。
[0033] 双线性插值运算量小,但会丢失图像的高频信息,只适用于图像的平坦区域,在边缘处容易导致细节模糊;双三次插值计算量较大,但由于考虑了周围16邻域像素的变化情况,能使插值后图像灰度变化自然平滑,有效保护边缘。本发明采用基于边缘信息区分像素的插值方法,在平坦区域使用双线性插值,在边缘区域使用双三次插值,既能提高计算效率,又能有效保证插值后图像的清晰度。
[0034] 由于可获得多帧连续深度视频序列,因此在硬件计算能力足够的情况下,也可考虑采用基于多帧的超分辨率重建方法,例如非均匀插值、迭代反向投影、凸集投影等。在本发明实施例中,若采用多帧重建,则需要结合GPU等并行计算架构进行优化,以保证实时运算能力。
[0035] 由于深度传感器与彩色传感器的角度、位置存在偏差,需要对重建后的深度图像DHR与彩色图像Ic进行配准。由于基于图像内容的配准方法计算量较大,并且逐帧配准的策略将令算法的执行效率大大降低,因此本发明实施例采用的策略为:固定深度传感器和彩色传感器的相对位置,并对两个传感器分别进行标定,标定方法可参见文献[Raposo C,Barreto J P,Nunes U.Fast and accurate calibration of a kinect sensor[C].Proceedings of International Conference on 3DTV.Seattle,WA:IEEE,2013:342-349.],计算得到深度传感器到彩色传感器的旋转矩阵RM和平移矩阵TM。这样即可将深度图像DHR配准并变换到彩色图像Ic的坐标空间,公式为:
[0036]
[0037] 得到坐标变换后的深度图像D'HR。式中 和 分别是配准后的D'HR和配准前的DHR上的对应坐标。
[0038] 配准之后,根据深度图像的分割结果,生成三分图,即:对分割出的前景区域做一次开运算,再做一次腐蚀,消除边缘突起,得到三分图的前景;前景区域做一次膨胀,得到三分图的背景;前景与背景之间为未知区域。此处腐蚀和膨胀的形态学核尽量选的大一些,使三分图的前景和背景区域中每个像素都准确对应为彩色图像中的前景和背景,而未知区域可包含一部分前景和背景。
[0039] 步骤四,根据彩色图像的颜色信息,对三分图进行精细的调整,缩小未知区域的面积。假设前景区域深度均值为μm,对三分图中的每个未知区域像素 计算其彩色图像对应位置的3*3邻域中八个方向的三通道颜色梯度 j=0,...,7。若对所有j,并且|D'HR(pitr)-μm|<TD,则 归为前景像素;若 并且 则归为背景像素;否则 仍为未知像素。式中Tg和TD分别为颜色梯度阈值和深度阈值。这样的调整可以大大减少未知像素的个数,降低算法的后续计算量。
[0040] 步骤五,根据三分图和彩色图像,进行快速的前景提取。传统knockout算法需要对未知区域的每个像素提取多个候选前景、背景样本点并估计不透明度,计算量很大。本发明首先对未知区域进行超像素分割,生成一系列的超像素{Sp1,Sp2,...,Spn}。假设Spi的中心为Cpi,计算其梯度Gra(Cpi),并判断:若Gra(Cpi)>Tgra,则认为Cpi是边缘上的点,沿着Gra(Cpi)的方向作直线,分别得到直线与前景区域和背景区域的第一个交点Fgi和Bgi,作为Spi中所有像素的前、背景点对(Fgbi、Bgbi);若Gra(Cpi)
[0041]
[0042] 本发明不必逐点计算未知区域的前背景点,而是将超像素作为一个整体,每个超像素共享一个不透明度,这样大大减少了采样计算量,同时不对alpha精度产生大的影响;若超像素为边缘点,则取阈值纹理最接近的前景、背景点作为其采样点,若为非边缘点,则假定采样点邻域梯度平滑,取位置加权平均作为其采样点。这样的采样策略既能保证空间准确度,较大概率的得到真实采样点对,又能大大减小计算量。
[0043] 步骤六,抠出目标后,计算前景中心Cfg,n,n为当前帧序列号,并根据前面多帧Cfg序列,建立kalman方程,预测下一帧的Cfg,n+1位置。将搜索框的中心移动至Cfg,n+1,即完成一帧抠图。视频抠图即重复以上步骤。本发明提出的视频抠图方法采用前景跟踪策略,对于前景遮挡、形变等具有一定的鲁棒性。
[0044] 图3是本发明使用Kinect传感器进行视频抠图的一个实施例。Kinect中同时包含深度传感器与彩色传感器,二者位置相对固定。将深度图像变换到彩色图像的坐标空间,既可使用前面提到的棋盘法标定,也可以使用微软提供的函数MapDepthCoordinatesToColor()。在超像素分割中,使用简单线性迭代聚类(SLIC)算法。
[0045] 当然,本发明实施例也可以使用单独的深度传感器和彩色传感器进行视频抠图,此时需要保证二者的视场大致重合,并使用棋盘法进行位置标定,在此不再赘述。