基于3D视频的时空域运动分割与运动估计方法转让专利

申请号 : CN201110431984.5

文献号 : CN102521846B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 于慧敏王诗言

申请人 : 浙江大学

摘要 :

本发明公开了一种基于3D视频的时空域运动分割与运动估计方法,其实施步骤如下:1)通过3D视频获取系统获取包含运动目标和背景区域的3D视频;2)建立基于背景三维运动特性的二维运动场参数模型;3)定义分割曲面,将所述二维运动场参数模型和分割曲面嵌入活动轮廓模型得到基于时空域的目标函数;4)对所述目标函数进行最小化求解得到3D视频获取系统的运动参数、运动目标的运动参数以及目标曲面。本发明具有运动分析准确可靠、鲁棒性高、无摄像机运动先验依赖、适合复杂运动、应用范围广的优点。

权利要求 :

1.一种基于3D视频的时空域运动分割与运动估计方法,其特征在于其实施步骤如下:

1)通过3D视频获取系统获取包含运动目标和背景区域的3D视频;

2)建立基于背景三维运动特性的二维运动场参数模型;

所述二维运动场参数模型的约束方程为:

Iop(T,W,x)=Ix×fu(T,W)+Iy×fv(T,W)+It=0其中Iop(T,W,x)为3D视频的每一帧图像中像素点x上的光强变化,Ix为图像灰度的横向差分,Iy为图像灰度的纵向差分,It为图像灰度的时间差分,T为三维运动的平移变量,W为三维运动的旋转变量,fu(T,W)为像素点x在x方向上的光流与平移变量T、旋转变量W的关系,fv(T,W)为像素点x在y方向上的光流与平移变量T、旋转变量W的关系,且fu(T,W)和fv(T,W)的表达式为其中t1,t2,t3分别代表平移变量T在x,y,z轴方向的值,w1,w2,w3分别代表旋转变量W在x,y,z轴方向的值,x为像素点在图像坐标中的x轴坐标值,y为像素点在图像坐标中的y轴坐标值,Z为像素点在空间坐标中的z轴坐标值;

3)定义分割曲面,将所述二维运动场参数模型和分割曲面嵌入活动轮廓模型得到基于时空域的目标函数;

所述目标函数的表达式为:

其中S为分割曲面,Iop(T,W,x)为步骤2)得到的约束方程, 为背景区域的积分项, 为前景区域的积分项, 为曲面的平滑项,gbg为背景区域观察函数,gfg为前景区域观察函数,λ为比例因子;其中背景区域观察函数gbg需要满足以下条件:gbg(0)=0,gbg(∞)=c且gbg(x)在[0,∞)上单调递增,同样的,前景区域观察函数gfg需满足以下条件:gfg(0)=c,gfg(∞)=0且gfg(x)在[0,∞)上单调递减,其中c为正常数;

4)对所述目标函数进行最小化求解得到3D视频获取系统的运动参数、运动目标的运动参数以及目标曲面;

对目标函数进行最小化求解的详细步骤为:

A)初始化目标曲面和运动参数;

B)固定目标曲面,使用最速下降法迭代获取背景的运动参数;

迭代获取背景的运动参数时使用的迭代公式为

其中i代表平移变量T、旋转变量W的第i个变量,Δt为迭代步长,为平移变量T的第i个变量在第n次迭代时的值, 为平移变量T的第i个变量在第n+1次迭代时的值,为旋转变量W的第i个变量在第n次迭代时的值, 为旋转变量W的第i个变量在第n+1次迭代时的值, 为平移变量T的第i个变量在第n次迭代时的梯度, 为旋转变量W的第i个变量在第n次迭代时的梯度,τ为时间步长;

C)固定运动参数,使用窄带水平集方法演化获取运动目标的目标曲面;

演化获取运动目标的目标曲面时,曲面演化的偏微分方程为

其中τ为时间步长, 为符号距离函数对时间步长的偏微分, 为曲面对时间步长的偏微分,φ为表示水平集的符号距离函数, 为符号距离函数的梯度, 为符号距离函数的梯度的模,驱动曲面演化的作用力f(S,T,W)的表达式为f(S,T,W)=-gbg(·)+gfg(·)+λ·κ,gbg(·)为背景区域观察函数,gfg(·)为前景区域观察函数,λ为比例因子,κ为目标曲面的曲率;

D)得到目标曲面后,分别对每个目标根据步骤2)得到的约束方程估计运动目标的运动参数。

说明书 :

基于3D视频的时空域运动分割与运动估计方法

技术领域

[0001] 本发明涉及三维视频运动分析领域,具体涉及一种在摄像机运动等复杂情况下的基于3D视频的时空域运动分割与运动估计方法。

背景技术

[0002] 三维视频是指利用3D视频获取系统实时获取的二维图像加上深度信息,即灰度图和深度图。基于三维视频的运动分析,尤其是在摄像机系统运动的情况下基于三维视频的运动分析是计算机视觉一个重要并且富有挑战性的研究方向,其应用领域包括3DTV、机器视觉、视频压缩(MPEG-4)、自动导航等。运动分析包含了运动分割和运动估计两大方面,事实上这是两个紧密相联、相辅相成的课题。一方面,准确的运动分割可以缓解运动估计的不确定性问题,尤其是在运动信息不连续的边缘处;另一方面,运动估计信息又为运动分割提供了重要的依据。
[0003] 对于三维视频而言,运动分割定义为在一段三维视频上,利用三维空间中的真实运动特性来区分和识别不同运动特性的区域或目标。传统的基于运动的运动分割方法有光流法、帧差法、减背景阈值法等。其中,光流法利用成像平面上的二维运动信息来分割不同的运动目标,它的特点是可以在不需要任何先验的前提下提取出运动信息,并且可以处理背景运动的情况,是较为常用的一种方法。基于光流法的运动分割一般有两种思路:其一是先计算出流场再进行分割;其二是将光流和分割嵌入统一的能量泛函,根据二维光流估算有摄像机引起的背景运动,同时根据边界上的力牵引分割曲线的演变,并通过时空域中二维运动场的几何特性估计运动边界上的光流速率。但是,由于缺少深度信息产生的严重非线性,二维流场本身并不能真实的反映三维空间的运动变化,使得运动估计成为一个病态问题。

发明内容

[0004] 本发明要解决的技术问题是提供一种运动分析准确可靠、鲁棒性高、无摄像机运动先验依赖、适合复杂运动、应用范围广的基于3D视频的时空域运动分割与运动估计方法。
[0005] 为解决上述技术问题,本发明采用的技术方案为:
[0006] 一种基于3D视频的时空域运动分割与运动估计方法,其实施步骤如下:
[0007] 1)通过3D视频获取系统获取包含运动目标和背景区域的3D视频;
[0008] 2)建立基于背景三维运动特性的二维运动场参数模型;
[0009] 3)定义分割曲面,将所述二维运动场参数模型和分割曲面嵌入活动轮廓模型得到基于时空域的目标函数;
[0010] 4)对所述目标函数进行最小化求解得到3D视频获取系统的运动参数、运动目标的运动参数以及目标曲面。
[0011] 作为本发明上述技术方案的进一步改进:
[0012] 所述步骤2)中二维运动场参数模型的约束方程为:
[0013] Iop(T,W,x)=Ix×fu(T,W)+Iy×fv(T,W)+It=0’
[0014] 其中Iop(T,W,x)为3D视频的每一帧图像中像素点x上的光强变化,Ix为图像灰度的横向差分,Iy为图像灰度的纵向差分,It为图像灰度的时间差分,T为运动目标的平移变量,W为运动目标的旋转变量,fu(T,W)为像素点x在x方向上的光流与平移变量T、旋转变量W的关系,fv(T,W)为像素点x在y方向上的光流与平移变量T、旋转变量W的关系,且fu(T,W)和fv(T,W)的表达式为
[0015]
[0016]
[0017] 其中t1,t2,t3分表代表平移变量T在x,y,z轴方向的值,w1,w2,w3分表代表旋转变量W在x,y,z轴方向的值,x为像素点在图像坐标中的x轴坐标值,y为像素点在图像坐标中的y轴坐标值,Z为像素点在空间坐标中的z轴坐标值。
[0018] 所述步骤4)中目标函数的表达式为:
[0019]
[0020] 其中S为分割曲面,Iop(T,W,x)为步骤2)得到的约束方程,为背景区域的积分项, 为前景区域的积分项, 为曲面的平滑项,
gbg为背景区域观察函数,gfg为前景区域观察函数,λ为比例因子;其中背景区域观察函数gbg满足以下条件:gbg(0)=0,gbg(∞)=c且gbg(x)在[0,∞)上单调递增。前景区域观察函数gfg满足以下条件:gfg(0)=c,gfg(∞)=0且gfg(x)在[0,∞)上单调递减,其中c为正常数。理想的背景区域观察函数gbg的表达式为
[0021]
[0022] 理想的前景区域观察函数gfg的表达式为
[0023]
[0024] 其中ε为门限函数。
[0025] 所述步骤4)中对目标函数进行最小化求解的详细步骤为:
[0026] A)初始化目标曲面和运动参数;
[0027] B)固定目标曲面,使用最速下降法迭代获取背景的运动参数;
[0028] C)固定运动参数,使用窄带水平集方法演化获取运动目标的目标曲面;
[0029] D)得到目标曲面后,分别对每个目标根据步骤2)得到的约束方程估计运动目标的运动参数。
[0030] 所述步骤B)中迭代获取背景的运动参数时使用的迭代公式为
[0031]
[0032] 其中i代表平移变量T、旋转变量W的第i个变量,Δt为迭代步长,为平移变量T的第i个变量在第n次迭代时的值, 为平移变量T的第i个变量在第n+1次迭代时的值, 为旋转变量W的第i个变量在第n次迭代时的值, 为旋转变量W的第i个变量在第n+1次迭代时的值, 为平移变量T的第i个变量在第n次迭代时的梯度, 为旋转变量W的第i个变量在第n次迭代时的梯度。
[0033] 所述步骤C)中演化获取运动目标的目标曲面时曲面演化的偏微分方程为[0034]
[0035] 其中τ为时间步长, 为符号距离函数对时间步长的偏微分, 为曲面对时间步长的偏微分,φ为表示水平集的符号距离函数, 为符号距离函数的梯度, 为符号距离函数的梯度的模,驱动曲面演化的作用力f(S,(T,W))的表达式为f(S,(T,W))=-gbg(·)+gfg(·)+λ·κ,gbg(·)为背景区域函数,gfg(·)为前景区域函数,λ为比例因子,κ为目标曲面的曲率。
[0036] 本发明具有下述优点:
[0037] 1、本发明通过建立基于背景三维运动特性的二维运动场参数模型、将二维运动场参数模型和分割曲面嵌入活动轮廓模型得到基于时空域的目标函数,再对目标函数进行最小化求解得到目标曲面,得到运动目标以及摄像机的运动参数,能够利用3D视频信息求解摄像系统和目标可相互独立运动、多运动区域或目标、区域或目标相对于摄像系统的旋转和平移运动、多目标相交和遮挡等复杂环境的运动目标分割、跟踪与运动估计,具有运动分析准确可靠、鲁棒性高、无摄像机运动先验依赖、适合复杂运动、应用范围广的优点。
[0038] 2、本发明采用活动轮廓分割思想建立目标函数,把目标函数看作是关于运动分割曲面和运动参数的能量泛函,将要求解的问题转化为求解分割曲面和运动参数的数学问题,通过使该目标函数最小,保证最佳运动分割和3D运动估计,从而使得演化曲面建立在时空域上,运动目标的边界在时空域的轨迹形成一个曲面,可以将运动分割和跟踪转化为基于时空的运动分割,同时实现运动的跟踪,能很好地将运动目标分割、跟踪和运动参数的估算结合在一起,具有运动分析准确可靠的优点。
[0039] 3、本发明的目标函数建立在时空域上,不仅能有效的利用空间和时域信息实施三维运动约束,并且使得运动目标的轨迹在时空域上形成一个封闭曲面,实现了运动跟踪的效果。
[0040] 4、本发明能够在不需要任何摄像机运动先验信息的前提下对前景进行自动分割,可以处理多种复杂情况,例如在摄像机运动的情况下对目标进行跟踪,并且对运动目标的数目没有限制,任何和背景运动不一致的运动目标都可以被主动轮廓所捕获,中途有任何目标进入或离开区域都可以被捕获而不需要事先进行定位,适合于处理目标数目有变化的情况。

附图说明

[0041] 图1为本发明实施例的基本流程示意图。
[0042] 图2为本发明实施例二维运动场映射坐标系的示意图。
[0043] 图3为本发明实施例中观察函数gbg(·)的曲线示意图。
[0044] 图4为本发明实施例中估计出的摄像机的运动参数结果示意图。
[0045] 图5为本发明实施例中估计出的一个运动目标的运动参数结果示意图。
[0046] 图6为本发明实施例中估计出的另一个运动目标运动参数结果示意图。
[0047] 图7为本发明实施例中最终对运动目标分割并跟踪得到的目标曲面示意图。

具体实施方式

[0048] 如图1所示,本实施例基于3D视频的时空域运动分割与运动估计方法的实施步骤如下:
[0049] 1)通过3D视频获取系统获取包含运动目标和背景区域的3D视频;
[0050] 2)建立基于背景三维运动特性的二维运动场参数模型;
[0051] 3)定义分割曲面,将二维运动场参数模型和分割曲面嵌入活动轮廓模型得到基于时空域的目标函数;
[0052] 4)对目标函数进行最小化求解得到3D视频获取系统的运动参数、运动目标的运动参数以及目标曲面。
[0053] 3D视频获取系统是指能够实时获取2D视频加深度图的采集系统,包括单目摄像机、双目系统、阵列系统等,本实施例的3D视频获取系统采用TOF摄像机实现,此外也可以采用其他的3D视频获取系统。TOF摄像机属于单目范畴,TOF技术是一种最近发展起来的获取场景三维信息的先进技术,TOF摄像机作为实现TOF技术的设备,通过向场景发射调制红外线,并检测其反射回来的光波,由此计算两种光波之间的相位差来确定场景的三维信息,因为不需要大量运算,这种方法是可以实现实时获取3D视频的。
[0054] 步骤2)中建立的基于背景三维运动特性的二维运动场参数模型如图2所示,其中(t1,t2,t3)为平移变量,(w1,w2,w3)为旋转变量,(X,Y,Z)为P点在T1时刻的空间坐标,(X′,Y′,Z′)为P点在T2时刻的空间坐标,(ΔX,ΔY,ΔZ)为P点从T1到T2时刻在空间坐标中的位移向量,(x,y)为P点在T1时刻的成像面坐标,(x′,y′)为P点在T2时刻的成像面坐标,(Δx,Δy)为P点从T1到T2时刻在成像面坐标中的位移向量,f为摄像机焦距。
[0055] 本实施例中,对运动目标的三维运动(T,W)分别用平移变量T=(t1,t2,t3)和旋转变量W=(w1,w2,w3)表示,设坐标系统OXYZ在3D视频获取系统的光心处如图2所示,则背景上任意一点P(X,Y,Z)运动到P′(X′,Y′,Z′)满足:
[0056]
[0057] 其中R是3*3的标准正交矩阵。
[0058] 在旋转变量较小的情况下,R可以近似为:
[0059]
[0060] 可以得到:
[0061]
[0062]
[0063] 则由空间中P点运动产生的光流可以描述为:
[0064] w=(u,v)=(x′-x,y′-y)=(fu(T,W),fv(T,W)) (4)[0065] 其中
[0066]
[0067]
[0068] 其中t1,t2,t3分表代表平移变量T在x,y,z轴方向的值,w1,w2,w3分表代表旋转变量W在x,y,z轴方向的值,x为像素点在图像坐标中的x轴坐标值,y为像素点在图像坐标中的y轴坐标值,Z为像素点在空间坐标中的z轴坐标值。
[0069] 根据光流约束方程:
[0070]
[0071] 其中 代表图像梯度。
[0072] 根据光流方程(6),以及公式(5-1)和(5-2),对某一像素点x,二维运动场参数模型的约束方程为:
[0073] Iop(T,W,x)=Ix×fu(T,W)+Iy×fv(T,W)+It=0 (7)[0074] 式(7)描述了3D运动参数和图像特性之间的关系,也可称为3D光流约束方程。
[0075] 式(7)中Iop(T,W,x)为3D视频的每一帧图像中像素点x上的光强变化,Ix为图像灰度的横向差分,Iy为图像灰度的纵向差分,It为图像灰度的时间差分,T为运动目标的平移变量,W为运动目标的旋转变量,fu(T,W)为像素点x在x方向上的光流与平移变量T、旋转变量W的关系,fv(T,W)为像素点x在y方向上的光流与平移变量T、旋转变量W的关系。
[0076] 本实施例中,假设序列I(x,y,t)∈D=Ω×[0,T]由运动的3D视频获取系统拍2
摄,其中Ω是实数R 的开子集,[0,T]为序列的持续时间。假设背景的运动由前一步骤定义的三维运动参数(T,W)表征,同时场景中有N个不同于背景运动的目标,这里我们不对运动物体的数目N和运动方式作任何限制,我们的任务就是将图像序列分为背景和前景两个部分Ωs={Ωbg,Ωfg},其中Ωbg,Ωfg分别为背景和前景区域且二者在定义域Ω上互补,s为分割两个区域的曲面。假设m为观察模型,分割曲面S和运动参数(T,W)的最大后验概率(maximum aposterior,MAP)可表示为:
[0077]
[0078] 通常情况下,摄像机和目标的运动相互独立,即:
[0079]
[0080] 采用对数求解,式(9)可表示为:
[0081]
[0082]
[0083] (10-2)
[0084]
[0085] 式(10-2)中一共有四个积分项。前两项是由观察模型描述的对曲面S和运动参数(T,W)的估计项,后两项是模型的先验项。
[0086] 为了对序列进行分割的同时,可以完成目标的跟踪和对运动信息的估计,观察模型的选择应该是以让分割曲面S和运动参数(T,W)相互获利为原则,这里我们将其定义为:
[0087]
[0088] 其中gbg(·)和gfg(·)分别代表背景和前景的观察函数,Iop(T,W,x)为前一节定义的3D光流约束方程。先验项 定义为时空曲面的平滑约束,另外,我们不对运动参数作任何的先验假设,这样我们就得到了基于3D视频的时空运动分割与估计模型:
[0089]
[0090]
[0091] 其中(12-2)即为步骤4)中目标函数。其中S为分割曲面,Iop(T,W,x)为步骤2)得到的约束方程, 为背景区域的积分项, 为前景区域的积分项, 为曲面的平滑项,gbg为背景区域观察函数,gfg为前景区域观察函数,λ为用于调节各积分项权重的比例因子。式(12-2)中第一个积分项衡量的是背景三维运动参数(T,W)通过3D光流约束万程在背景区域的一致性,相应的第二项计算的是其在前景区域的非一致性,由gfg(·)函数引导。最后一项则为曲面的光滑约束项。这里,g(·)函数需要满足以下条件:对某一像素点x,gbg(·)和gfg(·)应具备相反的特性去区别x属于背景或者前景。背景区域观察函数gbg需要满足以下条件:gbg(0)=0,gbg(∞)=c且gbg(x)在[0,∞)上单调递增。同样的,前景区域观察函数gfg需要满足以下条件:gfg(0)=c,gfg(∞)=0且gfg(x)在[0,∞)上单调递减,其中c为正常数。理想的gbg(·)可以描述为:
[0092]
[0093] 其中ε是门限函数。
[0094] 当 或者足够小的时候,意味着Ωbg中的某像素点x被正确的划分为背景且满足3D光流约束条件,反之亦然。同样的,理想的gfg(·)可以定义为:
[0095]
[0096] 当然,理想的g(·)函数定义在门限ε处是不可微的,实际应用中,我们还需要设计适当的函数来近似这种理想模型。本实施例中,gbg(·)的曲线如图3所示,为了简化运算处理,选择gbg(x)=αx、gfg(x)=e-x来进行近似运算,其中α为调节区域权重的比例因子。
[0097] 步骤4)中对目标函数进行最小化求解的详细步骤为:
[0098] A)初始化目标曲面的水平集函数φ和运动参数(T,W);
[0099] B)固定目标曲面,使用最速下降法迭代获取背景的运动参数(T,W);
[0100] C)固定运动参数,使用窄带水平集方法演化获取运动目标的目标曲面;
[0101] D)得到目标曲面后,分别对每个目标根据步骤2)得到的约束方程估计运动目标的运动参数。
[0102] 步骤B)中利用变分法可得Euler-Lagrange方程:
[0103]
[0104] 对运动参数的估计采用最速下降法,得到其迭代公式:
[0105]
[0106] 其中i代表平移变量T、旋转变量W的第i个变量,Δt为迭代步长,为平移变量T的第i个变量在第n次迭代时的值, 为平移变量T的第i个变量在第n+1次迭代时的值, 为旋转变量W的第i个变量在第n次迭代时的值, 为旋转变量W的第i个变量在第n+1次迭代时的值, 为平移变量T的第i个变量在第n次迭代时的梯度, 为旋转变量W的第i个变量在第n次迭代时的梯度。
[0107] 步骤C)中演化获取运动目标的目标曲面时曲面演化的偏微分方程为[0108]
[0109] 其中τ为时间步长, 为符号距离函数对时间步长的偏微分, 为曲面对时间步长的偏微分,φ为表示水平集的符号距离函数, 为符号距离函数的梯度, 为符号距离函数的梯度的模,驱动曲面演化的作用力f(S,(T,W))的表达式为f(S,(T,W))=-gbg(·)+gfg(·)+λ·κ,gbg(·)为背景区域函数,gfg(·)为前景区域函数,λ为比例因子,κ为目标曲面的曲率。
[0110] 步骤D)得到目标曲面后,假设分割出N个目标,每个目标的三维运动参数为且满足3D光流约束方程,分别对每个目标根据约束方程估计目标运动,算法结束。本实施例中共包含两个运动目标,最终估计得到的摄像机的运动参数如图4所示,一个运动目标的运动参数如图5所示,另一个运动目标的运动参数如图6所示。如图7所示,从得到目标曲面可以看出两个运动目标都被成功分割并且跟踪,每一个封闭的柱状体代表运动目标的运动轨迹。
[0111] 以上所述仅为本发明的优选实施方式,本发明的保护范围并不仅限于上述实施方式,凡是属于本发明原理的技术方案均属于本发明的保护范围。对于本领域的技术人员而言,在不脱离本发明的原理的前提下进行的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。