一种基于背景建模对双目视觉图像的运动捕捉方法转让专利

申请号 : CN201010602544.7

文献号 : CN102034247B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王阳生时岭

申请人 : 中国科学院自动化研究所

摘要 :

本发明是一种基于背景分割对双目视觉图像的运动捕捉方法,可以完成对于人体作为前景的分割,同时对人体的上身躯干部分进行运动捕捉,从而完成人机交互的效果。本方法是在背景建模的基础上,通过对摄像头采集的干净背景进行高斯模型的建立,然后将采集的视频同背景模型进行比较,并通过双目摄像头所获得的深度信息,将场景的每一个像素给定一个属于前景或背景的概率值,并通过图切算法完成对场景前景和背景的分割。在分割前景是人体上身躯干的情况下,通过对前景轮廓的细化、去噪和关键点的确定,获得人体的基本骨架模型,从而完成运动捕捉的过程。

权利要求 :

1.一种基于背景建模对双目视觉图像的运动捕捉方法,是基于双目视觉和背景分割的方法,其特征在于,包括步骤如下:步骤S1:将双目摄像头位置固定,关闭白平衡,获取双目视觉图像;

步骤S2:对获取的双目视觉图像,在设定帧数的干净背景图像下进行背景建模,得到背景模型;

步骤S3:利用计算机双目视觉获取的双目深度信息,计算像素属于前景和背景的代价;

步骤S4:利用双目深度信息和背景建模数据和动态图切算法,将双目视觉图像前景和背景进行分割,并提取前景轮廓;

步骤S5:前景轮廓进行细化,确定人体关键点,完成运动捕捉。

2.根据权利要求1所述的基于背景建模对双目视觉图像的运动捕捉方法,其特征在于:步骤S1中所述获取双目视觉图像的步骤包括如下:步骤S11:保证摄像头的位置固定,场景中没有明显的明暗变化;

步骤S12:关闭摄像头的自动白平衡,在摄像头的硬件参数中,一般有自动曝光参数和自动白平衡的功能,以便在场景光线变化时实现自动调节图片质量的功能;在背景建模中,需要设定白平衡参数固定;

步骤S13:采集固定帧数干净背景图像,储存在内存中。

3.根据权利要求1所述的基于背景建模对双目视觉图像的运动捕捉方法,其特征在于:利用图片去噪、细化方式,获取人体躯干的关键点,从而实现运动捕捉的效果,步骤包括如下:步骤S51:将经过后处理的前景轮廓进行缩放;

步骤S52:将缩放的前景轮廓进行细化;

步骤S53:将细化的前景轮廓进行扩大,扩大到原来的大小;

步骤S54:再次将前景轮廓进行细化;

步骤S55:找到邻域像素大于2的节点,并取其重心值,设定为人体重心;

步骤S56:沿着重心上下搜索,找到节点,设定为头部和腰部;

步骤S57:沿着重心左右搜索,找到左臂和右臂,并且按照比例和离心率确定肘部和肩部;

步骤S58:将确定的9个关键点同前几帧进行比较,获得较为稳定和准确的人体躯干位置,所述9个关键点为重心、头部、腰部、左臂、右臂、左肘、右肘、左肩、右肩。

说明书 :

一种基于背景建模对双目视觉图像的运动捕捉方法

技术领域

[0001] 本发明属计算机视觉技术和数字互动娱乐领域,涉及一种利用双目摄像头和背景建模技术完成的背景分割和运动捕捉的过程。

背景技术

[0002] 运动捕捉技术指的是利用计算机视觉或者其他手段,能够实时、准确地捕捉到人体的运动过程。随着计算机软硬件的发展和计算机用户需求的提高,运动捕捉技术在数字娱乐、视频监控、运动分析等领域里面的作用愈发明显。
[0003] 然而运动捕捉技术的发展也受到各种条件的制约而出现诸多局限性。比如光线的变化、复杂的背景以及运动过程的遮挡等问题。这些因素使得运动捕捉的过程变得更加的困难。然而,通过利用双目视觉的方法进行背景分割的结果,在场景中的前景只有人体的前提下,运动捕捉问题将被转化为分析场景的前景轮廓问题,使得计算量大大简化。同时,在数字互动娱乐领域,运动捕捉技术作为一种视频交互技术,也是近年来游戏中人机交互的研究热点。而且摄像头已经成为个人电脑的通用配备,通用的、沉浸式的人机交互方式越来越成为数字娱乐研究的热点。所以,基于背景分割技术的双目视觉运动捕捉技术具有广泛的应用领域的研究前景。

发明内容

[0004] 本发明的目的是利用双目摄像头得到场景的前景与背景的分割,同时在此基础上完成运动捕捉的过程。本方法首先对干净背景进行训练,采集一定帧数的背景图片,完成背景模型的建立。在此基础上,利用新采集的图像同背景模型的颜色差异和双目视觉的深度信息,完成图切网络图的建立,并利用动态图切的方法,对场景前景和背景进行分割。同时在分割的基础上,对前景的人体进行结构的分析,得到上体躯干各个部分的定位,从而完成运动捕捉的过程。
[0005] 为实现上述目的,本发明提供基于背景建模对双目视觉图像的运动捕捉方法包括步骤如下:
[0006] 步骤S1:将双目摄像头位置固定,关闭白平衡,获取双目视觉图像;
[0007] 步骤S2:对获取的双目视觉图像,在设定帧数的干净背景图像下进行背景建模,得到背景模型;
[0008] 步骤S3:利用计算机双目视觉获取的双目深度信息,计算像素属于前景和背景的概率;
[0009] 步骤S4:利用双目深度信息和背景建模数据和动态图切算法,将双目视觉图像前景和背景进行分割,并提取前景轮廓;
[0010] 步骤S5:前景轮廓进行细化,确定人体关键点,完成运动捕捉。
[0011] 本发明的积极效果:
[0012] 本发明利用计算机视觉和图像处理技术,自然地从场景中分离出前景的人体,并完成上体躯干的运动捕捉,从而实现自然的人机交互。传统的交互方式的特点是以手接触为主,如鼠标、键盘等。随着计算机视觉技术的发展,越来越多的系统通过摄像头的方法自然的完成了人机交互的过程,用户可以通过视觉的方式更方便地体验到人机交互的乐趣,同时,作为游戏的接口,使得游戏玩家获得更多的沉浸感。
[0013] 另外,本发明利用了双目视觉的采集和背景模型的建立。双目视觉的采用主要是充分利用了深度信息,考虑到前景往往属于离摄像头较近的区域,同时避免了由阴影、遮挡导致的分割错误的问题。另外,建立背景模型可以使得分割的代价更好的得到计算,同时利用动态图切的方法,使得分割更加快速。

附图说明

[0014] 图1A是本发明的整体流程图;
[0015] 图1是本发明的双目视觉成像图;
[0016] 图2是本发明利用双目视觉获取的左图和右图以及视差;
[0017] 图3是本发明的图切算法的最大流或最小割的网络流图;
[0018] 图4是本发明的流程图;
[0019] 图5是本发明的一组视频背景分割的效果图;
[0020] 图6是本发明背景分割结果的边界平滑示意图;
[0021] 图7是本发明轮廓的细化和关键部位提取的结果。

具体实施方式

[0022] 下面将结合附图对本发明加以详细说明,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
[0023] 下面通过实例进一步说明一种基于背景建模的运动捕捉方法的操作过程。
[0024] 本实例的所有代码均为C++编写,在Microsoft visual studio 2005环境下运行,还可以采用其他软硬件条件,在此不再赘述。
[0025] 图1A示出本发明基于背景建模对双目视觉图像的运动捕捉方法的整体流程图。
[0026] 本发明基于背景建模对双目视觉图像的运动捕捉方法,基于双目视觉和背景分割,其方法包括步骤如下:
[0027] 步骤S1:将双目摄像头位置固定,关闭白平衡,获取双目视觉图像;
[0028] 步骤S2:对获取的双目视觉图像,在设定帧数的干净背景图像下进行背景建模,得到背景模型;
[0029] 步骤S3:利用计算机双目视觉获取的双目深度信息,计算像素属于前景和背景的概率;
[0030] 步骤S4:利用双目深度信息和背景建模数据和动态图切算法,将双目视觉图像前景和背景进行分割,并提取前景轮廓;
[0031] 步骤S5:前景轮廓进行细化,确定人体关键点,完成运动捕捉。
[0032] 根据步骤S2中所述获取双目视觉图像步骤包括:
[0033] 步骤S211:保证摄像头的位置固定,场景中没有明显的明暗变化;
[0034] 步骤S212:关闭摄像头的自动白平衡,在摄像头的硬件参数中,一般有自动曝光参数和自动白平衡的功能,以便在场景光线变化时实现自动调节图片质量的功能;在背景建模中,需要设定白平衡参数固定;
[0035] 步骤S213:采集固定帧数(100帧)的干净背景图像,储存在内存中。
[0036] 根据步骤S2中所述在设定帧数的干净背景图像下进行背景建模的步骤包括如下:
[0037] 步骤S221:利用高斯背景模型采集双目视觉图像中每一帧的彩色图像,分别用R,G,B代表红色,绿色和蓝色三通道的值,取值范围为0~255;
[0038] 步骤S221:在背景建模过程中获取了N个图像,每个图像包含320×240个像素,计算每个像素的亮度I和色度(r,g)。其中,r=R/(R+G+B),g=G/(R+G+B),R,G,B分别表示颜色通道中的红色,绿色和蓝色分量的值;
[0039] 步骤S221:建立像素级别的融合背景模型;计算每个像素的亮度和色度在N个图像中的均值和方差,并存入内存;
[0040] 步骤S221:在亮度空间建立特征背景模型,在色度空间建立基于的色度模型。将获取的色度和亮度空间中的背景模型存入内存。
[0041] 根据对步骤S2中所述双目视觉图像中的每个像素的深度数据代价进行计算,得到每个像素的深度代价,从而将双目深度信息引入,具体步骤包括:
[0042] 步骤231:采集并保存双目视觉图像,分别记为左图像和右图像;
[0043] 步骤232:为左图像的每个像素设定一个深度值,所述深度值用左图像和右图像的视差表示;
[0044] 步骤233:针对每个深度值,计算左图像和右图像的差异代价;
[0045] 步骤234:统计左图像中的代价值,并且将左图像中的代价值按照所述代价值的大小分成四组;
[0046] 步骤235:将每一组的代价值对该像素的前景和背景的代价进行更新,其中属于前景的代价按照对视差的指数关系进行减少,背景的代价按照视差的指数关系进行增加。
[0047] 根据步骤S4中所述利用双目深度信息和背景建模数据和动态图切算法,将双目视觉图像前景和背景进行分割,并提取前景轮廓,具体步骤包括:
[0048] 步骤S41:背景建模结束后,读入新读取的双目视觉图像,所述双目视觉图像包括左图像和右图像;
[0049] 步骤S42:利用双目视觉数据代价获得的结果,得到双目信息的数据代价;
[0050] 步骤S43:利用背景模型,同左图的像素进行比较,获得基于色彩代价值,利用图切算法的基本原理,建立最大流或最小割的网络流;
[0051] 步骤S44:利用步骤S42和步骤S43获得的两个数据代价值,得到图切算法中的数据代价值;
[0052] 步骤S45:利用左图像素之间的对比度关系,对图切算法中的平滑项进行赋值;
[0053] 步骤S46:利用动态图切算法,将基于像素层面的视频流进行分割,分割结果分为两部分,一部分为前景,另外一部分为背景。
[0054] 步骤S47:将分割的前景背景按照0或1存储在相同大小的图片中,并将0或1的前景背景图片获得边缘轮廓;
[0055] 步骤S48:利用高频滤波的方式将边缘去噪,使得边缘更加平滑;
[0056] 步骤S49:利用前几帧的数据对错误的分割区域进行校正。
[0057] 根据步骤S5利用图片去噪、细化方式,获取人体躯干的关键点,从而实现运动捕捉的效果步骤包括:
[0058] 步骤S51:将经过后处理的人体轮廓进行缩放;
[0059] 步骤S52:将缩放的人体轮廓进行细化;
[0060] 步骤S53:将细化的人体轮廓进行扩大,扩大到原来的大小;
[0061] 步骤S54:再次将轮廓进行细化;
[0062] 步骤S55:找到邻域像素大于2的节点,并取其重心值,设定为人体重心;
[0063] 步骤S56:沿着重心上下搜索,找到节点,设定为头部和腰部;
[0064] 步骤S57:沿着重心左右搜索,找到左臂和右臂,并且按照比例和离心率确定肘部和肩部;
[0065] 步骤S58:将确定的9个关键点同前几帧进行比较,获得较为稳定和准确的人体躯干位置。
[0066] 如图1所示的第一步是采集图像。本方法采用双目视觉视频输入。图中,(x,y,z)表示的是世界坐标系的坐标;(xL,yL)和(xR,yR)表示同一个物体在左图和右图中的像素坐标。
[0067] (1)数字图像处理的信息多是二维信息,处理信息量很大。这里的一幅图像用二维函数f(x,y)表示,其中x,y是二维坐标,f(x,y)表示点(x,y)点的颜色信息。摄像头从空间中采集镜头内的所有光学信息,这些信息进入计算机之后,转换为符合计算机标准的彩色模型,以进入程序进行数字图像处理,并保证视频的连贯性和实时性。从采集的图像中对每一个像素进行处理总共320×240个像素76800个像素点。采集的视频最初效果如图1所示。项目随后的所有的操作和运算都是基于这每一帧的320×240像素。双目视觉中,同一个像素在左右两图中成像的位置不同,而位置差异的大小,反映的是图像的深度。两个像素点的相对移动可以通过像素的匹配计算出来。本发明的方法利用这些信息,辅助完成前景和背景的分割。如图2所示,双目信息的利用是用左右两幅图匹配的代价来实现。其中P表示的是某像素在左图中的位置,P+d表示该像素在右图中的位置,d表示的就是该像素的视差(Display)。
[0068] (2)本发明在利用双目深度信息的过程,由两部分组成。
[0069] 步骤一:在像素xi计算出的匹配代价,根据不同的视差值分成四组(视差d的最大值设定为32):
[0070] A组:像素xi有最匹配的视差,即最优视差(Disparity),最匹配的程度)d>16,表示该像素非常属于前景;
[0071] B组:像素xi有最匹配的视差,即最优视差(Disparity),最匹配的程度)d≤16and d>12,表示该像素有很大的可能属于前景;
[0072] C组:像素xi有最匹配的视差,即最优视差(Disparity),最匹配的程度)d≤12and d>5,表示该像素有很大的可能属于背景;
[0073] D组:像素xi有最匹配的视差,即最优视差(Disparity),最匹配的程度)d≤5,表示该像素非常属于背景。
[0074] 在这样的假设下,本发明需要更少的时间来将像素分成四组,而不是对每一个像素进行32个可能的视差进行假设。
[0075] 步骤二:为图切算法设定合适的数据代价值。本发明数据项分别包括该像素属于前景或背景的代价,分别用Di(B)和Di(F)表示。像素的视差值越大,那么它属于前景的可能性越大,于是Di(F)的值对应减小,Di(B)的值对应增大。通过这样的对应关系,本发明提出了一个对应方案,用如下公式进行表达:
[0076]
[0077] 对于所有的t=A,B,C,D,λt>0。其中 表示的是融入双目信息的背景模型数据项,分别属于t=A,B,C,D四组。Di(B)表示的是单目视觉的背景分割数据项。λt是双目数据代价的参数,i表示的是像素坐标。 表示的是融入双目信息的前景模型数据项。d表示的视差值(Disparity)。ct表示的是控制d的参数。
[0078] 如图3所示,图切算法的的最大流或最小割的网络流图。其中p,q表示的是相邻的两个像素。图4所示的是图切算法的流程图,包括前端的赋值和后端的分割部分。
[0079] (3)图切算法是背景分割的重要组成部分,其主要内容是利用最大流或最小割的原理,将图像中的像素按照一定的路径进行分割,并计算出哪些分别属于前景或和背景。
[0080] 图像中前景或背景的分割问题,可以视为计算机视觉领域里的二元标识问题。如果像素点i属于前景,则标记这个像素的标签fi=F,F指的是前景。同理,如果此像素属于背景,则标记为fi=B。对应到二值标签问题,标号集仅包含两个标号。图切算法所构造的赋权图包含两个与之对应的顶点s和t。如图3所示,图中,左图是给出由3×3的原始图片构造的赋权图G,G=,其中V是顶点集,是由普通节点及两个分别叫做源节点S和终止节点T两部分组成的。其中S和T分别代表前景和背景的二值标签为顶点ε代表的是连接顶点的边,边的权值大小在上图中用简化的粗细来表示。
[0081] 动态图切的流程如图4。能量函数中包括数据项和平滑项,它们的设置直接影响着图切算法最终的分割结果。图5表示的是本发明的几组视频分割结果,其中左侧3幅图是输入视频中做视频的左图图像,右侧3幅图是分割后的结果。
[0082] (4)本发明设计了一个频域内的低通滤波器来平滑边界。沿着边界曲线C,如图6中所示本发明的边界平滑的过程的边缘曲线,左上图表示输入源图像,右上图表示分割的结果;左下图表示的平花钱的前景或背景的边缘,右下图表示的是平滑后的结果。以一定间隔采样得到的点序列z(i)=[x(i),y(i)]其复数表示形式为:
[0083] z(i)=x(i)+jy(i)
[0084] 离散z(i)的傅立叶变换为:
[0085]
[0086] 式中,j,u,K分别表示复数符号,频率和常数项,f(u)是z(i)的傅立叶变换,称为边界的傅立叶描绘子,是边界点序列在频域中的表示。由傅立叶变换理论可知,高频分量包含细节,低频分量决定整体形状。曲线因为有毛刺才不光滑,这些不光滑区域含有高频分量。对f(u)的高频部分进行滤波就可以得到光滑曲线。本发明定义低频能量比并滤除5%的高频能量:
[0087]
[0088] 其中|·|为取模运算。取使r(l)>0.95成立的最小l值为低通滤波器的截止频率。利用傅立叶系数的性质 ( 是f的共轭复数)。在系数f(u)中,消去从l到K-1-l范围内的高频成分。再进行傅立叶逆变换,曲线突变的部分得到了平滑。
[0089] 如图7所示是本发明的运动捕捉结果,其中左侧图中是视频中左图的两帧图像,右侧是分割结果已经提取的关键点和骨架。关键点已用圆圈表示,骨架用线表示。
[0090] (5)本发明在分割的基础上的运动捕捉包括三个步骤,
[0091] 步骤一:将分割的结果进行后处理,获得相对平滑和稳定的轮廓区域,由于涉及到轮廓分割,所以边界不需要精确的计算。在没要较大空洞的情况下,可以较好的完成本文需要的骨架运动跟踪效果。
[0092] 步骤二:将分割的轮廓进行定位,确定九个点的基本构成。其中包括A1,A2,A3是代表组,此处A1,A2,A3,A4,A5,A6,A7,A8,A9九个点。A1,A2,A3分别代表头部和躯干三个点,A4,A5,A6和A7,A8,A9分别代表左臂和右臂的三个点。
[0093] 步骤三:将九个点安装骨架轮廓的顺序进行连接,完成运动捕捉。
[0094] 以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的权利要求书的保护范围之内。