一种视频序列中自动提取手势候选区域的方法及系统转让专利

申请号 : CN201110230698.2

文献号 : CN102324019B

文献日 : 2014-03-05

本发明公开了一种视频序列中自动提取手势候选区域的方法，包括以下步骤：启动手势视频图像采集系统，采集视频图像；构建参考背景图像；计算生成运动描述图像；计算获得运动分割阈值，将运动描述图像转化成二值运动图像；肤色分割，得到二值肤色图像；将二值运动图像和二值肤色图像逐点作逻辑与操作，得到二值融合图像；对二值融合图像进行连通区域分析，选择手势候选区域。该方法融合了运动信息和肤色信息寻找手势候选区域，两种信息之间进行互补提高了检测的准确性，实用、有效，为手势的分割、定位、识别提供了很好的基础。

1.一种视频序列中自动提取手势候选区域的方法，其特征在于，包括下述步骤：启动手势视频图像采集系统，采集视频图像；

构建参考背景图像，其中在初始背景建立之后，t+1时刻的参考背景图像Bt+1都在前一时刻t的参考背景图像Bt基础之上采用下面的公式进行更新：Bt+1＝(1-a)×Bt+a×Gt

其中，Gt为t时刻采集到的视频图像对应的灰度图，a为更新系数且0＜a＜1；

计算生成运动描述图像；

计算获得运动分割阈值，将运动描述图像转化成二值运动图像；

肤色分割，得到二值肤色图像,具体为：

对当前时刻采集到的图像利用先验肤色模型肤色分割，得到当前时刻的二值肤色图像BSt，值为“1”的像素点属于肤色区域，值为“0”的像素点属于非肤色区域，先将当前时刻采集到的图像转换到YCrCb颜色空间，RGB到YCrCb的转换公式如下：Y＝0.299*R+0.587*G+0.114*B

Cr＝0.713*(R-Y)+128

Cb＝0.564*(B-Y)+128

YCrCb中，Y分量表示颜色的亮度信息，Cr和Cb分量分别表示红色和蓝色的色度，建立先验肤色模型时只取Cr和Cb分量，在当前图像中，将满足T1≤Cr≤T2且T3≤Cb≤T4的像素点归类到肤色区域，在二值肤色图像BSt中将对应位置像素点的值设为“1”，不满足该条件的像素点归类到非肤色区域，在BSt中将对应像素点的值设为“0”；

将二值运动图像和二值肤色图像逐点作逻辑与操作，得到二值融合图像；

对二值融合图像进行连通区域分析，选择手势候选区域，具体为，对二值融合图像进行连通区域分析，将图中的运动肤色区域分割成多个连通区域，并计算每个连通区域的面积，即：包含的像素点数，选择面积较大的N个连通区域作为手势候选区域，排除面积小于一定阈值的连通区域作为候选区域的可能性，该阈值与视频图像大小成比例；

若前一帧图像中多个手势候选区域中的某一个被确定或识别包含手势，则在当前帧中距离前一帧已识别的手势位置较近的连通区域优先被选做手势候选区域；若前一帧图像中的手势候选区域都没有被确定包含手势，则在当前帧中选择面积较大的N个连通区域作为新的手势候选区域。

2.如权利要求1所述视频序列中自动提取手势候选区域的方法，其特征在于：所述启动手势图像采集系统，采集视频序列的步骤包括：在图像采集系统启动之后，采集M帧视频图像分别转换成灰度图，用这M帧灰度图像的平均值作为初始参考背景图像，其中，M大于等于20。

3.如权利要求1或2所述视频序列中自动提取手势候选区域的方法，其特征在于：所述构建参考背景图像的步骤包括：构建当前t时刻的参考背景图像，在初始背景建立之后，t+1时刻的参考背景图像都是在前一时刻t的参考背景图像基础上更新而得。

4.如权利要求3所述视频序列中自动提取手势候选区域的方法，其特征在于：所述计算生成运动描述图像的步骤包括：将当前t时刻采集到的图像转换为灰度图，并与参考背景图像逐点作差并取绝对值，生成运动描述图像。

5.如权利要求4所述视频序列中自动提取手势候选区域的方法，其特征在于：所述计算获得运动分割阈值，将运动描述图像转化成二值运动图像的步骤包括：利用最大类间方差法从运动描述图像获得运动分割阈值λM，利用该运动分割阈值将运动描述图像转化成二值运动图像。

6.如权利要求5所述视频序列中自动提取手势候选区域的方法，其特征在于：所述分割阈值λM的获得包括如下步骤：计算当前t时刻运动描述图像，统计运动描述图像的幅值分布直方图；

选择一个阈值λ，将所述幅值分布直方图分成两部分，计算两部分之间的类间方差；

遍历阈值λ的所有可能取值，选择对应类间方差最大的阈值λ作为最佳阈值。

一种视频序列中自动提取手势候选区域的方法及系统

技术领域

[0001] 本发明属于智能信息处理技术领域，涉及一种视频序列中自动提取手势候选区域的方法，其应用于数字视频图像分析与理解。

背景技术

[0002] 传统的人机交互方式诸如鼠标、键盘、遥控器等，都是人类去适应计算机，按照预先设定好的规范完成交互任务。近年来随着技术的不断发展，计算机的处理能力越来越强，人们开始研究符合人类交流习惯的自然人机交互技术，从以计算机为中心逐步转移到以人为中心。这些研究包括语音识别、人脸和表情识别、头部运动跟踪、凝视跟踪、手势识别以及体势识别等等。而基于视觉的手势识别研究是自然人机交互研究领域中的一个热点。

[0003] 基于视觉的手势识别大致分为检测定位、跟踪、分割、识别几个阶段。其中手势的检测定位是很重要的一步，目的是确定手势在视频图像中出现的位置，手势识别的其他几个阶段都是在手势的检测定位基础之上进行的。现有的某些手势识别系统要求人工辅助实现手势的检测定位，即在系统初始化阶段要求用户将手放到某个固定区域，如美国加州大学的Mathias等人在2004年开发的手势识别系统HandVu。而其它很多关于手势识别的技术多数都仅仅依靠肤色信息进行手势的检测分割，这些技术中，往往假定手是整个图像中唯一的或者最大的肤色区域；另外，有部分研究者利用运动信息进行手势的检测定位，其同样假定手是整个图像中唯一的或者最大的运动区域。然而，以上两种方法只有在简单的应用场景才会有效，而实际应用场景一般都较为复杂而不能满足假设条件，所以很难达到效果。在有些采用模板匹配技术的手势识别系统中，其没有单独的检测定位阶段，采用预设的手势模板遍历整幅图像，找到最佳匹配位置，同时完成检测定位和识别，然而这种遍历的方法计算量很大。故，针对现有技术中存在的上述问题，是有必要进行研究，提供一种实用、有效的视频序列中手势候选区域的提取方法。

发明内容

[0004] 本发明实施例的目的在于提供一种视频序列中自动提取手势候选区域的方法及系统，其融合运动信息和肤色信息，从视频图像中自动提取手势候选区域，实用有效。

[0005] 本发明实施例是这样实现的，一种视频序列中自动提取手势候选区域的方法，包括下述步骤：

[0006] 启动手势视频图像采集系统，采集视频图像；

[0007] 构建参考背景图像；

[0008] 计算生成运动描述图像；

[0009] 计算获得运动分割阈值，将运动描述图像转化成二值运动图像；

[0010] 肤色分割，得到二值肤色图像；

[0011] 将二值运动图像和二值肤色图像逐点作逻辑与操作，得到二值融合图像；

[0012] 对二值融合图像进行连通区域分析，选择手势候选区域。

[0013] 进一步地，所述启动手势视频图像采集系统，采集视频图像的步骤包括：

[0014] 在图像采集系统启动之后，采集M帧视频图像分别转换成灰度图，用这M帧灰度图像的平均值作为初始参考背景图像，其中，M大于等于20。

[0015] 进一步地，所述构建参考背景图像的步骤包括：构建当前t时刻的参考背景图像，在初始背景建立之后，t+1时刻的参考背景图像都是在前一时刻t的参考背景图像基础上更新而得。

[0016] 进一步地，所述计算生成运动描述图像的步骤包括：

[0017] 将当前t时刻采集到的图像转换为灰度图，并与参考背景图像逐点作差并取绝对值，生成运动描述图像。

[0018] 进一步地，所述计算获得运动分割阈值，将运动描述图像转化成二值运动图像的步骤包括：

[0019] 利用最大类间方差法从运动描述图像获得运动分割阈值λM，利用该运动分割阈值将运动描述图像转化成二值运动图像。

[0020] 进一步地，所述分割阈值λM的获得包括如下步骤：

[0021] 计算当前t时刻运动描述图像，统计运动描述图像的幅值分布直方图；

[0022] 选择一个阈值λ，将所述幅值分布直方图分成两部分，计算两部分之间的类间方差；

[0023] 遍历阈值λ的所有可能取值，选择对应类间方差最大的阈值λ作为最佳阈值。

[0024] 进一步地，所述肤色分割，得到二值肤色图像的步骤包括：

[0025] 对当前时刻采集到的图像利用先验肤色模型肤色分割，得到当前时刻的二值肤色图像。

[0026] 进一步地，所述对二值融合图像进行连通区域分析，选择手势候选区域的步骤包括：

[0027] 对二值融合图像进行连通区域分析，将图中的运动肤色区域分割成多个连通区域，并计算每个连通区域的面积，即：包含的像素点数，选择面积较大的N个连通区域作为手势候选区域。

[0028] 进一步地，所述选择手势候选区域包括如下步骤：

[0029] 对二值融合图像进行连通区域分析，将图中的运动肤色区域分割成多个连通区域，并计算每个连通区域的面积；

[0030] 排除面积小于一定阈值的连通区域作为候选区域的可能性，该阈值与视频图像大小成比例；

[0031] 若前一帧图像中多个手势候选区域中的某一个被确定或识别包含手势，则在当前帧中距离前一帧已识别的手势位置较近的连通区域优先被选做手势候选区域；若前一帧图像中的手势候选区域都没有被确定包含手势，则在当前帧中选择面积较大的N个连通区域作为新的手势候选区域。

[0032] 一种视频序列中手势候选区域提取系统，包括用于采集手势图像的手势视频图像采集系统、以及连接该手势视频图像采集系统，以用于生成手势候选区域的手势候选区域提取系统；其中，所述手势候选区域提取系统包括有连接手势视频图像采集系统的运动检测单元、与运动检测单元连接的背景图像构建及维护单元、连接背景图像构建及维护单元的肤色检测单元、连接运动检测单元与肤色检测单元的运动、肤色信息融合单元、以及连接运动、肤色信息融合单元的手势候选区域分析提取单元。

[0033] 本发明视频序列中自动提取手势候选区域的方法融合了运动信息和肤色信息寻找手势候选区域，两种信息之间进行互补提高了检测的准确性；并且其考虑了手势动作在时间上的连续性，利用这种连续性指导手势候选区域的选择。对手势应用场景没有过多限定和假设，可适用于实际应用场景；也不需要人工辅助，可以为基于视觉的手势识别系统提供手势候选区域的自动提取，在缩小手势候选范围的同时减少漏检的可能性，实用、有效，为手势的分割、定位、识别提供了很好的基础。

附图说明

[0034] 图1是本发明的视频序列中手势候选区域提取方法的流程图示；

[0035] 图2是本发明的一输入原始视频图像；

[0036] 图3是本发明的一参考背景图像；

[0037] 图4是将图2转换为灰度图之后和图3进行逐点作差并取绝对值后得到的运动描述图像；

[0038] 图5是图4的直方图分布以及利用最大类间方差法确定的运动分割阈值的示意图；

[0039] 图6是利用运动分割阈值对图4进行阈值分割后产生的二值运动图像；

[0040] 图7是对图6进行中值滤波和形态学膨胀后的图像；

[0041] 图8是对图2进行基于YCrCb颜色空间肤色分割后得到的二值肤色图像；

[0042] 图9是对图8进行中值滤波和形态学膨胀后的图像；

[0043] 图10是图7和图9进行逻辑与操作之后得到的二值融合图像；

[0044] 图11是对图10进行连通区域分析之后选择的手势候选区域的示意图；

[0045] 图12是本发明的视频序列中手势候选区域提取系统的原理模块框图。

具体实施方式

[0046] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0047] 本发明视频序列中自动提取手势候选区域的方法包括：启动手势视频图像采集系统，采集视频图像；构建参考背景图像Bt；计算生成运动描述图像；计算获得运动分割阈值，将运动描述图像转化成二值运动图像BMt；肤色分割，得到二值肤色图像BSt；将二值运动图像BMt和二值肤色图像BSt逐点作逻辑与操作，得到二值融合图像BFt；对二值融合图像BFt进行连通区域分析，选择手势候选区域。

[0048] 参照图1所示，其显示了本发明视频序列中自动提取手势候选区域的方法流程。其中，包括：

[0049] 步骤一：启动手势视频图像采集系统，采集视频图像；

[0050] 如图2所示，原始视频图像为RGB彩色图，启动手势视频图像采集系统，采集该视频图像。

[0051] 步骤二：构建当前t时刻的参考背景图像Bt；

[0052] 参考背景图像是用输入视频图像的灰度图像构建的，因此对于每一帧原始输入视频图像需要将其从RGB空间彩色图转换为灰度图，采用如下公式进行转换：

[0053] Y＝0.212671*R+0.715160*G+0.072169*B，

[0054] 其中Y为转换后的灰度值，R、G、B为原始RGB三分量的值。

[0055] 在图像采集系统启动之后，采集M帧视频图像，利用上述公式将其转换为灰度图，用这M帧灰度图像的平均值作为初始参考背景图像B0，M大于等于20，具体大小根据需要而定；

[0056] 在初始背景建立之后，t+1时刻的参考背景图像Bt+1都在前一时刻t的参考背景图像Bt基础之上采用下面的公式进行更新：

[0057] Bt+1＝(1-a)×Bt+a×Gt

[0058] 其中，Gt为t时刻采集到的视频图像对应的灰度图，a为更新系数且0＜a＜1，a越大表示更新速度越快。如图3所示，其显示了一个采用该方法构建的参考背景图像。

[0059] 步骤三：计算生成运动描述图像；

[0060] 将当前t时刻采集到的图像Ft转换为灰度图Gt，并与参考背景图像Bt逐点作差并取绝对值，生成运动描述图像Mt；

[0061] 其中，Mt＝|Ft-Bt|；如图4所示，其为图2和图3逐点作差并取绝对值后得到的运动描述图像。

[0062] 步骤四：计算获得运动分割阈值，将运动描述图像转化成二值运动图像BMt；

[0063] 利用最大类间方差法从运动描述图像Mt获得运动分割阈值λM，利用该阈值将运动描述图像转化成二值运动图像BMt，在BMt中值为“1”的像素点属于运动区域，值为“0”的像素点属于非运动区域；

[0064] 统计运动描述图像Mt的幅值分布直方图Histt；如图5所示，其为图4的直方图分布示意图。

[0065] 其中，分割阈值λM的确定包括如下步骤：

[0066] 1)计算当前t时刻运动描述图像：Mt＝|Gt-Bt|，统计Mt的幅值分布直方图Histt；

[0067] 2)选择一个阈值λ，将Histt分成两部分，计算两部分之间的类间方差g＝2 2
ω0(μ0-μ)+ω1(μ1-μ)，其中ω0和μ0分别为小于λ的部分的像素个数占直方图总像素个数的比例以及该部分的幅值平均值；ω1和μ1分别为大于λ的部分的像素个数占直方图总像素个数的比例以及该部分的幅值平均值；μ为整个直方图的幅值平均值；

[0068] 3)遍历阈值λ的所有可能取值(如图像位深为8，则λ的可能取值为0～255)，选择对应类间方差g最大的阈值λ作为最佳阈值λM。如图5所示，图中的灰色竖直线标示出了最佳阈值λM所在的位置。

[0069] 利用最佳阈值λM做阈值分割将运动描述图像转化成二值运动图像BMt：

[0070]

[0071] 这里i和j分别表示像素点在图像中的行数和列数。如图6所示，其为对图5进行阈值分割后的结构图示，图6中的白色部分值为“1”，属于运动区域，黑色部分值为“0”，属于非运动区域。

[0072] 步骤五：肤色分割，得到二值肤色图像BSt；

[0073] 对当前时刻采集到的图像利用先验肤色模型肤色分割，得到当前时刻的二值肤色图像BSt，如图8所示，图中值为“1”的像素点属于肤色区域，值为“0”的像素点属于非肤色区域。

[0074] 人体肤色在YCrCb颜色空间具有良好的聚类特性。先将当前时刻采集到的图像转换到YCrCb颜色空间，RGB到YCrCb的转换公式如下：

[0075] Y＝0.299*R+0.587*G+0.114*B

[0076] Cr＝0.713*(R-Y)+128

[0077] Cb＝0.564*(B-Y)+128

[0078] YCrCb中，Y分量表示颜色的亮度信息，Cr和Cb分量分别表示红色和蓝色的色度。建立先验肤色模型时只取Cr和Cb分量，这样可以减少光照条件对肤色分割的干扰。肤色在Cr、Cb空间的分布处于一个稳定的范围。在当前图像中，将满足T1≤Cr≤T2且T3≤Cb≤T4的像素点归类到肤色区域，在二值肤色图像BSt中将对应位置像素点的值设为“1”，不满足该条件的像素点归类到非肤色区域，在BSt中将对应像素点的值设为“0”；如图8所示，其为图2进行肤色分割后得到的二值肤色图像。图8中白色部分值为“1”，属于肤色区域，黑色部分值为“0”，表示属于非肤色区域。

[0079] 步骤六：将二值运动图像BMt和二值肤色图像BSt逐点作逻辑与操作，得到二值融合图像BFt；

[0080] 将二值运动图像BMt和二值肤色图像BSt逐点作逻辑与操作，得到二值融合图像BFt，如图10所示。图10中白色部分值为“1”，属于运动肤色区域，黑色部分值为“0”，属于其他区域。

[0081] 步骤七：对二值融合图像BFt进行连通区域分析，选择手势候选区域；

[0082] 对二值融合图像BFt进行连通区域分析，将图中的运动肤色区域分割成多个连通区域，并计算每个连通区域的面积(即包含的像素点数)，选择面积较大的N个连通区域作为手势候选区域，N的大小根据需要而定。

[0083] 将二值运动图像BMt和二值肤色图像BSt逐点作逻辑与操作，得到二值融合图像BFt。在进行逻辑与操作之前，先对BMt和BSt进行中值滤波去除孤立噪声点、进行形态学膨胀填补细小空洞。如图7和图9所示，其分别是对图6和图8进行中值滤波和形态学膨胀后的结果图。而图10是对图7和图9进行逻辑与操作得到的二值融合图像，图10中白色部分值为“1”，表示属于运动肤色区域，黑色部分值为“0”属于其他区域。如图11所示，其为对图10进行操作之后得到的手势候选区域的示意图。

[0084] 其中，选择手势候选区域包括如下步骤：

[0085] 对二值融合图像BFt进行连通区域分析，将图中的运动肤色区域分割成多个连通区域，并计算每个连通区域的面积(即包含的像素点数)；

[0086] 排除面积小于一定阈值Tarea的连通区域作为候选区域的可能性，该阈值Tarea与视频图像大小成比例，即Tarea＝H*W*β，这里H和W分别为图像的高度和宽度，β为比例系数，本实施例中取0.0025但不限于此大小；

[0087] 若前一帧图像中的多个手势候选区域中的第i个手势候选区域Candi中被确定(识别)包含手势(具体方法不限)，则在当前帧中距离Candi较近的连通区域优先被选做手势候选区域；若前一帧图像中的所有手势候选区域都没有被确定包含手势，则在当前帧中选择面积较大的N个连通区域作为新的手势候选区域，N的大小根据需要而定。

[0088] 如图12所示，一种视频序列中手势候选区域提取系统，包括手势视频图像采集系统，用于采集手势图像；以及连接该手势视频图像采集系统的手势候选区域提取系统，以用于生成手势候选区域。其中，手势候选区域提取系统包括有连接手势视频图像采集系统的运动检测单元、与运动检测单元连接的背景图像构建及维护单元、连接背景图像构建及维护单元的肤色检测单元、连接运动检测单元与肤色检测单元的运动、肤色信息融合单元、以及连接运动、肤色信息融合单元的手势候选区域分析提取单元。其中，背景图像构建及维护单元用于生成运动检测单元用到的参考背景图像的；运动检测单元用于将当前输入图像转化为二值运动图像；肤色检测单元用于将当前输入图像转化为二值肤色图像；运动、肤色信息融合单元用于将运动检测单元输出结果和肤色检测单元输出结果融合、生成二值融合图像；而手势候选区域分析提取单元用于从二值融合图像中提取手势候选区域。

[0089] 所述背景图像构建及维护单元的输入与所述手势视频图像采集系统的输出相连；所述运动检测单元具有两个输入，其第一个输入与所述的背景图像构建及维护单元的输出相连，其第二个输入与所述手势视频图像采集系统的输出相连；所述肤色检测单元的输入与所述手势视频图像采集系统的输出相连；所述信息融合单元具有两个输入，其第一个输入与运动检测单元的输出相连，其第二个输入与所述的肤色检测单元的输出相连；所述运动、肤色信息融合单元的输出与手势候选区域分析提取单元相连。

[0090] 本发明视频序列中自动提取手势候选区域的方法融合了运动信息和肤色信息寻找手势候选区域，两种信息之间进行互补提高了检测的准确性；并且该方法考虑了手势动作在时间上的连续性，利用这种连续性指导手势候选区域的选择。本发明对手势应用场景没有过多限定和假设，可适用于实际应用场景；且其不需要人工辅助，可以为基于视觉的手势识别系统提供手势候选区域的自动提取，在缩小手势候选范围的同时减少漏检的可能性，为手势的分割、定位、识别提供了很好的基础。

[0091] 以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

一种视频序列中自动提取手势候选区域的方法及系统转让专利

申请号 : CN201110230698.2

文献号 : CN102324019B

文献日 : 2014-03-05

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王维东 , 赵亚飞

申请人 : 浙江大学

摘要 :

权利要求 :

说明书 :