一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法转让专利

申请号 : CN201811487617.5

文献号 : CN109558855B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王海涛杜国铭李美娟李祝强蒋大宇李文越

申请人 : 哈尔滨拓博科技有限公司

摘要 :

本发明提出了一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法,该方法包括模版数据的读取、背景去除、量化梯度、与模版进行相似度匹配、提取手势轮廓特征和手势识别步骤。本发明方法与模版匹配技术相结合,对手势首先使用模版匹配技术进行识别,利用模版匹配的初步识别结果,分析该结果中的手势应存在手掌轮廓特征,对识别结果进一步识别验证,提升了识别准确率,在动态识别手势时识别结果准确率得到了较为明显地提高。同时该方法的算法复杂度较低,在较短的时间内获得较为理想的结果,因此,同时解决了由于算法复杂度过高手势无法达到实时识别的问题。

权利要求 :

1.一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法,其特征在于:步骤一、读取模版数据:所述模版数据的读取包括对手势模版图片的收集、特征点的提取以及全部特征点的最大位置和最小位置的获取;

步骤二、背景去除:对实时视频进行图像捕捉,利用视频序列中连续的n帧图像的差来进行目标检测和提取,其中n>=2;

步骤三、量化梯度:对视频捕捉到的图像计算梯度,将梯度量化到8个方向,对每个像素的8*8大小范围内的梯度方向使用同一个梯度方向,利用方向相似度对照表方式,对每个像素点的方向计算统计其每个方向的相似度;其中每个点都有与8个方向的相似度,同一个位置由8个数组表示其与不同方向的相似程度;

步骤四、与模版进行匹配:将步骤三得到的表示一帧图像的8个方向图像数组与模版进行匹配,以8为阈值,计算一帧图像中共有几个8*8区域,再以8*8大小的图像块作为匹配模版,在图像中进行移动,将每个对应位置像素点的方向与模版中的该位置的方向进行比较,得到相似度值;

步骤五、提取手势轮廓特征:将模版匹配的结果进行进一步融合,将识别成同一个手势的结果,依据其识别范围,保留识别出的全部区域,对每个识别出的区域以此区域作为起点,分别向模版标识出来的区域四个方向扩区域,并以此扩张区域提取手势轮廓;

步骤六、对提取的手势轮廓进行手势识别;

所述步骤六具体为:根据提取到的轮廓,分别计算轮廓的凸包及凸凹陷,根据凸凹陷得到全部凹陷的起始点、最远点以及终止点;计算全部起始点、最远点以及终止点的角度,角度是锐角的保留该起始点、最远点以及终止点;通过起始点以及终止点两个点连线得到直线的斜率k,并且以斜率k为标准计算经过最远点的直线l1,同时得到直线l1的垂直直线l2,利用两条直线形成的四个区域将手势分割成四个部分,统计每部分占全部手势区域的比例,与阈值进行比较,如果都符合要求,则为所需要的手势,识别结束,否则,将此识别结果作为误识别,返回识别不成功。

2.根据权利要求1所述的方法,其特征在于:所述步骤一具体为:

步骤a:通过对标准的手势模版图片分割选取感兴趣区域,保存感兴趣区域,同时进行降采样操作并保存降采样操作后的图片;

步骤b:计算图片的梯度直方图,并为每类模版增加标签;

步骤c:选取特征点之间距离超过阈值的点,保存特征点的个数由阈值决定;

步骤d:对选取后的特征点通过判断其坐标位置获得最大最小位置值,并利用该值将全部特征点范围包围起来。

3.根据权利要求2所述的方法,其特征在于:所述步骤三具体为:

步骤e:将实时捕捉的视频图像计算所有点的梯度及方向;

步骤f:将方向值量化到0~15共16个值,再将8~15的方向量化至0~7,对每个像素点取其周围像素的方向及梯度,并用周围点最多的方向趋势覆盖该像素点的方向;

步骤g:将周围8个方向以及自身方向作为最终的方向和,即如果8*8范围内图像含有两个方向,那么处于该范围内全部像素都被认为含有两个方向;

步骤h:采用对照表的方式,将上一步得到的方向和与对照表进行比较,所述对照表的生成方式是:首先低4位及高4位数值从0~15共16个数,因为一行16个数就可以表示低4位或高4位与当前方向的相似度关系。

4.根据权利要求3所述的方法,其特征在于:所述相似度的数值计算方式:相似程度分5个量级为0~4,如果参考方向为右侧方向,当前参考方向下,cos0与该参考方向相似度最大,其相似度为4。

5.根据权利要求4所述的方法,其特征在于:在与模版进行匹配后,存储超过判定阈值的点的坐标位置、相似度、手势类型以及点匹配到的模版。

说明书 :

一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别

方法

技术领域

[0001] 本发明属于手势识别技术领域,特别是涉及一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法。

背景技术

[0002] 目前基于单目视觉的静态手势识别技术主要有三大类:
[0003] 第一类为模板匹配技术,这是一种最简单的识别技术。它将待识别手势的特征参数与预先存储的模板特征参数进行匹配,通过测量两者之间的相似度来完成识别任务。《Hausdorff距离在手势识别中的运用》中利用Hausdorff距离模板匹配思想来实现手势的识别。将待识别手势和模板手势的边缘图像变换到欧式距离空间,求出它们的Hausdorff距离或修正Hausdorff距离。用该距离值代表待识别手势和模板手势的相似度。识别结果取与最小距离值对应的模板手势。
[0004] 第二类为统计分析技术,这是一种通过统计样本特征向量来确定分类器的基于概率统计理论的分类方法。这种技术要求人们从原始数据中提取特定的特征向量,对这些特征向量进行分类,而不是直接对原始数据进行识别。在《基于计算机视觉的手势识别研究》中虽然也采用了Hausdorff距离算法,但并未提出模板手势,而是对于每幅图像提取出指尖和重心特征,然后计算出距离和夹角,对于不同手势分别进行距离和夹角的统计,得到其分布的数字特征,根据基于最小错误率的贝叶斯决策得到用于分割不同手势的距离和夹角的值。得到分类器以后,对于采集的手势图像进行分类识别。文中的多尺度模型和矩描绘子相结合的算法也是运用了统计分析技术。
[0005] 第三类为神经网络技术,这种技术具有自组织和自学习能力,具有分布性特点,能有效的抗噪声和处理不完整模式以及具有模式推广能力。采用这种技术,在识别前都需要一对神经网络的训练(学习)阶段。
[0006] 单独使用模版匹配法无法解决手势的时间可变性问题,同时,由于模版本身的限制,对于同一手势,不同人操作时,由于个体变化差异,动作的快慢程度不能够保证一致,因此视频中的每幅图像不能与模版达到相互对应关系,从而不能够达到理想的识别精度。统计分析技术由于用户的行为非常复杂,因而要想准确地匹配一个用户的历史行为非常困难,易造成系统误报、错报和漏报;定义入侵阈值比较困难,阈值高则误检率增高,阈值低则漏检率增高。神经网络技术计算量大,费时,同时由于其处理时间序列的能力不强,对于动态手势识别效果远不如静态的。

发明内容

[0007] 本发明目的是为了解决现有技术中的问题,提供了一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法。
[0008] 本发明是通过以下技术方案实现的,本发明提出一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法,
[0009] 步骤一、读取模版数据:所述模版数据的读取包括对手势模版图片的收集、特征点的提取以及全部特征点的最大位置和最小位置的获取;
[0010] 步骤二、背景去除:对实时视频进行图像捕捉,利用视频序列中连续的n帧图像的差来进行目标检测和提取,其中n>=2;
[0011] 步骤三、量化梯度:对视频捕捉到的图像计算梯度,将梯度量化到8个方向,对每个像素的8*8大小范围内的梯度方向使用同一个梯度方向,利用方向相似度对照表方式,对每个像素点的方向计算统计其每个方向的相似度;其中每个点都有与8个方向的相似度,同一个位置由8个数组表示其与不同方向的相似程度;
[0012] 步骤四、与模版进行匹配:将步骤三得到的表示一帧图像的8个方向图像数组与模版进行匹配,以8为阈值,计算一帧图像中共有几个8*8区域,再以8*8作为匹配模版,在图像中进行移动,将每个对应位置像素点的方向与模版中的该位置的方向进行比较,得到相似度值;
[0013] 步骤五、提取手势轮廓特征:将模版匹配的结果进行进一步融合,将识别成同一个手势的结果,依据其识别范围,保留识别出的全部区域,对每个识别出的区域以此区域作为起点,分别向模版标识出来的区域四个方向扩区域,并以此扩张区域提取手势轮廓;
[0014] 步骤六、对提取的手势轮廓进行手势识别。
[0015] 进一步地,所述步骤一具体为:
[0016] 步骤a:通过对标准的手势模版图片分割选取感兴趣区域,保存感兴趣区域,同时进行降采样操作并保存降采样操作后的图片;
[0017] 步骤b:计算图片的梯度直方图,并为每类模版增加标签;
[0018] 步骤c:选取特征点之间距离超过阈值的点,保存特征点的个数由阈值决定;
[0019] 步骤d:对选取后的特征点通过判断其坐标位置获得最大最小位置值,并利用该值将全部特征点范围包围起来。
[0020] 进一步地,所述步骤三具体为:
[0021] 步骤e:将实时捕捉的视频图像计算所有点的梯度及方向;
[0022] 步骤f:将方向值量化到0~15共16个值,再将8~15的方向量化至0~7,对每个像素点取其周围像素的方向及梯度,并用周围点最多的方向趋势覆盖该像素点的方向;
[0023] 步骤g:将周围8个方向以及自身方向作为最终的方向和,即如果8*8范围内图像含有两个方向,那么处于该范围内全部像素都被认为含有两个方向;
[0024] 步骤h:采用对照表的方式,将上一步得到的方向和与对照表进行比较,所述对照表的生成方式是:首先低4位及高4位数值从0~15共16个数,因为一行16个数就可以表示低4位或高4位与当前方向的相似度关系。
[0025] 进一步地,所述相似度的数值计算方式:相似程度分5个量级为0~4,如果参考方向为右侧方向,当前参考方向下,cos0与该参考方向相似度最大,其相似度为4。
[0026] 进一步地,在与模版进行匹配后,存储超过判定阈值的点的坐标位置、相似度、手势类型以及点匹配到的模版。
[0027] 进一步地,所述步骤六具体为:根据提取到的轮廓,分别计算轮廓的凸包及凸凹陷,根据凸凹陷得到全部凹陷的起始点、最远点以及终止点;计算全部起始点、最远点以及终止点的角度,角度是锐角的保留该起始点、最远点以及终止点;通过起始点以及终止点两个点连线得到该直线的斜率k,并且以斜率k为标准计算经过最远点的直线l1,同时得到直线l1的垂直直线l2,利用两条直线形成的四个区域将手势分割成四个部分,统计每部分占全部手势区域的比例,与阈值进行比较,如果都符合要求,则为所需要的手势,识别结束,否则,将此识别结果作为误识别,返回识别不成功。
[0028] 本发明的有益效果:本发明方法与模版匹配技术相结合,对手势首先使用模版匹配技术进行识别,利用模版匹配的初步识别结果,分析该结果中的手势应存在手掌轮廓特征,对识别结果进一步识别验证,提升了识别准确率,在动态识别手势时识别结果准确率得到了较为明显地提高。同时该方法的算法复杂度较低,在较短的时间内获得较为理想的结果,因此,同时解决了由于算法复杂度过高手势无法达到实时识别的问题。

附图说明

[0029] 图1是本发明所述基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法流程图;
[0030] 图2为手势类别对应的具体手势形状图;
[0031] 图3为手势控制音乐播放器系统流程图。

具体实施方式

[0032] 下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0033] 如图1所示,本发明提出一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法,
[0034] 步骤一、读取模版数据:所述模版数据的读取包括对手势模版图片的收集、特征点的提取以及全部特征点的最大位置和最小位置的获取;
[0035] 所述步骤一具体为:
[0036] 步骤a:通过对标准的手势模版图片分割选取感兴趣区域,保存感兴趣区域,同时进行降采样操作并保存降采样操作后的图片;
[0037] 步骤b:计算图片的梯度直方图,并为每类模版增加标签;
[0038] 步骤c:选取特征点之间距离超过阈值的点,保存特征点的个数由阈值决定;
[0039] 步骤d:对选取后的特征点通过判断其坐标位置获得最大最小位置值,并利用该值将
[0040] 全部特征点范围包围起来。
[0041] 步骤二、背景去除:对实时视频进行图像捕捉,利用视频序列中连续的n帧图像的差来进行目标检测和提取,其中n>=2;在运动的检测过程中,该方法利用时间信息,通过比较图像中若干连续帧获得对应像素点的灰度差值,如果均大于一定的阈值,则可以判断该位置存在运动的目标。
[0042] 步骤三、量化梯度:对视频捕捉到的图像计算梯度,将梯度量化到8个方向,对每个像素的8*8大小范围内的梯度方向使用同一个梯度方向,利用方向相似度对照表方式,对每个像素点的方向计算统计其每个方向的相似度;
[0043] 所述步骤三具体为:
[0044] 步骤e:将实时捕捉的视频图像计算所有点的梯度及方向;
[0045] 步骤f:将方向值量化到0~15共16个值,再将8~15的方向量化至0~7,对每个像素点取其周围像素的方向及梯度,并用周围点最多的方向趋势覆盖该像素点的方向;
[0046] 步骤g:将周围8个方向以及自身方向作为最终的方向和,即如果8*8范围内图像含有两个方向,那么处于该范围内全部像素都被认为含有两个方向;
[0047] 步骤h:采用对照表的方式,将上一步得到的方向和与对照表进行比较,所述对照表的生成方式是:首先低4位及高4位数值从0~15共16个数,因为一行16个数就可以表示低4位或高4位与当前方向的相似度关系。所述相似度的数值计算方式:相似程度分5个量级为
0~4,如果参考方向为右侧方向,当前参考方向下,cos0与该参考方向相似度最大,其相似度为4。
[0048] 经过以上步骤,每个点都有与8个方向的相似度。因为同一个位置由8个数组表示其与不同方向的相似程度。使用对照表能够减少算法对时间的消耗,从而使处理实时视频手势识别时更加流畅。
[0049] 步骤四、与模版进行匹配:将步骤三得到的表示一帧图像的8个方向图像数组与模版进行匹配,以8为阈值,计算一帧图像中共有几个8*8区域,再以8*8作为匹配模版,在图像中进行移动,将每个对应位置像素点的方向与模版中的该位置的方向进行比较,得到相似度值;存储超过判定阈值的点的坐标位置、相似度、手势类型以及点匹配到的模版。
[0050] 步骤五、提取手势轮廓特征:将模版匹配的结果进行进一步融合,将识别成同一个手势的结果,依据其识别范围,保留识别出的全部区域,经过这个操作后,当前帧视频的手势可能被识别成多种手势,同时,同一种手势只有一个模版与该手势匹配。对每个识别出的区域以此区域作为起点,分别向模版标识出来的区域四个方向扩区域,并以此扩张区域提取手势轮廓;
[0051] 步骤六、对提取的手势轮廓进行手势识别。所述步骤六具体为:根据提取到的轮廓,分别计算轮廓的凸包及凸凹陷,根据凸凹陷得到全部凹陷的起始点、最远点以及终止点;计算全部起始点、最远点以及终止点的角度,角度是锐角的保留该起始点、最远点以及终止点;通过起始点以及终止点两个点连线得到该直线的斜率k,并且以斜率k为标准计算经过最远点的直线l1,同时得到直线l1的垂直直线l2,利用两条直线形成的四个区域将手势分割成四个部分,统计每部分占全部手势区域的比例,与阈值进行比较,如果都符合要求,则为所需要的手势,识别结束,否则,将此识别结果作为误识别,返回识别不成功。
[0052] 以具体实例说明本发明所述方法:
[0053] 系统运行环境是PC机,使用了WIN10(64位)操作系统,处理器为Intel Core i7-8700K,内存为16G。使用的集成开发环境是Visual Studio2017,编程语言使用的是C++。利用该系统实现了车载音乐的控制。通过实时地对动态手势进行识别,系统能够将手势转化为控制指令从而实时控制音乐播放器的操作。具体的手势对应的功能如表1。手势类别分别为“1”,“2”,“3”,“4”,“5”,“6”。手势类别对应的具体手势形状如图2所示。图2中(1)的手势形状表示手势“1”,(2)的手势形状表示手势“2”,(3)的手势形状表示手势“3”,(4)的手势形状表示手势“4”,(5)的手势形状表示手势“5”,(6)的手势形状表示手势“6”。
[0054] 表1不同的自定义手势对应的音乐播放器功能
[0055]手势类别 “1” “2” 3 “4” “5” “6”
对于功能 上一曲 下一曲 停止 快进 快退 开始
[0056] 如图3所示,为手势控制音乐播放器系统的流程图,分为三个部分,分别为:手势识别准备、手势识别开始、手势转化为指令。在手势识别准备阶段,系统如果开启后,就不断检测视频区域是否存在手。当系统匹配到手的存在后,则与模版进行匹配,检测是否存在系统自定义的手势存在。如果匹配到自定义手势后,进入手势识别阶段。在手势识别阶段首先提取手势轮廓区域的手势特征,根据这些特征值系统得出具体属于哪种手势类别,将识别出的手势转化为对应功能的指令,并通过无线模块发送给音乐播放器,从而根据该指令控制音乐播放器执行对应的功能。
[0057] 以上对本发明所提供的一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。