基于手势控制的讲义播放系统及方法转让专利

申请号 : CN201110265590.7

文献号 : CN102323859B

文献日 : 2013-07-24

本发明实施例公开了基于手势控制的讲义播放系统及方法，以使演讲者在无需操作鼠标即可完成对讲义的操作。所述系统，包括主控单元和手势获取单元；所述手势获取单元，用于获取手势动作；所述主控单元，用于在所述手势获取单元获取的手势动作与预设的特定手势动作相匹配时，对讲义进行相应的特定操作，所述特定手势动作与讲义的特定操作相对应。可以看出，本发明实施例主要通过识别演讲者的手势动作，依据其手势动作对讲义进行操作，演讲者无需再操作鼠标。

1.一种基于手势控制的讲义播放系统，其特征在于，包括主控单元和手势获取单元；

所述手势获取单元，用于获取手势动作；

所述主控单元，用于在所述手势获取单元获取的手势动作与预设的特定手势动作相匹配时，对讲义进行相应的特定操作，所述特定手势动作与讲义的特定操作相对应；

初始化单元，用于进行初始化；

所述手势获取单元包括手势识别单元和摄像机，所述摄像机用于拍摄图像；

所述手势识别单元，用于从所述摄像机拍摄的演讲者的图像中识别出所述演讲者的手势动作；

所述特定手势动作具体为特定动态手势动作；

所述进行初始化的具体实现方式包括：利用多个摄像机采集背景图像；

对所述背景图像进行预处理，建立背景的三维深度模型；

从所述摄像机拍摄的演讲者的图像中识别出所述演讲者的手势动作的具体实现方式包括：根据摄像机的内、外参数和摄像机拍摄的演讲者的图像，计算得出对应的前景的三维深度模型；通过所述背景的三维深度模型和所述前景的三维深度模型对比，得出二者之差的目标手势三维深度模型；

根据所述目标手势三维深度模型判别动态手势动作；

所述内参数包括所述摄像机的焦距，所述摄像机光轴与图像平面交点的坐标；

所述外参数包括所述摄像机相对于世界坐标系的方位。

2.如权利要求1所述的系统，其特征在于，所述摄像机的数量为多个。

3.如权利要求1所述的系统，其特征在于，所述特定手势动作包括左挥手、右挥手、两手合并后打开、点击中的至少一种，所述特定操作包括前翻页、后翻页、放大、播放嵌入的视频中的至少一种，其中：左挥手与前翻页相对应；

右挥手与后翻页相对应；

两手合并后打开与放大相对应；

点击与播放嵌入的视频相对应。

4.一种基于手势控制的讲义播放方法，其特征在于，包括：进行初始化；

获取手势动作，所述获取手势动作的具体实现方式包括：利用多个摄像机拍摄演讲者的图像；从所述演讲者的图像中识别出所述演讲者的手势动作；

在获取的手势动作与预设的特定手势动作相匹配时，对讲义进行相应的特定操作，所述特定手势动作与讲义的特定操作相对应；

所述特定手势动作具体为特定动态手势动作；

所述进行初始化的具体实现方式包括：利用多个摄像机采集背景图像；

对所述背景图像进行预处理，建立背景的三维深度模型；

所述从所述演讲者的图像中识别出所述演讲者的手势动作的具体实现方式包括：根据摄像机的内、外参数和摄像机拍摄的演讲者的图像，计算得出对应的前景的三维深度模型；通过所述背景的三维深度模型和所述前景的三维深度模型对比，得出二者之差的目标手势三维深度模型；

根据所述目标手势三维深度模型判别动态手势动作；

所述内参数包括所述摄像机的焦距，所述摄像机光轴与图像平面交点的坐标；

所述外参数包括所述摄像机相对于世界坐标系的方位。

5.如权利要求4所述的方法，其特征在于，所述建立背景的三维深度模型的具体实施方式包括：根据所述内、外参数，将多个摄像机采集到的多幅背景图像投射到统一的图像平面上；

对经投射到统一的图像平面的多幅背景图像进行立体匹配；

对经立体匹配后的背景图像进行视差计算，得到背景视差模型；

根据所述背景视差模型得出背景的三维深度模型；

所述根据所述目标手势三维深度模型判别动态手势动作的具体实施方式包括：当在预设时间内获得的连续多帧目标手势三维深度模型与特定动态手势动作的一系列三维深度模型均匹配时，确定识别出所述特定动态手势动作。

基于手势控制的讲义播放系统及方法

技术领域

[0001] 本发明涉及图像识别领域，更具体地说，涉及基于手势控制的讲义播放系统及方法。

背景技术

[0002] 现在，很多会议讲解和课堂教学都采用了多媒体的方式展示讲义。但是，目前的多媒体讲解，需要使用鼠标对讲义进行操作(比如翻页、放大等等)，演讲者的手需要不停地操作鼠标，为演讲者带来不便。

发明内容

[0003] 有鉴于此，本发明实施例目的在于提供基于手势控制的讲义播放系统及方法，以使演讲者在无需操作鼠标即可完成对讲义的操作。

[0004] 为实现上述目的，本发明实施例提供如下技术方案：

[0005] 根据本发明实施例的一个方面，提供一种基于手势控制的讲义播放系统，包括主控单元和手势获取单元；

[0006] 所述手势获取单元，用于获取手势动作；

[0007] 所述主控单元，用于在所述手势获取单元获取的手势动作与预设的特定手势动作相匹配时，对讲义进行相应的特定操作，所述特定手势动作与讲义的特定操作相对应。

[0008] 根据本发明实施例的另一个方面，提供一种基于手势控制的讲义播放方法，包括：

[0009] 获取手势动作；

[0010] 在获取的手势动作与预设的特定手势动作相匹配时，对讲义进行相应的特定操作，所述特定手势动作与讲义的特定操作相对应。

[0011] 从上述的技术方案可以看出，本发明实施例主要通过识别演讲者的手势动作，依据其手势动作对讲义进行操作，演讲者无需再操作鼠标。

附图说明

[0012] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0013] 图1为本发明实施例提供的基于手势控制的讲义播放系统结构示意图；

[0014] 图2为本发明实施例提供的基于手势控制的讲义播放系统另一结构示意图；

[0015] 图3为本发明实施例提供的基于手势控制的讲义播放系统又一结构示意图；

[0016] 图4为本发明实施例提供的基于手势控制的讲义播放系统又一结构示意图；

[0017] 图5a为本发明实施例提供的基于手势控制的讲义播放系统工作的流程图；

[0018] 图5b为本发明实施例提供的基于手势控制的讲义播放系统工作的另一流程图；

[0019] 图5c为本发明实施例提供的基于手势控制的讲义播放系统工作的又一流程图；

[0020] 图6为本发明实施例提供的根据视差求深度距离的原理图；

[0021] 图7为本发明实施例提供的手势识别的流程图；

[0022] 图8为本发明实施例提供的基于手势控制的讲义播放方法的流程图；

[0023] 图9为本发明实施例提供的基于手势控制的讲义播放方法的另一流程图；

[0024] 图10为本发明实施例提供的基于手势控制的讲义播放方法的又一流程图。

具体实施方式

[0025] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0026] 现在，很多会议讲解和课堂教学都采用了多媒体的方式展示讲义。但是，目前的多媒体讲解，需要使用鼠标对讲义进行操作(比如翻页、放大等等)，演讲者的手需要不停地操作鼠标，为演讲者带来不便。

[0027] 有鉴于此，本发明实施例提供基于手势控制的讲义播放系统和方法，以期令演讲者的手解放出来，无需操作鼠标即可完成对讲义的操作。本发明所指讲义可为任意多媒体文件，既可为单纯的幻灯片，也可以是集声、图、文字的文件。本发明的核心思想是，通过演讲者的手势动作来控制讲义的播放。

[0028] 图1示出了上述系统的一种结构，包括主控单元1和手势获取单元2。其中，手势获取单元2用于获取手势动作，而主控单元2，用于在手势获取单元2获取的手势动作与预设的特定手势动作相匹配时，对讲义进行相应的特定操作，上述特定手势动作与讲义的特定操作相对应。

[0029] 可以看出，本发明实施例可依据演讲者的手势动作对讲义进行相应操作，从而将演讲者的双手从操作鼠标中解放出来，使演讲者的演讲过程变得随意和自然。

[0030] 在本发明其他实施例中，参见图2，上述手势获取单元2可包括手势识别单元3和拍摄图像的摄像机4，手势识别单元3可从摄像机4拍摄的演讲者的图像中识别出演讲者的手势动作。

[0031] 上述手势动作可为静止手势动作，也可为动态手势动作。例如：可用静止的“OK”手势来表示翻页等等。当然也可以用动态手势动作来对讲义进行操作。此时，摄像机4的数量为多个，以从多个角度对演讲者进行拍摄。

[0032] 上述特定的动态手势动作可包括左挥手、右挥手、两手合并后打开、点击中的至少一种，而其对应的特定操作可包括前翻页、后翻页、放大、播放嵌入的视频中的至少一种。比如，左挥手与前翻页相对应，右挥手与后翻页相对应，两手合并后打开与放大相对应，点击与播放嵌入的视频相对应。当然，本领域技术人员完全可根据具体需要，对特定手势动作与特写操作的关系进行灵活设计，比如：左挥手也可与后翻页的操作相对应，两只手同时进行互动与放大和缩小相对应，或者两只手前后移动与放大和缩小相对应。此外，图片拼接对比、演讲资源选择和会议选择等操作，也可与特定的手势动作相对应。例如：“图片拼接对比”可与“两手掌同时向中间移动到一起”的手势动作对应，“演讲资源选择”可与“左手顺时针画圆弧”的手势动作对应，而“会议选择”可与“左手逆时针画圆弧”的手势动作对应。演讲者通过手势变换即可最终实现对讲义的不同操控。

[0033] 在本发明其他实施例中，参见图3，上述系统还可包括初始化单元5，用于进行初始化。

[0034] 上述主控单元2，手势识别单元3和初始化单元5的全部或部分功能可由计算机或笔记本电脑来实现。

[0035] 本发明将主要针对动态手势动作以更具体的实现来对上述系统加以描述。在本实施例中，参见图4，上述系统包括多个摄像机4，计算机6和投影仪7，计算机6播放的讲义，可通过投影仪7投影在放映墙8或投影屏幕9上，而上述摄像机4可安装在放映墙8上。

[0036] 参见图5a至图5c，上述系统中各设备工作流程如下：

[0037] S51、预设特定动态手势动作与计算机操作指令的对应关系；(本领域技术人员可以理解的是，并不是每次进行讲义播放时都执行步骤S51，特定动态手势动作与计算机操作指令的对应关系可预先存储在某一存储介质中。当然，使用者也可自定义特定动态手势动作与计算机操作指令的对应关系，在此不作赘述。)

[0038] S52、系统开机初始化过程：

[0039] S521、摄像机4采集背景图像，上述背景图像可为讲义展示场所的图像，比如会议室或教室的图像；

[0040] S522、计算机6对上述背景图像进行预处理(上述预处理具体可为高斯滤波，以去除噪声)，根据摄像机的内外参数以及上述经预处理的会议室或教室图像，建立背景的三维深度模型。当然，在本发明其他实施例中，“开机初始化过程”可由独立的初始化单元来完成。

[0041] 上述内外参数可预存于计算机6内，其中，内参数可包括：摄像机的焦距f；摄像机光轴与图像平面交点Q的坐标(当摄像机位置安装固定之后，该点就不会改变了)，坐标为(Qx，Qy)。Q点一般位于图像中心处，但由于摄像机制作的原因会有些偏离，偏离位移分别为x轴方向的u0，y轴方向的v0。

[0042] 需要说明的是，摄像机拍摄的一幅图像有宽度和高度，该图像的图像坐标系原点在图像的左上角，其中，x轴沿着图像宽度的方向，y轴沿着高度的方向，假设图像的宽度为W，高度为H，则图像中心的坐标为(W/2，H/2)，而(Qx，Qy)＝(W/2+u0，H/2+v0)。

[0043] 上述外参数可包括摄像机相对于世界坐标系的方位。

[0044] 在本发明其他实施例中，上述建立三维背景视差模型可包括如下步骤：

[0045] S5221、根据上述内外参数，将多个(本实施例为两个)摄像机采集到的多幅背景图像投射到一个统一的图像平面上。

[0046] 因为每一摄像机的内外参数都可能异于其他摄像机，因此，将多个(本实施例为两个)摄像机采集到的背景图像投射到一个统一的图像平面上，可令多个摄像机拍摄的多幅背景图像相当于利用同一摄像机在同一纬度不同经度上拍摄的多幅背景图像。

[0047] S5222、对经投射到统一的图像平面的多幅背景图像进行立体匹配。

[0048] 立体匹配是指根据所选特征点的计算，建立特征点间的对应关系，进而将同一个空间物理点在不同图像中的像点对应起来。常用的匹配算法有灰度特征匹配算法、灰度相关算法、松弛算法、多面体的对应算法以及三相机系统的对应算法等等。

[0049] 假设某一空间物理点X在背景图像1中的坐标为(W/2，H/2)，在背景图像2中的坐标为(W/2，H/5)，则立体匹配可令点X在背景图像1和背景图像2中都处于同一高度(即令点X在两幅图中的y坐标相同)。本领域技术人员可以理解的是，在每一幅图像中，每一点都与其他点存在相对位置关系，因此，在确定了两幅图像中选出的特征点之间的对应关系后，两幅图像中非特征点之间的对应关系也可随之确定了。

[0050] 上述特征点可通过SIFT，harris，SURF等算法求解出来。

[0051] S5223、对经立体匹配后的背景图像进行视差计算，得到背景视差模型。假设两摄像机(可将两摄像机视为“左眼”和“右眼”)在同一时刻观看空间物体的同一特征点P，点P在世界坐标系中的坐标为P(xc，yc，zc)，并分别在“左眼”和“右眼”上获取了该特征点P的图像，在经预处理、投射以及立体匹配后，“左眼”拍摄的点P的图像坐标为pleft＝(Xleft，Yleft)，而“右眼”拍摄的点P的图像坐标为pright＝(Xright，Yright)(Yleft＝Yright)。则这两幅图像的视差为：Disparity＝Xleft-Xright。视差计算完后形成的结果就是背景视差模型。

[0052] 需要注意的是，若采用多于两台摄像机进行图像采集，则可以获取多幅图像，两两之间进行上述投射、立体匹配以及视差计算，可优化只有两个摄像机实现的效果。

[0053] S5224、建立背景视差模型后，可进而根据背景视差模型得出背景的三维深度模型。

[0054] 请参见图6：Ol，Or分别为两个摄像头的光心，f是摄像机的焦距，T为两个摄像头的安装位置之间的距离。P点是空间中的任意一点，其在左边摄像头所拍摄的画面中成像点1 r l r
位x，右边摄像头所拍摄的画面中成像点为x。d＝x-x 表示视差。用Z表示P点的深度距离，那么根据三角形相似性定理，可得到：

[0055]

[0056] 那么深度距离Z与视差d的关系是：

[0057]

[0058] 由此可通过背景视差模型得出背景的三维深度模型。本发明后续提及的前景的三维深度模型建立也利用上述关系，而本发明预存的手势模型也可为手势三维深度模型。

[0059] 上述的三维深度模型可以一定的数据格式进行保存。比如，以三维数组[height][width][depth]对三维深度模型进行保存，其中height是三维深度模型的高度坐标，width是三维深度模型的宽度坐标，depth表示三维的距离深度，即背景视差模型距离摄像头的远近(也即上述公式中的Z)。

[0060] 需要注意的是，建立背景的三维深度模型后，计算机6将不再重复进行步骤S52，除非计算机6重新开机，或摄像机4重新开机。

[0061] S53、系统工作过程：摄像机4实时拍摄演讲者的图像(该图像可视为前景图像)，对图像进行识别处理后，判断其动态手势动作，根据上述对应关系来控制电子讲义的播放。

[0062] S531、具体的，在得出上述背景视差模型后，计算机6可根据摄像机的内外参数和拍摄的前景图像，计算前景视差模型(前景视差模型的计算过程与背景视差模型的计算过程相类似，也是需要进行预处理、投射、立体匹配以及视差计算)，然后得出前景的三维深度模型。

[0063] S532，通过背景的三维深度模型和前景的三维深度模型对比，可以得出二者之差的目标手势三维深度模型。

[0064] S533、然后根据目标手势三维深度模型判别手势动作。

[0065] S534、根据识别出的手势动作与讲义的特定操作之间预设的对应关系，控制电子讲义的播放。

[0066] 计算机6中预先存在了特定动态手势动作(比如左挥手、右挥手、两手合并后打开)的三维深度模型。由于动态手势动作在时间上具有延续性，因此，每一个特定动态手势动作可由一系列的三维深度模型表示，或者也可将其视为由第一至第N帧的三维深度模型构成。以两手合并后打开这一手势动作为例，其第一帧三维深度模型应是两手合并的手势对应的三维深度模型，最后一帧应是两手相距一定距离的手势对应的三维深度模型。

[0067] 摄像机4可以以预设间隔(Δt)采集前景图像，进而通过计算机6生成目标手势三维深度模型。假设摄像机4在1秒内获取60帧前景图像，则计算机6相应得生成60帧目标手势的三维深度模型。

[0068] 手势识别的原理可为：

[0069] 当摄像机连续拍照时，在时间轴上形成的一系列的图像帧，每帧图像都有人手出现，且位置不同。当在一定时间内获得的连续多帧目标手势三维深度模型与某一特定动态手势动作的一系列三维深度模型均匹配时，则认为识别出该特定动态手势动作。

[0070] 在本发明其他实施例中，参见图7，上述手势识别可用下述流程表示：

[0071] S71，获取目标手势三维深度模型；

[0072] S72，判断是否存在非空待匹配集合，如果是，转S73，否则，转S78；

[0073] S73，将所述目标手势三维深度模型与待匹配集合中的第一帧三维深度模型进行匹配；

[0074] S74，判断目标手势三维深度模型与待匹配集合中的第一帧三维深度模型是否匹配，如果是，转S75，否则，转S711；

[0075] S75，删除上述待匹配集合中已匹配过的三维深度模型；

[0076] S76，判断上述待匹配集合是否为空，如果是，转S77，否则，转S71；

[0077] S77，将上述待匹配集合中对应的特定动态手势动作作为识别结果输出，转S71；

[0078] S78，将目标手势三维深度模型与特定动态手势动作的第一帧三维深度模型相匹配；

[0079] S79，判断目标手势三维深度模型与特定动态手势动作的第一帧三维深度模型是否匹配，如果是，转S710，否则转S71；

[0080] S710，删除该特定动态手势动作的中已匹配的三维深度模型，将剩余的其他三维深度模型放入待匹配集合中，转S71；

[0081] S711，删除待匹配集合中的三维深度模型(也即令待匹配集合为空)，转S71。

[0082] 需要注意的是，前也提及手势动作可为静止手势动作，识别静止手势动作与识别动态手势动作相类似，也可利用背景三维深度模型和前景三维深度模型得到目标手势三维深度模型，进而将之与预存的特定静止手势动作的三维深度模型相匹配的方式来进行手势识别。只是特定的静止手势动作对应的三维深度模型的数量要少于特定的动态手势动作对应的三维深度模型的数量。

[0083] 与之相对应，本发明实施例还提供了一种基于手势控制的讲义播放方法，参见图8，该方法至少包括：

[0084] S1、获取手势动作；

[0085] S2、在获取的手势动作与预设的特定手势动作相匹配时，对讲义进行相应的特定操作，上述特定手势动作与讲义的特定操作相对应。

[0086] 上述方法可利用摄像机拍摄图像。而上述手势动作可为静止手势动作，也可为动态手势动作。例如：可用静止的“OK”手势来表示翻页等等。当然也可以用动态手势动作来对讲义进行操作。此时，摄像机的数量为多个，以从多个角度对演讲者进行拍摄。

[0087] 在本发明其他实施例中，参见图9，步骤S1的具体实现方式包括：

[0088] S11、利用多个摄像机拍摄演讲者的图像；

[0089] S12、从所拍摄的演讲者的图像中识别出演讲者的手势动作。

[0090] 在本发明其他实施例中，参见图10，在获取手势动作之前，还可如下步骤包括：

[0091] S3、进行初始化。

[0092] 进行初始化的具体实现方式可包括：

[0093] 利用多个摄像机采集背景图像；

[0094] 对所述采集到的会议室或教室图像进行预处理，建立背景的三维深度模型；

[0095] 而相应的，步骤S12的具体实现方式可包括：

[0096] 根据摄像机的内外参数和摄像机拍摄的演讲者的图像，计算得出前景的三维深度模型；通过所述背景的三维深度模型和前景的三维深度模型对比，得出二者之差的目标手势三维深度模型；

[0097] 根据目标手势三维深度模型判别动态手势动作。

[0098] 如何得到背景与前景的三维深度模型，以及如何根据目标手势三维深度模型差别动态手势动作，本申请前述已进行了描述，在此不作赘述。

[0099] 需要指出的是，上述实施例只是本发明所介绍的优选实施例，本领域技术人员在此基础上，完全可以设计出更多的实施例，在此不作赘述。

[0100] 本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言，由于其与实施例公开的装置相对应，所以描述的比较简单，相关之处参见装置部分说明即可。

[0101] 对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

基于手势控制的讲义播放系统及方法转让专利

申请号 : CN201110265590.7

文献号 : CN102323859B

文献日 : 2013-07-24

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 梁艳菊 , 李庆 , 陈大鹏 , 林蓁蓁 , 陈政

申请人 : 昆山市工业技术研究院有限责任公司

摘要 :

权利要求 :

说明书 :