手势检测网络训练、手势检测及控制方法、系统及终端转让专利

申请号 : CN201610707579.4

文献号 : CN107341436B

文献日 : 2019-02-22

本发明实施例提供了一种手势检测网络训练、手势检测及控制方法、系统及终端，其中，手势检测网络训练方法包括：根据含有人手标注信息的样本图像训练第一卷积神经网络，得到第一卷积神经网络针对样本图像的人手候选区域的预测信息；修正人手候选区域的预测信息；根据修正后的人手候选区域的预测信息和样本图像训练第二卷积神经网络，第二卷积神经网络和第一卷积神经网络共享特征提取层，在第二卷积神经网络训练过程中保持特征提取层的参数不变。本发明实施例提高了训练第二卷积神经网络的准确率，进一步降低利用第二卷积神经网络进行手势检测的误检率。而且，为训练第二卷积神经网络提供了便利，减少了训练第二卷积神经网络的计算量。

1.一种手势检测网络训练方法，其特征在于，包括：

根据含有人手标注信息的样本图像训练第一卷积神经网络，得到所述第一卷积神经网络针对所述样本图像的人手候选区域的预测信息；

将多个补充负样本图像和所述人手候选区域的预测信息输入第三卷积神经网络以进行分类，以过滤所述人手候选区域中的负样本，得到修正后的所述人手候选区域的预测信息；

根据修正后的所述人手候选区域的预测信息和所述样本图像训练第二卷积神经网络，其中，所述第二卷积神经网络和所述第一卷积神经网络共享特征提取层，并在所述第二卷积神经网络训练过程中保持所述特征提取层的参数不变。

2.根据权利要求1所述的方法，其特征在于，所述人手标注信息包括人手区域的标注信息。

3.根据权利要求2所述的方法，其特征在于，所述人手标注信息包括手势的标注信息。

4.根据权利要求1-3任一所述的方法，其特征在于，所述第一卷积神经网络用于预测所述样本图像划分的多个候选区域是否为人手候选区域。

5.根据权利要求1-3任一所述的方法，其特征在于，所述第二卷积神经网络用于输出所述样本图像的手势预测结果。

6.根据权利要求1-3任一所述的方法，其特征在于，所述手势预测结果包括：预定手势类型。

7.根据权利要求6所述的方法，其特征在于，所述预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

8.根据权利要求6所述的方法，其特征在于，所述手势预测结果还包括：其他手势类型。

9.根据权利要求1-3任一所述的方法，其特征在于，所述人手候选区域的预测信息中人手候选区域数量与所述补充负样本图像的数量的差异落入预定容许范围。

10.根据权利要求9所述的方法，其特征在于，所述人手候选区域的预测信息中人手候选区域数量与所述补充负样本图像的数量相等。

11.根据权利要求1-3任一所述的方法，其特征在于，所述第一卷积神经网络为RPN，和/或，所述第二卷积神经网络为FRCNN。

12.根据权利要求1-3任一所述的方法，其特征在于，所述第三卷积神经网络为FRCNN。

13.一种手势检测方法，其特征在于，包括：

采用第四卷积神经网络检测图像，获得所述图像的第一特征信息和人手候选区域的预测信息，所述图像包括静态图像或视频中的图像，所述第一特征信息包括手部特征信息；

将所述第一特征信息和所述人手候选区域的预测信息作为第五卷积神经网络的第二特征信息，并采用所述第五卷积神经网络根据所述第二特征信息进行所述图像的手势检测，得到所述图像的手势检测结果；其中，所述第五卷积神经网络由权利要求1～12任一所述训练方法训练获得，所述第五卷积神经网络和所述第四卷积神经网络共享特征提取层。

14.根据权利要求13所述的方法，其特征在于，所述第四卷积神经网络用于检测所述图像划分的多个候选区域是否为人手候选区域。

15.根据权利要求14所述的方法，其特征在于，所述第五卷积神经网络用于输出所述图像的手势检测结果。

16.根据权利要求13所述的方法，其特征在于，所述手势检测结果包括：预定手势类型。

17.根据权利要求16所述的方法，其特征在于，所述预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

18.根据权利要求17所述的方法，其特征在于，所述手势检测结果还包括：其他手势类型。

19.一种手势控制方法，其特征在于，包括：

采用如权利要求1-12任一所述的方法训练而得的手势检测网络检测视频图像，或者，采用如权利要求13-18任一所述的方法检测视频图像，得到手势检测结果；

根据所述手势检测结果在所述视频图像上展示业务对象。

20.根据权利要求19所述的方法，其特征在于，根据所述手势检测结果在所述视频图像上展示业务对象，包括：将所述手势检测结果与预定触发手势进行比较；

响应于所述手势检测结果与预定触发手势匹配，确定所述业务对象在所述视频图像中的展示位置；

在所述展示位置采用计算机绘图方式绘制所述业务对象。

21.根据权利要求20所述的方法，其特征在于，所述展示位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

22.根据权利要求21所述的方法，其特征在于，所述预定触发手势包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

23.根据权利要求19所述的方法，其特征在于，所述业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

24.根据权利要求19所述的方法，其特征在于，所述业务对象为包含有语义信息的特效；所述视频图像为直播类视频图像。

25.根据权利要求24所述的方法，其特征在于，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

26.一种手势检测网络训练系统，其特征在于，包括：

第一训练模块，用于根据含有人手标注信息的样本图像训练第一卷积神经网络，得到所述第一卷积神经网络针对所述样本图像的人手候选区域的预测信息；

修正模块，用于将多个补充负样本图像和所述人手候选区域的预测信息输入第三卷积神经网络以进行分类，以过滤所述人手候选区域中的负样本，得到修正后的所述人手候选区域的预测信息；

第二训练模块，用于根据修正后的所述人手候选区域的预测信息和所述样本图像训练第二卷积神经网络，其中，所述第二卷积神经网络和所述第一卷积神经网络共享特征提取层，并在所述第二卷积神经网络训练过程中保持所述特征提取层的参数不变。

27.根据权利要求26所述的系统，其特征在于，所述人手标注信息包括人手区域的标注信息。

28.根据权利要求27所述的系统，其特征在于，所述人手标注信息包括手势的标注信息。

29.根据权利要求26-28任一所述的系统，其特征在于，所述第一卷积神经网络用于预测所述样本图像划分的多个候选区域是否为人手候选区域。

30.根据权利要求26-28任一所述的系统，其特征在于，所述第二卷积神经网络用于输出所述样本图像的手势预测结果。

31.根据权利要求26-28任一所述的系统，其特征在于，所述手势预测结果包括：预定手势类型。

32.根据权利要求31所述的系统，其特征在于，所述预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

33.根据权利要求32所述的系统，其特征在于，所述手势预测结果还包括：其他手势类型。

34.根据权利要求26-28任一所述的系统，其特征在于，所述人手候选区域的预测信息中人手候选区域数量与所述补充负样本图像的数量的差异落入预定容许范围。

35.根据权利要求34所述的系统，其特征在于，所述人手候选区域的预测信息中人手候选区域数量与所述补充负样本图像的数量相等。

36.根据权利要求26-28任一所述的系统，其特征在于，所述第一卷积神经网络为RPN，和/或，所述第二卷积神经网络为FRCNN。

37.根据权利要求26-28任一所述的系统，其特征在于，所述第三卷积神经网络为FRCNN。

38.一种手势检测系统，其特征在于，包括：

图像检测模块，用于采用第四卷积神经网络检测图像，获得所述图像的第一特征信息和人手候选区域的预测信息，所述图像包括静态图像或视频中的图像，所述第一特征信息包括手部特征信息；

手势检测模块，用于将所述第一特征信息和所述人手候选区域的预测信息作为第五卷积神经网络的第二特征信息，并采用所述第五卷积神经网络根据所述第二特征信息进行所述图像的手势检测，得到所述图像的手势检测结果；其中，所述第五卷积神经网络由权利要求26～37任一所述手势检测网络训练系统训练获得，所述第五卷积神经网络和所述第四卷积神经网络共享特征提取层。

39.根据权利要求38所述的系统，其特征在于，所述第四卷积神经网络用于检测所述图像划分的多个候选区域是否为人手候选区域。

40.根据权利要求38所述的系统，其特征在于，所述第五卷积神经网络用于输出所述图像的手势检测结果。

41.根据权利要求38-40任一所述的系统，其特征在于，所述手势检测结果包括：预定手势类型。

42.根据权利要求41所述的系统，其特征在于，所述预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

43.根据权利要求42所述的系统，其特征在于，所述手势预测结果还包括：其他手势类型。

44.一种手势控制系统，其特征在于，包括：

检测模块，用于采用如权利要求26-37任一所述的系统训练而得的手势检测网络检测视频图像，或者，采用如权利要求38-43任一所述的系统检测视频图像，得到手势检测结果；

展示模块，用于根据所述手势检测结果在所述视频图像上展示业务对象。

45.根据权利要求44所述的系统，其特征在于，所述展示模块，包括：比较模块，用于将所述手势检测结果与预定触发手势进行比较；

确定模块，用于响应于所述手势检测结果与预定触发手势匹配，确定所述业务对象在所述视频图像中的展示位置；

绘制模块，用于在所述展示位置采用计算机绘图方式绘制所述业务对象。

46.根据权利要求45所述的系统，其特征在于，所述展示位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

47.根据权利要求46所述的系统，其特征在于，所述预定触发手势包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

48.根据权利要求44-47任一所述的系统，其特征在于，所述业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

49.根据权利要求44-47任一所述的系统，其特征在于，所述业务对象为包含有语义信息的特效；所述视频图像为直播类视频图像。

50.根据权利要求49所述的系统，其特征在于，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

51.一种终端，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-12任一所述的手势检测网络训练方法对应的操作。

52.一种终端，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求13-18任一所述的手势检测方法对应的操作。

53.一种终端，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求19-25任一所述的手势控制方法对应的操作。

手势检测网络训练、手势检测及控制方法、系统及终端

技术领域

[0001] 本发明实施例涉及人工智能技术领域，尤其涉及一种手势检测网络训练、手势检测及控制方法、系统及终端。

背景技术

[0002] 近年来，随着人工智能技术的普及与发展，利用计算机对图像进行识别被应用到越来越多的场景当中。图像识别能够为用户提供很多方便，例如从图像中识别得到人脸，进而利用人脸进行安全验证；从图像中识别得到车牌，进而对车牌进行筛选。

[0003] 但是，目前并没有有效的从图像中识别得到手势的技术手段。

发明内容

[0004] 本发明实施例提供了手势检测网络训练、手势检测及控制方法、系统及终端技术方案。

[0005] 根据本发明实施例的一方面，提供了一种手势检测网络训练方法，包括：根据含有人手标注信息的样本图像训练第一卷积神经网络，得到所述第一卷积神经网络针对所述样本图像的人手候选区域的预测信息；将多个补充负样本图像和所述人手候选区域的预测信息输入第三卷积神经网络以进行分类，以过滤所述人手候选区域中的负样本，得到修正后的所述人手候选区域的预测信息；根据修正后的所述人手候选区域的预测信息和所述样本图像训练第二卷积神经网络，其中，所述第二卷积神经网络和所述第一卷积神经网络共享特征提取层，并在所述第二卷积神经网络训练过程中保持所述特征提取层的参数不变。

[0006] 可选地，所述人手标注信息包括人手区域的标注信息。

[0007] 可选地，所述人手标注信息包括手势的标注信息。

[0008] 可选地，所述第一卷积神经网络用于预测所述样本图像划分的多个候选区域是否为人手候选区域。

[0009] 可选地，所述第二卷积神经网络用于输出所述样本图像的手势预测结果。

[0010] 可选地，所述手势预测结果包括：预定手势类型。

[0011] 可选地，所述预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

[0012] 可选地，所述手势预测结果还包括：其他手势类型。

[0013] 可选地，所述人手候选区域的预测信息中人手候选区域数量与所述补充负样本图像的数量的差异落入预定容许范围。

[0014] 可选地，所述人手候选区域的预测信息中人手候选区域数量与所述补充负样本图像的数量相等。

[0015] 可选地，所述第一卷积神经网络为RPN，和/或，所述第二卷积神经网络为FRCNN。

[0016] 可选地，所述第三卷积神经网络为FRCNN。

[0017] 根据本发明实施例的另一方面，还提供了一种手势检测方法，包括：采用第四卷积神经网络检测图像，获得所述图像的第一特征信息和人手候选区域的预测信息，所述图像包括静态图像或视频中的图像，所述第一特征信息包括手部特征信息；将所述第一特征信息和所述人手候选区域的预测信息作为第五卷积神经网络的第二特征信息，并采用所述第五卷积神经网络根据所述第二特征信息进行所述图像的手势检测，得到所述图像的手势检测结果；其中，所述第五卷积神经网络由任一前述训练方法训练获得，所述第五卷积神经网络和所述第四卷积神经网络共享特征提取层。

[0018] 可选地，所述第四卷积神经网络用于检测所述图像划分的多个候选区域是否为人手候选区域。

[0019] 可选地，所述第五卷积神经网络用于输出所述图像的手势检测结果。

[0020] 可选地，所述手势检测结果包括：预定手势类型。

[0021] 可选地，所述预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

[0022] 可选地，所述手势检测结果还包括：其他手势类型。

[0023] 根据本发明实施例的另一方面，还提供了一种手势控制方法，包括：采用如上任一所述的手势检测网络训练方法训练而得的手势检测网络检测视频图像，或者，采用如上任一所述的手势检测方法检测视频图像，得到所述手势检测结果；根据所述手势检测结果在所述视频图像上展示业务对象。

[0024] 可选地，根据所述手势检测结果在所述视频图像上展示业务对象，包括：将所述手势检测结果与预定触发手势进行比较；响应于所述手势检测结果与预定触发手势匹配，确定所述业务对象在所述视频图像中的展示位置；在所述展示位置采用计算机绘图方式绘制所述业务对象。

[0025] 可选地，所述展示位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

[0026] 可选地，所述预定触发手势包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

[0027] 可选地，所述业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

[0028] 可选地，所述业务对象为包含有语义信息的特效；所述视频图像为直播类视频图像。

[0029] 可选地，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

[0030] 根据本发明实施例的另一方面，还提供了一种手势检测网络训练系统，包括：第一训练模块，用于根据含有人手标注信息的样本图像训练第一卷积神经网络，得到所述第一卷积神经网络针对所述样本图像的人手候选区域的预测信息；修正模块，用于将多个补充负样本图像和所述人手候选区域的预测信息输入第三卷积神经网络以进行分类，以过滤所述人手候选区域中的负样本，得到修正后的所述人手候选区域的预测信息；第二训练模块，用于根据修正后的所述人手候选区域的预测信息和所述样本图像训练第二卷积神经网络，其中，所述第二卷积神经网络和所述第一卷积神经网络共享特征提取层，并在所述第二卷积神经网络训练过程中保持所述特征提取层的参数不变。

[0031] 可选地，所述人手标注信息包括人手区域的标注信息。

[0032] 可选地，所述人手标注信息包括手势的标注信息。

[0033] 可选地，所述第一卷积神经网络用于预测所述样本图像划分的多个候选区域是否为人手候选区域。

[0034] 可选地，所述第二卷积神经网络用于输出所述样本图像的手势预测结果。

[0035] 可选地，所述手势预测结果包括：预定手势类型。

[0036] 可选地，所述预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

[0037] 可选地，所述手势预测结果还包括：其他手势类型。

[0038] 可选地，所述人手候选区域的预测信息中人手候选区域数量与所述补充负样本图像的数量的差异落入预定容许范围。

[0039] 可选地，所述人手候选区域的预测信息中人手候选区域数量与所述补充负样本图像的数量相等。

[0040] 可选地，所述第一卷积神经网络为RPN，和/或，所述第二卷积神经网络为FRCNN。

[0041] 可选地，所述第三卷积神经网络为FRCNN。

[0042] 根据本发明实施例的另一方面，还提供了一种手势检测系统，包括：图像检测模块，用于采用第四卷积神经网络检测图像，获得所述图像的第一特征信息和人手候选区域的预测信息，所述图像包括静态图像或视频中的图像，所述第一特征信息包括手部特征信息；手势检测模块，用于将所述第一特征信息和所述人手候选区域的预测信息作为第五卷积神经网络的第二特征信息，并采用所述第五卷积神经网络根据所述第二特征信息进行所述图像的手势检测，得到所述图像的手势检测结果；其中，所述第五卷积神经网络由任一前述手势检测网络训练系统训练获得，所述第五卷积神经网络和所述第四卷积神经网络共享特征提取层。

[0043] 可选地，所述第四卷积神经网络用于检测所述图像划分的多个候选区域是否为人手候选区域。

[0044] 可选地，所述第五卷积神经网络用于输出所述图像的手势检测结果。

[0045] 可选地，所述手势检测结果包括：预定手势类型。

[0046] 可选地，所述预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

[0047] 可选地，所述手势预测结果还包括：其他手势类型。

[0048] 根据本发明实施例的另一方面，还提供了一种手势控制系统，包括：检测模块，用于采用如上任一所述的手势检测网络训练系统训练而得的手势检测网络检测视频图像，或者，采用如上任一所述的手势检测系统检测视频图像，得到所述手势检测结果；展示模块，用于根据所述手势检测结果在所述视频图像上展示业务对象。

[0049] 可选地，所述展示模块包括：比较模块，用于将所述手势检测结果与预定触发手势进行比较；确定模块，用于响应于所述手势检测结果与预定触发手势匹配，确定所述业务对象在所述视频图像中的展示位置；绘制模块，用于在所述展示位置采用计算机绘图方式绘制所述业务对象。

[0050] 可选地，所述展示位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

[0051] 可选地，所述预定触发手势包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

[0052] 可选地，所述业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

[0053] 可选地，所述业务对象为包含有语义信息的特效；所述视频图像为直播类视频图像。

[0054] 可选地，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

[0055] 根据本发明实施例的再一方面，还提供了一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行前述任一项所述的手势检测网络训练方法对应的操作。

[0056] 根据本发明实施例的再一方面，还提供了一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行前述任一项所述的手势检测方法对应的操作。

[0057] 根据本发明实施例的再一方面，还提供了一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行前述任一项所述的手势控制方法对应的操作。

[0058] 根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于根据含有人手标注信息的样本图像训练第一卷积神经网络，得到所述第一卷积神经网络针对所述样本图像的人手候选区域的预测信息的可执行指令；用于修正所述人手候选区域的预测信息的可执行指令；用于根据修正后的所述人手候选区域的预测信息和所述样本图像训练第二卷积神经网络，其中，所述第二卷积神经网络和所述第一卷积神经网络共享特征提取层，并在所述第二卷积神经网络训练过程中保持所述特征提取层的参数不变的可执行指令。

[0059] 根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于采用第四卷积神经网络检测图像，获得所述图像的第一特征信息和人手候选区域的预测信息，所述图像包括静态图像或视频中的图像，所述第一特征信息包括手部特征信息的可执行指令；用于将所述第一特征信息和所述人手候选区域的预测信息作为第五卷积神经网络的第二特征信息，并采用所述第五卷积神经网络根据所述第二特征信息进行所述图像的手势检测，得到所述图像的手势检测结果；其中，所述第五卷积神经网络和所述第四卷积神经网络共享特征提取层的可执行指令。

[0060] 根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于采用如上任一所述的手势检测网络训练方法训练而得的手势检测网络检测视频图像，或者，采用如上任一所述的手势检测方法检测视频图像，得到所述手势检测结果的可执行指令；用于根据所述手势检测结果在所述视频图像上展示业务对象的可执行指令。

[0061] 根据本发明实施例提供的技术方案，分别训练两个卷积神经网络：根据含有人手标注信息的样本图像训练第一卷积神经网络，得到第一卷积神经网络针对样本图像的人手候选区域的预测信息；修正人手候选区域的预测信息；根据修正后的人手候选区域的预测信息和样本图像训练第二卷积神经网络。其中，第一卷积神经网络和第二卷积神经网络存在如下关联关系：第一卷积神经网络和第二卷积神经网络共享特征提取层，并在第二卷积神经网络训练过程中保持特征提取层的参数不变。

[0062] 由于训练第一卷积神经网络得到的样本图像的人手候选区域的预测信息是粗略判断结果，可能存在一定的错误率，因此在训练第二卷积神经网络之前，先将训练第一卷积神经网络得到的粗略判断结果进行修正(如通过手动进行修正，或引入其他卷积神经网络进行错误结果的过滤等)，再将修正后的人手候选区域的预测信息和样本图像作为第二卷积神经网络的输入，在保证第二卷积神经网络的输入信息准确的情况下，提高了训练第二卷积神经网络的准确率，进一步降低利用第二卷积神经网络进行手势检测的误检率。

[0063] 而且，第一卷积神经网络和第二卷积神经网络共享特征提取层，并在第二卷积神经网络训练过程中保持特征提取层的参数不变，第二卷积神经网络的特征提取层可以直接利用第一卷积神经网络的特征提取层，为训练第二卷积神经网络提供了便利，减少了训练第二卷积神经网络的计算量。

附图说明

[0064] 图1是根据本发明实施例一的手势检测网络训练方法的步骤流程图；

[0065] 图2a是根据本发明实施例一的手势检测网络训练方法中的一种标注有人手信息的样本图像的示意图；

[0066] 图2b是根据本发明实施例一的手势检测网络训练方法中的另一种标注有人手信息的样本图像的示意图；

[0067] 图3是根据本发明实施例一的手势检测网络训练方法中第一卷积神经网络和第二卷积神经网络的逻辑关系示意图；

[0068] 图4是根据本发明实施例二的手势检测网络训练方法的步骤流程图；

[0069] 图5是根据本发明实施例二的手势检测网络训练方法中的第一卷积神经网络、第二卷积神经网络和第三卷积神经网络的逻辑关系示意图；

[0070] 图6是根据本发明实施例三的手势检测方法的步骤流程图；

[0071] 图7是根据本发明实施例四的手势控制方法的步骤流程图；

[0072] 图8是根据本发明实施例五的手势检测网络训练系统的结构框图；

[0073] 图9是根据本发明实施例六的手势检测系统的结构框图；

[0074] 图10是根据本发明实施例七的手势控制系统的结构框图；

[0075] 图11是根据本发明实施例八的第一终端的结构示意图；

[0076] 图12是根据本发明实施例九的第二终端的结构示意图；

[0077] 图13是根据本发明实施例十的第三终端的结构示意图。

具体实施方式

[0078] 下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

[0079] 本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

[0080] 实施例一

[0081] 参照图1，示出了根据本发明实施例一的手势检测网络训练方法的步骤流程图。

[0082] 本实施例的手势检测网络训练方法包括以下步骤。

[0083] 步骤S100、根据含有人手标注信息的样本图像训练第一卷积神经网络，得到第一卷积神经网络针对样本图像的人手候选区域的预测信息。

[0084] 含有人手标注信息的样本图像可以是来源于图像采集设备的视频图像，由一帧一帧的图像组成，也可以为单独的一帧图像或者一幅图像，还可以来源于其他设备，然后在样本图像中进行标注操作。具体可以在样本图像中标注多个候选区域。本实施例对含有人手标注信息的样本图像的来源和获得途径等不做限制。

[0085] 人手候选区域的预测信息可以包括：样本图像中的人手所在区域的位置信息，例如，坐标点信息或者像素点信息；人手所在区域中人手的完整度信息，例如，人手所在区域中包括一只完整的人手或者只包括一只手指；人手所在区域中具体的手势信息，例如，手势类型，等等。本实施例对人手候选区域的预测信息的具体内容不做限制。

[0086] 本实施例中，第一卷积神经网络可以包括：输入层、特征提取层和分类层。输入层用于输入样本图像，特征提取层用于对样本图像进行特征提取，然后将提取得到的特征通过分类层进行分类得到人手候选区域的预测信息。

[0087] 训练第一卷积神经网络即训练第一卷积神经网络的输入层、特征提取层和分类层的网络参数，再根据训练得到的网络参数构建第一卷积神经网络。

[0088] 具体可以使用含有人手标注信息的样本图像对第一卷积神经网络进行训练，为使得训练得到的第一卷积神经网络更加准确，在选择样本图像时可以选择多种情况下的样本图像，样本图像中可以包括标注有人手信息的样本图像，还可以包括未标注有人手信息的样本图像。具体地，参见图2a和图2b，提供了两种标注有人手信息的样本图像的示意图。

[0089] 其中，样本图像中人手信息的标注可以采用人工标注的方式。若标注的人手信息为人手区域，则人手区域可以是样本图像中能覆盖整手的最小矩形区域。

[0090] 而且，本实施例中的样本图像可以为满足一定分辨率条件的样本图像。例如，样本图像的分辨率调整为统一的分辨率，该统一的分辨率可以为640×480，或者其他合适的分辨率。采用样本图像对第一卷积神经网络进行训练时，可以采用梯度下降法和反向传播算法进行训练。

[0091] 步骤S102、修正人手候选区域的预测信息。

[0092] 本实施例中，训练第一卷积神经网络得到的样本图像的人手候选区域的预测信息是粗略判断结果，可能存在一定的错误率。而且，人手候选区域的预测信息在后续步骤中作为训练第二卷积神经网络的输入项，因此在训练第二卷积神经网络之前，将训练第一卷积神经网络得到的粗略判断结果进行修正。

[0093] 具体的修正过程可以通过手动修正，或引入其他卷积神经网络进行错误结果的过滤等，修正的目的在于，在保证第二卷积神经网络的输入信息准确的情况下，提高了训练第二卷积神经网络的准确率。本实施例对具体的修正过程不做限制。

[0094] 步骤S104、根据修正后的人手候选区域的预测信息和样本图像训练第二卷积神经网络。

[0095] 本实施例中，第二卷积神经网络可以包括：输入层、特征提取层和分类层。输入层用于输入人手候选区域的预测信息和样本图像，特征提取层用于对人手候选区域的预测信息和样本图像进行特征提取，然后通过分类层对手势提取到的特征进行分类，得到手势预测结果。

[0096] 本实施例中，第一卷积神经网络和第二卷积神经网络具有关联性，由于第一卷积神经网络和第二卷积神经网络中均包含特征提取层，为便于进行训练，减小计算量，可以将上述两个卷积神经网络中的特征提取层的网络参数设置为相同的网络参数，即第二卷积神经网络和第一卷积神经网络共享特征提取层，并在第二卷积神经网络训练过程中保持特征提取层的参数不变。如图3所示，输入层、特征提取层和第一分类层构成第一卷积神经网络，输入层、特征提取层和第二分类层构成第二卷积神经网络，其中，除特征提取层可以共享之外，输入层也可以共享。

[0097] 基于此，在本实施例中，训练得到第二卷积神经网络时，可以先训练得到输入层的网络参数和分类层的网络参数，再将第一卷积神经网络的特征提取层的网络参数确定为第二卷积神经网络的特征提取层的网络参数，然后根据输入层的网络参数、分类层的网络参数和特征提取层的网络参数构建第二卷积神经网络。

[0098] 具体可以使用修正后的人手候选区域的预测信息和样本图像对第二卷积神经网络进行训练，为使得训练得到的第二卷积神经网络更加准确，在选择样本图像时可以选择多种情况下的样本图像，样本图像中可以包括标注有手势的样本图像，还可以包括未标注有手势的样本图像。

[0099] 其中，样本图像中手势的标注可以采用人工标注的方式。标注的手势可以是样本图像中能覆盖整手的最小矩形区域。

[0100] 而且，本实施例中的样本图像可以为满足上述分辨率条件或者其他分辨率条件的样本图像。

[0101] 通过本实施例提供的手势检测网络训练方法，分别训练两个卷积神经网络：根据含有人手标注信息的样本图像训练第一卷积神经网络，得到第一卷积神经网络针对样本图像的人手候选区域的预测信息；修正人手候选区域的预测信息；根据修正后的人手候选区域的预测信息和样本图像训练第二卷积神经网络。其中，第一卷积神经网络和第二卷积神经网络存在如下关联关系：第一卷积神经网络和第二卷积神经网络共享特征提取层，并在第二卷积神经网络训练过程中保持特征提取层的参数不变。

[0102] 由于训练第一卷积神经网络得到的样本图像的人手候选区域的预测信息是粗略判断结果，可能存在一定的错误率，因此在训练第二卷积神经网络之前，先将训练第一卷积神经网络得到的粗略判断结果进行修正(如通过手动进行修正，或引入其他卷积神经网络进行错误结果的过滤等)，再将修正后的人手候选区域的预测信息和样本图像作为第二卷积神经网络的输入，在保证第二卷积神经网络的输入信息准确的情况下，提高了训练第二卷积神经网络的准确率。

[0103] 而且，第一卷积神经网络和第二卷积神经网络共享特征提取层，并在第二卷积神经网络训练过程中保持特征提取层的参数不变，第二卷积神经网络的特征提取层可以直接利用第一卷积神经网络的特征提取层，为训练第二卷积神经网络提供了便利，减少了训练第二卷积神经网络的计算量。

[0104] 实施例二

[0105] 参照图4，示出了根据本发明实施例二的手势检测网络训练方法的步骤流程图。

[0106] 本实施例在上述实施例的基础上，强调与上述实施例的不同之处，相同之处可以参照上述实施例中的介绍和说明。

[0107] 步骤S400、根据含有人手标注信息的样本图像训练第一卷积神经网络，得到第一卷积神经网络针对样本图像的人手候选区域的预测信息。

[0108] 样本图像中的人手标注信息可以包括人手区域的标注信息，还可以包括手势的标注信息。具体地，样本图像中的人手标注信息可以只包括人手区域的标注信息，或者只包括手势的标注信息，或者既包括人手区域的标注信息，又包括手势的标注信息。

[0109] 其中，人手区域的标注信息可以包括人手区域所在的位置或者范围的坐标信息等，手势的标注信息可以包括手势的具体类型信息等。本实施例对人手区域的标注信息和手势的标注信息不做限制。

[0110] 本实施例中，第一卷积神经网络用于预测样本图像划分的多个候选区域是否为人手候选区域。因此，人手候选区域的预测信息可以包括指示样本图像中的候选区域是否包括人手候选区域的信息，若包括人手候选区域，预测信息还可以包括人手候选区域的数量以及具体位置等等。

[0111] 本实施例中，第一卷积神经网络可以是RPN(Region Proposal Network，区域方案网络)，当然，本实施例只是以此为例进行说明，实际应用中第一卷积神经网络并不仅限于此，例如，还可以是其他二分类或更多分类的卷积神经网络。

[0112] 步骤S402、将多个补充负样本图像和人手候选区域的预测信息输入第三卷积神经网络以进行分类，以过滤人手候选区域中的负样本，得到修正后的人手候选区域的预测信息。

[0113] 本实施例中，补充负样本图像可以是没有人手的空白样本图像，或者是包括像人手但标注有不是人手的信息的样本图像，或者没有人手的图像，等等。补充负样本图像不输入第一卷积神经网络和第二卷积神经网络，只在第三卷积神经网络中输入，补充负样本图像只有负样本图像，没有正样本图像。

[0114] 本实施例中，输入至第三卷积神经网络的补充负样本图像的具体数量可以与人手候选区域的预测信息中人手候选区域数量的差异落入预定容许范围，其中，预定容许范围可以根据实际情况设定，例如，设定为3-5的范围，包括3、4和5。例如，人手候选区域的预测信息中人手候选区域数量为5，则补充负样本图像的数量可以为8、9或10。当预定容许范围设定为0时，表示输入至第三卷积神经网络的补充负样本图像的具体数量可以与人手候选区域的预测信息中人手候选区域数量相等，例如，人手候选区域的预测信息中人手候选区域数量为5，则补充负样本图像的数量也为5。

[0115] 本实施例中，第三卷积神经网络用于对训练第一卷积神经网络得到的人手候选区域的预测信息进行修正。具体可以过滤掉人手候选区域中的负样本，即过滤掉人手候选区域中非人手区域，得到修正后的人手候选区域的预测信息，使得修正后的人手候选区域的预测信息更加准确。第三卷积神经网络可以为FRCNN(Fast Region with Convolutional Neural Network，快速区域卷积神经网络)，还可以是其他二分类或多分类卷积神经网络。

[0116] 步骤S404、根据修正后的人手候选区域的预测信息和样本图像训练第二卷积神经网络。

[0117] 第二卷积神经网络用于输出样本图像的手势预测结果。其中，手势预测结果包括：预定手势类型和其他手势类型。其中，预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。其他手势类型，即除上述预定手势类型之外的手势类型。通过增加其他手势类型，可以明显提高第二卷积神经网络的手势分类准确度，也就是说第二卷积神经网络把不属于预定手势类型的手势类型都划分为其他手势类型，例如将不是手的图片、空白图片以及手势并非预定手势类型的其他手势类型等等都统一归为一类，即其他手势类型，由此实现预定手势类型的精准分类。

[0118] 本实施例中，第二卷积神经网络可以是FRCNN，当然，本实施例只是以此为例进行说明，实际应用中第二卷积神经网络并不仅限于此，例如，还可以是其他二分类或多分类卷积神经网络。

[0119] 本实施例中的第一卷积神经网络可以划分为输入层、特征提取层和第一分类层；第二卷积神经网络可以划分为输入层、特征提取层和第二分类层，如图5所示。其中，第三卷积神经网络还分别与第一分类层和第二分类层连接，本实施例中的补充负样本图像输入第三卷积神经网络。

[0120] 通过本实施例提供的手势检测网络训练方法，分别训练两个卷积神经网络：根据含有人手标注信息的样本图像训练第一卷积神经网络，得到第一卷积神经网络针对样本图像的人手候选区域的预测信息；修正人手候选区域的预测信息；根据修正后的人手候选区域的预测信息和样本图像训练第二卷积神经网络。其中，第一卷积神经网络和第二卷积神经网络存在如下关联关系：第一卷积神经网络和第二卷积神经网络共享特征提取层，并在第二卷积神经网络训练过程中保持特征提取层的参数不变。

[0121] 由于训练第一卷积神经网络得到的样本图像的人手候选区域的预测信息是粗略判断结果，可能存在一定的错误率，因此在训练第二卷积神经网络之前，先将训练第一卷积神经网络得到的粗略判断结果进行修正(如通过手动进行修正，或引入其他卷积神经网络进行错误结果的过滤等)，再将修正后的人手候选区域的预测信息和样本图像作为第二卷积神经网络的输入，在保证第二卷积神经网络的输入信息准确的情况下，提高了训练第二卷积神经网络的准确率。

[0122] 补充负样本图像的数量与人手候选区域的预测信息中人手候选区域的数量，二者数量相同或相当对过滤人手候选区域中负样本的效果有很大的影响，可以明显提高人手候选区域的预测信息的准确率，使得经过第三卷积神经网络得到的修正后的人手候选区域的正样本准确率明显提高。

[0123] 而且，第一卷积神经网络和第二卷积神经网络共享特征提取层，并在第二卷积神经网络训练过程中保持特征提取层的参数不变，第二卷积神经网络的特征提取层可以直接利用第一卷积神经网络的特征提取层，为训练第二卷积神经网络提供了便利，减少了训练第二卷积神经网络的计算量。

[0124] 通过增加其他手势类型，可以明显提高第二卷积神经网络的手势分类准确度，也就是说第二卷积神经网络把不属于预定手势类型的手势类型都划分为其他手势类型，由此实现预定手势类型的精准分类。

[0125] 实施例三

[0126] 参照图6，示出了根据本发明实施例三的手势检测方法的步骤流程图。

[0127] 本实施例的手势检测方法包括以下步骤。

[0128] 步骤S600、采用第四卷积神经网络检测图像，获得图像的第一特征信息和人手候选区域的预测信息。

[0129] 本实施例中，第四卷积神经网络可以为上述实施例中训练得到的第一卷积神经网络。第四卷积神经网络用于检测图像划分的多个候选区域是否为人手候选区域。

[0130] 图像可以是来源于图像采集设备的图像，由一帧一帧的图像组成，也可以为单独的一帧图像或者一幅图像，还可以来源于其他设备，图像包括静态图像或视频中的图像。

[0131] 具体可以将图像输入至第四卷积神经网络，得到图像的第一特征信息和人手候选区域的预测信息。其中，第一特征信息包括手部特征信息。人手候选区域的预测信息可以参照上述实施例中的介绍和说明，在此不再赘述。

[0132] 步骤S602、将第一特征信息和人手候选区域的预测信息作为第五卷积神经网络的第二特征信息，并采用第五卷积神经网络根据第二特征信息进行图像的手势检测，得到图像的手势检测结果。

[0133] 其中，第五卷积神经网络可以认为是上述实施例中的第二卷积神经网络，因此，与上述第一卷积神经网络和第二卷积神经网络之间的关联性相同，第五卷积神经网络和第四卷积神经网络共享特征提取层。

[0134] 第五卷积神经网络用于输出图像的手势检测结果。手势检测结果包括：预定手势类型和其他手势类型。其中，预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。其他手势类型，即除上述预定手势类型之外的手势类型。通过增加其他手势类型，可以明显提高第二卷积神经网络的手势分类准确度，也就是说第二卷积神经网络把不属于预定手势类型的手势类型都划分为其他手势类型，例如将不是手的图片、空白图片以及手势并非预定手势类型的其他手势类型等等都统一归为一类，即其他手势类型，由此实现预定手势类型的精准分类。

[0135] 需要说明的是，本实施例是针对上述实施例一和实施例二训练得到的第一卷积神经网络(第四卷积神经网络)和第二卷积神经网络(第五卷积神经网络)的应用的实施例。相关内容可以参照上述实施例中的介绍和说明，本实施例在此不再赘述。

[0136] 通过本实施例提供的手势检测方法，利用训练完毕的第四卷积神经网络和第五卷积神经网络可以从图像中检测得到手势检测结果。不需要借助传感器等相关设备检测手势，降低了用户的使用要求，节省了从图像中检测手势的硬件成本。

[0137] 实施例四

[0138] 参照图7，示出了根据本发明实施例四的手势控制方法的步骤流程图。

[0139] 本实施例的手势控制方法包括以下步骤。

[0140] 步骤S700、对视频图像进行检测，得到手势检测结果。

[0141] 本实施例中对视频图像进行检测可以采用上述实施例中训练得到第一卷积神经网络(第四卷积神经网络)和第二卷积神经网络(第五卷积神经网络)对视频图像进行检测，具体检测过程可以参照上述实施例三中的相关介绍和说明，本实施例在此不再赘述。

[0142] 本实施例中的视频图像可以为直播类视频图像。

[0143] 步骤S702、根据手势检测结果在视频图像上展示业务对象。

[0144] 本实施例中的业务对象可以为包含有语义信息的特效，具体可以包括包含广告信息的以下至少一种形式的特效：二维贴纸特效，如二维形式的广告贴纸(使用贴纸形式展示的广告)、三维特效(使用3D特效形式展示的广告)、粒子特效。但不限于此，其它形式的业务对象也同样适用本实施例提供的手势控制方案，如APP或其它应用的文字说明或介绍，或者一定形式的与视频观众交互的对象(如电子宠物)等。

[0145] 本步骤具体可以包括如下步骤。

[0146] 步骤S7020、将手势检测结果与预定触发手势进行比较。

[0147] 手势检测结果包括：预定手势类型和其他手势类型。其中，预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。其他手势类型，即除上述预定手势类型之外的手势类型。关于手势检测结果可以参照上述实施例中关于手势检测结果的说明和介绍，在此不再赘述。预定触发手势包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

[0148] 步骤S7022、响应于手势检测结果与预定触发手势匹配，确定业务对象在视频图像中的展示位置。

[0149] 若步骤S7020中将手势检测结果与预定触发手势进行比较的结果为，手势检测结果为预定触发手势中的一种，例如为剪刀手，则确定手势检测结果与预定触发手势匹配，进一步确定业务对象在视频图像中的展示位置。

[0150] 本实施例中，在确定业务对象在视频图像中的展示位置时，可行的实现方式包括：使用卷积网络模型确定业务对象在视频图像中的展示位置，或者按照预定触发手势对应的业务对象展示区域，确定业务对象在视频图像中的展示位置等等。本实施例对确定业务对象在视频图像中的展示位置的方式不做限制。

[0151] 若本实施例应用于对直播类视频图像进行手势检测，并根据手势检测结果进行控制的场景，则业务对象(广告)在直播类视频图像中的展示位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域等等。

[0152] 步骤S7024、在展示位置采用计算机绘图方式绘制业务对象。

[0153] 在确定了展示位置后，即可在该展示位置采用计算机绘图方式进行业务对象绘制，以进行业务对象展示。

[0154] 其中，对业务对象的采用计算机绘图方式绘制可以通过适当的计算机图形图像绘制或渲染等方式实现，包括但不限于：基于OpenGL图形绘制引擎进行绘制等。OpenGL定义了一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口，其与硬件无关，可以方便地进行2D或3D图形图像的绘制。通过OpenGL，不仅可以实现2D效果如2D贴纸的绘制，还可以实现3D特效的绘制及粒子特效的绘制等等。但不限于OpenGL，其它方式，如Unity或OpenCL等也同样适用。

[0155] 通过本实施例提供的在手势控制方法，采用预先训练的卷积神经网络对视频图像进行检测，得到手势检测结果。进而根据手势检测结果在视频图像上展示业务对象。当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和客户端的系统资源；另一方面，业务对象与视频图像中的手势紧密结合，以一种不打扰观众的方式展示业务对象，不影响观众的正常视频观看体验，不易引起观众反感，可以有效实现预想的效果。

[0156] 实施例五

[0157] 参照图8，示出了根据本发明实施例五的手势检测网络训练系统的结构框图。

[0158] 本实施例中的手势检测网络训练系统包括：第一训练模块800，用于根据含有人手标注信息的样本图像训练第一卷积神经网络，得到第一卷积神经网络针对样本图像的人手候选区域的预测信息；修正模块802，用于修正人手候选区域的预测信息；第二训练模块804，用于根据修正后的人手候选区域的预测信息和样本图像训练第二卷积神经网络，其中，第二卷积神经网络和第一卷积神经网络共享特征提取层，并在第二卷积神经网络训练过程中保持特征提取层的参数不变。

[0159] 可选地，人手标注信息包括人手区域的标注信息。

[0160] 可选地，人手标注信息包括手势的标注信息。

[0161] 可选地，第一卷积神经网络用于预测样本图像划分的多个候选区域是否为人手候选区域。

[0162] 可选地，第二卷积神经网络用于输出样本图像的手势预测结果。

[0163] 可选地，手势预测结果包括：预定手势类型。

[0164] 可选地，预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

[0165] 可选地，手势预测结果还包括：其他手势类型。

[0166] 可选地，修正模块802，用于将多个补充负样本图像和人手候选区域的预测信息输入第三卷积神经网络以进行分类，以过滤人手候选区域中的负样本，得到修正后的人手候选区域的预测信息。

[0167] 可选地，人手候选区域的预测信息中人手候选区域数量与补充负样本图像的数量的差异落入预定容许范围。

[0168] 可选地，人手候选区域的预测信息中人手候选区域数量与补充负样本图像的数量相等。

[0169] 可选地，第一卷积神经网络为RPN，和/或，第二卷积神经网络为FRCNN。

[0170] 可选地，第三卷积神经网络为FRCNN。

[0171] 通过本实施例提供的手势检测网络训练系统，分别训练两个卷积神经网络：根据含有人手标注信息的样本图像训练第一卷积神经网络，得到第一卷积神经网络针对样本图像的人手候选区域的预测信息；修正人手候选区域的预测信息；根据修正后的人手候选区域的预测信息和样本图像训练第二卷积神经网络。其中，第一卷积神经网络和第二卷积神经网络存在如下关联关系：第一卷积神经网络和第二卷积神经网络共享特征提取层，并在第二卷积神经网络训练过程中保持特征提取层的参数不变。

[0172] 由于训练第一卷积神经网络得到的样本图像的人手候选区域的预测信息是粗略判断结果，可能存在一定的错误率，因此在训练第二卷积神经网络之前，先将训练第一卷积神经网络得到的粗略判断结果进行修正(如通过手动进行修正，或引入其他卷积神经网络进行错误结果的过滤等)，再将修正后的人手候选区域的预测信息和样本图像作为第二卷积神经网络的输入，在保证第二卷积神经网络的输入信息准确的情况下，提高了训练第二卷积神经网络的准确率。

[0173] 补充负样本图像的数量与人手候选区域的预测信息中人手候选区域的数量，二者数量相同或相当对过滤人手候选区域中负样本的效果有很大的影响，可以明显提高人手候选区域的预测信息的准确率，使得经过第三卷积神经网络得到的修正后的人手候选区域的正样本准确率明显提高。

[0174] 而且，第一卷积神经网络和第二卷积神经网络共享特征提取层，并在第二卷积神经网络训练过程中保持特征提取层的参数不变，第二卷积神经网络的特征提取层可以直接利用第一卷积神经网络的特征提取层，为训练第二卷积神经网络提供了便利，减少了训练第二卷积神经网络的计算量。

[0175] 通过增加其他手势类型，可以明显提高第二卷积神经网络的手势分类准确度，也就是说第二卷积神经网络把不属于预定手势类型的手势类型都划分为其他手势类型，由此实现预定手势类型的精准分类。

[0176] 实施例六

[0177] 参照图9，示出了根据本发明实施例六的手势检测系统的结构框图。

[0178] 本实施例中的手势检测系统包括：图像检测模块900，用于采用第四卷积神经网络检测图像，获得图像的第一特征信息和人手候选区域的预测信息，图像包括静态图像或视频中的图像，第一特征信息包括手部特征信息；手势检测模块902，用于将第一特征信息和人手候选区域的预测信息作为第五卷积神经网络的第二特征信息，并采用第五卷积神经网络根据第二特征信息进行图像的手势检测，得到图像的手势检测结果；其中，第五卷积神经网络和第四卷积神经网络共享特征提取层。

[0179] 可选地，第四卷积神经网络用于检测图像划分的多个候选区域是否为人手候选区域。

[0180] 可选地，第五卷积神经网络用于输出图像的手势检测结果。

[0181] 可选地，手势检测结果包括：预定手势类型。

[0182] 可选地，预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

[0183] 可选地，手势预测结果还包括：其他手势类型。

[0184] 通过本实施例提供的手势检测系统，利用训练完毕的第四卷积神经网络和第五卷积神经网络可以从图像中检测得到手势检测结果。不需要借助传感器等相关设备检测手势，降低了用户的使用要求，节省了从图像中检测手势的硬件成本。

[0185] 实施例七

[0186] 参照图10，示出了根据本发明实施例七的手势控制系统的结构框图。

[0187] 本实施例中的手势控制系统包括：检测模块1000，用于采用如上述实施例五所述的手势检测网络训练系统训练而得的手势检测网络检测视频图像，或者，采用如上述实施例六所述的手势检测系统检测视频图像，得到手势检测结果；展示模块1002，用于根据手势检测结果在视频图像上展示业务对象。

[0188] 可选地，展示模块1002包括：比较模块10020，用于将手势检测结果与预定触发手势进行比较；确定模块10022，用于响应于手势检测结果与预定触发手势匹配，确定业务对象在视频图像中的展示位置；绘制模块10024，用于在展示位置采用计算机绘图方式绘制业务对象。

[0189] 可选地，展示位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

[0190] 可选地，预定触发手势包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

[0191] 可选地，业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

[0192] 可选地，业务对象为包含有语义信息的特效；视频图像为直播类视频图像。

[0193] 可选地，业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

[0194] 通过本实施例提供的在手势控制系统，采用预先训练的卷积神经网络对视频图像进行检测，得到手势检测结果。进而根据手势检测结果在视频图像上展示业务对象。当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和客户端的系统资源；另一方面，业务对象与视频图像中的手势紧密结合，以一种不打扰观众的方式展示业务对象，不影响观众的正常视频观看体验，不易引起观众反感，可以有效实现预想的效果。

[0195] 实施例八

[0196] 参照图11，示出了根据本发明实施例八的第一终端的结构示意图，本发明具体实施例并不对第一终端的具体实现做限定。

[0197] 如图11所示，该第一终端可以包括：处理器(processor)1102、通信接口(Communications Interface)1104、存储器(memory)1106、以及通信总线1108。

[0198] 处理器1102、通信接口1104、以及存储器1106通过通信总线1108完成相互间的通信。

[0199] 通信接口1104，用于与其它设备比如其它客户端或服务器等的网元通信。

[0200] 处理器1102，用于执行程序1110，具体可以执行上述方法实施例中的相关步骤。

[0201] 具体地，程序1110可以包括程序代码，该程序代码包括计算机操作指令。

[0202] 处理器1110可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路，或者是图形处理器GPU(Graphics Processing Unit)。第一终端包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU，或者，一个或多个GPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个GPU。

[0203] 存储器1106，用于存放程序1110。存储器1106可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

[0204] 程序1110具体可以用于使得处理器1102执行以下操作：根据含有人手标注信息的样本图像训练第一卷积神经网络，得到第一卷积神经网络针对样本图像的人手候选区域的预测信息；修正人手候选区域的预测信息；根据修正后的人手候选区域的预测信息和样本图像训练第二卷积神经网络，其中，第二卷积神经网络和第一卷积神经网络共享特征提取层，并在第二卷积神经网络训练过程中保持特征提取层的参数不变。

[0205] 在一种可选的实施方式中，人手标注信息包括人手区域的标注信息。

[0206] 在一种可选的实施方式中，人手标注信息包括手势的标注信息。

[0207] 在一种可选的实施方式中，第一卷积神经网络用于预测样本图像划分的多个候选区域是否为人手候选区域。

[0208] 在一种可选的实施方式中，第二卷积神经网络用于输出样本图像的手势预测结果。

[0209] 在一种可选的实施方式中，手势预测结果包括：预定手势类型。

[0210] 在一种可选的实施方式中，预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

[0211] 在一种可选的实施方式中，手势预测结果还包括：其他手势类型。

[0212] 在一种可选的实施方式中，程序1110还用于使得处理器1102在修正人手候选区域的预测信息时，将多个补充负样本图像和人手候选区域的预测信息输入第三卷积神经网络以进行分类，以过滤人手候选区域中的负样本，得到修正后的人手候选区域的预测信息。

[0213] 在一种可选的实施方式中，人手候选区域的预测信息中人手候选区域数量与补充负样本图像的数量的差异落入预定容许范围。

[0214] 在一种可选的实施方式中，人手候选区域的预测信息中人手候选区域数量与补充负样本图像的数量相等。

[0215] 在一种可选的实施方式中，第一卷积神经网络为RPN，和/或，第二卷积神经网络为FRCNN。

[0216] 在一种可选的实施方式中，第三卷积神经网络为FRCNN。

[0217] 程序1110中各步骤的具体实现可以参见上述实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

[0218] 通过本实施例提供的第一终端，分别训练两个卷积神经网络：根据含有人手标注信息的样本图像训练第一卷积神经网络，得到第一卷积神经网络针对样本图像的人手候选区域的预测信息；修正人手候选区域的预测信息；根据修正后的人手候选区域的预测信息和样本图像训练第二卷积神经网络。其中，第一卷积神经网络和第二卷积神经网络存在如下关联关系：第一卷积神经网络和第二卷积神经网络共享特征提取层，并在第二卷积神经网络训练过程中保持特征提取层的参数不变。

[0219] 由于训练第一卷积神经网络得到的样本图像的人手候选区域的预测信息是粗略判断结果，可能存在一定的错误率，因此在训练第二卷积神经网络之前，先将训练第一卷积神经网络得到的粗略判断结果进行修正(如通过手动进行修正，或引入其他卷积神经网络进行错误结果的过滤等)，再将修正后的人手候选区域的预测信息和样本图像作为第二卷积神经网络的输入，在保证第二卷积神经网络的输入信息准确的情况下，提高了训练第二卷积神经网络的准确率。

[0220] 补充负样本图像的数量与人手候选区域的预测信息中人手候选区域的数量，二者数量相同或相当对过滤人手候选区域中负样本的效果有很大的影响，可以明显提高人手候选区域的预测信息的准确率，使得经过第三卷积神经网络得到的修正后的人手候选区域的正样本准确率明显提高。

[0221] 而且，第一卷积神经网络和第二卷积神经网络共享特征提取层，并在第二卷积神经网络训练过程中保持特征提取层的参数不变，第二卷积神经网络的特征提取层可以直接利用第一卷积神经网络的特征提取层，为训练第二卷积神经网络提供了便利，减少了训练第二卷积神经网络的计算量。

[0222] 通过增加其他手势类型，可以明显提高第二卷积神经网络的手势分类准确度，也就是说第二卷积神经网络把不属于预定手势类型的手势类型都划分为其他手势类型，由此实现预定手势类型的精准分类。

[0223] 实施例九

[0224] 参照图12，示出了根据本发明实施例九的第二终端的结构示意图，本发明具体实施例并不对第二终端的具体实现做限定。

[0225] 如图12所示，该第二终端可以包括：处理器(processor)1202、通信接口(Communications Interface)1204、存储器(memory)1206、以及通信总线1208。

[0226] 处理器1202、通信接口1204、以及存储器1206通过通信总线1208完成相互间的通信。

[0227] 通信接口1204，用于与其它设备比如其它客户端或服务器等的网元通信。

[0228] 处理器1202，用于执行程序1210，具体可以执行上述方法实施例中的相关步骤。

[0229] 具体地，程序1210可以包括程序代码，该程序代码包括计算机操作指令。

[0230] 处理器1210可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路，或者是图形处理器GPU(Graphics Processing Unit)。第二终端包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU，或者，一个或多个GPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个GPU。

[0231] 存储器1206，用于存放程序1210。存储器1206可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

[0232] 程序1210具体可以用于使得处理器1202执行以下操作：采用第四卷积神经网络检测图像，获得图像的第一特征信息和人手候选区域的预测信息，图像包括静态图像或视频中的图像，第一特征信息包括手部特征信息；将第一特征信息和人手候选区域的预测信息作为第五卷积神经网络的第二特征信息，并采用第五卷积神经网络根据第二特征信息进行图像的手势检测，得到图像的手势检测结果；其中，第五卷积神经网络和第四卷积神经网络共享特征提取层。

[0233] 在一种可选的实施方式中，第四卷积神经网络用于检测图像划分的多个候选区域是否为人手候选区域。

[0234] 在一种可选的实施方式中，第五卷积神经网络用于输出图像的手势检测结果。

[0235] 在一种可选的实施方式中，手势检测结果包括：预定手势类型。

[0236] 在一种可选的实施方式中，预定手势类型包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

[0237] 在一种可选的实施方式中，手势检测结果还包括：其他手势类型。

[0238] 程序1210中各步骤的具体实现可以参见上述实施例三中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

[0239] 通过本实施例提供的第二终端，利用训练完毕的第四卷积神经网络和第五卷积神经网络可以从图像中检测得到手势检测结果。不需要借助传感器等相关设备检测手势，降低了用户的使用要求，节省了从图像中检测手势的硬件成本。

[0240] 实施例十

[0241] 参照图13，示出了根据本发明实施例十的第三终端的结构示意图，本发明具体实施例并不对第三终端的具体实现做限定。

[0242] 如图13所示，该第三终端可以包括：处理器(processor)1302、通信接口(Communications Interface)1304、存储器(memory)1306、以及通信总线1308。

[0243] 处理器1302、通信接口1304、以及存储器1306通过通信总线1308完成相互间的通信。

[0244] 通信接口1304，用于与其它设备比如其它客户端或服务器等的网元通信。

[0245] 处理器1302，用于执行程序1310，具体可以执行上述方法实施例中的相关步骤。

[0246] 具体地，程序1310可以包括程序代码，该程序代码包括计算机操作指令。

[0247] 处理器1310可能是中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路，或者是图形处理器GPU(Graphics Processing Unit)。第三终端包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU，或者，一个或多个GPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个GPU。

[0248] 存储器1306，用于存放程序1310。存储器1306可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

[0249] 程序1310具体可以用于使得处理器1302执行以下操作：采用如实施例一或实施例二任一的方法训练而得的手势检测网络检测视频图像，或者，采用如实施例三的方法检测视频图像，得到手势检测结果；根据手势检测结果在视频图像上展示业务对象。

[0250] 在一种可选的实施方式中，程序1310还可以用于使得处理器1302在根据手势检测结果在视频图像上展示业务对象时，将手势检测结果与预定触发手势进行比较；响应于手势检测结果与预定触发手势匹配，确定业务对象在视频图像中的展示位置；在展示位置采用计算机绘图方式绘制业务对象。

[0251] 在一种可选的实施方式中，展示位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

[0252] 在一种可选的实施方式中，预定触发手势包括以下至少之一：挥手、剪刀手、握拳、托手、竖大拇指、手枪手、OK手、桃心手、张开、闭合。

[0253] 在一种可选的实施方式中，业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

[0254] 在一种可选的实施方式中，业务对象为包含有语义信息的特效；视频图像为直播类视频图像。

[0255] 在一种可选的实施方式中，业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

[0256] 程序1310中各步骤的具体实现可以参见上述实施例四中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

[0257] 通过本实施例提供的第三终端，采用预先训练的卷积神经网络对视频图像进行检测，得到手势检测结果。进而根据手势检测结果在视频图像上展示业务对象。当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和客户端的系统资源；另一方面，业务对象与视频图像中的手势紧密结合，以一种不打扰观众的方式展示业务对象，不影响观众的正常视频观看体验，不易引起观众反感，可以有效实现预想的效果。

[0258] 需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

[0259] 上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

[0260] 本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

[0261] 以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

手势检测网络训练、手势检测及控制方法、系统及终端转让专利

申请号 : CN201610707579.4

文献号 : CN107341436B

文献日 : 2019-02-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 钱晨 , 栾青 , 刘文韬

申请人 : 北京市商汤科技开发有限公司

摘要 :

权利要求 :

说明书 :