一种根据手势和场景开启电子设备的方法转让专利

申请号 : CN202111539549.4

文献号 : CN113934307B

文献日 : 2022-03-18

本发明公开了一种根据手势和场景开启电子设备的方法，属于电子设备控制领域，该方法包括：通过摄像头采集视频，获取若干视频帧；根据若干视频帧，获取手势指令或者手势轨迹；检测视频帧中电子设备坐标和手势坐标，得到手势场景数据；根据手势指令和手势场景数据，开启电子设备或开启电子设备的功能，电子设备的功能包括自动关机功能，或者，识别手势轨迹中的物体，得到物体识别结果，物体识别结果包括电子设备识别结果和非电子设备物体识别结果；根据电子设备识别结果和非电子设备物体识别结果，打开电子设备。本发明结合手势坐标以及手势指令来控制电子设备或电子设备功能的开启，提高了手势开启电子设备的准确率。

1.一种根据手势和场景开启电子设备的方法，通过摄像头采集包含手势和场景的视频，其特征在于，包括：

通过摄像头采集视频，获取若干视频帧；

根据若干视频帧，获取手势指令或者手势轨迹；

检测视频帧中电子设备坐标和手势坐标，得到手势场景数据；

根据所述手势指令和所述手势场景数据，开启电子设备或开启电子设备的功能，所述电子设备的功能包括自动关机功能，或者，识别手势轨迹中的物体，得到物体识别结果，所述物体识别结果包括电子设备识别结果和非电子设备物体识别结果；

根据电子设备识别结果和非电子设备物体识别结果，打开电子设备；

所述根据电子设备识别结果和非电子设备物体识别结果，打开电子设备，包括：根据电子设备识别结果，打开对应的电子设备；

判断非电子设备物体识别结果是否包括地板，若是，则仅打开扫地电子设备，否则结束电子设备的开启流程；

所述根据若干视频帧，获取手势指令或者手势轨迹，包括：将若干视频帧传输至服务器；

通过服务器检测每张视频帧中的手掌关节位置的坐标；

根据每张视频帧中的手掌关节位置的坐标，获取手势指令或者手势轨迹；

所述根据每张视频帧中的手掌关节位置的坐标，获取手势指令或者手势轨迹，包括：判断同一手掌关节位置在多张视频帧中的坐标之间的距离是否位于设定阈值范围内，若是，则根据手掌关节位置的坐标，获取手势指令，否则将多张视频帧中的同一手掌关节位置的坐标连接，得到手势轨迹；

所述根据手势指令和手势场景数据，开启电子设备或开启电子设备的功能，包括：获取手势指令对应的电子设备，得到目标电子设备；

根据电子设备坐标，获取目标电子设备的坐标；

判断摄像头坐标到手势坐标的方向是否指向于目标电子设备的坐标，若是，则开启目标电子设备或开启目标电子设备的功能，否则结束电子设备的开启流程；

所述判断摄像头坐标到手势坐标的方向是否指向于目标电子设备的坐标，包括：设定摄像头坐标与手势坐标的连线为第一路径，设定摄像头坐标与目标电子设备之间的连线为第二路径，若第一路径与第二路径之间的角度小于设定阈值，则判定摄像头坐标到手势坐标的方向指向于目标电子设备的坐标。

2.根据权利要求1所述的根据手势和场景开启电子设备的方法，其特征在于，所述摄像头上设置有相互连接的惯性传感器和数据处理模块，所述惯性传感器用于测量摄像头的加速度和三轴姿态角，所述数据处理模块用于接收惯性传感器和摄像头的数据，并与电子设备以及服务器通信。

3.根据权利要求2所述的根据手势和场景开启电子设备的方法，其特征在于，所述检测视频帧中电子设备坐标和手势坐标，包括：通过惯性传感器获取传感数据，并将传感数据传输至服务器；

根据若干视频帧和传感数据，采用SLAM算法，并通过服务器获取空间地图；

采用深度学习方法检测视频帧中所有物体在空间地图中的定位坐标，得到电子设备坐标和手势坐标。

4.根据权利要求3所述的根据手势和场景开启电子设备的方法，其特征在于，所述开启目标电子设备或开启目标电子设备的功能，包括：通过数据处理模块发送控制信号至目标电子设备，并根据控制信号开启目标电子设备或开启目标电子设备的功能。

一种根据手势和场景开启电子设备的方法

技术领域

[0001] 本发明属于电子设备控制领域，具体涉及一种根据手势和场景开启电子设备的方法。

背景技术

[0002] 随着人机交互技术的发展，越来越多的人机交互电子设备出现在人们的生活中，部分人机交互电子设备能够通过语音指令控制其他电子设备，受到了人们的广泛认可。在
日常使用电子设备时，常常通过语音控制的方式，以达到控制室内电子设备开启的目的，一
般采用智能音响来实现语音控制，但是语音控制存在一下缺点：

[0003] （1）智能音响存在不方便携带的问题；

[0004] （2）使用者距离智能音响较远时，或环境比较嘈杂时，存在无法识别语音指令的问题。

[0005] （3）使用者存在方言口音时，存在无法识别语音指令的问题。

[0006] 也有部分人机交互设备通过手势指令控制其他电子设备，但是只能对手势进行简单识别，并且没有场景识别，可能出现手势识别错误，导致开启与手势不对应的电子设备。

发明内容

[0007] 针对现有技术中的上述不足，本发明提供的一种根据手势和场景开启电子设备的方法解决了现有技术中存在的问题。

[0008] 为了达到上述发明目的，本发明采用的技术方案为：一种根据手势和场景开启电子设备的方法，通过摄像头采集包含手势和场景的视频，包括：

[0009] 通过摄像头采集视频，获取若干视频帧；

[0010] 根据若干视频帧，获取手势指令或者手势轨迹；

[0011] 检测视频帧中电子设备坐标和手势坐标，得到手势场景数据；

[0012] 根据所述手势指令和所述手势场景数据，开启电子设备或开启电子设备的功能，所述电子设备的功能包括自动关机功能，或者，识别手势轨迹中的物体，得到物体识别结
果，所述物体识别结果包括电子设备识别结果和非电子设备物体识别结果；

[0013] 根据电子设备识别结果和非电子设备物体识别结果，打开电子设备。

[0014] 进一步地，所述摄像头上设置有相互连接的惯性传感器和数据处理模块，所述惯性传感器用于测量摄像头的加速度和三轴姿态角，所述数据处理模块用于接收惯性传感器
和摄像头的数据，并与电子设备以及服务器通信。

[0015] 进一步地，所述根据若干视频帧，获取手势指令或者手势轨迹，包括：

[0016] 将若干视频帧传输至服务器；

[0017] 通过服务器检测每张视频帧中的手掌关节位置的坐标；

[0018] 根据每张视频帧中的手掌关节位置的坐标，获取手势指令或者手势轨迹。

[0019] 进一步地，所述根据每张视频帧中的手掌关节位置的坐标，获取手势指令或者手势轨迹，包括：

[0020] 判断同一手掌关节位置在多张视频帧中的坐标之间的距离是否位于设定阈值范围内，若是，则根据手掌关节位置的坐标，获取手势指令，否则将多张视频帧中的同一手掌
关节位置的坐标连接，得到手势轨迹。

[0021] 进一步地，所述检测视频帧中电子设备坐标和手势坐标，包括：

[0022] 通过惯性传感器获取传感数据，并将传感数据传输至服务器；

[0023] 根据若干视频帧和传感数据，采用SLAM算法，并通过服务器获取空间地图；

[0024] 采用深度学习方法检测视频帧中所有物体在空间地图中的定位坐标，得到电子设备坐标和手势坐标。

[0025] 进一步地，所述根据手势指令和手势场景数据，开启电子设备或开启电子设备的功能，包括：

[0026] 获取手势指令对应的电子设备，得到目标电子设备；

[0027] 根据电子设备坐标，获取目标电子设备的坐标；

[0028] 判断摄像头坐标到手势坐标的方向是否指向于目标电子设备的坐标，若是，则开启目标电子设备或开启目标电子设备的功能，否则结束电子设备的开启流程。

[0029] 进一步地，所述开启目标电子设备或开启目标电子设备的功能，包括：通过数据处理模块发送控制信号至目标电子设备，并根据控制信号开启目标电子设备或开启目标电子
设备的功能。

[0030] 进一步地，所述根据电子设备识别结果和非电子设备物体识别结果，打开电子设备，包括：

[0031] 根据电子设备识别结果，打开对应的电子设备；

[0032] 判断非电子设备物体识别结果是否包括地板，若是，则仅打开扫地电子设备，否则结束电子设备的开启流程。

[0033] 本发明的有益效果为：

[0034] （1）本发明提出了一种根据手势和场景开启电子设备的方法，可以根据手势指令开启对应的电子设备或对应的电子设备功能，或者根据手势轨迹开启电子设备。

[0035] （2）本发明通过空间定位，获取视频帧中的物体的坐标，并且结合手势坐标以及手势来控制电子设备或电子设备功能的开启，提高了手势开启电子设备的准确率。

[0036] （3）本发明通过摄像头采集视频帧，避免了语音控制中存在的问题，能够适用的场景更多。

附图说明

[0037] 图1为本发明实施例提供的一种根据手势和场景开启电子设备的方法流程图。

[0038] 图2为本发明实施例提供的一种根据手势和场景开启电子设备的装置示意图。

具体实施方式

[0039] 下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，
只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易
见的，一切利用本发明构思的发明创造均在保护之列。

[0040] 下面结合附图详细说明本发明的实施例。

[0041] 如图1所示，一种根据手势和场景开启电子设备的方法，通过摄像头采集包含手势和场景的视频，包括：

[0042] S1、通过摄像头采集视频，获取若干视频帧。

[0043] 在本实施例中，可以设置识别按钮来控制摄像头采集视频，当采集到视频后，将视频分解为若干视频帧，从而可以开始手势识别过程。

[0044] S2、根据若干视频帧，获取手势指令或者手势轨迹。

[0045] 可以将若干视频帧传输至服务器，并通过服务器对视频帧中手掌进行关节定位，得到关节定位点。根据关节定位点，可以获取手势或手势轨迹。

[0046] S3、检测每张视频帧中电子设备坐标和手势坐标，得到手势场景数据。

[0047] S4、根据所述手势指令和所述手势场景数据，开启电子设备或开启电子设备的功能，所述电子设备的功能包括自动关机功能，或者，识别手势轨迹中的物体，得到物体识别
结果，所述物体识别结果包括电子设备识别结果和非电子设备物体识别结果，根据电子设
备识别结果和非电子设备物体识别结果，打开电子设备。

[0048] 所述电子设备的功能包括自动关机功能以及电子设备调节功能，例如，当电子设备为电视机时，电子设备调节功能可以为上一频道切换功能、下一频道切换功能、音量加功
能以及音量减功能；当电子设备为空调时，电子设备调节功能可以为温度加功能、温度减功
能以及模式切换功能。

[0049] 在一种可能的实施方式中，所述摄像头上设置有相互连接的惯性传感器和数据处理模块，所述惯性传感器用于测量摄像头的加速度和三轴姿态角，所述数据处理模块用于
接收惯性传感器和摄像头的数据，并与电子设备以及服务器通信。

[0050] 数据处理模块具备数据处理能力，即可以控制摄像头和惯性传感器工作，可以将数据传输至服务器，并且可以发送控制指令到其他电子设备。

[0051] 在本实施例中，可以将服务器更换为其他运算终端，运算终端可以为台式电脑、笔记本电脑或手机等具备处理数据能力的设备。

[0052] 可选的，通过数据处理模块接收惯性传感器的数据和摄像头的数据，并传输至服务器进行手势识别，得到识别结果。

[0053] 识别结果包括手势指令和手势轨迹两种情况。当识别结果为手势指令时，通过服务器将识别结果反馈至数据处理模块，然后通过数据处理模块调取识别结果对应的控制信
号，并将控制信号发送至对应的电子设备。当识别结果为手势轨迹时，通过服务器识别手势
轨迹中的物体，并将该物体的名称和释义反馈至数据处理模块。

[0054] 可选的，在摄像头上还可以设置语音播报模块，其与数据处理模块连接。当服务器将物体的名称和释义反馈至数据处理模块时，通过数据处理模块将其转发至语音播报模
块，并通过语音播报模块进行播报。

[0055] 通过服务器识别手势指令或手势轨迹，减少了摄像头的计算量，并且服务器可以进行更复杂的运算，手势识别率更高。

[0056] 在一种可能的实施方式中，所述根据若干视频帧，获取手势指令或者手势轨迹，包括：将若干视频帧传输至服务器；通过服务器检测每张视频帧中的手掌关节位置的坐标；根
据每张视频帧中的手掌关节位置的坐标，获取手势指令或者手势轨迹。

[0057] 可以通过以下方式将若干视频帧传输至服务器：通过无线信号将若干视频帧逐一传输至服务器，无线信号可以为WIFI（无线网）信号或4G信号。

[0058] 可选的，检测每张视频帧中的手掌关节位置的坐标，包括：

[0059] 采集若干包含手势的视频帧作为训练样本。

[0060] 采用人工标记的方式对训练样本中的关节坐标进行标记，并将标记后的视频帧作为标签图像。

[0061] 根据训练样本及其标签图像，以损失函数最小为目标，并采用梯度下降法对深度学习神经网络进行训练，获取训练完成的深度学习神经网络，并将训练完成的深度学习神
经网络作为手掌关节识别模型。

[0062] 通过手掌关节识别模型检测每张视频帧中的手掌关节位置的坐标，得到手掌关节位置的坐标。

[0063] 对手掌关节位置坐标的识别不限于上述方法，可以采用其他方法、模型或装置对手掌关节位置坐标进行识别。

[0064] 在一种可能的实施方式中，所述根据每张视频帧中的手掌关节位置的坐标，获取手势指令或者手势轨迹，包括：判断同一手掌关节位置在多张视频帧中的坐标之间的距离
是否位于设定阈值范围内，若是，则根据手掌关节位置的坐标，获取手势指令，否则将多张
视频帧中的同一手掌关节位置的坐标连接，得到手势轨迹。

[0065] 在本实施例中，在执行开启电子设备的方法之前，预设有阈值范围。可以通过以下方式判断同一手掌关节位置在多张视频帧中的坐标之间的距离是否位于设定阈值范围内：
选取第一张视频帧中手掌关节位置的坐标作为基础坐标，逐一判断其他视频帧中手掌关节
位置的坐标与基础坐标之间的距离是否位于阈值范围内，从而完成判断。其他视频帧中手
掌关节位置的坐标与基础坐标之间的距离是指，同一手掌关节位置的基础坐标与其在其他
视频帧中坐标之间的距离。

[0066] 在本实施例中，手掌关节位置是指掌心以及手指的关节特征点，手势指令是指静态的手掌姿势，且同一手掌关节位置在多张视频帧中的坐标之间的距离在设定阈值内，手
势轨迹是指同一手掌关节位置在多张视频帧中的坐标不断变化，且变化超过了设定阈值范
围。

[0067] 可选的，服务器中存储有多个预设手势以及每个预设手势对应的控制指令，预设手势及其对应的控制指令组成手势指令。根据手掌关节位置的坐标，获取手势指令，包括：
根据手掌关节位置的坐标，可以得到手势。然后获取与得到的手势相同的预设手势，将该预
设手势的控制指令作为手势指令。

[0068] 在一种可能的实施方式中，所述检测视频帧中电子设备坐标和手势坐标，包括：通过惯性传感器获取传感数据，并将传感数据传输至服务器；根据若干视频帧和传感数据，采
用SLAM（Simultaneous localization and mapping，同步定位与建图）算法，并通过服务器
获取空间地图；采用深度学习方法检测视频帧中所有物体在空间地图中的定位坐标，得到
电子设备坐标和手势坐标。

[0069] 可选的，可以根据视频帧中的手势二维坐标，获取空间地图中的手势坐标（三维坐标），具体过程为：分析视频帧，以视频帧的中心点作为二维坐标系的原点，获取手势在视频
帧中二维坐标系的xy平面上的坐标，并通过摄像头测算手势距离获得在z轴坐标，得到手势
坐标（三维坐标）。空间地图以摄像头的坐标为原点坐标，因此二维坐标系与空间地图所在
的三维坐标系的一个面重合，通过推算z轴坐标，即可得到三维坐标。

[0070] 在一种可能的实施方式中，所述根据手势指令和手势场景数据，开启电子设备，包括：获取手势指令对应的电子设备，得到目标电子设备；根据电子设备坐标，获取目标电子
设备的坐标；判断摄像头坐标到手势坐标的方向是否指向于目标电子设备的坐标，若是，则
开启目标电子设备或开启目标电子设备的功能，否则结束电子设备的开启流程。

[0071] 开启目标电子设备的功能是指根据手势指令，在目标电子设备上执行操作，实现功能。

[0072] 可选的，设定摄像头的坐标与手势坐标（某一手掌关节位置坐标）的连线为第一路径，设定摄像头的坐标与目标电子设备之间的连线为第二路径，若第一路径与第二路径之
间的角度小于设定阈值，则判定摄像头坐标到手势坐标的方向指向于目标电子设备的坐
标。

[0073] 假设手势指令为打开电视机的手势指令，监测的视频帧包含客厅、电视机和手势。可以通过以下方式开启电子设备：根据手势指令，得到打开电视机的控制信号，然后判断摄
像头坐标到手势坐标的方向是否指向于电视机的坐标，若是，则发出控制信号至电视机，并
根据控制信号打开电视机，否则结束电子设备的打开流程。通过手势识别与坐标识别来控
制电子设备的打开，避免了手势误识别时，误将电子设备打开。

[0074] 在一种可能的实施方式中，所述开启目标电子设备或开启目标电子设备的功能，包括：通过数据处理模块发送控制信号至目标电子设备，并根据控制信号开启目标电子设
备或开启目标电子设备的功能。

[0075] 在本实施例中，通过无线传输方式将控制信号发送至电子设备，无线传输方式包括WIFI传输或红外传输，通过无线传输，使用手势指令开启电子设备更加方便。

[0076] 在一种可能的实施方式中，所述根据电子设备识别结果和非电子设备物体识别结果，打开电子设备，包括：根据电子设备识别结果，打开对应的电子设备；判断非电子设备物
体识别结果是否包括地板，若是，则仅打开扫地电子设备，否则结束电子设备的开启流程。
值得说明的是，非电子设备物体识别结果不包括电子设备。

[0077] 例如，假设电子设备识别结果包括电视机，非电子设备物体识别结果包括桌子，则根据电子设备识别结果打开电视机。假设电子设备识别结果包括电视机，非电子设备物体
识别结果包括桌子和地板，则根据电子设备识别结果打开电视机，根据非电子设备物体识
别结果打开扫地电子设备。

[0078] 如图2所示，本申请实施例提供一种根据手势和场景开启电子设备的装置，包括依次连接的采集模块1、手势识别模块2、检测模块3以及执行模块4。

[0079] 采集模块1用于，通过摄像头采集视频，获取若干视频帧。

[0080] 手势识别模块2用于，根据若干视频帧，获取手势指令或者手势轨迹。

[0081] 检测模块3用于，检测每张视频帧中电子设备坐标和手势坐标，得到手势场景数据。

[0082] 执行模块4用于，根据所述手势指令和所述手势场景数据，开启电子设备或开启电子设备的功能，所述电子设备的功能包括自动关机功能，或者，识别手势轨迹中的物体，得
到物体识别结果，所述物体识别结果包括电子设备识别结果和非电子设备物体识别结果；
根据电子设备识别结果和非电子设备物体识别结果，打开电子设备。

[0083] 在一种可能的实施方式中，手势识别模块2具体用于，将若干视频帧传输至服务器；通过服务器检测每张视频帧中的手掌关节位置的坐标；根据每张视频帧中的手掌关节
位置的坐标，获取手势指令或者手势轨迹。

[0084] 根据每张视频帧中的手掌关节位置的坐标，获取手势指令或者手势轨迹，包括：判断同一手掌关节位置在多张视频帧中的坐标之间的距离是否位于设定阈值范围内，若是，
则根据手掌关节位置的坐标，获取手势指令，否则将多张视频帧中的同一手掌关节位置的
坐标连接，得到手势轨迹。

[0085] 在一种可能的实施方式中，检测模块3具体用于，通过惯性传感器获取传感数据，并将传感数据传输至服务器；根据若干视频帧和传感数据，采用SLAM算法，并通过服务器获
取空间地图；采用深度学习方法检测视频帧中所有物体在空间地图中的定位坐标，得到电
子设备坐标和手势坐标。

[0086] 在一种可能的实施方式中，执行模块4具体用于，获取手势指令对应的电子设备，得到目标电子设备；根据电子设备坐标，获取目标电子设备的坐标；判断摄像头坐标到手势
坐标的方向是否指向于目标电子设备的坐标，若是，则开启目标电子设备或开启目标电子
设备的功能，否则结束电子设备的开启流程。

[0087] 可选的，开启目标电子设备或开启目标电子设备的功能，包括：通过数据处理模块发送控制信号至目标电子设备，并根据控制信号开启目标电子设备或开启目标电子设备的
功能。

[0088] 根据电子设备识别结果和非电子设备物体识别结果，打开电子设备，包括：根据电子设备识别结果，打开对应的电子设备；判断非电子设备物体识别结果是否包括地板，若
是，则仅打开扫地电子设备，否则结束电子设备的开启流程。

[0089] 本申请实施例提供一种根据手势和场景开启电子设备的设备，包括存储器和处理器。示例性地，存储器、处理器，各部分之间通过总线相互连接。

[0090] 所述存储器存储计算机执行指令；

[0091] 所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行上述任一所示的根据手势和场景开启电子设备的方法。

[0092] 一种根据手势和场景开启电子设备的设备可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

[0093] 本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现上述任一所示的根据手
势和场景开启电子设备的方法。

[0094] 本申请实施例还可以提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一所示的根据手势和场景开启电子设备的方法。

[0095] 本发明提出了一种根据手势和场景开启电子设备的方法，可以根据手势指令开启对应的电子设备或对应的电子设备功能，或者根据手势轨迹开启电子设备。本发明通过空
间定位，获取视频帧中的物体的坐标，并且结合手势坐标以及手势来控制电子设备或电子
设备功能的开启，提高了手势开启电子设备的准确率。本发明通过摄像头采集视频帧，避免
了语音控制中存在的问题，能够适用的场景更多。

[0096] 本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或适应性变化，这些变型、用途或适
应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯
用技术手段。应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，
并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限
制。

一种根据手势和场景开启电子设备的方法转让专利

申请号 : CN202111539549.4

文献号 : CN113934307B

文献日 : 2022-03-18

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 谢维思 , 郑海霖

申请人 : 佛山市霖云艾思科技有限公司

摘要 :

权利要求 :

说明书 :