语音的控制方法及装置转让专利

申请号 : CN202110298457.5

文献号 : CN113028597B

文献日 : 2022-04-05

相似专利: 请登录后查看

本发明公开了一种语音的控制方法及装置。其中，该方法包括：获取第一语音指令及第一生理特征信息，其中，第一生理特征信息包括如下至少一种：目标对象发出第一语音指令时的肢体特征、面部特征以及声音特征；根据第一生理特征信息，判断第一语音指令是否有效；在第一语音指令有效的情况下，控制目标设备执行第一语音指令。本发明解决了现有技术中空调对用户的语音指令识别不准确的技术问题。

1.一种语音的控制方法，其特征在于，包括：获取第一语音指令及第一生理特征信息，其中，所述第一生理特征信息包括如下至少一种：目标对象发出所述第一语音指令时的肢体特征、面部特征以及声音特征；

根据所述第一生理特征信息，判断所述第一语音指令是否有效；

在所述第一语音指令有效的情况下，控制目标设备执行所述第一语音指令；

存储初始信息，其中，所述初始信息包括：所述第一语音指令、所述第一生理特征信息、以及所述第一语音指令对应于所述第一生理特征信息的判断结果；

在第一预设时间内接收到第二语音指令的情况下，存储修正信息，并覆盖所述初始信息，其中，所述修正信息包括：修正语音指令、与所述修正语音指令对应的第二生理特征信息；

在第一预设时间内接收到第二语音指令的情况下，控制所述目标设备执行所述第二语音指令，其中，所述第二语音指令用于修正所述第一语音指令的有效状态。

2.根据权利要求1所述的语音的控制方法，其特征在于，在根据所述第一生理特征信息，判断所述第一语音指令是否有效之前，所述方法还包括：采集环境参数；

判断所述第一语音指令和所述环境参数是否匹配；

在所述第一语音指令和所述环境参数匹配的情况下，进入根据所述第一生理特征信息，判断所述第一语音指令是否有效的步骤；

在所述第一语音指令和所述环境参数不匹配的情况下，确定所述第一语音指令无效。

3.根据权利要求1所述的语音的控制方法，其特征在于，在根据所述第一生理特征信息，判断所述第一语音指令是否有效之后，所述方法还包括：确定所述第一语音指令无效；

在第二预设时间内接收到预设重复次数的所述第一语音指令的情况下，确定所述第一语音指令有效，且控制所述目标设备执行所述第一语音指令。

4.根据权利要求1所述的语音的控制方法，其特征在于，在接收到多个对象的语音指令的情况下，所述方法还包括：

在所述多个对象的语音指令不相同的情况下，获取所述多个对象对应的生理特征信息的历史采集频率；

从所述多个对象中根据所述历史采集频率确定所述目标对象，并进入获取第一语音指令及第一生理特征信息的步骤。

5.根据权利要求4所述的语音的控制方法，其特征在于，从所述多个对象中根据所述历史采集频率确定所述目标对象，包括：将所述历史采集频率按照频率值大小进行排序；

确定所述历史采集频率的最大值对应的第一对象为所述目标对象，进入获取第一语音指令及第一生理特征信息的步骤；

在所述第一对象的语音指令无效的情况下，根据所述排序确定所述历史采集频率小于最大值的第二对象为所述目标对象，进入获取第一语音指令及第一生理特征信息的步骤。

6.根据权利要求1所述的语音的控制方法，其特征在于，获取第一语音指令及第一生理特征信息，包括：

获取目标区域的声音信息和所述目标对象的位置信息；

根据所述声音信息确定声源位置；

根据所述声源位置与所述目标对象的位置信息的匹配程度从所述声音信息中确定所述第一语音指令。

7.一种语音的控制装置，其特征在于，包括：获取模块，用于获取第一语音指令及第一生理特征信息，其中，所述第一生理特征信息包括如下至少一种：目标对象发出所述第一语音指令时的肢体特征、面部特征以及声音特征；

判断模块，用于根据所述第一生理特征信息，判断所述第一语音指令是否有效；

控制模块，用于在所述第一语音指令有效的情况下，控制目标设备执行所述第一语音指令；

存储模块，用于存储初始信息，其中，所述初始信息包括：所述第一语音指令、所述第一生理特征信息、以及所述第一语音指令对应于所述第一生理特征信息的判断结果；

修正信息存储模块，用于在第一预设时间内接收到第二语音指令的情况下，存储修正信息，并覆盖所述初始信息，其中，所述修正信息包括：修正语音指令、与所述修正语音指令对应的第二生理特征信息；

修正模块，在第一预设时间内接收到第二语音指令的情况下，控制所述目标设备执行所述第二语音指令，其中，所述第二语音指令用于修正所述第一语音指令的有效状态。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至6中任意一项所述的语音的控制方法。

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的语音的控制方法。

语音的控制方法及装置

技术领域

[0001] 本发明涉及语音控制技术领域，具体而言，涉及一种语音的控制方法及装置。

背景技术

[0002] 传统空调器的运行是通过遥控器来控制的，用户通过操作遥控器上对应的功能按钮实现对空调的控制，为了使用户获得更好的体验，相关技术中，可以语音识别方法来实现
对空调器的控制，用户可以通过在空调器前讲出控制空调关启或运行模式的语音命令词就
可以控制空调器的运行。然而，当用户在聊天时无意说出语音命令控制词，空调仍然会按照
语音命令控制词执行相应的控制程序，造成误操作，例如，用户在聊天时无意提起“太热
了”，空调误以为是用户发出了进入制冷模式或者调低温度的指令，导致误操作，进而影响
了用户体验。

[0003] 针对上述解决了现有技术中空调对用户的语音指令识别不准确的技术问题，目前尚未提出有效的解决方案。

发明内容

[0004] 本发明实施例提供了一种语音的控制方法及装置，以至少解决现有技术中空调对用户的语音指令识别不准确的技术问题。

[0005] 根据本发明实施例的一个方面，提供了一种语音的控制方法，包括：获取第一语音指令及第一生理特征信息，其中，第一生理特征信息包括如下至少一种：目标对象发出第一
语音指令时的肢体特征、面部特征以及声音特征；根据第一生理特征信息，判断第一语音指
令是否有效；在第一语音指令有效的情况下，控制目标设备执行第一语音指令。

[0006] 进一步地，在根据第一生理特征信息，判断第一语音指令是否有效之前，上述方法还包括：采集环境参数；判断第一语音指令和环境参数是否匹配；在第一语音指令和环境参
数匹配的情况下，进入根据第一生理特征信息，判断第一语音指令是否有效的步骤；在第一
语音指令和环境参数不匹配的情况下，确定第一语音指令无效。

[0007] 进一步地，在控制目标设备执行第一语音指令之后，上述方法还包括：在第一预设时间内接收到第二语音指令的情况下，控制目标设备执行第二语音指令，其中，第二语音指
令用于修正第一语音指令的有效状态。

[0008] 进一步地，上述方法还包括：存储初始信息，其中，初始信息包括：第一语音指令、第一生理特征信息、以及第一语音指令对应于第一生理特征信息的判断结果；在第一预设
时间内接收到第二语音指令的情况下，存储修正信息，并覆盖初始信息，其中，修正信息包
括：修正语音指令、与修正语音指令对应的第二生理特征信息。

[0009] 进一步地，在根据第一生理特征信息，判断第一语音指令是否有效之后，上述方法还包括：确定第一语音指令无效；在第二预设时间内接收到预设重复次数的第一语音指令
的情况下，确定第一语音指令有效，且控制目标设备执行第一语音指令。

[0010] 进一步地，在接收到多个对象的语音指令的情况下，上述方法还包括：在多个对象的语音指令不相同的情况下，获取多个对象对应的生理特征信息的历史采集频率；从多个
对象中根据历史采集频率确定目标对象，并进入获取第一语音指令及第一生理特征信息的
步骤。

[0011] 进一步地，从多个对象中根据历史采集频率确定目标对象，包括：将历史采集频率按照频率值大小进行排序；确定历史采集频率的最大值对应的第一对象为目标对象，进入
获取第一语音指令及第一生理特征信息的步骤；在第一对象的语音指令无效的情况下，根
据排序确定历史采集频率小于最大值的第二对象为目标对象，进入获取第一语音指令及第
一生理特征信息的步骤。

[0012] 进一步地，获取第一语音指令及第一生理特征信息，包括：获取目标区域的声音信息和目标对象的位置信息；根据声音信息确定声源位置；根据声源位置与目标对象的位置
信息的匹配程度从声音信息中确定第一语音指令。

[0013] 根据本发明实施例的另一方面，还提供了一种语音的控制装置，包括：获取模块，用于获取第一语音指令及第一生理特征信息，其中，第一生理特征信息包括如下至少一种：
目标对象发出第一语音指令时的肢体特征、面部特征以及声音特征；判断模块，用于根据第
一生理特征信息，判断第一语音指令是否有效；控制模块，用于在第一语音指令有效的情况
下，控制目标设备执行第一语音指令。

[0014] 根据本发明实施例的另一方面，还提供了计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述任
意一项的语音的控制方法。

[0015] 根据本发明实施例的另一方面，还提供了一种处理器，上述处理器用于运行程序，其中，程序运行时执行上述任意一项的语音的控制方法。

[0016] 在本发明实施例中，通过获取第一语音指令及第一生理特征信息，根据第一生理特征信息，判断第一语音指令是否有效，在第一语音指令有效的情况下，控制目标设备执行
第一语音指令，实现了目标设备根据用户发出语音指令时的肢体、面部以及声音的特征，判
断出用户是有意还是无意发出语音指令，仅在用户有意发出语音指令时执行该语音指令，
避免了用户在说话时无意发出语音指令包含的关键词导致目标设备误操作，提高了目标设
备对语音指令识别的准确性以及智能性，进而提高了用户对智能设备的使用体验，解决了
现有技术中空调对用户的语音指令识别不准确的技术问题。

附图说明

[0017] 此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

[0018] 图1是根据本发明实施例的一种语音的控制方法的流程图；

[0019] 图2是根据本发明实施例的一种可选的语音的控制方法的流程图；

[0020] 图3是根据本发明实施例的一种语音的控制装置的示意图。

具体实施方式

[0021] 为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是
本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范
围。

[0022] 需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆
盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于
清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品
或设备固有的其它步骤或单元。

[0023] 实施例1

[0024] 根据本发明实施例，提供了一种语音的控制方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然
在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或
描述的步骤。

[0025] 图1是根据本发明实施例的语音的控制方法，如图1所示，该方法包括如下步骤：

[0026] 步骤S102，获取第一语音指令及第一生理特征信息，其中，第一生理特征信息包括如下至少一种：目标对象发出第一语音指令时的肢体特征、面部特征以及声音特征。

[0027] 上述目标对象可以为发出第一语音指令的用户，第一语音指令中包含目标设备可执行的语音命令的关键词，目标设备根据语音命令的关键词执行相应的控制程序。第一生
理特征信息中的肢体特征包括肢体的动作等，面部特征包括用户的面部表情等，声音特征
包括用户的语速和语调等，例如，用户发出第一语音指令的语速和语调，以及发出第一语音
指令时所做出的肢体动作、面部表情均可以作为上述第一生理特征。

[0028] 第一语音指令及第一生理特征信息可以由目标设备的采集模块获取，采集模块可以包括声音检测子模块以及图像识别子模块等，其中，第一语音指令及声音特征可以由声
音检测子模块获取，第一生理特征信息中的肢体特征和面部可以由图像识别子模块获取。
例如，声音检测子模块可以包含麦克风，麦克风可以采集到用户发出的第一语音指令，图像
识别子模块可以包含摄像头，摄像头可以采集并识别用户肢体的动作和面部表情。

[0029] 步骤S104，根据第一生理特征信息，判断第一语音指令是否有效。

[0030] 根据第一生理特征信息，可以确定用户发出的第一语音指令时有意控制(例如，用户需要对目标设备进行控制时发出第一语音指令)发出还是无意提及(例如，用户在说话时
无意说出语音命令的关键词，并不需要对目标设备进行控制)发出，在确定用户是有意发出
时，判断第一语音指令有效，在确定用户是无意发出时，判断第一语音指令无效。

[0031] 在一种可选的实施例中，在目标设备获取了第一语音指令和第一生理特征后，目标设备可以将第一语音指令和第一生理特征的对应关系与已存储的语音命令关键词和用
户生理特征的对应关系进行比对，判断第一语音指令是否有效。例如，第一语音指令为目标
设备的开启指令，目标设备中存储了用户发出开启指令以及对应的面部表情(比如，用户的
面部表情为面向目标设备并双眼直视目标设备)，当目标设备获取到用户发出的开启指令
时，根据用户的面部表情，判断用户是有意还是无意发出，当目标设备识别出用户的面部表
情为面向目标设备并双眼直视目标设备时，确定用户第一语音指令是有意发出且为有效。

[0032] 步骤S106，在第一语音指令有效的情况下，控制目标设备执行第一语音指令。

[0033] 上述目标设备为第一语音指令的控制对象，例如，目标设备可以为智能家电。在第一语音指令有效的情况下，可以确定当前的第一语音指令为用户有意发出的语音指令，目
标设备根据第一语音指令中的指令内容执行相应的动作。在第一语音指令无效的情况下，
可以确定当前的第一语音指令为用户无意发出的语音指令，目标设备不执行无效的第一语
音指令。

[0034] 在一种可选的实施例中，目标设备中包括用于采集第一语音指令和第一生理特征的采集模块，以及对第一语音指令和第一生理特征进行比对判断的控制模块，控制模块确
定第一语音指令为有效的情况下，进一步控制目标设备执行第一语音指令。例如，上述目标
设备可以为空调，第一语音指令可以为空调的开机指令，第一生理特征可以为用户发出开
机指令时的面部表情，空调的采集模块可以包括用于采集声音的声音检测子模块(例如，麦
克风)和用于识别用户生理特征的图像识别子模块(例如，智能摄像头)，空调存储有语音指
令和生理特征的对应关系，空调的采集模块将采集到的开机指令和对应的面部表情发送至
空调的控制模块，控制模块将采集的开机指令和面部表情与存储的语音指令和生理特征的
对应关系进行比对，判断当前接收到的开机指令是用户有意还是无意发出，在采集的开机
指令和面部表情与存储的语音指令和生理特征的对应关系相匹配的情况下，确定当前开机
指令有效，并控制空调开启。

[0035] 在另一种可选的实施例中，目标设备中包括用于采集第一语音指令和第一生理特征的采集模块，语音指令和生理特征的对应关系存储于云服务器中，目标设备将采集的第
一语音指令和第一生理特征发送至云服务器上，云服务器根据上述对应关系判断第一语音
指令是否有效，在第一语音指令有效的情况下，云服务器向目标设备发送控制指令，控制指
令中包含第一语音指令中的控制内容，目标设备接收到控制指令后，根据其控制内容执行
相应的动作。

[0036] 本实施例中，通过获取第一语音指令及第一生理特征信息，根据第一生理特征信息，判断第一语音指令是否有效，在第一语音指令有效的情况下，控制目标设备执行第一语
音指令，实现了目标设备根据用户发出语音指令时的肢体、面部以及声音的特征，判断出用
户是有意还是无意发出语音指令，仅在用户有意发出语音指令时执行该语音指令，避免了
用户在说话时无意发出语音指令包含的关键词导致目标设备误操作，提高了目标设备对语
音指令识别的准确性以及智能性，进而提高了用户对智能设备的使用体验，解决了现有技
术中空调对用户的语音指令识别不准确的技术问题。

[0037] 作为一种可选的实施例，在根据第一生理特征信息，判断第一语音指令是否有效之前，上述方法还包括：采集环境参数；判断第一语音指令和环境参数是否匹配；在第一语
音指令和环境参数匹配的情况下，进入根据第一生理特征信息，判断第一语音指令是否有
效的步骤；在第一语音指令和环境参数不匹配的情况下，确定第一语音指令无效。

[0038] 上述环境参数为与目标设备的控制内容相关的参数，环境参数可以由目标设备的采集模块采集，例如，目标设备可以为空调，则环境参数可以为室内环境温度、空调出风口
温度、室内环境温度湿度等，空调的采集模块可以包含温度传感器或者湿度传感器，以采集
相关的温度或者湿度参数，空调的采集模块也可以包含红外检测子模块，以检测室内环境
温度、空调出风口温度等温度参数。

[0039] 第一语音指令和环境参数是否匹配，可以确定出第一语音指令中的控制内容是否合理。具体的，可以设定环境参数的阈值，并且确定第一语音指令中的控制内容相关的具体
环境参数，判断当前的环境参数是否超出阈值，在当前的环境参数未超出阈值的情况下，认
为第一语音指令与环境参数匹配，在当前的环境参数超出阈值的情况下，认为第一语音指
令与环境参数不匹配。

[0040] 例如，目标设备可以为空调，设定人体体感温度范围为(Ti，Tj),其中，Ti为人体感知舒适温度的最低值(例如，Ti可以取值18℃)，Tj为人体感知舒适温度的最高值(例如，Tj可
以取值38℃)，第一语音指令可以为空调的制热升温指令，环境参数可以为室内环境温度、
空调出风口温度，如果当前室内环境温度高于Tj时、或者空调出风口温度高于设定的温度
阈值，则判断制热升温指令与当前的环境参数不匹配，确定空调的制热升温指令无效，空调
不执行制热升温指令。如果当前室内环境温度低于舒适的人体体感温度范围，则认为制热
升温指令与当前的环境参数匹配，并进一步判断该制热升温指令是用户有意控制还是无意
发出。第一语音指令可以为空调的制冷降温指令，如果当前室内环境温度低于Ti时，则判断
制冷降温指令与当前的环境参数不匹配，确定空调的制冷降温指令无效，空调不执行制冷
降温指令。

[0041] 作为一种可选的实施例，在控制目标设备执行第一语音指令之后，上述方法还包括：在第一预设时间内接收到第二语音指令的情况下，控制目标设备执行第二语音指令，其
中，第二语音指令用于修正第一语音指令的有效状态。

[0042] 当根据第一生理特征对第一语音指令是否有效判断错误时，用户可以在第一预设时间内发出第二语音指令以修改错误的判断结果。上述第一预设时间可以认为是相对较短
的时间范围，可以根据用户需求设定，例如，可以设定第一预设时间为0‑3分钟，如果在目标
设备在执行了第一语音指令后的0‑3分钟之内，又接收到了第二语音指令，则确定对第一语
音指令的有效状态判断错误，目标设备执行第二语音指令，以修正对第一语音指令的执行
结果。

[0043] 第二语音指令可以为与第一语音指令的控制内容相反的控制指令，例如，第一语音指为开机指令，第二语音指令为关机指令，当用户无意发出包含开机指令关键词的语音
时，目标设备由于判断错误执行了开机指令，用户可以在0‑3分钟之内，再次发出关机指令，
来修改开机指令的错误的判断结果。第二语音指令也可以为返回第一语音指令的前一控制
状态的语音指令，例如，空调处于制冷运行状态，第一语音指令为制热升温指令，第二语音
指令可以为制冷运行指令或者返回指令，当用户无意发出包含制热升温指令关键词的语音
时，空调由于对用户的生理特征判断错误，执行了制热升温指令，用户可以在3分钟之内发
出返回指令，使得空调退回至制冷运行状态，来修正对制热升温指令错误的判断结果。

[0044] 作为一种可选的实施例，上述方法还包括：存储初始信息，其中，初始信息包括：第一语音指令、第一生理特征信息、以及第一语音指令对应于第一生理特征信息的判断结果；
在第一预设时间内接收到第二语音指令的情况下，存储修正信息，并覆盖初始信息，其中，
修正信息包括：修正语音指令、与修正语音指令对应的第二生理特征信息。

[0045] 需要说明的是，当根据第一生理特征对第一语音指令是否有效判断错误时，用户在第一预设时间内发出第二语音指令来修正错误的判断结果以及当前的执行状态，还可以
发出修正语音指令，将修正语音指令对应的第二生理特征信息存储起来，并覆盖了原有的
第一生理特征信息，以使后续在相似的场景中，目标设备可以根据第二生理特征信息来判
断修正语音指令是否有效。

[0046] 在一种可选的实施例中，修正语音指令可以为第二语音指令，在接收到第二语音指令的同时，将第二语音指令及对应的第二生理特征信息存储起来，并覆盖原有的第一生
理特征信息，例如，第一语音指令可以为开机指令，当用户无意发出包含开机指令关键词的
语音时，又发出了关机指令进行修正并控制目标设备关机，可以记录用户发出关机指令时
的第二生理特征信息(例如，正视目标设备的面部表情，或者刻意放慢语速的声音特征)，并
将第二生理特征信息覆盖第一生理特征存储起来，以后在用户发出开机指令时，以第二生
理特征作为用户有意发出语音指令(即语音指令有效)的判断依据。

[0047] 在另一种可选的实施例中，修正语音指令也可以为与第一语音指令的控制内容相同的语音指令，例如，第一语音指令可以为开机指令，当用户无意发出包含开机指令关键词
的语音时，又发出了关机指令进行修正并控制目标设备关机，此时，用户可以再次发出包含
开机指令关键词的修正语音指令，存储修正语音指令对应的第二生理特征信息(例如，正视
目标设备的面部表情，或者刻意放慢语速的声音特征)，以后在用户发出开机指令时，以第
二生理特征作为用户有意发出语音指令(即语音指令有效)的判断依据。

[0048] 作为一种可选的实施例，在根据第一生理特征信息，判断第一语音指令是否有效之后，上述方法还包括：确定第一语音指令无效；在第二预设时间内接收到预设重复次数的
第一语音指令的情况下，确定第一语音指令有效，且控制目标设备执行第一语音指令。

[0049] 当根据第一生理特征确定第一语音指令无效的判断结果错误时，用户可以在第二预设时间内重复发出第一语音指令，来修正第一语音指令无效的错误判断结果。上述第二
预设时间可以认为是相对较短的时间范围，预设重复次数和第二预设时间可以根据用户需
求设定，例如，可以设定第二预设时间为0‑3分钟，预设重复次数为3次，如果在确定第一语
音指令无效后0‑3分钟之内，又收到3次相同的第一语音指令，则判断第一语音指令有效，并
执行第一语音指令。

[0050] 在一种可选的实施例中，在第二预设时间内接收到预设重复次数的第一语音指令后，确定第一语音指令有效，并存储第一语音指令以及对应的第一生理特征，将第一生理特
征作为以后判断第一语音指令是否有效的依据。例如，当用户正视目标设备并用刻意放缓
的语速发出开机指令时，目标设备判断开机指令为无效指令且未执行开机指令，用户可以
在3分钟内以相同的面部表情和语速重复说出开机指令，以修正对开机指令错误的判断结
果，经过修正，目标设备确定开机指令有效并执行开机动作，存储第一语音指令对应的第一
生理特征，覆盖原有错误的生理特征信息，并将第一生理特征信息作为以后判断开机指令
是否有效的依据。

[0051] 作为一种可选的实施例，在接收到多个对象的语音指令的情况下，上述方法还包括：在多个对象的语音指令不相同的情况下，获取多个对象对应的生理特征信息的历史采
集频率；从多个对象中根据历史采集频率确定目标对象，并进入获取第一语音指令及第一
生理特征信息的步骤。

[0052] 在接收到多个对象的语音指令的情况下，目标设备仅能执行一个语音指令，需要筛选并确定出执行的语音指令。

[0053] 生理特征信息的历史采集频率为在历史时间段内，对象被采集生理特征信息的次数，历史时间段可以由用户根据需求设定。历史采集频率越高，则该对象对目标设备的控制
次数越多，例如，当生理特征信息为用户的面部特征时，采集的面部特征次数越多，说明该
用户在图像识别模块中出现的频率越高，可以默认出现频率最高的为主用户，当多个对象
的语音指令不相同时，将主用户的语音指令作为第一语音指令，并获取主用户对应的第一
生理特征信息，进一步根据第一生理特征信息判断第一语音指令是否有效。

[0054] 当多个对象的语音指令相同时，可以确定多个对象中的任意一个对象为目标对象，目标对象发出的语音指令为第一语音指令，并获取目标对象发出第一语音指令时的第
一生理特征信息，根据第一生理特征信息判断第一语音指令是否有效；也可以同时获取每
个对象对应的生理特征，根据每个对象对应的生理特征来判断多个语音指令中是否存在有
效的指令，只要存在至少一个有效指令，则控制目标设备执行上述相同的语音指令。

[0055] 作为一种可选的实施例，从多个对象中根据历史采集频率确定目标对象，包括：将历史采集频率按照频率值大小进行排序；确定历史采集频率的最大值对应的第一对象为目
标对象，进入获取第一语音指令及第一生理特征信息的步骤；在第一对象的语音指令无效
的情况下，根据排序确定历史采集频率小于最大值的第二对象为目标对象，进入获取第一
语音指令及第一生理特征信息的步骤。

[0056] 需要说明的是，在确定出历史采集频率越高的主用户后，优先对主用户的语音指令进行判断，根据第一生理特征信息判断主用户的第一语音指令是否有效，如果判断结果
为有效，则控制目标设备执行主用户的语音指令。如果判断结果为无效，则进一步确定历史
采集频率小于最大值的第二对象的语音指令是否有效。例如，房间内有3个用户(分别为用
户A、用户B和用户C)，同时发出了3个不同的语音指令，将3个用户的历史采集频率按照频率
值大小排序得到：用户A＞用户B＞用户C，则确认用户A为主用户，优先对用户A的语音指令
的有效性进行判断，如果判断结果为有效，则执行用户A的语音指令，如果判断结果为无效，
则对频率值排在第二位的用户B的语音指令的有效性进行判断，如果判断结果为有效，则执
行用户B的语音指令，如果判断结果为无效，进一步对对频率值排在第三位的用户C的语音
指令的有效性进行判断，如果判断结果为有效，则执行用户C的语音指令。

[0057] 作为一种可选的实施例，获取第一语音指令及第一生理特征信息，包括：获取目标区域的声音信息和目标对象的位置信息；根据声音信息确定声源位置；根据声源位置与目
标对象的位置信息的匹配程度从声音信息中确定第一语音指令。

[0058] 目标区域为目标设备的工作区域范围，例如，目标设备可以为空调，则目标区域为空调工作范围内的房间。

[0059] 由于目标区域中除了用户发出的语音指令外，还存在环境噪音，噪音会对目标设备采集用户的语音指令造成影响，导致目标设备无法准确识别用户的语音指令，例如，房间
中电视发出的声音可能会覆盖用户发出的语音指令，导致目标设备无法识别出用户的语音
指令。通过获取目标区域中的全部声音信息，并分别确定出声音信息对应的声源位置，将声
源位置与用户的实际位置进行匹配，确定声源位置与用户的实际位置一致的声音信息为用
户发出的第一语音信息。

[0060] 上述目标对象的位置信息可以由目标设备的图像识别模块或者红外检测模块确定，例如，图像识别模块可以采用基于HOG(方向梯度直方图)的人体检测方法定位出用户在
房间中的位置，或者通过红外检测模块对人体温度的识别，确定出用户在房间中的位置。在
一种可选的实施例中，在确定出用户在房间中的位置信息后，可以调整目标设备的采集模
块的工作角度范围，使采集模块的声音检测模块的工作范围聚焦于用户的位置信息，减弱
环境噪音对提取用户的第一语音指令的影响。

[0061] 目标区域的声音信息可以由目标设备的声音检测模块采集得到，根据接收到的声音信息的时间差、声音能量等信息计算出每个声音信息的声源位置。在一种可选的实施例
中，目标设备的声音检测模块可以为具有多个麦克风的麦克风阵列，当目标设备的声音检
测模块采集到多个声音信息后，根据多个麦克风对每个声音信息的接收时间差计算出每个
声音信息的声源位置，例如，声源位置的具体计算方法可以为：

[0062] 选取第0号麦克风为麦克风阵列的中心(即原点),并作为参照,可以得到：

[0063] (ri‑r0)Trs+di,0D0＝0.5(Ri2‑R02‑di,02)；

[0064] 其中，dij为每个声源到麦克风的距离差，dij＝Di‑Dj＝c×tij，tij为声音到麦克风阵列中两个麦克风的时间差，c为声速，Di表示声源位置到第i个麦克风之间的距离，Ri为第i
个麦克风到原点的距离，Rs为声源到原点的距离，rs为声源位置，ri为第i个麦克风的位置，i
和j取值为1‑N，N小于麦克风的个数。

[0065] 将上述公式归并成矩阵形式，得到:

[0066]

[0067] 求解上述矩阵即可得到各声音信息的声源位置rs。

[0068] 图2是根据本发明实施例的一种可选的语音的控制方法的流程图，如图2所示，目标设备可以为空调器，空调器的采集模块包含声音检测模块、图像识别模块以及红外检测
模块。空调器还包括控制模块，控制模块用于执行用户发出的语音控制指令。在一种可选的
实施例中，空调器还可以包括云处理模块，云处理模块包括与空调器各模块通信的云服务
器，采集模块采集的声音信息可以发送至云处理模块，云处理模块根据存储的第一语音指
令和第一生理特征的对应关系，对用户的语音指令是否有效进行判断，并返回判断结果；云
处理模块还可以在线监控空调的运行状态。在另一种可选的实施例中，第一语音指令和第
一生理特征的对应关系也可以存储在空调器本地，由控制模块执行对第一语音指令是否有
效的判断过程。

[0069] 当空调器的声音检测模块接收到声音信息后，可以通过以下步骤实现对用户的语音指令的控制：

[0070] 步骤S201，红外检测模块检测房间内的环境温度、房间外的环境温度，空调出风口温度，图像识别模块检测房间内的用户的位置、动作、面部表情等生理特征，并将上述生理
特征信息发送至云处理模块。

[0071] 步骤S202，声音检测模块采集房间内的全部声音信息，根据用户的位置调整声音检测模块中声音检测装置(例如，麦克风)的工作角度范围，以聚焦接收用户的语音指令。

[0072] 步骤S203，当声音检测模块将检测到声音信息根据接收的时间差、能量计算出每个声音信息的声源位置，并与用户的位置进行比对，筛选出用户的声音。

[0073] 步骤S204，云处理模块根据采集模块发送的信息，判断用户的声音中是否包含有控制信息(即控制指令中的关键词)，如果用户的声音中不包含控制信息则返回步骤S203，
继续检测房间内的声音信息并筛选用户的声音，如果用户的声音中包含控制信息，则进入
步骤S205。

[0074] 步骤S205，判断用户的指令是否合理，具体的，可以将用户的指令与环境参数进行比对来判断用户的指令与环境参数是否匹配，如果用户的指令不合理，则确定用户的指令
无效，结束当前语音的控制流程；如果用户的指令合理，则进入步骤S206。

[0075] 步骤S206，用户的第一生理特征信息可以为用户的肢体、面部以及语气语调特征，将用户的第一生理特征信息与存储模块记录的信息进行对比，判断用户的情绪和语气，进
而确定当前用户的指令是有意控制发出还是无意提起发出，如果当前用户的指令是无意提
起，则确定指令无效，结束当前语音的控制流程；如果用户的指令是有意控制，则确定指令
有效，进入步骤S207。

[0076] 步骤S207，云处理模块向空调的控制模块发送控制指令，控制模块执行控制指令并将空调当前的运行状态反馈至存储模块，存储模块可以设置于云处理模块上，也可以设
置在空调本地。

[0077] 步骤S208，存储模块记录当前的控制指令的判断结果以及环境信息、用户的生理特征等信息，作为以后在相似情况下判断用户指令是否有效的依据。

[0078] 通过上述步骤，空调可以从嘈杂的环境中识别出用户的语音指令，避免环境声音对用户语音指令的影响，通过采集用户发出语音指令时的生理特征信息，智能判断出用户
发出的语音指令的逻辑是否合理，是无意提及还是有意控制，提高了对用户语音指令识别
的准确性，进而提高了用户的体验。

[0079] 实施例2

[0080] 根据本发明实施例，提供了一种语音的控制装置的实施例，图3是根据本发明实施例的语音的控制装置的示意图，如图3所示，该装置包括：

[0081] 获取模块31，用于获取第一语音指令及第一生理特征信息，其中，第一生理特征信息包括如下至少一种：目标对象发出第一语音指令时的肢体特征、面部特征以及声音特征；
判断模块32，用于根据第一生理特征信息，判断第一语音指令是否有效；控制模块33，用于
在第一语音指令有效的情况下，控制目标设备执行第一语音指令。

[0082] 作为一种可选的实施例，上述装置还包括：环境参数采集模块，用于采集环境参数；匹配模块，用于判断第一语音指令和环境参数是否匹配，在第一语音指令和环境参数匹
配的情况下，根据第一生理特征信息，判断第一语音指令是否有效，在第一语音指令和环境
参数不匹配的情况下，确定第一语音指令无效。

[0083] 作为一种可选的实施例，上述装置还包括：修正模块，用于在第一预设时间内接收到第二语音指令的情况下，控制目标设备执行第二语音指令，其中，第二语音指令用于修正
第一语音指令的有效状态。

[0084] 作为一种可选的实施例，上述装置还包括：存储模块，用于存储初始信息，其中，初始信息包括：第一语音指令、第一生理特征信息、以及第一语音指令对应于第一生理特征信
息的判断结果；修正信息存储模块，用于在第一预设时间内接收到第二语音指令的情况下，
存储修正信息，并覆盖初始信息，其中，修正信息包括：修正语音指令、与修正语音指令对应
的第二生理特征信息。

[0085] 作为一种可选的实施例，上述装置还包括：无效确定模块，用于确定第一语音指令无效；无效修正模块，用于在第二预设时间内接收到预设重复次数的第一语音指令的情况
下，确定第一语音指令有效，且控制目标设备执行第一语音指令。

[0086] 作为一种可选的实施例，在接收到多个对象的语音指令的情况下，上述装置还包括：历史采集频率获取模块，用于在多个对象的语音指令不相同的情况下，获取多个对象对
应的生理特征信息的历史采集频率；目标对象确定模块，用于从多个对象中根据历史采集
频率确定目标对象。

[0087] 作为一种可选的实施例，目标对象确定模块，包括：排序子模块，用于将历史采集频率按照频率值大小进行排序；第一确定子模块，用于确定历史采集频率的最大值对应的
第一对象为目标对象；第二确定子模块，用于在第一对象的语音指令无效的情况下，根据排
序确定历史采集频率小于最大值的第二对象为目标对象。

[0088] 作为一种可选的实施例，获取模块，包括：位置信息获取子模块，用于获取目标区域的声音信息和目标对象的位置信息；声源确定子模块，用于根据声音信息确定声源位置；
筛选子模块，用于根据声源位置与目标对象的位置信息的匹配程度从声音信息中确定第一
语音指令。

[0089] 需要说明的是，本实施例的可选或优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

[0090] 实施例3

[0091] 根据本发明实施例，提供了一种计算机可读存储介质的实施例，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述任
意一项的语音的控制方法。

[0092] 在实施例中，通过获取第一语音指令及第一生理特征信息，根据第一生理特征信息，判断第一语音指令是否有效，在第一语音指令有效的情况下，控制目标设备执行第一语
音指令，实现了目标设备根据用户发出语音指令时的肢体、面部以及声音的特征，判断出用
户是有意还是无意发出语音指令，仅在用户有意发出语音指令时执行该语音指令，避免了
用户在说话时无意发出语音指令包含的关键词导致目标设备误操作，提高了目标设备对语
音指令识别的准确性以及智能性，进而提高了用户对智能设备的使用体验，解决了现有技
术中空调对用户的语音指令识别不准确的技术问题。

[0093] 根据本发明实施例的另一方面，还提供了一种处理器，上述处理器用于运行程序，其中，程序运行时执行上述任意一项的语音的控制方法。

[0094] 上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

[0095] 在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

[0096] 在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为
一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或
者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互
之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连
接，可以是电性或其它的形式。

[0097] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个
单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0098] 另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

[0099] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上
或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机
设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或
部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read‑Only Memory)、随机存取存
储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的
介质。

[0100] 以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应
视为本发明的保护范围。

语音的控制方法及装置转让专利

申请号 : CN202110298457.5

文献号 : CN113028597B

文献日 : 2022-04-05

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 高智博 , 张文达 , 梁俊杰 , 王启龙

申请人 : 珠海格力电器股份有限公司

摘要 :

权利要求 :

说明书 :