基于多系统集成高识别率的远程语音识别控制系统及方法转让专利

申请号 : CN202110893901.8

文献号 : CN113345436B

文献日 : 2021-11-12

本发明公开了基于多系统集成高识别率的远程语音识别控制系统及方法，涉及语音识别技术领域；所述远程控制端通过智能控制终端对智能家用电器进行远程语音识别控制，所述远程控制端向智能控制终端传输语音和口型信号，所述智能控制终端向智能家用电器传输控制指令，所述智能家用电器向智能控制终端发送反馈信息，所述智能控制终端通过传输信道向远程控制端传输智能家用电器的使用情况，通过远程控制端的语音识别和口型识别对智能家用电器进行智能化控制，并且，智能家用电器可以反馈使用情况至远程控制端，通过语音识别与口型识别的相互结合，使得远程控制端的控制指令更加的清晰，对于语音信号识别的识别率更高。

1.基于多系统集成高识别率的远程语音识别控制系统，其特征在于：该远程语音识别控制系统包括远程控制端、智能控制终端和智能家用电器；

所述远程控制端用于通过智能控制终端对智能家用电器进行远程语音识别控制，所述远程控制端与智能控制终端之间通过传输信道进行信号传输，所述远程控制端向智能控制终端传输语音和口型信号，所述智能控制终端向智能家用电器传输控制指令，所述智能家用电器向智能控制终端发送反馈信息，所述智能控制终端通过传输信道向远程控制端传输智能家用电器的使用情况；

所述远程控制端包括语音识别单元和口型采集单元；

所述语音识别单元用于对用户远程语音控制智能家用电器的语音信号进行识别，所述口型采集单元用于对用户远程语音控制智能家用电器的口型图像进行采集，所述口型采集单元为远程控制端上的采集摄像头；

当语音识别单元对用户语音信号的识别不清晰时，通过口型采集单元所采集的口型图像对缺失的语音信号进行弥补，获得完整控制指令；

所述语音识别单元的输出端连接指令组合模块的输入端，所述口型采集单元的输出端连接口型分析模块的输入端；

所述智能控制终端包括存储数据库、口型分析模块、口令处理模块和指令组合模块；

所述存储数据库用于对各项信息数据进行存储和记录；所述口型分析模块用于根据口型采集单元所采集的口型图片对用户的口型所表达的词语进行分析；所述口令处理模块用于对口型分析模块分析后的用户口型词语进行处理，获得口令；所述指令组合模块用于将口令处理模块处理之后的口令与语音识别单元识别的缺失控制指令进行结合，获得完整控制指令；

所述口型分析模块的输出端连接口令处理模块的输入端，所述口令处理模块的输出端连接指令组合模块的输入端，所述存储数据库的输出端连接口型分析模块、口令处理模块和指令组合模块的输入端，所述指令组合模块输出控制指令；

所述口型分析模块包括特征提取单元、数据筛选单元、向量生成单元和口型比对单元；

所述特征提取单元用于对口型采集单元所采集的用户口型图像中关于口型的特征点进行提取；所述数据筛选单元用于根据用户口型张开的直径，筛选出对应该口型张开直径的词语，剔除该口型张开直径不可能发声的词语；所述向量生成单元用于将特征提取单元所提取的每两个相邻的特征点生成向量，以便于通过向量对口型相似度进行比较，确认用户口型所表达的词语；所述口型比对单元用于将向量生成单元所生成的向量与存储数据库中所存储的不同的口型所表达的词语进行对比，确认用户口型图像所表达的词语；

所述口型采集单元的输出端连接特征提取单元的输入端，所述特征提取单元的输出端连接数据筛选单元和向量生成单元的输入端，所述向量生成单元的输出端连接口型比对单元的输入端，所述口型比对单元的输出端连接口令处理模块的输入端，所述存储数据库的输出端连接数据筛选单元和口型比对单元的输入端，所述数据筛选单元将筛选出的口型数据暂存在存储数据库中。

2.根据权利要求1所述的基于多系统集成高识别率的远程语音识别控制系统，其特征在于：所述口令处理模块包括词语提取单元和排列组合单元；

所述词语提取单元用于对口型比对单元比对之后同一口型对应的若干个词语进行提取；所述排列组合单元用于对一段口型中，不同口型对应的若干个词语进行排列组合，获得一段口型的若干个组合词语；

所述口型比对单元的输出端连接词语提取单元的输入端，所述词语提取单元的输出端连接排列组合单元的输入端，所述排列组合单元的输出端连接指令组合模块的输入端。

3.根据权利要求2所述的基于多系统集成高识别率的远程语音识别控制系统，其特征在于：所述指令组合模块包括指令生成单元、口令填充单元和指令比对单元；

所述指令生成单元用于根据语音识别单元所识别的语音信号生成缺失控制指令；所述口令填充单元用于将排列组合单元组合之后的若干个词语填充进入指令生成单元生成的缺失控制指令中，获得完整控制指令；所述指令比对单元用于对获得的若干个完整控制指令与存储数据库中存储的历史完整控制指令进行比对，来筛选语意表达错误的完整控制指令，确定此次用户所下达的完整控制指令的含义，最终获得控制指令；

所述排列组合单元的输出端连接口令填充单元的输入端，所述口令填充单元将排列组合之后的词语输入缺失控制指令，获得完整控制指令，将所述完整控制指令输入指令比对单元，所述存储数据库的输出端连接指令比对单元的输入端，所述指令比对单元输出控制指令。

4.基于多系统集成高识别率的远程语音识别控制方法，其特征在于：该远程语音识别控制方法包括以下步骤：

S1、利用远程控制端对用户的语音信号进行识别，对用户的口型信息进行采集；

S2、若出现语音信号识别不完整，利用指令生成单元将语音信号生成缺失控制指令；

S3、利用口型分析模块对用户的口型进行分析，获得与用户口型匹配的若干个词语；

S4、利用口令处理模块对匹配的若干个词语进行处理，与缺失控制指令结合，获得完整控制指令；

S5、利用口令比对单元对完整控制指令进行确认比对，最终获得控制指令，利用控制指令对智能家用电器进行控制；

在S1‑S2中，利用远程控制端的语音识别单元对用户的远程语音信号进行识别，在网络信号不佳，语音信号传输不完整的情况下，利用指令生成单元将语音信号转化为缺失控制指令，利用安装在远程控制端上的口型采集单元对用户的口型信息进行采集，通过对用户口型信号的分析，了解用户口型信号所表达的词语含义，对缺失控制指令中缺失的部分进行弥补；

在S3中，所述口型分析模块包括特征提取单元、数据筛选单元、向量生成单元和口型比对单元；利用特征提取单元对口型采集单元所采集的用户口型图像中的特征点进行提取，以用户口型正中心为圆心，建立平面直角坐标系，并赋予每一个特征点一个坐标值，组成用户口型图片特征点的坐标值集合，其中，n表示有n个特征点，利用数据筛选单元对用户口型图像所表达的词语进行筛选，具体筛选步骤如下：

S301、提取横坐标为0的两个特征点；

S302、对该两个特征点之间的距离L进行计算；

S303、剔除存储数据库中该两个特征点之间的距离大于L+a的词语；

S304、将剩余的与该口型匹配的词语暂存进存储数据库中；

其中，a表示设定的距离阈值；

利用向量生成单元根据下列公式对n个特征点中相邻两个特征点之间形成向量；

；

其中，k表示第k个特征点，k+1表示第k+1个特征点，表示第k个特征点与第k+1个特征点之间形成的向量，表示第k+1个特征点的坐标值，表示第k个特征点的坐标值；

所述向量生成单元将生成的特征点向量发送至口型比对单元，所述口型比对单元将用户的口型对应的向量与存储数据库中通过数据筛选单元筛选之后暂存的口型数据进行比对，所述口型比对单元根据下列公式进行相似度的比对：；

其中，表示向量与向量之间的夹角，表示存储数据库中暂存的第o个口型上的第s个向量，组成第o个口型上的第s个向量的两个特征点与向量的两个特征点的位置相同，表示向量的模，表示向量的模；

当时，表明相似度达到设定阈值；

当时，表明相似度较低，对该向量对应的数据库中的口型进行剔除，其中，c表示设定的余弦相似度的阈值；

当存储数据库中由暂存的口型数据中的某一个口型的n‑1个特征点向量与口型采集单元所采集的口型图像中的n‑1个特征点向量的相似度均超过设定阈值时，判定存储数据中的该口型与口型采集单元所采集的口型匹配。

5.根据权利要求4所述的基于多系统集成高识别率的远程语音识别控制方法，其特征在于：在S4中，利用词语提取单元从存储数据库中提取出与口型采集单元所采集的口型相匹配的口型对应的词语，每一个口型对应着若干个词语或字，利用排列组合单元对一段口型中的若干个词语或字进行排列组合，获得一段完整的意思表示，利用口令填充单元将排列组合之后的词语依次填充进入缺失控制指令中缺失的部分，形成完整控制指令。

6.根据权利要求5所述的基于多系统集成高识别率的远程语音识别控制方法，其特征在于：在S5中，利用口令比对单元将填充之后的完整控制指令与存储数据库中原有的历史控制指令进行比对，主要包括以下步骤：S501、提取完整控制指令中的关键词；

S502、提取历史控制指令中的关键词；

S503、将S501中的关键词与S502中的关键词进行比对，挑选出关键词比对相似度最高的完整控制指令作为最终的控制指令；

在S503中，进行关键词的比对时，比对S501中提取的若干个关键词是否与S502中提取的若干个关键词完全相同，若S501中的关键词数量与S502中的关键词数量一致，且S501中的关键词与S502中的关键词一一对应，则该完整控制指令为用户控制指令的真实意思表达，将该完整控制指令作为最终的控制指令对智能家用电器进行远程控制。

基于多系统集成高识别率的远程语音识别控制系统及方法

技术领域

[0001] 本发明涉及语音识别技术领域，具体是基于多系统集成高识别率的远程语音识别控制系统及方法。

背景技术

[0002] 智能家电是将微处理器、传感器技术、网络通信技术引入家电设备后形成的家电产品，具有自动感知住宅空间状态和家电自身状态、家电服务状态，能够自动控制及接收住
宅用户在住宅内或远程的控制指令;同时，智能家电作为智能家居的组成部分，能够与住宅
内其它家电和家居、设施互联组成系统，实现智能家居功能；

[0003] 现有的智能家用电器都可以通过远程语音进行控制，但是智能家用电器的远程语音识别控制存在因网络传输或语音识别不秦楚等原因导致的语音识别不准确，无法精准实
现控制的问题，容易导致用户需要多次进行语音控制，影响用户体验，所以，人们继续一种
基于多系统集成高识别率的远程语音识别控制系统及方法来解决上述问题。

发明内容

[0004] 本发明的目的在于提供基于多系统集成高识别率的远程语音识别控制系统及方法，以解决现有技术中提出的问题。

[0005] 为实现上述目的，本发明提供如下技术方案：基于多系统集成高识别率的远程语音识别控制系统，该远程语音识别控制系统包括远程控制端、智能控制终端和智能家用电
器；

[0006] 所述远程控制端用于通过智能控制终端对智能家用电器进行远程语音识别控制，所述远程控制端与智能控制终端之间通过传输信道进行信号传输，所述远程控制端向智能
控制终端传输语音和口型信号，所述智能控制终端向智能家用电器传输控制指令，所述智
能家用电器向智能控制终端发送反馈信息，所述智能控制终端通过传输信道向远程控制端
传输智能家用电器的使用情况。

[0007] 通过上述技术方案，使得用户可以通过远程控制端的语音识别和口型识别对智能家用电器进行智能化控制，并且，智能家用电器可以反馈使用情况至远程控制端，通过语音
识别与口型识别的相互结合，使得远程控制端的控制指令更加的清晰，对于语音信号识别
的识别率更高。

[0008] 根据上述技术方案，所述远程控制端包括语音识别单元和口型采集单元；

[0009] 所述语音识别单元用于对用户远程语音控制智能家用电器的语音信号进行识别，所述口型采集单元用于对用户远程语音控制智能家用电器的口型图像进行采集，所述口型
采集单元为远程控制端上的采集摄像头；

[0010] 当语音识别单元对用户语音信号的识别不清晰时，通过口型采集单元所采集的口型图像对缺失的语音信号进行弥补，获得完整控制指令；

[0011] 所述语音识别单元的输出端连接指令组合模块的输入端，所述口型采集单元的输出端连接口型分析模块的输入端；

[0012] 所述智能控制终端包括存储数据库、口型分析模块、口令处理模块和指令组合模块；

[0013] 所述存储数据库用于对各项信息数据进行存储和记录；所述口型分析模块用于根据口型采集单元所采集的口型图片对用户的口型所表达的词语进行分析，以便于语音识别
中缺失的部分进行弥补；所述口令处理模块用于对口型分析模块分析后的用户口型词语进
行处理，获得口令；所述指令组合模块用于将口令处理模块处理之后的口令与语音识别单
元识别的缺失控制指令进行结合，获得完整控制指令；

[0014] 所述口型分析模块的输出端连接口令处理模块的输入端，所述口令处理模块的输出端连接指令组合模块的输入端，所述存储数据库的输出端连接口型分析模块、口令处理
模块和指令组合模块的输入端，所述指令组合模块输出控制指令。

[0015] 通过上述技术方案，可以通过对用户口型的分析和处理，对语音识别中缺失的控制指令进行补充，使得可以在语音识别和口型分析的组合下，获得完成的控制指令，避免了
因为语音信号传输不稳定导致控制指令不完成的情况发生。

[0016] 根据上述技术方案，所述口型分析模块包括特征提取单元、数据筛选单元、向量生成单元和口型比对单元；

[0017] 所述特征提取单元用于对口型采集单元所采集的用户口型图像中关于口型的特征点进行提取，通过对用户口型特征点的提取，使得可以将用户的口型数字化，使得更加方
便进行口型的分析，同时，可以避免因不同用户的嘴部大小不一，导致无法统一比对的情
况，因为通过特征点提取之后，可以对若干个特征点组成的口型进行等比例的缩放；所述数
据筛选单元用于根据用户口型张开的直径，筛选出对应该口型张开直径的词语，剔除该口
型张开直径不可能发声的词语，以此来减少口型分析过程中比对的数量，减少系统的运算
量；所述向量生成单元用于将特征提取单元所提取的每两个相邻的特征点生成向量，以便
于通过向量对口型相似度进行比较，确认用户口型所表达的词语；所述口型比对单元用于
将向量生成单元所生成的向量与存储数据库中所存储的不同的口型所表达的词语进行对
比，确认用户口型图像所表达的词语；

[0018] 所述口型采集单元的输出端连接特征提取单元的输入端，所述特征提取单元的输出端连接数据筛选单元和向量生成单元的输入端，所述向量生成单元的输出端连接口型比
对单元的输入端，所述口型比对单元的输出端连接口令处理模块的输入端，所述存储数据
库的输出端连接数据筛选单元和口型比对单元的输入端，所述数据筛选单元将筛选出的口
型数据暂存在存储数据库中。

[0019] 通过上述技术方案，可以对用户的口型进行数字化处理，使得可以通过数据分析的方式对用户的口型所表达的词语进行确认，以此来对语音识别过程中缺失的控制指令进
行弥补。

[0020] 根据上述技术方案，所述口令处理模块包括词语提取单元和排列组合单元；

[0021] 所述词语提取单元用于对口型比对单元比对之后同一口型对应的若干个词语进行提取，通过对同一口型可能对应的若干个词语进行提取，避免了因为人为发声习惯的不
同导致的出现漏掉的情况，使得对于口型分析的结果更加的精准；所述排列组合单元用于
对一段口型中，不同口型对应的若干个词语进行排列组合，获得一段口型的若干个组合词
语，通过对不同口型表达的字含义不同，之后对一段口型进行排列组合的方式，可以最大程
度的列举所有的可能，使得对于口型含义分析的结果更加的精准；

[0022] 所述口型比对单元的输出端连接词语提取单元的输入端，所述词语提取单元的输出端连接排列组合单元的输入端，所述排列组合单元的输出端连接指令组合模块的输入
端。

[0023] 通过上述技术方案，可以避免漏掉很多口型可能表达的含义，使得对于口型的含义分析更加的全面，使得后期对于口型的分析结果更加的精准。

[0024] 根据上述技术方案，所述指令组合模块包括指令生成单元、口令填充单元和指令比对单元；

[0025] 所述指令生成单元用于根据语音识别单元所识别的语音信号生成缺失控制指令，生成缺失控制指令的原因是因为在数据传输的过程中因为网络信号不佳导致部分语音信
号为传输或者为识别导致的；所述口令填充单元用于将排列组合单元组合之后的若干个词
语填充进入指令生成单元生成的缺失控制指令中，获得完整控制指令，但是由于完整控制
指令是由语音识别和口型分析得到的词语组合而成，所以，会存在语意表达不明确或者错
误的情况，容易导致控制指令下达错误；所述指令比对单元用于对获得的若干个完整控制
指令与存储数据库中存储的历史完整控制指令进行比对，来筛选语意表达错误的完整控制
指令，确定此次用户所下达的完整控制指令的含义，最终获得控制指令，通过再次比对的方
式，可以对若干个可能的完整控制指令语意进行比对，逐一筛选出符合用户真实意思表达
的完整控制指令，可以在保证获得完整控制指令的前提下，整理出最符合用户真实意思表
达的完整控制指令，保证控制指令下达的准确性；

[0026] 所述排列组合单元的输出端连接口令填充单元的输入端，所述口令填充单元将排列组合之后的词语输入缺失控制指令，获得完整控制指令，将所述完整控制指令输入指令
比对单元，所述存储数据库的输出端连接指令比对单元的输入端，所述指令比对单元输出
控制指令。

[0027] 通过上述技术方案，可以对用户口型分析之后的若干个意思表达进行比对和分析，通过与存储数据库中的历史控制指令比对，确认最接近用户真实意思表达的控制指令，
使得对于用户口型分析的结果更加的精准，避免因为对口型进行分析导致下达错误的控制
指令。

[0028] 根据上述技术方案，该远程语音识别控制方法包括以下步骤：

[0029] S1、利用远程控制端对用户的语音信号进行识别，对用户的口型信息进行采集；

[0030] S2、若出现语音信号识别不完整，利用指令生成单元将语音信号生成缺失控制指令；

[0031] S3、利用口型分析模块对用户的口型进行分析，获得与用户口型匹配的若干个词语；

[0032] S4、利用口令处理模块对匹配的若干个词语进行处理，与缺失控制指令结合，获得完整控制指令；

[0033] S5、利用口令比对单元对完整控制指令进行确认比对，最终获得控制指令，利用控制指令对智能家用电器进行控制。

[0034] 根据上述技术方案，在S1‑S2中，利用远程控制端的语音识别单元对用户的远程语音信号进行识别，在网络信号不佳，语音信号传输不完整的情况下，利用指令生成单元将语
音信号转化为缺失控制指令，利用安装在远程控制端上的口型采集单元对用户的口型信息
进行采集，通过对用户口型信号的分析，了解用户口型信号所表达的词语含义，对缺失控制
指令中缺失的部分进行弥补。

[0035] 通过上述技术方案，可以有效的避免因网络信号不佳，导致无法根据语音识别生成完整的控制指令的情况，通过语音识别与口型分析的结合，可以保证远程语音识别的完
整性。

[0036] 根据上述技术方案，在S3中，所述口型分析模块包括特征提取单元、数据筛选单元、向量生成单元和口型比对单元；利用特征提取单元对口型采集单元所采集的用户口型
图像中的特征点进行提取，以用户口型正中心为圆心，建立平面直角坐标系，并赋予每一个
特征点一个坐标值，组成用户口型图片特征点的坐标值集合
，其中，n表示有n个特征点，利用数据筛选单元对
用户口型图像所表达的词语进行筛选，具体筛选步骤如下：

[0037] S301、提取横坐标为0的两个特征点；

[0038] S302、对该两个特征点之间的距离L进行计算；

[0039] S303、剔除存储数据库中该两个特征点之间的距离大于L+a的词语；

[0040] S304、将剩余的与该口型匹配的词语暂存进存储数据库中；

[0041] 其中，a表示设定的距离阈值；

[0042] 通过上述技术方案，可以根据不同词语的发声标准，剔除数据库中一部分完全不符合该发声标准的词语，减少口型比对的数量，降低系统的运算量；

[0043] 利用向量生成单元根据下列公式对n个特征点中相邻两个特征点之间形成向量；

[0044] ；

[0045] 其中，k表示第k个特征点，k+1表示第k+1个特征点，表示第k个特征点与第k+1个特征点之间形成的向量，表示第k+1个特征点的坐标值，表示第k个
特征点的坐标值；

[0046] 所述向量生成单元将生成的特征点向量发送至口型比对单元，所述口型比对单元将用户的口型对应的向量与存储数据库中通过数据筛选单元筛选之后暂存的口型数据进
行比对，所述口型比对单元根据下列公式进行相似度的比对：

[0047] ；

[0048] 其中，表示向量与向量之间的夹角，表示存储数据库中暂存的第o个口型上的第s个向量，组成第o个口型上的第s个向量的两个特征点与向量的两个特
征点的位置相同，因为需要具备位置相同这一点才能进行向量相似度的计算，否则将不具
备比对价值，表示向量的模，表示向量的模；

[0049] 当时，表明相似度达到设定阈值；

[0050] 当时，表明相似度较低，对该向量对应的数据库中的口型进行剔除，其中，c表示设定的余弦相似度的阈值；

[0051] 当存储数据库中由暂存的口型数据中的某一个口型的n‑1个特征点向量与口型采集单元所采集的口型图像中的n‑1个特征点向量的相似度均超过设定阈值时，判定存储数
据中的该口型与口型采集单元所采集的口型匹配。

[0052] 通过上述技术方案，可以将对口型的必将从图像比对转换为数字比对，使得可以最大程度的提高口型比对的精准度，使得对于用户口型表达的真实意思的判定更加的精
准。

[0053] 根据上述技术方案，在S4中，利用词语提取单元从存储数据库中提取出与口型采集单元所采集的口型相匹配的口型对应的词语，每一个口型对应着若干个词语或字，利用
排列组合单元对一段口型中的若干个词语或字进行排列组合，获得一段完整的意思表示，
利用口令填充单元将排列组合之后的词语依次填充进入缺失控制指令中缺失的部分，形成
完整控制指令。

[0054] 通过上述技术方案，可以考虑到用户的口型可能表达的每一种可能，可以尽可能的贴合用户口型想要表达的真实意思，最大程度上还原了用户的控制指令，避免了因为口
型分析错误导致口令错误的情况发生。

[0055] 根据上述技术方案，在S5中，利用口令比对单元将填充之后的完整控制指令与存储数据库中原有的历史控制指令进行比对，主要包括以下步骤：

[0056] S501、提取完整控制指令中的关键词；

[0057] S502、提取历史控制指令中的关键词；

[0058] S503、将S501中的关键词与S502中的关键词进行比对，挑选出关键词比对相似度最高的完整控制指令作为最终的控制指令；

[0059] 在S503中，进行关键词的比对时，比对S501中提取的若干个关键词是否与S502中提取的若干个关键词完全相同，若S501中的关键词数量与S502中的关键词数量一致，且
S501中的关键词与S502中的关键词一一对应，则该完整控制指令为用户控制指令的真实意
思表达，将该完整控制指令作为最终的控制指令对智能家用电器进行远程控制。

[0060] 与现有技术相比，本发明的有益效果是：

[0061] 1、本发明通过口型分析模块的设置，使得可以将用户的口型转化为数字化模型，通过对数字化模型进行分析的方式对用户的口型进行分析，使得对于口型的分析结果更加
的精准，使得可以最大程度的根据口型分析还原用户的真实意思表达，使得可以准确无误
的还原用户的控制指令。

[0062] 2、本发明通过口型分析模块、口令处理模块和指令组合模块的设置，使得用户可以通过远程控制端的语音识别和口型识别对智能家用电器进行智能化控制，并且，智能家
用电器可以反馈使用情况至远程控制端，通过语音识别与口型识别的相互结合，使得远程
控制端的控制指令更加的清晰，对于语音信号识别的识别率更高。

[0063] 3、本发明通过数据筛选单元对存储数据库中存储的数据进行部分筛选，减轻了后期进行口型比对时的运算量，减轻了系统的运算压力。

附图说明

[0064] 图1为本发明基于多系统集成高识别率的远程语音识别控制系统的语音识别控制示意图；

[0065] 图2为本发明基于多系统集成高识别率的远程语音识别控制系统中远程控制端的组成示意图；

[0066] 图3为本发明基于多系统集成高识别率的远程语音识别控制系统中智能控制终端的模块组成示意图；

[0067] 图4为本发明基于多系统集成高识别率的远程语音识别控制系统中智能控制终端的单元组成示意图；

[0068] 图5为本发明基于多系统集成高识别率的远程语音识别控制方法的流程示意图；

[0069] 图6为本发明基于多系统集成高识别率的远程语音识别控制方法的步骤流程示意图。

具体实施方式

[0070] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于
本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例，都属于本发明保护的范围。

[0071] 如图1～6所示，本发明提供以下技术方案，基于多系统集成高识别率的远程语音识别控制系统，该远程语音识别控制系统包括远程控制端、智能控制终端和智能家用电器；

[0072] 所述远程控制端用于通过智能控制终端对智能家用电器进行远程语音识别控制，所述远程控制端与智能控制终端之间通过传输信道进行信号传输，所述远程控制端向智能
控制终端传输语音和口型信号，所述智能控制终端向智能家用电器传输控制指令，所述智
能家用电器向智能控制终端发送反馈信息，所述智能控制终端通过传输信道向远程控制端
传输智能家用电器的使用情况。

[0073] 通过上述技术方案，使得用户可以通过远程控制端的语音识别和口型识别对智能家用电器进行智能化控制，并且，智能家用电器可以反馈使用情况至远程控制端，通过语音
识别与口型识别的相互结合，使得远程控制端的控制指令更加的清晰，对于语音信号识别
的识别率更高。

[0074] 所述远程控制端包括语音识别单元和口型采集单元；

[0075] 所述语音识别单元用于对用户远程语音控制智能家用电器的语音信号进行识别，所述口型采集单元用于对用户远程语音控制智能家用电器的口型图像进行采集，所述口型
采集单元为远程控制端上的采集摄像头；

[0076] 当语音识别单元对用户语音信号的识别不清晰时，通过口型采集单元所采集的口型图像对缺失的语音信号进行弥补，获得完整控制指令；

[0077] 所述语音识别单元的输出端连接指令组合模块的输入端，所述口型采集单元的输出端连接口型分析模块的输入端；

[0078] 所述智能控制终端包括存储数据库、口型分析模块、口令处理模块和指令组合模块；

[0079] 所述存储数据库用于对各项信息数据进行存储和记录；所述口型分析模块用于根据口型采集单元所采集的口型图片对用户的口型所表达的词语进行分析，以便于语音识别
中缺失的部分进行弥补；所述口令处理模块用于对口型分析模块分析后的用户口型词语进
行处理，获得口令，所述口令是指通过对用户口型进行分析得出的指令；所述指令组合模块
用于将口令处理模块处理之后的口令与语音识别单元识别的缺失控制指令进行结合，获得
完整控制指令；

[0080] 所述口型分析模块的输出端连接口令处理模块的输入端，所述口令处理模块的输出端连接指令组合模块的输入端，所述存储数据库的输出端连接口型分析模块、口令处理
模块和指令组合模块的输入端，所述指令组合模块输出控制指令。

[0081] 通过上述技术方案，可以通过对用户口型的分析和处理，对语音识别中缺失的控制指令进行补充，使得可以在语音识别和口型分析的组合下，获得完成的控制指令，避免了
因为语音信号传输不稳定导致控制指令不完成的情况发生。

[0082] 所述口型分析模块包括特征提取单元、数据筛选单元、向量生成单元和口型比对单元；

[0083] 所述特征提取单元用于对口型采集单元所采集的用户口型图像中关于口型的特征点进行提取，所述特征点包括左侧嘴角、右侧嘴角、上唇中心点、下唇中心点等，通过对用
户口型特征点的提取，使得可以将用户的口型数字化，使得更加方便进行口型的分析，同
时，可以避免因不同用户的嘴部大小不一，导致无法统一比对的情况，因为通过特征点提取
之后，可以对若干个特征点组成的口型进行等比例的缩放；所述数据筛选单元用于根据用
户口型张开的直径，筛选出对应该口型张开直径的词语，剔除该口型张开直径不可能发声
的词语，以此来减少口型分析过程中比对的数量，减少系统的运算量；所述向量生成单元用
于将特征提取单元所提取的每两个相邻的特征点生成向量，以便于通过向量对口型相似度
进行比较，确认用户口型所表达的词语；所述口型比对单元用于将向量生成单元所生成的
向量与存储数据库中所存储的不同的口型所表达的词语进行对比，确认用户口型图像所表
达的词语；

[0084] 所述口型采集单元的输出端连接特征提取单元的输入端，所述特征提取单元的输出端连接数据筛选单元和向量生成单元的输入端，所述向量生成单元的输出端连接口型比
对单元的输入端，所述口型比对单元的输出端连接口令处理模块的输入端，所述存储数据
库的输出端连接数据筛选单元和口型比对单元的输入端，所述数据筛选单元将筛选出的口
型数据暂存在存储数据库中。

[0085] 通过上述技术方案，可以对用户的口型进行数字化处理，使得可以通过数据分析的方式对用户的口型所表达的词语进行确认，以此来对语音识别过程中缺失的控制指令进
行弥补。

[0086] 所述口令处理模块包括词语提取单元和排列组合单元；

[0087] 所述词语提取单元用于对口型比对单元比对之后同一口型对应的若干个词语进行提取，通过对同一口型可能对应的若干个词语进行提取，避免了因为人为发声习惯的不
同导致的出现漏掉的情况，使得对于口型分析的结果更加的精准；所述排列组合单元用于
对一段口型中，不同口型对应的若干个词语进行排列组合，获得一段口型的若干个组合词
语，例如：一段口型中对应了四个字，通过对口型的分析，第一个字为“打”、“大”、“搭”、“达”
或“答”，第二个字为“开”、“凯”或“铠”、第三个字为“空”、“孔”、“控”或“恐”，第四个字为
“调”、“条”、“挑”、“跳”或“眺”，则一段口型对应着300中不同的组合的组合含义，通过对不
同口型表达的字含义不同，之后对一段口型进行排列组合的方式，可以最大程度的列举所
有的可能，使得对于口型含义分析的结果更加的精准；

[0088] 所述口型比对单元的输出端连接词语提取单元的输入端，所述词语提取单元的输出端连接排列组合单元的输入端，所述排列组合单元的输出端连接指令组合模块的输入
端。

[0089] 通过上述技术方案，可以避免漏掉很多口型可能表达的含义，使得对于口型的含义分析更加的全面，使得后期对于口型的分析结果更加的精准。

[0090] 所述指令组合模块包括指令生成单元、口令填充单元和指令比对单元；

[0091] 所述指令生成单元用于根据语音识别单元所识别的语音信号生成缺失控制指令，生成缺失控制指令的原因是因为在数据传输的过程中因为网络信号不佳导致部分语音信
号为传输或者为识别导致的；所述口令填充单元用于将排列组合单元组合之后的若干个词
语填充进入指令生成单元生成的缺失控制指令中，获得完整控制指令，但是由于完整控制
指令是由语音识别和口型分析得到的词语组合而成，所以，会存在语意表达不明确或者错
误的情况，容易导致控制指令下达错误；所述指令比对单元用于对获得的若干个完整控制
指令与存储数据库中存储的历史完整控制指令进行比对，来筛选语意表达错误的完整控制
指令，确定此次用户所下达的完整控制指令的含义，最终获得控制指令，通过再次比对的方
式，可以对若干个可能的完整控制指令语意进行比对，逐一筛选出符合用户真实意思表达
的完整控制指令，可以在保证获得完整控制指令的前提下，整理出最符合用户真实意思表
达的完整控制指令，保证控制指令下达的准确性；

[0092] 所述排列组合单元的输出端连接口令填充单元的输入端，所述口令填充单元将排列组合之后的词语输入缺失控制指令，获得完整控制指令，将所述完整控制指令输入指令
比对单元，所述存储数据库的输出端连接指令比对单元的输入端，所述指令比对单元输出
控制指令。

[0093] 通过上述技术方案，可以对用户口型分析之后的若干个意思表达进行比对和分析，通过与存储数据库中的历史控制指令比对，确认最接近用户真实意思表达的控制指令，
使得对于用户口型分析的结果更加的精准，避免因为对口型进行分析导致下达错误的控制
指令。

[0094] 该远程语音识别控制方法包括以下步骤：

[0095] S1、利用远程控制端对用户的语音信号进行识别，对用户的口型信息进行采集；

[0096] S2、若出现语音信号识别不完整，利用指令生成单元将语音信号生成缺失控制指令；

[0097] S3、利用口型分析模块对用户的口型进行分析，获得与用户口型匹配的若干个词语；

[0098] S4、利用口令处理模块对匹配的若干个词语进行处理，与缺失控制指令结合，获得完整控制指令；

[0099] S5、利用口令比对单元对完整控制指令进行确认比对，最终获得控制指令，利用控制指令对智能家用电器进行控制。

[0100] 在S1‑S2中，利用远程控制端的语音识别单元对用户的远程语音信号进行识别，在网络信号不佳，语音信号传输不完整的情况下，利用指令生成单元将语音信号转化为缺失
控制指令，利用安装在远程控制端上的口型采集单元对用户的口型信息进行采集，通过对
用户口型信号的分析，了解用户口型信号所表达的词语含义，对缺失控制指令中缺失的部
分进行弥补。

[0101] 通过上述技术方案，可以有效的避免因网络信号不佳，导致无法根据语音识别生成完整的控制指令的情况，通过语音识别与口型分析的结合，可以保证远程语音识别的完
整性。

[0102] 在S3中，所述口型分析模块包括特征提取单元、数据筛选单元、向量生成单元和口型比对单元；利用特征提取单元对口型采集单元所采集的用户口型图像中的特征点进行提
取，以用户口型正中心为圆心，建立平面直角坐标系，并赋予每一个特征点一个坐标值，组
成用户口型图片特征点的坐标值集合，其中，n
表示有n个特征点，所述特征点包括左侧嘴角、右侧嘴角、上唇中心点、下唇中心点等，利用
数据筛选单元对用户口型图像所表达的词语进行筛选，具体筛选步骤如下：

[0103] S301、提取横坐标为0的两个特征点；

[0104] S302、对该两个特征点之间的距离L进行计算；

[0105] S303、剔除存储数据库中该两个特征点之间的距离大于L+a的词语；

[0106] S304、将剩余的与该口型匹配的词语暂存进存储数据库中；

[0107] 其中，a表示设定的距离阈值；

[0108] 通过上述技术方案，可以根据不同词语的发声标准，剔除数据库中一部分完全不符合该发声标准的词语，减少口型比对的数量，降低系统的运算量；

[0109] 利用向量生成单元根据下列公式对n个特征点中相邻两个特征点之间形成向量；

[0110] ；

[0111] 其中，k表示第k个特征点，k+1表示第k+1个特征点，表示第k个特征点与第k+1个特征点之间形成的向量，表示第k+1个特征点的坐标值，表示第k
个特征点的坐标值；

[0112] 所述向量生成单元将生成的特征点向量发送至口型比对单元，所述口型比对单元将用户的口型对应的向量与存储数据库中通过数据筛选单元筛选之后暂存的口型数据进
行比对，所述口型比对单元根据下列公式进行相似度的比对：

[0113] ；

[0114] 其中，表示向量与向量之间的夹角，表示存储数据库中暂存的第o个口型上的第s个向量，组成第o个口型上的第s个向量的两个特征点与向量的两个特
征点的位置相同，因为需要具备位置相同这一点才能进行向量相似度的计算，否则将不具
备比对价值，表示向量的模，表示向量的模；

[0115] 当时，表明相似度达到设定阈值；

[0116] 当时，表明相似度较低，对该向量对应的数据库中的口型进行剔除，其中，c表示设定的余弦相似度的阈值；

[0117] 当存储数据库中由暂存的口型数据中的某一个口型的n‑1个特征点向量与口型采集单元所采集的口型图像中的n‑1个特征点向量的相似度均超过设定阈值时，判定存储数
据中的该口型与口型采集单元所采集的口型匹配。

[0118] 通过上述技术方案，可以将对口型的必将从图像比对转换为数字比对，使得可以最大程度的提高口型比对的精准度，使得对于用户口型表达的真实意思的判定更加的精
准。

[0119] 在S4中，利用词语提取单元从存储数据库中提取出与口型采集单元所采集的口型相匹配的口型对应的词语，每一个口型对应着若干个词语或字，利用排列组合单元对一段
口型中的若干个词语或字进行排列组合，获得一段完整的意思表示，例如：一段口型中对应
了四个口型图像，通过对口型的分析，第一个口型对应的字为“打”、“大”、“搭”、“达”或
“答”，第二个口型对应的字为“开”、“凯”或“铠”、第三个口型对应的字为“空”、“孔”、“控”或
“恐”，第四个字为“调”、“条”、“挑”、“跳”或“眺”，则一段口型对应着300中不同的组合的组
合含义，利用口令填充单元将排列组合之后的词语依次填充进入缺失控制指令中缺失的部
分，形成完整控制指令。

[0120] 通过上述技术方案，可以考虑到用户的口型可能表达的每一种可能，可以尽可能的贴合用户口型想要表达的真实意思，最大程度上还原了用户的控制指令，避免了因为口
型分析错误导致口令错误的情况发生。

[0121] 在S5中，利用口令比对单元将填充之后的完整控制指令与存储数据库中原有的历史控制指令进行比对，主要包括以下步骤：

[0122] S501、提取完整控制指令中的关键词；

[0123] S502、提取历史控制指令中的关键词；

[0124] S503、将S501中的关键词与S502中的关键词进行比对，挑选出关键词比对相似度最高的完整控制指令作为最终的控制指令；

[0125] 在S503中，进行关键词的比对时，比对S501中提取的若干个关键词是否与S502中提取的若干个关键词完全相同，若S501中的关键词数量与S502中的关键词数量一致，且
S501中的关键词与S502中的关键词一一对应，则该完整控制指令为用户控制指令的真实意
思表达，将该完整控制指令作为最终的控制指令对智能家用电器进行远程控制。

[0126] 实施例一：

[0127] 用户的远程控制指令语音识别的过程中，语音识别单元的识别结果为：“在下午六点30分****”，由于网络传输不佳，缺失了最后一部分内容，利用特征提取单元对口型采集
单元所采集的用户口型图像中的特征点进行提取，以用户口型正中心为圆心，建立平面直
角坐标系，并赋予每一个特征点一个坐标值，组成用户口型图片特征点的坐标值集合
，所述特征点包括左侧嘴角、右侧嘴角、上唇中心
点、下唇中心点，利用数据筛选单元对用户口型图像所表达的词语进行筛选，具体筛选步骤
如下：

[0128] S301、提取横坐标为0的两个特征点和；

[0129] S302、对该两个特征点之间的距离L=12进行计算；

[0130] S303、剔除存储数据库中该两个特征点之间的距离大于L+a=12+2的词语；

[0131] S304、将剩余的与该口型匹配的词语暂存进存储数据库中；

[0132] 其中，a=2表示设定的距离阈值；

[0133] 利用向量生成单元根据下列公式对n个特征点中相邻两个特征点之间形成向量；

[0134] ；

[0135] 其中，k表示第k个特征点，k+1表示第k+1个特征点，表示第k个特征点与第k+1个特征点之间形成的向量，表示第k+1个特征点的坐标值，表示第k
个特征点的坐标值；

[0136] 所述向量生成单元将生成的特征点向量发送至口型比对单元，所述口型比对单元将用户的口型对应的向量与存储数据库中通过数据筛选单元筛选之后暂存的口型数据进
行比对，所述口型比对单元根据下列公式进行相似度的比对：

[0137] ；

[0138] 其中，表示向量与向量之间的夹角，表示存储数据库中暂存的第o个口型上的第s个向量，组成第o个口型上的第s个向量的两个特征点与向量的两个特
征点的位置相同，表示向量的模，表示向量的模；

[0139] 当时，表明相似度达到设定阈值；

[0140] 当时，表明相似度较低，对该向量对应的数据库中的口型进行剔除，其中，c=0.9表示设定的余弦相似度的阈值；

[0141] 当存储数据库中由暂存的口型数据中的某一个口型的n个特征点向量与口型采集单元所采集的口型图像中的n个特征点向量的相似度均超过设定阈值时，判定存储数据中
的该口型与口型采集单元所采集的口型匹配；

[0142] 通过上述比对分析，最终得出了一段口型中对应了四个口型图像，通过对口型的分析，第一个口型对应的字为“打”、“大”、“搭”、“达”或“答”，第二个口型对应的字为“开”、
“凯”或“铠”、第三个口型对应的字为“空”、“孔”、“控”或“恐”，第四个字为“调”、“条”、“挑”、
“跳”或“眺”，则一段口型对应着300中不同的组合的组合含义，其中一种为：“打开空调”；

[0143] 将“打开空调”带入缺失控制指令，得到完整控制指令“在下午六点30分打开空调”，并将该完整控制指令与存储数据库中储存的历史控制指令进行比对，提取完整控制指
令的关键词“下午”、“六点30分”、“打开”、“空调”，通过指令比对单元的比对，在存储数据库
中存在与上述四个关键词完全一致的历史控制指令，判定上述完整控制指令为用户的真实
意思表达，将“在下午六点30分打开空调”发送至智能家用电器，对智能家用电器进行远程
控制。

[0144] 对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论
从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权
利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有
变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

基于多系统集成高识别率的远程语音识别控制系统及方法转让专利

申请号 : CN202110893901.8

文献号 : CN113345436B

文献日 : 2021-11-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 周国贤 , 吴启楠 , 文坚 , 李吉刚 , 陈政 , 赵磊 , 张锦旗 , 徐健健

申请人 : 创维电器股份有限公司

摘要 :

权利要求 :

说明书 :