基于多系统集成高识别率的远程语音识别控制系统及方法转让专利
申请号 : CN202110893901.8
文献号 : CN113345436B
文献日 : 2021-11-12
发明人 : 周国贤 , 吴启楠 , 文坚 , 李吉刚 , 陈政 , 赵磊 , 张锦旗 , 徐健健
申请人 : 创维电器股份有限公司
摘要 :
权利要求 :
1.基于多系统集成高识别率的远程语音识别控制系统,其特征在于:该远程语音识别控制系统包括远程控制端、智能控制终端和智能家用电器;
所述远程控制端用于通过智能控制终端对智能家用电器进行远程语音识别控制,所述远程控制端与智能控制终端之间通过传输信道进行信号传输,所述远程控制端向智能控制终端传输语音和口型信号,所述智能控制终端向智能家用电器传输控制指令,所述智能家用电器向智能控制终端发送反馈信息,所述智能控制终端通过传输信道向远程控制端传输智能家用电器的使用情况;
所述远程控制端包括语音识别单元和口型采集单元;
所述语音识别单元用于对用户远程语音控制智能家用电器的语音信号进行识别,所述口型采集单元用于对用户远程语音控制智能家用电器的口型图像进行采集,所述口型采集单元为远程控制端上的采集摄像头;
当语音识别单元对用户语音信号的识别不清晰时,通过口型采集单元所采集的口型图像对缺失的语音信号进行弥补,获得完整控制指令;
所述语音识别单元的输出端连接指令组合模块的输入端,所述口型采集单元的输出端连接口型分析模块的输入端;
所述智能控制终端包括存储数据库、口型分析模块、口令处理模块和指令组合模块;
所述存储数据库用于对各项信息数据进行存储和记录;所述口型分析模块用于根据口型采集单元所采集的口型图片对用户的口型所表达的词语进行分析;所述口令处理模块用于对口型分析模块分析后的用户口型词语进行处理,获得口令;所述指令组合模块用于将口令处理模块处理之后的口令与语音识别单元识别的缺失控制指令进行结合,获得完整控制指令;
所述口型分析模块的输出端连接口令处理模块的输入端,所述口令处理模块的输出端连接指令组合模块的输入端,所述存储数据库的输出端连接口型分析模块、口令处理模块和指令组合模块的输入端,所述指令组合模块输出控制指令;
所述口型分析模块包括特征提取单元、数据筛选单元、向量生成单元和口型比对单元;
所述特征提取单元用于对口型采集单元所采集的用户口型图像中关于口型的特征点进行提取;所述数据筛选单元用于根据用户口型张开的直径,筛选出对应该口型张开直径的词语,剔除该口型张开直径不可能发声的词语;所述向量生成单元用于将特征提取单元所提取的每两个相邻的特征点生成向量,以便于通过向量对口型相似度进行比较,确认用户口型所表达的词语;所述口型比对单元用于将向量生成单元所生成的向量与存储数据库中所存储的不同的口型所表达的词语进行对比,确认用户口型图像所表达的词语;
所述口型采集单元的输出端连接特征提取单元的输入端,所述特征提取单元的输出端连接数据筛选单元和向量生成单元的输入端,所述向量生成单元的输出端连接口型比对单元的输入端,所述口型比对单元的输出端连接口令处理模块的输入端,所述存储数据库的输出端连接数据筛选单元和口型比对单元的输入端,所述数据筛选单元将筛选出的口型数据暂存在存储数据库中。
2.根据权利要求1所述的基于多系统集成高识别率的远程语音识别控制系统,其特征在于:所述口令处理模块包括词语提取单元和排列组合单元;
所述词语提取单元用于对口型比对单元比对之后同一口型对应的若干个词语进行提取;所述排列组合单元用于对一段口型中,不同口型对应的若干个词语进行排列组合,获得一段口型的若干个组合词语;
所述口型比对单元的输出端连接词语提取单元的输入端,所述词语提取单元的输出端连接排列组合单元的输入端,所述排列组合单元的输出端连接指令组合模块的输入端。
3.根据权利要求2所述的基于多系统集成高识别率的远程语音识别控制系统,其特征在于:所述指令组合模块包括指令生成单元、口令填充单元和指令比对单元;
所述指令生成单元用于根据语音识别单元所识别的语音信号生成缺失控制指令;所述口令填充单元用于将排列组合单元组合之后的若干个词语填充进入指令生成单元生成的缺失控制指令中,获得完整控制指令;所述指令比对单元用于对获得的若干个完整控制指令与存储数据库中存储的历史完整控制指令进行比对,来筛选语意表达错误的完整控制指令,确定此次用户所下达的完整控制指令的含义,最终获得控制指令;
所述排列组合单元的输出端连接口令填充单元的输入端,所述口令填充单元将排列组合之后的词语输入缺失控制指令,获得完整控制指令,将所述完整控制指令输入指令比对单元,所述存储数据库的输出端连接指令比对单元的输入端,所述指令比对单元输出控制指令。
4.基于多系统集成高识别率的远程语音识别控制方法,其特征在于:该远程语音识别控制方法包括以下步骤:
S1、利用远程控制端对用户的语音信号进行识别,对用户的口型信息进行采集;
S2、若出现语音信号识别不完整,利用指令生成单元将语音信号生成缺失控制指令;
S3、利用口型分析模块对用户的口型进行分析,获得与用户口型匹配的若干个词语;
S4、利用口令处理模块对匹配的若干个词语进行处理,与缺失控制指令结合,获得完整控制指令;
S5、利用口令比对单元对完整控制指令进行确认比对,最终获得控制指令,利用控制指令对智能家用电器进行控制;
在S1‑S2中,利用远程控制端的语音识别单元对用户的远程语音信号进行识别,在网络信号不佳,语音信号传输不完整的情况下,利用指令生成单元将语音信号转化为缺失控制指令,利用安装在远程控制端上的口型采集单元对用户的口型信息进行采集,通过对用户口型信号的分析,了解用户口型信号所表达的词语含义,对缺失控制指令中缺失的部分进行弥补;
在S3中,所述口型分析模块包括特征提取单元、数据筛选单元、向量生成单元和口型比对单元;利用特征提取单元对口型采集单元所采集的用户口型图像中的特征点进行提取,以用户口型正中心为圆心,建立平面直角坐标系,并赋予每一个特征点一个坐标值,组成用户口型图片特征点的坐标值集合 ,其中,n表示有n个特征点,利用数据筛选单元对用户口型图像所表达的词语进行筛选,具体筛选步骤如下:
S301、提取横坐标为0的两个特征点;
S302、对该两个特征点之间的距离L进行计算;
S303、剔除存储数据库中该两个特征点之间的距离大于L+a的词语;
S304、将剩余的与该口型匹配的词语暂存进存储数据库中;
其中,a表示设定的距离阈值;
利用向量生成单元根据下列公式对n个特征点中相邻两个特征点之间形成向量;
;
其中,k表示第k个特征点,k+1表示第k+1个特征点, 表示第k个特征点与第k+1个特征点之间形成的向量, 表示第k+1个特征点的坐标值, 表示第k个特征点的坐标值;
所述向量生成单元将生成的特征点向量发送至口型比对单元,所述口型比对单元将用户的口型对应的向量与存储数据库中通过数据筛选单元筛选之后暂存的口型数据进行比对,所述口型比对单元根据下列公式进行相似度的比对:;
其中,表示向量 与向量 之间的夹角, 表示存储数据库中暂存的第o个口型上的第s个向量,组成第o个口型上的第s个向量的两个特征点与向量 的两个特征点的位置相同, 表示向量 的模, 表示向量 的模;
当 时,表明相似度达到设定阈值;
当 时,表明相似度较低,对该向量对应的数据库中的口型进行剔除,其中,c表示设定的余弦相似度的阈值;
当存储数据库中由暂存的口型数据中的某一个口型的n‑1个特征点向量与口型采集单元所采集的口型图像中的n‑1个特征点向量的相似度均超过设定阈值时,判定存储数据中的该口型与口型采集单元所采集的口型匹配。
5.根据权利要求4所述的基于多系统集成高识别率的远程语音识别控制方法,其特征在于:在S4中,利用词语提取单元从存储数据库中提取出与口型采集单元所采集的口型相匹配的口型对应的词语,每一个口型对应着若干个词语或字,利用排列组合单元对一段口型中的若干个词语或字进行排列组合,获得一段完整的意思表示,利用口令填充单元将排列组合之后的词语依次填充进入缺失控制指令中缺失的部分,形成完整控制指令。
6.根据权利要求5所述的基于多系统集成高识别率的远程语音识别控制方法,其特征在于:在S5中,利用口令比对单元将填充之后的完整控制指令与存储数据库中原有的历史控制指令进行比对,主要包括以下步骤:S501、提取完整控制指令中的关键词;
S502、提取历史控制指令中的关键词;
S503、将S501中的关键词与S502中的关键词进行比对,挑选出关键词比对相似度最高的完整控制指令作为最终的控制指令;
在S503中,进行关键词的比对时,比对S501中提取的若干个关键词是否与S502中提取的若干个关键词完全相同,若S501中的关键词数量与S502中的关键词数量一致,且S501中的关键词与S502中的关键词一一对应,则该完整控制指令为用户控制指令的真实意思表达,将该完整控制指令作为最终的控制指令对智能家用电器进行远程控制。
说明书 :
基于多系统集成高识别率的远程语音识别控制系统及方法
技术领域
背景技术
宅用户在住宅内或远程的控制指令;同时,智能家电作为智能家居的组成部分,能够与住宅
内其它家电和家居、设施互联组成系统,实现智能家居功能;
现控制的问题,容易导致用户需要多次进行语音控制,影响用户体验,所以,人们继续一种
基于多系统集成高识别率的远程语音识别控制系统及方法来解决上述问题。
发明内容
器;
控制终端传输语音和口型信号,所述智能控制终端向智能家用电器传输控制指令,所述智
能家用电器向智能控制终端发送反馈信息,所述智能控制终端通过传输信道向远程控制端
传输智能家用电器的使用情况。
识别与口型识别的相互结合,使得远程控制端的控制指令更加的清晰,对于语音信号识别
的识别率更高。
采集单元为远程控制端上的采集摄像头;
中缺失的部分进行弥补;所述口令处理模块用于对口型分析模块分析后的用户口型词语进
行处理,获得口令;所述指令组合模块用于将口令处理模块处理之后的口令与语音识别单
元识别的缺失控制指令进行结合,获得完整控制指令;
模块和指令组合模块的输入端,所述指令组合模块输出控制指令。
因为语音信号传输不稳定导致控制指令不完成的情况发生。
便进行口型的分析,同时,可以避免因不同用户的嘴部大小不一,导致无法统一比对的情
况,因为通过特征点提取之后,可以对若干个特征点组成的口型进行等比例的缩放;所述数
据筛选单元用于根据用户口型张开的直径,筛选出对应该口型张开直径的词语,剔除该口
型张开直径不可能发声的词语,以此来减少口型分析过程中比对的数量,减少系统的运算
量;所述向量生成单元用于将特征提取单元所提取的每两个相邻的特征点生成向量,以便
于通过向量对口型相似度进行比较,确认用户口型所表达的词语;所述口型比对单元用于
将向量生成单元所生成的向量与存储数据库中所存储的不同的口型所表达的词语进行对
比,确认用户口型图像所表达的词语;
对单元的输入端,所述口型比对单元的输出端连接口令处理模块的输入端,所述存储数据
库的输出端连接数据筛选单元和口型比对单元的输入端,所述数据筛选单元将筛选出的口
型数据暂存在存储数据库中。
行弥补。
同导致的出现漏掉的情况,使得对于口型分析的结果更加的精准;所述排列组合单元用于
对一段口型中,不同口型对应的若干个词语进行排列组合,获得一段口型的若干个组合词
语,通过对不同口型表达的字含义不同,之后对一段口型进行排列组合的方式,可以最大程
度的列举所有的可能,使得对于口型含义分析的结果更加的精准;
端。
号为传输或者为识别导致的;所述口令填充单元用于将排列组合单元组合之后的若干个词
语填充进入指令生成单元生成的缺失控制指令中,获得完整控制指令,但是由于完整控制
指令是由语音识别和口型分析得到的词语组合而成,所以,会存在语意表达不明确或者错
误的情况,容易导致控制指令下达错误;所述指令比对单元用于对获得的若干个完整控制
指令与存储数据库中存储的历史完整控制指令进行比对,来筛选语意表达错误的完整控制
指令,确定此次用户所下达的完整控制指令的含义,最终获得控制指令,通过再次比对的方
式,可以对若干个可能的完整控制指令语意进行比对,逐一筛选出符合用户真实意思表达
的完整控制指令,可以在保证获得完整控制指令的前提下,整理出最符合用户真实意思表
达的完整控制指令,保证控制指令下达的准确性;
比对单元,所述存储数据库的输出端连接指令比对单元的输入端,所述指令比对单元输出
控制指令。
使得对于用户口型分析的结果更加的精准,避免因为对口型进行分析导致下达错误的控制
指令。
音信号转化为缺失控制指令,利用安装在远程控制端上的口型采集单元对用户的口型信息
进行采集,通过对用户口型信号的分析,了解用户口型信号所表达的词语含义,对缺失控制
指令中缺失的部分进行弥补。
整性。
图像中的特征点进行提取,以用户口型正中心为圆心,建立平面直角坐标系,并赋予每一个
特征点一个坐标值,组成用户口型图片特征点的坐标值集合
,其中,n表示有n个特征点,利用数据筛选单元对
用户口型图像所表达的词语进行筛选,具体筛选步骤如下:
特征点的坐标值;
行比对,所述口型比对单元根据下列公式进行相似度的比对:
征点的位置相同,因为需要具备位置相同这一点才能进行向量相似度的计算,否则将不具
备比对价值, 表示向量 的模, 表示向量 的模;
据中的该口型与口型采集单元所采集的口型匹配。
准。
排列组合单元对一段口型中的若干个词语或字进行排列组合,获得一段完整的意思表示,
利用口令填充单元将排列组合之后的词语依次填充进入缺失控制指令中缺失的部分,形成
完整控制指令。
型分析错误导致口令错误的情况发生。
S501中的关键词与S502中的关键词一一对应,则该完整控制指令为用户控制指令的真实意
思表达,将该完整控制指令作为最终的控制指令对智能家用电器进行远程控制。
的精准,使得可以最大程度的根据口型分析还原用户的真实意思表达,使得可以准确无误
的还原用户的控制指令。
用电器可以反馈使用情况至远程控制端,通过语音识别与口型识别的相互结合,使得远程
控制端的控制指令更加的清晰,对于语音信号识别的识别率更高。
附图说明
具体实施方式
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
控制终端传输语音和口型信号,所述智能控制终端向智能家用电器传输控制指令,所述智
能家用电器向智能控制终端发送反馈信息,所述智能控制终端通过传输信道向远程控制端
传输智能家用电器的使用情况。
识别与口型识别的相互结合,使得远程控制端的控制指令更加的清晰,对于语音信号识别
的识别率更高。
采集单元为远程控制端上的采集摄像头;
中缺失的部分进行弥补;所述口令处理模块用于对口型分析模块分析后的用户口型词语进
行处理,获得口令,所述口令是指通过对用户口型进行分析得出的指令;所述指令组合模块
用于将口令处理模块处理之后的口令与语音识别单元识别的缺失控制指令进行结合,获得
完整控制指令;
模块和指令组合模块的输入端,所述指令组合模块输出控制指令。
因为语音信号传输不稳定导致控制指令不完成的情况发生。
户口型特征点的提取,使得可以将用户的口型数字化,使得更加方便进行口型的分析,同
时,可以避免因不同用户的嘴部大小不一,导致无法统一比对的情况,因为通过特征点提取
之后,可以对若干个特征点组成的口型进行等比例的缩放;所述数据筛选单元用于根据用
户口型张开的直径,筛选出对应该口型张开直径的词语,剔除该口型张开直径不可能发声
的词语,以此来减少口型分析过程中比对的数量,减少系统的运算量;所述向量生成单元用
于将特征提取单元所提取的每两个相邻的特征点生成向量,以便于通过向量对口型相似度
进行比较,确认用户口型所表达的词语;所述口型比对单元用于将向量生成单元所生成的
向量与存储数据库中所存储的不同的口型所表达的词语进行对比,确认用户口型图像所表
达的词语;
对单元的输入端,所述口型比对单元的输出端连接口令处理模块的输入端,所述存储数据
库的输出端连接数据筛选单元和口型比对单元的输入端,所述数据筛选单元将筛选出的口
型数据暂存在存储数据库中。
行弥补。
同导致的出现漏掉的情况,使得对于口型分析的结果更加的精准;所述排列组合单元用于
对一段口型中,不同口型对应的若干个词语进行排列组合,获得一段口型的若干个组合词
语,例如:一段口型中对应了四个字,通过对口型的分析,第一个字为“打”、“大”、“搭”、“达”
或“答”,第二个字为“开”、“凯”或“铠”、第三个字为“空”、“孔”、“控”或“恐”,第四个字为
“调”、“条”、“挑”、“跳”或“眺”,则一段口型对应着300中不同的组合的组合含义,通过对不
同口型表达的字含义不同,之后对一段口型进行排列组合的方式,可以最大程度的列举所
有的可能,使得对于口型含义分析的结果更加的精准;
端。
号为传输或者为识别导致的;所述口令填充单元用于将排列组合单元组合之后的若干个词
语填充进入指令生成单元生成的缺失控制指令中,获得完整控制指令,但是由于完整控制
指令是由语音识别和口型分析得到的词语组合而成,所以,会存在语意表达不明确或者错
误的情况,容易导致控制指令下达错误;所述指令比对单元用于对获得的若干个完整控制
指令与存储数据库中存储的历史完整控制指令进行比对,来筛选语意表达错误的完整控制
指令,确定此次用户所下达的完整控制指令的含义,最终获得控制指令,通过再次比对的方
式,可以对若干个可能的完整控制指令语意进行比对,逐一筛选出符合用户真实意思表达
的完整控制指令,可以在保证获得完整控制指令的前提下,整理出最符合用户真实意思表
达的完整控制指令,保证控制指令下达的准确性;
比对单元,所述存储数据库的输出端连接指令比对单元的输入端,所述指令比对单元输出
控制指令。
使得对于用户口型分析的结果更加的精准,避免因为对口型进行分析导致下达错误的控制
指令。
控制指令,利用安装在远程控制端上的口型采集单元对用户的口型信息进行采集,通过对
用户口型信号的分析,了解用户口型信号所表达的词语含义,对缺失控制指令中缺失的部
分进行弥补。
整性。
取,以用户口型正中心为圆心,建立平面直角坐标系,并赋予每一个特征点一个坐标值,组
成用户口型图片特征点的坐标值集合 ,其中,n
表示有n个特征点,所述特征点包括左侧嘴角、右侧嘴角、上唇中心点、下唇中心点等,利用
数据筛选单元对用户口型图像所表达的词语进行筛选,具体筛选步骤如下:
个特征点的坐标值;
行比对,所述口型比对单元根据下列公式进行相似度的比对:
征点的位置相同,因为需要具备位置相同这一点才能进行向量相似度的计算,否则将不具
备比对价值, 表示向量 的模, 表示向量 的模;
据中的该口型与口型采集单元所采集的口型匹配。
准。
口型中的若干个词语或字进行排列组合,获得一段完整的意思表示,例如:一段口型中对应
了四个口型图像,通过对口型的分析,第一个口型对应的字为“打”、“大”、“搭”、“达”或
“答”,第二个口型对应的字为“开”、“凯”或“铠”、第三个口型对应的字为“空”、“孔”、“控”或
“恐”,第四个字为“调”、“条”、“挑”、“跳”或“眺”,则一段口型对应着300中不同的组合的组
合含义,利用口令填充单元将排列组合之后的词语依次填充进入缺失控制指令中缺失的部
分,形成完整控制指令。
型分析错误导致口令错误的情况发生。
S501中的关键词与S502中的关键词一一对应,则该完整控制指令为用户控制指令的真实意
思表达,将该完整控制指令作为最终的控制指令对智能家用电器进行远程控制。
单元所采集的用户口型图像中的特征点进行提取,以用户口型正中心为圆心,建立平面直
角坐标系,并赋予每一个特征点一个坐标值,组成用户口型图片特征点的坐标值集合
,所述特征点包括左侧嘴角、右侧嘴角、上唇中心
点、下唇中心点,利用数据筛选单元对用户口型图像所表达的词语进行筛选,具体筛选步骤
如下:
个特征点的坐标值;
行比对,所述口型比对单元根据下列公式进行相似度的比对:
征点的位置相同, 表示向量 的模, 表示向量 的模;
的该口型与口型采集单元所采集的口型匹配;
“凯”或“铠”、第三个口型对应的字为“空”、“孔”、“控”或“恐”,第四个字为“调”、“条”、“挑”、
“跳”或“眺”,则一段口型对应着300中不同的组合的组合含义,其中一种为:“打开空调”;
令的关键词“下午”、“六点30分”、“打开”、“空调”,通过指令比对单元的比对,在存储数据库
中存在与上述四个关键词完全一致的历史控制指令,判定上述完整控制指令为用户的真实
意思表达,将“在下午六点30分打开空调”发送至智能家用电器,对智能家用电器进行远程
控制。
从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权
利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有
变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。