一种机舱语音指令握手检测系统和装置转让专利
申请号 : CN202110589762.X
文献号 : CN113327607B
文献日 : 2022-05-06
发明人 : 李建欣 , 周号益 , 张帅 , 肖思炀 , 陈天宇 , 何铭睿
申请人 : 北京航空航天大学
摘要 :
权利要求 :
1.一种机舱语音指令握手检测系统,其特征在于:系统包括机舱人员角色识别模块、机舱语音指令识别模块和指令握手模块三个模块:所述机舱人员角色识别模块收集机舱的音频混杂的机长、副机长、塔台三个角色的声音进行标注,使用标注后的不同角色的语音片段进行对比学习,将不同人的声音分离开,并将分离的声音输入机舱语音指令识别模块;所述机舱语音指令识别模块对分离后的音频进行语音识别,对易错的结果按照近音词的机舱指令进行替换,构建每个角色的语音‑文本语料库;所述指令握手模块基于所述语音‑文本语料库识别角色之间的对话是否是指令,将机长和塔台,机长和副机长的握手区分开,并将机长和副机长的握手过程和喊话标准流程进行匹配,输出带有check/uncheck标记的每条指令;
所述机舱人员角色识别模块的标注方法为使用对比学习将预先标注好的不同人语音片段进行分类,机长、副机长、塔台角色的声音记为,Vcap,Vvcap,Vtow分别进行随机切片,各生成m段对比样本:
而后,将m段声音对比样本进行两两匹配,构造对比学习正负样本,构造方式为:对于每个样本v定义正样本集和负样本集,所述正样本集为其所属角色的其余声音片段,所述负样本集为其所属角色之外的两个角色的样本;所述机舱人员角色识别模块的对比学习方法为:基于构造好的对比样本集,进行对比学习,具体地,使用WaveNet机舱人员角色识别模型对声音样本进行表征,表征后的结果记为z=Fwave(v),使用对比学习损失函数Lcon为指导进行无监督的对比学习训练,其中:
对比训练之后,将WaveNet的输出层后加入Softmax层进行有监督的三分类训练:y=Softmax(z)=Softmax(Fwave(v)),从而将原始的混合音频按角色分为三个类别的音频;
所述指令握手模块首先通过人工标注文本是否为指令来训练一个文本分类器,采取向量空间模型来表示文本,特征选择方法使用基于文档频率的特征提取法和信息增益法,模型选择了textCNN模型,将机舱语音指令识别模块得到的文本作为输入,基于文本分类器得到一系列顺序指令来和标准喊话流程进行暴力匹配来检查是否有错喊,漏喊的情况,没有匹配上的指令I就是错喊,两次匹配在标准喊话流程中没有按照顺序相邻说明漏喊,这些指令将会被标记为uncheck,其他指令被标记为check,通过判断呼号的位置来进行区分机长和副机长、机长和塔台之间的握手。
2.如权利要求1所述的一种机舱语音指令握手检测系统,其特征在于:所述机舱语音指令识别模块的语音‑文本语料库构建方法为将分开后的音频Vcap,Vvcap,Vtow转为文字Tcap,Tvcap,Ttow,对转换出来的文本进行标注得到语音‑文本对,来构建机舱环境下的通话语料库,使用MASR在通用语料库上的预训练模型,自建语料库上进行fine‑tune训练,并用模型的准确率用编辑距离和句子长度的比值来衡量。
3.如权利要求2所述的一种机舱语音指令握手检测系统,其特征在于:替换方法为是基于易错结果拼音的相似性得到不同角色的文本。
4.一种应用机舱语音指令握手检测系统的装置,包括语音输入单元,其特征在于:应用权利要求1‑3中任一所述的一种机舱语音指令握手检测系统,所述语音输入单元录入的语音信号输入至机舱语音指令握手检测系统进行运算。
说明书 :
一种机舱语音指令握手检测系统和装置
技术领域
背景技术
分失误。标准喊话也会更有效地提示飞行机组下一项应完成的程序。
忽视喊话的技术性要求,出现错喊、漏喊的情况,给飞行的安全埋下隐患。而目前对于喊话
过程的检测并没有一种自动的、便利的、准确的检测方法。
发明内容
收集机舱的音频混杂的机长、副机长、塔台三个角色的声音进行标注,使用标注后的不同角
色的语音片段进行对比学习,将不同人的声音分离开,并将分离的声音输入机舱语音指令
识别模块;所述机舱语音指令识别模块对分离后的音频进行语音识别,对易错的结果进行
替换,构建每个角色的语音‑文本语料库;所述指令握手模块基于所述语音‑文本语料库识
别角色之间的对话是否是指令,并将机长和塔台,机长和副机长的握手区分开,并将机长和
副机长的握手过程和喊话标准流程进行匹配,输出带有check(握手)/uncheck(未握手)标
记的每条指令。
各生成m段对比样本:
负样本集为其所属角色之外的两个角色的样本。
果记为z=Fwave(v),使用对比学习损失函数Lcon为指导进行无监督的对比学习训练,其中:
舱环境下的通话语料库,使用MASR在通用语料库上的预训练模型,自建语料库上进行fine‑
tune训练,并用模型的准确率用编辑距离和句子长度的比值来衡量。
法,模型选择了textCNN模型,将机舱语音指令识别模块得到的Tcap,Tvcap,Ttow作为输入,基
于文本分类器得到一系列顺序指令{I1,I2,...In}来和标准喊话流程{F1,F2...Fm}进行暴力
匹配来检查是否有错喊,漏喊的情况,没有匹配上的指令I就是错喊,两次匹配在标准喊话
流程中没有按照顺序相邻说明漏喊,这些指令将会被标记为uncheck(未握手),其他指令被
标记为check(握手),通过判断呼号的位置来进行区分机长和副机长、机长和塔台之间的握
手。
附图说明
具体实施方式
将分离的声音输入机舱语音指令识别模块;
匹配,输出带有check(握手)/uncheck(未握手)标记的每条指令。
块使用了对比学习将预先标注好的不同人语音片段进行分类。
属角色之外的两个角色的样本,如:对于样本 而言,其正样本集为
+ +
其负样本集为 其中任意v ∈V
+ +
称为正样本,任意v∈V称为负样本。
为指导进行无监督的对比学习训练,其中:
上表现欠佳。所以我们先对一些转换出来的文本进行标注得到语音‑文本对,来构建机舱环
境下的通话语料库。
比值来衡量,值越小越好。
角色的文本。
过程的专业性和标准性,其中特征选择方法主要使用了基于文档频率的特征提取法和信息
增益法,模型选择了textCNN模型,喊话文本较为明显的特征保证了分类器的效果。
喊,漏喊的情况。没有匹配上的指令I就是错喊,两次匹配在标准喊话流程中没有按照顺序
相邻说明漏喊,这些指令将会被标记为uncheck(未握手),其他指令被标记为check(握手)。
至于区分机长和副机长、机长和塔台之间的握手,因为飞行员和塔台的交流有很明显的特
征就是呼号的位置,所以可以通过判断呼号的位置来进行区分,呼号在前的就是塔台。