一种智能化跨语言语音识别转化方法转让专利
申请号 : CN201711371095.8
文献号 : CN107945805B
文献日 : 2018-11-30
发明人 : 程海波 , 文向东 , 于晓 , 赵季辉 , 李亮
申请人 : 北京烽火万家科技有限公司
摘要 :
权利要求 :
1.一种智能化跨语言语音识别转化方法,其特征在于:
步骤一:获取待识别转化的语音数据以及语音数据库;
步骤二:依据语音数据的属性数据对语音数据进行预处理,与语音数据库中的语音数据初步比对,识别出语音数据所属的语言语系;
步骤三:对初步识别出语言语系的语音数据进行判断纠正,如果语言语系识别出现错误,返回步骤二,如果正确,进入步骤四;
步骤四:对识别出语言语系的语音数据进行边界分割,针对不同语言语系的语音数据的特点,决策出当前语音数据所属的具体语种;
步骤五:基于声线模型对语音数据的音频特征进行识别,根据音频特征的归一化表示将语音数据转写为文本数据;
步骤六:对转化后的文本数据进行基于正则文法的处理,对文本进行消歧处理,规范文本的语义规则;
步骤七:建立消歧后的文本数据与原始的待识别转化的语音数据的映射关系,将待识别的语音数据存储至语音数据库中;
所述语音数据库中的样本语言数据事先进行训练与聚类分析,首先,记录样本语言数据的语言表现序列,预设语言表现集合,获取每一个样本语言数据的语言表现序列的长度,使用上层标记序列在语言表现序列与预设语言表现集合之间建立映射关系,确定出样本语言数据所属的语言表现类别,建立相应的类别表存储在语音数据库中,其中的类别表内部具体表明了语言语系与具体语种之间的映射包含关系,同时语系与语系之间通过类间距离计算描述语系之间的相似度。
2.如权利要求1的一种智能化跨语言语音识别转化方法,其特征在于:所属待识别转化的语音数据可通过由用户通过话筒等语音输入设备输入,或从网上下载或本地导入语音资料文件。
3.如权利要求1的一种智能化跨语言语音识别转化方法,其特征在于:所述步骤二中依据语音数据的属性数据对语音数据进行预处理包括:对待识别转化的语音数据进行高频部分的升高,平滑频谱信号,增加高频分辨率;
采用可移动的有限长度窗口进行加权的方法对语音数据进行帧划分,以减少起始和结束处信号的间断性;
设定语音能量门限阈值,大于这个门限阈值的语音帧就当作有用的语音帧提取出来,否则就舍弃该语音帧;
对语音数据的信号进行分割和噪声的清除;
所述步骤二中识别出语音数据所属的语言语系,所述语言语系包括:印欧语系、南岛语系、高加索语系、汉藏语系、阿尔泰语系、北美印第安语系等;通过提取预处理过后的语音数据的语调、语速、噪音等语音特征参数,与语音数据库内部的类别表中的语音特征进行比对,初步筛选出特征综合相似度>80%的语言语系,并将相似度最高的语言语系作为备选语言语系。
4.如权利要求1的一种智能化跨语言语音识别转化方法,其特征在于:所述步骤三中对初步识别出语言语系的语音数据进行判断纠正,包括:将待识别的语音数据作为输入队列通过全极点系统模型,得到后续输出,进行线性预测之后,进行样本信号逼近的方式,对特征参数进行估计,其中的特征参数包括MFCC特征参数和SDC特征参数,如果特征参数的相似度与预处理识别出的语系的相似度>90%,则判断语系识别正确,否则,语系识别错误;
所属步骤三中,如果语言语系识别出现错误,返回步骤二包括:
如果针对待识别语音数据所初步识别的语音语系出现错误,则根据语音数据库中针对语系内部之间的类内距离,将与预处理识别的语音语系间类间距离最小的一门语系再次识别为待识别语音数据所属的语系,如果不符合,则依次计算新识别出的语系与其他语系的类间距离,选择类间距离最小的一门语系作为识别待识别语音数据所属的语系,直至识别出待识别语音数据所属的语系。
5.如权利要求1的一种智能化跨语言语音识别转化方法,其特征在于:所述对识别出语言语系的语音数据进行边界分割,包括:
指根据语音动作序列,将语音数据分割成时序相邻的一系列与语音学动作单元相应的音段,并将相应的时问信息特征添加到动作文件里;
所述语音学动作单元包括:音素,音节,单词。
6.如权利要求1的一种智能化跨语言语音识别转化方法,其特征在于:所述步骤四中,针对不同语言语系的语音数据的特点,决策出当前语音数据所属的具体语种,包括:针对已经识别出语系的待识别语音数据,提取语音数据库中该语系内各语种的类内语音边界特征,将待识别语音数据分割后的特征与语音数据库中该语系内各语种的类内语音边界特征进行比对,相似度最高的一种的语言则为该待识别语音数据所属的语言种类。
7.如权利要求1的一种智能化跨语言语音识别转化方法,其特征在于:所述步骤五:基于声线模型对语音数据的音频特征进行识别,包括:依据语音的语调进行识别,对语音的轮廓曲线采用自相关函数检测语音周期,计算每一帧语音数据的MFCC特征和语音频率,将两特征组合后进行差分运算,提取新特征参数;
所述步骤五,根据音频特征的归一化表示将语音数据转写为文本数据包括:依据声线模型提取的语调语音特征参数作为转写特征输入将语音数据初步转写为文字数据。
8.如权利要求1的一种智能化跨语言语音识别转化方法,其特征在于:所述步骤六:对转化后的文本数据进行基于正则文法的处理,对文本进行消歧处理,规范文本的语义规则,包括:对初步识别转化的文本数据进行语法分析和语义分析,
其中语法分析针对语音识别稳定度较低的词语进行纠正,以满足词语标记语法方面的准确度;
语法分析基于分析语句的含义是否符合逻辑,针对文本特征词之间的语义相关度基于统计进行合理度分析,将合理度不满足语义要求的句子进行语义纠偏。
9.如权利要求1的一种智能化跨语言语音识别转化方法,其特征在于:所述步骤七:建立消歧后的文本数据与原始的待识别转化的语音数据的映射关系,将待识别的语音数据存储至语音数据库中,包括:对语法语义的文本数据边界划分后进行分词处理,依据停用词列表将文本语句中的停用词删除,对分词后的文本进行词频统计,将原文本数据与待识别转化的语音数据建立映射关系,使得后续语音转化文本时便于直接从语音数据库中提取;
此外,将分词后的文本边界词和相关词频建立语种、语系的映射关系,存储至语音数据库中,作为后续语系、语种识别依据。
说明书 :
一种智能化跨语言语音识别转化方法
技术领域
背景技术
息进行更加有效地产生、传输、获取、存储和应用,这将极大地促进社会的发展。
的不断发展,语种识别技术逐渐成为语音处理领域的又一热点问题。据有关资料统计,当今
世界上共有5651种语言,语种之间的信息互通越来越重要,如何让计算机识别出不同的语
种己经成为人们的迫切需求。
前端处理技术,随着全球化经济的发展,全球范围内的人员流动和国际间商务交流对多语
对话系统、口语翻译系统、语音合成和多语种语音识别系统的应用需求快速增长,作为这类
系统的必要的前端处理,语种识别技术扮演着非常重要的角色。
户在网络环境中的直接体验。
言进行语音识别;专利201710414207.7公开了一种基于人工智能的语音识别方法,其采用
将待识别的语音数据建立声学模型,确定能量特征后转化文本数据。可以看出,现有技术
中,针对语音的识别和文本转化技术已经较为很多,但基本的思路都是建立语料库后提取
待识别语音数据的基本特征,之后直接进行相应的文本转换,导致语音识别时的算法复杂
度较高,识别准确度也无法保证,识别后的容错性鲁棒性较低,造成了语音识别用户的体验
性较差。
再进一步识别相应的语种,之后,将相应的语音转化为对应的文字后还会建立文字段与语
音语种、语系的映射关系便于后续识别。
发明内容
训练与聚类分析,首先,记录样本语言数据的语言表现序列,预设语言表现集合,获取每一
个样本语言数据的语言表现序列的长度,使用上层标记序列在语言表现序列与预设语言表
现集合之间建立映射关系,确定出样本语言数据所属的语言表现类别,建立相应的类别表
存储在语音数据库中,其中的类别表内部具体表明了语言语系与具体语种之间的映射包含
关系,同时语系与语系之间通过类间距离计算描述语系之间的相似度。
参数,与语音数据库内部的类别表中的语音特征进行比对,初步筛选出特征综合相似度>
80%的语言语系,并将相似度最高的语言语系作为备选语言语系;
MFCC特征参数和SDC特征参数,如果特征参数的相似度与预处理识别出的语系的相似度>
90%,则判断语系识别正确,否则,语系识别错误。
对已经识别出语系的待识别语音数据,提取语音数据库中该语系内各语种的类内语音边界
特征,将待识别语音数据分割后的特征与语音数据库中该语系内各语种的类内语音边界特
征进行比对,相似度最高的一种的语言则为该待识别语音数据所属的语言种类。
特征参数,依据声线模型提取的语调语音特征参数作为转写特征输入将语音数据初步转写
为文字数据。
音数据建立映射关系,使得后续语音转化文本时便于直接从语音数据库中提取;
行语种的细化识别,而在首次语系识别错误后还可以基于建立好的语系类间距离进一步查
找相邻语系,确认语系;在识别出语种后将其转化为规范化文字并对文本进行分词、词频统
计等处理建立映射关系便于后续语音查询。本发明一方面有效的解决了当前语音识别中效
率与速率不能平衡的弊端,另一方面,对语音文字转换的处理更为合理,映射关系的建立使
得识别转化效率准确度更高。
附图说明
发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可
以根据这些附图获得其他的附图。
具体实施方式
本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
一化,语义规范化,存入映射规则。
事先进行训练与聚类分析,首先,记录样本语言数据的语言表现序列,预设语言表现集合,
获取每一个样本语言数据的语言表现序列的长度,使用上层标记序列在语言表现序列与预
设语言表现集合之间建立映射关系,确定出样本语言数据所属的语言表现类别,建立相应
的类别表存储在语音数据库中,其中的类别表内部具体表明了语言语系与具体语种之间的
映射包含关系,同时语系与语系之间通过类间距离计算描述语系之间的相似度。
1,…,n}.其中,第j类的语系样本数为nj,即‖yk|yk=j,k=1,…,n‖=nj,j=1,…,l,则含有i(i=1,…,m)个语系特征的语系特征子集的区分度定义为DFSi。
等语音特征参数,与语音数据库内部的类别表中的语音特征进行比对,初步筛选出特征综
合相似度>80%的语言语系,并将相似度最高的语言语系作为备选语言语系;
语言种类。根据语系的划分情况来看,不同的语系之间有着很大的差异,这些差异在实际交
流中会更加明显,因为语言的发音有很大的不同。目前全世界根据地理覆盖情况和实际应
用来看,英语的使用面最为广泛,因此现有的语音识别系统在使用过程中就出现了不少的
问题。如苹果公司的siri语音识别软件,在全球范围使用中具有高质量的语音识别率,但对
于日韩口音,印度口音及非洲口音的英语指令的识别效果明显下降。
模拟语音信号的宽带来确定,以避免信号的频域混叠失真在对离散后的语音信号进行量化
处理过程中会带来一定的量化噪声和失真。当釆样频率大于信号最高频率的两倍时,可以
使用采用后的信号重构原始信号,并且不会失去信息。语音信号的频率范围通常是300-
3400HZ,一般情况下采样频率为8kHz。
用可移动的有限长度窗采用加权的办法来实现语音的分段,矩形窗会使窗边处的信号突
变,所以常采用海尔宁窗对其分帧
大于整体门限的语音帧中找出所有的能量局部最大值,各个能量局部最大值都减去一个常
数,然后把它们当作部分门限,大于部分门限的就提取出来,这样就提取到了最优的语言帧
对语音数据的信号进行分割和噪声的清除,参照附图3,是一实施例中对于语音信息five的
嘶声噪声去除后的音频波形示意图。
估计,其中的特征参数包括MFCC特征参数和SDC特征参数,如果特征参数的相似度与预处理
识别出的语系的相似度>90%,则判断语系识别正确,否则,语系识别错误。
对得到的每帧信号的离散功率谱进行滤波,并求取相应的对数能量谱, 将对数能量s(m)
DCT,求得MFCC。
P帧的SDC特征向量之间,有p*(k-l)维的特征相重合,使得SDC特征在时序上包含了更多的
特征信息,而且这些特征信息又是连续的,使SDC表述特征的时长范围与一个音素的时长相
比拟。
作文件里;针对已经识别出语系的待识别语音数据,提取语音数据库中该语系内各语种的
类内语音边界特征,将待识别语音数据分割后的特征与语音数据库中该语系内各语种的类
内语音边界特征进行比对,相似度最高的一种的语言则为该待识别语音数据所属的语言种
类。
低于阈值时,确定在此划分为左边界或右边界。
分运算,提取新特征参数,依据声线模型提取的语调语音特征参数作为转写特征输入将语
音数据初步转写为文字数据。
据,准确识别出用户的意图,表达的重点,在转化文本时加重标记显示,用于提示作用。
识别转化的语音数据建立映射关系,使得后续语音转化文本时便于直接从语音数据库中提
取;
上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之
内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。