基于偏差器官形态行为可视化的口语学习矫正方法转让专利
申请号 : CN201810624822.5
文献号 : CN108922563B
文献日 : 2019-09-24
发明人 : 段玉聪 , 宋正阳 , 张欣悦
申请人 : 海南大学
摘要 :
权利要求 :
1.一种基于偏差器官形态行为可视化的口语学习矫正方法,通过计算学习者对句子的发音信息和标准音做对比,给出学习者的发音评分,如果发音不准确,将定位发音不准确的位置,反馈给学习者标准的发音以及可视化的告诉学习者发音器官动作;具体地,将原始语音信号经过处理得到切分的单词和组成单词的音素的Mel倒频谱系数,计算学习者的音素发音和标准音素发音的Mel倒频谱系数特征的欧几里得距离评估相似度,通过平均短时能量评估学习者发音的重读准确度,通过DTW算法评估学习者的语调发音准确度,通过基于短时能量和过零率的检测方法评估学习者的词间停顿准确度;具体实施步骤为:步骤S1.采集学习者对学习句子的发音信息以及标准发音信息,对采集信息进行预处理,提取特征;
所述步骤S1具体包括:
对采集的原始信号进行预处理,预处理包括预加重、分帧、加窗和端点检测;
分帧:采用可移动的有限长度的窗口进行加权的方法来实现分帧,其中帧移与帧长的比值为0 0.5;
~
加窗:所述加窗函数为汉明窗:
端点检测:采用双门限法进行端点检测,第n帧语音信号xn(m)的短时能量谱用En 表示,其计算公式如下:过零率:定义语音信号xn(m) 的短时过零率Zn为
式中,sgn[] 是符号函数,即:
步骤S2.构建标准发音器官形态行为库,将标准发音的特征映射到标准发音器官形态行为库;
所述步骤S2具体包括:
提取句子标准发音的四个指标的特征,即音素特征提取Mel倒频谱系数,重读特征提取信号短时能量,词间停顿特征提取信号无声段时长,语调特征提取信号的强度包络,使用映射函数将标准发音的四个指标特征与标准发音器官形态行为建立对应关系;
其中,音素特征的映射:
即音素的Mel倒频谱系数特征映射倒发音器官形态行为函数h(oi, pk),其中oi表示第i个发音器官,pk表示第i个发音器官上的第k个映射点,使用一组映射系数U={u1, u2, u3, u4, u5, u6, u7, u8, u9, u10, u11, u12}将标准发音映射到标准器官行为,求出这组系数U之后对学习者的发音与标准发音的器官行为进行对比,MFCC系数为{m1, m2, m3, m4, m5, m6, m7, m8, m9, m10, m11, m12},h(oi, pk)=m1 *u1+ m2*u1+ …+ m12*u1U系数的选择条件是:
满足条件: 最小时的系数U;
其中,重读特征的映射:
标准发音第i个重读部分的短时能量谱曲线为En,在曲线上采集m个点取能量值形成一组离散的反应短时能量谱的离散点集{e1, e2, …,em}. 使用一组系数W={w1, w2, …,wm}将标准发音的重读发音的短时能量谱特征与标准器官行为对应起来,如下所示:h(oi, pk)=e1*w1 + e2*w2 + … + em*wm选取系数W的标准是:
满足条件: 最小时的系数组W;
其中,语调特征的映射:
标准发音的语调曲线是语音信号强度的曲线,在曲线上采集n个样本点形成离散的一组语音信号强度点集{s1, s2, …, sn},使用一组系数Q={q1, q2, …, qn}将标准发音的语调映射到标准器官行为上,如下所示:h(oi, pk) =s1*q1 + s2*q2 + … + sn*qn其中,选取系数W的标准是:
满足条件: 最小时的系数组Q;
步骤S3.将采集的学习者的发音信息和标准发音信息进行对比,计算句子的音素、重读、词间停顿和语调与标准发音的相似度;若相似度大于阈值,则认为发音准确,若小于阈值,则认为发音不准确,计算不准确发音的器官形态行为与标准行为的偏差,并定位发音错误位置,用可视化的方式展示给学习者正确的发音以及正确发音的器官行为偏差;
其中,音素相似度计算:通过计算学习者发音的音素与标准发音的音素的Mel倒频谱系数的欧几里得距离来评估学习者对音素发音的准确度,音素相似度计算如下:xk表示采集的学习者的语音引号的第k个音素Mel倒频谱系数的特征向量,yk表示标准音的第k个音素的Mel倒频谱系数的特征向量;判断音素发音相似度与阈值的大小,若音素相似度小于阈值Similarityys0,则认为发音不准确;计算学习者发音的器官行为与标准器官形态行为的差异值Differencexw1,计算实现如下:其中, 表示音素标准器官形态行为, 表示学习者的不准确音素发音时的发音器官形态行为,学习者对音素的发音器官行为的计算为:, 表示MFCC特征向量, 表示音素发音时音素特征向发音器官行为映射的系数向量;
重读相似度计算:使用结合基于短时能量和过零率的检测方法进行端点检测确定词的界限,从而切分连续语音信号的句子分开成一组词;当短时能量值超过阈值E0时标记为重读部分,标准音的短时能量超过E0的起始时刻为STstart和STend,重音相似度计算如下:其中,CTmiddle表示短时能量谱上第k个重音的中间时刻,CTstart表示第k个重音的发音起始时刻,STmiddle表示标准音的短时能量谱上第k个重音的中间时刻,STstart表示标准音的第k个重音的发音起始时刻,表示采集的语音信号的重读的短时平均能量,
表示对应的标准音的第k个重读的短时平均能量;判断重
读相似度与阈值的大小,若重读相似度小于阈值Similarityzhd0,则认为发音不准确;计算学习者重读发音的器官行为与标准器官形态行为的差异值Differencexw2,计算实现如下:其中, 表示重读标准器官形态行为, 表示学习者不准确重读的发音器官形态行为,学习者发音器官行为的计算为: , 表示抽样的短时能量离散点作为一个向量, 表示重读时特征向器官映射的系数向量;
词间停顿相似度计算:
其中CTtd表示第i个停顿的时长,STtd表示对应的标准音的第i个停顿的时长;
语调相似度计算:提取语音信号的包络,采集n个采集点的语音强度值作为特征向量,使用DTW算法计算语调相似度,实现如下:dist是采集信号与标准信号的DTW相似度参数,a和b通过训练得出;判断语调相似度与阈值的大小,若重读相似度小于阈值Similarityyd0,则认为发音不准确;计算学习者重读发音的器官行为与标准器官形态行为的差异值Differencexw3,计算实现如下:其中, 表示语调的标准器官形态行为, 表示学习者不准确语调的发音器官形态行为,学习者发音器官行为的计算为: , 表示抽样的语音信号强度包络的离散点作为一个向量, 表示语调特征向器官映射的系数向量;
步骤S4.根据音素、重读、词间停顿和语调相似度计算学习者对句子发音的综合评分,判断学习者句子发音的综合得分,并反馈给学习者。
2.如权利要求1所述的一种基于偏差器官形态行为可视化的口语学习矫正方法,其特征在于所述步骤S4包括:综合音素、重读、词间停顿和语调对学习者的发音进行准确度评分,每个指标对评分的影响权重为 ,综合评分计算如下:其中,Similarity1代表Similarityys,Similarity2代表Similarityzhd,Similarity3代表Similaritytd, Similarity4代表Similarityyd。
3.如权利要求1所述的一种基于偏差器官形态行为可视化的口语学习矫正方法,其特征在于所述步骤S1包括:提取特征,求单词和音素的Mel倒频谱系数;
Mel特征提取过程:
1)先对语音进行预加重、分帧和加窗;
2)对每一个短时分析窗,通过离散傅里叶变换DFT得到对应的频谱,实现如下:
3)将上面的频谱通过Mel滤波器组得到Mel频谱;
梅尔滤波器第一个得到 0Hz 附近的能量,越往后的滤波器频带越宽,根据梅尔尺度Mel scale设置每一个滤波器,频率到梅尔尺度Mel scale转换公式为:梅尔尺度转为频率, 转换成梅尔频率后,计算40个滤波器的梅尔频率分布,然后把梅尔频率转换成实际频率,如下公式:根据以下公式,计算滤波器的输出,m为滤波器的个数:
4)在Mel频谱上面进行倒谱分析,即取对数,做逆变换,取DCT后的第2个到第13个系数作为MFCC系数,获得Mel频率倒谱系数MFCC: 根据发音时长对语音信号进行分段聚类,得到每个单词的Mel倒频谱系数,其中第i段的语音信号的Mel倒频谱系数如下:M(k)表示第k个单词的Mel倒频谱系数,tk表示第k个单词的发音时长;
经过分段聚类后每个单词将由一个Mel倒频谱系数的特征向量集合表示,求音素的Mel倒频谱系数:建立标准音素的Mel倒频谱系数表,将每个单词的Mel倒频谱系数的特征向量集合与标准音素的Mel倒频谱系数进行匹配从而切割每个单词成音素Mel倒频谱系数的组成。
说明书 :
基于偏差器官形态行为可视化的口语学习矫正方法
技术领域
背景技术
升调、降调、升降调、降升调以及平调。本法明使用DTW算法计算学习者的语调发音和标准音之间的曲线相似度来对学习者发音质量进行评分,并以可视化的方式展示给学习者错误发音对应的标准发音器官行为。
发明内容
附图说明
具体实施方式
官行为映射的系数向量。
重读的短时平均能量。如图2中的009,判断重读相似度与阈值的大小,若重读相似度小于阈值Similarityzhd0,则认为发音不准确,计算学习者重读发音的器官行为与标准器官形态行为的差异值Differencexw2,如图2中的步骤009-1,计算实现如下:
, 表示抽样的语音信号强度包络的离散点作为一个向量, 表示语调特征向器官映射的系数向量。