一种语音质量评估方法及装置转让专利
申请号 : CN201711462465.9
文献号 : CN109979486B
文献日 : 2021-07-09
发明人 : 梁立涛 , 王刚 , 侯普
申请人 : 中国移动通信集团北京有限公司 , 中国移动通信集团公司
摘要 :
权利要求 :
1.一种语音质量评估方法,其特征在于,包括:对待评估信号进行声道建模,得到所述待评估信号的第一特征标识,所述第一特征标识用于指示所述待评估信号的声道特征;
对所述待评估信号进行话音重建,得到重建后的恢复信号,通过比较所述待评估信号和所述恢复信号的差异,得到所述待评估信号的第二特征标识;
提取所述待评估信号中的失真标识,作为所述待评估信号的第三特征标识;其中,所述待评估信号的特征标识集包含所述第一特征标识、所述第二特征标识和所述第三特征标识,所述特征标识集用于指示所述待评估信号的特征;
对所述特征标识集进行整合重建,得到强特征标识集;
将所述强特征标识集输入感知映射模型,确定所述待评估信号的质量评估值,所述感知映射模型用于指示所述待评估信号的特征与质量评估值的映射关系。
2.如权利要求1所述的方法,其特征在于,所述第一特征标识包括发音腔系数、线性预测系数和倒谱系数;
所述第二特征标识包含话音基本质量、加性噪声和乘性噪声;
所述第三特征标识包含语音中断时长、静音时长和电平骤降。
3.如权利要求1或2所述的方法,其特征在于,将所述特征标识集进行整合重建,得到强特征标识集,具体包括:
对所述特征标识集进行归一化处理;
对经过所述归一化处理的所述特征标识集进行标识冗余校验;
对经过所述标识冗余校验的所述特征标识集进行重组,得到所述强特征标识集,所述强特征标识集符合所述感知映射模型的输入需求。
4.如权利要求3所述的方法,其特征在于,针对所述特征标识集中的任一特征标识x,采用如下公式对所述特征标识集进行归一化处理:其中,x'为x经过所述归一化处理后得到的特征标识, 是所有样本中与x属于同一类型的特征标识的数值的平均值,S为所有样本中与x属于同一类型的特征标识的数值的标准差。
5.如权利要求4所述的方法,其特征在于,对经过所述归一化处理的所述特征标识集进行标识冗余校验,具体包括:
对经过所述归一化处理的所述特征标识集中包含的多个特征标识分别进行互信息校验,得到所述多个特征标识分别对应的互信息值;
选取所述多个特征标识中互信息值大于预设值的至少一个特征标识;或者,选择所述多个特征标识中互信息值按照从大到小的顺序排列在前N个的N个特征标识,N≥1。
6.如权利要求1或2所述的方法,其特征在于,将所述强特征标识集输入所述感知映射模型,确定所述待评估信号的质量评估值,具体包括:将所述强特征标识集输入所述感知映射模型,所述感知映射模型包含多个决策树以及与所述多个决策树一一对应的多个权重值;
分别根据所述多个决策树和所述强特征标识得到多个评估结果;
分别将所述多个评估结果与对应的所多个权重值进行加权求和运算,确定所述待评估信号的质量评估值。
7.如权利要求6所述的方法,其特征在于,在分别根据所述多个决策树和所述强特征标识得到多个评估结果之前,还包括:针对所述多个决策树中的任一决策树,通过如下步骤对所述决策树进行模型训练:设定损失函数为 其中,yi是训练样本中语音信号的平均主观意见得分MOS值,xi是所述决策树的预测输入值,a和b为所述决策树的待训练参数,a+b·xi为根据所述决策树和所述预测输入值得到的所述语音信号的质量评估值;
根据所述损失函数对待训练参数进行训练,将本次训练得到的待训练参数作为下一次模型训练的输入,从而修正待训练参数。
8.一种语音质量评估装置,其特征在于,包括:提取模块,用于对待评估信号进行声道建模,得到所述待评估信号的第一特征标识,所述第一特征标识用于指示所述待评估信号的声道特征;对所述待评估信号进行话音重建,得到重建后的恢复信号,通过比较所述待评估信号和所述恢复信号的差异,得到所述待评估信号的第二特征标识;提取所述待评估信号中的失真标识,作为所述待评估信号的第三特征标识;其中,所述待评估信号的特征标识集包含所述第一特征标识、所述第二特征标识和所述第三特征标识,所述特征标识集用于指示所述待评估信号的特征;
整合重建模块,用于对所述特征标识集进行整合重建,得到强特征标识集;
确定模块,用于将所述强特征标识集输入感知映射模型,确定所述待评估信号的质量评估值,所述感知映射模型用于指示所述待评估信号的特征与质量评估值的映射关系。
9.如权利要求8所述的装置,其特征在于,所述第一特征标识包括发音腔系数、线性预测系数和倒谱系数;
所述第二特征标识包含话音基本质量、加性噪声和乘性噪声;
所述第三特征标识包含语音中断时长、静音时长和电平骤降。
10.如权利要求8或9所述的装置,其特征在于,所述整合重建模块在将所述特征标识集进行整合重建,得到强特征标识集时,具体用于:对所述特征标识集进行归一化处理;
对经过所述归一化处理的所述特征标识集进行标识冗余校验;
对经过所述标识冗余校验的所述特征标识集进行重组,得到所述强特征标识集,所述强特征标识集符合所述感知映射模型的输入需求。
11.如权利要求10所述的装置,其特征在于,所述整合重建模块在针对所述特征标识集中的任一特征标识x时,采用如下公式对所述特征标识集进行归一化处理:其中,x'为x经过所述归一化处理后得到的特征标识, 是所有样本中与x属于同一类型的特征标识的数值的平均值,S为所有样本中与x属于同一类型的特征标识的数值的标准差。
12.如权利要求11所述的装置,其特征在于,所述整合重建模块在对经过所述归一化处理的所述特征标识集进行标识冗余校验时,具体用于:对经过所述归一化处理的所述特征标识集中包含的多个特征标识分别进行互信息校验,得到所述多个特征标识分别对应的互信息值;
选取所述多个特征标识中互信息值大于预设值的至少一个特征标识;或者,选择所述多个特征标识中互信息值按照从大到小的顺序排列在前N个的N个特征标识,N≥1。
13.如权利要求8或9所述的装置,其特征在于,所述确定模块在将所述强特征标识集输入所述感知映射模型,确定所述待评估信号的质量评估值时,具体用于:将所述强特征标识集输入所述感知映射模型,所述感知映射模型包含多个决策树以及与所述多个决策树一一对应的多个权重值;
分别根据所述多个决策树和所述强特征标识得到多个评估结果;
分别将所述多个评估结果与对应的所多个权重值进行加权求和运算,确定所述待评估信号的质量评估值。
14.如权利要求13所述的装置,其特征在于,还包括:模型训练模块,用于在所述确定模块分别根据所述多个决策树和所述强特征标识得到多个评估结果之前,针对所述多个决策树中的任一决策树,通过如下步骤对所述决策树进行模型训练:
设定损失函数为 其中,yi是训练样本中语音信号的平均主观意见得分MOS值,xi是所述决策树的预测输入值,a和b为所述决策树的待训练参数,a+b·xi为根据所述决策树和所述预测输入值得到的所述语音信号的质量评估值;
根据所述损失函数对待训练参数进行训练,将本次训练得到的待训练参数作为下一次模型训练的输入,从而修正待训练参数。
15.一种计算装置,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行权利要求1~7任一权利要求所述方法的步骤。
16.一种计算机可读介质,其特征在于,其存储有可由计算装置执行的计算机程序,当所述程序在计算装置上运行时,使得所述计算装置执行权利要求1~7任一所述方法的步骤。
说明书 :
一种语音质量评估方法及装置
技术领域
背景技术
系统传输后带有网络失真的接收语音信号),从而得知损伤信号与真实信号之间的差异,并
以此为凭据对损伤信号的等级进行划分。常见的全参考语音评价标准有ITU‑T P.862
(Perceptual evaluation of speech quality,PESQ)、ITU‑T P.863(Perceptual
Objective Listening Quality Analysis,POLQA)等。
话过程的质量,灵活性和普遍适用性不足。
发明内容
合重建,得到强特征标识集;将强特征标识集输入感知映射模型,确定待评估信号的质量评
估值,感知映射模型用于指示待评估信号的特征与质量评估值的映射关系。
估信号进行话音重建,得到重建后的恢复信号,通过比较待评估信号和恢复信号的差异,得
到待评估信号的第二特征标识;提取待评估信号中的失真标识,作为待评估信号的第三特
征标识;其中,特征标识集包含第一特征标识、第二特征标识和第三特征标识。
平骤降。
校验的特征标识集进行重组,得到强特征标识集,强特征标识集符合感知映射模型的输入
需求。
差。
别对应的互信息值;选取多个特征标识中互信息值大于预设值的至少一个特征标识;或者,
选择多个特征标识中互信息值按照从大到小的顺序排列在前N个的N个特征标识,N≥1。
树一一对应的多个权重值;分别根据多个决策树和强特征标识得到多个评估结果;分别将
多个评估结果与对应的所多个权重值进行加权求和运算,确定待评估信号的质量评估值。
其中,yi是训练样本中语音信号的平均主观意见得分MOS
值,xi是决策树的预测输入值,a和b为决策树的待训练参数,a+b·xi为根据决策树和预测输
入值得到的语音信号的质量评估值;根据损失函数对待训练参数进行训练,将本次训练得
到的待训练参数作为下一次模型训练的输入,从而修正待训练参数。
用于对特征标识集进行整合重建,得到强特征标识集;确定模块,用于将强特征标识集输入
感知映射模型,确定待评估信号的质量评估值,感知映射模型用于指示待评估信号的特征
与质量评估值的映射关系。
特征;对待评估信号进行话音重建,得到重建后的恢复信号,通过比较待评估信号和恢复信
号的差异,得到待评估信号的第二特征标识;提取待评估信号中的失真标识,作为待评估信
号的第三特征标识;其中,特征标识集包含第一特征标识、第二特征标识和第三特征标识。
平骤降。
对经过标识冗余校验的特征标识集进行重组,得到强特征标识集,强特征标识集符合感知
映射模型的输入需求。
差。
得到多个特征标识分别对应的互信息值;选取多个特征标识中互信息值大于预设值的至少
一个特征标识;或者,选择多个特征标识中互信息值按照从大到小的顺序排列在前N个的N
个特征标识,N≥1。
及与多个决策树一一对应的多个权重值;分别根据多个决策树和强特征标识得到多个评估
结果;分别将多个评估结果与对应的所多个权重值进行加权求和运算,确定待评估信号的
质量评估值。
树进行模型训练:设定损失函数为 其中,yi是训练样本中
语音信号的平均主观意见得分MOS值,xi是决策树的预测输入值,a和b为决策树的待训练参
数,a+b·xi为根据决策树和预测输入值得到的语音信号的质量评估值;根据损失函数对待
训练参数进行训练,将本次训练得到的待训练参数作为下一次模型训练的输入,从而修正
待训练参数。
重建操作,可以得到对待评估信号的描述能力更强的强特征标识集;最后,通过感知映射模
型的映射,可以将强特征标识集映射成一个待评估信号的质量评估值。采用本发明实施例
提供的语音质量评估方法可以在不需要发送端信号、不需要进行人群测试的情况下得到与
MOS值相同或相近的待评估信号的质量评估值,该方法具有灵活性和普遍适用性。
书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
具体实施方式
分,并需要保证一定的实验环境,同时需要考虑志愿者的职业、性别、年龄等因素。人群测试
的打分结果一般称为MOS(Mean Opinion Score,平均主观意见得分),分值在0‑5分之间。一
般认为主观评价的得分是最真实可靠的数据。客观评价则是通过在语音信号和主观评价得
到的MOS之间建立相应的感知映射模型来得到语音信号的质量评估值。由于人群测试的精
力消耗巨大,在实际使用中仍然以客观评价为主。
明中的实施例及实施例中的特征可以相互组合。
号的声道特征;对待评估信号进行话音重建,得到重建后的恢复信号,通过比较待评估信号
和恢复信号的差异,得到待评估信号的第二特征标识;提取待评估信号中的失真标识,作为
待评估信号的第三特征标识。其中,特征标识集包含第一特征标识、第二特征标识和第三特
征标识。
电平骤降。
他标识;第二特征标识中还可包含除话音基本质量、加性噪声和乘性噪声之外的其他标识;
第三特征标识中还可包含除语音中断时长、静音时长和电平骤降之外的其他标识。
非自然的哔哔声等因素。这种话音失真会表现在待评估信号的波形上,如机器化噪声会使
信号的浊音部分具有高度周期性,从而使声音听上去机械化,而非自然的哔哔声会导致频
谱出现不平滑的峰值,帧重复则会导致信号重叠。
状态和变化表示待评估信号的失真。
由于基音周期具有时变性和准周期性,对其中的语音部分使用短时自相关函数法提取极大
值位置来确定基音周期,根据基音周期来标记浊音部分的音高位置,然后对语音信号上的
音高标记做舒尔回归来计算线性预测系数和映射系数,声道截面矩阵可以根据映射系数求
解,将声道以8个串联的声管建模,根据声管面积得到发音腔系数矩阵。
号的集中程度,偏态系数可以表征待评估信号的偏斜程度。
以提取出话音基本质量和噪声干扰(加性噪声、乘性噪声)等第二特征标识。通过衡量待评
估信号和恢复信号可以量化出当前待评估信号被损伤的程度。其中,语音评价模型可基于
P.862算法修改得到。通过语音评价模型将失真信号(即待评估信号)和准原始信号(即恢复
信号)转换到感知域,在感知域上基于两种信号的差异可以计算话音基本质量。
及10阶线性预测系数;修改线性预测系数,使其符合典型的人类声道模型特征;通过切比雪
夫多项式将线性预测系数转变为线谱频率(Line Spectrum Frequency,LSF)表示,使用4阶
滑动平均(Moving Average,MA)预测方法对LSF参数做量化,利用量化系数完成话音重建。
这通过这种方法可以检测到待评估信号中的话音基本质量,因此其结果反应待评估信号的
整体失真情况。对于反应具体话音失真的第二特征标识,如加性噪声和乘性噪声,则需要其
他具体的算法来计算。
包、断续、单通情况,而是通过评价用户最终接收到的待评估信号的话音质量来侧面反映网
络质量。
的话音无法被连接成完整的句子。
估信号的中断。单词正常结束时,话音帧的电平会从最大值逐渐衰弱,而中断会导致话音信
息直接消失。示例性地,确定语音中断时长的方法可以如图4所示:针对连续两个32ms的话
音帧,移除其中的直流分量;然后计算话音帧的基音周期,并根据基音周期的大小将话音帧
分成更小的子帧;机损每个子帧的电平最大值,判断可能的中断帧;计算可能的中断帧的平
均级别,作为判断的阈值;根据得到的阈值判断中断帧,并得到语音中断时长。
判断静音段的起点和终点,从而得到静音时长。
前后帧的功率比可以判断待评估信号在何处发生了电平骤降。
征标识集,便于后续确定待评估信号的质量评估值时进行使用和处理。
验;对经过标识冗余校验的特征标识集进行重组,得到强特征标识集,强特征标识集符合感
知映射模型的输入需求。
进行比较。这些,从数学角度来看,可以认为是把有量纲变成了无量纲了。对特征标识集进
行归一化处理,就是将所有特征标识集中包含的所有特征标识无量纲化,便于使用和处理。
差。
的特征标识可以有如下理解:若x标识加性噪声这一特征标识,假设数据库中有1000个样
本,每个样本记录有一个语音信号的特征标识集以及该语音信号的MOS值,由于每个语音信
号的特征标识集中均包含该信号的加性噪声,那么数据库中就记录有1000个加性噪声的数
值。X可以是这1000个加性噪声的数值的平均值,S可以是这1000个加性噪声的数值的标准
差。
以及实网中的VoLTE信号的特征标识集。
了使得不同的特征标识在同一度量单位上参与信号评估计算,需要对特征标识x进行规范
化处理,通过函数变换将特征标识x映射到某个数值区间。
大值。
式将数值一一映射到0到1区间内。
的、冗余的特征标识,即简化特征标识集,增强特征标识集对待评估信号的描述能力。例如,
特征标识集中静音、语音中断、不自然声音、乘性噪声等参数在大部分样本中为零,因此可
以舍弃。
按照从大到小的顺序排列在前N个的N个特征标识,N≥1,将该N个特征标识作为经过标识冗
余校验的特征标识集。
征标识集中I值较大的16个特征标识做保留,丢弃其他信息含量低的特征标识。
50的样本点总样本数的90%;
离对称的程度;
形式,便于通过感知映射模型进行映射运算,实现对待评估信号的质量评估。
1所示的客观评价的方法,可以在不进行人群测试的情况下得到与MOS值相同或接近的质量
评估值。
以及与多个决策树一一对应的多个权重值;分别根据多个决策树和强特征标识得到多个评
估结果;分别将多个评估结果与对应的所多个权重值进行加权求和运算,确定待评估信号
的质量评估值。
映射性能做出优化。映射采用的决策树可以使用机器学习等方法来获得。
就被认为是泛化能力较强的算法。GBDT的思想使其具有天然优势,可以发现多种有区分性
的特征以及特征组合。在业界中被广泛使用。使用GBDT算法对待评估信号的特征标识集进
行建模分析,其过程示例可如图5所示。
b·xi为根据决策树和预测输入值得到的语音信号的质量评估值;根据损失函数对待训练
参数进行训练,将本次训练得到的待训练参数作为下一次模型训练的输入,从而修正待训
练参数。
不限于a和b两个。
求和得到:
重建操作,可以得到对待评估信号的描述能力更强的强特征标识集;最后,通过感知映射模
型的映射,可以将强特征标识集映射成一个待评估信号的质量评估值。采用本发明实施例
提供的语音质量评估方法可以在不需要发送端信号、不需要进行人群测试的情况下得到与
MOS值相同或相近的待评估信号的质量评估值,该方法具有灵活性和普遍适用性。
问题的原理与图1所示的语音质量评估方法相似,因此该语音质量评估装置的实施可以参
见方法的实施,重复之处不再赘述。
声道特征;对待评估信号进行话音重建,得到重建后的恢复信号,通过比较待评估信号和恢
复信号的差异,得到待评估信号的第二特征标识;提取待评估信号中的失真标识,作为待评
估信号的第三特征标识;其中,特征标识集包含第一特征标识、第二特征标识和第三特征标
识。
平骤降。
校验;对经过标识冗余校验的特征标识集进行重组,得到强特征标识集,强特征标识集符合
感知映射模型的输入需求。
差。
验,得到多个特征标识分别对应的互信息值;选取多个特征标识中互信息值大于预设值的
至少一个特征标识;或者,选择多个特征标识中互信息值按照从大到小的顺序排列在前N个
的N个特征标识,N≥1。
以及与多个决策树一一对应的多个权重值;分别根据多个决策树和强特征标识得到多个评
估结果;分别将多个评估结果与对应的所多个权重值进行加权求和运算,确定待评估信号
的质量评估值。
决策树进行模型训练:
b·xi为根据决策树和预测输入值得到的语音信号的质量评估值;
置相同的装置。
围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公
知的,因此,本文不再对其进行进一步描述。总线接口提供接口。处理器801负责管理总线架
构和通常的处理,存储器802可以存储处理器801在执行操作时所使用的数据。
形式的指令完成。处理器801可以是通用处理器、数字信号处理器、专用集成电路、现场可编
程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现
或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器
或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处
理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机
存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领
域成熟的存储介质中。该存储介质位于存储器802,处理器801读取存储器802中的信息,结
合其硬件完成信号处理流程的步骤。
施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产
品的形式。
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
选实施例以及落入本发明范围的所有变更和修改。
之内,则本发明也意图包含这些改动和变型在内。