一种语音质量评估方法及装置转让专利

申请号 : CN201711462465.9

文献号 : CN109979486B

文献日 : 2021-07-09

相似专利: 请登录后查看

一种语音质量评估方法及装置，用以在进行语音质量评估时提高灵活性和普遍适用性。方法包括：提取待评估信号的特征标识集，特征标识集用于指示待评估信号的特征；对特征标识集进行整合重建，得到强特征标识集；将强特征标识集输入感知映射模型，确定待评估信号的质量评估值，感知映射模型用于指示待评估信号的特征与质量评估值的映射关系。

1.一种语音质量评估方法，其特征在于，包括：对待评估信号进行声道建模，得到所述待评估信号的第一特征标识，所述第一特征标识用于指示所述待评估信号的声道特征；

对所述待评估信号进行话音重建，得到重建后的恢复信号，通过比较所述待评估信号和所述恢复信号的差异，得到所述待评估信号的第二特征标识；

提取所述待评估信号中的失真标识，作为所述待评估信号的第三特征标识；其中，所述待评估信号的特征标识集包含所述第一特征标识、所述第二特征标识和所述第三特征标识，所述特征标识集用于指示所述待评估信号的特征；

对所述特征标识集进行整合重建，得到强特征标识集；

将所述强特征标识集输入感知映射模型，确定所述待评估信号的质量评估值，所述感知映射模型用于指示所述待评估信号的特征与质量评估值的映射关系。

2.如权利要求1所述的方法，其特征在于，所述第一特征标识包括发音腔系数、线性预测系数和倒谱系数；

所述第二特征标识包含话音基本质量、加性噪声和乘性噪声；

所述第三特征标识包含语音中断时长、静音时长和电平骤降。

3.如权利要求1或2所述的方法，其特征在于，将所述特征标识集进行整合重建，得到强特征标识集，具体包括：

对所述特征标识集进行归一化处理；

对经过所述归一化处理的所述特征标识集进行标识冗余校验；

对经过所述标识冗余校验的所述特征标识集进行重组，得到所述强特征标识集，所述强特征标识集符合所述感知映射模型的输入需求。

4.如权利要求3所述的方法，其特征在于，针对所述特征标识集中的任一特征标识x，采用如下公式对所述特征标识集进行归一化处理：其中，x'为x经过所述归一化处理后得到的特征标识，是所有样本中与x属于同一类型的特征标识的数值的平均值，S为所有样本中与x属于同一类型的特征标识的数值的标准差。

5.如权利要求4所述的方法，其特征在于，对经过所述归一化处理的所述特征标识集进行标识冗余校验，具体包括：

对经过所述归一化处理的所述特征标识集中包含的多个特征标识分别进行互信息校验，得到所述多个特征标识分别对应的互信息值；

选取所述多个特征标识中互信息值大于预设值的至少一个特征标识；或者，选择所述多个特征标识中互信息值按照从大到小的顺序排列在前N个的N个特征标识，N≥1。

6.如权利要求1或2所述的方法，其特征在于，将所述强特征标识集输入所述感知映射模型，确定所述待评估信号的质量评估值，具体包括：将所述强特征标识集输入所述感知映射模型，所述感知映射模型包含多个决策树以及与所述多个决策树一一对应的多个权重值；

分别根据所述多个决策树和所述强特征标识得到多个评估结果；

分别将所述多个评估结果与对应的所多个权重值进行加权求和运算，确定所述待评估信号的质量评估值。

7.如权利要求6所述的方法，其特征在于，在分别根据所述多个决策树和所述强特征标识得到多个评估结果之前，还包括：针对所述多个决策树中的任一决策树，通过如下步骤对所述决策树进行模型训练：设定损失函数为其中，yi是训练样本中语音信号的平均主观意见得分MOS值，xi是所述决策树的预测输入值，a和b为所述决策树的待训练参数，a+b·xi为根据所述决策树和所述预测输入值得到的所述语音信号的质量评估值；

根据所述损失函数对待训练参数进行训练，将本次训练得到的待训练参数作为下一次模型训练的输入，从而修正待训练参数。

8.一种语音质量评估装置，其特征在于，包括：提取模块，用于对待评估信号进行声道建模，得到所述待评估信号的第一特征标识，所述第一特征标识用于指示所述待评估信号的声道特征；对所述待评估信号进行话音重建，得到重建后的恢复信号，通过比较所述待评估信号和所述恢复信号的差异，得到所述待评估信号的第二特征标识；提取所述待评估信号中的失真标识，作为所述待评估信号的第三特征标识；其中，所述待评估信号的特征标识集包含所述第一特征标识、所述第二特征标识和所述第三特征标识，所述特征标识集用于指示所述待评估信号的特征；

整合重建模块，用于对所述特征标识集进行整合重建，得到强特征标识集；

确定模块，用于将所述强特征标识集输入感知映射模型，确定所述待评估信号的质量评估值，所述感知映射模型用于指示所述待评估信号的特征与质量评估值的映射关系。

9.如权利要求8所述的装置，其特征在于，所述第一特征标识包括发音腔系数、线性预测系数和倒谱系数；

所述第二特征标识包含话音基本质量、加性噪声和乘性噪声；

所述第三特征标识包含语音中断时长、静音时长和电平骤降。

10.如权利要求8或9所述的装置，其特征在于，所述整合重建模块在将所述特征标识集进行整合重建，得到强特征标识集时，具体用于：对所述特征标识集进行归一化处理；

对经过所述归一化处理的所述特征标识集进行标识冗余校验；

对经过所述标识冗余校验的所述特征标识集进行重组，得到所述强特征标识集，所述强特征标识集符合所述感知映射模型的输入需求。

11.如权利要求10所述的装置，其特征在于，所述整合重建模块在针对所述特征标识集中的任一特征标识x时，采用如下公式对所述特征标识集进行归一化处理：其中，x'为x经过所述归一化处理后得到的特征标识，是所有样本中与x属于同一类型的特征标识的数值的平均值，S为所有样本中与x属于同一类型的特征标识的数值的标准差。

12.如权利要求11所述的装置，其特征在于，所述整合重建模块在对经过所述归一化处理的所述特征标识集进行标识冗余校验时，具体用于：对经过所述归一化处理的所述特征标识集中包含的多个特征标识分别进行互信息校验，得到所述多个特征标识分别对应的互信息值；

13.如权利要求8或9所述的装置，其特征在于，所述确定模块在将所述强特征标识集输入所述感知映射模型，确定所述待评估信号的质量评估值时，具体用于：将所述强特征标识集输入所述感知映射模型，所述感知映射模型包含多个决策树以及与所述多个决策树一一对应的多个权重值；

分别根据所述多个决策树和所述强特征标识得到多个评估结果；

分别将所述多个评估结果与对应的所多个权重值进行加权求和运算，确定所述待评估信号的质量评估值。

14.如权利要求13所述的装置，其特征在于，还包括：模型训练模块，用于在所述确定模块分别根据所述多个决策树和所述强特征标识得到多个评估结果之前，针对所述多个决策树中的任一决策树，通过如下步骤对所述决策树进行模型训练：

设定损失函数为其中，yi是训练样本中语音信号的平均主观意见得分MOS值，xi是所述决策树的预测输入值，a和b为所述决策树的待训练参数，a+b·xi为根据所述决策树和所述预测输入值得到的所述语音信号的质量评估值；

根据所述损失函数对待训练参数进行训练，将本次训练得到的待训练参数作为下一次模型训练的输入，从而修正待训练参数。

15.一种计算装置，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行权利要求1～7任一权利要求所述方法的步骤。

16.一种计算机可读介质，其特征在于，其存储有可由计算装置执行的计算机程序，当所述程序在计算装置上运行时，使得所述计算装置执行权利要求1～7任一所述方法的步骤。

一种语音质量评估方法及装置

技术领域

[0001] 本发明涉及通信技术领域，尤其涉及一种语音质量评估方法及装置。

背景技术

[0002] 随着通信技术的发展，语音通信作为主要的通信手段之一，越来越多地应用于多种场景。如何对通信过程中传输的语音信号进行质量评估一直是业内的研究热点。

[0003] 现有技术中，对语音信号进行质量评估的方法通常是：采用全参考信号评估的方法，即通过比较参考信号(没有经过传输损伤的发送端的起始语音信号)和损伤信号(通信
系统传输后带有网络失真的接收语音信号)，从而得知损伤信号与真实信号之间的差异，并
以此为凭据对损伤信号的等级进行划分。常见的全参考语音评价标准有ITU‑T P.862
(Perceptual evaluation of speech quality，PESQ)、ITU‑T P.863(Perceptual
Objective Listening Quality Analysis，POLQA)等。

[0004] 在上述方法中，由于进行语音信号质量评估时需要参考信号作为参照，因此在实现时只能将评估装置集成在特定的测试仪表或设备上，只能评估特定网络位置的特定的通
话过程的质量，灵活性和普遍适用性不足。

[0005] 综上，现有的语音质量评估方法中存灵活性和普遍适用性不足的问题。

发明内容

[0006] 本发明实施例提供一种语音质量评估方法及装置，用以在进行语音质量评估时提高灵活性和普遍适用性。

[0007] 第一方面，本发明实施例提供一种语音质量评估方法，该方法包括如下步骤：提取待评估信号的特征标识集，特征标识集用于指示待评估信号的特征；对特征标识集进行整
合重建，得到强特征标识集；将强特征标识集输入感知映射模型，确定待评估信号的质量评
估值，感知映射模型用于指示待评估信号的特征与质量评估值的映射关系。

[0008] 可选地，提取待评估信号的特征标识集，具体包括：对待评估信号进行声道建模，得到待评估信号的第一特征标识，第一特征标识用于指示待评估信号的声道特征；对待评
估信号进行话音重建，得到重建后的恢复信号，通过比较待评估信号和恢复信号的差异，得
到待评估信号的第二特征标识；提取待评估信号中的失真标识，作为待评估信号的第三特
征标识；其中，特征标识集包含第一特征标识、第二特征标识和第三特征标识。

[0009] 可选地，第一特征标识包括发音腔系数、线性预测系数和倒谱系数；第二特征标识包含话音基本质量、加性噪声和乘性噪声；第三特征标识包含语音中断时长、静音时长和电
平骤降。

[0010] 可选地，将特征标识集进行整合重建，得到强特征标识集，具体包括：对特征标识集进行归一化处理；对经过归一化处理的特征标识集进行标识冗余校验；对经过标识冗余
校验的特征标识集进行重组，得到强特征标识集，强特征标识集符合感知映射模型的输入
需求。

[0011] 可选地，针对特征标识集中的任一特征标识x，采用如下公式对特征标识集进行归一化处理：

[0012]

[0013] 其中，x'为x经过归一化处理后得到的特征标识，是所有样本中与x属于同一类型的特征标识的数值的平均值，S为所有样本中与x属于同一类型的特征标识的数值的标准
差。

[0014] 可选地，对经过归一化处理的特征标识集进行标识冗余校验，具体包括：对经过归一化处理的特征标识集中包含的多个特征标识分别进行互信息校验，得到多个特征标识分
别对应的互信息值；选取多个特征标识中互信息值大于预设值的至少一个特征标识；或者，
选择多个特征标识中互信息值按照从大到小的顺序排列在前N个的N个特征标识，N≥1。

[0015] 可选地，将强特征标识集输入感知映射模型，确定待评估信号的质量评估值，具体包括：将强特征标识集输入感知映射模型，感知映射模型包含多个决策数以及与多个决策
树一一对应的多个权重值；分别根据多个决策树和强特征标识得到多个评估结果；分别将
多个评估结果与对应的所多个权重值进行加权求和运算，确定待评估信号的质量评估值。

[0016] 可选地，在分别根据多个决策树和强特征标识得到多个评估结果之前，还包括：针对多个决策树中的任一决策树，通过如下步骤对决策树进行模型训练：设定损失函数为
其中，yi是训练样本中语音信号的平均主观意见得分MOS
值，xi是决策树的预测输入值，a和b为决策树的待训练参数，a+b·xi为根据决策树和预测输
入值得到的语音信号的质量评估值；根据损失函数对待训练参数进行训练，将本次训练得
到的待训练参数作为下一次模型训练的输入，从而修正待训练参数。

[0017] 第二方面，本发明实施例提供一种语音质量评估装置，该装置包括：提取模块，用于提取待评估信号的特征标识集，特征标识集用于指示待评估信号的特征；整合重建模块，
用于对特征标识集进行整合重建，得到强特征标识集；确定模块，用于将强特征标识集输入
感知映射模型，确定待评估信号的质量评估值，感知映射模型用于指示待评估信号的特征
与质量评估值的映射关系。

[0018] 可选地，提取模块在提取待评估信号的特征标识集时，具体用于：对待评估信号进行声道建模，得到待评估信号的第一特征标识，第一特征标识用于指示待评估信号的声道
特征；对待评估信号进行话音重建，得到重建后的恢复信号，通过比较待评估信号和恢复信
号的差异，得到待评估信号的第二特征标识；提取待评估信号中的失真标识，作为待评估信
号的第三特征标识；其中，特征标识集包含第一特征标识、第二特征标识和第三特征标识。

[0019] 可选地，第一特征标识包括发音腔系数、线性预测系数和倒谱系数；第二特征标识包含话音基本质量、加性噪声和乘性噪声；第三特征标识包含语音中断时长、静音时长和电
平骤降。

[0020] 可选地，整合重建模块在将特征标识集进行整合重建，得到强特征标识集时，具体用于：对特征标识集进行归一化处理；对经过归一化处理的特征标识集进行标识冗余校验；
对经过标识冗余校验的特征标识集进行重组，得到强特征标识集，强特征标识集符合感知
映射模型的输入需求。

[0021] 可选地，整合重建模块在针对特征标识集中的任一特征标识x时，采用如下公式对特征标识集进行归一化处理：

[0022]

[0023] 其中，x'为x经过归一化处理后得到的特征标识，是所有样本中与x属于同一类型的特征标识的数值的平均值，S为所有样本中与x属于同一类型的特征标识的数值的标准
差。

[0024] 可选地，整合重建模块在对经过归一化处理的特征标识集进行标识冗余校验时，具体用于：对经过归一化处理的特征标识集中包含的多个特征标识分别进行互信息校验，
得到多个特征标识分别对应的互信息值；选取多个特征标识中互信息值大于预设值的至少
一个特征标识；或者，选择多个特征标识中互信息值按照从大到小的顺序排列在前N个的N
个特征标识，N≥1。

[0025] 可选地，确定模块在将强特征标识集输入感知映射模型，确定待评估信号的质量评估值时，具体用于：将强特征标识集输入感知映射模型，感知映射模型包含多个决策数以
及与多个决策树一一对应的多个权重值；分别根据多个决策树和强特征标识得到多个评估
结果；分别将多个评估结果与对应的所多个权重值进行加权求和运算，确定待评估信号的
质量评估值。

[0026] 可选地，该装置还包括：模型训练模块，用于在确定模块分别根据多个决策树和强特征标识得到多个评估结果之前，针对多个决策树中的任一决策树，通过如下步骤对决策
树进行模型训练：设定损失函数为其中，yi是训练样本中
语音信号的平均主观意见得分MOS值，xi是决策树的预测输入值，a和b为决策树的待训练参
数，a+b·xi为根据决策树和预测输入值得到的语音信号的质量评估值；根据损失函数对待
训练参数进行训练，将本次训练得到的待训练参数作为下一次模型训练的输入，从而修正
待训练参数。

[0027] 第三方面，提供一种通信装置，包括处理器、存储器和收发机；处理器，用于读取存储器中的程序，执行上述任一方法的步骤。

[0028] 第四方面，提供一种计算机存储介质，计算机存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行上述任一方法的步骤。

[0029] 采用本发明实施例提供的语音质量评估方法，通过提取待评估信号的特征标识集，可以得到表征待评估信号的特征；通过对特征标识集进行归一化、去冗余和重组等整合
重建操作，可以得到对待评估信号的描述能力更强的强特征标识集；最后，通过感知映射模
型的映射，可以将强特征标识集映射成一个待评估信号的质量评估值。采用本发明实施例
提供的语音质量评估方法可以在不需要发送端信号、不需要进行人群测试的情况下得到与
MOS值相同或相近的待评估信号的质量评估值，该方法具有灵活性和普遍适用性。

[0030] 本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明
书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

[0031] 图1为本发明实施例提供的一种语音质量评估方法的流程示意图；

[0032] 图2为本发明实施例提供的一种提取第一特征标识的方法示意图；

[0033] 图3为本发明实施例提供的一种确定第二特征标识的方法示意图；

[0034] 图4为本发明实施例提供的一种确定语音中断时长的方法示意图；

[0035] 图5为本发明实施例提供的一种使用GBDT算法对待评估信号的特征标识集进行建模分析的流程示意图；

[0036] 图6为本发明实施例提供的一种确定待评估信号的质量评估值的方法流程图；

[0037] 图7为本发明实施例提供的一种语音质量评估装置的结构示意图；

[0038] 图8为本发明实施例提供的另一种语音质量评估装置的结构示意图。

具体实施方式

[0039] 现有技术中，从语音信号的评价测试手段来说，语音信号的质量评估可分为两大类：主观评价和客观评价。主观评价又称为人群测试，通过召集志愿者对待测语音进行打
分，并需要保证一定的实验环境，同时需要考虑志愿者的职业、性别、年龄等因素。人群测试
的打分结果一般称为MOS(Mean Opinion Score,平均主观意见得分)，分值在0‑5分之间。一
般认为主观评价的得分是最真实可靠的数据。客观评价则是通过在语音信号和主观评价得
到的MOS之间建立相应的感知映射模型来得到语音信号的质量评估值。由于人群测试的精
力消耗巨大，在实际使用中仍然以客观评价为主。

[0040] 本发明实施例提供的语音质量评估方法从语音信号的评价测试手段来说，属于客观评价。

[0041] 以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本发
明中的实施例及实施例中的特征可以相互组合。

[0042] 如图1所示，其为本发明实施例提供的语音质量评估方法的流程示意图，可以包括以下步骤：

[0043] S101：提取待评估信号的特征标识集。

[0044] 本发明实施例中，待评估信号的类型可以有多种。示例性地，待评估信号可以是VoLTE信号。

[0045] 其中，特征标识集用于指示待评估信号的特征。

[0046] 示例性地，特征标识集包括但不限于发音腔系数、线性预测系数、倒谱系数、话音基本质量、加性噪声、乘性噪声、语音中断时长、静音时长和电平骤降。

[0047] 具体地，S101中提取待评估信号的特征标识集，具体可通过如下方式实现：对待评估信号进行声道建模，得到待评估信号的第一特征标识，第一特征标识用于指示待评估信
号的声道特征；对待评估信号进行话音重建，得到重建后的恢复信号，通过比较待评估信号
和恢复信号的差异，得到待评估信号的第二特征标识；提取待评估信号中的失真标识，作为
待评估信号的第三特征标识。其中，特征标识集包含第一特征标识、第二特征标识和第三特
征标识。

[0048] 示例性地，第一特征标识包括发音腔系数、线性预测系数和倒谱系数；第二特征标识包含话音基本质量、加性噪声和乘性噪声；第三特征标识包含语音中断时长、静音时长和
电平骤降。

[0049] 需要说明的是，第一特征标识、第二特征标识和第三特征标识不限于上述举例中列举的标识。第一特征标识中还可包含除发音腔系数、线性预测系数和倒谱系数之外的其
他标识；第二特征标识中还可包含除话音基本质量、加性噪声和乘性噪声之外的其他标识；
第三特征标识中还可包含除语音中断时长、静音时长和电平骤降之外的其他标识。

[0050] 下面分别详细介绍如何得到待评估信号的第一特征标识、第二特征标识和第三特征标识。

[0051] 一、对待评估信号进行声道建模，得到待评估信号的第一特征标识

[0052] 首先根据人类的声音产生系统对待评估信号进行声道建模，得到待评估信号的声道特征并分析不自然变化造成的话音失真，其中不自然的变化包括机器化噪声、帧重复和
非自然的哔哔声等因素。这种话音失真会表现在待评估信号的波形上，如机器化噪声会使
信号的浊音部分具有高度周期性，从而使声音听上去机械化，而非自然的哔哔声会导致频
谱出现不平滑的峰值，帧重复则会导致信号重叠。

[0053] 由于人的声道形状变化是通过肌肉控制的，对于非失真话音，声道参数变化较为平缓；而遇到失真话音时，声道参数变化会显得不自然，待评估信号的声道模型中的不合理
状态和变化表示待评估信号的失真。

[0054] 通过声道建模提取的第一特征标识主要是基于人类的发声系统。示例性地，一种提取第一特征标识的方法可参见图2所示。首先对预处理后的待评估信号做语音活动检测，
由于基音周期具有时变性和准周期性，对其中的语音部分使用短时自相关函数法提取极大
值位置来确定基音周期，根据基音周期来标记浊音部分的音高位置，然后对语音信号上的
音高标记做舒尔回归来计算线性预测系数和映射系数，声道截面矩阵可以根据映射系数求
解，将声道以8个串联的声管建模，根据声管面积得到发音腔系数矩阵。

[0055] 除了计算发音腔系数矩阵等声道特征标识外，还可通过高阶统计方法计算线性预测系数和倒谱系数的峰态值和偏态值作为第一特征标识，其中峰态系数可以表征待评估信
号的集中程度，偏态系数可以表征待评估信号的偏斜程度。

[0056] 二、通过比较待评估信号和恢复信号的差异，得到待评估信号的第二特征标识

[0057] 对待评估信号进行话音重建，可以得到重建后的恢复信号，通过比较待评估信号和恢复信号的差异，可以得到待评估信号的第二特征标识。

[0058] 参见图3，通过比较待评估信号和恢复信号的差异，可以得到话音基本质量、加性噪声以及与信号包络相关的乘性噪声等第二特征标识。

[0059] 话音失真会引入语音不自然的失真，利用声道建模提取的第一特征标识可以恢复出一个理想的无失真语音，即恢复语音。然后，通过构建一个全参考的双端语音评价模型可
以提取出话音基本质量和噪声干扰(加性噪声、乘性噪声)等第二特征标识。通过衡量待评
估信号和恢复信号可以量化出当前待评估信号被损伤的程度。其中，语音评价模型可基于
P.862算法修改得到。通过语音评价模型将失真信号(即待评估信号)和准原始信号(即恢复
信号)转换到感知域，在感知域上基于两种信号的差异可以计算话音基本质量。

[0060] 示例性地，通过话音重建得到待评估信号中的话音基本质量等失真成分的方式可以是：对包含40个采样点的话音帧做预测分析，利用Levinson‑Durbin算法求得信号残差以
及10阶线性预测系数；修改线性预测系数，使其符合典型的人类声道模型特征；通过切比雪
夫多项式将线性预测系数转变为线谱频率(Line Spectrum Frequency，LSF)表示，使用4阶
滑动平均(Moving Average，MA)预测方法对LSF参数做量化，利用量化系数完成话音重建。
这通过这种方法可以检测到待评估信号中的话音基本质量，因此其结果反应待评估信号的
整体失真情况。对于反应具体话音失真的第二特征标识，如加性噪声和乘性噪声，则需要其
他具体的算法来计算。

[0061] 三、提取待评估信号中的失真标识，作为待评估信号的第三特征标识

[0062] 第三特征标识主要用于衡量的是信号的突变性，主要由传输过程中的丢包等因素造成的。但是，本发明实施例中，并不直接通过测量网络参数来获得网络传输过程中的丢
包、断续、单通情况，而是通过评价用户最终接收到的待评估信号的话音质量来侧面反映网
络质量。

[0063] 其中，第三特征标识中的三个重要指标是语音中断时长、静音时长和电平骤降。其中，语音中断和静音的区别是：语音中断前后的话音可以被连接成完整的语句；而静音前后
的话音无法被连接成完整的句子。

[0064] 具体地，语音中断时长是指待评估信号信息的丢失的持续时间。语音中断是通过判断单词是否正常结束来进行统计的，通过检测连续两个话音帧是否正常结束来检测待评
估信号的中断。单词正常结束时，话音帧的电平会从最大值逐渐衰弱，而中断会导致话音信
息直接消失。示例性地，确定语音中断时长的方法可以如图4所示：针对连续两个32ms的话
音帧，移除其中的直流分量；然后计算话音帧的基音周期，并根据基音周期的大小将话音帧
分成更小的子帧；机损每个子帧的电平最大值，判断可能的中断帧；计算可能的中断帧的平
均级别，作为判断的阈值；根据得到的阈值判断中断帧，并得到语音中断时长。

[0065] 具体地，静音时长是指当某部分信号的电平值很低，但是它两端的信号电平具有较高幅值的话音时长。通过设定阈值，在待评估信号中搜索电平快速衰落和上升的位置来
判断静音段的起点和终点，从而得到静音时长。

[0066] 具体地，电平骤降指的是信号电平突然的衰弱。在正常的话音信号中，电平不会有突然的衰弱，它在每个句子的开始和结尾处都应有一个自然的衔接。通过检测待评估信号
前后帧的功率比可以判断待评估信号在何处发生了电平骤降。

[0067] S102：对特征标识集进行整合重建，得到强特征标识集。

[0068] 从待评估信号直接提取出的信号特征标识集信息含量不集中，冗余信息较多，维度较大，信号描述能力较弱，难以利用。因此，可通过对待评估信号进行整合重建，得到强特
征标识集，便于后续确定待评估信号的质量评估值时进行使用和处理。

[0069] 具体地，S102中，将特征标识集进行整合重建，得到强特征标识集，可通过如下方式实现：对特征标识集进行归一化处理；对经过归一化处理的特征标识集进行标识冗余校
验；对经过标识冗余校验的特征标识集进行重组，得到强特征标识集，强特征标识集符合感
知映射模型的输入需求。

[0070] 归一化，即把不重要的，不具可比性的集合中的元素的属性去掉，保留人们关心的那些属性，这样，本来不具有可比性的对象或是事物，就可以归一，即归为一类，然后就可以
进行比较。这些，从数学角度来看，可以认为是把有量纲变成了无量纲了。对特征标识集进
行归一化处理，就是将所有特征标识集中包含的所有特征标识无量纲化，便于使用和处理。

[0071] 具体实现时，针对所述特征标识集中的任一特征标识x，可采用如下公式对特征标识集进行归一化处理：

[0072]

[0073] 其中，x'为x经过归一化处理后得到的特征标识，是所有样本中与x属于同一类型的特征标识的数值的平均值，S为所有样本中与x属于同一类型的特征标识的数值的标准
差。

[0074] 其中，样本保存在数据库中，数据库中记录有多个语音信号的特征标识集的信息，以及多个语音信号的MOS值，其中MOS值为通过人群测试获取。所有样本中与x属于同一类型
的特征标识可以有如下理解：若x标识加性噪声这一特征标识，假设数据库中有1000个样
本，每个样本记录有一个语音信号的特征标识集以及该语音信号的MOS值，由于每个语音信
号的特征标识集中均包含该信号的加性噪声，那么数据库中就记录有1000个加性噪声的数
值。X可以是这1000个加性噪声的数值的平均值，S可以是这1000个加性噪声的数值的标准
差。

[0075] 需要说明的是，本发明实施例中，若待评估信号为VoLTE信号，那么数据库也为VoLTE实网数据库，即数据库中的样本为实网中对VoLTE信号进行人群测试后得到的MOS值，
以及实网中的VoLTE信号的特征标识集。

[0076] 此外，针对特征标识集中的任一特征标识x，还可对x进行标准化处理。标准化是将x按比例缩放，使之落入一个小的特定区间。由于不同的特征标识的度量单位是不同的，为
了使得不同的特征标识在同一度量单位上参与信号评估计算，需要对特征标识x进行规范
化处理，通过函数变换将特征标识x映射到某个数值区间。

[0077] 具体实现时，针对所述特征标识集中的任一特征标识x，可采用如下公式对特征标识集进行标准化(区间缩放)处理：

[0078]

[0079] 其中，x'为x经过标准化处理后得到的特征标识，Min是所有样本中与x属于同一类型的特征标识的数值的最小值，Max为所有样本中与x属于同一类型的特征标识的数值的最
大值。

[0080] 通过上述标准化(区间缩放)处理，得到的是一个[0,1]区间的数据。因此，全局背景噪声，局部背景噪声，语音强度级别等数值较大的特征标识可以通过这种区间缩放的方
式将数值一一映射到0到1区间内。

[0081] 需要说明的是，本发明实施例中，归一化处理和标准化处理可以选择其一执行，也可以都执行。

[0082] 冗余检验(例如可以是互信息检验、相关性检验、基于树的权重大小检测等)的含义是：选出特征标识集中权重较高、特征信息含量较大、价值较高的特征标识，舍弃不重要
的、冗余的特征标识，即简化特征标识集，增强特征标识集对待评估信号的描述能力。例如，
特征标识集中静音、语音中断、不自然声音、乘性噪声等参数在大部分样本中为零，因此可
以舍弃。

[0083] 具体地，对经过归一化处理的特征标识集进行标识冗余校验，具体可通过如下方式实现：

[0084] 首先，对经过归一化处理的特征标识集中包含的多个特征标识分别进行互信息校验，得到多个特征标识分别对应的互信息值。

[0085] 然后，选取多个特征标识中互信息值大于预设值的至少一个特征标识，将该至少一个特征标识作为经过标识冗余校验的特征标识集；或者，选择多个特征标识中互信息值
按照从大到小的顺序排列在前N个的N个特征标识，N≥1，将该N个特征标识作为经过标识冗
余校验的特征标识集。

[0086] 其中，互信息校验可通过如下公式实现：

[0087]

[0088] 依次对所有特征标识做互信息检验，其中，p为概率密度函数，将特征标识的数值作为x代入到上式，将最终的MOS值作为y代入上式，最终计算出一个互信息值I。然后选择特
征标识集中I值较大的16个特征标识做保留，丢弃其他信息含量低的特征标识。

[0089] 选择的16个特征标识可以是：

[0090] 1、fSpecLevelDev。频谱等级标准差，每一活动语音帧的过窗频谱密度求标准差；

[0091] 2、fSpecLevelRange。频谱等级范围，它是从给定的分布向量计算百分位数值。*在此样本值以下的样本数占总样本数的百分比.比如样本值是50,PR＝90,意思是说,值小于
50的样本点总样本数的90％；

[0092] 3、fRelNoiseFloor。相对噪声基底，相对噪声基底的计算。噪声电平计算估计语音活动期间变化的本底噪声。用于确定估计的分段信噪比，主要由平均频谱距离计算；

[0093] 4、fNoiseLevel。噪声级别；

[0094] 5、fSnr。信噪比；

[0095] 6、fHiFreqVar。高频平坦度分析，语音高频频谱的模值的标准差；

[0096] 7、fLocalMeanDistSamp。包含背景噪声的样本占比，假设任何1s语音信号包含4个音素的开始或停止，少于四个认为包含局部背景噪声；

[0097] 8、fFinalVtpAverage。最后一个声道的平均截面；

[0098] 9、fVtpPeakTracker。声道振幅变化，声道振幅变化为每个声道矩阵最大值提取函数数组的导数平均值；

[0099] 10、fArtAverage。后腔的平均截面；

[0100] 11、fVtpVadOverlap。浊音占语音部分比例；

[0101] 12、fCepSkew。倒频谱偏度系数，倒谱偏度系数以与倒谱峰度系数相似的方式描述语音信号的失真等级。0‑1表示失真严重，2‑4表示无失真典型。倒频谱偏度系数可以反映偏
离对称的程度；

[0102] 13、fLPCSkew。LPC偏度系数，线性预测系数的偏度系数；

[0103] 14、fSpeechLevel。语音级别；

[0104] 15、fSpeechSectionLevelVar。语音级别变化，语言级别最大值和最小值差值；

[0105] 16、fBasicVoiceQualityAsym。平均语音信号频谱的非对称干扰值，用于评估基本语音质量评估，介于20HZ到120HZ之间。基本语音质量等级位于1到11之间。

[0106] 对特征标识集进行标识冗余校验后，可针对感知映射模型对特征标识集进行重组，针对感知映射模型的输入接口需求，将特征标识集重组为映射过程中可以直接使用的
形式，便于通过感知映射模型进行映射运算，实现对待评估信号的质量评估。

[0107] S103：将强特征标识集输入映射模型，确定待评估信号的质量评估值。

[0108] 其中，感知映射模型用于指示待评估信号的特征与质量评估值的映射关系。

[0109] 需要说明的是，本发明实施中，待评估信号的质量评估值可以理解为MOS‑LQO，即一种通过客观评价的、与MOS值相同或接近的、用于评价语音质量的数值。也就是说，通过图
1所示的客观评价的方法，可以在不进行人群测试的情况下得到与MOS值相同或接近的质量
评估值。

[0110] 具体地，将强特征标识集输入感知映射模型，确定待评估信号的质量评估值，具体可通过如下方式实现：将强特征标识集输入感知映射模型，感知映射模型包含多个决策数
以及与多个决策树一一对应的多个权重值；分别根据多个决策树和强特征标识得到多个评
估结果；分别将多个评估结果与对应的所多个权重值进行加权求和运算，确定待评估信号
的质量评估值。

[0111] 本发明实施例中，使用决策树可以快速并且准确的将特征标识集映射到语音质量评估的打分上。同时，使用决策树可以很方便的进行多次迭代形成渐进提升的组合树来对
映射性能做出优化。映射采用的决策树可以使用机器学习等方法来获得。

[0112] 梯度提升决策树(Gradient Boosting Decision Tree，GBDT)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来作为最终答案。它在被提出之初
就被认为是泛化能力较强的算法。GBDT的思想使其具有天然优势，可以发现多种有区分性
的特征以及特征组合。在业界中被广泛使用。使用GBDT算法对待评估信号的特征标识集进
行建模分析，其过程示例可如图5所示。

[0113] 采用决策树作为模型后，需要设计一个损失函数来不断优化模型：

[0114] 设定损失函数为其中，yi是训练样本中语音信号的平均主观意见得分MOS值，xi是决策树的预测输入值，a和b为决策树的待训练参数，a+
b·xi为根据决策树和预测输入值得到的语音信号的质量评估值；根据损失函数对待训练
参数进行训练，将本次训练得到的待训练参数作为下一次模型训练的输入，从而修正待训
练参数。

[0115] 需要说明的是，a+b·xi为一种具体示例；实际实现时，根据决策树和预测输入值得到的语音信号的质量评估值的计算公式不限定为a+b·xi，计算公式中的待训练参数也
不限于a和b两个。

[0116] 具体地，多个决策树可通过学习器进行训练，从而使得根据决策树得到的评估结果更为准确。如图6所示，待评估信号的质量评估值可以由多个学习器的评估结果进行加权
求和得到：

[0117]

[0118] 其中，为学习器的评估结果，θj为学习器的权重值。

[0119] 对于每个学习器来说，在函数空间中的优化方式可以是：

[0120]

[0121] 根据如上的函数空间中的优化可知，每次对每一个样本的训练的值为：

[0122]

[0123] 采用本发明实施例提供的语音质量评估方法，通过提取待评估信号的特征标识集，可以得到表征待评估信号的特征；通过对特征标识集进行归一化、去冗余和重组等整合
重建操作，可以得到对待评估信号的描述能力更强的强特征标识集；最后，通过感知映射模
型的映射，可以将强特征标识集映射成一个待评估信号的质量评估值。采用本发明实施例
提供的语音质量评估方法可以在不需要发送端信号、不需要进行人群测试的情况下得到与
MOS值相同或相近的待评估信号的质量评估值，该方法具有灵活性和普遍适用性。

[0124] 基于同一发明构思，本发明实施例中还分别提供了一种语音质量评估装置，该语音质量评估装置可用于执行图1所示的语音质量评估方法。由于该语音质量评估装置解决
问题的原理与图1所示的语音质量评估方法相似，因此该语音质量评估装置的实施可以参
见方法的实施，重复之处不再赘述。

[0125] 参见图7，该语音质量评估装置包括：

[0126] 提取模块701，用于提取待评估信号的特征标识集，特征标识集用于指示待评估信号的特征；

[0127] 整合重建模块702，用于对特征标识集进行整合重建，得到强特征标识集；

[0128] 确定模块703，用于将强特征标识集输入感知映射模型，确定待评估信号的质量评估值，感知映射模型用于指示待评估信号的特征与质量评估值的映射关系。

[0129] 可选地，提取模块701在提取待评估信号的特征标识集时，具体用于：对待评估信号进行声道建模，得到待评估信号的第一特征标识，第一特征标识用于指示待评估信号的
声道特征；对待评估信号进行话音重建，得到重建后的恢复信号，通过比较待评估信号和恢
复信号的差异，得到待评估信号的第二特征标识；提取待评估信号中的失真标识，作为待评
估信号的第三特征标识；其中，特征标识集包含第一特征标识、第二特征标识和第三特征标
识。

[0130] 可选地，第一特征标识包括发音腔系数、线性预测系数和倒谱系数；第二特征标识包含话音基本质量、加性噪声和乘性噪声；第三特征标识包含语音中断时长、静音时长和电
平骤降。

[0131] 可选地，整合重建模块702在将特征标识集进行整合重建，得到强特征标识集时，具体用于：对特征标识集进行归一化处理；对经过归一化处理的特征标识集进行标识冗余
校验；对经过标识冗余校验的特征标识集进行重组，得到强特征标识集，强特征标识集符合
感知映射模型的输入需求。

[0132] 可选地，整合重建模块702在针对特征标识集中的任一特征标识x时，采用如下公式对特征标识集进行归一化处理：

[0133]

[0134] 其中，x'为x经过归一化处理后得到的特征标识，是所有样本中与x属于同一类型的特征标识的数值的平均值，S为所有样本中与x属于同一类型的特征标识的数值的标准
差。

[0135] 可选地，整合重建模块702在对经过归一化处理的特征标识集进行标识冗余校验时，具体用于：对经过归一化处理的特征标识集中包含的多个特征标识分别进行互信息校
验，得到多个特征标识分别对应的互信息值；选取多个特征标识中互信息值大于预设值的
至少一个特征标识；或者，选择多个特征标识中互信息值按照从大到小的顺序排列在前N个
的N个特征标识，N≥1。

[0136] 可选地，确定模块703在将强特征标识集输入感知映射模型，确定待评估信号的质量评估值时，具体用于：将强特征标识集输入感知映射模型，感知映射模型包含多个决策数
以及与多个决策树一一对应的多个权重值；分别根据多个决策树和强特征标识得到多个评
估结果；分别将多个评估结果与对应的所多个权重值进行加权求和运算，确定待评估信号
的质量评估值。

[0137] 可选地，该装置还包括：模型训练模块，用于在确定模块703分别根据多个决策树和强特征标识得到多个评估结果之前，针对多个决策树中的任一决策树，通过如下步骤对
决策树进行模型训练：

[0138] 设定损失函数为其中，yi是训练样本中语音信号的平均主观意见得分MOS值，xi是决策树的预测输入值，a和b为决策树的待训练参数，a+
b·xi为根据决策树和预测输入值得到的语音信号的质量评估值；

[0139] 根据损失函数对待训练参数进行训练，将本次训练得到的待训练参数作为下一次模型训练的输入，从而修正待训练参数。

[0140] 为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

[0141] 基于相同的技术构思，本发明实施例还提供了一种语音质量评估装置，该语音质量评估装置可用于执行图1所示的语音质量评估方法，可以是与图7所示的语音质量评估装
置相同的装置。

[0142] 参见图8，为本发明实施例提供的语音质量评估装置的结构示意图，如图8所示，该语音质量评估装置可包括：处理器801、存储器802、收发机803以及总线接口。

[0143] 处理器801负责管理总线架构和通常的处理，存储器802可以存储处理器801在执行操作时所使用的数据。收发机803用于在处理器801的控制下接收和发送数据。

[0144] 总线架构可以包括任意数量的互联的总线和桥，具体由处理器801代表的一个或多个处理器和存储器802代表的存储器的各种电路链接在一起。总线架构还可以将诸如外
围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公
知的，因此，本文不再对其进行进一步描述。总线接口提供接口。处理器801负责管理总线架
构和通常的处理，存储器802可以存储处理器801在执行操作时所使用的数据。

[0145] 本发明实施例揭示的流程，可以应用于处理器801中，或者由处理器801实现。在实现过程中，信号处理流程的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件
形式的指令完成。处理器801可以是通用处理器、数字信号处理器、专用集成电路、现场可编
程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现
或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器
或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处
理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机
存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领
域成熟的存储介质中。该存储介质位于存储器802，处理器801读取存储器802中的信息，结
合其硬件完成信号处理流程的步骤。

[0146] 具体地，所述处理器801，用于读取存储器中的程序，执行图1所示的语音质量评估方法。

[0147] 本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产
品的形式。

[0148] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流
程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实
现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0149] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指
令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。

[0150] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。

[0151] 尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优
选实施例以及落入本发明范围的所有变更和修改。

[0152] 显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围
之内，则本发明也意图包含这些改动和变型在内。

一种语音质量评估方法及装置转让专利

申请号 : CN201711462465.9

文献号 : CN109979486B

文献日 : 2021-07-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 梁立涛 , 王刚 , 侯普

申请人 : 中国移动通信集团北京有限公司 , 中国移动通信集团公司

摘要 :

权利要求 :

说明书 :