音准评估方法、系统、设备及存储介质转让专利

申请号 : CN202310042328.9

文献号 : CN115938346B

文献日 : 2023-05-09

本公开提供一种音准评估方法、系统、设备及存储介质，包括对目标音频进行傅里叶变换后获取所述目标音频的谐波信息，确定所述谐波信息在多个时刻的频谱的全局峰值，作为候选基频；根据所述候选基频的频谱幅度值以及预设的采样窗口，确定所述候选基频中每一帧基频的信号能量；根据预设的频谱概率密度函数以及所述每一帧基频的信号能量确定所述候选基频中每一帧基频的基频熵值；基于所述信号能量、所述基频熵值以及所述候选基频，通过预设的特征提取模型提取所述候选基频的音频特征，并根据所述音频特征进行音准评估。本公开能够全面可靠地评估音频质量，提高音准评估结果的准确性。

1.一种音准评估方法，其特征在于，包括：

对目标音频进行傅里叶变换后获取所述目标音频的谐波信息，确定所述谐波信息在多个时刻的频谱的全局峰值，作为候选基频；

根据所述候选基频的频谱幅度值以及预设的采样窗口，确定所述候选基频中每一帧基频的信号能量；根据预设的频谱概率密度函数以及所述每一帧基频的信号能量确定所述候选基频中每一帧基频的基频熵值；

基于所述信号能量、所述基频熵值以及所述候选基频，通过预设的特征提取模型提取所述候选基频的音频特征，并根据所述音频特征进行音准评估，其中，所述特征提取模型基于神经网络构建，用于提取输入模型信息的特征并对特征进行分类；

所述根据所述候选基频的频谱幅度值以及预设的采样窗口，确定所述候选基频中每一帧基频的信号能量包括：根据所述候选基频的频谱幅度值，确定所述频谱幅度值对应的时间索引，结合所述时间索引，以及所述候选基频对应的能量衰减频率以及能量中心频率，确定所述频谱幅度值对应的频谱信号原子；

根据所述频谱信号原子，结合所述预设的采样窗口的频率响应，进行线性加权求和确定所述候选基频中每一帧基频的信号能量；

所述确定所述频谱幅度值对应的频谱信号原子如下公式所示：；其中，G(n)表示第n个频谱信号原子，N表示候

选基频的帧数，Xi表示第i帧候选基频的频谱幅度值，Xi (m)表示对频谱幅度值进行傅里叶变换后的结果，t表示所述频谱幅度值对应的时间索引，c表示所述候选基频对应的能量中心频率，s表示所述候选基频对应的能量衰减频率；

所述确定所述候选基频中每一帧基频的信号能量如下公式所示：；其中，E表示所述候选基频中每

一帧基频的信号能量，M表示采样数量，k表示频域点，r表示相位偏移角度，N表示候选基频的帧数，表示所述预设的采样窗口的频率响应，wj表示第j个采样点的采样尺度，u表示采样窗口大小，e表示采样频率，G(n)表示第n个频谱信号原子。

2.根据权利要求1所述的方法，其特征在于，所述根据预设的频谱概率密度函数以及所述每一帧基频的信号能量确定所述候选基频中每一帧基频的基频熵值包括：基于所述预设的频谱概率密度函数，结合所述候选基频的时域波形，将所述候选基频中每一帧基频分成多个子带，分别确定每个子带能量；

根据所述每个子带能量，以及所述每个子带能量对应的能量概率和信息熵，确定所述候选基频中每一帧基频的基频熵值。

3.根据权利要求2所述的方法，其特征在于，

所述基于所述预设的频谱概率密度函数，结合所述候选基频的时域波形，将所述候选基频中每一帧基频分成多个子带，分别确定每个子带能量如下公式所示：；其中，Ez表示子带能量，P(.)表示

频谱概率密度函数，e表示采样频率，h表示采样平滑值，H(i)表示候选基频中第i帧的时域波形，ai表示第i帧的子带阶数, N表示候选基频的帧数；

所述根据所述每个子带能量，以及所述每个子带能量对应的能量概率和信息熵，确定所述候选基频中每一帧基频的基频熵值如下公式所示：；其中，Qi表示所述候

选基频中第i帧基频的基频熵值，V(i)表示第i帧的能量概率，L(i)表示第i帧的信息熵，Ez(i)、Ez(i+1)分别表示第i帧和第i+1帧的子带能量，N表示候选基频的帧数。

4.根据权利要求1所述的方法，其特征在于，所述基于所述信号能量、所述基频熵值以及所述候选基频，通过预设的特征提取模型提取所述候选基频的音频特征，并根据所述音频特征进行音准评估包括：所述特征提取模型中所有层通过卷积滤波器分别对所述信号能量、所述基频熵值以及所述候选基频进行卷积操作，将进行卷积操作后的信号能量、所述基频熵值以及所述候选基频的参数映射到所述特征提取模型中所有层的特征图中；

将任一层的特征图以及该层以下的所有层的池化位置进行重构，并对所有层进行迭代计算，确定重构误差，并根据所述重构误差对所述特征提取模型中所有特征图和所有层的池化位置进行更新；

根据更新后的结果，通过所述特征提取模型的分类器对音频特征进行音准评估。

5.根据权利要求4所述的方法，其特征在于，在通过预设的特征提取模型提取所述候选基频的音频特征，并根据所述音频特征进行音准评估之前，还包括训练所述特征提取模型：对输入待训练特征提取模型的输入信息通过卷积稀疏编码层进行非线性分解，确定所述输入信息对应的重构信息；

根据所述重构信息与所述输入信息的重构误差，结合所述待训练特征提取模型的代价函数，确定所述待训练特征提取模型的特征图梯度；

基于所述待训练特征提取模型的特征图的层数，所述特征图梯度，所述重构误差以及预设的学习速率，对所述特征图进行池化操作，确定池化特征位置；

参考预设的收缩迭代阈值，基于所述特征图梯度以及所述池化特征位置，通过迭代优化算法对所述重构误差进行迭代优化，直至所述重构误差与所述收缩迭代阈值的关系符合预设条件。

6.一种音准评估系统，其特征在于，包括：

第一单元，用于对目标音频进行傅里叶变换后获取所述目标音频的谐波信息，确定所述谐波信息在多个时刻的频谱的全局峰值，作为候选基频；

第二单元，用于根据所述候选基频的频谱幅度值以及预设的采样窗口，确定所述候选基频中每一帧基频的信号能量；根据预设的频谱概率密度函数以及所述每一帧基频的信号能量确定所述候选基频中每一帧基频的基频熵值；

第三单元，用于基于所述信号能量、所述基频熵值以及所述候选基频，通过预设的特征提取模型提取所述候选基频的音频特征，并根据所述音频特征进行音准评估，其中，所述特征提取模型基于神经网络构建，用于提取输入模型信息的特征并对特征进行分类；

所述第二单元还用于：

根据所述候选基频的频谱幅度值，确定所述频谱幅度值对应的时间索引，结合所述时间索引，以及所述候选基频对应的能量衰减频率以及能量中心频率，确定所述频谱幅度值对应的频谱信号原子；

根据所述频谱信号原子，结合所述预设的采样窗口的频率响应，进行线性加权求和确定所述候选基频中每一帧基频的信号能量；

所述确定所述频谱幅度值对应的频谱信号原子如下公式所示：；其中，G(n)表示第n个频谱信号原子，N表示候

所述确定所述候选基频中每一帧基频的信号能量如下公式所示：；其中，E表示所述候选基频中每

7.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至5中任意一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至5中任意一项所述的方法。

音准评估方法、系统、设备及存储介质

技术领域

[0001] 本公开涉及音频识别技术领域，尤其涉及一种音准评估方法、系统、设备及存储介质。

背景技术

[0002] 在旋律提取的问题中，旋律将会被表示为一组音高序列，这组音高序列中的音是当前音乐中最突出的音。同是输出一组音高序列，旋律提取不同于音高提取的地方在于，旋律提取的输入为多音音乐，而音高提取的输入为单音音乐。多音输入就意味着伴奏音会在频谱上干扰主旋律。由于频谱的叠加，旋律识别的问题要比单音音高提取困难。

[0003] 现有的旋律识别方法可以分为两类：基于信号处理的方法和基于统计学的方法。基于信号处理的方法在获得了频率信息之后，系统会通过一个估计基频可能性的置信度函数来提取每一个时间片段的音高。而基于统计学的方法，则是通过概率模型来求解当前音高。

[0004] 虽然现有音乐旋律提取方法种类众多，但是其往往在准确度和处理速度之间难以达到较好平衡，也即，为了更快地识别速度，往往会牺牲掉准确率，为了更高的准确率，识别速度往往不够理想。

[0005] 公开于本申请背景技术部分的信息仅仅旨在加深对本申请的一般背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

[0006] 本公开实施例提供一种音准评估方法、系统、设备及存储介质，旨在解决现有技术中的部分问题，也即，在音乐频率识别准确度和处理速度之间实现较好平衡。

[0007] 本公开实施例的第一方面，

[0008] 提供一种音准评估方法，包括：

[0009] 对目标音频进行傅里叶变换后获取所述目标音频的谐波信息，确定所述谐波信息在多个时刻的频谱的全局峰值，作为候选基频；

[0010] 根据所述候选基频的频谱幅度值以及预设的采样窗口，确定所述候选基频中每一帧基频的信号能量；根据预设的频谱概率密度函数以及所述每一帧基频的信号能量确定所述候选基频中每一帧基频的基频熵值；

[0011] 基于所述信号能量、所述基频熵值以及所述候选基频，通过预设的特征提取模型提取所述候选基频的音频特征，并根据所述音频特征进行音准评估，其中，所述特征提取模型基于神经网络构建，用于提取输入模型信息的特征并对特征进行分类。

[0012] 在一种可选的实施方式中，

[0013] 所述根据所述候选基频的频谱幅度值以及预设的采样窗口，确定所述候选基频中每一帧基频的信号能量包括：

[0014] 根据所述候选基频的频谱幅度值，确定所述频谱幅度值对应的时间索引，结合所述时间索引，以及所述候选基频对应的能量衰减频率以及能量中心频率，确定所述频谱幅度值对应的频谱信号原子；

[0015] 根据所述频谱信号原子，结合所述预设的采样窗口的频率响应，进行线性加权求和确定所述候选基频中每一帧基频的信号能量。

[0016] 在一种可选的实施方式中，

[0017] 所述确定所述频谱幅度值对应的频谱信号原子如下公式所示：

[0018]

[0019] 其中，G(n)表示第n个频谱信号原子，N表示候选基频的帧数，Xi表示第i帧候选基频的频谱幅度值，Xi (m)表示对频谱幅度值进行傅里叶变换后的结果，t表示所述频谱幅度值对应的时间索引，c表示所述候选基频对应的能量中心频率，s表示所述候选基频对应的能量衰减频率；

[0020] 所述确定所述候选基频中每一帧基频的信号能量如下公式所示：

[0021]

[0022] 其中，E表示所述候选基频中每一帧基频的信号能量，M表示采样数量，k表示频域点，r表示相位偏移角度，N表示候选基频的帧数，表示所述预设的采样窗口的频率响应，wj表示第j个采样点的采样尺度，u表示采样窗口大小，e表示采样频率，G(n)表示第n个频谱信号原子。

[0023] 在一种可选的实施方式中，

[0024] 所述根据预设的频谱概率密度函数以及所述每一帧基频的信号能量确定所述候选基频中每一帧基频的基频熵值包括：

[0025] 基于所述预设的频谱概率密度函数，结合所述候选基频的时域波形，将所述候选基频中每一帧基频分成多个子带，分别确定所述每个子带能量；

[0026] 根据所述每个子带能量，以及所述每个子带能量对应的能量概率和信息熵，确定所述候选基频中每一帧基频的基频熵值。

[0027] 在一种可选的实施方式中，

[0028] 候选基频的时域波形，将所述候选基频中每一帧基频分成多个子带，分别确定所述每个子带能量如下公式所示：

[0029]

[0030] 其中，Ez表示子带能量，P(.)表示频谱概率密度函数，e表示采样频率，h表示采样平滑值，H(i)表示候选基频中第i帧的时域波形，ai表示第i帧的子带阶数,N表示候选基频的帧数；

[0031] 所述根据所述每个子带能量，以及所述每个子带能量对应的能量概率和信息熵，确定所述候选基频中每一帧基频的基频熵值如下公式所示：

[0032]

[0033] 其中，Qi表示所述候选基频中第i帧基频的基频熵值，V(i)表示第i帧的能量概率，L(i)表示第i帧的信息熵，Ez(i)表示第i帧和第i+1帧的子带能量，N表示候选基频的帧数。

[0034] 在一种可选的实施方式中，

[0035] 所述基于所述信号能量、所述基频熵值以及所述候选基频，通过预设的特征提取模型提取所述候选基频的音频特征，并根据所述音频特征进行音准评估包括：

[0036] 所述特征提取模型中所有层通过卷积滤波器分别对所述信号能量、所述基频熵值以及所述候选基频进行卷积操作，将进行卷积操作后的信号能量、所述基频熵值以及所述候选基频的参数映射到所述特征提取模型中所有层的特征图中；

[0037] 将任一层的特征图以及该层以下的所有层的池化位置进行重构，并对所有层进行迭代计算，确定重构误差，并根据所述重构误差对所述特征提取模型中所有特征图和所有层的池化位置进行更新；

[0038] 根据更新后的结果，通过所述特征提取模型的分类器对音频特征进行音准评估。

[0039] 在一种可选的实施方式中，

[0040] 在通过预设的特征提取模型提取所述候选基频的音频特征，并根据所述音频特征进行音准评估之前，还包括训练所述特征提取模型：

[0041] 对输入待训练特征提取模型的输入信息通过卷积稀疏编码层进行非线性分解，确定所述输入信息对应的重构信息；

[0042] 根据所述重构信息与所述输入信息的重构误差，结合所述待训练特征提取模型的代价函数，确定所述待训练特征提取模型的特征图梯度；

[0043] 基于所述待训练特征提取模型的特征图的层数，所述特征图梯度，所述重构误差以及预设的学习速率，对所述特征图进行池化操作，确定所述池化特征位置；

[0044] 参考预设的收缩迭代阈值，基于所述特征图梯度以及所述池化特征位置，通过迭代优化算法对所述重构误差进行迭代优化，直至所述重构误差与所述收缩迭代阈值的关系符合预设条件。

[0045] 本公开实施例的第二方面，

[0046] 提供一种音准评估系统，包括：

[0047] 第一单元，用于对目标音频进行傅里叶变换后获取所述目标音频的谐波信息，确定所述谐波信息在多个时刻的频谱的全局峰值，作为候选基频；

[0048] 第二单元，用于根据所述候选基频的频谱幅度值以及预设的采样窗口，确定所述候选基频中每一帧基频的信号能量；根据预设的频谱概率密度函数以及所述每一帧基频的信号能量确定所述候选基频中每一帧基频的基频熵值；

[0049] 第三单元，用于基于所述信号能量、所述基频熵值以及所述候选基频，通过预设的特征提取模型提取所述候选基频的音频特征，并根据所述音频特征进行音准评估，其中，所述特征提取模型基于神经网络构建，用于提取输入模型信息的特征并对特征进行分类。

[0050] 本公开实施例的第三方面，

[0051] 提供一种设备，包括：

[0052] 处理器；

[0053] 用于存储处理器可执行指令的存储器；

[0054] 其中，所述处理器被配置为调用所述存储器存储的指令，以执行前述所述的方法。

[0055] 本公开实施例的第四方面，

[0056] 提供一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现前述所述的方法。

[0057] 本公开通过频谱峰值选取谐波相关的候选基频，可以准确的将基频限制在一个相对小的范围内；可以使后续确定信号能量和基频熵值的结果更加准确和更有针对性。

[0058] 本公开的方法将信号能量和基频熵值作为特征分析参数，只与能量的随机性有关，与能量幅值无关，对噪声具有一定的鲁棒性，能有效避免突发噪声的干扰，而且能够避免大量的运算。

[0059] 子带能量在非稳定的噪声环境下，很难区分语音和不可预测的背景噪声,而基频熵值却可以做到，且子带能量有一个很好的加性性质，即语音加噪声的能量要大于噪声的能量，根据所述每个子带能量，以及所述每个子带能量对应的能量概率和信息熵，确定所述候选基频中每一帧基频的基频熵值，可以解决子带能量的这种不稳定性，可以更突出有话区间的数值，噪声区间的数值变得更小，拉开了有话区间和噪声区间的数值差距。

[0060] 特征提取模型对特征图进行卷积进而得到重构结果，不同的特征图从不同角度对输入数据进行分析，所以多个特征图保证了模型学到的特征的完备性，同时其中的正则化又限制了模型的复杂度，避免了过拟合现象的发生；

[0061] 通过池化操作，原始输入数据对应的特征图中的有效内容被保留了下来，相反那些不相关的内容就被丢弃，有效成分的绝对位置被模糊，突出了结构性特征的相对位置的重要性，不仅保留了有效成分的结构，而且使重构得到的结果更加稀疏，对输入数据的结构性特征更加有利。

附图说明

[0062] 图1为本公开实施例音准评估方法的流程示意图；

[0063] 图2为本公开实施例子带能量示意图；

[0064] 图3为本公开实施例音准评估系统的结构示意图；

具体实施方式

[0065] 为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

[0066] 本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

[0067] 应当理解，在本公开的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

[0068] 应当理解，在本公开中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0069] 应当理解，在本公开中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

[0070] 应当理解，在本公开中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

[0071] 取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

[0072] 下面以具体地实施例对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

[0073] 图1为本公开实施例音准评估方法的流程示意图，如图1所示，所述方法包括：

[0074] S101. 对目标音频进行傅里叶变换后获取所述目标音频的谐波信息，确定所述谐波信息在多个时刻的频谱的全局峰值，作为候选基频；

[0075] 示例性地，音高表示声音的高低。声音由物体振动产生，振动的越快，声音越高；反之，则越低。当声源振动时，会产生频率为基频(fundamental frequency, FO)及其整数倍(2FO， 3FO,4FO 等)的声波。音高就是人类对这一系列声波的感知，实际中通常用基频来表示音高。

[0076] 目标音高作为当前时刻中谐波信息中最突出的音，其谐波中幅度最大的频率分量(partial)一般情况下也是当前时刻频谱中的全局峰值，也就是说可以通过全局峰值找到基频的某一次谐波，从而找到基频可能出现的位置。

[0077] 示例性地，对目标音频进行傅里叶变换可以参考现有傅里叶变换方法，本公开实施对此不再赘述。

[0078] 通过频谱峰值选取谐波相关的候选基频，可以准确的将基频限制在一个相对小的范围内；可以使后续确定信号能量和基频熵值的结果更加准确和更有针对性。

[0079] S102. 根据所述候选基频的频谱幅度值以及预设的采样窗口，确定所述候选基频中每一帧基频的信号能量；根据预设的频谱概率密度函数以及所述每一帧基频的信号能量确定所述候选基频中每一帧基频的基频熵值；

[0080] 示例性地，为了准确分析音频特性可以从候选基频的音频特征入手，分别确定候选基频中每一帧基频的信号能量以及候选基频中每一帧基频的基频熵值，相比于现有的音频分析方法，例如，短时能量与短时过零率双门限法、相关法、谱距离法，现有的方法在较高的信噪比环境下具有良好的性能，但是在低信噪比时性能急剧恶化，使得语音信号的端点检测准确率极速下降，而本公开的方法将信号能量和基频熵值作为特征分析参数，只与能量的随机性有关，与能量幅值无关，对噪声具有一定的鲁棒性，能有效避免突发噪声的干扰，而且能够避免大量的运算。

[0081] 在一种可选的实施方式中，所述确定所述候选基频中每一帧基频的信号能量包括：

[0082] 根据所述候选基频的频谱幅度值，确定所述频谱幅度值对应的时间索引，结合所述时间索引，以及所述候选基频对应的能量衰减频率以及能量中心频率，确定所述频谱幅度值对应的频谱信号原子；

[0083] 根据所述频谱信号原子，结合所述预设的采样窗口的频率响应，进行线性加权求和确定所述候选基频中每一帧基频的信号能量。

[0084] 示例性地，本公开实施例的频谱幅度值表示谐波信号的频谱的幅度值，可用于转换为谐波信号对应的功率值，频谱幅度值对应的时间索引表示频谱的幅度值对应的时间值。

[0085] 本公开的频谱信号原子由一组中心频率成倍频关系的原子的线性加权和构成，每个原子具有特定的基频和与音色有关的描述子，包括反映共振峰频率和反映倍频能量的衰减速率的权重值。同时每个原子具有反映其时间位置的时域能量中心以及反映其原子时长的时域能量衰减速率。其中，能量衰减频率控制频谱信号原子的长短，能量中心频率服从高斯分布，能够将频谱信号原子规整到对应的单位能量。

[0086] 确定所述频谱幅度值对应的频谱信号原子包括：

[0087]

[0088] 其中，G(n)表示第n个频谱信号原子，N表示候选基频的帧数，Xi表示第i帧候选基频的频谱幅度值，Xi (m)表示对频谱幅度值进行傅里叶变换后的结果，t表示所述频谱幅度值对应的时间索引，c表示所述候选基频对应的能量中心频率，s表示所述候选基频对应的能量衰减频率。

[0089] 示例性地，根据所述频谱信号原子，结合所述预设的采样窗口的频率响应，进行线性加权求和确定所述候选基频中每一帧基频的信号能量包括：

[0090]

[0091] 其中，E表示所述候选基频中每一帧基频的信号能量，M表示采样数量，k表示频域点，r表示相位偏移角度，N表示候选基频的帧数，表示所述预设的采样窗口的频率响应，wj表示第j个采样点的采样尺度，u表示采样窗口大小，e表示采样频率，G(n)表示第n个频谱信号原子。

[0092] 在一种可选的实施方式中，

[0093] 所述根据预设的频谱概率密度函数以及所述每一帧基频的信号能量确定所述候选基频中每一帧基频的基频熵值包括：

[0094] 基于所述预设的频谱概率密度函数，结合所述候选基频的时域波形，将所述候选基频中每一帧基频分成多个子带，分别确定所述每个子带能量；

[0095] 根据所述每个子带能量，以及所述每个子带能量对应的能量概率和信息熵，确定所述候选基频中每一帧基频的基频熵值。

[0096] 示例性地，本公开实施例的频谱概率密度函数，可通过如下公式表示：

[0097]

[0098] 其中，表示频谱概率密度函数，e表示采样频率，h表示采样平滑值，Af表示频率幅值拟合函数，W表示积分转换函数。

[0099] 候选基频的时域波形是通过对进行傅里叶变换后的波形进行低通平滑滤波得到的。

[0100] 基于所述预设的频谱概率密度函数，结合所述候选基频的时域波形，将所述候选基频中每一帧基频分成多个子带，分别确定所述每个子带能量的方法可以如下公式所示：

[0101]

[0102] 其中，Ez表示子带能量，P(.)表示频谱概率密度函数，e表示采样频率，h表示采样平滑值，H(i)表示候选基频中第i帧的时域波形，ai表示第i帧的子带阶数,N表示候选基频的帧数。

[0103] 可选地，根据所述每个子带能量，以及所述每个子带能量对应的能量概率和信息熵，确定所述候选基频中每一帧基频的基频熵值如下公式所示：

[0104]

[0105] 其中，Qi表示所述候选基频中第i帧基频的基频熵值，V(i)表示第i帧的能量概率，L(i)表示第i帧的信息熵，Ez(i)表示第i帧和第i+1帧的子带能量，N表示候选基频的帧数。

[0106] 其中，能量概率如下公式所示：

[0107]

[0108] 信息熵如下公式所示：

[0109]

[0110] 示例性地，图2为本公开实施例子带能量示意图。从图2中可以看出，音频中的有话区间能量是向上凸起的,而子带能量正相反,在有话区间向下凹陷，这表明，有话区间子带能量的数值大，而基频熵值数值小;噪声区间子带能量的数值小，而基频熵值数值大，所以把子带能量除以基频熵值，则可以更突出有话区间的数值，噪声区间的数值变得更小，拉开了有话区间和噪声区间的数值差距。子带能量在非稳定的噪声环境下，很难区分语音和不可预测的背景噪声,而基频熵值却可以做到，且子带能量有一个很好的加性性质，即语音加噪声的能量要大于噪声的能量，根据所述每个子带能量，以及所述每个子带能量对应的能量概率和信息熵，确定所述候选基频中每一帧基频的基频熵值，可以解决子带能量的这种不稳定性。

[0111] S103. 基于所述信号能量、所述基频熵值以及所述候选基频，通过预设的特征提取模型提取所述候选基频的音频特征，并根据所述音频特征进行音准评估。

[0112] 示例性地，所述特征提取模型基于神经网络构建，用于提取输入模型信息的特征并对特征进行分类。本公开实施例中，特征提取模型可以包括对现有卷积神经网络、深度神经网络、隐马尔可夫模型进行改进的模型中至少一种。

[0113] 现有的音频特征往往是从时域或者频域进行分析的。时域特征分析我们可以从短时能量分析、过零率分析等角度进行；频城特征分析可以从滤波器组分析、傅里叶频谱分析等角度进行；此外音频特征还有基于人类听觉特性同时也是当前应用最广泛的梅尔频率倒谱系数。MFCC 是基于频谱图中共振峰的位置及其变化轨迹提取出的频谱包络，它对于结构性较强的音频信号（说话声、音乐等）有着很好的描述刻画能力。但是音频场景信号是自然音频信号，频率变化较剧烈，而且还有很多背景噪声。如果使用短时特征(MFCC)，就不能完整的刻画出音频场景的声学特征；如果使用长时统计值的话，会造成特征的局部结构性信息的丢失，最终都会导致场景识别性能下降。

[0114] 深层神经网络模型之所以具备自学习能力，那是因为它对大量的样本数据进行分析，从中提炼出最具代表性的特征内容。所以，如果想要取得较好的效果，往往需要大量的训练样本。如果训练样本数量不够的话，不但有可能得不到很好的效果，更大可能是结果会很差。虽然上一章实验系统取得了好于基线系统的识别性能，但是训练样本数目不足一万，这对于实验系统所用到的网络模型来说是远远不够的。又因为 CNN 的训练需要带标签数据，现实情况往往是没有那么多的带标签的数据，因为类别标注是一件非常耗时间的工作。

[0115] 示例性地，将信号能量、基频熵值以及候选基频输入预设的特征提取模型中，所述特征提取模型提取候选基频的音频特征，并根据音频特征进行音准评估。其中，音准评估可以包括将特征提取模型所提取的候选基频的音频特征与标准音频特征进行比较，可选地，进行比较的方法可以包括计算两者的空间距离，例如欧式距离，根据空间距离与预设阈值的关系，实现目标音频的音准评估，例如，音频的起始点位置、音高、音长等。

[0116] 在一种可选的实施方式中，

[0117] 所述基于所述信号能量、所述基频熵值以及所述候选基频，通过预设的特征提取模型提取所述候选基频的音频特征，并根据所述音频特征进行音准评估包括：

[0118] 所述特征提取模型中所有层通过卷积滤波器分别对所述信号能量、所述基频熵值以及所述候选基频进行卷积操作，将进行卷积操作后的信号能量、所述基频熵值以及所述候选基频的参数映射到所述特征提取模型中所有层的特征图中；

[0119] 将任一层的特征图以及该层以下的所有层的池化位置进行重构，并对所有层进行迭代计算，确定重构误差，并根据所述重构误差对所述特征提取模型中所有特征图和所有层的池化位置进行更新；

[0120] 根据更新后的结果，通过所述特征提取模型的分类器对音频特征进行音准评估。

[0121] 示例性地，本公开实施例的特征提取模型使用卷积滤波器根据该层以下所有层次中的池化位置变量和该层的特征图进行重构操作，从任一层开始经过卷积操作和反池化操作一直到第一层，最终得到对输入数据的重构结果。

[0122] 从第一层的输入数据开始经过反卷积和池化操作，一直到第i层就得到了第i层的特征图。所以，第i层的重构误差关于第i层特征图的梯度计算，就是通过把重构误差从第一层通过上面的整个过程传递到第i层进行计算的。将进行卷积操作后的信号能量、所述基频熵值以及所述候选基频的参数映射到所述特征提取模型中所有层的特征图中，使得对候选基频、信号能量以及基频熵值的计算转换为特征图参数的迭代计算，提高了计算效率，并且通过梯度计算、收缩操作以及池化和反池化操作，能够实现在无需标签和大量训练数据的情况下，提高计算效率和准确率。

[0123] 可选地，本公开实施例的特征提取模型的分类器可以参考现有的分类器，本公开实施例对此不再赘述。

[0124] 在一种可选的实施方式中，

[0125] 在通过预设的特征提取模型提取所述候选基频的音频特征，并根据所述音频特征进行音准评估之前，还包括训练所述特征提取模型：

[0126] 对输入待训练特征提取模型的输入信息通过卷积稀疏编码层进行非线性分解，确定所述输入信息对应的重构信息；

[0127] 根据所述重构信息与所述输入信息的重构误差，结合所述待训练特征提取模型的代价函数，确定所述待训练特征提取模型的特征图梯度；

[0128] 基于所述待训练特征提取模型的特征图的层数，所述特征图梯度，所述重构误差以及预设的学习速率，对所述特征图进行池化操作，确定所述池化特征位置；

[0129] 参考预设的收缩迭代阈值，基于所述特征图梯度以及所述池化特征位置，通过迭代优化算法对所述重构误差进行迭代优化，直至所述重构误差与所述收缩迭代阈值的关系符合预设条件。

[0130] 示例性地，本公开实施例的特征提取模型的网络结构共9层，卷积核大小设置为：7×7，三维池化中下采样的窗口大小为3×3×2，即从特征图中3×3共计9个神经元中取出最大值，然后在三个相邻的特征图之间再进行一次取最大值操作，相当于在27个神经元中取最大值作为最终的特征元素。这不仅仅是简单的神经元数量上的增加，更重要的是特征图数量，即特征分析角度上的变化。

[0131] 需要说明的是，本公开实施例的特征提取模型对特征图进行卷积进而得到重构结果，特征图的数目是大于1的，不同的特征图从不同角度对输入数据进行分析，所以多个特征图保证了模型学到的特征的完备性，同时其中的正则化又限制了模型的复杂度，避免了过拟合现象的发生。借助池化位置变量，该变量和输入信息是一一对应的，特征图中特定的神经元，对应了输入语谱图中的一小片区域，而这种对应关系和语谱图对特征单元值的生成所作出的贡献相一致的。又因为从语谱图向特征图映射是通过卷积运算和下采样运算来完成的，所以这种通过操作来完成的编码结果就会保留下长时结构性特征。

[0132] 此外，通过池化操作，原始输入数据对应的特征图中的有效内容被保留了下来，相反那些不相关的内容就被丢弃，有效成分的绝对位置被模糊，突出了结构性特征的相对位置的重要性，不仅保留了有效成分的结构，而且使重构得到的结果更加稀疏，对输入数据的结构性特征更加有利。

[0133] 本公开实施例的第二方面，提供一种音准评估系统，图3为本公开实施例音准评估系统的结构示意图，如图3所示，包括：

[0134] 第一单元，用于对目标音频进行傅里叶变换后获取所述目标音频的谐波信息，确定所述谐波信息在多个时刻的频谱的全局峰值，作为候选基频；

[0135] 第二单元，用于根据所述候选基频的频谱幅度值以及预设的采样窗口，确定所述候选基频中每一帧基频的信号能量；根据预设的频谱概率密度函数以及所述每一帧基频的信号能量确定所述候选基频中每一帧基频的基频熵值；

[0136] 第三单元，用于基于所述信号能量、所述基频熵值以及所述候选基频，通过预设的特征提取模型提取所述候选基频的音频特征，并根据所述音频特征进行音准评估，其中，所述特征提取模型基于神经网络构建，用于提取输入模型信息的特征并对特征进行分类。

[0137] 本公开实施例的第三方面，

[0138] 提供一种设备，包括：

[0139] 处理器；

[0140] 用于存储处理器可执行指令的存储器；

[0141] 其中，所述处理器被配置为调用所述存储器存储的指令，以执行前述所述的方法。

[0142] 本公开实施例的第四方面，

[0143] 提供一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现前述所述的方法。

[0144] 本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本发明的各个方面的计算机可读程序指令。

[0145] 计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD‑ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

[0146] 这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

[0147] 用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

[0148] 这里参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

[0149] 这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

[0150] 也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

[0151] 附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

[0152] 注意，除非另有直接说明，否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此，除非另有明确说明，否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下，进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头，该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。

[0153] 本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

[0154] 最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

音准评估方法、系统、设备及存储介质转让专利

申请号 : CN202310042328.9

文献号 : CN115938346B

文献日 : 2023-05-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 刘文博

申请人 : 中国传媒大学

摘要 :

权利要求 :

说明书 :