一种音频测评方法及装置转让专利

申请号 : CN201410362595.5

文献号 : CN104157296B

文献日 : 2016-04-27

本发明实施例提供一种音频测评方法及装置，其中的方法可包括：获取待测评的演唱单句在目标音频文件中的顺序以及所述演唱单句的待测特征序列；根据所述演唱单句在所述目标音频文件中的顺序，在源音频文件中定位参考单句，并获取所述参考单句的参考特征序列；对所述参考特征序列和所述待测特征序列进行相关运算，获得相关系数序列；根据所述相关系数序列，确定所述演唱单句的测评分数。本发明能够对目标音频文件包含的演唱单句进行测评，满足对音频文件的应用需求，提升音频文件的应用智能性。

1.一种音频测评方法，其特征在于，包括：获取待测评的演唱单句在目标音频文件中的顺序以及所述演唱单句的待测特征序列；

根据所述演唱单句在所述目标音频文件中的顺序，在源音频文件中定位参考单句，并获取所述参考单句的参考特征序列；

分别计算所述参考特征序列的均值及所述待测特征序列的均值；

采用所述参考特征序列的均值，对所述参考特征序列进行规整处理，采用所述待测特征序列的均值，对所述待测特征序列进行规整处理；

采用预设削波阈值，将规整处理后的所述参考特征序列转换为参考数值序列，将规整处理后的所述待测特征序列转换为待测数值序列；

采用互相关函数对所述参考数值序列和所述待测数值序列进行相关运算，获得相关系数序列；

根据所述相关系数序列，确定所述演唱单句的测评分数。

2.如权利要求1所述的方法，其特征在于，所述待测特征序列为所述演唱单句的音符序列，所述参考特征序列为所述参考单句的音符序列；或者，所述待测特征序列为所述演唱单句的音高序列，所参考特征序列为所述参考单句的音高序列。

3.如权利要求1或2所述的方法，其特征在于，所述根据所述相关系数序列，确定所述演唱单句的测评分数，包括：计算所述相关系数序列的最大值；

将所述相关系数序列的最大值，确定为所述演唱单句的测评分数。

4.如权利要求1或2所述的方法，其特征在于，所述根据所述相关系数序列，确定所述演唱单句的测评分数，包括：计算所述相关系数序列的最大值；

将所述相关系数序列的最大值映射至预设分数区间，获得所述相关系数序列的最大值的映射值；

将所述映射值确定为所述演唱单句的测评分数。

5.一种音频测评装置，其特征在于，包括：待测获取模块，用于获取待测评的演唱单句在目标音频文件中的顺序以及所述演唱单句的待测特征序列；

参考获取模块，用于根据所述演唱单句在所述目标音频文件中的顺序，在源音频文件中定位参考单句，并获取所述参考单句的参考特征序列；

相关运算模块，用于对所述参考特征序列和所述待测特征序列进行相关运算，获得相关系数序列；

测评模块，用于根据所述相关系数序列，确定所述演唱单句的测评分数；

其中，所述相关运算模块包括：

均值计算单元，用于分别计算所述参考特征序列的均值及所述待测特征序列的均值；

规整处理单元，用于采用所述参考特征序列的均值，对所述参考特征序列进行规整处理，采用所述待测特征序列的均值，对所述待测特征序列进行规整处理；

序列转换单元，用于采用预设削波阈值，将规整处理后的所述参考特征序列转换为参考数值序列，将规整处理后的所述待测特征序列转换为待测数值序列；

相关运算单元，用于采用互相关函数对所述参考数值序列和所述待测数值序列进行相关运算，获得相关系数序列。

6.如权利要求5所述的装置，其特征在于，所述待测特征序列为所述演唱单句的音符序列，所述参考特征序列为所述参考单句的音符序列；或者，所述待测特征序列为所述演唱单句的音高序列，所参考特征序列为所述参考单句的音高序列。

7.如权利要求5或6所述的装置，其特征在于，所述测评模块包括：第一计算单元，用于计算所述相关系数序列的最大值；

第一测评单元，用于将所述相关系数序列的最大值，确定为所述演唱单句的测评分数。

8.如权利要求5或6所述的装置，其特征在于，所述测评模块包括：第二计算单元，用于计算所述相关系数序列的最大值；

映射单元，用于将所述相关系数序列的最大值映射至预设分数区间，获得所述相关系数序列的最大值的映射值；

第二测评单元，用于将所述映射值确定为所述演唱单句的测评分数。

一种音频测评方法及装置

技术领域

[0001] 本发明涉及互联网技术领域，具体涉及音频处理技术领域，尤其涉及一种音频测评方法及装置。

背景技术

[0002] 随着互联网技术的发展，互联网音频库中收录了大量的诸如歌曲、歌曲片段等音频文件，关于互联网音频的应用也日渐增多，例如：KTV(Karaoke Television，卡拉OK)系统、K歌系统等等。在应用音频文件的过程中，大部分用户希望在音频演绎过程中实时获知演绎水准，例如：用户在演唱某歌曲时，希望获得歌曲各句的测评分数，以了解每句的演唱情况，等等，因此，如何对诸如歌曲等音频文件中的音频单句进行测评成为一个亟待解决的技术问题。

发明内容

[0003] 本发明实施例提供一种音频测评方法及装置，能够对目标音频文件包含的演唱单句进行测评，满足对音频文件的应用需求，提升音频文件的应用智能性。

[0004] 本发明实施例第一方面提供一种音频测评方法，可包括：

[0005] 获取待测评的演唱单句在目标音频文件中的顺序以及所述演唱单句的待测特征序列；

[0006] 根据所述演唱单句在所述目标音频文件中的顺序，在源音频文件中定位参考单句，并获取所述参考单句的参考特征序列；

[0007] 对所述参考特征序列和所述待测特征序列进行相关运算，获得相关系数序列；

[0008] 根据所述相关系数序列，确定所述演唱单句的测评分数。

[0009] 本发明实施例第二方面提供一种音频测评装置，可包括：

[0010] 待测获取模块，用于获取待测评的演唱单句在目标音频文件中的顺序以及所述演唱单句的待测特征序列；

[0011] 参考获取模块，用于根据所述演唱单句在所述目标音频文件中的顺序，在源音频文件中定位参考单句，并获取所述参考单句的参考特征序列；

[0012] 相关运算模块，用于对所述参考特征序列和所述待测特征序列进行相关运算，获得相关系数序列；

[0013] 测评模块，用于根据所述相关系数序列，确定所述演唱单句的测评分数。

[0014] 实施本发明实施例，具有如下有益效果：

[0015] 本发明实施例中，可获取目标音频文件中待测评的演唱单句的待测特征序列，以及获取源音频文件中的参考单句的参考特征序列，通过对待测特征序列和参考特征序列的相关运算获得相关系数序列，基于该相关系数序列实现了对目标音频文件的演唱单句的测评，既满足了用户对于音频文件的应用过程中的实际需求，又提升了音频文件的应用智能性。

附图说明

[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0017] 图1为本发明实施例提供的一种音频测评方法的流程图；

[0018] 图2为图1所示的步骤S103的一个实施例的流程图；

[0019] 图3为图1所示的步骤S104的一个实施例的流程图；

[0020] 图4为图1所示的步骤S104的另一个实施例的流程图；

[0021] 图5为本发明实施例提供的一种音频测评装置的结构示意图；

[0022] 图6为图5所示的相关运算模块的实施例的结构示意图；

[0023] 图7为图5所示的测评模块的一个实施例的结构示意图；

[0024] 图8为图5所示的测评模块的另一个实施例的结构示意图。

具体实施方式

[0025] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0026] 本发明实施例中，音频文件可以包括但不限于：歌曲、歌曲片段等文件。源音频文件指可用于作为音频测评的参考基准的文件，例如：原唱歌曲，或者从原唱歌曲中截取的歌曲片段等等；目标音频文件指需要进行音频测评的文件，例如：用户针对原唱歌曲重新演唱的歌曲，或者从用户重新演唱的歌曲中截取的歌曲片段等等。

[0027] 本发明实施例中，一个音频文件可由至少一个音频单句顺序排列而成，该至少一个音频单句的集合描述了音频文件中需要进行演唱的部分。以歌曲A为例，歌曲A的描述可表示如下：

[0028] [661，860]aaaaaaaa

[0029] [1541，320]bbbbbbbb

[0030] [1871，245]cccccccc

[0031] ……

[0032] 上述歌曲A的描述中，诸如“aaaaaaaa”、“bbbbbbbb”、“cccccccc”可分别用于表示一个音频单句，各音频单句之前的“[]”用于描述对应的音频单句的时间属性，其单位时间通常为ms，例如：上述[661，860]用于描述音频单句“aaaaaaaa”的时间属性，其中的“661”表示音频单句“aaaaaaaa”的开始时间，“860”表示音频单句“aaaaaaaa”的持续时间，假设歌曲A共5分钟，音频单句“aaaaaaaa”则从第661ms开始演唱，持续860ms结束演唱。按照开始时间的先后顺序，可确定音频文件包含的各音频单句的顺序，例如：根据上述歌曲A的描述，音频单句“aaaaaaaa”为第一个音频单句，其在歌曲A中的顺序为1；音频单句“bbbbbbbb”为第二个音频单句，其在歌曲A中的顺序为2；以此类推。可以理解的是，每个音频单句开始之前或结束之后还可包含无需进行演唱的部分，例如：上述歌曲A的0-661ms时间段则为无需进行演唱的部分，该部分可包含前奏信息。

[0033] 本发明实施例中，所述源音频文件由至少一个音频单句顺序排列而成，该音频单句可称为演唱单句。所述目标音频文件由至少一个音频单句顺序排列而成，该音频单句可称为演唱单句。除特别说明外，本发明后续各实施例中，所述参考单句特指从所述源音频文件中定位的参考单句，所述演唱单句特指所述目标音频文件中待测评的演唱单句。

[0034] 下面将结合图1-图4，对本发明实施例提供的音频测评方法进行详细介绍。

[0035] 请参见图1，为本发明实施例提供的一种音频测评方法的流程图；该方法可包括以下步骤S101-步骤S104。

[0036] S101，获取待测评的演唱单句在目标音频文件中的顺序以及所述演唱单句的待测特征序列。

[0037] 音符又叫note，指用于记录不同长短的音的进行的符号，可包括全音符、二分音符、四分音符、八分音符等等种类。一个音频单句可以表示为多个音频帧组成的一个帧序列，每个音频帧均携带音符，各个音符按照各个音频帧在该音频单句中的时间先后顺序构成该音频单句的旋律。音高又叫pitch，指音的高度。一个音频单句可以表示为多个音频帧组成的一个帧序列，每个音频帧均携带音高，各个音高按照各个音频帧在该音频单句中的时间先后顺序构成该音频单句的旋律。综上，音频单句的音符序列或音高序列均可反映该音频单句的旋律特征。

[0038] 本发明实施例中，优选地，待测评的演唱单句可以为当前演唱单句，此时音频测评过程即可为实时音频测评过程。其中，当前演唱单句指所述目标音频文件中当前正在播放的时间所对应的演唱单句。目标音频文件为歌曲A，以上述歌曲A的描述为例：假设歌曲A共5分钟，当前正在播放的时间为1895ms，根据歌曲A的描述，1895ms属于音频单句“cccccccc”的时间属性所描述的时间段内，由此可确定音频单句“cccccccc”为当前演唱单句，进一步，可确定音频单句“cccccccc”为待测评的演唱单句，所述待测评的演唱单句在目标音频文件中的顺序为3。

[0039] 本步骤中，可获取该待测评的演唱单句的待测特征序列，所述待测特征序列为所述待测评的演唱单句的音符序列或音高序列。优选地，在所述待测评的演唱单句演唱结束后，获取该待测评的演唱单句的待测特征序列。

[0040] S102，根据所述演唱单句在所述目标音频文件中的顺序，在源音频文件中定位参考单句，并获取所述参考单句的参考特征序列。

[0041] 所述源音频文件可以由至少一个参考单句顺序排列而成。本步骤中，所定位的参考单句在所述源音频文件中的顺序与所述待测评的演唱单句在所述目标音频文件中的顺序相同。按照本实施例的上述例子，若以歌曲A为目标音频文件，则歌曲A在出版发行时的原唱歌曲B为源音频文件，所述待测评的演唱单句的顺序为3，则歌曲B所定位的参考单句的顺序也为3，即从歌曲B中选取第3个参考单句作为所述待测评的演唱单句的测评基准。

[0042] 在本发明实施例的一种可行的实施方式中，所述待测特征序列为所述演唱单句的音符序列，所述参考特征序列为所述参考单句的音符序列。在本发明实施例的另一种可行的实施方式中，所述待测特征序列为所述演唱单句的音高序列，所参考特征序列为所述参考单句的音高序列。

[0043] S103，对所述参考特征序列和所述待测特征序列进行相关运算，获得相关系数序列。

[0044] 由于所述参考特征序列可用于表征源音频文件中所定位的参考单句的旋律特征，所述待测特征序列可用于表征目标音频文件中待测评的演唱单句的旋律特征，本步骤可对所述参考特征序列和所述待测特征序列之间的相关运算，获得相关系数序列。

[0045] S104，根据所述相关系数序列，确定所述演唱单句的测评分数。

[0046] 本步骤中，所述待测评的演唱单句的测评分数越高，表明所述待测评的演唱单句的演唱效果越好，其越接近所定位的参考单句的演唱效果。反之，所述待测评的演唱单句的测评分数越低，表明所述待测评的演唱单句的演唱效果越差，其越偏离所定位的参考单句的演唱效果。

[0047] 本发明实施例中，可获取目标音频文件中待测评的演唱单句的待测特征序列，以及获取源音频文件中的参考单句的参考特征序列，通过对待测特征序列和参考特征序列的相关运算获得相关系数序列，基于该相关系数序列实现了对目标音频文件的演唱单句的测评，既满足了用户对于音频文件的应用过程中的实际需求，又提升了音频文件的应用智能性。

[0048] 下面将结合附图2-附图4，对附图1所示的音频测评方法中的各步骤进行详细介绍。需要说明的是，后续图2-图4所示实施例中，设定所定位的参考单句包括N个音频帧，所述参考特征序列可表示为p(i)；其中，i为整数，且0≤i≤N-1。具体地，若所述参考特征序列为所述参考单句的音符序列，则p(0)表示所定位的参考单句中的第一个音频帧的音符，p(1)表示所定位的参考单句中的第二个音频帧的音符，以此类推，p(N-1)表示所定位的参考单句中的第N个音频帧的音符。若所述待测特征序列为所述演唱单句的音高序列，则p(0)表示所定位的参考单句中的第一个音频帧的音高，p(1)表示所定位的参考单句中的第二个音频帧的音符，以此类推，p(N-1)表示所定位的参考单句中的第N个音频帧的音符。

[0049] 设定待测评的演唱单句包括N个音频帧，所述待测特征序列可表示为s(i)，其中，i为整数，且0≤i≤N-1。具体地，若所述待测特征序列为所述演唱单句的音符序列，则s(0)表示所述待测评的演唱单句中的第一个音频帧的音符，s(1)表示所述待测评的演唱单句中的第二个音频帧的音符，以此类推，s(N-1)表示所述待测评的演唱单句中的第N个音频帧的音符。若所述待测特征序列为所述演唱单句的音高序列，则s(0)表示所述待测评的演唱单句中的第一个音频帧的音高，s(1)表示所述待测评的演唱单句中的第二个音频帧的音高，以此类推，s(N-1)表示所述待测评的演唱单句中的第N个音频帧的音高。

[0050] 请参见图2，为图1所示的步骤S103的一个实施例的流程图；该步骤S103可包括以下步骤s1001-步骤s1004。

[0051] s1001，分别计算所述参考特征序列的均值及所述待测特征序列的均值。

[0052] 本步骤中，可采用下述公式(1)分别计算所述参考特征序列p(i)的均值以及所述待测特征序列s(i)的均值，该公式(1)如下：

[0053] MP＝mean(p(i))

[0054] MS＝mean(s(i)) (1)

[0055] 上述公式(1)中，MP表示所述参考特征序列p(i)的均值，MS表示所述参考特征序列p(i)的均值，mean()为求均值操作。

[0056] s1002，采用所述参考特征序列的均值，对所述参考特征序列进行规整处理，采用所述待测特征序列的均值，对所述待测特征序列进行规整处理。

[0057] 规整处理的目的在于：将所述参考特征序列和所述待测特征序列调整至同一基准，以消除所述参考特征序列与所述待测特征序列由于均值求取标准不一致所带来的计算偏差影响。

[0058] 本步骤中，可采用公式(2)对所述参考特征序列进行规整处理，该公式(2)可表示如下：

[0059] p2(i)＝p(i)-MP (2)

[0060] 上述公式(2)中，p2(i)表示规整处理后得到的参考特征序列。

[0061] 本步骤中，可采用公式(3)对所述待测特征序列进行规整处理，该公式(3)可表示如下：

[0062] s2(i)＝s(i)-MS (3)

[0063] 上述公式(3)中，s2(i)表示规整处理后得到的待测特征序列。

[0064] s1003，采用预设削波阈值，将规整处理后的所述参考特征序列转换为参考数值序列，将规整处理后的所述待测特征序列转换为待测数值序列。

[0065] 其中，所述预设削波阈值可根据实际需要进行设定，优选地，所述削波阈值可采用公式(4)进行设定，该公式(4)可表示如下：

[0066] Th_xue＝max(max(abs(p2(i)),max(abs(s2(i))) (4)

[0067] 上述公式(4)中，Th_xue表示所述预设的削波阈值，max()为最大值求取操作，abs()为绝对值求取操作。

[0068] 本步骤中，可采用公式(5)将规整处理后的所述参考特征序列转换为参考数值序列，该公式(5)可表示如下：

[0069]

[0070] 上述公式(5)中，p3(i)表示参考数值序列。

[0071] 本步骤中，可采用公式(6)将规整处理后的所述待测特征序列转换为待测数值序列，该公式(6)可表示如下：

[0072]

[0073] 上述公式(6)中，s3(i)表示待测数值序列。

[0074] s1004，采用互相关函数对所述参考数值序列和所述待测数值序列进行相关运算，获得相关系数序列。

[0075] 在本步骤的一种可行的实施方式中，可采用公式(7)对所述参考数值序列和所述待测数值序列进行相关运算，该公式(7)可表示如下：

[0076]

[0077] 上述公式(7)中，R(n)表示相关系数序列；“·”表示相乘操作；s3(i-n)表示s3(i)循环移动n形成的序列，其中，0≤n≤N-1。

[0078] 在本步骤的另一种可行的实施方式中，可采用公式(8)对所述参考数值序列和所述待测数值序列进行相关运算，该公式(8)可表示如下：

[0079]

[0080] 上述公式(8)中，R(n)表示相关系数序列；“·”表示相乘操作；p3(i-n)表示p3(i)循环移动n形成的序列，其中，0≤n≤N-1。

[0081] 本发明实施例中，可获取目标音频文件中待测评的演唱单句的待测特征序列，以及获取源音频文件中的参考单句的参考特征序列，通过对待测特征序列和参考特征序列的相关运算获得相关系数序列，基于该相关系数序列实现了对目标音频文件的演唱单句的测评，既满足了用户对于音频文件的应用过程中的实际需求，又提升了音频文件的应用智能性。

[0082] 请参见图3，为图1所示的步骤S104的一个实施例的流程图；该步骤S104可包括以下步骤s2001-步骤s2002。

[0083] s2001，计算所述相关系数序列的最大值。

[0084] 本步骤中，可采用下述公式(9)计算所述相关系数序列的最大值，该公式(9)可表示如下：

[0085] RMAX＝max(R(n)) (9)

[0086] 上述公式(9)中，R(n)表示相关系数序列；max()为最大值求取操作；RMAX表示所述相关系数序列的最大值。

[0087] s2002，将所述相关系数序列的最大值，确定为所述演唱单句的测评分数。

[0088] 本步骤可将所述相关系数序列的最大值直接确定为待测评的所述演唱单句的测评分数，即所述演唱单句的测评分数为RMAX的值。

[0089] 本发明实施例中，可获取目标音频文件中待测评的演唱单句的待测特征序列，以及获取源音频文件中的参考单句的参考特征序列，通过对待测特征序列和参考特征序列的相关运算获得相关系数序列，基于该相关系数序列实现了对目标音频文件的演唱单句的测评，既满足了用户对于音频文件的应用过程中的实际需求，又提升了音频文件的应用智能性。

[0090] 请参见图4，为图1所示的步骤S104的另一个实施例的流程图；该步骤S104可包括以下步骤s3001-步骤s3003。

[0091] s3001，计算所述相关系数序列的最大值。

[0092] 本步骤可参见图3所示实施例的步骤s2001，在此不赘述。

[0093] s3002，将所述相关系数序列的最大值映射至预设分数区间，获得所述相关系数序列的最大值的映射值。

[0094] 所述预设分数区间可以根据实际需要进行设定，例如：所述预设分数区间可设定为[0,10]；或者，所述预设分数区间可设定为[0,100]。本步骤中，可采用[score_min,score_max]表示所述预设分数区间，通过线性或非线性方法将所述相关系数序列的最大值RMAX映射至所述预设分数区间，获得的映射值可表示score，该score位于[score_min,score_max]所示的预设分数区间内。

[0095] s3003，将所述映射值确定为所述演唱单句的评分。

[0096] 本步骤可将所述映射值score确定为待测评的所述演唱单句的测评分数，即所述演唱单句的测评分数为score的值。

[0097] 本发明实施例中，可获取目标音频文件中待测评的演唱单句的待测特征序列，以及获取源音频文件中的参考单句的参考特征序列，通过对待测特征序列和参考特征序列的相关运算获得相关系数序列，基于该相关系数序列实现了对目标音频文件的演唱单句的测评，既满足了用户对于音频文件的应用过程中的实际需求，又提升了音频文件的应用智能性。

[0098] 下面将结合图5-图8，对本发明实施例提供的一种音频测评装置进行详细介绍。需要说明的是，图5-图8所述的音频测评装置可应用于执行上述附图1-附图4所示的方法。实际应用中，所述音频测评装置可以运行于服务器端，或者运行于诸如笔记本电脑、手机、PAD(平板电脑)、智能可穿戴设备等等终端中。

[0099] 请参见图5，为本发明实施例提供的一种音频测评装置的结构示意图；该装置可包括：待测获取模块101、参考获取模块102、相关运算模块103和测评模块104。

[0100] 待测获取模块101，用于获取待测评的演唱单句在目标音频文件中的顺序以及所述演唱单句的待测特征序列。

[0101] 音符又叫note，指用于记录不同长短的音的进行的符号，可包括全音符、二分音符、四分音符、八分音符等等种类。一个音频单句可以表示为多个音频帧组成的一个帧序列，每个音频帧均携带音符，各个音符按照各个音频帧在该音频单句中的时间先后顺序构成该音频单句的旋律。音高又叫pitch，指音的高度。一个音频单句可以表示为多个音频帧组成的一个帧序列，每个音频帧均携带音高，各个音高按照各个音频帧在该音频单句中的时间先后顺序构成该音频单句的旋律。综上，音频单句的音符序列或音高序列均可反映该音频单句的旋律特征。

[0102] 本发明实施例中，优选地，待测评的演唱单句可以为当前演唱单句，此时音频测评过程即可为实时音频测评过程。其中，当前演唱单句指所述目标音频文件中当前正在播放的时间所对应的演唱单句。目标音频文件为歌曲A，以上述歌曲A的描述为例：假设歌曲A共5分钟，当前正在播放的时间为1895ms，根据歌曲A的描述，1895ms属于音频单句“cccccccc”的时间属性所描述的时间段内，由此可确定音频单句“cccccccc”为当前演唱单句，进一步，可确定音频单句“cccccccc”为待测评的演唱单句，所述待测评的演唱单句在目标音频文件中的顺序为3。

[0103] 所述待测获取模块101可获取该待测评的演唱单句的待测特征序列，所述待测特征序列为所述待测评的演唱单句的音符序列或音高序列。优选地，所述待测获取模块101在所述待测评的演唱单句演唱结束后，获取该待测评的演唱单句的待测特征序列。

[0104] 参考获取模块102，用于根据所述演唱单句在所述目标音频文件中的顺序，在源音频文件中定位参考单句，并获取所述参考单句的参考特征序列。

[0105] 所述源音频文件可以由至少一个参考单句顺序排列而成。所述参考获取模块102所定位的参考单句在所述源音频文件中的顺序与所述待测评的演唱单句在所述目标音频文件中的顺序相同。按照本实施例的上述例子，若以歌曲A为目标音频文件，则歌曲A在出版发行时的原唱歌曲B为源音频文件，所述待测评的演唱单句的顺序为3，则歌曲B所定位的参考单句的顺序也为3，即从歌曲B中选取第3个参考单句作为所述待测评的演唱单句的测评基准。

[0106] 在本发明实施例的一种可行的实施方式中，所述待测特征序列为所述演唱单句的音符序列，所述参考特征序列为所述参考单句的音符序列。在本发明实施例的另一种可行的实施方式中，所述待测特征序列为所述演唱单句的音高序列，所参考特征序列为所述参考单句的音高序列。

[0107] 相关运算模块103，用于对所述参考特征序列和所述待测特征序列进行相关运算，获得相关系数序列。

[0108] 由于所述参考特征序列可用于表征源音频文件中所定位的参考单句的旋律特征，所述待测特征序列可用于表征目标音频文件中待测评的演唱单句的旋律特征，所述相关运算模块103可对所述参考特征序列和所述待测特征序列之间的相关运算，获得相关系数序列。

[0109] 测评模块104，用于根据所述相关系数序列，确定所述演唱单句的测评分数。

[0110] 所述待测评的演唱单句的测评分数越高，表明所述待测评的演唱单句的演唱效果越好，其越接近所定位的参考单句的演唱效果。反之，所述待测评的演唱单句的测评分数越低，表明所述待测评的演唱单句的演唱效果越差，其越偏离所定位的参考单句的演唱效果。

[0111] 本发明实施例中，可获取目标音频文件中待测评的演唱单句的待测特征序列，以及获取源音频文件中的参考单句的参考特征序列，通过对待测特征序列和参考特征序列的相关运算获得相关系数序列，基于该相关系数序列实现了对目标音频文件的演唱单句的测评，既满足了用户对于音频文件的应用过程中的实际需求，又提升了音频文件的应用智能性。

[0112] 下面将结合附图6-附图8，对附图5所示的音频测评装置中的各模块的结构和功能进行详细介绍。需要说明的是，后续图6-图8所示实施例中，设定所定位的参考单句包括N个音频帧，所述参考特征序列可表示为p(i)；其中，i为整数，且0≤i≤N-1。具体地，若所述参考特征序列为所述参考单句的音符序列，则p(0)表示所定位的参考单句中的第一个音频帧的音符，p(1)表示所定位的参考单句中的第二个音频帧的音符，以此类推，p(N-1)表示所定位的参考单句中的第N个音频帧的音符。若所述待测特征序列为所述演唱单句的音高序列，则p(0)表示所定位的参考单句中的第一个音频帧的音高，p(1)表示所定位的参考单句中的第二个音频帧的音符，以此类推，p(N-1)表示所定位的参考单句中的第N个音频帧的音符。

[0113] 设定待测评的演唱单句包括N个音频帧，所述待测特征序列可表示为s(i)，其中，i为整数，且0≤i≤N-1。具体地，若所述待测特征序列为所述演唱单句的音符序列，则s(0)表示所述待测评的演唱单句中的第一个音频帧的音符，s(1)表示所述待测评的演唱单句中的第二个音频帧的音符，以此类推，s(N-1)表示所述待测评的演唱单句中的第N个音频帧的音符。若所述待测特征序列为所述演唱单句的音高序列，则s(0)表示所述待测评的演唱单句中的第一个音频帧的音高，s(1)表示所述待测评的演唱单句中的第二个音频帧的音高，以此类推，s(N-1)表示所述待测评的演唱单句中的第N个音频帧的音高。

[0114] 请参见图6，为图5所示的相关运算模块的实施例的结构示意图；所述相关运算模块103可包括：均值计算单元1301、规整处理单元1302、序列转换单元1303和相关运算单元1304。

[0115] 均值计算单元1301，用于分别计算所述参考特征序列的均值及所述待测特征序列的均值。

[0116] 所述均值计算单元1301可采用图2所示实施例中的公式(1)分别计算所述参考特征序列p(i)的均值MP以及所述待测特征序列s(i)的均值MS。

[0117] 规整处理单元1302，用于采用所述参考特征序列的均值，对所述参考特征序列进行规整处理，采用所述待测特征序列的均值，对所述待测特征序列进行规整处理。

[0118] 规整处理的目的在于：将所述参考特征序列和所述待测特征序列调整至同一基准，以消除所述参考特征序列与所述待测特征序列由于均值求取标准不一致所带来的计算偏差影响。所述规整处理单元1302可采用图2所示实施例中的公式(2)对所述参考特征序列进行规整处理，获得规整处理后得到的参考特征序列p2(i)；并可采用图2所示实施例中的公式(3)对所述待测特征序列进行规整处理，获得规整处理后得到的待测特征序列s2(i)。

[0119] 序列转换单元1303，用于采用预设削波阈值，将规整处理后的所述参考特征序列转换为参考数值序列，将规整处理后的所述待测特征序列转换为待测数值序列。

[0120] 其中，所述预设削波阈值可根据实际需要进行设定，优选地，所述削波阈值Th_xue可采用图2所示实施例中的公式(4)进行设定。所述序列转换单元1303可采用图2所示实施例中的公式(5)将规整处理后的所述参考特征序列转换为参考数值序列p3(i)；并可采用图2所示实施例中的公式(6)将规整处理后的所述待测特征序列转换为待测数值序列s3(i)。

[0121] 相关运算单元1304，用于采用互相关函数对所述参考数值序列和所述待测数值序列进行相关运算，获得相关系数序列。

[0122] 在本实施例的一种可行的实施方式中，所述相关运算单元1304可采用图2所示实施例中的公式(7)对所述参考数值序列和所述待测数值序列进行相关运算，获得相关系数序列R(n)。在本实施例的另一种可行的实施方式中，所述相关运算单元1304可采用图2所示实施例中的公式(8)对所述参考数值序列和所述待测数值序列进行相关运算，获得相关系数序列R(n)。

[0123] 本发明实施例中，可获取目标音频文件中待测评的演唱单句的待测特征序列，以及获取源音频文件中的参考单句的参考特征序列，通过对待测特征序列和参考特征序列的相关运算获得相关系数序列，基于该相关系数序列实现了对目标音频文件的演唱单句的测评，既满足了用户对于音频文件的应用过程中的实际需求，又提升了音频文件的应用智能性。

[0124] 请参见图7，为图5所示的测评模块的一个实施例的结构示意图；所述测评模块104可包括：第一计算单元1401和第一测评单元1402。

[0125] 第一计算单元1401，用于计算所述相关系数序列的最大值。

[0126] 所述第一计算单元1401可采用图3所示实施例中的公式(9)计算所述相关系数序列的最大值RMAX。

[0127] 第一测评单元1402，用于将所述相关系数序列的最大值，确定为所述演唱单句的测评分数。

[0128] 所述第一测评单元1402可将所述相关系数序列的最大值直接确定为待测评的所述演唱单句的测评分数，即所述演唱单句的测评分数为RMAX的值。

[0129] 本发明实施例中，可获取目标音频文件中待测评的演唱单句的待测特征序列，以及获取源音频文件中的参考单句的参考特征序列，通过对待测特征序列和参考特征序列的相关运算获得相关系数序列，基于该相关系数序列实现了对目标音频文件的演唱单句的测评，既满足了用户对于音频文件的应用过程中的实际需求，又提升了音频文件的应用智能性。

[0130] 请参见图8，为图5所示的测评模块的另一个实施例的结构示意图；所述测评模块104可包括：第二计算单元1411、映射单元1412和第二测评单元1413。

[0131] 第二计算单元1411，用于计算所述相关系数序列的最大值。

[0132] 所述第二计算单元1411的计算过程可参见图7所示实施例中的所述第一计算单元1401的计算过程，在此不赘述。

[0133] 映射单元1412，用于将所述相关系数序列的最大值映射至预设分数区间，获得所述相关系数序列的最大值的映射值。

[0134] 所述预设分数区间可以根据实际需要进行设定，例如：所述预设分数区间可设定为[0,10]；或者，所述预设分数区间可设定为[0,100]。所述映射单元1412可采用[score_min,score_max]表示所述预设分数区间，通过线性或非线性方法将所述相关系数序列的最大值RMAX映射至所述预设分数区间，获得的映射值可表示score，该score位于[score_min,score_max]所示的预设分数区间内。

[0135] 第二测评单元1413，用于将所述映射值确定为所述演唱单句的测评分数。

[0136] 所述第二测评单元1413可将所述映射值score确定为待测评的所述演唱单句的测评分数，即所述演唱单句的测评分数为score的值。

[0137] 本发明实施例中，可获取目标音频文件中待测评的演唱单句的待测特征序列，以及获取源音频文件中的参考单句的参考特征序列，通过对待测特征序列和参考特征序列的相关运算获得相关系数序列，基于该相关系数序列实现了对目标音频文件的演唱单句的测评，既满足了用户对于音频文件的应用过程中的实际需求，又提升了音频文件的应用智能性。

[0138] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

[0139] 以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

一种音频测评方法及装置转让专利

申请号 : CN201410362595.5

文献号 : CN104157296B

文献日 : 2016-04-27

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 赵伟峰

申请人 : 腾讯科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :