音频相似度检测方法、装置、存储介质及计算机设备转让专利

申请号 : CN201811233515.0

文献号 : CN109087669A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈均赵旭峰沈锦龙樊征

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本发明实施例公开了一种音频相似度检测方法、装置、存储介质及计算机设备,本发明实施例可以获取待检测音频;从所述待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取所述待检测音频的特征序列;获取基准音频的基准特征序列;获取所述待检测音频的特征序列,与所述基准音频的基准特征序列之间的相似距离;根据所述相似距离确定所述待检测音频和基准音频之间的相似度。该方案可以将待检测音频中的干扰音频进行过滤及筛选出所需的音频特征,以及可以减小多种因素对相似度检测结果的影响,提高了音频相似度检测的准确性。

权利要求 :

1.一种音频相似度检测方法,其特征在于,包括:

获取待检测音频;

从所述待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取所述待检测音频的特征序列;

获取基准音频的基准特征序列;

获取所述待检测音频的特征序列,与所述基准音频的基准特征序列之间的相似距离;

根据所述相似距离确定所述待检测音频和基准音频之间的相似度。

2.根据权利要求1所述的音频相似度检测方法,其特征在于,所述从所述待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取所述待检测音频的特征序列,包括:对所述待检测音频进行预处理,得到预处理后的音频;

获取所述预处理后的音频的能量谱;

根据所述能量谱,从所述预处理后的音频中筛选出满足预设条件的音频,并将筛选出的音频对应的频率序列设置为所述待检测音频的特征序列。

3.根据权利要求2所述的音频相似度检测方法,其特征在于,所述对所述待检测音频进行预处理,得到预处理后的音频,包括:按照预设采样策略对所述待检测音频进行采样,得到采样后的音频;

按照预设分帧策略对所述采样后的音频进行分帧处理,得到分帧后的音频;

对所述分帧后的音频进行加窗处理,得到离散时域的预处理后的音频。

4.根据权利要求2所述的音频相似度检测方法,其特征在于,所述获取所述预处理后的音频的能量谱,包括:对所述预处理后的音频进行积分变换,得到所述预处理后的音频对应的频谱;

根据所述频谱确定所述预处理后的音频的能量谱。

5.根据权利要求2所述的音频相似度检测方法,其特征在于,所述根据所述能量谱,从所述预处理后的音频中筛选出满足预设条件的音频,包括:根据所述能量谱获取所述待检测音频的声音强度;

从所述待检测音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足所述预设条件的音频。

6.根据权利要求5所述的音频相似度检测方法,其特征在于,所述从所述待检测音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足所述预设条件的音频,包括:将所述待检测音频的声音强度标准化到预设声音强度范围,得到声音强度标准化音频;

从所述声音强度标准化音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足所述预设条件的音频。

7.根据权利要求1所述的音频相似度检测方法,其特征在于,当所述基准音频中包括目标基准音频和干扰音频时,所述获取基准音频的基准特征序列,包括:获取所述目标基准音频的第一均方根能量均值,以及获取所述干扰音频的第二均方根能量均值;

获取所述目标基准音频的第一能量谱,以及获取所述干扰音频的第二能量谱;

根据所述第一能量谱、第一均方根能量均值、第二均方根能量均值及第二能量谱,对所述基准音频进行优化,得到优化后的基准音频;

获取所述优化后的基准音频的基准特征序列。

8.根据权利要求7所述的音频相似度检测方法,其特征在于,所述获取所述目标基准音频的第一均方根能量均值,以及获取所述干扰音频的第二均方根能量均值,包括:确定所述目标基准音频的第一均方根能量,以及确定所述干扰音频的第二均方根能量;

获取所述目标基准音频的第一帧数和第一帧长,以及获取所述干扰音频的第二帧数和第二帧长;

根据所述第一均方根能量、第一帧数和第一帧长确定所述目标基准音频的第一均方根能量均值,以及根据所述第二均方根能量、第二帧数和第二帧长确定所述干扰音频的第二均方根能量均值。

9.根据权利要求1至8任一项所述的音频相似度检测方法,其特征在于,所述获取所述待检测音频的特征序列,与所述基准音频的基准特征序列之间的相似距离,包括:按照预设编码策略对所述待检测音频的特征序列进行编码,得到第一编码后的特征序列,以及按照所述预设编码策略对所述基准音频的基准特征序列进行编码,得到第二编码后的特征序列;

确定所述第一编码后的特征序列和第二编码后的特征序列之间的相似距离。

10.根据权利要求9所述的音频相似度检测方法,其特征在于,所述按照预设编码策略对所述待检测音频的特征序列进行编码,得到第一编码后的特征序列,包括:按照预设编码策略将所述待检测音频的特征序列中,每相邻两个特征值进行大小比较;

当相邻两个特征值中前一个特征值小于后一个特征值时,将所述待检测音频的特征序列编码为第一编码值,以及,当相邻两个特征值中前一个特征值等于后一个特征值时,将所述待检测音频的特征序列编码为第二编码值;以及,当相邻两个特征值中前一个特征值大于后一个特征值时,将所述待检测音频的特征序列编码为第三编码值;

基于所述第一编码值、第二编码值和/或第三编码值生成第一编码后的特征序列。

11.根据权利要求9所述的音频相似度检测方法,其特征在于,所述相似距离至少包括编辑距离、欧几里得距离和汉明距离,所述确定所述第一编码后的特征序列和第二编码后的特征序列之间的相似距离,包括:至少确定所述第一编码后的特征序列和第二编码后的特征序列之间的编辑距离、欧几里得距离和汉明距离;

对所述编辑距离、欧几里得距离和汉明距离分别进行归一化,得到相似距离。

12.根据权利要求11所述的音频相似度检测方法,其特征在于,所述根据所述相似距离确定所述待检测音频和基准音频之间的相似度,包括:构建编辑距离、欧几里得距离和汉明距离中各距离与子相似度之间的仿射函数;

根据各距离对应的仿射函数分别确定各距离对应的子相似度;

根据所述子相似度确定所述待检测音频和基准音频之间的相似度。

13.根据权利要求12所述的音频相似度检测方法,其特征在于,所述根据所述子相似度确定所述待检测音频和基准音频之间的相似度,包括:为所述编辑距离的子相似度设置第一权重值,及为所述汉明距离的子相似度设置第二权重值;

将所述欧几里得距离的子相似度设置为惩罚项;

根据所述第一权重值、第二权重值和惩罚项,确定所述待检测音频和基准音频之间的相似度。

14.根据权利要求1至9任一项所述的音频相似度检测方法,其特征在于,所述根据所述相似距离确定所述待检测音频和基准音频之间的相似度之后,所述方法包括:当所述待检测音频和基准音频之间的相似度大于预设相似度阈值时,执行虚拟资源转移操作,和/或显示所述待检测音频的相似度检测结果的相关信息。

15.根据权利要求1至9任一项所述的音频相似度检测方法,其特征在于,所述根据所述相似距离确定所述待检测音频和基准音频之间的相似度之后,所述方法包括:当所述待检测音频和基准音频之间的相似度大于预设相似度阈值时,执行解开音频锁操作。

16.一种音频相似度检测装置,其特征在于,包括:音频获取单元,用于获取待检测音频;

筛选单元,用于从所述待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取所述待检测音频的特征序列;

特征获取单元,用于获取基准音频的基准特征序列;

距离获取单元,用于获取所述待检测音频的特征序列,与所述基准音频的基准特征序列之间的相似距离;

确定单元,用于根据所述相似距离确定所述待检测音频和基准音频之间的相似度。

17.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至16任一项所述的音频相似度检测方法。

18.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有确定机程序,所述确定机程序被所述处理器执行时,使得所述处理器执行如权利要求1至16中任一项所述的音频相似度检测方法。

说明书 :

音频相似度检测方法、装置、存储介质及计算机设备

技术领域

[0001] 本发明涉及数据处理技术领域,具体涉及一种音频相似度检测方法、装置、存储介质及计算机设备。

背景技术

[0002] 随着科技的发展,人们的生活越来越丰富,例如,用户不仅可以欣赏音乐及影视等音频,还可以模仿该音频进行娱乐,此时需要对用户模仿的音频与原始音频进行比较,以评估模仿的相似度。
[0003] 现有技术中,以模仿歌曲为例,在检测音频相似度的过程中,首先,采集用户模仿的音频,以及混合有伴奏音频的原唱音频,然后直接计算用户模仿的音频和原唱音频之间的相似度。然而,由于原唱音频和用户模仿的音频受到较多因素的影响,这样直接计算相似度会产生较大的误差,导致得到的相似度准确性较低。

发明内容

[0004] 本发明实施例提供一种音频相似度检测方法、装置、存储介质及计算机设备,旨在提高音频相似度检测的准确性。
[0005] 为解决上述技术问题,本发明实施例提供以下技术方案:
[0006] 一种音频相似度检测方法,包括:
[0007] 获取待检测音频;
[0008] 从所述待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取所述待检测音频的特征序列;
[0009] 获取基准音频的基准特征序列;
[0010] 获取所述待检测音频的特征序列,与所述基准音频的基准特征序列之间的相似距离;
[0011] 根据所述相似距离确定所述待检测音频和基准音频之间的相似度。
[0012] 一种音频相似度检测装置,包括:
[0013] 音频获取单元,用于获取待检测音频;
[0014] 筛选单元,用于从所述待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取所述待检测音频的特征序列;
[0015] 特征获取单元,用于获取基准音频的基准特征序列;
[0016] 距离获取单元,用于获取所述待检测音频的特征序列,与所述基准音频的基准特征序列之间的相似距离;
[0017] 确定单元,用于根据所述相似距离确定所述待检测音频和基准音频之间的相似度。
[0018] 可选地,所述筛选单元包括:
[0019] 处理子单元,用于对所述待检测音频进行预处理,得到预处理后的音频;
[0020] 获取子单元,用于获取所述预处理后的音频的能量谱;
[0021] 筛选子单元,用于根据所述能量谱,从所述预处理后的音频中筛选出满足预设条件的音频,并将筛选出的音频对应的频率序列设置为所述待检测音频的特征序列。
[0022] 可选地,所述处理子单元具体用于:
[0023] 按照预设采样策略对所述待检测音频进行采样,得到采样后的音频;
[0024] 按照预设分帧策略对所述采样后的音频进行分帧处理,得到分帧后的音频;
[0025] 对所述分帧后的音频进行加窗处理,得到离散时域的预处理后的音频。
[0026] 可选地,所述获取子单元具体用于:
[0027] 对所述预处理后的音频进行积分变换,得到所述预处理后的音频对应的频谱;
[0028] 根据所述频谱确定所述预处理后的音频的能量谱。
[0029] 可选地,所述筛选子单元包括:
[0030] 获取模块,用于根据所述能量谱获取所述待检测音频的声音强度;
[0031] 筛选模块,用于从所述待检测音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的音频。
[0032] 可选地,所述筛选模块具体用于:
[0033] 将所述待检测音频的声音强度标准化到预设声音强度范围,得到声音强度标准化音频;
[0034] 从所述声音强度标准化音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足所述预设条件的音频。
[0035] 可选地,当所述基准音频中包括目标基准音频和干扰音频时,所述特征获取单元包括:
[0036] 均值获取子单元,用于获取所述目标基准音频的第一均方根能量均值,以及获取所述干扰音频的第二均方根能量均值;
[0037] 能量谱获取子单元,用于获取所述目标基准音频的第一能量谱,以及获取所述干扰音频的第二能量谱;
[0038] 优化子单元,用于根据所述第一能量谱、第一均方根能量均值、第二均方根能量均值及第二能量谱,对所述基准音频进行优化,得到优化后的基准音频;
[0039] 特征获取子单元,用于获取所述优化后的基准音频的基准特征序列。
[0040] 可选地,所述均值获取子单元具体用于:
[0041] 确定所述目标基准音频的第一均方根能量,以及确定所述干扰音频的第二均方根能量;
[0042] 获取所述目标基准音频的第一帧数和第一帧长,以及获取所述干扰音频的第二帧数和第二帧长;
[0043] 根据所述第一均方根能量、第一帧数和第一帧长确定所述目标基准音频的第一均方根能量均值,以及根据所述第二均方根能量、第二帧数和第二帧长确定所述干扰音频的第二均方根能量均值。
[0044] 可选地,所述距离获取单元包括:
[0045] 编码子单元,用于按照预设编码策略对所述待检测音频的特征序列进行编码,得到第一编码后的特征序列,以及按照所述预设编码策略对所述基准音频的基准特征序列进行编码,得到第二编码后的特征序列;
[0046] 第一确定子单元,用于确定所述第一编码后的特征序列和第二编码后的特征序列之间的相似距离。
[0047] 可选地,所述编码子单元具体用于:
[0048] 按照预设编码策略将所述待检测音频的特征序列中,每相邻两个特征值进行大小比较;
[0049] 当相邻两个特征值中前一个特征值小于后一个特征值时,将所述待检测音频的特征序列编码为第一编码值,以及,
[0050] 当相邻两个特征值中前一个特征值等于后一个特征值时,将所述待检测音频的特征序列编码为第二编码值;以及,
[0051] 当相邻两个特征值中前一个特征值大于后一个特征值时,将所述待检测音频的特征序列编码为第三编码值;
[0052] 基于第一编码值、第二编码值和/或第三编码值生成第一编码后的特征序列。
[0053] 可选地,所述相似距离至少包括编辑距离、欧几里得距离和汉明距离,所述第一确定子单元具体用于:
[0054] 至少确定所述第一编码后的特征序列和第二编码后的特征序列之间的编辑距离、欧几里得距离和汉明距离;
[0055] 对所述编辑距离、欧几里得距离和汉明距离分别进行归一化,得到相似距离。
[0056] 可选地,所述确定单元包括:
[0057] 构建子单元,用于构建编辑距离、欧几里得距离和汉明距离中各距离与子相似度之间的仿射函数;
[0058] 确定子单元,用于根据各距离对应的仿射函数分别确定各距离对应的子相似度;
[0059] 第三确定子单元,用于根据所述子相似度确定所述待检测音频和基准音频之间的相似度。
[0060] 可选地,所述第三确定子单元具体用于:
[0061] 为所述编辑距离的子相似度设置第一权重值,及为所述汉明距离的子相似度设置第二权重值;
[0062] 将所述欧几里得距离的子相似度设置为惩罚项;
[0063] 根据所述第一权重值、第二权重值和惩罚项,确定所述待检测音频和基准音频之间的相似度。
[0064] 可选地,所述音频相似度检测装置还包括:
[0065] 资源转移单元,用于当所述待检测音频和基准音频之间的相似度大于预设相似度阈值时,执行虚拟资源转移操作,和/或显示所述待检测音频的相似度检测结果的相关信息。
[0066] 可选地,所述音频相似度检测装置还包括:
[0067] 解锁单元,用于当所述待检测音频和基准音频之间的相似度大于预设相似度阈值时,执行解开音频锁操作。
[0068] 一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例提供的任一种音频相似度检测方法。
[0069] 一种计算机设备,包括存储器和处理器,所述存储器存储有确定机程序,所述确定机程序被所述处理器执行时,使得所述处理器执行本发明实施例提供的任一种音频相似度检测方法。
[0070] 本发明实施例可以获取待检测音频,以及从该待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取待检测音频的特征序列,从而可以将待检测音频中的干扰音频进行过滤及筛选出所需的音频特征,以及获取基准音频的基准特征序列;然后,获取待检测音频的特征序列,与基准音频的基准特征序列之间的相似距离,例如编辑距离、欧几里得距离和汉明距离等,该相似距离可以减小多种因素对相似度检测结果的影响,此时可以根据相似距离确定待检测音频和基准音频之间的相似度,提高了音频相似度检测的准确性。

附图说明

[0071] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0072] 图1是本发明实施例提供的音频相似度检测方法的场景示意图;
[0073] 图2是本发明实施例提供的音频相似度检测方法的流程示意图;
[0074] 图3是本发明实施例提供的音频相似度检测方法的另一流程示意图;
[0075] 图4是本发明实施例提供的音频相似度检测方法的另一流程示意图;
[0076] 图5是本发明实施例提供的终端显示K歌界面的示意图;
[0077] 图6(a)至6(d)是本发明实施例提供的初始时域采样图;
[0078] 图7(a)至7(d)是本发明实施例提供的频谱特征图;
[0079] 图8是本发明实施例提供的获取特征序列的流程示意图;
[0080] 图9是本发明实施例提供的筛选频率序列的流程示意图;
[0081] 图10(a)至10(d)是本发明实施例提供的经过特征过滤后的频谱特征图;
[0082] 图11(a)至11(c)是本发明实施例提供的第一维特征序列的示意图;
[0083] 图12(a)至12(c)是本发明实施例提供的第一编码征序列的示意图;
[0084] 图13是本发明实施例提供的终端显示红包金额及歌曲评级的示意图;
[0085] 图14是本发明实施例提供的终端显示提示用户重唱信息的示意图;
[0086] 图15是本发明实施例提供的终端显示语音消息的示意图;
[0087] 图16是本发明实施例提供的音频相似度检测装置的结构示意图;
[0088] 图17是本发明实施例提供的音频相似度检测装置的另一结构示意图;
[0089] 图18是本发明实施例提供的音频相似度检测装置的另一结构示意图;
[0090] 图19是本发明实施例提供的音频相似度检测装置的另一结构示意图;
[0091] 图20是本发明实施例提供的音频相似度检测装置的另一结构示意图;
[0092] 图21是本发明实施例提供的计算机设备的结构示意图。

具体实施方式

[0093] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0094] 本发明实施例提供一种音频相似度检测方法、装置、存储介质及计算机设备。
[0095] 请参阅图1,图1为本发明实施例所提供的音频相似度检测方法的场景示意图,该音频相似度检测方法可以应用于音频相似度检测装置,该音频相似度检测装置具体可以集成在平板电脑、手机、及笔记本电脑等具备储存单元并安装有微处理器而具有运算能力的终端中,例如,该终端可以获取待检测音频,该待检测音频可以是用户录音产生的音频等,然后,可以从待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取待检测音频的特征序列,例如,可以对待检测音频进行采样、分帧及加窗等预处理,得到预处理后的音频,对预处理后的音频进行积分变换,得到预处理后的音频对应的频谱,根据该频谱确定预处理后的音频的能量谱,根据能量谱从预处理后的音频中筛选出满足预设条件的音频,从而可以将待检测音频中的干扰音频进行过滤及筛选出所需的音频特征。以及,获取基准音频的基准特征序列,该基准音频可以从服务器获取得到的音频,或者是以其他途径获取的音频等;此时,可以获取待检测音频的特征序列与基准音频的基准特征序列,然后对这两个特征序列进行扩展曼彻斯特编码,并确定这两个编码后特征序列之间的相似距离,例如编辑距离、欧几里得距离和汉明距离等,该相似距离可以减小多种因素对相似度检测结果的影响,最后可以根据相似距离确定待检测音频和基准音频之间的相似度,提高了音频相似度检测的准确性;等等。
[0096] 需要说明的是,图1所示的音频相似度检测方法的场景示意图仅仅是一个示例,本发明实施例描述的音频相似度检测方法的场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着音频相似度检测方法的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
[0097] 以下分别进行详细说明。
[0098] 在本实施例中,将从音频相似度检测装置的角度进行描述,该音频相似度检测装置具体可以集成在平板电脑、手机、及笔记本电脑等具备储存单元并安装有微处理器而具有运算能力的终端中。
[0099] 一种音频相似度检测方法,包括:获取待检测音频;从待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取待检测音频的特征序列;获取基准音频的基准特征序列;获取待检测音频的特征序列,与基准音频的基准特征序列之间的相似距离;根据相似距离确定待检测音频和基准音频之间的相似度。
[0100] 请参阅图2,图2是本发明一实施例提供的音频相似度检测方法的流程示意图。该音频相似度检测方法可以包括:
[0101] 在步骤S101中,获取待检测音频。
[0102] 该待检测音频可以是用户唱一首歌曲或说一段话的音频等,例如,当音频相似度检测方法应用于歌曲评分的场景时,可以获取一首歌曲的原唱音频和伴奏音频作为基准音频,以及可以获取用户录制该首歌的音频作为待检测音频,后续可以确定该基准音频和待检测音频之间的相似度,可以是相似度大于预设相似度阈值时可以领取红包或领取经验值等。
[0103] 当音频相似度检测方法应用于声音锁的场景时,可以获取用户提前录制一段基准音频作为声音锁,解锁时可以获取用户录制的用于解锁的待检测音频,后续可以确定该基准音频和待检测音频之间的相似度,可以是相似度大于预设相似度阈值(例如接近百分之百)的情况下才能解开声音锁。
[0104] 需要说明的是,该音频相似度检测方法还可以应用于声音处理的其他领域,例如,声音的音调检测、音强检测或音质检测等。
[0105] 例如,在获取待检测音频的过程中,可以利用采样率为16KHZ或其他采样率的音频数据格式采集用户说话或唱歌的音频,得到待检测音频可以是码率为16bit或其他码率的连续脉冲编码调制(Pulse Code Modulation,PCM)信号。
[0106] 在步骤S102中,从待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取待检测音频的特征序列。
[0107] 在得到待检测音频后,可以对待检测音频进行频谱特征提取、特征过滤和筛选等,以便筛选出所需的特征序列,其中,该声音强度可以是音频的声音强度,该预设条件可以根据实际需要进行灵活设置,该特征序列可以包括从待检测音频中筛选出的频率序列等。
[0108] 在某些实施方式中,从待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取所述待检测音频的特征序列可以包括:
[0109] (1)对待检测音频进行预处理,得到预处理后的音频;
[0110] (2)获取预处理后的音频的能量谱;
[0111] (3)根据能量谱,从预处理后的音频中筛选出满足预设条件的音频,并将筛选出的音频对应的频率序列设置为待检测音频的特征序列。
[0112] 首先,为了方便对待检测音频进行筛选,可以对待检测音频进行预处理,在某些实施方式中,对待检测音频进行预处理,得到预处理后的音频可以包括:按照预设采样策略对待检测音频进行采样,得到采样后的音频;按照预设分帧策略对采样后的音频进行分帧处理,得到分帧后的音频;对分帧后的音频进行加窗处理,得到离散的预处理后的音频。
[0113] 具体地,可以依次对待检测音频进行采样、分帧、及加窗等处理,其中,分帧处理可以是对音频进行划分得到一帧帧的音频,例如,一分钟的音频可以按照每秒一帧来划分得到60帧音频。由于对音频进行分帧后,可能会造成音频的频谱能量泄露,因此,可以进一步对分帧后得到音频进行加窗处理,该加窗处理可以是采用不同的截取函数(即加窗函数)对信号进行截取,使得音频的频谱能量更加集中,接近真实的频谱,音频进行采样、分帧及加窗后,得到沿着时间轴分布的离散的幅度序列的音频信号。例如,可以按照预设采样策略利用采样频率为44100HZ或其他采样频率等,对待检测音频进行采样,得到采样后的音频,该预设采样策略可以是满足奈奎斯特采样定律的采样策略。然后,按照预设分帧策略如采用分帧长度为512个或1024个采样点,以及帧移为帧长的一半或三分之一等,对采样后的音频进行分帧处理,得到分帧后的音频,随后可以采用汉明窗函数、矩形窗函数或海明窗函数等对分帧后的音频进行加窗处理,得到离散的预处理后的音频。
[0114] 其中,帧长可以是指音频的数据帧的长度,例如,当音频的采样点的长度为512,及采样频率是44100HZ时,帧长为1/44100*512得到约等于11.6毫秒的长度。帧移可以是前后两帧音频的重叠量,例如,前后两帧音频的重叠量为帧长的一半时,该帧移即为帧长的一半。
[0115] 然后,获取预处理后的音频的能量谱,在某些实施方式中,获取预处理后的音频的能量谱可以包括:对预处理后的音频进行积分变换,得到预处理后的音频对应的频谱;根据频谱确定预处理后的音频的能量谱。
[0116] 其中,积分变换可以包括傅里叶变换及拉普拉斯变换等,本实施例中将以采用傅里叶变换为例进行详细说明。例如,可以对预处理后的音频进行2048个点或1024个点等的短时傅里叶变换,得到预处理后的音频中各帧音频对应的频谱,然后对预处理后的音频的频谱取模平方,得到预处理后的音频相应的能量谱,该能量谱可以是每帧音频在各频率上分布的能量大小所组成的矩阵。
[0117] 需要说明的是,本发明实施例中需要提取的特征除了可以通过傅里叶变换提取频谱特征之外,还可以获取短时平均过零率、短时能量、能量熵、频谱中心、频谱延展度、谱熵、频谱通量、频谱滚降低点、色度谱特征、和/或梅尔倒谱系数等用于音频处理的参数,这些不同的特征可适用于不同的应用场景。
[0118] 其次,为了将声音强度较低的干扰音频过滤掉,可以基于预处理后的音频的能量谱,从待检测音频中筛选出满足预设条件的音频,在某些实施方式中,根据能量谱,从预处理后的音频中筛选出满足预设条件的音频可以包括:根据能量谱获取待检测音频的声音强度;从待检测音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的音频。
[0119] 例如,可以将能量谱S转化为声音强度表示的矩阵P,将能量谱转化为声音强度表示的公式可以如下:
[0120]
[0121] 其中,S表示能量谱矩阵,P表示声音强度矩阵,a和ref表示系数,例如a可以取10,ref可以取1或其他值等,当S等于ref时,P等于0,根据该公式(1)可以确定出待检测音频的声音强度,此时可以从待检测音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的音频,从而可以把声音强度较低的干扰音频过滤掉,该预设阈值可以根据实际需要进行灵活设置,具体取值在此处不作限定。
[0122] 在某些实施方式中,从待检测音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的音频可以包括:将待检测音频的声音强度标准化到预设声音强度范围,得到声音强度标准化音频;从声音强度标准化音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的音频。
[0123] 例如,可以将待检测音频的声音强度P标准化到0~b分贝(db),符合人的听觉感知范围,标准化公式如下:
[0124] S_P=max(P,max(P)-b)(2)
[0125] 其中,该预设声音强度范围可以根据实际需要进行灵活设置,例如,可以将待检测音频的声音强度P标准化到0~80db,即b可以取80,S_P表示声音强度标准化音频的声音强度矩阵,P表示标准化之前的声音强度矩阵,
[0126] 此时可以设定声音强度的预设阈值,可以将声音强度标准化音频中低于预设阈值的声音强度置零,将声音强度标准化音频中高于预设阈值的筛选出来,得到声音强度满足预设条件的音频,由于待检测音频中的伴奏和背景音等都是干扰音频,设置该预设阈值可以对干扰音频进行合理过滤。
[0127] 在筛选出满足预设条件的音频后,可以将筛选出的音频对应的频率序列设置为待检测音频的特征序列,例如,可以对筛选出的音频按照声音强度从大到小进行排序,得到排序后音频;从排序后音频中提取出最大声音强度的音频,最大声音强度的音频对应的频率序列就是待检测音频的特征序列。
[0128] 例如,可以将过滤后的声音强度矩阵S_P(即筛选出的音频)按声音强度从大到小进行排序,得到排序后音频,然后,从排序后音频中提取出声音强度最大的预设音频(例如前6维最大声音强度的音频),并从预设音频的频率矩阵中提取出预设维频率序列(例如6维),例如提取出每帧音频前六维最大的声音强度的频率序列,该频率序列即为最终得到的待检测音频的特征序列。
[0129] 相对于现有技术未进行充分的特征工程的处理,例如未对音频特征进行过滤、及筛选等处理,而由于待检测音频本身具有停顿或强弱等特点,相应特征在时域和频域上也有长短或大小的区分,本发明实施例中针对待检测音频的特点,进行了充分的特征工程处理,例如对待检测音频进行预处理,获取能量谱,根据能量大小对频谱特征进行过滤及排序,筛选出前n维(例如n=6)能量最大的特征等,从而可以减小后续确定相似度所产生的误差。
[0130] 需要说的是,当待检测音频中存在如伴奏音频等干扰音频时,例如待检测音频中包括用户音频和伴奏音频,为了提高后续确定相似度的准确性,可以将伴奏音频进行减弱。可选地,在获取待检测音频的特征序列的过程中,可以获取用户音频的均方根能量均值,以及获取伴奏音频的均方根能量均值;获取用户音频的能量谱,以及获取伴奏音频的能量谱;
根据用户音频的能量谱、用户音频的均方根能量均值、伴奏音频的均方根能量均值及伴奏音频的能量谱,对待检测音频进行优化,得到优化后待检测音频;获取优化后待检测音频的特征序列。
[0131] 其中,优化是指对音频中包含的伴奏音频等干扰音频进行减弱或过滤等,对音频进行优化的目的是减弱干扰音频的影响,例如减小环境噪音对相似度确定的影响。由于在对音频进行优化前,该音频中包含干扰音频,因此,为了减弱干扰音频对音频相似度检测结果的影响,可以对音频进行优化,得到的优化后的音频中,干扰音频已经被减弱或过滤等。
[0132] 可选地,获取用户音频的均方根能量均值,以及获取伴奏音频的均方根能量均值可以包括:确定用户音频的均方根能量,以及确定伴奏音频的均方根能量;获取用户音频的帧数和帧长,以及获取伴奏音频的帧数和帧长;根据用户音频的均方根能量、帧数和帧长确定用户音频的均方根能量均值,以及根据伴奏音频的均方根能量、帧数和帧长确定伴奏音频的均方根能量均值。
[0133] 例如,首先确定用户音频中各帧音频的均方根能量,然后获取用户音频的帧数和帧长;根据用户音频的均方根能量、帧数和帧长确定用户音频的均方根能量均值,其计算公式可以如下:
[0134]
[0135] 其中,M表示帧数,N表示帧长,xij(n)表示第i帧第j个采样点的幅度,伴奏音频的均方根能量均值也可以按照公式(3)确定得到。
[0136] 此时,可以确定用户音频的均方根能量均值和伴奏音频的均方根能量均值之间的比例,例如,用户音频的均方根能量均值除以伴奏音频的均方根能量均值,得到二者均方根能量均值的比例,其计算公式可以如下:
[0137]
[0138] 用户音频和伴奏音频的均方根能量均值之间的比例反映了用户音频和伴奏音频之间声音强度的相对强弱。
[0139] 然后,可以获取用户音频的能量谱,以及获取伴奏音频的能量谱,根据用户音频的能量谱、伴奏音频的能量谱,以及用户音频的均方根能量均值和伴奏音频的均方根能量均值之间的比例,对待检测音频进行优化,得到优化后待检测音频,例如,用户音频的能量谱减去对应比例的伴奏音频的能量谱,其计算公式可以如下:
[0140] 差值矩阵=用户音频的能量谱-伴奏音频的能量谱×比例(5)
[0141] 其中,差值矩阵即为优化后待检测音频,该差值矩阵可以是经过对伴奏音频进行减弱,增强了用户音频(即人声特征)的特征矩阵。此时可以获取优化后待检测音频的特征序列。
[0142] 相对于现有技术中未考虑待检测音频中包含的伴奏音频和环境噪音等的干扰,例如待检测音频做了很多混音处理,用户音频与伴奏音频等存在较大的差异,直接确定相似度会导致较大的误差,而本发明实施例中可以根据用户音频和伴奏音频的相对强弱,对待检测音频进行了伴奏音频减弱,增强了用于比较的用户音频,因此无论有无伴奏,都可以精准检测出基准音频和用户音频之间的相似度。
[0143] 在步骤S103中,获取基准音频的基准特征序列。
[0144] 该基准音频可以是从服务器获取,或者预先录制的,例如,在歌曲评分的应用场景,可以从服务器是上下载或预先录制一首歌曲的原唱音频和伴奏音频作为基准音频;在声音锁的应用场景,可以获取用户提前录制一段音频作为基准音频(即声音锁)等。基准音频的基准特征序列可以包括从基准音频中筛选出满足预设条件的频率序列等,该基准特征序列可以是预先确定好并存储在本地,或者当需要用到基准特征序列时,对基准音频进行特征提取得到的。
[0145] 例如,在获取基准音频的过程中,可以利用采样率为16KHZ或其他采样率的音频数据格式采集基准音频,该基准音频可以是码率为16bit或其他码率的连续PCM信号。
[0146] 可选地,在得到基准音频后,可以从基准音频中筛选出满足预设条件的目标音频,并根据筛选出的目标音频获取基准音频的基准特征序列。
[0147] 可选地,从基准音频中筛选出满足预设条件的目标音频,并根据筛选出的目标音频获取基准音频的基准特征序列可以包括:对基准音频进行预处理,得到预处理后基准音频;获取预处理后基准音频的能量谱;根据能量谱从基准音频中筛选出满足预设条件的目标音频,并将筛选出的目标音频对应的频率序列设置为基准音频的基准特征序列。
[0148] 为了方便对基准音频进行筛选,可以对基准音频进行预处理,可选地,对基准音频进行预处理,得到预处理后基准音频可以包括:按照预设采样策略对基准音频进行采样,得到采样后基准音频;按照预设分帧策略对采样后基准音频进行分帧处理,得到分帧后基准音频;对分帧后基准音频进行加窗处理,得到离散时域的预处理后基准音频。
[0149] 例如,可以按照预设采样策略利用采样频率为44100HZ或其他采样频率等,对基准音频进行采样,得到采样后基准音频,该预设采样策略可以是满足奈奎斯特采样定律的采样策略。然后,按照预设分帧策略采用的分帧长度为512个或1024个采样点等,以及帧移取帧长的一半或三分之一等,对采样后基准音频进行分帧处理,得到分帧后基准音频,此时可以采用汉明窗函数、矩形窗函数或海明窗函数等对分帧后基准音频进行加窗处理,得到离散时域的预处理后基准音频,即该预处理后基准音频可以是离散的时域音频信号幅度序列。
[0150] 可选地,获取预处理后基准音频的能量谱可以包括:对预处理后基准音频进行积分变换,得到预处理后基准音频对应的频谱;根据频谱确定预处理后基准音频的能量谱。
[0151] 其中,积分变换可以包括傅里叶变换及拉普拉斯变换等,以采用傅里叶变换为例,例如,可以对预处理后基准音频进行2048个点或1024个点等的短时傅里叶变换,得到预处理后基准音频中各帧音频对应的频谱,然后对预处理后基准音频的频谱取模平方,得到预处理后基准音频相应的能量谱,该能量谱可以是每帧基准音频在各频率上分布的能量大小所组成的矩阵。
[0152] 可选地,根据能量谱从基准音频中筛选出满足预设条件的目标音频可以包括:根据能量谱获取基准音频的声音强度;从基准音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的目标音频。
[0153] 例如,可以按照上述公式(1)将基准音频的能量谱转化为声音强度,此时可以从基准音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的目标音频,从而可以把声音强度较低的干扰音频过滤掉,该预设阈值可以根据实际需要进行灵活设置,具体取值在此处不作限定。
[0154] 可选地,从基准音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的目标音频可以包括:将基准音频的声音强度标准化到预设声音强度范围,得到声音强度标准化基准音频;从声音强度标准化基准音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的目标音频。
[0155] 例如,可以按照上述公式(2)将待检测音频的声音强度P标准化到0~80db,符合人的听觉感知范围,此时可以设定声音强度的预设阈值,可以将声音强度标准化基准音频中低于预设阈值的声音强度置零,将声音强度标准化基准音频中高于预设阈值的筛选出来,得到声音强度满足预设条件的目标音频,由于基准音频中的伴奏和背景音等都是干扰音频,设置该预设阈值可以对干扰音频进行合理过滤。
[0156] 在筛选出满足预设条件的目标音频后,可以将筛选出的目标音频对应的频率序列设置为基准音频的基准特征序列,例如,可以对筛选出的目标音频按照声音强度从大到小进行排序,得到排序后目标音频;从排序后目标音频中提取出声音强度最大的音频,最大声音强度的音频对应的频率序列就是基准音频的特征序列。例如提取出每帧音频前六维最大的声音强度的频率序列,该频率序列即为最终得到的基准音频的特征序列。由于待检测音频本身具有停顿或强弱等特点,相应特征在时域和频域上也有长短或大小的区分,针对待检测音频的特点,对基准音频进行预处理,获取能量谱,根据能量大小对频谱特征进行过滤及排序,筛选出前n维能量最大的特征等,从而可以减小后续确定相似度所产生的误差。
[0157] 在某些实施方式中,当基准音频中包括目标基准音频和干扰音频时,获取基准音频的基准特征序列可以包括:获取目标基准音频的第一均方根能量均值,以及获取干扰音频的第二均方根能量均值;获取目标基准音频的第一能量谱,以及获取干扰音频的第二能量谱;根据第一能量谱、第一均方根能量均值、第二均方根能量均值及第二能量谱,对基准音频进行优化,得到优化后的基准音频;获取优化后的基准音频的基准特征序列。
[0158] 在某些实施方式中,获取目标基准音频的第一均方根能量均值,以及获取干扰音频的第二均方根能量均值可以包括:确定目标基准音频的第一均方根能量,以及确定干扰音频的第二均方根能量;获取目标基准音频的第一帧数和第一帧长,以及获取干扰音频的第二帧数和第二帧长;根据第一均方根能量、第一帧数和第一帧长确定目标基准音频的第一均方根能量均值,以及根据第二均方根能量、第二帧数和第二帧长确定干扰音频的第二均方根能量均值。
[0159] 例如,可以按照上述公式(3)确定目标基准音频的第一均方根能量均值,以及干扰音频的第二均方根能量均值,然后确定目标基准音频的第一均方根能量均值和干扰音频的第二均方根能量均值之间的比例,其次利用目标基准音频的能量谱减去该比例的干扰音频的能量谱,以对基准音频进行优化,得到优化后的基准音频,该优化后的基准音频可以是已经对干扰音频进行减弱,增强了目标基准音频的特征矩阵,最后可以获取优化后的基准音频的基准特征序列,从而可以根据目标基准音频和干扰音频的相对强弱,对基准音频中的干扰音频进行了(例如伴奏音频)减弱,增强了用于比较的目标基准音频(例如原唱音频),因此可以精准检测出基准音频和待检测音频之间的相似度。
[0160] 在步骤S104中,获取待检测音频的特征序列,与基准音频的基准特征序列之间的相似距离。
[0161] 其中,该相似距离至少可以包括编辑距离、欧几里得距离和汉明距离等,该编辑距离可以用于衡量相似度的主要分量;欧式距离可以用于衡量编码序列的差异性,对相似度结果进行惩罚;汉明距离可以用于衡量编码序列的绝对一致性,对相似度结果正向反馈。以下将进行详细说明。
[0162] 在某些实施方式中,获取待检测音频的特征序列,与基准音频的基准特征序列之间的相似距离可以包括:按照预设编码策略对待检测音频的特征序列进行编码,得到第一编码后的特征序列,以及按照预设编码策略对基准音频的基准特征序列进行编码,得到第二编码后的特征序列;确定第一编码后的特征序列和第二编码后的特征序列之间的相似距离。
[0163] 为了提高相似度确定的准确性及稳定性,可以对待检测音频的特征序列和基准音频的基准特征序列进行编码,并基于编码后特征序列确定相似距离。其中,预设编码策略可以根据实际需要进行灵活设置,例如,预设编码策略可以包括差分曼彻斯特编码、非归零反相编码(NRZI,No Return Zero-Inverse)、曼彻斯特编码和扩展曼彻斯特编码等。
[0164] 在某些实施方式中,按照预设编码策略对待检测音频的特征序列进行编码,得到第一编码后的特征序列可以包括:按照预设编码策略将待检测音频的特征序列中,每相邻两个特征值进行大小比较;当相邻两个特征值中前一个特征值小于后一个特征值时,将待检测音频的特征序列编码为第一编码值,以及,当相邻两个特征值中前一个特征值等于后一个特征值时,将待检测音频的特征序列编码为第二编码值;以及,当相邻两个特征值中前一个特征值大于后一个特征值时,将待检测音频的特征序列编码为第三编码值;基于第一编码值、第二编码值和/或第三编码值生成第一编码后的特征序列。
[0165] 该预设编码策略以扩展曼彻斯特编码为例,该扩展曼彻斯特编码的编码规则可以为:若特征序列中相邻两个特征值从低到高变化,则将待检测音频的特征编码为第一编码值,例如编码为“1”;若特征序列中相邻两个特征值保持不变,则将待检测音频的特征编码为第二编码值,例如编码为“0”;若特征序列中相邻两个特征值从高到低变化,则将待检测音频的特征编码为第三编码值,例如编码为“-1”。
[0166] 例如,可以从待检测音频的特征序列中的位于第一位的特征值开始,首先可以将位于第一位的特征值编码为0,然后,将位于第一位的特征值与位于第二位的特征值进行比较,或者是,可以不对位于第一位的特征值进行编码,直接将位于第一位的特征值与位于第二位的特征值进行比较。当第一位的特征值小于第二位的特征值时,编码为“1”,以及,当第一位的特征值等于第二位的特征值时,编码为“0”;以及,当第一位的特征值大于第二位的特征值时,编码为“-1”。进一步地,将位于第二位的特征值与位于第三位的特征值进行比较,依此类推,直至将待检测音频的特征序列中每相邻两个特征值进行比较完毕,得到待检测音频对应的第一编码后的特征序列。该第一编码后的特征序列可以由-1、0、或1组成,该第一编码后的特征序列可以用于表征待检测音频的频率特征在时间尺度的高低变化。
[0167] 同样的,针对基准音频,也可以按照该扩展曼彻斯特编码的编码规则对基准音频的基准特征序列进行编码,在某些实施方式中,按照预设编码策略对基准音频的基准特征序列进行编码,得到第二编码后的特征序列可以包括:按照预设编码策略将基准音频的特征序列中,每相邻两个特征值进行大小比较;当相邻两个特征值中前一个特征值小于后一个特征值时,将基准音频的特征序列编码为第一编码值,以及,当相邻两个特征值中前一个特征值等于后一个特征值时,将基准音频的特征序列编码为第二编码值;以及,当相邻两个特征值中前一个特征值大于后一个特征值时,将基准音频的特征序列编码为第三编码值;基于第一编码值、第二编码值和/或第三编码值生成第二编码后的特征序列。
[0168] 由于待检测音频或基准音频容易受到个体差异和性别影响,例如,女声相对于男声的频率较高,不同的人在发同一音子的基础频率不同,发音长短也不同等,因此若通过简单的设定阈值和参数的方式消除个体差异性带来的影响,则容易受主观因素和数据规模的影响,不够准确和稳定,而本发明实施例中使用扩展曼彻斯特编码对待检测音频的特征序列和基准音频的基准特征序列进行编码,通过确定编码后特征序列的相似性来表征待检测音频和基准音频之间的相似度,消除了伴奏音频、个体和性别差异等干扰因素对相似度检测结果准确性的影响。
[0169] 在某些实施方式中,相似距离至少包括编辑距离、欧几里得距离和汉明距离,确定第一编码后的特征序列和第二编码后的特征序列之间的相似距离可以包括:至少确定第一编码后的特征序列和第二编码后的特征序列之间的编辑距离、欧几里得距离和汉明距离;对编辑距离、欧几里得距离和汉明距离分别进行归一化,得到相似距离。
[0170] 其中,编辑距离可以是指针对于两个编码后特征序列,由其中一个编码后特征序列转换成另一个编码后特征序列所需的最少编辑操作次数。编辑距离越大,说明两个编码后特征序列之间不同特征越多,反之,编辑距离越小,说明两个编码后特征序列之间不同特征越少,该编辑操作可以包括将一个特征字符替换成另一个特征字符、插入一个特征字符、及删除一个特征字符等,该特征字符可以是编码得到的“1”、“0”或“-1”等。确定第一编码后的特征序列和第二编码后的特征序列之间的编辑距离,即确定第一编码后的特征序列转换成第二编码后的特征序列所需的最少编辑操作次数,使用编辑距离可以衡量第一编码后的特征序列和第二编码后的特征序列等这两个特征序列整体的相似性,较好地解决了由于发音长短不同导致的对齐问题等。
[0171] 欧几里得距离可以是指第一编码后的特征序列和第二编码后的特征序列在欧几里得空间中两点间的直线距离,本发明实施例中欧几里得距离用于度量第一编码后的特征序列和第二编码后的特征序列等这两个特征序列之间的相差程度。例如可以设置基准音频(例如原唱音频)对应的第二编码后的特征序列为(x1,x2,......,xn),待检测音频(例如用户音频)对应的第一编码后的特征序列为(y1,y2,......,yn),其中,n为这两个编码后特征序列中最长序列的长度,n的取值可以根据实际需要进行灵活设置,例如长度不足n的可以补零。第一编码后的特征序列和第二编码后的特征序列之间欧几里得距离d2的计算公式可以如下:
[0172]
[0173] 汉明距离可以是指第一编码后的特征序列和第二编码后的特征序列对应位置不同的特征字符个数,即将第一编码后的特征序列变换成第二编码后的特征序列所需要替换的次数,该汉明距离可以用于度量第一编码后的特征序列和第二编码后的特征序列等这两个序列对应位置的绝对一致性。
[0174] 在得到编辑距离d1、欧几里得距离d2和汉明距离d3后,可以对编辑距离、欧几里得距离和汉明距离分别进行归一化,其中,由于得到编辑距离d1、欧几里得距离d2和汉明距离d3等可能较大,为了方便后续确定音频的相似度,因此可以对得到编辑距离d1、欧几里得距离d2和汉明距离d3等进行归一化,该归一化是指将编辑距离、欧几里得距离和汉明距离等归一化到0~1的范围内。例如,可以按照以下公式(7)对编辑距离d1进行归一化,得到归一化后编辑距离为D1;对欧几里得距离d2进行归一化,得到归一化后欧几里得距离为D2;对汉明距离d3进行归一化,得到归一化后汉明距离为D3,归一化后编辑距离为D1、归一化后欧几里得距离为D2、即归一化后汉明距离为D3即为相似距离。
[0175]
[0176] 在步骤S105中,根据相似距离确定待检测音频和基准音频之间的相似度。
[0177] 在某些实施方式中,根据相似距离确定待检测音频和基准音频之间的相似度可以包括:构建编辑距离、欧几里得距离和汉明距离中各距离与子相似度之间的仿射函数;根据各距离对应的仿射函数分别确定各距离对应的子相似度;根据子相似度确定待检测音频和基准音频之间的相似度。
[0178] 其中,建立相似度关于相似距离的仿射函数可以是指将归一化得到的编辑距离、欧几里得距离、及汉明距离作为自变量,将相似度作为因变量,建立自变量和因变量这两者之间的映射关系。可以利用仿射函数将归一化后的编辑距离、欧几里得距离、及汉明距离确定出标准化到0~100范围内的子相似度。
[0179] 构建编辑距离、欧几里得距离和汉明距离中各距离与子相似度之间的仿射函数,建立子相似度与编辑距离D1之间的第一仿射函数为F(D1),其表达式如下公式(8)所示;建立子相似度与欧几里得距离D2之间的第二仿射函数为F(D2),其表达式如下公式(10)所示;建立子相似度与汉明距离D3之间的第三仿射函数为F(D3),其表达式如下公式(12)所示。
[0180]
[0181] 其中,公式(8)中的n1至n8,以及n10至n44的取值可以根据实际需要进行灵活设置,例如,n1至n8,以及n10至n44取相应值后,可以得到第一仿射函数为F(D1)的如公式(9)所示。
[0182]
[0183]
[0184] 其中,公式(10)中的c1至c4的取值可以根据实际需要进行灵活设置,例如,c1至c4取相应值后,可以得到第二仿射函数为F(D2)的如公式(11)所示。
[0185]
[0186] 其中,公式(12)中的m1至m6,以及m10至m36的取值可以根据实际需要进行灵活设置,例如,m1至m6,以及m10至m36取相应值后,可以得到第三仿射函数为F(D3)的如公式(13)所示。
[0187]
[0188] 在得到编辑距离D1对应的第一仿射函数为F(D1)、欧几里得距离D2对应的第二仿射函数为F(D2)、及汉明距离D3对应的第三仿射函数为F(D3)后,可以根据第一仿射函数为F(D1)确定编辑距离D1对应的第一子相似度,根据第二仿射函数为F(D2)确定欧几里得距离D2对应的第二子相似度,以及根据第三仿射函数为F(D3)确定汉明距离D3对应的第三子相似度,此时可以根据第一子相似度、第二子相似度及第三子相似度确定待检测音频和基准音频之间的相似度。
[0189] 需要说明的是,在确定序列相似度时,除了可以采用编辑距离、欧拉距离和汉明距离来确定之外,还可以利用动态时间规整或最长公共子串等比对算法来确定待检测音频和基准音频之间的相似度。
[0190] 在某些实施方式中,根据子相似度确定待检测音频和基准音频之间的相似度可以包括:为编辑距离的子相似度设置第一权重值,及为汉明距离的子相似度设置第二权重值;将欧几里得距离的子相似度设置为惩罚项;根据第一权重值、第二权重值和惩罚项,确定待检测音频和基准音频之间的相似度。
[0191] 例如,由于编辑距离克服了发音长短或停顿等,以及具有抗干扰能力强的特性,因此可以将编辑距离作为最重要的相似度确定分量;由于汉明距离具有用于度量特征序列的绝对一致性的特性,因此可以将汉明距离作为辅助的相似度确定分量;由于欧几里得距离度量特征序列的几何距离,突出特征序列的差异的特性,因此可以将欧几里得距离作为相似度确定的惩罚项。此时,可以为编辑距离的子相似度设置第一权重值,及为汉明距离的子相似度设置第二权重值,并将欧几里得距离的子相似度设置为惩罚项,其中第一权重值和第二权重值的取值可以根据实际需要进行灵活设置,然后根据第一权重值、第二权重值和惩罚项确定待检测音频和基准音频之间的相似度,其计算公式可以如下所示:
[0192]
[0193] 其中,SimilarityDegree表示相似度,N表示特征序列中包含特征的维度,例如,N的取值可以为6,分别确定6维编码后特征序列对应的相似度并取平均值,得到待检测音频和基准音频之间的相似度检测结果,R1表示第一权重值、R2表示第二权重值,R1和R2的取值可以根据实际需要进行灵活设置,例如,R1的取值可以为0.7,R2的取值可以为0.3,此时可以得到相似度的计算公式可以如下所示:
[0194]
[0195] 相似度确定可以是指在相似度计算公式中统一编辑距离、欧几里得距离和汉明距离,并根据这三者距离值确定出标准化到0~100范围内的相似度。
[0196] 在某些实施方式中,根据相似距离确定待检测音频和基准音频之间的相似度的步骤之后,音频相似度检测方法还可以包括:当待检测音频和基准音频之间的相似度大于预设相似度阈值时,执行虚拟资源转移操作,和/或显示待检测音频的相似度检测结果的相关信息。
[0197] 例如,在歌曲评分的应用场景,以K歌红包为例,主要涉及原唱播放、用户歌唱、检测原唱音频和用户音频的相似度、相似度评级和领取红包等。具体地,首先,用户可以选择一段原唱音频作为红包的载体,用户点击该红包之后,用户可以点击“试听”按钮,生成播放指令,音频相似度检测装置可以基于该播放指令播放原唱音频,用户可以聆听原唱音频,或者用户也可以直接点击“开始唱歌”按钮,生成采集指令,此时用户可以跟随伴奏模仿原唱进行唱歌,音频相似度检测装置可以基于采集指令采集用户音频。然后可以将获取到的用户音频作为待检测音频,以及将原唱音频作为基准音频,分别对用户音频和原唱音频依次进行预处理、提取频谱特征、原唱音频和用户音频中的伴奏音频进行减弱、特征过滤和筛选、扩展曼彻斯特编码、相似度距离度量、建立相似度关于距离度量的仿射函数、及相似度确定等,得到原唱音频和用户音频之间的相似度。当相似度大于预设相似度阈值时,用户可以领取该红包,即触发音频相似度检测装置执行虚拟资源转移操作(优化用户领取红包即为音频相似度检测装置执行虚拟资源转移的操作),以及音频相似度检测装置可以显示红包金额和用户的歌曲评级等相似度检测结果的相关信息;当相似度小于或等于预设相似度阈值时,用户不能领取该红包,并提示用户重唱等相似度检测结果的相关信息,此时可以退出红包界面,以及将用户音频会转为一段带有评级的语音消息,该语音消息的内容可以是用户跟随伴奏唱歌的音频;等等。
[0198] 在某些实施方式中,根据相似距离确定待检测音频和基准音频之间的相似度的步骤之后,音频相似度检测方法还可以包括:当待检测音频和基准音频之间的相似度大于预设相似度阈值时,执行解开音频锁操作。
[0199] 例如,在声音锁的应用场景,可以获取预先录制的基准音频作为声音锁,当音频相似度检测装置未使用时,处于锁住状态,当需要解锁时,用户可以模仿基准音频生成待检测音频,然后对待检测音频依次进行预处理、提取频谱特征、特征过滤和筛选、扩展曼彻斯特编码、相似度距离度量、建立相似度关于距离度量的仿射函数、及相似度确定等,得到待检测音频和基准音频之间的相似度。当相似度大于预设相似度阈值时,执行解开音频锁操作;当相似度小于或等于预设相似度阈值时,不解锁,此时还可以显示解锁失败、待检测音频和基准音频之间的相似度等提示信息。
[0200] 例如,手机、智能手表、智能电视、或电脑等终端(即音频相似度检测装置)未使用时处于锁屏状态,当需要解锁时,用户可以对着终端模仿基准音频,此时终端可以采集到待检测音频,当待检测音频与基准音频之间的相似度大于预设相似度阈值时,终端可以执行解锁操作,开启终端,并进入显示界面。或者是,当终端处于开启状态时,当需要开启应用A时,用户可以对着终端模仿基准音频,此时终端可以采集到待检测音频,当待检测音频与基准音频之间的相似度大于预设相似度阈值时,终端可以执行开启应用A操作。或者是,当音频相似度检测装置为门禁时,当需要解锁门禁时,用户可以对着门禁模仿基准音频,此时门禁可以采集到待检测音频,当待检测音频与基准音频之间的相似度大于预设相似度阈值时,可以开启门禁;等等。
[0201] 本发明实施例中能够稳定且准确的检测待检测音频和基准音频之间的相似度,该相似度检测结果较少受伴奏音频、环境噪音、个体和性别差异等干扰因素的影响,即克服了由于伴奏音频、环境噪音、体和性别差异差等对相似度结果的影响,解决了用户仅用伴奏或播放原唱获得高相似度的问题,无论有无伴奏均可用于待检测音频和基准音频的相似度检测,稳定性好,且相似度检测结果准确性较高。
[0202] 由上可知,本发明实施例可以获取待检测音频,以及从该待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取待检测音频的特征序列,从而可以将待检测音频中的干扰音频进行过滤及筛选出所需的音频特征,以及获取基准音频的基准特征序列;然后,获取待检测音频的特征序列,与基准音频的基准特征序列之间的相似距离,例如编辑距离、欧几里得距离和汉明距离等,该相似距离可以减小多种因素对相似度检测结果的影响,此时可以根据相似距离确定待检测音频和基准音频之间的相似度,提高了音频相似度检测的准确性。
[0203] 根据上述实施例所描述的方法,以下将举例作进一步详细说明。
[0204] 本实施例以音频相似度检测装置为终端为例,该终端可以获取包括原唱音频和伴奏音频的基准音频,以及获取用户录制的待检测音频,然后对基准音频和待检测音频依次进行S1预处理、S2提取频谱特征、S3原唱音频和用户音频中的伴奏音频进行减弱、S4特征过滤和筛选、S5扩展曼彻斯特编码、S6相似度距离度量、S7建立相似度关于距离度量的仿射函数、及S8相似度计算等,得到基准音频和待检测音频之间的相似度,如图3所示,其次判断该相似度是否大于预设相似度阈值,当该相似度大于预设相似度阈值时,可以执行虚拟资源转移操作,及显示相似度检测结果的相关信息等。
[0205] 请参阅图4,图4为本发明实施例提供的音频相似度检测方法的流程示意图。该方法流程可以包括:
[0206] S201、终端获取待检测音频,对待检测音频依次进行采样、分帧及加窗的预处理,得到预处理后的音频。
[0207] 终端可以获取用户录制歌曲的音频作为待检测音频,例如,如图5所示,用户A选择一段原唱音频作为红包的载体,例如XXX的K歌红包,用户点击该红包之后,可以选择点击“试听”按钮听原唱音频,激活“试听”按钮可以生成播放指令,终端可以基于该播放指令播放原唱音频,此时,在显示界面内可以显示试听进度及歌词等,或者直接点击“开始唱歌”按钮生成采集指令,此时用户可以跟随伴奏模仿原唱音频进行唱歌,终端可以基于采集指令采集用户音频,得到待检测音频。
[0208] 为了方便对待检测音频进行筛选,可以对待检测音频进行预处理,包括:利用满足奈奎斯特采样定律的采样策略,通过采样频率为44100HZ或其他采样频率等对待检测音频进行采样,得到采样后的音频。然后,采用的分帧长度为512个或1024个采样点等,以及帧移取帧长的一半或三分之一等,对采样后的音频进行分帧处理,得到分帧后的音频。此时可以采用汉明窗函数、矩形窗函数或海明窗函数等对分帧后的音频进行加窗处理,得到离散时域的预处理后的音频。
[0209] 例如,如图6(a)至6(d)所示,其中,基准音频中可以包括原唱音频和伴奏音频,待检测音频可以是用户男音频或用户女音频,图6(a)可以是对原唱音频进行预处理后得到的初始时域采样图,图6(b)可以是对伴奏音频进行预处理后得到的初始时域采样图,图6(c)可以是对用户男音频进行预处理后得到的初始时域采样图,图6(d)可以是对用户女音频进行预处理后得到的初始时域采样图。
[0210] S202、终端对预处理后的音频进行傅里叶变换得到频谱,并根据频谱确定预处理后的音频的能量谱。
[0211] 终端可以对预处理后的音频进行2048个点或1024个点等的短时傅里叶变换,得到预处理后的音频中各帧音频对应的频谱,根据该频谱可以生成频谱特征图,然后对预处理后的音频的频谱取模平方,得到预处理后的音频相应的能量谱,该能量谱可以是每帧音频在各频率上分布的能量大小所组成的矩阵。
[0212] 例如,如图7(a)至7(d)所示,其中,基准音频中可以包括原唱音频和伴奏音频,待检测音频可以是用户男音频或用户女音频,图7(a)可以是对原唱音频进行傅里叶变换后得到的频谱特征图,图7(b)可以是对伴奏音频进行傅里叶变换后得到的频谱特征图,图7(c)可以是对用户男音频进行傅里叶变换后得到的频谱特征图,图7(d)可以是对用户女音频进行傅里叶变换后得到的频谱特征图。
[0213] 例如,如图8所示,以预处理后的音频为用户音频为例,终端可以将用户音频通过2048个点的短时傅里叶变换,然后提取该用户音频的能量谱,以便后续可以基于该能量谱进行特征过滤和筛选等。
[0214] S203、终端根据能量谱获取待检测音频的声音强度,并从待检测音频中筛选出声音强度大于预设阈值的音频,根据筛选出的音频获取待检测音频的特征序列。
[0215] 为了将声音强度较低的干扰音频过滤掉,终端可以基于预处理后的音频的能量谱,从待检测音频中筛选出声音强度满足预设条件的音频。例如,如图9所示,首先终端可以将能量谱的特征矩阵S标准化为声音强度矩阵P,然后判断声音强度矩阵P中各声音强度是否大于预设阈值,并将小于或等于预设阈值的声音强度置零,以及将大于预设阈值的声音强度通过(即提取大于预设阈值的声音强度),筛选出大于预设阈值的声音强度,其次,将大于预设阈值的声音强度按照声音强度从大至小进行排序,最后从排序后的声音强度矩阵中筛选出最大的前6维声音强度的频率序列,得到待检测音频的特征序列。
[0216] 具体地,终端可以按照上述公式(1)将能量谱矩阵S转化为声音强度矩阵P,此时可以从待检测音频中筛选出声音强度大于预设阈值的音频,从而可以把声音强度较低的干扰音频过滤掉,该预设阈值可以根据实际需要进行灵活设置,具体取值在此处不作限定。
[0217] 可选地,终端可以将待检测音频的声音强度标准化到预设声音强度范围,得到声音强度标准化音频,从声音强度标准化音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的音频。
[0218] 例如,终端可以按照上述公式(2)将待检测音频的声音强度P标准化到0~80db,符合人的听觉感知范围,此时可以设定声音强度的预设阈值,可以将声音强度标准化音频中低于预设阈值的声音强度置零,将声音强度标准化音频中高于预设阈值的筛选出来,得到声音强度满足预设条件的音频,由于待检测音频中的伴奏和背景音等都是干扰音频,设置该预设阈值可以对干扰音频进行合理过滤。
[0219] 此时,终端可以对筛选出的音频按照声音强度从大到小进行排序,得到排序后音频,从排序后音频中提取出声音强度最大的预设音频,并从预设音频的频率矩阵中提取出预设维频率序列,得到待检测音频的特征序列。例如,提取出每帧音频前六维最大的声音强度的频率序列,该频率序列即为最终得到的待检测音频的特征序列。
[0220] 由于待检测音频本身具有停顿或强弱等特点,相应特征在时域和频域上也有长短或大小的区分,本发明实施例中通过对待检测音频进行预处理,能够根据能量大小对频谱特征进行过滤及排序,筛选出前6维能量最大的特征等,从而可以减小后续确定相似度所产生的误差。
[0221] S204、终端分别获取基准音频中原唱音频和伴奏音频的均方根能量均值,以及原唱音频和伴奏音频的能量谱。
[0222] 该基准音频可以包括原唱音频和伴奏音频,该基准音频可以是从服务器获取,或者预先录制的歌曲。终端可以分别获取基准音频中原唱音频和伴奏音频的能量谱,可选地,终端可以对基准音频进行预处理,得到预处理后基准音频,包括:按照预设采样策略对基准音频进行采样,得到采样后基准音频;按照预设分帧策略对采样后基准音频进行分帧处理,得到分帧后基准音频;对分帧后基准音频进行加窗处理,得到离散时域的预处理后基准音频。然后,终端可以获取预处理后基准音频的能量谱,包括:对预处理后基准音频进行傅里叶变换,得到预处理后基准音频对应的频谱;根据频谱确定预处理后基准音频的能量谱。
[0223] 终端可以分别获取基准音频中原唱音频和伴奏音频的均方根能量均值,可以包括:确定原唱音频的第一均方根能量,以及确定伴奏音频的第二均方根能量,例如,例如,可以按照上述公式(3)确定原唱音频的第一均方根能量均值,以及伴奏音频的第二均方根能量均值;然后获取原唱音频的第一帧数和第一帧长,以及获取伴奏音频的第二帧数和第二帧长;根据第一均方根能量、第一帧数和第一帧长确定原唱音频的均方根能量均值,以及根据第二均方根能量、第二帧数和第二帧长确定伴奏音频的均方根能量均值。
[0224] 例如,如图8所示,基准音频包括原唱音频和伴奏音频,终端可分别将原唱音频和伴奏音频通过2048个点的短时傅里叶变换,然后分别提取原唱音频和伴奏音频的能量谱,其次,分别确定原唱音频和伴奏音频的均方根能量均值,并确定原唱音频的均方根能量均值和伴奏音频的均方根能量均值之间的比例,最后,可以用原唱音频的能量谱减去该比例的伴奏音频的能量谱,从而可以得到伴奏音频减弱后的基准音频,以便后续可以对伴奏音频减弱后的基准音频进行特征过滤和筛选等,得到特征序列。
[0225] S205、终端基于原唱音频和伴奏音频的均方根能量均值及能量谱,将伴奏音频进行减弱,得到优化后的基准音频,并获取优化后的基准音频的基准特征序列。
[0226] 在得到原唱音频和伴奏音频的均方根能量均值及能量谱后,终端可以确定唱音频的均方根能量均值和伴奏音频的均方根能量均值之间的比例,然后利用原唱音频的能量谱减去该比例的伴奏音频的能量谱,以对基准音频进行优化,得到优化后的基准音频,该优化后的基准音频可以是已经对伴奏音频进行减弱,增强了原唱音频的特征矩阵。
[0227] 例如,如图10(a)至图10(d)所示,其中,基准音频中可以包括原唱音频和伴奏音频,待检测音频可以是用户男音频或用户女音频,图10(a)可以是原唱音频经过对伴奏音频减弱和特征过滤后得到的频谱特征图,图10(b)可以是对伴奏音频经过特征过滤后得到的频谱特征图,图10(c)可以是对用户男音频经过特征过滤后得到的频谱特征图,图10(d)可以是对用户女音频经过特征过滤后得到的频谱特征图。
[0228] 此时可以获取优化后的基准音频的基准特征序列,例如,可以从优化后的基准音频中筛选出声音强度大于预设阈值的目标音频,可选地,可以将优化后的基准音频的声音强度标准化到预设声音强度范围,得到声音强度标准化基准音频;从声音强度标准化基准音频中筛选出声音强度大于预设阈值的目标音频,并根据筛选出的目标音频获取基准音频的基准特征序列,例如,可以对筛选出的目标音频按照声音强度从大到小进行排序,得到排序后目标音频;从排序后目标音频中提取出声音强度最大的预设音频,并从预设音频的频率矩阵中提取出预设维频率序列,得到基准音频的基准特征序列。从而可以根据原唱音频和伴奏音频的相对强弱,对基准音频中的伴奏音频进行减弱,增强了原唱音频,以便后续可以精准检测出基准音频和待检测音频之间的相似度。
[0229] 例如,如图11(a)至图11(c)所示,在得到的基准音频的基准特征序列中可以包括6维原唱音频的特征序列,得到的待检测音频的特征序列中可以包括6维用户男音频的特征序列或6维用户女音频的特征序列,其中,图11(a)可以是原唱音频的第一维特征序列,其他5维特征序列未示出;图11(b)可以是用户男音频的第一维特征序列,其他5维特征序列未示出;图11(c)可以是用户女音频的第一维特征序列,其他5维特征序列未示出。
[0230] S206、终端利用扩展曼彻斯特编码对待检测音频的特征序列和基准音频的基准特征序列进行编码,得到编码后特征序列。
[0231] 为了提高相似度确定的准确性及稳定性,可以对待检测音频的特征序列和基准音频的基准特征序列进行编码,例如,可以利用扩展曼彻斯特编码的编码规则进行编码:若特征序列中相邻两个特征值从低到高变化,则编码为“1”;若特征序列中相邻两个特征值保持不变,则编码为“0”;若特征序列中相邻两个特征值从高到低变化,则编码为“-1”。
[0232] 例如,可以从待检测音频的特征序列中的位于第一位的特征值开始,首先可以将位于第一位的特征值编码为0,然后,将位于第一位的特征值与位于第二位的特征值进行比较,或者是,可以不对位于第一位的特征值进行编码,直接将位于第一位的特征值与位于第二位的特征值进行比较。当第一位的特征值小于第二位的特征值时,编码为“1”,以及,当第一位的特征值等于第二位的特征值时,编码为“0”;以及,当第一位的特征值大于第二位的特征值时,编码为“-1”。进一步地,将位于第二位的特征值与位于第三位的特征值进行比较,依此类推,直至将待检测音频的特征序列中每相邻两个特征值进行比较完毕,得到待检测音频对应的编码后特征序列。
[0233] 同样的,终端可以按照该扩展曼彻斯特编码的编码规则对基准音频的基准特征序列进行编码,得到基准音频对应的编码后特征序列。
[0234] 例如,如图12(a)至图12(c)所示,基准音频的编码后特征序列中可以包括6维原唱音频的编码序列,待检测音频的编码后特征序列中可以包括6维用户男音频的编码序列或6维用户女音频的编码序列,其中,图12(a)可以是原唱音频的第一维编码序列,其他5维编码序列未示出;图12(b)可以是用户男音频的第一维编码序列,其他5维编码序列未示出;图12(c)可以是用户女音频的第一维编码序列,其他5维特编码序列未示出。
[0235] 由于待检测音频或基准音频容易受到个体差异和性别影响,例如,女声相对于男声的频率较高,不同的人在发同一音子的基础频率不同,发音长短也不同等,因此使用扩展曼彻斯特编码对待检测音频的特征序列和基准音频的基准特征序列进行编码,通过确定编码后特征序列的相似性来表征待检测音频和基准音频之间的相似度,消除了伴奏音频、个体和性别差异等干扰因素对相似度检测结果准确性的影响。
[0236] S207、终端确定待检测音频的编码后特征序列和基准音频的编码后特征序列之间的编辑距离、欧几里得距离和汉明距离。
[0237] 其中,编辑距离可以是指对于待检测音频和基准音频的编码后特征序列,由待检测音频的编码后特征序列转换成基准音频的编码后特征序列所需的最少编辑操作次数。编辑距离越大,说明待检测音频和基准音频的编码后特征序列之间不同特征越多,反之,编辑距离越小,说明待检测音频和基准音频的编码后特征序列之间不同特征越少,该编辑操作可以包括将一个特征字符替换成另一个特征字符、插入一个特征字符、及删除一个特征字符等,该特征字符可以是编码得到的“1”、“0”或“-1”等。确定待检测音频的编码后特征序列和基准音频的编码后特征序列之间的编辑距离,即为确定待检测音频的编码后特征序转换成基准音频的编码后特征序列所需的最少编辑操作次数,使用编辑距离可以衡量待检测音频的编码后特征序列和基准音频的编码后特征序列之间整体的相似性,减少了发音长短不同导致的对齐问题等对相似度确定的影响。
[0238] 欧几里得距离可以是指待检测音频和基准音频的编码后特征序列在欧几里得空间中两点间的直线距离,该欧几里得距离可以用于度量待检测音频的编码后特征序列和基准音频的编码后特征序列之间的相差程度,可以按照上述公式(6)确定待检测音频的编码后特征序列和基准音频的编码后特征序列之间欧几里得距离。
[0239] 汉明距离可以是指待检测音频和基准音频的编码后特征序列之间对应位置不同的特征字符个数,即将待检测音频的编码后特征序列变换成基准音频的编码后特征序列所需要替换的次数,该汉明距离可以用于度量待检测音频的的编码后特征序列和基准音频的编码后特征序列之间对应位置的绝对一致性。
[0240] 在得到编辑距离、欧几里得距离和汉明距离后,可以按照公式(7)对编辑距离、欧几里得距离和汉明距离分别进行归一化。
[0241] S208、终端根据编辑距离、欧几里得距离和汉明距离与子相似度之间的仿射函数,分别确定各距离对应的子相似度,并根据子相似度确定待检测音频和基准音频之间的相似度。
[0242] 例如,终端可以构建编辑距离、欧几里得距离和汉明距离中各距离与子相似度之间的仿射函数,根据各距离对应的仿射函数分别确定各距离对应的子相似度,根据子相似度确定待检测音频和基准音频之间的相似度。
[0243] 其中,建立相似度关于相似距离的仿射函数可以是指将归一化得到的编辑距离、欧几里得距离、及汉明距离作为自变量,将相似度作为因变量,建立自变量和因变量这两者之间的映射关系,可以利用仿射函数将归一化后的编辑距离、欧几里得距离、及汉明距离确定出标准化到0~100范围内的子相似度。
[0244] 例如,建立子相似度与编辑距离D1之间的第一仿射函数为F(D1)可以如上述公式(8)所示,建立子相似度与欧几里得距离D2之间的第二仿射函数为F(D2)可以如上述公式(10)所示,建立相似度与汉明距离D3之间的第三仿射函数为F(D3)可以如上述公式(12)所示。在得到编辑距离D1对应的第一仿射函数为F(D1)、欧几里得距离D2对应的第二仿射函数为F(D2)、及汉明距离D3对应的第三仿射函数为F(D3)后,可以根据第一仿射函数为F(D1)确定编辑距离D1对应的第一子相似度,根据第二仿射函数为F(D2)确定欧几里得距离D2对应的第二子相似度,以及根据第三仿射函数为F(D3)确定汉明距离D3对应的第三子相似度,此时可以按照上述公式(14)根据第一子相似度、第二子相似度及第三子相似度确定待检测音频和基准音频之间的相似度。
[0245] 例如,由于编辑距离可以用于解决发音长短或停顿等,因此可以将编辑距离作为最重要的相似度确定分量;由于汉明距离可以用于度量特征序列的绝对一致性,因此可以将汉明距离作为辅助的相似度确定分量;由于欧几里得距离度量特征序列的几何距离及差异性,因此可以将欧几里得距离作为相似度确定的惩罚项。此时,可以为编辑距离的子相似度设置第一权重值,及为汉明距离的子相似度设置第二权重值,并将欧几里得距离的子相似度设置为惩罚项,然后根据第一权重值、第二权重值和惩罚项确定待检测音频和基准音频之间的相似度。
[0246] S209、当相似度大于预设相似度阈值时,终端执行虚拟资源转移操作,及显示待检测音频的相似度检测结果的相关信息。
[0247] 在得到待检测音频和基准音频之间的相似度后,可以判断该相似度是否大于预设相似度阈值,
[0248] 当相似度大于预设相似度阈值时,用户可以领取红包,即触发终端执行虚拟资源转移操作,例如,如图13所示,终端可以显示红包金额和用户的歌曲评级等相似度检测结果的相关信息;当相似度小于或等于预设相似度阈值时,用户不能领取该红包,并提示用户重唱:“没有发挥好,再试一次吧...”等相似度检测结果的相关信息,例如,如图14所示。此时。可以退出红包界面,以及将用户音频会转为一段带有评级的语音消息,该语音消息的内容可以是用户跟随伴奏唱歌的音频,例如,如图15所示。
[0249] 本发明实施例中可以对待检测音频进行采样、分帧、加窗及提取能量谱等处理,以及从处理后音频中筛选出声音强度大于预设阈值的音频,并根据筛选出的音频获取待检测音频的特征序列,以及获取基准音频中原唱音频和伴奏音频的均方根能量均值及能量谱等来优化基准音频,并获取优化后的基准音频的基准特征序列;然后,对待检测音频的特征序列及基准音频的基准特征序列进行编码,确定待检测音频的编码后特征序列,与基准音频的编码后特征序列之间的编辑距离、欧几里得距离和汉明距离等相似距离,此时可以根据相似距离确定待检测音频和基准音频之间的相似度,从而能够稳定且准确的检测待检测音频和基准音频之间的相似度,该相似度检测结果较少受伴奏音频、环境噪音、个体和性别差异等干扰因素的影响,提高了音频相似度检测的准确性。
[0250] 为便于更好的实施本发明实施例提供的音频相似度检测方法,本发明实施例还提供一种基于上述音频相似度检测方法的装置。其中名词的含义与上述音频相似度检测方法中相同,具体实现细节可以基准方法实施例中的说明。
[0251] 请参阅图16,图16为本发明实施例提供的音频相似度检测装置的结构示意图,其中该音频相似度检测装置可以包括音频获取单元301、筛选单元302、特征获取单元303、距离获取单元304及确定单元305等。
[0252] 其中,音频获取单元301,用于获取待检测音频。
[0253] 音频获取单元301可以在歌曲评分的场景下获取用户唱一首歌曲作为待检测音频,或在声音锁的场景下获取用户录制一段话的音频等作为待检测音频等,例如音频获取单元301可以利用采样率为16KHZ或其他采样率的音频数据格式采集用户说话或唱歌的音频作为待检测音频,得到待检测音频可以是码率为16bit或其他码率的连续PCM信号。
[0254] 筛选单元302,用于从待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取待检测音频的特征序列。
[0255] 在某些实施方式中,如图17所示,筛选单元302可以包括:
[0256] 处理子单元3021,用于对待检测音频进行预处理,得到预处理后的音频;
[0257] 获取子单元3022,用于获取预处理后的音频的能量谱;
[0258] 筛选子单元3023,用于根据能量谱,从预处理后的音频中筛选出满足预设条件的音频,并将筛选出的音频对应的频率序列设置为所述待检测音频的特征序列。
[0259] 首先,为了方便对待检测音频进行筛选,处理子单元3021可以对待检测音频进行预处理,在某些实施方式中,处理子单元3021具体用于:按照预设采样策略对待检测音频进行采样,得到采样后的音频;按照预设分帧策略对采样后的音频进行分帧处理,得到分帧后的音频;对分帧后的音频进行加窗处理,得到离散的预处理后的音频。
[0260] 具体地,处理子单元3021可以依次对待检测音频进行采样、分帧、及加窗等处理,例如,可以按照预设采样策略利用采样频率为44100HZ或其他采样频率等,对待检测音频进行采样,得到采样后的音频,该预设采样策略可以是满足奈奎斯特采样定律的采样策略。然后,按照预设分帧策略如采用的分帧长度为512个或1024个采样点,以及帧移为帧长的一半或三分之一等,对采样后的音频进行分帧处理,得到分帧后的音频,随后可以采用汉明窗函数、矩形窗函数或海明窗函数等对分帧后的音频进行加窗处理,得到离散的预处理后的音频。
[0261] 然后,获取子单元3022获取预处理后的音频的能量谱,在某些实施方式中,获取子单元3022具体用于:对预处理后的音频进行积分变换,得到预处理后的音频对应的频谱;根据频谱确定预处理后的音频的能量谱。
[0262] 例如,获取子单元3022可以对预处理后的音频进行2048个点或1024个点等的短时积分变换,得到预处理后的音频中各帧音频对应的频谱,然后对预处理后的音频的频谱取模平方,得到预处理后的音频相应的能量谱,该能量谱可以是每帧音频在各频率上分布的能量大小所组成的矩阵。
[0263] 其次,为了将声音强度较低的干扰音频过滤掉,可以基于预处理后的音频的能量谱,从待检测音频中筛选出声音强度满足预设条件的音频,在某些实施方式中,筛选子单元3023可以包括:
[0264] 获取模块,用于根据能量谱获取待检测音频的声音强度;
[0265] 筛选模块,用于从待检测音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的音频。
[0266] 例如,获取模块可以按照上述公式(1)确定出待检测音频的声音强度,此时筛选模块可以从待检测音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的音频,从而可以把声音强度较低的干扰音频过滤掉,该预设阈值可以根据实际需要进行灵活设置,具体取值在此处不作限定。
[0267] 在某些实施方式中,筛选模块具体用于:将待检测音频的声音强度标准化到预设声音强度范围,得到声音强度标准化音频;从声音强度标准化音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的音频。
[0268] 例如,筛选模块可以按照上述公式(2)将待检测音频的声音强度P标准化到0~b分贝(db),符合人的听觉感知范围,此时可以将声音强度标准化音频中低于预设阈值的声音强度置零,将声音强度标准化音频中高于预设阈值的筛选出来,得到声音强度满足预设条件的音频,由于待检测音频中的伴奏和背景音等都是干扰音频,设置该预设阈值可以对干扰音频进行合理过滤。
[0269] 在某些实施方式中,筛选子单元3023在筛选出满足预设条件的音频后,可以将筛选出的音频对应的频率序列设置为待检测音频的特征序列,例如,可以对筛选出的音频按照声音强度从大到小进行排序,得到排序后音频;从排序后音频中提取出最大声音强度的音频,最大声音强度的音频对应的频率序列就是待检测音频的特征序列。
[0270] 例如,排序子单元可以将筛选出的音频按声音强度从大到小进行排序,得到排序后音频,然后,提取子单元从排序后音频中提取出声音强度最大的预设音频(例如前6维最大声音强度的音频),并从预设音频的频率矩阵中提取出预设维频率序列(例如6维),例如提取出每帧音频前六维最大的声音强度的频率序列,该频率序列即为最终得到的待检测音频的特征序列。
[0271] 相对于现有技术未进行充分的特征工程的处理,例如未对音频特征进行过滤、及筛选等处理,而由于待检测音频本身具有停顿或强弱等特点,相应特征在时域和频域上也有长短或大小的区分,本发明实施例中针对待检测音频的特点,进行了充分的特征工程处理,例如对待检测音频进行预处理,获取能量谱,根据能量大小对频谱特征进行过滤及排序,筛选出前n维(例如n=6)能量最大的特征等,从而可以减小后续确定相似度所产生的误差。
[0272] 需要说的是,当待检测音频中存在如伴奏音频等干扰音频时,例如待检测音频中包括用户音频和伴奏音频,为了提高后续确定相似度的准确性,筛选单元302可以将伴奏音频进行减弱。可选地,在获取待检测音频的特征序列的过程中,筛选单元302可以获取用户音频的均方根能量均值,以及获取伴奏音频的均方根能量均值;获取用户音频的能量谱,以及获取伴奏音频的能量谱;根据用户音频的能量谱、用户音频的均方根能量均值、伴奏音频的均方根能量均值及伴奏音频的能量谱,对待检测音频进行优化,得到优化后待检测音频;获取优化后待检测音频的特征序列。
[0273] 可选地,筛选单元302还可以确定用户音频的均方根能量,以及确定伴奏音频的均方根能量;获取用户音频的帧数和帧长,以及获取伴奏音频的帧数和帧长;根据用户音频的均方根能量、帧数和帧长确定用户音频的均方根能量均值,以及根据伴奏音频的均方根能量、帧数和帧长确定伴奏音频的均方根能量均值。本发明实施例中可以根据用户音频和伴奏音频的相对强弱,对待检测音频进行了伴奏音频减弱,增强了用户音频,因此可以精准检测出基准音频和用户音频之间的相似度。
[0274] 特征获取单元303,用于获取基准音频的基准特征序列。
[0275] 该基准音频可以是从服务器获取,或者预先录制的,例如,在歌曲评分的应用场景,可以从服务器是上下载或预先录制一首歌曲的原唱音频和伴奏音频作为基准音频;在声音锁的应用场景,可以获取用户提前录制一段音频作为基准音频(即声音锁)等。基准音频的基准特征序列可以包括从基准音频中筛选出满足预设条件的频率序列等,该基准特征序列可以是预先确定好并存储在本地,或者当需要用到基准特征序列时,对基准音频进行特征提取得到的。
[0276] 可选地,在得到基准音频后,特征获取单元303可以从基准音频中筛选出满足预设条件的目标音频,并根据筛选出的目标音频获取基准音频的基准特征序列。可选地,特征获取单元303可以对基准音频进行预处理,得到预处理后基准音频;获取预处理后基准音频的能量谱;根据能量谱从基准音频中筛选出满足预设条件的目标音频,并将筛选出的目标音频对应的频率序列设置为基准音频的基准特征序列。
[0277] 为了方便对基准音频进行筛选,可以对基准音频进行预处理,可选地,特征获取单元303可以按照预设采样策略对基准音频进行采样,得到采样后基准音频;按照预设分帧策略对采样后基准音频进行分帧处理,得到分帧后基准音频;对分帧后基准音频进行加窗处理,得到离散时域的预处理后基准音频。可选地,特征获取单元303可以对预处理后基准音频进行积分变换,得到预处理后基准音频对应的频谱;根据频谱确定预处理后基准音频的能量谱。可选地,特征获取单元303可以根据能量谱获取基准音频的声音强度;从基准音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的目标音频。可选地,特征获取单元303可以将基准音频的声音强度标准化到预设声音强度范围,得到声音强度标准化基准音频;从声音强度标准化基准音频中筛选出声音强度大于预设阈值的音频,得到声音强度满足预设条件的目标音频。
[0278] 可选地,特征获取单元303可以对筛选出的目标音频按照声音强度从大到小进行排序,得到排序后目标音频;从排序后目标音频中提取出声音强度最大的音频,最大声音强度的音频对应的频率序列就是基准音频的特征序列。例如提取出每帧音频前六维最大的声音强度的频率序列,该频率序列即为最终得到的基准音频的特征序列。由于待检测音频本身具有停顿或强弱等特点,相应特征在时域和频域上也有长短或大小的区分,针对待检测音频的特点,对基准音频进行预处理,获取能量谱,根据能量大小对频谱特征进行过滤及排序,筛选出前n维能量最大的特征等,从而可以减小后续确定相似度所产生的误差。
[0279] 在某些实施方式中,如图18所示,当基准音频中包括目标基准音频和干扰音频时,特征获取单元303可以包括:
[0280] 均值获取子单元3031,用于获取目标基准音频的第一均方根能量均值,以及获取干扰音频的第二均方根能量均值;
[0281] 能量谱获取子单元3032,用于获取目标基准音频的第一能量谱,以及获取干扰音频的第二能量谱;
[0282] 优化子单元3033,用于根据第一能量谱、第一均方根能量均值、第二均方根能量均值及第二能量谱,对基准音频进行优化,得到优化后的基准音频;
[0283] 特征获取子单元3034,用于获取优化后的基准音频的基准特征序列。
[0284] 在某些实施方式中,均值获取子单元3031具体用于:确定目标基准音频的第一均方根能量,以及确定干扰音频的第二均方根能量;获取目标基准音频的第一帧数和第一帧长,以及获取干扰音频的第二帧数和第二帧长;根据第一均方根能量、第一帧数和第一帧长确定目标基准音频的第一均方根能量均值,以及根据第二均方根能量、第二帧数和第二帧长确定干扰音频的第二均方根能量均值。从而可以根据目标基准音频和干扰音频的相对强弱,对基准音频中的干扰音频进行了(例如伴奏音频)减弱,增强了用于比较的目标基准音频(例如原唱音频),因此可以精准检测出基准音频和待检测音频之间的相似度。
[0285] 距离获取单元304,用于获取待检测音频的特征序列,与基准音频的基准特征序列之间的相似距离。
[0286] 在某些实施方式中,如图19所示,距离获取单元304包括:
[0287] 编码子单元3041,用于按照预设编码策略对待检测音频的特征序列进行编码,得到第一编码后的特征序列,以及按照预设编码策略对基准音频的基准特征序列进行编码,得到第二编码后的特征序列;
[0288] 第一确定子单元3042,用于确定第一编码后的特征序列和第二编码后的特征序列之间的相似距离。
[0289] 在某些实施方式中,编码子单元3041具体用于:按照预设编码策略将待检测音频的特征序列中,每相邻两个特征值进行大小比较;当相邻两个特征值中前一个特征值小于后一个特征值时,将待检测音频的特征序列编码为第一编码值,以及,当相邻两个特征值中前一个特征值等于后一个特征值时,将待检测音频的特征序列编码为第二编码值;以及,当相邻两个特征值中前一个特征值大于后一个特征值时,将待检测音频的特征序列编码为第三编码值;基于第一编码值、第二编码值和/或第三编码值生成第一编码后的特征序列。
[0290] 该预设编码策略以扩展曼彻斯特编码为例,该扩展曼彻斯特编码的编码规则可以为:若特征序列中相邻两个特征值从低到高变化,则编码为第一编码值,例如编码为“1”;若特征序列中相邻两个特征值保持不变,则编码为第二编码值,例如编码为“0”;若特征序列中相邻两个特征值从高到低变化,则编码为第三编码值,例如编码为“-1”。
[0291] 例如,可以从待检测音频的特征序列中的位于第一位的特征值开始,首先可以将位于第一位的特征值编码为0,然后,将位于第一位的特征值与位于第二位的特征值进行比较,或者是,可以不对位于第一位的特征值进行编码,直接将位于第一位的特征值与位于第二位的特征值进行比较。当第一位的特征值小于第二位的特征值时,编码为“1”,以及,当第一位的特征值等于第二位的特征值时,编码为“0”;以及,当第一位的特征值大于第二位的特征值时,编码为“-1”。进一步地,将位于第二位的特征值与位于第三位的特征值进行比较,依此类推,直至将待检测音频的特征序列中每相邻两个特征值进行比较完毕,得到待检测音频对应的第一编码后的特征序列。该第一编码后的特征序列可以由-1、0、或1组成,该第一编码后的特征序列可以用于表征待检测音频的频率特征在时间尺度的高低变化。
[0292] 同样的,针对基准音频,也可以按照该扩展曼彻斯特编码的编码规则对基准音频的基准特征序列进行编码,在某些实施方式中,编码子单元3041具体用于:按照预设编码策略将基准音频的特征序列中,每相邻两个特征值进行大小比较;当相邻两个特征值中前一个特征值小于后一个特征值时,将基准音频的特征序列编码为第一编码值,以及,当相邻两个特征值中前一个特征值等于后一个特征值时,将基准音频的特征序列编码为第二编码值;以及,当相邻两个特征值中前一个特征值大于后一个特征值时,将基准音频的特征序列编码为第三编码值;基于第一编码值、第二编码值和/或第三编码值生成第二编码后的特征序列。
[0293] 由于待检测音频或基准音频容易受到个体差异和性别影响,例如,女声相对于男声的频率较高,不同的人在发同一音子的基础频率不同,发音长短也不同等,因此若通过简单的设定阈值和参数的方式消除个体差异性带来的影响,则容易受主观因素和数据规模的影响,不够准确和稳定,而本发明实施例中使用扩展曼彻斯特编码对待检测音频的特征序列和基准音频的基准特征序列进行编码,通过确定编码后特征序列的相似性来表征待检测音频和基准音频之间的相似度,消除了伴奏音频、个体和性别差异等干扰因素对相似度检测结果准确性的影响。
[0294] 在某些实施方式中,相似距离至少包括编辑距离、欧几里得距离和汉明距离,第一确定子单元3042具体用于:至少确定第一编码后的特征序列和第二编码后的特征序列之间的编辑距离、欧几里得距离和汉明距离;对编辑距离、欧几里得距离和汉明距离分别进行归一化,得到相似距离。
[0295] 其中,编辑距离可以是指针对于两个编码后特征序列,由其中一个编码后特征序列转换成另一个编码后特征序列所需的最少编辑操作次数。编辑距离越大,说明两个编码后特征序列之间不同特征越多,反之,编辑距离越小,说明两个编码后特征序列之间不同特征越少,该编辑操作可以包括将一个特征字符替换成另一个特征字符、插入一个特征字符、及删除一个特征字符等,该特征字符可以是编码得到的“1”、“0”或“-1”等。第一确定子单元3042确定第一编码后的特征序列和第二编码后的特征序列之间的编辑距离,即确定第一编码后的特征序列转换成第二编码后的特征序列所需的最少编辑操作次数,使用编辑距离可以衡量第一编码后的特征序列和第二编码后的特征序列等这两个特征序列整体的相似性,较好地解决了由于发音长短不同导致的对齐问题等。
[0296] 欧几里得距离可以是指第一编码后的特征序列和第二编码后的特征序列在欧几里得空间中两点间的直线距离,本发明实施例中欧几里得距离用于度量第一编码后的特征序列和第二编码后的特征序列等这两个特征序列之间的相差程度。例如第一确定子单元3042可以按照上述公式(6)确定第一编码后的特征序列和第二编码后的特征序列之间欧几里得距离d2。
[0297] 汉明距离可以是指第一编码后的特征序列和第二编码后的特征序列对应位置不同的特征字符个数,即将第一编码后的特征序列变换成第二编码后的特征序列所需要替换的次数,该汉明距离可以用于度量第一编码后的特征序列和第二编码后的特征序列等这两个序列对应位置的绝对一致性。
[0298] 在得到编辑距离d1、欧几里得距离d2和汉明距离d3后,第一确定子单元3042可以对编辑距离、欧几里得距离和汉明距离分别进行归一化,得到相似距离。
[0299] 确定单元305,用于根据相似距离确定待检测音频和基准音频之间的相似度。
[0300] 在某些实施方式中,如图20所示,确定单元305包括:
[0301] 构建子单元3051,用于构建编辑距离、欧几里得距离和汉明距离中各距离与子相似度之间的仿射函数;
[0302] 第二确定子单元3052,用于根据各距离对应的仿射函数分别确定各距离对应的子相似度;
[0303] 第三确定子单元3053,用于根据子相似度确定待检测音频和基准音频之间的相似度。
[0304] 其中,构建子单元3051建立相似度关于相似距离的仿射函数可以是指将归一化得到的编辑距离、欧几里得距离、及汉明距离作为自变量,将相似度作为因变量,建立自变量和因变量这两者之间的映射关系。可以利用仿射函数将归一化后的编辑距离、欧几里得距离、及汉明距离确定出标准化到0~100范围内的子相似度。
[0305] 例如构建子单元3051可以建立子相似度与编辑距离D1之间的第一仿射函数为F(D1),其表达式如上述公式(8)所示;建立子相似度与欧几里得距离D2之间的第二仿射函数为F(D2),其表达式如上述公式(10)所示;建立子相似度与汉明距离D3之间的第三仿射函数为F(D3),其表达式如上述公式(12)所示。
[0306] 在得到编辑距离D1对应的第一仿射函数为F(D1)、欧几里得距离D2对应的第二仿射函数为F(D2)、及汉明距离D3对应的第三仿射函数为F(D3)后,第二确定子单元3052可以根据第一仿射函数为F(D1)确定编辑距离D1对应的第一子相似度,根据第二仿射函数为F(D2)确定欧几里得距离D2对应的第二子相似度,以及根据第三仿射函数为F(D3)确定汉明距离D3对应的第三子相似度,此时第三确定子单元3053可以根据第一子相似度、第二子相似度及第三子相似度确定待检测音频和基准音频之间的相似度。
[0307] 在某些实施方式中,第三确定子单元3053具体用于:为编辑距离的子相似度设置第一权重值,及为汉明距离的子相似度设置第二权重值;将欧几里得距离的子相似度设置为惩罚项;根据第一权重值、第二权重值和惩罚项,确定待检测音频和基准音频之间的相似度。
[0308] 例如,由于编辑距离克服了发音长短或停顿等,以及具有抗干扰能力强的特性,因此可以将编辑距离作为最重要的相似度确定分量;由于汉明距离具有用于度量特征序列的绝对一致性的特性,因此可以将汉明距离作为辅助的相似度确定分量;由于欧几里得距离度量特征序列的几何距离,突出特征序列的差异的特性,因此可以将欧几里得距离作为相似度确定的惩罚项。此时,第三确定子单元3053可以为编辑距离的子相似度设置第一权重值,及为汉明距离的子相似度设置第二权重值,并将欧几里得距离的子相似度设置为惩罚项,其中第一权重值和第二权重值的取值可以根据实际需要进行灵活设置,然后第三确定子单元3053根据第一权重值、第二权重值和惩罚项确定待检测音频和基准音频之间的相似度,其计算公式可以如上述公式(14)所示。
[0309] 在某些实施方式中,音频相似度检测装置还可以包括:资源转移单元,用于当待检测音频和基准音频之间的相似度大于预设相似度阈值时,执行虚拟资源转移操作,和/或显示待检测音频的相似度检测结果的相关信息。
[0310] 在某些实施方式中,音频相似度检测装置还可以包括:解锁单元,用于当待检测音频和基准音频之间的相似度大于预设相似度阈值时,执行解开音频锁操作。
[0311] 由上可知,本发明实施例可以由音频获取单元301获取待检测音频,以及筛选单元302从该待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取待检测音频的特征序列,从而可以将待检测音频中的干扰音频进行过滤及筛选出所需的音频特征,以及由特征获取单元303获取基准音频的基准特征序列;然后,距离获取单元304获取待检测音频的特征序列,与基准音频的基准特征序列之间的相似距离,例如编辑距离、欧几里得距离和汉明距离等,该相似距离可以减小多种因素对相似度检测结果的影响,此时确定单元
305可以根据相似距离确定待检测音频和基准音频之间的相似度,提高了音频相似度检测的准确性。
[0312] 相应的,本发明实施例还提供一种计算机设备,该计算机设备可以包括平板电脑、手机、及笔记本电脑等终端,如图21所示,该计算机设备可以包括射频(RF,Radio Frequency)电路601、包括有一个或一个以上确定机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi,Wireless Fidelity)模块
607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解,图21中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0313] RF电路601可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将涉及上行的数据发送给基站。通常,RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路601还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long Term Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
[0314] 存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器608和输入单元603对存储器602的访问。
[0315] 输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元603可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器608,并能接收处理器608发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元603还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0316] 显示单元604可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器608以确定触摸事件的类型,随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图21中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
[0317] 计算机设备还可包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在计算机设备移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别计算机设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于计算机设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
[0318] 音频电路606、扬声器,传声器可提供用户与计算机设备之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路606接收后转换为音频数据,再将音频数据输出处理器608处理后,经RF电路601以发送给比如另一计算机设备,或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔,以提供外设耳机与计算机设备的通信。
[0319] WiFi属于短距离无线传输技术,计算机设备通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图21示出了WiFi模块607,但是可以理解的是,其并不属于计算机设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
[0320] 处理器608是计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器608可包括一个或多个处理核心;优选的,处理器608可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器608中。
[0321] 计算机设备还包括给各个部件供电的电源609(比如电池),优选的,电源可以通过电源管理系统与处理器608逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0322] 尽管未示出,计算机设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,计算机设备中的处理器608会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器608来运行存储在存储器602中的应用程序,从而实现各种功能:
[0323] 获取待检测音频;从待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取待检测音频的特征序列;获取基准音频的基准特征序列;获取待检测音频的特征序列,与基准音频的基准特征序列之间的相似距离;根据相似距离确定待检测音频和基准音频之间的相似度。
[0324] 可选地,处理器608来运行存储在存储器602中的应用程序,还可以实现以下功能:对待检测音频进行预处理,得到预处理后的音频;获取预处理后的音频的能量谱;根据能量谱,从预处理后的音频中筛选出满足预设条件的音频,并将筛选出的音频对应的频率序列设置为待检测音频的特征序列。
[0325] 可选地,处理器608来运行存储在存储器602中的应用程序,还可以实现以下功能:获取目标基准音频的第一均方根能量均值,以及获取干扰音频的第二均方根能量均值;获取目标基准音频的第一能量谱,以及获取干扰音频的第二能量谱;根据第一能量谱、第一均方根能量均值、第二均方根能量均值及第二能量谱,对基准音频进行优化,得到优化后的基准音频;获取优化后的基准音频的基准特征序列。
[0326] 可选地,处理器608来运行存储在存储器602中的应用程序,还可以实现以下功能:按照预设编码策略对待检测音频的特征序列进行编码,得到第一编码后的特征序列,以及按照预设编码策略对基准音频的基准特征序列进行编码,得到第二编码后的特征序列;确定第一编码后的特征序列和第二编码后的特征序列之间的相似距离。
[0327] 可选地,处理器608来运行存储在存储器602中的应用程序,还可以实现以下功能:至少确定第一编码后的特征序列和第二编码后的特征序列之间的编辑距离、欧几里得距离和汉明距离;对编辑距离、欧几里得距离和汉明距离分别进行归一化,得到相似距离。
[0328] 可选地,处理器608来运行存储在存储器602中的应用程序,还可以实现以下功能:构建编辑距离、欧几里得距离和汉明距离中各距离与子相似度之间的仿射函数;根据各距离对应的仿射函数分别确定各距离对应的子相似度;根据子相似度确定待检测音频和基准音频之间的相似度。
[0329] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对音频相似度检测方法的详细描述,此处不再赘述。
[0330] 由上可知,本发明实施例可以获取待检测音频,以及从该待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取待检测音频的特征序列,从而可以将待检测音频中的干扰音频进行过滤及筛选出所需的音频特征,以及获取基准音频的基准特征序列;然后,获取待检测音频的特征序列,与基准音频的基准特征序列之间的相似距离,例如编辑距离、欧几里得距离和汉明距离等,该相似距离可以减小多种因素对相似度检测结果的影响,此时可以根据相似距离确定待检测音频和基准音频之间的相似度,提高了音频相似度检测的准确性。
[0331] 本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一确定机可读存储介质中,并由处理器进行加载和执行。
[0332] 为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种音频相似度检测方法中的步骤。例如,该指令可以执行如下步骤:
[0333] 获取待检测音频;从待检测音频中筛选出满足预设条件的音频,并根据筛选出的音频获取待检测音频的特征序列;获取基准音频的基准特征序列;获取待检测音频的特征序列,与基准音频的基准特征序列之间的相似距离;根据相似距离确定待检测音频和基准音频之间的相似度。
[0334] 可选地,该指令还可以执行如下步骤:对待检测音频进行预处理,得到预处理后的音频;获取预处理后的音频的能量谱;根据能量谱,从预处理后的音频中筛选出满足预设条件的音频,并将筛选出的音频对应的频率序列设置为待检测音频的特征序列。
[0335] 可选地,该指令还可以执行如下步骤:获取目标基准音频的第一均方根能量均值,以及获取干扰音频的第二均方根能量均值;获取目标基准音频的第一能量谱,以及获取干扰音频的第二能量谱;根据第一能量谱、第一均方根能量均值、第二均方根能量均值及第二能量谱,对基准音频进行优化,得到优化后的基准音频;获取优化后的基准音频的基准特征序列。
[0336] 可选地,该指令还可以执行如下步骤:按照预设编码策略对待检测音频的特征序列进行编码,得到第一编码后的特征序列,以及按照预设编码策略对基准音频的基准特征序列进行编码,得到第二编码后的特征序列;确定第一编码后的特征序列和第二编码后的特征序列之间的相似距离。
[0337] 可选地,该指令还可以执行如下步骤:至少确定第一编码后的特征序列和第二编码后的特征序列之间的编辑距离、欧几里得距离和汉明距离;对编辑距离、欧几里得距离和汉明距离分别进行归一化,得到相似距离。
[0338] 可选地,该指令还可以执行如下步骤:构建编辑距离、欧几里得距离和汉明距离中各距离与子相似度之间的仿射函数;根据各距离对应的仿射函数分别确定各距离对应的子相似度;根据子相似度确定待检测音频和基准音频之间的相似度。
[0339] 以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0340] 其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
[0341] 由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种音频相似度检测方法中的步骤,因此,可以实现本发明实施例所提供的任一种音频相似度检测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
[0342] 以上对本发明实施例所提供的一种音频相似度检测方法、装置、存储介质及计算机设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。