基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法转让专利

申请号 : CN202311464609.X

文献号 : CN117219125B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 姜帅李玉芳曹润琪王猛蒋嘉铭施威牛秋娜龙奇

申请人 : 青岛科技大学

摘要 :

本发明涉及仿生隐蔽水声通信技术领域,具体为基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法。其利用音频指纹技术计算得到音频指纹相似度,并将其作为一种仿生信号隐蔽性的评分,将音频指纹技术应用到仿生信号隐蔽性评价中,利用音频指纹技术的准确性、可靠性、鲁棒性等优点,更加全面准确地评估仿生信号的隐蔽性效果,为仿生信号隐蔽性评价提供了一种新的分析方法和评估工具。

权利要求 :

1.基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法,其特征在于,包括以下步骤:S1音频进行预处理:使用Adobe Audition对原始海洋哺乳动物叫声音频和仿海洋哺乳动物叫声音频进行预处理;

S2设计并实现音频信号功率谱特征的提取算法,提取符合要求的功率谱特征;

S3设计并实现音频指纹生成算法,生成需要的音频指纹;

S4通过步骤S3中得到仿生信号音频指纹和原始信号音频指纹进行指纹匹配、并计算音频相似度,把计算结果作为仿海洋哺乳动物叫声信号隐蔽性的评分;

S5设计并搭建仿海洋哺乳动物叫声信号隐蔽性评分模型,CLF模型,通过CNN神经网络和LSTM神经网络混合得到CLF模型,该模型是一个端到端的评分模型,输入的是仿生信号音频,输出的则是通过该模型预测的仿生信号的隐蔽性评分;

S6训练CLF模型,将仿生音信号输入到模型中,将步骤S4中得到的隐蔽性评分作为标签;

S7使用训练好的CLF模型,对仿海洋哺乳动物叫声进行信号隐蔽性评分。

2.根据权利要求1所述的基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法,其特征在于,步骤S1具体为:使用Adobe Audition软件对原始海洋哺乳动物叫声音频以及仿海洋哺乳动物叫声音频进行降噪、声音增强、回声消除、咔嗒声去除操作,然后再对音频信号进行数字化处理,来提高音频信号的质量、准确性和适用性。

3.根据权利要求1所述的基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法,其特征在于,步骤S2具体为:S2.1设计并实现功率谱特征提取算法的前端处理部分,前端处理包括分帧、加窗、转换和短时傅里叶变换STFT操作;

其中,加窗过程选用汉明窗做STFT,窗函数移动时将音频信号分为帧,相邻两帧的重叠部分设置为帧长度的50%,根据人的语音音调周期值的变化,帧长度选取5~20ms;

短时傅里叶变换将音频信号转换到同时包含信号时域和频域特征的功率谱上,对于给定信号x(t),其STFT通过下面公式计算:;

S2.2设计并实现功率谱特征提取算法的特征提取部分

选择功率谱中的功率峰值点作为特征,使用最大值滤波器来捕获功率谱的峰值,滤波器采用菱形结构元素,阈值选为信号最大功率的1/3;

在提取功率谱特征点后,音频指纹相等与否不依赖于特定时刻频率的功率值是否相等,而取决于音频信号的时域和频域结构特征,因此,最终输出的结果是功率谱特征点对应的(frequency,time)对。

4.根据权利要求1所述的基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法,其特征在于,步骤S3具体为:S3.1对序列S(frequency,time)按照time进行算术排序,并初始化关联距离L=16和步长i=0,创建集合fingerprint();

S3.2获取序列S中当前峰值点的频率F_base和时间T_base,获取间隔小于关联距离L的序列S中下一个峰值点的频率F_step和时间T_step;

S3.3计算得到两个峰值点之间的时间偏移量T_delta;

S3.4使用哈希函数Md5计算哈希值并选取哈希值的前16位数,公式为:;

S3.5将计算得到的哈希值和下一个峰值点的时间T_step添加到集合fingerprint()中,生成最终的音频指纹。

5.根据权利要求1所述的基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法,其特征在于,步骤S4具体为:在计算音频信号相似度时,首先用上述音频指纹生成算法获得原始信号和仿生信号的音频指纹,得到的是许多的哈希值与时间偏移量对,然后匹配音频指纹,对于原始信号音频的每个指纹,与仿生信号音频的指纹进行比较时,统计不同时间偏移量差值下匹配到的哈希值数目,根据匹配到的哈希值数目和总指纹数,计算两个音频之间的相似度百分比,最后使用百分制评分标准,将音频指纹相似度作为仿海洋哺乳动物叫声信号的隐蔽性评分。

6.根据权利要求1所述的基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法,其特征在于,步骤S5具体为:所述模型包括一个输入层、四个CNN层、两个LSTM层、两个全连接层和一个输出层;

其中,四个CNN层中前两个kernel_size设置为3,stride设置为2,后两个kernel_size设置为2,stride设置为1;第一个LSTM 的hidden_size设置为64,第二个LSTM 的hidden_size设置为32;

使用ReLU()作为所有网络层的激活函数。

7.根据权利要求1所述的基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法,其特征在于,步骤S6具体为:模型进行训练时,输入的特征数据是全部的仿生音频数据集以及一部分原始音频数据,将它们对应的音频评分作为标签即预测结果,训练的终点条件是完成预定次数的循环,或权值低于某一阈值,或预测的错误率低于某一阈值;如满足结束的条件之一,训练完成;

使用MSELoss()作为损失函数,Adam()作为优化器。

说明书 :

基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法

技术领域

[0001] 本发明涉及仿生隐蔽水声通信技术领域,具体为基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性的评分方法。

背景技术

[0002] 随着水声通信技术的发展,除了可靠性、通信速率和网络化外,水声通信的安全性与隐蔽性也逐渐受到重视。传统方法大多采用低检测概率(Low Probability of Detection,LPD)技术实现隐蔽水声通信,与传统的LPD隐蔽通信技术不同,仿生隐蔽水声通信技术利用海洋中固有的海洋生物叫声或者人工合成的模拟叫声作为通信信号。
[0003] 目前国内外对于仿生隐蔽水声通信技术的研究都仅限于抗干扰性、通信速率和误码率等性能标准的评价,而对于其仿生效果和隐蔽性的评价并没有形成统一的标准,仿生隐蔽水声通信技术是将秘密信号伪装成海洋生物叫声,从而迷惑非合作方使其将接收到的声音信号判断为海洋生物噪声忽略掉,以伪装的思想达到隐蔽通信的目的,作为一种安全通信方式,避免被检测的能力是很重要的。因此仿生信号的隐蔽性及仿生效果对于仿生隐蔽水声通信技术来说是至关重要的。
[0004]  音频指纹技术(Audio fingerprinting technology)是指通过特定的算法将一段音频中独一无二的数字特征以标识符的形式提取出来,类似于人类的指纹,主要用于识别海量的声音样本或跟踪定位样本在数据库中的位置。音频指纹作为内容自动识别技术的的核心算法,已广泛应用于音乐识别、语音识别、声纹模型、安全验证、完整性校验、版权保护等方面。但是截止到目前,无论是在国内还是国外并没有发现将音频指纹技术应用到仿生隐蔽水声通信技术的隐蔽性评价中的公开报道。

发明内容

[0005] 本发明的目的在与提供的基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法,利用音频指纹技术计算得到音频指纹相似度,并将其作为一种仿生信号隐蔽性的评分,将音频指纹技术应用到仿生信号隐蔽性评价中,利用音频指纹技术的准确性、可靠性、鲁棒性等优点,更加全面准确地评估仿生信号的隐蔽性效果,为仿生信号隐蔽性评价提供了一种新的分析方法和评估工具。
[0006] 为实现上述目的,本发明提供如下技术方案:本发明提供的基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法,包括以下步骤:
[0007] S1音频进行预处理:使用Adobe Audition对原始海洋哺乳动物叫声音频和仿海洋哺乳动物叫声音频进行预处理;
[0008] S2设计并实现音频信号功率谱特征的提取算法,提取符合要求的功率谱特征;
[0009] S3设计并实现音频指纹生成算法,生成需要的音频指纹;
[0010] S4通过步骤S3中得到仿生信号音频指纹和原始信号音频指纹进行指纹匹配、并计算音频相似度,把计算结果作为仿海洋哺乳动物叫声信号隐蔽性的评分;
[0011] S5设计并搭建仿海洋哺乳动物叫声信号隐蔽性评分模型,CLF模型;
[0012] S6训练CLF模型,将仿生音信号输入到模型中,将步骤S4中得到的隐蔽性评分作为标签;
[0013] S7使用训练好的CLF模型,对仿海洋哺乳动物叫声进行信号隐蔽性评分。
[0014] 优选的,步骤S1具体为:
[0015] 使用Adobe Audition软件对原始海洋哺乳动物叫声音频以及仿海洋哺乳动物叫声音频进行降噪、声音增强、回声消除、咔嗒声去除操作,然后再对音频信号进行数字化处理,来提高音频信号的质量、准确性和适用性。
[0016] 优选的,步骤S2具体为:
[0017] S2.1设计并实现功率谱特征提取算法的前端处理部分,前端处理包括分帧、加窗、转换和短时傅里叶变换STFT操作;
[0018] 其中,加窗过程选用汉明窗做STFT,窗函数移动时将音频信号分为帧,相邻两帧的重叠部分设置为帧长度的50%,根据人的语音音调周期值的变化,帧长度选取5~20ms;
[0019] 短时傅里叶变换将音频信号转换到同时包含信号时域和频域特征的功率谱上,对于给定信号x(t),其STFT通过下面公式计算:
[0020] ;
[0021] S2.2设计并实现功率谱特征提取算法的特征提取部分
[0022] 选择功率谱中的功率峰值点作为特征,使用最大值滤波器来捕获功率谱的峰值,滤波器采用菱形结构元素,阈值选为信号最大功率的1/3;
[0023] 在提取功率谱特征点后,音频指纹相等与否不依赖于特定时刻频率的功率值是否相等,而取决于音频信号的时域和频域结构特征,因此,最终输出的结果是功率谱特征点对应的(frequency,time)对。
[0024] 优选的,步骤S3具体为:
[0025] S3.1对序列S(frequency,time)按照time进行算术排序,并初始化关联距离L=16和步长i=0,创建集合fingerprint();
[0026] S3.2获取序列S中当前峰值点的频率F_base和时间T_base,获取间隔小于关联距离L的序列S中下一个峰值点的频率F_step和时间T_step;
[0027] S3.3计算得到两个峰值点之间的时间偏移量T_delta;
[0028] S3.4使用哈希函数Md5计算哈希值并选取哈希值的前16位数,公式为:;
[0029] S3.5将计算得到的哈希值和下一个峰值点的时间T_step添加到集合fingerprint()中,生成最终的音频指纹。
[0030] 优选的,步骤S4具体为:
[0031] 在计算音频信号相似度时,首先用上述音频指纹算法获得原始信号和仿生信号的音频指纹,得到的是许多的哈希值与时间偏移量对,然后匹配音频指纹,对于原始信号音频的每个指纹,与仿生信号音频的指纹进行比较时,统计不同时间偏移量差值下匹配到的哈希值数目,根据匹配到的哈希值数目和总指纹数,计算两个音频之间的相似度百分比,最后使用百分制评分标准,将音频指纹相似度作为仿海洋哺乳动物叫声信号的隐蔽性评分。
[0032] 优选的,步骤S5具体为:
[0033] 通过CNN神经网络和LSTM神经网络混合得到CLF模型,所述模型包括一个输入层、四个CNN层、两个LSTM层、两个全连接层和一个输出层;
[0034] 其中,四个CNN层中前两个kernel_size设置为3,stride设置为2,后两个kernel_size设置为2,stride设置为1;第一个LSTM 的hidden_size设置为64,第二个LSTM 的hidden_size设置为32;
[0035] 使用ReLU()作为所有网络层的激活函数。
[0036] 优选的,步骤S6具体为:
[0037] 模型进行训练时,输入的特征数据是全部的仿生音频数据集以及一部分原始音频数据,将它们对应的音频评分作为标签即预测结果,训练的终点条件是完成预定次数的循环,或权值低于某一阈值,或预测的错误率低于某一阈值;如满足结束的条件之一,训练完成;
[0038] 使用MSELoss()作为损失函数,Adam()作为优化器。
[0039] 本发明的有益效果:
[0040] (1)本发明的基于音频提取的仿海洋哺乳动物叫声信号隐蔽性的评分方法,利用音频指纹技术计算得到音频指纹相似度,并将其作为一种仿生信号隐蔽性的评分。将音频指纹技术应用到仿生信号隐蔽性评价中,利用音频指纹技术的准确性、可靠性、鲁棒性等优点,更加全面准确地评估仿生信号的隐蔽性效果,为仿生信号隐蔽性评价提供了一种新的分析方法和评估工具。
[0041] (2)本发明使用CNN‑LSTM混合网络训练了一个CLF仿生音频信号评分模型,该模型是一个端到端的评分模型,利用已有的数据集对所提模型方法的性能进行了评价,找到了最优结构,并对所提方法进行了验证。结果表明,使用神经网络训练得到的评分具有显著的准确性和实用性。

附图说明

[0042] 图1是本发明的整体流程图;
[0043] 图2是本发明的音频指纹提取算法流程图;
[0044] 图3是本发明的哈希算法流程图;
[0045] 图4是本发明的相似度计算流程图;
[0046] 图5是本发明的隐蔽性评分的CLF模型结构图;
[0047] 图6是本发明的CLF模型训练流程图;
[0048] 图7是本发明的CLF模型测试集损失值折线图。

具体实施方式

[0049] 为了使本发明实现的技术手段、创造特征与达成功效易于理解,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进一步清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050] 本发明的基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法,如图1所示,包括以下步骤:
[0051] S1使用Adobe Audition对原始海洋哺乳动物叫声音频以及仿海洋哺乳动物叫声音频进行预处理,包括对音频信号进行降噪、声音增强、回声消除、咔嗒声去除等一系列操作,然后再对音频信号进行数字化处理,以此来提高音频信号的质量、准确性和适用性等。
[0052] S2设计并实现音频信号功率谱特征的提取算法,提取符合要求的功率谱特征,具体如下:
[0053] S2.1设计并实现功率谱特征提取算法的前端处理部分,前端处理包括分帧、加窗、转换和短时傅里叶变换STFT等操作,其中加窗过程选用了汉明窗来做STFT,相比矩形窗可以较好的克服频谱泄露问题,窗函数移动时就将音频信号分为帧,相邻两帧的重叠部分设置为帧长度的50%,根据人的语音音调周期值的变化,帧长度选取5~20ms比较合适。短时傅里叶变换将音频信号转换到可以同时包含信号时域和频域特征的功率谱上,对于给定信号x(t),其STFT可以通过下面公式计算:
[0054] 。
[0055] S2.2设计并实现功率谱特征提取算法的特征提取部分,选择功率谱中的功率峰值点作为特征,使用最大值滤波器来捕获功率谱的峰值,滤波器采用菱形结构元素,阈值选为信号最大功率的1/3。在提取功率谱特征点后,其具体数值并不重要,音频指纹相等与否不依赖于特定时刻频率的功率值是否相等,而更关注音频信号的时域和频域结构特征。因此,最终输出的结果是功率谱特征点对应的(frequency,time),上述过程如图2所示。
[0056] S3设计并实现音频指纹生成算法,生成需要的音频指纹,具体包括:
[0057] S3.1对序列S(frequency,time)按照time进行算术排序,并初始化关联距离L=16和步长i=0,创建集合fingerprint()。
[0058] S3.2获取序列S中当前峰值点的频率F_base和时间T_base,获取间隔小于关联距离L的序列S中下一个峰值点的频率F_step和时间T_step。
[0059] S3.3计算得到两个峰值点之间的时间偏移量T_delta。
[0060] S3.4使用哈希函数Md5计算哈希值并选取哈希值的前16位数,公式为:;
[0061] S3.5将计算得到的哈希值和下一个峰值点的时间T_step添加到集合fingerprint()中,生成最终的音频指纹,上述过程如图3所示。
[0062] S4通过S3得到仿生信号音频指纹和原始信号音频指纹进行指纹匹配并计算音频相似度,把计算结果作为仿海洋哺乳动物叫声信号隐蔽性的评分,具体算法步骤如下:
[0063] 在计算音频信号相似度时,首先用上述音频指纹算法获得原始信号和仿生信号的音频指纹,得到的是许多(哈希值,时间偏移量)对,然后匹配音频指纹,对于原始信号音频的每个指纹,与仿生信号音频的指纹进行比较时,统计不同时间偏移量差值下匹配到的哈希值数目,最后根据匹配到的哈希值数目和总指纹数计算两个音频之间的相似度百分比,使用百分制评分标准,将音频指纹相似度作为仿海洋哺乳动物叫声信号的隐蔽性评分,上述过程如图4所示。
[0064] S5设计并搭建仿海洋哺乳动物叫声信号隐蔽性评分模型—CLF模型[0065] 通过CNN神经网络和LSTM神经网络混合得到的CLF模型,该模型包括一个输入层、四个CNN层、两个LSTM层、两个全连接层和一个输出层。其中,四个CNN层中前两个kernel_size设置为3, stride设置为2,后两个kernel_size设置为2, stride设置为1。第一个LSTM 的hidden_size设置为64,第二个LSTM 的hidden_size设置为32。使用ReLU()作为所有网络层的激活函数,CFL模型结构如图5所示。
[0066] S6训练CLF模型,将仿生音信号输入到模型中,将步骤S4中得到的隐蔽性评分作为标签,具体如下:
[0067] 训练CLF模型,模型进行训练时,输入的特征数据是全部的仿生音频数据集以及一部分原始音频数据,将它们对应的音频评分作为标签即预测结果,训练的终点条件是完成预定次数的循环,或权值低于某一阈值,或预测的错误率低于某一阈值。如果满足结束的条件之一,训练完成。使用MSELoss()作为损失函数,Adam()作为优化器,CLF模型训练过程如图6所示,训练中测试集的损失值曲线如图7所示。
[0068] S7使用训练好的CLF模型进行仿海洋哺乳动物叫声信号隐蔽性评分。
[0069] 本发明的基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法,评分方法将音频指纹技术应用到海洋哺乳动物叫声仿生信号的隐蔽性评价中,设计并实现了一种适用于海洋哺乳动物叫声信号的音频指纹提取算法。该算法使用STFT(短时傅里叶变换)提取可以同时包含信号时域和频域特征的功率谱,并从中选择功率峰值点作为特征生成音频指纹。在提取功率谱特征点后,其具体数值并不重要,提取的是功率谱特征点对应的(frequency,time),然后使用MD5哈希函数通过信号时域和频域的关联距离计算得到哈希值,最后与相应的时间偏移量组成音频指纹。
[0070] 基于上述音频指纹算法获得原始信号和仿生信号的音频指纹,得到的是许多(哈希值,时间偏移量)对,然后匹配音频指纹,对于原始信号音频的每个指纹,与仿生信号音频的指纹进行比较时,统计不同时间偏移量差值下可以匹配到的哈希值数目,最后根据匹配到的哈希值数目和总指纹数计算两个音频之间的相似度百分比,将音频相似度作为仿生音频信号的隐蔽性评分。
[0071] 仿海洋哺乳动物叫声信号隐蔽性的评分模型是在上述的评分方法的基础上实现的,通过CNN神经网络和LSTM神经网络混合得到隐蔽性的评分模型CLF模型,该模型包括一个输入层、四个CNN层、两个LSTM层、两个全连接层和一个输出层;模型进行训练时,输入的特征数据是全部的仿生音频数据集以及一部分原始音频数据,将用上述评分方法得到的音频评分作为标签即预测结果。
[0072] 本发明的基于音频提取的仿海洋哺乳动物叫声信号隐蔽性的评分方法,利用音频指纹技术计算得到音频指纹相似度,并将其作为一种仿生信号隐蔽性的评分。将音频指纹技术应用到仿生信号隐蔽性评价中,利用音频指纹技术的准确性、可靠性、鲁棒性等优点,更加全面准确地评估仿生信号的隐蔽性效果,为仿生信号隐蔽性评价提供了一种新的分析方法和评估工具。
[0073] 本发明使用CNN‑LSTM混合网络训练了一个CLF仿生音频信号评分模型,该模型是一个端到端的评分模型,利用已有的数据集对所提模型方法的性能进行了评价,找到了最优结构,并对所提方法进行了验证。结果表明,使用神经网络训练得到的评分具有显著的准确性和实用性。
[0074] 以上实施例仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施例对本发明进行了详细的说明,对于本领域的普通技术人员来说,依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。