会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学 / 一种基于神经网络和特征融合的合成语音检测方法

一种基于神经网络和特征融合的合成语音检测方法

申请号 CN202311490667.X 申请日 2023-11-09 公开(公告)号 CN117393000B 公开(公告)日 2024-04-16
申请人 南京邮电大学; 发明人 徐小龙; 刘畅;
摘要 本 发明 公开了一种基于神经网络和特征融合的合成语音检测方法,所述方法包括:获取音频待测数据集,对音频待测数据集提取音频的声学特征和对应的 频谱 图图像特征;将音频的声学特征和对应的频谱图图像特征输入预先训练的合成音频检测模型中,分别得到音频的真实性分数一和音频的真实性分数二;将音频的真实性分数一和音频的真实性分数二加权融合,得到特征信息融合后的音频真实性得分;将得到的特征信息融合后的真实性得分与预先设定的 阈值 比较得到最终音频检测结果;本发明巧妙融合了声学特征和频谱图图像信息进行合成语音检测,具有更好的 稳定性 和泛化能 力 。
权利要求

1.一种基于神经网络和特征融合的合成语音检测方法,其特征在于,所述方法包括:
获取音频待测数据集,对音频待测数据集提取音频的声学特征和对应的频谱图图像特征;
将音频的声学特征和对应的频谱图图像特征输入预先训练的合成音频检测模型中,分别得到音频的真实性分数一和音频的真实性分数二;
将音频的真实性分数一和音频的真实性分数二加权融合,得到特征信息融合后的音频真实性得分;
将得到的真实性得分与预先设定的阈值比较,得到最终音频检测结果;
其中,所述合成音频检测模型包括特征到分数模和图像到分数模块,所述特征到分数模块用于将输入的音频的声学特征输出为音频的真实性分数一,所述图像到分数模块用于将输入的对应的频谱图图像特征输出为音频的真实性分数二;
所述将音频的真实性分数一和音频的真实性分数二加权融合的公式为:
其中f(·)表示加权函数,sf为特征到分数模块输出的音频真实性分数,si为图像到分数模块输出的音频真实性分数,ω为加权系数,threshold为阈值,score表示最终音频真实性得分,H0表示原假设,说明音频是真实的,H1表示备择假设,说明音频是合成的,f(·)函数通过公式f(sf,si;ω)=ω×sf(1‑ω)×si得出最终音频真实性得分,score大于threshold,表示接受H0假设,说明音频是真实的;score小于threshold,表明接受H1假设,说明音频是伪造的。
2.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述合成音频检测模型的训练方法包括:
获取真实音频数据集和合成音频数据集作为样本集,按预设比例将所述样本集划分为训练集和验证集;
对训练集进行数据预处理,提取对应的声学特征、频谱图图像特征;
采用样本的声学特征、频谱图图像特征训练初始合成音频检测模型,输出训练结果;
对训练结果加权融合得到音频真实性分数;
通过音频真实性分数和样本预设标签计算损失,采用梯度下降法来优化训练初始合成音频检测模型,同时在验证集上观察模型的性能;
将最终的音频真实性分数和预先设定的阈值比较,得到满足检测结果后,将优化后的初始合成音频检测模型作为合成音频检测模型。
3.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述对音频待测数据集提取音频的声学特征的方法包括:
通过对音频文件进行预加重、分加窗、应用离散傅里叶变换得到音频的频域表示,计算频域表示内复值信号的平方幅度得到音频的频谱图;
对频谱图采用线性滤波器组、离散余弦变换得到线性频率倒谱系数声学特征,得到声学特征。
4.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述对音频待测数据集提取音频的声学特征对应的频谱图图像特征的方法包括:
通过对音频文件进行预加重、分帧、加窗、应用离散傅里叶变换得到音频的频域表示,计算频域表示内复值信号的平方幅度得到音频的频谱图;
将频谱图从振幅刻度转换为分贝刻度后,构建指定像素大小的灰度图图像作为频谱图图像特征。
5.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述特征到分数模块包括最大特征图单元、时延神经网络单元、紧密连接时延神经网络单元、转换层、池化层、前馈神经网络层和线性层;
线性频率倒谱系数首先通过最大特征图单元,在二维空间上提取特征;
再通过时延神经网络单元初始化通道数量,再通过多个连续的紧密连接时延神经网络单元学习局部特征,并使用转换层来聚合多阶段信息;再接多个紧密连接时延神经网络单元学习长期依赖,并使用转换层聚合信息;最后通过池化层聚合信息,通过前馈神经网络层、线性层输出真实性分数。
6.根据权利要求5所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述转换层聚合多阶段信息的公式为:
k k 0 1 k‑1
d=D([d,d,...,d ])
0 k
其中d表示紧密连接时延神经网络单元的输入,d表示第k层紧密连接时延神经网络单k
元输出,[·]表示拼接操作,D(·)表示第k层的非线性变换。
7.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述图像到分数模块包括二维卷积层、残差块、最大池化层、展平层、Dropout层、全连接层构成;
频谱图的灰度图图像首先通过二维卷积层、残差块来充分提取信息,再通过最大池化层缩小特征图尺寸,降低展平后的特征维数,然后通过展平层展开,经过全连接层进行降维并结合Dropout层提高模块的泛化性;最后通过全连接层输出图像度的真实性分数。
8.根据权利要求7所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述残差块构建信息流的公式为:
y=F(x,ω)+x
其中x表示输入,ω表示当前层的参数,F(x,ω)表示输入经过当前层非线性变换的输出,y表示当前层的输出。
9.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述真实性得分与预先设定的阈值比较的表达式为:
其中threshold表示预先设定的阈值,0表示音频为合成的,1表示音频是真实的,label表示音频的标签。

说明书全文

一种基于神经网络和特征融合的合成语音检测方法

技术领域

[0001] 本发明涉及一种基于神经网络和特征融合的合成语音检测方法,属于信息安全与人工智能技术领域。

背景技术

[0002] 随着各种基于深度学习的语音合成方法的成熟,最先进的语音合成方法已经能够生成欺骗人的高度逼真的声音。由于这些工具的易获取、易使用以及相关法律的不完善等原因,产生了一种名为音频深度伪造的技术,该技术的滥用对国家形象、社会舆论以及公众利益造成了严重威胁,因此开发能够检测合成音频的工具便尤为重要。基于以上背景,合成音频检测成为声学信号处理以及人工智能领域中的重要研究问题,它的主要任务是通过计算,自动预测一段音频是否是通过人工智能工具合成的。
[0003] 鉴于音频深度伪造技术潜在的危害,已经有很多工作致于检测合成音频。通常来说,合成音频检测方法可分为基于机器学习的方法和基于深度学习的方法。基于机器学习的合成音频检测通常需要人为地手动设计特征,虽然具备较好的可解释性,但是方法的性能很大程度上依赖人工特征,可扩展性较差。基于深度学习的合成语音检测方法能够利用深度神经网络的优势自动提取并学习有用的特征,实现输入与输出间复杂的映射关系,从而拥有良好的性能,因此近年来广泛受到研究人员的重视。但是此前基于深度学习的合成语音检测方法大多针对特定的数据集,普遍没有考虑到方法在跨语言情形下的性能。且存在过度训练的情况,在特定数据集上严重过拟合,降低了对应方法泛化到未知数据的能力。
[0004] 此外,无论是基于机器学习还是基于深度学习的合成音频检测方法往往只利用了音频的声学特征或音频对应的频谱图图像特征,没用充分利用音频包含的丰富信息,因此在检测合成音频时还存在一些不足:如方法在不同语言间的可扩展性、稳定性等。

发明内容

[0005] 本发明的目的在于提供一种基于神经网络和特征融合的合成语音检测方法,以解决现有技术只利用了音频的声学特征或音频对应的频谱图图像特征,没用充分利用音频包含的丰富信息,在检测合成音频时存在不足的缺陷
[0006] 一种基于神经网络和特征融合的合成语音检测方法,所述方法包括:
[0007] 获取音频待测数据集,对音频待测数据集提取音频的声学特征和对应的频谱图图像特征;
[0008] 将音频的声学特征和对应的频谱图图像特征输入预先训练的合成音频检测模型中,分别得到音频的真实性分数一和音频的真实性分数二;
[0009] 将音频的真实性分数一和音频的真实性分数二加权融合,得到特征信息融合后的音频真实性得分;
[0010] 将得到的真实性得分与预先设定的阈值比较,得到最终音频检测结果;
[0011] 其中,所述合成音频检测模型包括特征到分数模和图像到分数模块,所述特征到分数模块用于将输入的音频的声学特征输出为音频的真实性分数一,所述图像到分数模块用于将输入的对应的频谱图图像特征输出为音频的真实性分数二。
[0012] 进一步地,所述合成音频检测模型的训练方法包括:
[0013] 获取真实音频数据集和合成音频数据集作为样本集,按预设比例将所述样本集划分为训练集和验证集;
[0014] 对训练集进行数据预处理,提取对应的声学特征、频谱图图像特征;
[0015] 采用样本的声学特征、频谱图图像特征训练初始合成音频检测模型,输出训练结果;对训练结果加权融合得到音频真实性分数;
[0016] 通过音频真实性分数和样本预设标签计算损失,采用梯度下降法来优化训练初始合成音频检测模型,同时在验证集上观察模型的性能;
[0017] 将最终的音频真实性分数和预先设定的阈值比较,得到满足检测结果后,将优化后的初始合成音频检测模型作为合成音频检测模型。
[0018] 进一步地,所述对音频待测数据集提取音频的声学特征的方法包括:
[0019] 通过对音频文件进行预加重、分加窗、应用离散傅里叶变换得到音频的频域表示,计算频域表示内复值信号的平方幅度得到音频的频谱图;
[0020] 对频谱图采用线性滤波器组、离散余弦变换得到线性频率倒谱系数声学特征,得到声学特征。
[0021] 进一步地,所述对音频待测数据集提取音频的声学特征对应的频谱图图像特征的方法包括:
[0022] 通过对音频文件进行预加重、分帧、加窗、应用离散傅里叶变换得到音频的频域表示,计算频域表示内复值信号的平方幅度得到音频的频谱图;
[0023] 将频谱图从振幅刻度转换为分贝刻度后,构建指定像素大小的灰度图图像作为频谱图图像特征。
[0024] 进一步地,所述特征到分数模块包括最大特征图单元、时延神经网络单元、紧密连接时延神经网络单元、转换层、池化层、前馈神经网络层和线性层;线性频率倒谱系数首先通过最大特征图单元,在二维空间上提取特征;
[0025] 通过时延神经网络单元初始化通道数量,再通过多个连续的紧密连接时延神经网络单元学习局部特征,并使用转换层来聚合多阶段信息;再接多个紧密连接时延神经网络单元学习长期依赖,并使用转换层聚合信息;最后通过池化层聚合信息,通过前馈神经网络层、线性层输出真实性分数。
[0026] 进一步地,所述转换层聚合多阶段信息的公式为:
[0027] dk=Dk([d0,d1,…,dk‑1])
[0028] 其中d0表示紧密连接时延神经网络单元的输入,dk表示第k层紧密连接时延神经网k络单元输出,[·]表示拼接操作,D(·)表示第k层的非线性变换。
[0029] 进一步地,所述图像到分数模块包括二维卷积层、残差块、最大池化层、展平层、Dropout层、全连接层构成;
[0030] 频谱图的灰度图图像首先通过二维卷积层、残差块来充分提取信息;接着通过最大池化层缩小特征图尺寸,降低展平后的特征维数;然后通过展平层展开,经过全连接层进行降维并结合Dropout层提高模块的泛化性;最后通过全连接层输出图像度的真实性分数。
[0031] 进一步地,所述残差块构建信息流的公式为:
[0032] y=F(x,ω)+x
[0033] 其中x表示输入,ω表示当前层的参数,F(x,ω)表示输入经过当前层非线性变换的输出,y表示当前层的输出。
[0034] 进一步地,所述将音频的真实性分数一和音频的真实性分数二加权融合的公式为:
[0035]
[0036] 其中f(·)表示加权函数,sf为特征到分数模块输出的音频真实性分数,si为图像到分数模块输出的音频真实性分数,ω为加权系数,threshold为阈值,score表示最终音频真实性得分,H0表示原假设,说明音频是真实的,H1表示备择假设,说明音频是合成的,f(·)函数通过公式f(sf,si;ω)=ω×sf+(1‑ω)×si得出最终音频真实性得分,score大于threshold,表示接受H0假设,说明音频是真实的;score小于threshold,表明接受H1假设,说明音频是伪造的。
[0037] 进一步地,所述真实性得分与预先设定的阈值比较的表达式为:
[0038]
[0039] 其中,threshold表示预先设定的阈值,0表示音频为合成的,1表示音频是真实的,label表示音频的标签。
[0040] 与现有技术相比,本发明所达到的有益效果:本发明利用合成音频检测模型处理频谱图图像信息,构建了网络各层间通畅的信息流,在使用时具有更好的稳定性,其次本发明面向跨语言的合成音频检测,具有更高的普适性,能够适应现实场景下的复杂情况;
[0041] 本发明融合了声学特征和频谱图图像信息进行合成语音检测,具有更好的稳定性和泛化能力;
[0042] 本发明结合最大特征图和紧密连接时延神经网络,不仅能够学习到局部特征间的关系,还可以学习特征间的长期依赖,从而提高检测的准确性。附图说明
[0043] 图1为本发明方法的网络结构示意图;
[0044] 图2为本发明方法最大特征图单元示意图;
[0045] 图3为本发明方法最大特征图示意图;
[0046] 图4为本发明残差块结构图;
[0047] 图5为本发明训练‑测试示意图。

具体实施方式

[0048] 为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
[0049] 如图1所示,公开了一种基于神经网络和特征融合的合成语音检测方法,所述方法包括:
[0050] 获取音频待测数据集,对音频待测数据集提取音频的声学特征和对应的频谱图图像特征;
[0051] 将音频的声学特征和对应的频谱图图像特征输入预先训练的合成音频检测模型中,分别得到音频的真实性分数一和音频的真实性分数二;
[0052] 将音频的真实性分数一和音频的真实性分数二加权融合,得到特征信息融合后的音频真实性得分;
[0053] 将得到的特征信息融合后的真实性得分与预先设定的阈值比较得到最终音频检测结果;其中,所述合成音频检测模型包括特征到分数模块和图像到分数模块,所述特征到分数模块用于将输入的音频的声学特征输出为音频的真实性分数一,所述图像到分数模块用于将输入的对应的频谱图图像特征输出为音频的真实性分数二;
[0054] 针对本方法,具体步骤包括为:
[0055] 1)对输入的音频数据,为便于网络模型的后续计算,需要进行预处理操作,具体包括:对所有音频数据重采样,使所有音频数据均为16KHz的单声道音频;静默消除,修剪音频数据中所有超过0.2s的沉默;将所有音频修剪或填充至4s,填充策略为重复待填充的音频并截取4s长的音频作为填充后的音频。
[0056] 获取音频待测数据集的方法包括:
[0057] 获取使用到的含不同语言、不同说话人、不同话语的音频数据集;
[0058] 对获取的含不同语言、不同说话人、不同话语的音频数据集进行预处理,得到音频待测数据集;
[0059] 其中,对获取的含不同语言、不同说话人、不同话语的音频数据集进行预处理方法包括:
[0060] 对音频样本数据集进行重采样、静默消除、修剪裁剪操作,统一音频的数据格式。
[0061] 2)提取经过预处理后音频的线性频率倒谱系数声学特征作为声学域特征、音频对应的频谱图图像作为图像域特征。对于线性频率倒谱系数,首先对音频波形依次进行预加重、分帧、加窗来避免频谱泄露;接着对帧应用离散傅里叶变换获得音频的频域表示X(t,k),其中t=1,…,T表示帧索引,k=0,1,…K‑1表示离散傅里叶变换系数;计算复值信号幅2
度的平方|X(t,k)|作为音频的频谱图;对频谱图应用线性滤波器组、离散余弦变换得到80维线性频率倒谱系数。对于频谱图图像,我们在频谱图的基础上将频谱图从振幅刻度转换为分贝刻度后,构建50×34像素大小的灰度图图像。
[0062] 3)将线性频率倒谱系数通过合成语音检测模型的特征到分数(feature2score)模块,得到声学特征角度的音频真实性得分。
[0063] feature2score模块的详细结构如表1所示。
[0064] 表1
[0065]
[0066]
[0067] 其中,最大特征图单元结构如图2所示,最大特征图示意图如图3所示。时延神经网络单元由一维卷积层和激活函数组成;转换层由批量归一化层、激活函数和一维卷积层构成;前馈神经网络层由一维卷积层、批量归一化层和激活函数组成。其本质是在二维空间上提取特征,通过最大特征图进行竞争学习,丢弃掉输出较小的部分,保留输出较大的部分,有利于提取到有用的特征。输入经过最大特征图单元后,通过紧密连接时延神经网络来学习特征间的时序关系,来提取能表示音频是否为合成的特征向量。紧密连接时延神经网络结构如表2所示。具体而言,首先使用时延神经网络单元初始化通道数量;通过两个连续的紧密连接时延神经网络单元学习局部特征;接着通过一个基于前馈神经网络的转换层来聚合多阶段特征。第k层紧密连接时延神经网络表示的信息如公式(1)所示:
[0068] dk=Dk([d0,d1,…,dk‑1])#(1)
[0069] 其中d0表示紧密连接时延神经网络单元的输入,dk表示第k层紧密连接时延神经网k络单元输出,[·]表示拼接操作,D(·)表示第k层的非线性变换。
[0070] 然后使用四个连续的紧密连接时延神经网络单元学习长期依赖,后接一个转换层聚合信息;最后通过统计池化层聚合特征,输出256维特征向量,后接一个全连接层,输出真实性得分。
[0071] 4)将音频的频谱图灰度图图像通过合成语音检测模型的图像到分数(image2score)模块,得到图像角度的音频真实性分数。
[0072] image2score模块的详细结构如表2所示。
[0073] 表2
[0074]
[0075]
[0076] 其中残差块的结构如图4所示。image2score模块以频谱图灰度图像作为输入,其形状为(B,C,H,W),B表示批量大小,C表示通道数,H表示高度,W表示宽度。需要注意的是,输入在经过展平层后,其通道数C、高度H、宽度W会展平成张量,此时网络的输出形状为(B,D),D表示特征的维度。通过二维卷积提取有效特征,同时利用残差结构构建网络中流畅的信息流,使得网络能更好学习到有效特征,残差结构的计算公式如式(2)所示。
[0077] y=F(x,ω)+x#(2)
[0078] 其中x表示输入,ω表示当前层的参数,F(x,ω)表示输入经过当前层非线性变换的输出,y表示当前层的输出。
[0079] 经过特征提取后通过展平特征向量后接全连接层输出图像角度的音频真实性分数。
[0080] 5)由步骤3)、步骤4)得到两个不同角度下音频的真实性分数,通过加权计算音频最终的真实性分数。加权计算公式如公式(4)所示:
[0081]
[0082] 其中f(·)表示加权函数,sf为特征到分数模块输出的音频真实性分数,si为图像到分数模块输出的音频真实性分数,ω为加权系数,threshold为阈值,score表示最终音频真实性得分,H0表示原假设,说明音频是真实的,H1表示备择假设,说明音频是合成的。f(·)函数通过公式f(sf,si;ω)=ω×sf+(1‑ω)×si得出最终音频真实性得分。score大于threshold,表示接受H0假设,说明音频是真实的;score小于threshold,表明接受H1假设,说明音频是伪造的。
[0083] 6)将音频的最终真实性得分与预先设定的阈值进行比较,得到最终音频样本的标签,预测的样本标签计算公式如公式(5)所示。
[0084]
[0085] 其中threshold表示预先设定的阈值,在本发明中为0.5。
[0086] 本发明中在训练部分,使用的损失函数如下:
[0087] loss=‑(yn*log(δ(zn))+(1‑yn)*log(1‑δ(zn)))
[0088] 其中zn表示第n个样本为正样本的得分,yn表示第n个样本的标签,δ表示sigmoid激活函数。所有数据都需要按照以上规则运算,通过优化损失函数对网络模型(步骤2)至步骤6))进行训练。
[0089] 具体训练和验证过程如下:
[0090] 对训练集、验证集、测试集进行数据预处理,提取对应的声学特征、频谱图图像特征;
[0091] 以每批次128个样本,将样本的声学特征、频谱图图像特征、标签输入至合成音频检测模型;
[0092] 加权融合合成音频检测模型中特征到分数模块输出音频真实性分数一、图像到分数模块输出的音频真实性分数二,得到最终的音频真实性分数;
[0093] 通过最终的音频真实性分数和样本的标签计算损失,通过梯度下降法来优化训练模型,总共迭代10轮;
[0094] 将最终的音频真实性分数和预先设定的阈值比较,输出最终检测结果,并计算训练集上的等错误率;
[0095] 同样地,在训练的同时,通过模型在验证集上的表现来衡量其效果,具体包括:
[0096] 以每批次128个样本,将验证集中样本的声学特征、频谱图图像特征、标签输入至合成音频检测模型,得到音频的最终真实性得分,并和预先设定的阈值比较,计算验证集上的等错误率,衡量模型的检测性能。
[0097] 本实施例中将上述方法和模型应用于检测基于神经声码器的合成语音的检测当中,并与目前主流的合成音频检测模型高斯混合模型、Rawnet2模型在WaveFake数据集、LJSpeech数据集、JSUT数据集上进行比较(LJSpeech为英文数据集,JSUT数据集为日语数据集),采用的实验方式为:将WaveFake数据集中以LJSpeech为参考的合成音频子集及参考真实集LJSpeech作为训练集,WaveFake中以JSUT为参考的合成音频及JSUT数据集作为测试集,训练时,每次从训练集中保留一个样本子集作为额外测试集,剩余作为训练集,对于验证集,我们在每次的训练集中按照8:2划分训练集和验证集进行实验。其流程如图5所示。其整体性能对比结果如表3所示,其中保留集表示每次训练时保留的数据子集,TTS表示在LJSpeech数据集上合成的相同说话人不同语句的音频测试集,JSUT下两个数据子集为不同说话人、不同语言的测试集,表中的数据为等错误率,是音频领域和语音识别等评估任务中常用的一种性能度量指标。
[0098] 表3
[0099]
[0100] 表4则给出了本发明与高斯混合模型、Rawnet2在实验中的平均等错误率。表4中的保留集顺序和表3中的保留集一一对应。
[0101] 表4
[0102]
[0103] 结合表3和表4可以看出,本发明的性能无论是在具有相同说话人不同话语的数据子集TTS上,还是不同说话人、不同语言的数据集JUST对应的两个子集上全面优于Rawnet2方法,基本优于高斯混合模型。并且本发明的最优平均等错误率为0.004,优于高斯混合模型(0.054)和Rawnet2(0.436)。说明即使面对此前从未见过的不同语言的不同话语合成音频,本发明提出的方法也能有效的检测,并给出可靠的结果,因此本发明具有良好的稳定性和泛化性能,更加适用于现实环境中的复杂情况。
[0104] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。