会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 系统获得抗性 / 一种对语音内容进行增强的对抗性攻击方法、装置和系统

一种对语音内容进行增强的对抗性攻击方法、装置和系统

申请号 CN202410274836.4 申请日 2024-03-11 公开(公告)号 CN117877506A 公开(公告)日 2024-04-12
申请人 北京建筑大学; 发明人 周若华; 曹承宇;
摘要 本申请提供一种对语音内容进行增强的对抗性攻击方法、装置和系统,包括:将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音;将所述对抗性攻击语音输入至预训练的语音增强模型中,获得降噪后语音;基于语音识别系统对所述降噪后语音进行语音识别,获得所述降噪后语音对应的语音语义,其中,识别后获得的所述语音语义与所述待识别的语音语义不同,与所述对抗性攻击语音语义相同。本申请通过在增强之前对待识别语音进行对抗性攻击,保护了语音内容,提高了数据的安全性。
权利要求

1.一种对语音内容进行增强的对抗性攻击方法,其特征在于,所述方法包括:将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音;

其中,所述待识别的语音至少包括待识别实际语音和待识别噪声语音,所述对抗性攻击语音至少包括对抗性攻击实际语音和对抗性攻击噪声语音,所述待识别噪声语音和所述对抗性攻击噪声语音相同,所述对抗性攻击语音与所述待识别的语音的语义相似度小于第一相似阈值,且大于第二相似阈值,所述第二相似阈值小于所述第一相似阈值;

将所述对抗性攻击语音输入至预训练的语音增强模型中,获得降噪后语音,所述预训练的语音增强模型用于对输入语音进行噪音去除处理,获得输入语音中的实际语音;

基于语音识别系统对所述降噪后语音进行语音识别,获得所述降噪后语音对应的语音语义,其中,识别后获得的所述语音语义与所述待识别的语音语义不同,与所述对抗性攻击语音语义相同。

2.根据权利要求1所述的方法,其特征在于,所述将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音,具体包括:预测所述待识别语音的攻击目标,所述攻击目标至少包括所述语音识别系统识别到的语音类型;

获取所述待识别语音的编码和攻击目标的编码;

基于所述待识别语音的编码和攻击目标的编码生成对抗性攻击语音编码,其中所述对抗性攻击语音编码与所述待识别语音的编码的长度相同;

基于所述对抗性攻击语音编码生成所述对抗性攻击语音,所述对抗性攻击语音类型与所述攻击目标相匹配。

3.根据权利要求1所述的方法,其特征在于,所述将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音,具体包括:过滤所述待识别的语音中的待识别噪声语音,从所述待识别的语音中提取所述待识别实际语音序列;

改变所述待识别实际语音序列的语义内容,生成第一音频序列;

以所述第一音频序列作为所述待识别的语音对应的对抗性攻击语音。

4.根据权利要求1所述的方法,其特征在于,所述将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音,具体包括:过滤所述待识别的语音中的待识别噪声语音,从所述待识别的语音中提取所述待识别实际语音序列;

基于编码器提取所述待识别实际语音序列的第一音频语义特征;

预测所述待识别的语音对应的攻击目标;

基于所述对抗性攻击模型的参数优化目标函数最优化计算所述对抗性攻击模型的参数;

基于参数确定后的对抗性攻击模型、所述第一音频语义特征和所述攻击目标生成与所述攻击目标匹配的对抗性攻击实际语音;

混合所述对抗性攻击实际语音和所述对抗性攻击噪声语音,获得所述对抗性攻击语音。

5.根据权利要求4所述的方法,其特征在于,所述基于所述对抗性攻击模型的参数优化目标函数最优化计算所述对抗性攻击模型的参数,具体包括:确定所述对抗性攻击模型的初始参数和参数优化目标函数,所述目标函数至少包括对抗性攻击模型输出的音频序列与所述待识别实际语音序列之间的均方误差,所述目标函数至少还包括所述对抗性攻击模型输出的音频序列与攻击目标之间的第一范数损失;

将所述第一音频语义特征输入至所述对抗性攻击模型,修改所述对抗性攻击模型的参数,迭代生成音频序列,使所述参数优化目标函数最优化,以所述参数优化目标函数最优时对应的参数作为对抗性攻击模型的参数。

6.根据权利要求3所述的方法,其特征在于,所述改变所述待识别实际语音序列的语义内容,获得第一音频序列,包括:基于编码器提取所述待识别实际语音序列的第一音频语义特征;

对所述第一音频语义特征增加扰动,获得第二音频语义特征,所述第二音频语义特征与所述第一音频语义特征的相似度大于第二相似阈值且小于所述第一相似阈值;

基于解码器和所述第二音频语义特征解码生成与所述待识别实际语音序列长度相同的第二音频序列。

7.根据权利要求1所述的方法,其特征在于,所述预训练的语音增强模型为CMGAN模型;

所述方法还包括:训练语音增强模型,所述训练语音增强模型,具体包括:获取多个第一语音样本,每个所述第一语音样本中至少包括混合噪声的输入语音样本和无噪声的输出语音样本;

利用所述多个第一语音样本训练CMGAN模型,训练后的CMGAN模型基于所述混合噪声的输入语音样本输出所述无噪声的输出语音样本。

8.根据权利要求7所述的方法,其特征在于,各个所述第一语音样本中混合噪声的噪声类型不完全相同,所述噪声类型至少包括第一类型和第二类型,第一类型的噪声与无噪声的输出语音样本频带差距小于第一阈值,第二类型的噪声与无噪声的输出语音样本频带差距大于等于第一阈值。

9.一种对语音内容进行增强的对抗性攻击装置,其特征在于,所述装置包括:攻击模块,用于将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音;

其中,所述待识别的语音至少包括待识别实际语音和待识别噪声语音,所述对抗性攻击语音至少包括对抗性攻击实际语音和对抗性攻击噪声语音,所述待识别噪声语音和所述对抗性攻击噪声语音相同,所述对抗性攻击语音与所述待识别的语音的语义相似度小于第一相似阈值,且大于第二相似阈值,所述第二相似阈值小于所述第一相似阈值;

增强模块,用于将所述对抗性攻击语音输入至预训练的语音增强模型中,获得降噪后语音,所述预训练的语音增强模型用于对输入语音进行噪音去除处理,获得输入语音中的实际语音;

识别模块,用于基于语音识别系统对所述降噪后语音进行语音识别,获得所述降噪后语音对应的语音语义,其中,识别后获得的所述语音语义与所述待识别的语音语义不同,与所述对抗性攻击语音语义相同。

10.一种对语音内容进行增强的对抗性攻击系统,其特征在于,所述系统至少包括依次连接的:对抗性攻击模型、预训练的语音增强模型和语音识别系统,所述系统用于识别输入所述系统的待识别的语音的语义内容;

所述对抗性攻击模型用于对抗攻击所述待识别的语音,获得待识别的语音对应的对抗性攻击语音;

其中,所述待识别的语音至少包括待识别实际语音和待识别噪声语音,所述对抗性攻击语音至少包括对抗性攻击实际语音和对抗性攻击噪声语音,所述待识别噪声语音和所述对抗性攻击噪声语音相同,所述对抗性攻击语音与所述待识别的语音的语义相似度小于第一相似阈值,且大于第二相似阈值,所述第二相似阈值小于所述第一相似阈值;

所述预训练的语音增强模型用于将所述对抗性攻击语音进行降噪处理,获得降噪后语音;

所述语音识别系统用于对所述降噪后语音进行语音识别,获得所述降噪后语音对应的语音语义,其中,识别后获得的所述语音语义与所述待识别的语音语义不同,与所述对抗性攻击语音语义相同。

说明书全文

一种对语音内容进行增强的对抗性攻击方法、装置和系统

技术领域

[0001] 本申请涉及语音识别技术领域,尤其涉及一种对语音内容进行增强的对抗性攻击方法、装置和系统。

背景技术

[0002] 得益于移动通信的普及以及通讯和会议系统的需求,语音增强技术得到了快速发展。语音增强旨在去除含噪信号中的噪声,提高信噪比,减少失真改善语音质量,从而提高语音识别的准确度。但是在部分需要确保数据安全的场景中,不希望将语音的内容被系统识别到,此时语音增强系统的存在容易泄露语音信息,比如被不同的设备录下来或者在语音增强后被人恶意提取。其中的私密内容可能会泄露。为了保护语音数据的安全,旨在通过改变语音中的内容,保护说话内容的信息。
[0003] 现有的方法通过对语音识别系统进行对抗性攻击以改变其识别结果。然而,现有技术中的语音增强模型在去除噪声的同时,还会将对抗性攻击的效果直接去除,即去噪过程可以使对抗性示例对语音识别系统的攻击无效。因此,针对语音识别系统的对抗性示例在被语音增强去噪后可能不起作用。因此,亟需一种方法,以实现对语音内容进行数据保护的目的。

发明内容

[0004] 有鉴于此,本申请提供一种对语音内容进行增强的对抗性攻击方法、装置和系统,用以实现对语音内容进行数据保护的目的。
[0005] 具体地,本申请是通过如下技术方案实现的:本申请第一方面提供一种对语音内容进行增强的对抗性攻击方法,所述方法包括:
将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音;
其中,所述待识别的语音至少包括待识别实际语音和待识别噪声语音,所述对抗性攻击语音至少包括对抗性攻击实际语音和对抗性攻击噪声语音,所述待识别噪声语音和所述对抗性攻击噪声语音相同,所述对抗性攻击语音与所述待识别的语音的语义相似度小于第一相似阈值,且大于第二相似阈值,所述第二相似阈值小于所述第一相似阈值;
将所述对抗性攻击语音输入至预训练的语音增强模型中,获得降噪后语音,所述预训练的语音增强模型用于对输入语音进行噪音去除处理,获得输入语音中的实际语音;
基于语音识别系统对所述降噪后语音进行语音识别,获得所述降噪后语音对应的语音语义,其中,识别后获得的所述语音语义与所述待识别的语音语义不同,与所述对抗性攻击语音语义相同。
[0006] 本申请第二方面提供一种对语音内容进行增强的对抗性攻击装置,所述装置包括:攻击模块,用于将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音;
其中,所述待识别的语音至少包括待识别实际语音和待识别噪声语音,所述对抗性攻击语音至少包括对抗性攻击实际语音和对抗性攻击噪声语音,所述待识别噪声语音和所述对抗性攻击噪声语音相同,所述对抗性攻击语音与所述待识别的语音的语义相似度小于第一相似阈值,且大于第二相似阈值,所述第二相似阈值小于所述第一相似阈值;
增强模块,用于将所述对抗性攻击语音输入至预训练的语音增强模型中,获得降噪后语音,所述预训练的语音增强模型用于对输入语音进行噪音去除处理,获得输入语音中的实际语音;
识别模块,用于基于语音识别系统对所述降噪后语音进行语音识别,获得所述降噪后语音对应的语音语义,其中,识别后获得的所述语音语义与所述待识别的语音语义不同,与所述对抗性攻击语音语义相同。
[0007] 本申请第三方面提供一种对语音内容进行增强的对抗性攻击系统,所述系统至少包括依次连接的:对抗性攻击模型、预训练的语音增强模型和语音识别系统,所述系统用于识别输入所述系统的待识别的语音的语义内容;所述对抗性攻击模型用于对抗攻击所述待识别的语音,获得待识别的语音对应的对抗性攻击语音;
其中,所述待识别的语音至少包括待识别实际语音和待识别噪声语音,所述对抗性攻击语音至少包括对抗性攻击实际语音和对抗性攻击噪声语音,所述待识别噪声语音和所述对抗性攻击噪声语音相同,所述对抗性攻击语音与所述待识别的语音的语义相似度小于第一相似阈值,且大于第二相似阈值,所述第二相似阈值小于所述第一相似阈值;
所述预训练的语音增强模型用于将所述对抗性攻击语音进行降噪处理,获得降噪后语音;
所述语音识别系统用于对所述降噪后语音进行语音识别,获得所述降噪后语音对应的语音语义,其中,识别后获得的所述语音语义与所述待识别的语音语义不同,与所述对抗性攻击语音语义相同。
[0008] 本申请提供的对语音内容进行增强的对抗性攻击方法、装置和系统,将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音;其中,所述待识别的语音至少包括待识别实际语音和待识别噪声语音,所述对抗性攻击语音至少包括对抗性攻击实际语音和对抗性攻击噪声语音,所述待识别噪声语音和所述对抗性攻击噪声语音相同,所述对抗性攻击语音与所述待识别的语音的语义相似度小于第一相似阈值,且大于第二相似阈值,所述第二相似阈值小于所述第一相似阈值;将所述对抗性攻击语音输入至预训练的语音增强模型中,获得降噪后语音,所述预训练的语音增强模型用于对输入语音进行噪音去除处理,获得输入语音中的实际语音;基于语音识别系统对所述降噪后语音进行语音识别,获得所述降噪后语音对应的语音语义,其中,识别后获得的所述语音语义与所述待识别的语音语义不同,与所述对抗性攻击语音语义相同。在原始的整个语音识别过程中,即语音增强、语音识别过程中,在语音增强之前加入针对语音的对抗性攻击过程,直接改变语音增强步骤的输入语音的语义内容,从而使得语音增强系统无法识别出对应的攻击,进而提高了对语音识别攻击的成功率,提高了对输入语音的数据保护。

附图说明

[0009] 图1为本申请提供的对语音内容进行增强的对抗性攻击方法实施例一的流程图;图2为本申请一示例性实施例示出的对抗性样本与原始样本的波形图
图3为本申请一示例性实施例示出的原始语音的频谱图;
图4为本申请一示例性实施例示出的带噪语音的频谱图;
图5为本申请一示例性实施例示出的增强语音的频谱图;
图6为本申请提供的对语音内容进行增强的对抗性攻击装置实施例一的结构示意图;
图7为本申请提供的对语音内容进行增强的对抗性攻击系统实施例一的结构示意图。

具体实施方式

[0010] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
[0011] 在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0012] 应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
[0013] 本申请提供一种对语音内容进行增强的对抗性攻击方法、装置和系统,用以实现对语音内容进行数据保护的目的,提高对语音识别攻击的成功率。
[0014] 本申请提供的对语音内容进行增强的对抗性攻击方法、装置和系统,将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音;其中,所述待识别的语音至少包括待识别实际语音和待识别噪声语音,所述对抗性攻击语音至少包括对抗性攻击实际语音和对抗性攻击噪声语音,所述待识别噪声语音和所述对抗性攻击噪声语音相同,所述对抗性攻击语音与所述待识别的语音的语义相似度小于第一相似阈值,且大于第二相似阈值,所述第二相似阈值小于所述第一相似阈值;将所述对抗性攻击语音输入至预训练的语音增强模型中,获得降噪后语音,所述预训练的语音增强模型用于对输入语音进行噪音去除处理,获得输入语音中的实际语音;基于语音识别系统对所述降噪后语音进行语音识别,获得所述降噪后语音对应的语音语义,其中,识别后获得的所述语音语义与所述待识别的语音语义不同,与所述对抗性攻击语音语义相同。在原始的整个语音识别过程中,即语音增强、语音识别过程中,在语音增强之前加入针对语音的对抗性攻击过程,直接改变语音增强步骤的输入语音的语义内容,从而使得语音增强系统无法识别出对应的攻击,进而提高了对语音识别攻击的成功率,提高了对输入语音的数据保护。
[0015] 下面给出具体的实施例,用以详细介绍本申请的技术方案。
[0016] 图1为本申请提供的对语音内容进行增强的对抗性攻击方法实施例一的流程图。请参照图1,本实施例提供的方法,所述方法包括:
S101、将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音。
[0017] 其中,所述待识别的语音至少包括待识别实际语音和待识别噪声语音,所述对抗性攻击语音至少包括对抗性攻击实际语音和对抗性攻击噪声语音,所述待识别噪声语音和所述对抗性攻击噪声语音相同,所述对抗性攻击语音与所述待识别的语音的语义相似度小于第一相似阈值,且大于第二相似阈值,所述第二相似阈值小于所述第一相似阈值。
[0018] 其中,待识别的语音为语音识别系统需要识别的语音,在语音传输过程中,待识别的语音通常是加密传输的,部分系统为了破解语音传输的内容,会对解密后的语音进行识别,从而获得加密传输的内容。为了避免语音数据的泄露,本发明采用对抗性攻击的方式降低语音识别系统语音识别的准确率,从而实现了对抗性攻击的效果,提高语音数据的安全性。此外,相较于现有技术直接攻击语音识别系统,本发明提供的方式采用攻击语音增强模型的方式,即输入到语音增强模型中的语音为对抗性攻击语音,输入到语音增强模型之前,语音的内容已经发生改变,此改变为语义上的改变,语音增强模型仅能够对音频进行增强、去噪等效果,无法识别该语义上的改变,进而输入到语音识别系统的语音的语义还是经过改变的,最终识别到的语义也是改变后的语义。因此,采用本发明提供的对抗性攻击方法,能够降低语音增强对对抗性攻击效果的影响,提高对抗性攻击的成功率。
[0019] 具体来说,所述将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音,具体包括:预测所述待识别语音的攻击目标,所述攻击目标至少包括所述语音识别系统识别到的语音类型;获取所述待识别语音的编码和攻击目标的编码;基于所述待识别语音的编码和攻击目标的编码生成对抗性攻击语音编码,其中所述对抗性攻击语音编码与所述待识别语音的编码的长度相同;基于所述对抗性攻击语音编码生成所述对抗性攻击语音,所述对抗性攻击语音类型与所述攻击目标相匹配。
[0020] 攻击目标是预期语音识别系统识别出的结果,即预期语音识别系统识别输入语音属于什么语音类型,也就是说,攻击目标是对抗性攻击方法想要语音识别系统识别到的结果,攻击目标可以是语言类型,也可以是语境类型,也可以是主题类型,对此并不进行限定,仅需明确攻击目标包括所述语音识别系统识别到的语音类型,此外攻击目标不同,对抗性攻击模型的参数不同,生成对抗性攻击语音的时间也不相同。对抗性攻击模型是一种基于提示的语音生成模型,即根据攻击目标的提示生成与输入语音语义相似,但类型与攻击目标一致的语音。生成的语音可以与输入的语音长度相同,也可以与输入语音的长度不同,对应的,所述对抗性攻击语音编码可以与所述待识别语音的编码的长度相同,所述对抗性攻击语音编码也可以与所述待识别语音的编码的长度不同。
[0021] 在输入的待识别的语音中,通常是包括干净的实际语音和噪音,本发明为了针对性的改变有效的实际语音,直接对该部分特征进行修改,通过小幅度的修改实现了准确攻击的效果,降低了攻击的数据量,进而减少了攻击过程的计算量。具体来说,过滤所述待识别的语音中的待识别噪声语音,从所述待识别的语音中提取所述待识别实际语音序列;改变所述待识别实际语音序列的语义内容,生成第一音频序列;以所述第一音频序列作为所述待识别的语音对应的对抗性攻击语音。
[0022] 其中,改变所述待识别实际语音序列的语义内容,生成第一音频序列;以所述第一音频序列作为所述待识别的语音对应的对抗性攻击语音,具体包括:基于编码器提取所述待识别实际语音序列的第一音频语义特征;预测所述待识别的语音对应的攻击目标;基于所述对抗性攻击模型的参数优化目标函数最优化计算所述对抗性攻击模型的参数;基于参数确定后的对抗性攻击模型、所述第一音频语义特征和所述攻击目标生成与所述攻击目标匹配的对抗性攻击实际语音;混合所述对抗性攻击实际语音和所述对抗性攻击噪声语音,获得所述对抗性攻击语音。应当值得注意的是,不同输入的待识别的语音对应的攻击目标不完全相同,同一类型的输入的待识别的语音对应的攻击目标也不完全相同,因此,同一类型和不同类型的待识别的语音对应的对抗性攻击模型的参数都是不同的。可以通过随机预测的方式确定攻击目标,不同攻击目标所需的生成时间和计算量各不相同。
[0023] 本发明提供的对抗性攻击方式,是采用模型参数优化的方式,即通过不断优化模型参数的方式实现对抗性攻击,攻击的效果由模型对应的目标函数确定。所述基于所述对抗性攻击模型的参数优化目标函数最优化计算所述对抗性攻击模型的参数,具体包括:确定所述对抗性攻击模型的初始参数和参数优化目标函数,所述目标函数至少包括对抗性攻击模型输出的音频序列与所述待识别实际语音序列之间的均方误差,所述目标函数至少还包括所述对抗性攻击模型输出的音频序列与攻击目标之间的第一范数损失;将所述第一音频语义特征输入至所述对抗性攻击模型,修改所述对抗性攻击模型的参数,迭代生成音频序列,使所述参数优化目标函数最优化,以所述参数优化目标函数最优时对应的参数作为对抗性攻击模型的参数。
[0024] 具体来说,对抗性攻击模型具有初始参数和参数优化目标函数,利用初始参数和攻击目标计算第一次攻击,根据输入和输出的语音和攻击目标计算参数优化目标函数,然后调整参数后再次循环,若前后两次的参数优化目标函数已经达到最优,此时停止对抗性攻击模型的参数优化,同时以当前优化得到的模型参数为最优参数,生成对应的对抗性攻击语音。
[0025] 计算对抗性攻击模型输出的音频序列与所述待识别实际语音序列之间的均方误差;计算所述对抗性攻击模型输出的音频序列与攻击目标之间的第一范数损失;
将所述第一范数损失与预设值进行卷积操作,得到第二范数损失;
将所述均方误差与所述第二范数损失的和值作为参数优化目标函数,迭代更新对抗性攻击模型的参数,直至参数优化目标函数达到最优。
[0026] 具体的,可按照如下公式计算参数优化目标函数:,
其中, 表示第二音频序列; 表示第一音频序列; 表示第二音频序列与第一音频序列之间的均方误差; 表示攻击目标; 表示第一音频序列与攻击目标之间的第一范数损失; 表示参数优化目标函数。
[0027] 具体的,在整个迭代过程中,使用均方误差(MSE)和范数损失这两个损失函数将引导生成的对抗性样本更接近需求。为了确保生成的对抗性样本接近原始样本,使用均方误差(MSE)损失来描述它,表示为原始样本和对抗性样本之间的距离。为了确保增强的对抗性样本接近攻击目标,使用范数损失来描述对抗性样本与目标样本之间的距离。图2为本申请一示例性实施例示出的对抗性攻击后的语音与原始语音的波形图。由图2可知,对抗性攻击后的语音与原始语音的波形图较相似。
[0028] 本发明提供的方法,将针对图像的参数优化攻击方法应用于针对语音的攻击,目标函数中比较的是语音之间的差距和语音类型之间的差距,而非图像中像素的差距;此外,图像中微小的扰动攻击效果不明显,而本发明中的语音攻击仅做出微小攻击,即攻击后的语音语义相似度仍大于第二相似阈值,需要攻击的范围、数据量较小,进而综合了参数优化攻击的高准确率、高质量攻击效果的优点和较少攻击计算量的优点。此外,相较于传统的攻击的分类方式,本发明直接利用生成的方式预测输出语音序列,即模型直接生成语音,其生成的语音内容随机性更高,进而被识别的可能性更低,攻击的效果更佳,进而提高了数据的安全性和攻击的成功率。
[0029] 作为另一种可选的实施例,生成对抗性攻击语音还可以采用生成式模型,具体来说,(1)基于编码器提取所述待识别实际语音序列的第一音频语义特征。
[0030] 具体实现时,将待识别实际语音序列转换为数字信号,并进行去除噪声处理。然后创建一个编码器,使用大量的音频数据集训练编码器。训练完成后,将数字信号输入到训练好的编码器中,编码器会输出待识别实际语音序列的第一音频语义特征。
[0031] (2)对所述第一音频语义特征增加扰动,获得第二音频语义特征,所述第二音频语义特征与所述第一音频语义特征的相似度大于第二相似阈值且小于所述第一相似阈值。
[0032] 具体的,第一相似阈值、第二相似阈值是根据实际需要设定的,本实施例中,不对此进行限定。例如,一实施例中,第一相似阈值为0.8。
[0033] 具体实现时,可通过向第一音频语义特征中添加随机噪声(随机噪声可以是高斯噪声或其他类型的噪声)或对第一音频语义特征进行频谱扰动(例如在频谱上添加随机的平移、拉伸或缩放操作)的方法对第一音频语义特征增加扰动,以增强语音增强和语音识别的攻击效果,提高攻击成功率和数据安全性。
[0034] 需要说明的是,第二音频语义特征与第一音频语义特征高度相似,其分布在第一相似阈值、第二相似阈值之间,但是第二音频语义特征与第一音频语义特征的语义内容不同。
[0035] (3)基于解码器和第二音频语义特征解码生成与所述目标音频序列长度相同的第二音频序列。
[0036] 需要说明的是,生成策略可以是贪婪生成、束搜索或随机采样。生成的第二音频序列的长度与输入的待识别的音频序列的长度相同。
[0037] S102、将所述对抗性攻击语音输入至预训练的语音增强模型中,获得降噪后语音,所述预训练的语音增强模型用于对输入语音进行噪音去除处理,获得输入语音中的实际语音。
[0038] 具体的,所述语音增强模型为CMGAN模型。语音增强模型可以对输入语音进行语音降噪,以抑制背景噪音,并以最大可能的质量和可理解性预测输入语音中的实际语音。
[0039] 进一步的,语音增强模型的处理过程可以表示为如下公式:,
其中,x(t)表示输入语音;h(t)表示滤波器;‘ ’表示与滤波器h(t)进行卷积操作;n(t)表示背景噪音;y(t)表示语音增强后的输入语音。
[0040] 进一步的,所述语音增强模型的评价指标主要包括PESQ指标和STOI指标;其中,PESQ指标用于评估语音的清晰度,当PESQ指标的值大于第一预设阈值时,语音增强模型的训练效果好,当PESQ指标的值小于第一预设阈值时,语音增强模型的训练效果差;STOI指标用于评估语音的可懂度;语音增强模型训练后,可以利用PESQ和STOI指标评估语音增强模型的性能,以判断其是否能够满足语音去噪的要求。进一步的,若PESQ指标的值大于第一预设阈值且STOI指标的值大于第二预设阈值时,结束语音增强模型的训练;否则,调整训练样本集,循环训练所述语音增强模型。
[0041] 具体的,PESQ(Perceptual Evaluation of Speech Quality,语音质量的感知评估)指标的设计目的是评估电话网络和编解码的语音质量,与MOS(Mean Opinion Score,平均意见分数)高度相关,侧重于评估语音的清晰度。第一预设阈值是根据实际需要设定的,本实施例中,不对此进行限定。例如,一实施例中,第一预设阈值为2。需要说明的是,PESQ指标的取值一般介于‑0.5~4.5之间,PESQ指标的得分越高,表示语音增强模型的训练效果越好,语音质量就越好。
[0042] 进一步的,STOI(Short‑Time Objective Intelligibility,短期客观可理解性)指标通过分析短时刻内的语音信号变化来计算,其表现出与语音可懂度的高度相关性。需要说明的是,由于语音信号中的一个单词,只有能被听懂和不能被听懂两种情况,所以STOI指标的取值一般介于0~1之间,代表语音信号中的单词被正确理解的百分比,STOI指标的取值越大,表示语音的可懂度越高,语音质量越好。第二预设阈值是根据实际需要设定的,本实施例中,不对此进行限定。例如,一实施例中,第二预设阈值为0.5。结合上面的例子,当PESQ指标的值大于2且STOI指标的值大于0.5时,此时,语音增强模型的训练效果较好,结束语音增强模型的训练。当不满足该条件时,调整用于训练语音增强模型的训练样本集,重复训练的过程,直至PESQ指标的值与STOI指标的值同时满足条件。
[0043] 需要说明的是,CBAK指标、COVL指标和CSIG指标也为基于MOS的主观评分指标,它们的取值范围一般介于1‑5之间,取值越高,代表语音质量越好,语音增强模型的训练效果越好。表1为本申请一示例性实施例示出的语音增强模型的训练效果展示表,图3为本申请一示例性实施例示出的原始语音的频谱图,图4为本申请一示例性实施例示出的带噪语音的频谱图,图5为本申请一示例性实施例示出的增强语音的频谱图。
[0044] 表1 语音增强模型的训练效果展示表
[0045] 由表1可知,CMGAN模型的PESQ指标和STOI指标都有较高的水平。由图3、图4和图5可知,CMGAN模型在各频段均有去噪效果,在低频部分也接近原始语音,同时语音中没有音素的部分也有效地去除了噪声,语音增强后的波形更接近原始波形。
[0046] 进一步的,所述训练语音增强模型,包括:(1)获取多个第一语音样本,每个所述第一语音样本中至少包括混合噪声的输入语音样本和无噪声的输出语音样本。
[0047] 具体的,第一语音样本包括有噪声的输入语音样本和无噪声的输出语音样本,此时,无噪声的输出语音样本和有噪声的输入语音样本语义内容相同,即该训练过程的目标是进行语音增强模型去噪能力的学习。这样,在利用第一语音样本训练CMGAN模型时,可使CMGAN模型具备处理混合噪声的语音的能力。
[0048] 具体实现时,在获取第一语音样本时,可从数据集中获取无噪声的输出语音样本,并从无噪声的输出语音样本中选取指定数量的样本按照信噪比添加噪声,得到有噪声的输入语音样本。
[0049] (2)利用所述多个第一语音样本训练CMGAN模型,所述训练后的CMGAN模型基于所述混合噪声的输入语音样本输出所述无噪声的输出语音样本。
[0050] 具体的,本步骤中,就将第一语音样本划分为训练集和测试集,使用训练集训练CMGAN模型,使用测试集评估CMGAN模型的性能,根据测试结果对CMGAN模型进行优化。有关利用语音样本训练CMGAN模型的具体实现过程和实现原理可以参考相关技术中的描述,此处不再赘述。
[0051] 可选的,各个所述第一语音样本中混合噪声的输入语音样本混合的噪声类型不完全相同,所述噪声类型至少包括第一类型和第二类型,第一类型的噪声与无噪声的输出语音样本频带差距小于第一阈值,第二类型的噪声与无噪声的输出语音样本频带差距大于等于第一阈值。
[0052] 具体的,输入语音样本具有高度非稳态性,输入语音样本中混合的噪音类型包括第一类型和第二类型。其中,第一类型可以是非稳态场景(如风扇噪音和空调噪音),第二类型可以是稳态场景(如牙牙学语和街头噪音)。
[0053] 进一步的,第一阈值是根据实际需要设定的,本实施例中,不对此进行限定。需要说明的是,由于第一类型的噪声(即非稳态场景)与无噪声的输出语音样本频带差距较小,第一类型的噪声会占据与输入语音相似的频带,因此第一类型的噪声对输入语音的干扰性更大。同样的,第二类型的噪声(即稳态场景)与无噪声的输出语音样本频带差距较大,因此第二类型的噪声对输入语音的干扰性较小。
[0054] 具体实现时,将所述特征向量输入到语音增强模型中,得到语音增强后的特征向量。将语音增强后的特征向量通过逆变换的方法转换回待识别的语音,通过降噪算法(如谱减法、最小均方差)对待识别的语音去除目标噪声语音。
[0055] S103、基于语音识别系统对所述降噪后语音进行语音识别,获得所述降噪后语音对应的语音语义,其中,识别后获得的所述语音语义与所述待识别的语音语义不同,与所述对抗性攻击语音语义相同。
[0056] 作为一种可选的实施例,本发明提供的方法还包括对对所述降噪后的语音进行逆对抗性攻击,生成所述待识别的语音。在语音接收端,可以根据逆对抗性攻击的方式,直接还原攻击之前的语音,从而实现破解方听到的是完整但假的语音内容,而接收方听到的是真实的语音内容。
[0057] 本实施例提供的对语音内容进行增强的对抗性攻击方法,通过利用参数优化的方式对语音进行对抗性攻击,实现了高准确性和高质量的语音攻击;同时继承于图像攻击的优点,通过较小范围的攻击即可实现较大语音差异的攻击效果,相较于传统的图像攻击,降低了攻击的数据量和计算量;此外,通过在增强之前对语音进行语义修改式的攻击,直接破坏了增强功能对对抗性攻击的去除功能,使其失效,从而在后的语音识别系统也没有能力识别出对抗性攻击,进而提高了攻击的成功率,降低语音传输数据泄露的风险和机率,提高了语音数据安全性。
[0058] 与前述一种对语音内容进行增强的对抗性攻击方法的实施例相对应,本申请还提供了一种对语音内容进行增强的对抗性攻击装置的实施例。
[0059] 图6为本申请提供的对语音内容进行增强的对抗性攻击装置实施例一的结构示意图。请参照图6,本实施例提供的装置,所述装置包括:攻击模块610、增强模块620和识别模块630,其中所述攻击模块610,用于将待识别的语音输入对抗性攻击模型中,获得待识别的语音对应的对抗性攻击语音;
其中,所述待识别的语音至少包括待识别实际语音和待识别噪声语音,所述对抗性攻击语音至少包括对抗性攻击实际语音和对抗性攻击噪声语音,所述待识别噪声语音和所述对抗性攻击噪声语音相同,所述对抗性攻击语音与所述待识别的语音的语义相似度小于第一相似阈值,且大于第二相似阈值,所述第二相似阈值小于所述第一相似阈值;
所述增强模块620,用于将所述对抗性攻击语音输入至预训练的语音增强模型中,获得降噪后语音,所述预训练的语音增强模型用于对输入语音进行噪音去除处理,获得输入语音中的实际语音;
所述识别模块630,用于基于语音识别系统对所述降噪后语音进行语音识别,获得所述降噪后语音对应的语音语义,其中,识别后获得的所述语音语义与所述待识别的语音语义不同,与所述对抗性攻击语音语义相同。
[0060] 本实施例的装置,可用于执行图1所示方法实施例的步骤,具体实现原理和实现过程类似,此处不再赘述。
[0061] 上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0062] 与前述一种对语音内容进行增强的对抗性攻击方法的实施例相对应,本申请还提供了一种对语音内容进行增强的对抗性攻击系统的实施例。
[0063] 图7为本申请提供的对语音内容进行增强的对抗性攻击系统实施例一的结构示意图。请参照图7,本实施例提供的所述系统包括:依次连接的对抗性攻击模型、预训练的语音增强模型和语音识别系统,所述系统用于识别输入所述系统的待识别的语音的语义内容;所述对抗性攻击模型用于对抗攻击所述待识别的语音,获得待识别的语音对应的对抗性攻击语音;
其中,所述待识别的语音至少包括待识别实际语音和待识别噪声语音,所述对抗性攻击语音至少包括对抗性攻击实际语音和对抗性攻击噪声语音,所述待识别噪声语音和所述对抗性攻击噪声语音相同,所述对抗性攻击语音与所述待识别的语音的语义相似度小于第一相似阈值,且大于第二相似阈值,所述第二相似阈值小于所述第一相似阈值;
所述预训练的语音增强模型用于将所述对抗性攻击语音进行降噪处理,获得降噪后语音;
所述语音识别系统用于对所述降噪后语音进行语音识别,获得所述降噪后语音对应的语音语义,其中,识别后获得的所述语音语义与所述待识别的语音语义不同,与所述对抗性攻击语音语义相同。
[0064] 对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0065] 以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。