会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学 / 一种用于音频压缩历史识别任务的音频数据集的构建方法

一种用于音频压缩历史识别任务的音频数据集的构建方法

申请号 CN202311784000.0 申请日 2023-12-22 公开(公告)号 CN117894326A 公开(公告)日 2024-04-16
申请人 西北大学; 发明人 孟宪佳; 陈佳林; 易江燕; 丁勤勤; 王成龙;
摘要 本 发明 属于音频取证的压缩历史识别领域,公开了一种用于音频压缩历史识别任务的音频数据集的构建方法,该数据集包含不同音频压缩格式的多种常用码率,包含一次压缩和二次压缩音频文件,包含含有多种视频格式的音视频格式转换子集。旨在创造一个普遍通用与压缩历史识别任务的数据集。该数据集作为一个可以用于音频压缩历史识别的可靠的开源数据集,成为挑选优越的音频压缩历史识别方法的主要参考数据集。为未来的音频压缩历史识别研究提供有价值的参考资源。
权利要求

1.一种用于音频压缩历史识别任务的音频数据集的构建方法,其特征在于,包括:
首先,选取开源希尔贝壳中文普通话语音数据库AIshell3作为基础音频数据集,并从中随机挑选大量音频样本;
其次,涵盖多种音频和视频压缩格式,包括AAC、AMR、MP3、OGG、WMA音频格式以及MKV、MP4、WebM等视频格式,并在这些格式中选择多个不同码率进行压缩操作;
最后,所有压缩后的音频文件被解压缩为WAV格式以形成最终数据集,该数据集分为不同音频格式的一次压缩数据集、二次压缩数据集以及音频格式转为视频格式的压缩数据集。
2.如权利要求1所述的用于音频压缩历史识别任务的音频数据集的构建方法,其特征在于,还包括以下步骤:
选择开源希尔贝壳中文普通话语音数据库AIshell3作为基础数据集,其中随机选择
200名说话人,每人40条音频共计8000条原始音频,并从中随机挑选2000条作为操作音频;
确定五种音频压缩格式AAC、AMR、MP3、OGG、WMA,并针对每种格式选取8至11种不同码率进行操作,确保包含每种格式的最低和最高码率;
选取MKV、MP4、WebM、FLV、F4V、MOV、AVI、WMV八种视频格式进行压缩操作;
最后,对2000条音频进行46种音频格式压缩操作以及8种视频格式的压缩操作,并将所有操作后的音频解压缩为WAV格式,形成包含一次压缩、二次压缩和音频转视频格式压缩的三个子集的最终数据集。
3.如权利要求1所述的用于音频压缩历史识别任务的音频数据集的构建方法,其特征在于,压缩码率的选择涵盖了从低至高的广泛范围,以满足不同音频质量需求;在音频压缩过程中,除了低码率设置,还特别关注256kbps和320kbps的高质量转码情况。
4.如权利要求1所述的用于音频压缩历史识别任务的音频数据集的构建方法,其特征在于,包含短视频兴起背景下的视频格式压缩,选择了MKV、MP4、WebM、FLV、F4V、MOV、AVI、WMV主流视频格式作为压缩格式的一部分。
5.如权利要求1所述的用于音频压缩历史识别任务的音频数据集的构建方法,其特征在于,包含了一次和二次压缩的情况,全面地模拟现实世界中音频文件可能遭遇的多次压缩;在创建二次压缩子集时,不仅采用了相同格式相同码率的压缩,还包括了不同格式不同码率的压缩操作;针对每种音频格式,选取高、中、低三种码率进行压缩,包括由低码率到中码率、高码率压缩,中码率到低码率、高码率压缩,以及高码率到低码率、中码率压缩,全面模拟各种可能的压缩场景;完成这些操作后,所有压缩音频将被解压缩为WAV格式并保存。
6.一种如权利要求1~5任一项所述的音频压缩历史识别任务的音频数据集的构建方法的音频数据集构建系统,其特征在于,包含数据选择模、格式处理模块、压缩操作模块和解压缩模块,用于创建用于音频压缩历史识别的数据集;数据选择模块用于从开源希尔贝壳中文普通话语音数据库AIshell3中随机选择音频样本;格式处理模块包含多种音频和视频压缩格式的处理选项;压缩操作模块用于对选定音频执行各种格式和码率的压缩操作;解压缩模块用于将所有压缩后的音频文件转换为WAV格式,形成最终数据集。
7.如权利要求6所述的音频数据集构建系统,其特征在于,所述数据选择模块具备从AIshell3基础数据集中随机选择指定数量说话人和音频的能;格式处理模块包括五种音频压缩格式AAC、AMR、MP3、OGG、WMA的选择及多种码率的设置选项;压缩操作模块能对选定音频执行46种音频格式和8种视频格式的压缩操作;解压缩模块将操作后的音频解压为WAV格式,形成包含多个子集的综合数据集。
8.如权利要求6所述的音频数据集构建系统,其特征在于,所述格式处理模块能够选择从低至高的广泛码率范围,包括低码率设置及高质量转码情况。
9.如权利要求6所述的音频数据集构建系统,其特征在于,所述格式处理模块包括短视频时代背景下的视频格式压缩选项,包括MKV、MP4、WebM、FLV、F4V、MOV、AVI、WMV视频格式。
10.如权利要求6所述的音频数据集构建系统,其特征在于,所述压缩操作模块包括一次和二次压缩的功能,能够模拟现实世界中音频文件可能遭遇的多次压缩场景;在二次压缩操作中,模块能够处理相同格式相同码率的压缩以及不同格式不同码率的压缩操作,并在所有操作完成后,解压缩模块将所有压缩音频恢复为WAV格式。

说明书全文

一种用于音频压缩历史识别任务的音频数据集的构建方法

技术领域

[0001] 本发明属于音频取证的压缩历史识别领域,尤其涉及一种用于音频压缩历史识别任务的音频数据集的构建方法。

背景技术

[0002] 对音频取证领域来说有一个必须要解决的问题就是数据集,完善的音频数据集能够为研究人员提供一个标准化的平台,使得不同的算法和方法之间可以进行公平的比较和评估。此外,开源数据集还将促进学术界和工业界之间的合作,加速音频取证技术的应用和推广。在此之前,绝大部分的数据集都是针对语音合成任务或是语音识别任务构建。例如,美国语言学数据联盟(LDC)开发的Switchboard数据库,它是一个大型的对话语音数据集,常被用于说话人验证和语音识别领域。DARPA建立的TIMIT是最早应用于语音相关研究的标准英语朗读数据库之一。该数据集收录了代表美国英语的8个主要方言区的630为演讲者的演讲,每人10个句子。由于该数据集标注清晰语言较有代表性且开源,该数据集在音频相关研究中被广泛使用,不仅是语音识别系统、语音合成、声学语音知识获取等领域,在音频压缩历史识别领域之前的研究中也常常取该数据集中的数据来进行实验。
[0003] OGI开发的CSLU Speaker Recognition语音库,欧洲ELRA发布的SIVA语音数据库。国内也有很多单位建立了数据库,北京大学相关研究单位建立了可以进行声纹识别研究的普通话语音数据库,语音通过电话信道录制。浙江大学建立了面向移动互联环境的说话人识别语音库(SRMC),主要针对移动环境下的语义识别和声纹识别。北京理工大学建设的BIT‑Mobile speech和Bit‑Mobile Talk语音数据库。厦大学建立的VPRSD语音数据库,跨越多信道的声纹识别语音数据库,包含近600人的语音。
[0004] 音频取证领域少有较为标准的开源的数据集。宁波大学为适用音频取证工作构建的几种数据库,CKC‑AD(基础音频数据库)该数据库的样本均是由CD抓轨得到的WAV音频,CKC‑SD(基础语音数据库)是模拟真实录音条件录制的声音素材组成的数据库、CKC‑SD‑TIMITR(TIMIT翻录语音数据库)由CKC‑SD使用相同录制环境和设备对TIMIT进行翻录构成。等人提出了一种多编解码器篡改数据集,篡改后的语音内容不包含可听伪像或语义变化,该数据集用来实现对有损压缩音频的识别。提出了一个数字多媒体取证数据集(DMFDS),该数据集包含阿拉伯文、印尼文、中文和英文四种语言的660个音频文件,可用于音频取证方法包括麦克识别方法、麦克风取证声环境识别、编解码器识别和双压缩音频识别的性能评估。
[0005] 综上所述,现有数据集存在的问题是:
[0006] (1)大多数用于音频压缩历史识别实验的数据集并未公开,使得之后研究该项技术的人员未能有一个统一的标准对比出音频压缩历史方法的性能。
[0007] (2)即便有可以用于压缩历史识别的数据集,但数据集中包含的压缩格式较少,且很少考虑到不同码率的情况。
[0008] (3)一些数据集考虑到音频压缩格式不同码率的情况,但这些数据集往往只是单纯延续了早年用于音频取证领域的数据集中出现过的码率,只考虑了较低码率的情况,这与现实中常出现高码率音频的现状不相符。

发明内容

[0009] 针对现有技术存在的问题,本发明提供了一种用于音频压缩历史识别任务的音频数据集的构建方法。
[0010] 本发明是这样实现的,一种用于音频压缩历史识别任务的音频数据集的构建方法,包括:
[0011] 首先,选取开源希尔贝壳中文普通话语音数据库AIshell3作为基础音频数据集,并从中随机挑选大量音频样本;
[0012] 其次,涵盖多种音频和视频压缩格式,包括AAC、AMR、MP3、OGG、WMA等音频格式以及MKV、MP4、WebM视频格式,并在这些格式中选择多个不同码率进行压缩操作,确保数据集覆盖了从低至高的广泛码率范围;
[0013] 最后,所有压缩后的音频文件被解压缩为WAV格式以形成最终数据集,该数据集分为不同音频格式的一次压缩数据集、二次压缩数据集以及音频格式转为视频格式的压缩数据集。
[0014] 进一步,还包括以下步骤:
[0015] 选择开源希尔贝壳中文普通话语音数据库AIshell3作为基础数据集,其中随机选择200名说话人,每人40条音频共计8000条原始音频,并从中随机挑选2000条作为操作音频;
[0016] 确定五种音频压缩格式AAC、AMR、MP3、OGG、WMA,并针对每种格式选取8至11种不同码率进行操作,确保包含每种格式的最低和最高码率;
[0017] 选取MKV、MP4、WebM、FLV、F4V、MOV、AVI、WMV等八种视频格式进行压缩操作;
[0018] 最后,对2000条音频进行46种音频格式压缩操作以及8种视频格式的压缩操作,并将所有操作后的音频解压缩为WAV格式,形成包含一次压缩、二次压缩和音频转视频格式压缩的三个子集的最终数据集。
[0019] 进一步,压缩码率的选择涵盖了从低至高的广泛范围,以满足不同音频质量需求;在音频压缩过程中,除了常见的低码率设置,还特别关注256kbps和320kbps的高质量转码情况。
[0020] 进一步,包含了短视频兴起背景下的视频格式压缩,以应对现代多媒体应用的需求;选择了MKV、MP4、WebM、FLV、F4V、MOV、AVI、WMV主流视频格式作为压缩格式的一部分。
[0021] 进一步,包含了一次和二次压缩的情况,全面地模拟现实世界中音频文件可能遭遇的多次压缩;在创建二次压缩子集时,不仅采用了相同格式相同码率的压缩,还包括了不同格式不同码率的压缩操作;针对每种音频格式,选取高、中、低三种码率进行压缩,包括由低码率到中码率、高码率压缩,中码率到低码率、高码率压缩,以及高码率到低码率、中码率压缩,全面模拟各种可能的压缩场景;完成这些操作后,所有压缩音频将被解压缩为WAV格式并保存,以便于进行后续的音频压缩历史识别任务。
[0022] 本发明的另一目的在于提供一种音频数据集构建系统,包含数据选择模、格式处理模块、压缩操作模块和解压缩模块,用于创建用于音频压缩历史识别的数据集;数据选择模块用于从开源希尔贝壳中文普通话语音数据库AIshell3中随机选择音频样本;格式处理模块包含多种音频和视频压缩格式的处理选项;压缩操作模块用于对选定音频执行各种格式和码率的压缩操作;解压缩模块用于将所有压缩后的音频文件转换为WAV格式,形成最终数据集。
[0023] 进一步,所述数据选择模块具备从AIshell3基础数据集中随机选择指定数量说话人和音频的能;格式处理模块包括五种音频压缩格式AAC、AMR、MP3、OGG、WMA的选择及多种码率的设置选项;压缩操作模块能对选定音频执行46种音频格式和8种视频格式的压缩操作;解压缩模块将操作后的音频解压为WAV格式,形成包含多个子集的综合数据集。
[0024] 进一步,所述格式处理模块能够选择从低至高的广泛码率范围,包括低码率设置及高质量转码情况,以满足不同音频质量需求。
[0025] 进一步,所述格式处理模块包括短视频时代背景下的视频格式压缩选项,包括MKV、MP4、WebM、FLV、F4V、MOV、AVI、WMV视频格式,以应对现代多媒体应用的需求。
[0026] 进一步,所述压缩操作模块包括一次和二次压缩的功能,能够模拟现实世界中音频文件可能遭遇的多次压缩场景;在二次压缩操作中,模块能够处理相同格式相同码率的压缩以及不同格式不同码率的压缩操作,并在所有操作完成后,解压缩模块将所有压缩音频恢复为WAV格式以供后续任务使用。
[0027] 本发明还提供了一种用于音频压缩历史识别的音频压缩历史识别数据集,创建步骤如下:
[0028] 步骤一,选择基础数据。本发明选择将开源的希尔贝壳中文普通话语音数据库AIshell3语料库作为基础数据集。该语料库是一个可用作多说话人语音合成系统的大规模高保真度的中文普通话语音数据库。包含218名(其中男性42名,女性176名)来自中国且母语为汉语的不同口音区域的发言人,这些发言人多数处于16到40岁之间。他们以中性情绪朗读给定的文本,文本内容涵盖了广泛的主题,包括智能家居语音命令、新闻报道和地理信息等。数据集中一共录制了88035句,共85小时。录制环境为安静的室内环境,使用高保真度麦克风以44.1kHz的采样率和16比特采样率来记录语音,音频文件以单声道wav格式存储。在该数据集中,本发明使用Python语句,随机选择了200名说话人每人40条音频共8000条作为原始音频(WAV格式),并随机选择2000条作为操作音频。
[0029] 步骤二,确定压缩格式。对于2000条可操作音频,本发明选择五种较为常用的音频压缩格式:AAC、AMR、MP3、OGG、WMA。根据每种格式使用特点不同,对于AAC、AMR、WMA格式本发明分别选择8种码率,对MP3、OGG格式选择11种码率,其中都包含每种格式最低码率和最高码率的情况,以保证数据集的普遍适用性。本发明选择了MKV、MP4、WebM、FLV、F4V、MOV、AVI、WMV八种常用视频格式作为压缩格式。
[0030] 步骤三,进行压缩操作。本发明使用Goldwave软件、格式工厂、金狮视频助手和AMR编码器对2000条音频进行每种格式、每种码率的压缩操作,每条音频进行46种音频格式压缩操作以及8中视频格式的压缩操作。
[0031] 步骤四,进行解压缩操作。将完成上述操作的音频解压为wav格式,最终以wav格式存储,形成最终数据集。最终数据集包含三个子集,分别是:(1)不同音频格式的一次压缩数据集(2)不同音频格式的二次压缩数据集(3)音频格式转为视频格式的压缩数据集。
[0032] 进一步,在步骤三中,本发明除了考虑一次压缩的情况,还考虑了二次压缩的情况。在创建该子集时本发明考虑两种情况,一种是格式相同码率相同除相同格式相同码率的压缩外,本发明还考虑了将不同格式进行不同码率的压缩。针对不同码率的二次压缩,对于每一种音频压缩格式,本发明都选取了高、中、低三种码率,对每个音频进行由低码率到中码率、高码率压缩,中码率到低码率、高码率压缩,高码率到低码率、中码率压缩。之后进行步骤四,将所有压缩音频解压缩为WAV格式并保存。
[0033] 结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
[0034] 第一,解决现有技术的技术问题的难度和意义:本发明主要构建了一个包含多种音频格式以及多种音频格式不同码率的开源音频压缩历史识别数据集。该数据集可以作为衡量音频压缩历史识别方法的重要实验数据。较为统一的数据集有利于音频压缩历史识别方法的横向比较。数据集中包含多种音频压缩格式和压缩码率,使得数据集具有普遍性和高可用性。除音频格式外,数据集考虑了常用的视频压缩格式,增加了数据集的多样性。
[0035] 第二,本发明提供的音频压缩历史识别数据集,包含AAC、AMR、MP3、OGG、WMA等多种常用的音频压缩格式,可用于进行音频压缩历史识别实验,成为挑选优越的音频压缩历史识别方法的主要参考数据集。该数据集不仅包含多种压缩格式,每种压缩格式包含多种压缩码率,完善了现有数据集码率包含不全的问题。除此之外,该数据集考虑了常用的视频压缩格式,增加了数据集的多样性。以上操作结果使得数据集具有普遍性和高可用性。本发明将该数据集用在音频压缩历史识别的经典方法中,能得到较好效果,验证了数据集的可使用性。
[0036] 第三、针对大多数用于音频压缩历史识别实验的数据集并未公开,音频压缩历史识别领域没有统一数据集,导致各种算法无法在同一数据环境下进行比较的问题。本发明将广泛用于音频压缩历史识别领域的数据集作为基础,对数据进行多种格式、每种格式多种码率的压缩操作,使其具有压缩痕迹,之后将被压缩的数据全部解压缩为wav格式并保存,试图还原音频被改变码率所进行的操作步骤。通过这样的方法,得到的数据可以用于进行音频压缩历史识别的实验,评估算法的性能。本发明所提出的统一的数据集有利于音频压缩历史识别方法的横向比较。
[0037] 该数据集不仅包含多种压缩格式,每种压缩格式包含多种压缩码率,完善了现有数据集码率包含不全的问题。每种格式的压缩操作均考虑较全的压缩码率情况,特别关注256kbps和320kbps的高质量转码情况。与现有数据集不同,本发明考虑了常用的视频压缩格式,更加符合时代需要,增加了数据集的多样性。
[0038] 第四,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
[0039] (1)本发明的技术方案转化后的预期收益和商业价值为:
[0040] 面对对音频质量有所要求的情况,有效的码率识别实验有助于识别冒充高质量的音频。该发明提供的数据集支持码率识别实验,使得码率识别实验算法有可以测试和验证的数据集,有利用码率识别实验的进行。进而保护商家和消费者的权益,使其不受到欺骗。
[0041] (2)本发明解决了数据集不公开不统一,难以横向对比实验方法的效果的问题。解决了现有数据集包含的音频压缩格式较少的问题,本发明提出的压缩格式较全面。本发明克服了码率不全的问题,以往通常只考虑低码率情况,与实际涉及到的码率范围不相符。本发明对于每种格式都考虑了较全的压缩码率格式,不限于低码率,考虑320kbps这样的高码率更贴合现实应用。附图说明
[0042] 图1是本发明实施例提供的用于音频压缩历史识别任务的音频数据集的构建方法的流程图
[0043] 图2是本发明实施例提供的数据处理核心思想架构图。图3是本发明实施例提供MDCT‑Resnet音频一次压缩历史识别混淆矩阵图;
图4是本发明实施例提供MDCT‑Resnet音频二次压缩历史识别混淆矩阵图。

具体实施方式

[0044] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0045] 本发明提供了一种用于音频压缩历史识别任务的音频数据集构建方法,包括以下步骤:选择开源希尔贝壳中文普通话语音数据库AIshell3作为基础数据集,并从中随机选择音频样本;涵盖多种音频和视频压缩格式,包括但不限于AAC、AMR、MP3、OGG、WMA等音频格式以及MKV、MP4、WebM等视频格式,并在这些格式中选择多个不同码率进行压缩操作;最后,对所有压缩后的音频文件进行解压缩处理,将其转换为WAV格式,形成包括一次压缩、二次压缩和音频转视频格式压缩的多个子集的最终数据集。
[0046] 步骤细节,包括:从AIshell3基础数据集中随机选择200名说话人的8000条原始音频样本,并进一步选取2000条音频进行操作;确定AAC、AMR、MP3、OGG、WMA等五种音频压缩格式,并为每种格式选取8至11种不同码率;选取包括MKV、MP4、WebM在内的八种视频格式进行压缩操作;对2000条音频执行46种音频格式和8种视频格式的压缩操作,并将所有操作后的音频解压缩为WAV格式,构建包括一次压缩、二次压缩和音频转视频格式压缩的多个子集的综合数据集。
[0047] 该方法在选择压缩码率时涵盖了从低至高的广泛范围,包括常见的低码率设置(如128kbps或以下)以及考虑到高音质需求的256kbps和320kbps的高码率设置,确保数据集在音质和文件大小方面具有广泛适用性。
[0048] 方法包括了考虑短视频时代背景下的视频格式压缩,选择包括MKV、MP4、WebM、FLV、F4V、MOV、AVI、WMV等主流视频格式,以应对现代多媒体应用的多样化需求,使得数据集在多种应用场景中具有更高的适用性。
[0049] 包含对音频进行一次和二次压缩的操作,以全面模拟现实世界中音频文件可能遭遇的多次压缩场景。在二次压缩子集的创建中,不仅采用了相同格式相同码率的压缩,还包括了不同格式不同码率的压缩操作。对每种音频格式,选取高、中、低三种码率进行压缩,涵盖多种码率组合的压缩情况,并最终将所有压缩音频解压缩为WAV格式以供音频压缩历史识别任务之用。
[0050] 用于音频压缩历史识别任务的音频数据集的构建方法,从基础数据集的选择、压缩格式和码率的确定,到最终数据集的构建,涵盖了该数据集的各个关键方面。
[0051] 实施例1:
[0052] 如图1所示的,为测试该数据集的可用性,本发明基于MDCT‑Resnet这一架构,用该数据集进行了音频一次压缩历史识别实验。具体过程如下:
[0053] 步骤一,处理实验所用数据集。以下操作在所创建数据集中的子集(1)不同音频格式的一次压缩数据集中实现。为了保证本发明的任务不受说话人的影响,防止说话人影响实验结果,本发明在划分实验数据集时首先按照说话人进行划分,200名说话人按照6:2:2(120名:40名:40名)进行划分,确定包含在训练集、验证集、测试集中的数据。为完成音频压缩格式识别任务,本发明的测试集选择120名说话人的语音,每人每种格式选取40条音频(音频码率随机),验证集和测试集40名不同的说话人每人选取40条音频构成实验数据集。
[0054] 步骤二,提取音频特征。在此本发明选择的是在音频压缩历史识别任务中表现突出的MDCT系数,MDCT系数的提取过程如下:
[0055] (1)预处理。预处理包括对语音信号的分加窗和重叠。分帧是指音频信号被分成重叠的短时窗口,通常长度为20毫秒到40毫秒。分帧后的窗口信号通常被进行加窗以减少频谱泄漏。加窗操作对每个窗口内的信号乘以一个窗函数,以减少频谱泄漏效应。在本文中选用的Vorbis窗(公式),与汉明窗相比这种窗函数顶部更圆润,可以保留更多的信息。为了减少频谱泄漏,相邻窗口之间有一定的重叠。
[0056] (2)快速傅里叶变换(FFT)。加窗之后对每个重叠窗口内的信号应用FFT,将时域信号转换为频域信号。这将生成每个窗口的频谱。
[0057] (3)帧重组。对于每个FFT变换后的频谱,需要进行一些操作,以便能够在解码时还原回原始音频。这个步骤涉及到将频谱从频域变换回时域,以便将各个窗口的信号重新组合在一起。
[0058] (4)实施MDCT。MDCT的核心在于将FFT变换后的频谱通过特定的算法变换为MDCT系数。MDCT将频谱分成多个重叠子频带,然后对每个子频带应用改进的离散余弦变换(MDCT),得到每个帧的频率系数。
[0059] 通过该步骤,本发明得到音频数据的MDCT特征。
[0060] 步骤三,完成分类。本发明将得到的音频特征传入Resnet网络,模型输出为6分类,即AAC、AMR、MP3、OGG、WMA、WAV五种格式。该实验不仅可以判断出音频是否被压缩,还能够判断出音频被压缩的具体格式。
[0061] 以上实验证明,本发明提出的音频压缩历史识别数据集能够在音频压缩历史识别实验中起到很好的参照作用,具备作为之后相关实验基础数据集的资格。
[0062] 实施例2:
[0063] 进行了音频二次压缩历史识别实验。具体过程如下:
[0064] 步骤一,处理实验所用数据集。以下操作在所创建数据集中的子集(2)不同音频格式的二次压缩数据集中实现。为了保证本发明的任务不受说话人的影响,防止说话人影响实验结果,本发明在划分实验数据集时首先按照说话人进行划分,200名说话人按照6:2:2(120名:40名:40名)进行划分,确定包含在训练集、验证集、测试集中的数据。为完成音频压缩格式识别任务,本发明的测试集选择120名说话人的语音,每人每种格式选取40条音频(音频码率随机),验证集和测试集40名不同的说话人每人选取40条音频构成实验数据集。
[0065] 步骤二,提取音频特征。在此本发明选择的是在音频压缩历史识别任务中表现突出的MDCT系数,MDCT系数的提取过程如下:
[0066] 步骤三,完成分类。本发明将得到的音频特征传入Resnet网络,模型输出为6分类,即AAC、AMR、MP3、OGG、WMA、WAV五种格式。最终输出六个类别,不仅判别出音频是否经过二次压缩,且可辨别出具体压缩格式。
[0067] 实施例3压缩码率识别
[0068] 步骤一,处理实验所用数据集。以下操作在所创建数据集中的子集(1)不同音频格式的一次压缩数据集中实现。为了保证本发明的任务不受说话人的影响,防止说话人影响实验结果,本发明在划分实验数据集时首先按照说话人进行划分,200名说话人按照6:2:2(120名:40名:40名)进行划分,确定包含在训练集、验证集、测试集中的数据。为完成音频压缩格式识别任务,本发明的测试集选择120名说话人的语音。为进行码率实验,每人选择五种格式压缩的8种码率中每种码率5条数据作为训练集,验证集和测试集40名不同的说话人每人选取40条音频构成实验数据集。数据集包含的标签中,均含有文件名、是否被压缩、压缩音频格式、压缩码率。
[0069] 步骤二,提取音频特征。在此本发明选择的是在音频压缩历史识别任务中表现突出的MDCT系数,通过该步骤,本发明得到音频数据的MDCT特征。
[0070] 步骤三,完成分类。对于每一种音频,选择8种码率进行分类。本发明将得到的音频特征传入Resnet网络,模型输出为包含原始音频格式在内的9个分类。其中AAC格式32、64、96、128、192、224、256、320八种码率,AMR包含4.75、5.15、5.90、6.70、7.40、7.95、10.2、12.2八种码率,MP3包含032、64、80、96、128、160、224、320八种码率,OGG包含32、64、96、128、192、
224、256、320八种码率,WMA包含32、64、96、128、192、224、256、320八种码率。包含最终输出六个类别,不仅判别出音频是否经过二次压缩,且可辨别出具体压缩格式。以MP3格式为例,输入训练集,最终得到一个可以识别MP3八种码率的分类结果,在判别是否经过压缩的同时,判别出具体的压缩码率。
[0071] 表1是本发明实施例提供的数据集中具体包含的压缩格式及数据量。
[0072]
[0073]
[0074] 表1
[0075] 本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据和表等进行描述。
[0076] 实验一,使用本发明探究当提取特征为MDCT系数时,分类器使用Resnet模型可以得到的最优结果的参数调试。考虑不同网络层数以及不同时间步长所得到的效果不同。
[0077] 实验结果见表2和表3,最终发现当Resnet层数为2时实验结果最优。之后我们探究了不同时间步长,结果如表所示,当时间步长为700时效果最优。
[0078]
[0079] 表2
[0080]
[0081] 表3
[0082] 实验二,验证本发明在音频一次压缩识别实验中的可用性。提取音频的MDCT系数,以此为特征进行分类。通过探究模型不同参数,得到较优结果,证明该发明可以用来[0083] 实验结果通过混淆矩阵表明,混淆矩阵中的每个元素代表了一个音频被识别为某种压缩格式的可能性。如图3所示,其中MP3、OGG、WMA格式识别率达到100%,AAC、WAV格式识别准确率可以达到百分之九十左右,AMR格式识别率较低,但总体来看在该数据集上的音频压缩历史识别实验表现出很好的效果。
[0084] 实验三,验证本发明在音频二次压缩识别实验中的实现效果。提取音频的MDCT系数,以此为特征进行分类。通过探究模型不同参数,得到较优结果
[0085] 实验结果如图4所示,其中MP3、WMA格式识别率达到100%,AMR、OGG格式识别准确率可以达到百分之九十五以上,AAC、WAV格式识别率达92%,该数据集在音频二次压缩识别任务中起到较好效果。
[0086] 实验四,码率识别实验,以一次压缩数据集作为实验数据,提取音频的MDCT系数,通过Resnet网络,针对MP3格式进行码率识别实验。选择包含最低和最高的码率在内的八种码率。进行九分类实验,得到每种格式码率识别的准确率。
[0087] 实验结果见表4,MP3八种码率识别的准确率可以达到94.47%,每种码率识别准确率均在百分之八十以上,具有很好的效果。
[0088]
[0089] 表4
[0090] 综上,该数据集在音频压缩历史识别实验中有着高可用性。
[0091] 应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD‑ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
[0092] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。