会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学 / 声学场景分类、模型训练、部署方法、模型、芯片、装置、电子设备及存储介质

声学场景分类、模型训练、部署方法、模型、芯片、装置、电子设备及存储介质

申请号 CN202311791981.1 申请日 2023-12-22 公开(公告)号 CN117746891A 公开(公告)日 2024-03-22
申请人 恒玄科技(上海)股份有限公司; 发明人 梁昌城;
摘要 本 发明 涉及 人工智能 技术领域,公开了一种声学场景分类、模型训练、部署方法、模型、芯片、装置、 电子 设备及存储介质,该声学场景分类模型包括数据获取模 块 、音频 信号 预处理模块、多个依次连接的深度膨胀残差块、卷积层和全连接层,通过采用深度膨胀残差块,能在不增加网络参数和计算量的前提下提高网络感受野,网络捕获全局信息能 力 更强,将残差操作与膨胀卷积结合可以避免网络训练过程中可能出现的梯度消失,通过实例归一化处理,避免了中间特征的频域信息和时域信息丢失,加快模型训练过程中的收敛速度,该声学场景分类模型合理,可以实现低计算复杂度和实时的声场景分类,使得该方案可以部署到蓝牙 耳 机、音响等资源受限的设备上。
权利要求

1.一种声学场景分类模型,其特征在于,所述声学场景分类模型包括:
数据获取模,用于获取输入音频数据;
音频信号预处理模块,用于对所述输入音频数据进行处理,得到梅尔频率倒谱系数特征;
多个依次连接的深度膨胀残差块,用于对输入特征进行膨胀卷积,以及对膨胀卷积结果进行频域实例归一化得到中间特征,将所述中间特征输入下一个深度膨胀残差块,直至所述中间特征输入值最后一个深度膨胀残差块,将最后一个深度膨胀残差块输出的中间特征输入卷积层,其中,第一个深度膨胀残差块的输入特征为所述梅尔频率倒谱系数特征;
卷积层,用于根据输入的所述中间特征生成卷积结果;
全连接层,用于根据所述卷积结果和饱和激活函数确定声学场景分类结果。
2.如权利要求1所述的声学场景分类模型,其特征在于,所述音频信号预处理模块包括:
短时傅里叶变换模块,用于对所述输入音频数据进行短时傅里叶变换得到初始频谱图;
梅尔滤波器,用于根据所述初始频谱图创建梅尔频谱图;
取对数模块,用于对所述梅尔频谱图取对数,得到取对数结果;
离散余弦变换模块,用于对所述取对数结果进行离散余弦变换,得到梅尔频率倒谱系数特征。
3.如权利要求1或2任一项所述的声学场景分类模型,其特征在于,所述深度膨胀残差块包括:
一个或多个依次连接的膨胀卷积块,用于对输入特征进行膨胀卷积,得到膨胀卷积结果;
频域实例归一化模块,用于对所述膨胀卷积结果中每个批次的每个二维音频特征的每个频域维度进行独立的归一化,得到归一化后特征;
残差连接模块,用于将所述膨胀卷积结果与归一化后特征在频域维度相加,得到所述中间特征。
4.一种声学场景分类模型训练方法,其特征在于,所述方法包括:
获取训练数据,所述训练数据包括将样本声场景音频数据与样本设备脉冲响应数据进行卷积操作得到的样本混合音频数据;
将所述样本混合音频数据作为输入音频数据输入如权利要求1‑3任一项所述的声学场景分类模型,得到声学场景分类结果,作为预测样本分类结果;
根据所述预测样本分类结果和所述样本声场景音频数据对应的真实分类结果确定损失函数;
通过所述损失函数对所述声学场景分类模型进行训练,得到训练后的声学场景分类模型。
5.如权利要求4所述的声学场景分类模型训练方法,其特征在于,样本混合音频数据的生成方式包括:
获取样本脉冲响应数据集和样本声场景语音数据集,所述样本声场景语音数据集包括不同设备在不同场景下的语音数据;
将样本脉冲响应数据集中的样本脉冲响应数据与样本声场景语音数据集中的样本声场景语音数据进行卷积操作,得到混合增强数据;
根据预设场景声音频波形长度切断所述混合增强数据的拖尾样本,得到所述样本混合音频数据。
6.一种声学场景分类方法,其特征在于,所述方法包括:
获取待分类音频数据;
将所述待分类音频数据输入训练后的声学场景分类模型,所述待分类音频数据对应的预测声学场景分类结果;
其中,所述训练后的声学场景分类模型基于权利要求4或5任一项所述的声学场景分类模型训练方法训练得到。
7.一种声学场景分类方法,其特征在于,所述方法包括:
获取输入音频数据;
对所述输入音频数据进行处理,得到梅尔频率倒谱系数特征;
对所述梅尔频率倒谱系数特征进行膨胀卷积,以及对膨胀卷积结果进行频域实例归一化得到中间特征,将所述中间特征继续进行膨胀卷积,以及对新的膨胀卷积结果进行频域实例归一化得到新的中间特征,直至得到最后一个新的中间特征;
对最后一个新的中间特征进行卷积,并根据卷积结果进行分类判别,得到声学场景分类结果。
8.一种模型部署方法,其特征在于,所述方法包括:
获取训练后的声学场景分类模型,所述训练后的声学场景分类模型基于权利要求4或5任一项所述的声学场景分类模型训练方法训练得到;
通过ARM算子对所述训练后的声学场景分类模型进行加速部署。
9.一种声学场景分类装置,其特征在于,所述装置包括:
待分类音频数据获取模块,用于获取待分类音频数据;
确定模块,用于将所述待分类音频数据输入训练后的声学场景分类模型,所述待分类音频数据对应的预测声学场景分类结果,其中,所述训练后的声学场景分类模型基于权利要求4或5任一项所述的声学场景分类模型训练方法训练得到。
10.一种芯片,其特征在于,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,使得所述芯片执行如权利要求7所述的声学场景分类方法。
11.一种声学场景分类模型训练装置,其特征在于,所述装置包括:
训练数据获取模块,用于获取训练数据,所述训练数据包括将样本声场景音频数据与样本设备脉冲响应数据进行卷积操作得到的样本混合音频数据;
数据输入模块,用于将所述样本混合音频数据作为输入音频数据输入如权利要求1‑3任一项所述的声学场景分类模型,得到声学场景分类结果,作为预测样本分类结果;
损失函数确定模块,用于根据所述预测样本分类结果和所述样本声场景音频数据对应的真实分类结果确定损失函数;
训练模块,用于通过所述损失函数对所述声学场景分类模型进行训练,得到训练后的声学场景分类模型。
12.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求4至8任一项所述的方法。
13.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求4至8任一项所述的方法。

说明书全文

声学场景分类、模型训练、部署方法、模型、芯片、装置、电子

备及存储介质

技术领域

[0001] 本发明涉及人工智能技术领域,尤其涉及一种声学场景分类、模型训练、部署方法、模型、芯片、装置、电子设备及存储介质。

背景技术

[0002] 声学场景分类(Acoustic Scene Classification,ASC)是指在给定音频信号的情况下预测声学场景,例如,高站、机场、室内购物中心、城市公园等,也即对音频信号的来源场景进行分类。
[0003] 近年来,基于深度学习的声学场景分类算法取得了比传统声学场景分类方法更好的效果,但相关技术的基于深度学习模型的声学场景分类模型往往具有高计算复杂度和高内存要求,因此在蓝牙机、音响等资源受限的通信终端交互设备上难以部署。

发明内容

[0004] 本发明实施例提供一种声学场景分类、模型训练、部署方法、模型、芯片、装置、电子设备及存储介质,以解决相关技术中基于深度学习模型的声学场景分类模型往往具有高计算复杂度和高内存要求,因此在蓝牙耳机、音响等资源受限的通信终端交互设备上难以部署的险的技术问题。
[0005] 第一方面,本发明实施例提供了一种声学场景分类模型,所述声学场景分类模型包括:数据获取模,用于获取输入音频数据;音频信号预处理模块,用于对所述输入音频数据进行处理,得到梅尔频率倒谱系数特征;多个依次连接的深度膨胀残差块,用于对输入特征进行膨胀卷积,以及对膨胀卷积结果进行频域实例归一化得到中间特征,将所述中间特征输入下一个深度膨胀残差块,直至所述中间特征输入值最后一个深度膨胀残差块,将最后一个深度膨胀残差块输出的中间特征输入卷积层,其中,第一个深度膨胀残差块的输入特征为所述梅尔频率倒谱系数特征;卷积层,用于根据输入的所述中间特征生成卷积结果;全连接层,用于根据所述卷积结果和饱和激活函数确定声学场景分类结果。
[0006] 于本发明一实施例中,所述音频信号预处理模块包括:短时傅里叶变换模块,用于对所述输入音频数据进行短时傅里叶变换得到初始频谱图;梅尔滤波器,用于根据所述初始频谱图创建梅尔频谱图;取对数模块,用于对所述梅尔频谱图取对数,得到取对数结果;离散余弦变换模块,用于对所述取对数结果进行离散余弦变换,得到所述梅尔频率倒谱系数特征。
[0007] 于本发明一实施例中,所述深度膨胀残差块包括:一个或多个依次连接的膨胀卷积块,用于对输入特征进行膨胀卷积,得到膨胀卷积结果;频域实例归一化模块,用于对所述膨胀卷积结果中每个批次的每个二维音频特征的每个频域维度进行独立的归一化,得到归一化后特征;残差连接模块,用于将所述膨胀卷积结果与归一化后特征在频域维度相加,得到所述中间特征。
[0008] 本发明实施例还提供了一种声学场景分类模型训练方法,所述方法包括:获取训练数据,所述训练数据包括将样本声场景音频数据与样本设备脉冲响应数据进行卷积操作得到的样本混合音频数据;将所述样本混合音频数据作为输入音频数据输入如上述任一项实施例所述的声学场景分类模型,得到声学场景分类结果,作为预测样本分类结果;根据所述预测样本分类结果和所述样本声场景音频数据对应的真实分类结果确定损失函数;通过所述损失函数对所述声学场景分类模型进行训练,得到训练后的声学场景分类模型。
[0009] 于本发明一实施例中,一样本混合音频数据的生成方式包括:获取样本脉冲响应数据集和样本声场景语音数据集,所述样本声场景语音数据集包括不同设备在不同场景下的语音数据;将样本脉冲响应数据集中的一样本脉冲响应数据与样本声场景语音数据集中的一样本声场景语音数据进行卷积操作,得到混合增强数据;根据预设场景声音频波形长度切断所述混合增强数据的拖尾样本,得到一样本混合音频数据。
[0010] 第二方面,本发明实施例还提供了一种声学场景分类方法,所述方法包括:获取待分类音频数据;将所述待分类音频数据输入训练后的声学场景分类模型,所述待分类音频数据对应的预测声学场景分类结果;其中,所述训练后的声学场景分类模型基于上述任一项实施例所述的声学场景分类模型训练方法训练得到。
[0011] 第三方面,本发明实施例还提供了一种声学场景分类方法,所述方法包括:获取输入音频数据;对所述输入音频数据进行处理,得到梅尔频率倒谱系数特征;对所述梅尔频率倒谱系数特征进行膨胀卷积,以及对膨胀卷积结果进行频域实例归一化得到中间特征,将所述中间特征继续进行膨胀卷积,以及对新的膨胀卷积结果进行频域实例归一化得到新的中间特征,直至得到最后一个新的中间特征;对最后一个新的中间特征进行卷积,并根据卷积结果进行分类判别,得到声学场景分类结果。
[0012] 第四方面,本发明实施例还提供了一种模型部署方法,所述方法包括:获取训练后的声学场景分类模型,所述训练后的声学场景分类模型基于上述任一项实施例所述的声学场景分类模型训练方法训练得到;通过ARM算子对所述训练后的声学场景分类模型进行加速部署。
[0013] 第五方面,本发明实施例还提供了一种声学场景分类装置,所述装置包括:待分类音频数据获取模块,用于获取待分类音频数据;确定模块,用于将所述待分类音频数据输入训练后的声学场景分类模型,所述待分类音频数据对应的预测声学场景分类结果,其中,所述训练后的声学场景分类模型基于上述任一项实施例所述的声学场景分类模型训练方法训练得到。
[0014] 第六方面,本发明实施例还提供了一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,使得所述芯片执行上述第三方面实施例所述的声学场景分类方法。
[0015] 第七方面,本发明实施例还提供了一种声学场景分类模型训练装置,所述装置包括:训练数据获取模块,用于获取训练数据,所述训练数据包括将样本声场景音频数据与样本设备脉冲响应数据进行卷积操作得到的样本混合音频数据;数据输入模块,用于将所述样本混合音频数据作为输入音频数据输入如上述任一项实施例所述的声学场景分类模型,得到声学场景分类结果,作为预测样本分类结果;损失函数确定模块,用于根据所述预测样本分类结果和所述样本声场景音频数据对应的真实分类结果确定损失函数;训练模块,用于通过所述损失函数对所述声学场景分类模型进行训练,得到训练后的声学场景分类模型。
[0016] 第八方面,本发明实施例还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项实施例所述的方法。
[0017] 第九方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任一项实施例所述的方法。
[0018] 上述提供的声学场景分类、模型训练、部署方法、模型、芯片、装置、电子设备及存储介质所实现的方案中,该模型通过采用一个或多个深度膨胀残差块,由于膨胀卷积能在不增加网络参数和计算量的前提下提高网络感受野,网络捕获全局信息能更强,将残差操作与膨胀卷积结合可以避免网络训练过程中可能出现的梯度消失,相对于传统的声场景分类方法中常选用批量归一化或实例归一化方法,这些归一化方法会导致中间特征的频域信息和时域信息丢失,本实施例提供的声学场景分类模型通过对膨胀卷积结果进行频域实例归一化处理,避免了中间特征的频域信息和时域信息丢失,加快模型训练过程中的收敛速度,该声学场景分类模型合理,可以实现低计算复杂度和实时的声场景分类,使得该方案可以部署到蓝牙耳机、音响等资源受限的设备上。附图说明
[0019] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020] 图1为本发明实施例提供的一种声学场景分类模型的结构示意图;
[0021] 图2为本发明实施例提供的一种音频信号预处理模块的结构示意图;
[0022] 图3为本发明实施例提供的一种深度膨胀残差块的结构示意图;
[0023] 图4为本发明实施例提供的一种声学场景分类模型的一种具体的结构示意图;
[0024] 图5为本发明实施例提供的声学场景分类模型训练方法的一个流程示意图;
[0025] 图6为本发明实施例提供的声学场景分类模型训练方法的一个具体的流程示意图;
[0026] 图7为本发明实施例提供的声学场景分类模型训练方法的一个具体的流程示意图;
[0027] 图8为本发明实施例提供的声学场景分类方法的一个流程示意图;
[0028] 图9为本发明实施例提供的声学场景分类方法的另一个流程示意图;
[0029] 图10为本发明实施例提供的声学场景分类方法的另一个具体的流程示意图;
[0030] 图11为本发明实施例提供的模型部署方法的一个流程示意图;
[0031] 图12为本发明实施例提供的声学场景分类装置的一个结构示意图;
[0032] 图13为本发明实施例提供的声学场景分类模型训练装置的一个结构示意图;
[0033] 图14本发明一实施例中电子设备的一结构示意图;
[0034] 图15本发明一实施例中电子设备的另一结构示意图。

具体实施方式

[0035] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0036] 为使得本领域技术人员更加理解本公开提供的技术方案的改进之处,本公开对相关技术中的声学回声实现场景及相关信息进行简单介绍。
[0037] 请参阅图1,图1为本发明实施例提供的一种声学场景分类模型的结构示意图,如图1所示,该声学场景分类模型包括:数据获取模块110,用于获取输入音频数据;音频信号预处理模块120,用于对输入音频数据进行处理,得到梅尔频率倒谱系数特征;多个依次连接的深度膨胀残差块130,用于对输入特征进行膨胀卷积,以及对膨胀卷积结果进行频域实例归一化得到中间特征,将中间特征输入下一个深度膨胀残差块,直至中间特征输入值最后一个深度膨胀残差块,将最后一个深度膨胀残差块输出的中间特征输入卷积层,其中,第一个深度膨胀残差块的输入特征为梅尔频率倒谱系数特征;卷积层140,用于根据输入的中间特征生成卷积结果;全连接层150,用于根据卷积结果和饱和激活函数确定声学场景分类结果。
[0038] 在一实施例中,请参阅图2,图2为本发明实施例提供的一种音频信号预处理模块的结构示意图,如图2所示,该音频信号预处理模块120包括:短时傅里叶变换模块121,用于对输入音频数据进行短时傅里叶变换得到初始频谱图;梅尔滤波器122,用于根据初始频谱图创建梅尔频谱图;取对数模块123,用于对梅尔频谱图取对数,得到取对数结果;离散余弦变换模块124,用于对取对数结果进行离散余弦变换,得到梅尔频率倒谱系数特征。
[0039] 在一实施例中,请参阅图3,图3为本发明实施例提供的一种深度膨胀残差块的结构示意图,如图3所示,该深度膨胀残差块130包括:一个或多个依次连接的膨胀卷积块131,用于对输入特征进行膨胀卷积,得到膨胀卷积结果;频域实例归一化模块132,用于对膨胀卷积结果中每个批次的每个二维音频特征的每个频域维度进行独立的归一化,得到归一化后特征;残差连接模块133,用于将膨胀卷积结果与归一化后特征在频域维度相加,得到中间特征。
[0040] 使用膨胀卷积是不改变卷积核参数量;通过使用膨胀卷积,可以放大视野域,捕获更多的深层特征图的全局信息,不会改变特征图的大小尺寸。
[0041] 其中,实例归一化,即对每个批次的每个音频特征的每个通道维度进行独立的归一化。本实施例中的频域实例归一化,即对每个批次的每个二维音频特征的每个频域维度进行独立的归一化。
[0042] 可以理解,第一个深度膨胀残差块的输入特征为梅尔频率倒谱系数特征,通过第一个深度膨胀残差块中的第一个膨胀卷积块对梅尔频率倒谱系数特征进行第一次的膨胀卷积,将第一次的膨胀卷积结果输入到相连接的下一个膨胀卷积块,以对第一次的膨胀卷积结果进行第二次的膨胀卷积,直到最后一个膨胀卷积块对上一个膨胀卷积块的膨胀卷积结果进行膨胀卷积,将其膨胀卷积结果M输入到频域实例归一化模块,对膨胀卷积结果M中每个批次的每个二维音频特征的每个频域维度进行独立的归一化,得到归一化后特征,再通过残差连接模块将膨胀卷积结果M的归一化前特征与归一化后特征在频域维度相加,得到中间特征a。
[0043] 若只有一个深度膨胀残差块,则将该中间特征a输入到卷积层。若存在多个深度膨胀残差块,则将中间特征a输入到第一个深度膨胀残差块的下一个深度膨胀残差块中,作为下一个深度膨胀残差块的输入特征,下一个深度膨胀残差块对该中间特征a的处理方式可以参考前述的第一个深度膨胀残差块对梅尔频率倒谱系数特征的处理方式,将下一个深度膨胀残差块输出的中间特征b作为第三个深度膨胀残差块的输入特征,重复上述步骤,直到得到最后一个深度膨胀残差块输出的中间特征fin,将该中间特征fin输入到卷积层,再通过全连接层和Sigmoid激活函数处理卷积层的卷积结果,进而确定声学场景分类结果。需要说明的是,每一个深度膨胀残差块中的膨胀卷积块的数量可以是相同的,也可以是不同的,具体可以由本领域技术人员进行设定。
[0044] 请参见图4,图4为本发明实施例提供的一种声学场景分类模型的一种具体的结构示意图,如图4所示,以逆变换模块为离散余弦变换,短时傅里叶变换模块为短时傅里叶变换(STFT),包括有4个深度膨胀残差块为例,该声学场景分类模型通过数据获取模块获取输入音频数据,该输入音频数据取决于该声学场景分类模型处于训练阶段还是应用阶段可以是相同的,也可以是不同的。输入音频数据依次经过STFF、梅尔滤波器、取对数、离散余弦变换的音频信号预处理流程,得到梅尔频率倒谱系数特征,将该梅尔频率倒谱系数特征输入到深度膨胀残差块,通过对梅尔频率倒谱系数特征进行碰撞卷积、频域实例归一化处理,以及残差连接,得到中间特征,将该中间特征输入到下一个深度膨胀残差块,直到得到最后一个深度膨胀残差块输出的中间特征,对该中间特征进行卷积,并经过全连接层,最终得到声学场景类别结果(也即声学场景分类结果)。
[0045] 上述实施例提供的声学场景分类模型,通过采用一个或多个深度膨胀残差块,由于膨胀卷积能在不增加网络参数和计算量的前提下提高网络感受野,网络捕获全局信息能力更强,将残差操作与膨胀卷积结合可以避免网络训练过程中可能出现的梯度消失,相对于传统的声场景分类方法中常选用批量归一化或实例归一化方法,这些归一化方法会导致中间特征的频域信息和时域信息丢失,本实施例提供的声学场景分类模型通过对膨胀卷积结果进行频域实例归一化处理,避免了中间特征的频域信息和时域信息丢失,加快模型训练过程中的收敛速度,该声学场景分类模型合理,可以实现低计算复杂度和实时的声场景分类,使得该方案可以部署到蓝牙耳机、音响等资源受限的设备上。
[0046] 可选地,在频域维度对中间特征进行实例归一化,并将归一化前特征(膨胀卷积结果)与归一化后特征在频域维度相加,获得的新特征保留了归一化前的频域信息,同时也实现了归一化功能,加快模型训练过程中的收敛速度。
[0047] 可选地,由于该声学场景分类模型的复杂度低,对内存(RAM)和算力的要求低,可以部署在蓝牙耳机等低算力的设备上进行实时处理,原因是:与其他端到端的基于深度学习的声场景分类方法不同,本实施例提供的声学场景分类模型设计了深度膨胀残差卷积块,较少了模型的参数和计算复杂度;此外,通过归一化功能的残差设计,模型识别性能获得提升,轻量级规模的网络,使得网络在部署时可以使用ARM算子进行加速,从而在低算力设备上进行实时处理。
[0048] 与一般的基于深度学习进行声场景分类的方法不同,本实施例提供的声学场景分类模型设计了一种新颖的膨胀残差卷积块和残差归一化方法,膨胀残差卷积块能在不增加参数量的基础上提高网络的感受野,模型捕获全局信息的能力增加,这使得模型的网络层数也能适当的减少,达成低复杂度和低计算量的目的,即使部署在低算力设备上也能实现实时处理,同时,为了避免参数量下降导致模型分类性能的下降,引入残差归一化,残差归一化操作能减少频域维度的信息丢失,提升模型分类准确率。
[0049] 虽然基于深度学习的声学场景分类算法取得了比传统声学场景分类方法更好的效果,但是基于深度学习的声学场景分类算法应用在不同的设备时,结果的准确程度存在较大的差异,导致该算法适应性受限。经分析发明人发现,由于基于深度学习的方法对训练数据的依赖性非常高,这些方法建立在训练和测试数据来自相同底层分布的假设之上。在实际应用中,使用特定类型的麦克风对音频信号进行数字化导致设备特定特性被编码到数字化信号中,如果使用有限数量的记录设备记录训练数据集,而应用程序要求模型推广到训练期间看不见的设备,则问题尤其严重,这个问题是由于音频采集设备的物理特性引起的分布偏移。
[0050] 相关技术中,对于上述问题的解决一般通过Mixup数据增强(Data Augmentation)技术来解决,该方案主要包括以下步骤/模块:样本选择:从训练音频数据集中随机选取两个样本及其对应的标签;混合特征:将两个样本的特征进行线性混合,得到新的混合特征;混合标签:将两个样本的标签进行混合,得到的混合标签作为混合特征的标签;模型训练:
使用混合后的特征和标签进行模型训练。该数据增强技术可以提升模型泛化性能,增加数据多样性,减少标签噪声的影响,帮助深度学习模型更好地学习和泛化。
[0051] 然而,采用Mixup数据增强技术仍然存在着一些问题:这种方法生成的混合样本依赖于原始样本的线性混合,这可能导致生成样本之间存在一定的相似性,降低了数据的多样性。当原始数据中存在噪声或异常样本时,可能会受到噪声的影响,导致生成的混合样本也带有噪声,降低模型的鲁棒性。Mixup中的超参数(如混合比例)对于模型性能的影响较大,需要仔细调整,这增加了使用该技术的调优难度。生成的混合样本使用线性混合标签,这可能导致一些生成样本的标签不准确,影响模型的训练效果。
[0052] 为解决上述问题,避免本发明实施例提供的声学场景分类模型出现在应用在不同设备上的准确性不稳定的问题,本发明实施例还提供了一种声学场景分类模型训练方法。
[0053] 请参阅图5所示,图5为本发明实施例提供的声学场景分类模型训练方法的一个流程示意图,该方法包括如下步骤:
[0054] 步骤S510,获取训练数据。
[0055] 其中,训练数据包括将样本声场景音频数据与样本设备脉冲响应数据进行卷积操作得到的样本混合音频数据。
[0056] 在一实施例中,一样本混合音频数据的生成方式包括:获取样本脉冲响应数据集和样本声场景语音数据集,样本声场景语音数据集包括不同设备在不同场景下的语音数据;将样本脉冲响应数据集中的一样本脉冲响应数据与样本声场景语音数据集中的一样本声场景语音数据进行卷积操作,得到混合增强数据;根据预设场景声音频波形长度切断混合增强数据的拖尾样本,得到一样本混合音频数据。
[0057] 通过上述方式可以得到多个样本混合音频数据,进而得到训练数据。
[0058] 脉冲响应(Impulse Response)为系统对单位脉冲信号的响应。设备脉冲响应可以理解为:每一种接收音频的设备收到音频信号时,会产生一种独特的脉冲响应信号(也就是脉冲响应数据其中的一条)。脉冲响应数据可以来自MiclRP2等公开的脉冲响应数据。进一步的,可以限定脉冲响应数据的时间长度是和声场景数据相等的。
[0059] 例如,可以先构建设备脉冲响应数据DIRs,在数据集(样本脉冲响应数据集)中可以包含来自MiclRP2的免费DIR数据;构建声场景分类数据集(样本声场景语音数据集),在数据集中包含多个场景下录制的声场景语音,相同场景下的语音数据被划分为同一类别。对原始声场景音频进行脉冲响应数据增强得到混合增强数据(样本混合音频数据)。将混合增强数据输入到上述实施例中的声学场景分类模型进行训练。
[0060] 为避免Mixup数据增强技术进行样本的数据增强的相关弊端,本实施例提供的模型训练方法中,通过将声场景音频数据与预先采集的设备脉冲响应(DIR)进行卷积,获得混合增强数据(样本混合音频数据)。相比传统的数据增强方案,本实施例提供的方式考虑到了模型应用于不同设备时,由于不同设备采集的数据存在分布偏移导致模型性能下降的情况,对不同设备的泛化能力更强,解决了由不同类型麦克风的频率响应差异而在数字化音频信号中引入分布偏移问题。
[0061] 步骤S520,将样本混合音频数据作为输入音频数据输入如上述任一项实施例提供的声学场景分类模型,得到声学场景分类结果,作为预测样本分类结果。
[0062] 在训练阶段,会进行数据增强,此时可以采用样本混合音频数据作为输入音频数据。输入到声学场景分类模型后,可以通过该声学场景分类模型对样本混合音频数据进行预测,得到预测样本分类结果。
[0063] 步骤S530,根据预测样本分类结果和样本声场景音频数据对应的真实分类结果确定损失函数。
[0064] 损失函数的确定方式可以采用本领域技术人员所知晓的方式实现,在此不作限定。该损失函数用于衡量预测样本分类结果与真实分类结果之间的差异。
[0065] 步骤S540,通过损失函数对声学场景分类模型进行训练,得到训练后的声学场景分类模型。
[0066] 直到损失函数收敛后,得到训练后的声学场景分类模型。也即通过每一次训练得到的预测值与真值,基于损失函数得到损失值,基于损失值对模型的参数进行更新,直到总损失收敛,完成训练,得到训练后的声学场景分类模型。
[0067] 请参阅图6和图7所示,图6为本发明实施例提供的声学场景分类模型训练方法的一个具体的流程示意图,图7为本发明实施例提供的声学场景分类模型训练方法的一个具体的流程示意图,如图6和图7所示,首先构建设备脉冲响应数据DIRs和声场景分类数据集。构建设备脉冲响应数据DIRs的方式可以是在数据集中包含来自如MiclRP2的免费DIR数据等;构建声场景分类数据集中包含多个场景下录制的声场景语音,相同场景下的语音数据被划分为同一类别。随机选取一段设备脉冲响应数据DIR(一样本脉冲响应数据),并将声场景音频波形(一样本声场景语音数据)与DIR(一样本脉冲响应数据)进行卷积操作,切断拖尾样本以保持场景声音频波形的总长度,获得训练混合音频(样本混合音频数据)。通过对原始声场景音频进行脉冲响应数据增强得到混合增强数据(样本混合音频数据)。将混合增强数据输入到上述声学场景分类模型进行训练。
[0068] 将混合音频通过快速短时傅里叶变换STFT得到频谱图(初始频谱图),再经过梅尔滤波器组创建梅尔频谱图,进而进行取对数处理和离散余弦变换处理得到梅尔频率倒谱系数特征,将该梅尔频率倒谱系数特征输入神经网络(图6和图7中的深度膨胀残差网络),使用深度膨胀残差网络提取梅尔频谱特征,经过多层神经网络提取特征并减小特征时间和频率维度特征数量,经过分层类获得混合音频类别结果,也即图6和图7中的声学场景类别结果(预测样本分类结果),通过预测样本分类结果与真实分类结果确定损失(LOSS)进而对模型进行训练,得到训练后的声学场景分类模型。请继续参阅图6,深度膨胀残差网络对梅尔频率倒谱系数特征的处理过程可以为,将梅尔频率倒谱系数特征通过第一次膨胀卷积,第二次膨胀卷积,然后进行频域实例归一化,通过残差连接将归一化前的特征与归一化后的特征进行连接,得到该深度膨胀残差网络的中间特征,将该中间特征输入到下一个深度膨胀残差网络,进行与上述类似的处理,以4个深度膨胀残差网络为例,将最后一个深度膨胀残差网络输出的中间特征进行卷积、最后通过全连接层和Sigmoid激活函数(饱和激活函数)进行分类判别,得到声学场景分类结果。
[0069] 上述实施例提供的声学场景分类模型训练方法,通过将样本声场景音频数据与样本设备脉冲响应数据进行卷积操作得到的样本混合音频数据来进行数据增强,相比传统的数据增强方案,本方案考虑到了模型应用于不同设备时,由于不同设备采集的数据存在分布偏移导致模型性能下降的情况,对不同设备的泛化能力更强,解决了由不同类型麦克风的频率响应差异而在数字化音频信号中引入分布偏移问题。
[0070] 可选地,通过采用上述实施例提供的声学场景分类模型训练方法来进行声学场景分类模型的训练,能有效提升基于深度学习的声场景分类方法的设备泛化能力,解决分类模型在实际应用中的性能下降问题,解决了由不同的记录设备特性引起的数字化声学信号分布偏移问题,这可能导致音频分类模型在应用时的性能严重下降;提出了一种脉冲响应数据增强方法,作为在训练集中人工增加记录设备多样性的一种手段,通过将脉冲响应数据与声场景音频数据进行卷积操作获得混合增强数据,使用混合增强数据训练模型,获得设备泛化能力高的分类模型。
[0071] 可选地,由于模型中采用了新颖的膨胀残差卷积块和新的残差归一化方法,可以加快模型训练过程中的收敛速度,为了避免参数量下降导致模型分类性能的下降,引入残差归一化,残差归一化操作能减少频域维度的信息丢失,提升模型分类准确率。
[0072] 可选地,正如上述提到的,采用上述实施例提供的声学场景分类模型训练方法来进行声学场景分类模型的训练,克服了不同的记录设备特性引起的数字化声学信号的分布偏移问题,而数据的分布偏移会导致分类模型性能的大幅度下降,这是由于基于深度学习的方案受训练数据影响较大,上述实施例提供的声学场景分类模型训练方法中的设备脉冲响应数据增强方法能有效提高分类模型的设备泛化性能,提高卷积操作将训练数据与脉冲响应DIR数据混合,得到分布更加均匀的训练数据,进而提高模型在未知设备上的性能。请参见表1,表1为不同数据增强技术在不同设备采集声场景测试数据下的分类准确率,其展示了同数据增强技术在不同设备采集声场景测试数据下的分类准确率,这充分证明了上述实施例中采用的数据增强方法大幅度提高了采用上述实施例提供的声学场景分类模型训练方法所训练得到的声学场景分类模型在未知设备上的分类准确性。
[0073] 表1
[0074]
[0075] 请参阅图8所示,图8为本发明实施例提供的声学场景分类方法的一个流程示意图,该方法包括如下步骤:
[0076] 步骤S810,获取待分类音频数据。
[0077] 待分类音频数据可以是由任意设备所采集的,或者通过网络等方式传输得到的,具体不做限定,可以由本领域技术人员所知晓的方式得到。
[0078] 步骤S820,将待分类音频数据输入训练后的声学场景分类模型,待分类音频数据对应的预测声学场景分类结果。
[0079] 其中,训练后的声学场景分类模型基于上述任一项的声学场景分类模型训练方法训练得到。
[0080] 上述实施例提供的声学场景分类方法,由于采用了上述实施例提供的模型训练方法所训练得到的训练后的声学场景分类方法模型,其所实现的效果可参考上述实施例中关于声学场景分类模型训练方法和声学场景分类模型的相关描述,在此不作赘述。
[0081] 请参阅图9所示,图9为本发明实施例提供的声学场景分类方法的另一个流程示意图,该方法包括如下步骤:
[0082] 步骤S910,获取输入音频数据。
[0083] 在训练阶段,该输入音频数据可以是训练数据,在应用阶段,该输入音频数据可以是待分类音频数据。具体的获取方式可以参考上述实施例中的记载,不再赘述。
[0084] 待分类音频数据可以是由任意设备所采集的,或者通过网络等方式传输得到的,具体不做限定,可以由本领域技术人员所知晓的方式得到。
[0085] 步骤S920,对输入音频数据进行处理,得到梅尔频率倒谱系数特征。
[0086] 在一实施例中,对输入音频数据进行处理,得到梅尔频率倒谱系数特征,包括:对输入音频数据进行短时傅里叶变换得到初始频谱图;根据初始频谱图创建梅尔频谱图;对梅尔频谱图取对数,得到取对数结果;对取对数结果进行离散余弦变换,得到梅尔频率倒谱系数特征。
[0087] 步骤S930,对梅尔频率倒谱系数特征进行膨胀卷积,以及对膨胀卷积结果进行频域实例归一化得到中间特征,将中间特征继续进行膨胀卷积,以及对新的膨胀卷积结果进行频域实例归一化得到新的中间特征,直至得到最后一个新的中间特征。
[0088] 也即,可以依次重复多次膨胀卷积和频域实例归一化的步骤,直到达到预设的循环次数阈值,得到最后一个新的中间特征,每重复一次,得到一个新的中间特征,第一次进行多次膨胀卷积和频域实例归一化时采用的是梅尔频率倒谱系数特征,之后,均将执行得到的中间特征作为下一次循环的输入量。
[0089] 在一实施例中,对膨胀卷积结果进行频域实例归一化得到中间特征,包括:对膨胀卷积结果中每个批次的每个二维音频特征的每个频域维度进行独立的归一化,得到归一化后特征;将膨胀卷积结果与归一化后特征在频域维度相加,得到中间特征。
[0090] 步骤S940,对最后一个新的中间特征进行卷积,并根据卷积结果进行分类判别,得到声学场景分类结果。
[0091] 此处,卷积和全连接层的处理可以采用本领域技术人员所知晓的方式处理,在此不做限定,可以参考上述声学场景分类模型的结构实现。
[0092] 请参见图10,图10为本发明实施例提供的声学场景分类方法的另一个具体的流程示意图。如图10所示,在推理阶段,声场景语音数据通过快速短时傅里叶变换STFT得到频谱图(初始频谱图),再经过梅尔滤波器组创建梅尔频谱图,进而进行取对数处理和离散余弦变换处理得到梅尔频率倒谱系数特征,将该梅尔频率倒谱系数特征输入神经网络(图10中的深度膨胀残差网络),使用深度膨胀残差网络提取梅尔频谱特征,经过多层神经网络提取特征并减小特征时间和频率维度特征数量,经过分层类获得混合音频类别结果。对梅尔频率倒谱系数特征的处理过程可以为,将梅尔频率倒谱系数特征通过第一次膨胀卷积,第二次膨胀卷积,然后进行频域实例归一化,通过残差连接将归一化前的特征与归一化后的特征进行连接,得到该深度膨胀残差网络的中间特征,将该中间特征输入到下一个深度膨胀残差网络,进行与上述类似的处理,以4个深度膨胀残差网络为例,将最后一个深度膨胀残差网络输出的中间特征进行卷积、最后通过全连接层进行分类判别,得到声学场景分类结果。
[0093] 上述实施例提供的声学场景分类方法,可以应用于上述实施例提供的声学场景分类方法模型,其所实现的效果可参考上述实施例中关于声学场景分类模型的相关描述。
[0094] 通过采用深度膨胀残差卷积块,膨胀卷积能在不增加网络参数和计算量的前提下提高网络感受野,网络(模型)捕获全局信息能力更强,这使得模型的网络层数也能适当的减少,达成低复杂度和低计算量的目的,即使部署在低算力设备上也能实现实时处理,将残差操作与膨胀卷积结合可以避免网络训练过程中可能出现的梯度消失;与传统的声场景分类方法中常选用批量归一化或实例归一化方法相比,传统使用的归一化方法会导致中间特征的频域信息和时域信息丢失,本实施例的方法中提出一种新颖的特征归一化方法,即在频域维度对中间特征进行实例归一化,并将归一化前特征与归一化后特征在频域维度相加,获得的新特征保留了归一化前的频域信息,同时也实现了归一化功能,可以加快模型训练过程中的收敛速度,为了避免参数量下降导致模型分类性能的下降,引入残差归一化,残差归一化操作能减少频域维度的信息丢失,提升模型分类准确率。上述声学场景分类方法所设计的模型结构合理,可以实现低计算复杂度和实时的声场景分类,使得该方案可以部署到蓝牙耳机、音响等资源受限的设备上。
[0095] 可选的,由于上述声学场景分类方法所实现的声学场景分类模型的复杂度低,对内存(RAM)和算力的要求低,可以部署在蓝牙耳机等低算力的设备上进行实时处理的原因是:与其他端到端的基于深度学习的声场景分类方法不同,通过设计了深度膨胀残差卷积块,较少了模型的参数和计算复杂度;此外,通过归一化功能的残差设计,模型识别性能获得提升,轻量级规模的网络,使得网络在部署时可以使用ARM算子进行加速,从而在低算力设备上进行实时处理。
[0096] 请参阅图11所示,图11为本发明实施例提供的模型部署方法的一个流程示意图,该方法包括如下步骤:
[0097] 步骤S1110,获取训练后的声学场景分类模型。
[0098] 其中,训练后的声学场景分类模型基于实施例任一项提供的声学场景分类模型训练方法训练得到。
[0099] 步骤S1120,通过ARM算子对训练后的声学场景分类模型进行加速部署。
[0100] 其中,由于本实施例中提供的训练后的声学场景分类模型属于轻量级规模的网络,使得网络在部署时可以使用ARM算子进行加速,从而在低算力设备上进行实时处理。
[0101] 在一实施例中,提供一种声学场景分类装置,该声学场景分类装置用于实现上述图8所提供的声学场景分类方法。请参见图12,图12为本发明实施例提供的声学场景分类装置的一个结构示意图,如图12所示,该声学场景分类装置1200包括:
[0102] 待分类音频数据获取模块1210,用于获取待分类音频数据;
[0103] 确定模块1220,用于将待分类音频数据输入训练后的声学场景分类模型,待分类音频数据对应的预测声学场景分类结果,其中,训练后的声学场景分类模型基于上述任一项图8提供的声学场景分类模型训练方法训练得到。
[0104] 关于声学场景分类装置的具体限定可以参见上文中图8中对于声学场景分类方法的限定,在此不再赘述。上述声学场景分类装置中的各个模块可全部或部分通过软件硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0105] 在本实施例中,该声学场景分类装置实质上是设置了多个模块用以执行上述图8中实施例中的声学场景分类方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。
[0106] 在一实施例中,提供一种芯片,该芯片包括处理器与数据接口,处理器通过数据接口读取存储器上存储的指令,使得芯片执行图9所示的方法。
[0107] 在本实施例中,该芯片实质上是设置了多个模块用以执行上述图9中的声学场景分类方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。
[0108] 在一实施例中,提供一种声学场景分类模型训练装置,请参见图13,图13为本发明实施例提供的声学场景分类模型训练装置的一个结构示意图,如图13所示,该声学场景分类模型训练装置1300包括:
[0109] 训练数据获取模块1310,用于获取训练数据,训练数据包括将样本声场景音频数据与样本设备脉冲响应数据进行卷积操作得到的样本混合音频数据;
[0110] 数据输入模块1320,用于将样本混合音频数据作为输入音频数据输入上述任一项实施例提供的声学场景分类模型,得到声学场景分类结果,作为预测样本分类结果;
[0111] 损失函数确定模块1330,用于根据预测样本分类结果和样本声场景音频数据对应的真实分类结果确定损失函数;
[0112] 训练模块1340,用于通过损失函数对声学场景分类模型进行训练,得到训练后的声学场景分类模型。
[0113] 关于声学场景分类模型训练装置的具体限定可以参见上文中对于回声消除方法、非线性回声消除模型训练方法的限定,在此不再赘述。上述声学场景分类模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0114] 在一个实施例中,提供了一种电子设备,该电子设备可以是服务端,其内部结构图可以如图14所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法服务端侧的功能或步骤。
[0115] 在一个实施例中,提供了一种电子设备,该电子设备可以是客户端,其内部结构图可以如图15所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现上述方法客户端侧的功能或步骤。
[0116] 在一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
[0117] 获取训练数据,训练数据包括将样本声场景音频数据与样本设备脉冲响应数据进行卷积操作得到的样本混合音频数据;
[0118] 将样本混合音频数据作为输入音频数据输入如上述任一项实施例提供的声学场景分类模型,得到声学场景分类结果,作为预测样本分类结果;
[0119] 根据预测样本分类结果和样本声场景音频数据对应的真实分类结果确定损失函数;
[0120] 通过损失函数对声学场景分类模型进行训练,得到训练后的声学场景分类模型。
[0121] 在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
[0122] 获取输入音频数据;
[0123] 对输入音频数据进行处理,得到梅尔频率倒谱系数特征;
[0124] 对梅尔频率倒谱系数特征进行膨胀卷积,以及对膨胀卷积结果进行频域实例归一化得到中间特征,将中间特征继续进行膨胀卷积,以及对新的膨胀卷积结果进行频域实例归一化得到新的中间特征,直至得到最后一个新的中间特征;
[0125] 对最后一个新的中间特征进行卷积,并根据卷积结果进行分类判别,得到声学场景分类结果。
[0126] 在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
[0127] 获取训练后的声学场景分类模型,训练后的声学场景分类模型基于上述任一项实施例提供的声学场景分类模型训练方法训练得到;
[0128] 通过ARM算子对训练后的声学场景分类模型进行加速部署。
[0129] 在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
[0130] 获取待分类音频数据;
[0131] 将待分类音频数据输入训练后的声学场景分类模型,待分类音频数据对应的预测声学场景分类结果;
[0132] 其中,训练后的声学场景分类模型基于上述任一项实施例提供的声学场景分类模型训练方法训练得到。
[0133] 在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0134] 获取训练数据,训练数据包括将样本声场景音频数据与样本设备脉冲响应数据进行卷积操作得到的样本混合音频数据;
[0135] 将样本混合音频数据作为输入音频数据输入如上述任一项实施例提供的声学场景分类模型,得到声学场景分类结果,作为预测样本分类结果;
[0136] 根据预测样本分类结果和样本声场景音频数据对应的真实分类结果确定损失函数;
[0137] 通过损失函数对声学场景分类模型进行训练,得到训练后的声学场景分类模型。
[0138] 在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0139] 获取输入音频数据;
[0140] 对输入音频数据进行处理,得到梅尔频率倒谱系数特征;
[0141] 对梅尔频率倒谱系数特征进行膨胀卷积,以及对膨胀卷积结果进行频域实例归一化得到中间特征,将中间特征继续进行膨胀卷积,以及对新的膨胀卷积结果进行频域实例归一化得到新的中间特征,直至得到最后一个新的中间特征;
[0142] 对最后一个新的中间特征进行卷积,并根据卷积结果进行分类判别,得到声学场景分类结果。
[0143] 在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0144] 获取训练后的声学场景分类模型,训练后的声学场景分类模型基于上述任一项实施例提供的声学场景分类模型训练方法训练得到;
[0145] 通过ARM算子对训练后的声学场景分类模型进行加速部署。
[0146] 在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0147] 获取待分类音频数据;
[0148] 将待分类音频数据输入训练后的声学场景分类模型,待分类音频数据对应的预测声学场景分类结果;
[0149] 其中,训练后的声学场景分类模型基于上述任一项实施例提供的声学场景分类模型训练方法训练得到。
[0150] 需要说明的是,上述关于计算机可读存储介质或电子设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧以及客户端侧的相关描述,为避免重复,这里不再一一描述。
[0151] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其他介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM),以及存储器总线动态RAM(RDRAM)等。
[0152] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置、系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
[0153] 以上提供的实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。