一种音频事件识别模型的训练方法、装置及其设备转让专利

申请号 : CN202110847978.1

文献号 : CN113299314B

文献日 : 2021-11-02

本公开提供一种音频事件识别模型的训练方法、装置及其设备。本公开实施例中提供的一个或多个技术方案，获取训练样本的集合，其中，所述训练样本的集合由包含真实弱标签的弱标签音频数据集合和包含真实强标签的强标签音频数据集合组成，采用待训练模型确定所述训练样本的预测强标签；根据训练样本的预测强标签确定所述训练样本的预测弱标签；根据所述训练样本的预测强标签和真实强标签确定强标签损失值，以及，根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值；根据所述强标签损失值和所述弱标签损失值的和确定训练损失值，根据所述训练损失值对所述待训练模型进行训练，生成目标模型，从而实现灵活的模型训练。

1.一种音频事件识别模型的训练方法，包括：获取训练样本的集合，其中，所述训练样本的集合由包含真实弱标签的弱标签音频数据集合和包含真实强标签的强标签音频数据集合组成，所述真实弱标签用于表征弱标签音频数据中所包含的事件类型，所述真实强标签用于表征在强标签音频数据中的每一帧所包含的事件类型，所述弱标签音频数据包含所述真实弱标签，所述强标签音频数据包含所述真实强标签，所述弱标签音频数据集合包含至少一个所述弱标签音频数据，所述强标签音频数据集合包含至少一个所述强标签音频数据；

采用待训练模型确定所述训练样本的预测强标签；

根据训练样本的预测强标签确定所述训练样本的预测弱标签；

根据所述训练样本的预测强标签和真实强标签确定强标签损失值，以及，根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值；

根据所述强标签损失值和所述弱标签损失值的和确定训练损失值，根据所述训练损失值对所述待训练模型进行训练，生成目标模型。

2.如权利要求1所述的方法，其中，还包括：获取无标签的音频数据；

采用所述目标模型预测生成所述无标签的音频数据的预测弱标签；

根据所述预测弱标签确定所述无标签的音频数据的伪标签，生成包含伪标签的伪标签音频数据集合；

将所述伪标签音频数据集合合并至所述弱标签音频数据集合中，生成新的弱标签音频数据集合。

3.如权利要求2所述的方法，其中，根据所述预测弱标签确定所述无标签的音频数据的伪标签，包括：

获取所述预测弱标签所对应的事件类型，其中，所述预测弱标签中通过概率值表征对应的事件类型的可能性；

若对应的事件类型的概率超过预设概率阈值，在所述预测弱标签中将所述对应的事件类型的概率值修订为表征事件类型存在的值；

将修订后的预测弱标签确定为所述无标签的音频数据的伪标签。

4.如权利要求1所述的方法，其中，根据所述强标签损失值和所述弱标签损失值的和确定训练损失值，包括：

根据所述弱标签音频数据集合或者所述强标签音频数据集合的数量分别确定强标签损失值的第一权重和所述弱标签损失值的第二权重；

根据所述第一权重和所述第二权重对所述强标签损失值和所述弱标签损失值进行加权求和确定训练损失值。

5.如权利要求1所述的方法，其中，根据训练样本的预测强标签确定所述训练样本的预测弱标签，包括：

获取所述训练样本的特征编码；

对所述特征编码通过线性网络进行线性化，生成对应于预测强标签的标签权重序列；

将标签权重序列和对应的每一帧预测强标签进行点乘相加，生成所述练样本的预测弱标签；

相应的，根据所述训练损失值对所述待训练模型进行训练，包括：根据所述训练损失值对所述线性网络中的参数进行训练。

6.如权利要求1所述的方法，其中，所述弱标签音频数据集合通过如下方式预先生成：获取与弱标签音频数据的长度相同的噪声音频数据；

将所述噪声音频数据叠加至所述弱标签音频数据，生成包含噪声的弱标签音频数据集合。

7.如权利要求6所述的方法，其中，所述强标签音频数据集合通过如下方式预先生成：获取与弱标签音频数据的长度相同的噪声音频数据，以及，获取已经确定事件类型的真实音频数据，其中，所述真实音频数据的长度不超过所述噪声音频数据的长度；

叠加所述真实音频数据和所述噪声音频数据生成包含噪声的真实音频数据，并确定所述真实音频数据和所述噪声音频数据中的叠加时间点；

根据所述叠加时间点和所述事件类型确定包含噪声的真实音频数据的真实强标签，生成强标签音频数据集合。

8.如权利要求1所述的方法，其中，还包括：获取待识别的音频数据，采用所述目标模型生成对应于所述待识别的音频数据的每一帧中各事件类型的概率分布；

采用中值滤波对所述概率分布进行处理，生成处理后的概率分布；

针对任一事件类型，确定在处理后的概率分布中该事件类型在各帧中所对应的概率值是否满足预设条件，其中，所述预设条件包括：在预设窗口长度的连续多帧中的该事件类型的概率值均不低于预设概率阈值；

若满足，从所述待识别的音频数据中划分得到长度不低于所述预设窗口长度的该事件类型的音频片段。

9.如权利要求1所述的方法，其中，根据所述训练样本的预测强标签和真实强标签确定强标签损失值，以及，根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值，包括：

确定所述训练样本的预测强标签和真实强标签中所包含的事件类型，分别计算每一类事件类型所对应的第一损失值，并根据每一类事件类型所对应的第一损失值的和确定强标签损失值；

以及，确定所述训练样本的预测弱标签和真实弱标签中所包含的事件类型，分别计算每一类事件类型所对应的第二损失值，并根据每一类事件类型所对应的第二损失值的和确定弱标签损失值。

10.一种音频事件识别模型的训练装置，包括：获取装置，获取训练样本的集合，其中，所述训练样本的集合由真实弱标签的弱标签音频数据集合和包含真实强标签的强标签音频数据集合组成，所述真实弱标签用于表征弱标签音频数据中所包含的事件类型，所述真实强标签用于表征在强标签音频数据中的每一帧所包含的事件类型，所述弱标签音频数据包含所述真实弱标签，所述强标签音频数据包含所述真实强标签，所述弱标签音频数据集合包含至少一个所述弱标签音频数据，所述强标签音频数据集合包含至少一个所述强标签音频数据；

强标签确定模块，采用待训练模型确定所述训练样本的预测强标签；

弱标签确定模块，根据训练样本的预测强标签确定所述训练样本的预测弱标签；

损失值确定模块，根据所述训练样本的预测强标签和真实强标签确定强标签损失值，以及，根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值；

训练模块，根据所述强标签损失值和所述弱标签损失值的和确定训练损失值，根据所述训练损失值对所述待训练模型进行训练，生成目标模型。

11.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1‑9中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1‑9中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1‑9中任一项所述的方法。

一种音频事件识别模型的训练方法、装置及其设备

技术领域

[0001] 本发明涉及计算机技术领域，尤其涉及一种音频事件识别模型的训练方法、装置及其设备。

背景技术

[0002] 生活中的声音来源多种多样，不同类别的声音我们称之为音频事件或者不同事件类型的音频。例如，可以包括对话、音乐、环境音、自然界的声音、机械音等等。而对于音频事
件的事件类型进行标注成本是相当高的，这造成在实际中带有标签的真实数据是极少的往
往出现各种数据缺失的情形，这给模型训练带来了不便。

[0003] 基于此，需要一种更灵活的模型训练方案。

发明内容

[0004] 有鉴于此，本公开实施例提供一种更灵活的模型训练方案，以至少部分的解决上述问题。

[0005] 根据本公开的一方面，提供了一种音频事件识别模型的训练方法，包括：获取训练样本的集合，其中，所述训练样本的集合由包含真实弱标签的弱标签音频数据集合和包含
真实强标签的强标签音频数据集合组成，所述弱标签用于表征弱标签音频数据中所包含的
事件类型，所述强标签用于表征在强标签音频数据中的每一帧所包含的事件类型；采用待
训练模型确定所述训练样本的预测强标签；根据训练样本的预测强标签确定所述训练样本
的预测弱标签；根据所述训练样本的预测强标签和真实强标签确定强标签损失值，以及，根
据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值；根据所述强标签损失值和
所述弱标签损失值的和确定训练损失值，根据所述训练损失值对所述待训练模型进行训
练，生成目标模型。

[0006] 根据本公开的第二方面，提供了一种音频事件识别模型的训练装置，包括：获取装置，获取训练样本的集合，其中，所述训练样本的集合由包含真实弱标签的弱标签音频数据
集合和包含真实强标签的强标签音频数据集合组成，所述弱标签用于表征弱标签音频数据
中所包含的事件类型，所述强标签用于表征在强标签音频数据中的每一帧所包含的事件类
型；强标签确定模块，采用待训练模型确定所述训练样本的预测强标签；弱标签确定模块，
根据训练样本的预测强标签确定所述训练样本的预测弱标签；损失值确定模块，根据所述
训练样本的预测强标签和真实强标签确定强标签损失值，以及，根据所述训练样本的预测
弱标签和真实弱标签确定弱标签损失值；训练模块，根据所述强标签损失值和所述弱标签
损失值的和确定训练损失值，根据所述训练损失值对所述待训练模型进行训练，生成目标
模型。

[0007] 根据本公开的第三方面，提供了一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行如第一
方面所述的方法。

[0008] 根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如第一方面所述的方法。

[0009] 根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行如第一方面所述的方法。

[0010] 本公开实施例中提供的一个或多个技术方案，获取训练样本的集合，其中，所述训练样本的集合由包含真实弱标签的弱标签音频数据集合和包含真实强标签的强标签音频
数据集合组成，采用待训练模型确定所述训练样本的预测强标签；根据训练样本的预测强
标签确定所述训练样本的预测弱标签；根据所述训练样本的预测强标签和真实强标签确定
强标签损失值，以及，根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值；根
据所述强标签损失值和所述弱标签损失值的和确定训练损失值，根据所述训练损失值对所
述待训练模型进行训练，生成目标模型。由于采用了对强弱两部分损失函数分别进行计算，
在训练中可以应对实际数据短缺的各种情况而调整损失值的计算方式，而无需修改训练流
程，从而实现灵活的模型训练。

附图说明

[0011] 在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

[0012] 图1为本公开实施例所提供的一种音频事件识别模型的训练方法的流程示意图；

[0013] 图2为本公开实施例所提供的同一音频数据的真实弱标签和真实强标签的示意图；

[0014] 图3a为本公开实施例所提供的整体模型架构的示意图；

[0015] 图3b为本公开实施例所提供的卷积神经网络CNN块中的内部结构的示意图；

[0016] 图4为本公开实施例所提供的一种音频事件识别模型的训练装置的结构示意图；

[0017] 图5示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

[0018] 下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这
里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的
是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

[0019] 应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公
开的范围在此方面不受限制。

[0020] 本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示
“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定
义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的
装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者
相互依存关系。

[0021] 需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。本公开实
施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用
于对这些消息或信息的范围进行限制。

[0022] 以下参照附图描述本公开的方案，如图1所示，图1为本公开实施例所提供的一种音频事件识别模型的训练方法的流程示意图，具体包括：

[0023] S101，获取训练样本。

[0024] 在本公开实施例中，训练样本中包含有弱标签音频数据集合W和强标签音频数据集合S构成。

[0025] 在弱标签音频数据集合W中，每个弱标签音频数据都包含有已经标注的真实弱标签lweak，同时，各弱标签音频数据的时间长度相同（例如，均为10s），各弱标签lweak的维度也
相同。

[0026] 真实弱标签lweak用于表征弱标签音频数据中所包含的事件类型，弱标签lweak并采用one‑hot编码的形式。例如，假设事件类型存在5种，分别是对话、音乐、环境音、自然界的
声音和机械音。如果一个弱标签音频数据中包含有“对话”，那么在其标签中“对话”所对应
的维度的值为1，否则为0，即其标签的形式可能是“10000”。

[0027] 此外，一个弱标签音频数据中可能同时包含多种事件类型，那么其标签中在多种事件类型分别对应的维度上的值都为1。例如，同时包含有对话和音乐，那么，其标签的形式
可能是“11000”。

[0028] 通过真实弱标签可以表征在一份弱标签音频数据中所包含的事件类型，但是不能表征该事件类型在弱标签音频数据中的起始时间和结束时间。

[0029] 在强标签音频数据集合W中，每个强标签音频数据的时间长度与弱标签音频数据的时间长度相同。同时，每个强标签音频数据还可以平均分割为等长的多帧音频。

[0030] 例如，若弱标签音频数据的时间长度为10s，则强标签音频数据的时间长度同样为10s，同时，还可能将强标签音频数据分割为的等长的100帧，每一帧的长度均为0.1s。在实
际应用中，对于强标签音频数据中所包含的帧数的数量，可以基于实际需要而确定。例如，
可以对强标签音频数据提取对数梅尔谱特征或者梅尔谱特征，而对应得到远超100多帧的
子音频。

[0031] 从而，对应每一份子音频都包含有对应的子标签yn，从而形成了子标签序列，进而在子标签序列中即可以通过时间类型的连续性反应出某种事件类型的起始时间和结束时
间。因此，子标签序列即构成了真实强标签。真实强标签用于表征在强标签音频数据中的每
一帧所包含的事件类型，并通过该方式可以表征出在强标签音频数据中各事件类型的起始
时间和结束时间。

[0032] 例如，对于时间长度为10s的强标签音频数据而言，将其分为等长的100帧，每一帧的长度均为0.1s，对应的每一帧都存在对应的子标签。假设在从第30帧到低70帧的子标签
中，对应“对话”的维度上的值均为1，那么即可以知道，在该强标签音频数据中，包含有事件
类型“对话”，并且，其持续时间为第3s至第7s。

[0033] 此外，若在强标签音频数据，同时包含有多种时间上重叠的事件类型，那么对于没有重叠音频的帧，每帧对应一个事件类型的子标签，例如，其形式为“10000”；针对有重叠音
频的帧，每帧对应包括多个类的子标签，例如，其形式为“11000”。

[0034] 如图2所示，图2为本公开实施例所提供的同一音频数据的真实弱标签和真实强标签的示意图。在该示意图中，标签包含了5个维度，对应于5种事件类型，在维度1和维度2上
分别表征了“对话”和“音乐”，1表示事件存在，0表示不存在。

[0035] 因此，在该示意图中，对于该音频数据可以划分为等长的5帧。弱标签音频数据中通过真实弱标签表明其包含了事件类型“对话”和“音乐”，但是并不清楚其各自的起始时间
和结束时间。而在强标签音频数据中通过真实强标签表明其同时包含了事件类型“对话”和
“音乐”，并且通过各帧所对应的子标签中各维度的取值的连续性，可以表征事件类型“对
话”从第1帧持续至第4帧，而事件类型“音乐”从第3帧持续至第5帧，即真实强标签由各帧所
对应的子标签序列构成。

[0036] 在实际应用中，对于训练样本的标注，均可以基于真实数据采用人工打标的形式预先处理得到。一份弱标签音频数据不包含有真实强标签，而一份强标签音频数据则可以
同时包含有真实强标签和真实弱标签。

[0037] 训练样本中弱标签音频数据和强标签音频数据的比例可以基于训练要求进行控制，例如，可以选取1：1的比例混合而得到训练样本。

[0038] S103，采用待训练模型确定所述训练样本的预测强标签。

[0039] 具体而言，可以提取训练样本的基础特征（例如梅尔普特征或者对数梅尔普特征），进而采用包含多个块的卷积神经网络（Convolutional Neural Networks, CNN）对基
础特征进行进一步的特征融合，而得到融合后的融合特征，并采用包含多个块的conformer
结构进行编码而得到特征编码，进而，采用一层线性网络对于特征编码线性化而得到所述
训练样本的每一帧的预测子标签yn，即预测强标签。

[0040] 得到的预测强标签的长度和真实强标签的维度相同，在每一各维度上的取值均为取值在区间（0,1）中的概率值，用于表征在各帧上各事件类型的概率。如图3a所示，图3a为
本公开实施例所提供的整体模型架构的示意图，包括了特征提取、CNN blocks、
conformerblocks和生成最终分类结果的全连接层。图3b为本公开实施例所提供的卷积神
经网络CNN块中的内部结构的示意图，包括了用于对提取得到的基础特征进行卷积的卷积
层、参数批量规范化和加速训练的批量归一化层、包含神经网络激活函数的激活层以及防
止过拟合的舍弃层。

[0041] S105，根据训练样本的预测强标签确定所述训练样本的预测弱标签。

[0042] 对于已经得到的预测强标签，可以采用诸如对所有帧所对应的预测子标签上做平均从而生成所述训练样本的预测弱标签yweak，或者，采用诸如阈值过滤的方式来确定预测
弱标签。例如，若在连续多帧的预测子标签中，某个维度上的取值均大于预设阈值，则可以
线确定在所述连续多帧的预测子标签中的平均值或者中位数，并将该训练样本的预测弱标
签上该维度的取值修改为该平均值或者中位数。

[0043] S107，根据所述训练样本的预测强标签和真实强标签确定强标签损失值，以及，根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值。

[0044] 由于训练样本的集合是由弱标签音频数据或者强标签音频数据按一定比例混合而成，在本公开中，对于不同的训练样本（即弱标签音频数据或者强标签音频数据），可以采
用分别独立的方式来计算其各自的损失值。

[0045] 此外，需要注意的是，当训练样本为弱标签音频数据时，由于其不存在真实强标签，因此，可以直接将强标签损失值确定为0。

[0046] S109，根据所述强标签损失值和所述弱标签损失值的和确定训练损失值，根据所述训练损失值对所述待训练模型进行训练，生成目标模型。

[0047] 可以直接将强标签损失值和所述弱标签损失值的和确定为训练损失值，即训练损失值loss=lossweak+lossstrong。或者，还可以根据训练样本的集合中所包含的弱标签音频数
据和强标签音频数据的数量进行分别设定。例如，在弱标签音频数据数量较少是，则可以忽
略弱标签损失值；若强标签音频数据的数量极少，则可以忽略强标签损失值，在这个过程中
无需修改训练流程。

[0048] 本公开实施例中提供的一个或多个技术方案，获取训练样本的集合，其中，所述训练样本的集合由包含真实弱标签的弱标签音频数据集合和包含真实强标签的强标签音频
数据集合组成，采用待训练模型确定所述训练样本的预测强标签；根据训练样本的预测强
标签确定所述训练样本的预测弱标签；根据所述训练样本的预测强标签和真实强标签确定
强标签损失值，以及，根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值；根
据所述强标签损失值和所述弱标签损失值的和确定训练损失值，根据所述训练损失值对所
述待训练模型进行训练，生成目标模型。由于采用了对强弱两部分损失函数分别进行计算，
在训练中可以应对实际数据短缺的各种情况而调整损失值的计算方式，而无需修改训练流
程，从而实现灵活的模型训练。

[0049] 在一种实施方式中，当目标模型训练完毕之后，即目标模型的性能达到一定的程度之后，此时认为该训练后的目标模型能基于给定的无标签的音频数据，较为准确的预测
得到该音频数据所包括的事件类型，即可以生成所述无标签的音频数据的预测弱标签。

[0050] 进而即可以根据预测弱标签来对无标签的音频数据进行人工伪打标，即将弱标签确定所述无标签的音频数据的伪标签，并且认为该伪标签是较为可信的，并生成包含伪标
签的伪标签音频数据集合U，从而，可以将集合U合并至弱标签音频数据集合W中，从而生成
新的弱标签音频数据集合，即新的弱标签音频数据集合W’为集合W和U的并集，并采用集合
W’和集合S继续对目标模型进行训练，这个过程可以反复进行，直到达到更为理想的模型预
测效果。

[0051] 在一种实施方式中，由于生成的预测弱标签的维度同样与真实弱标签的维度相同，在每一个维度上，其取值为0到1之间的概率值，用于表征在该无标签的音频数据中所包
含的对应的事件类型的可能性，因此，对于伪标签音频数据中的数据进行打标时，若对应的
事件类型的概率超过预设概率阈值，在所述预测弱标签中将所述对应的事件类型的概率值
修订为表征事件类型存在的值，并将修订后的预测弱标签确定为所述无标签的音频数据的
伪标签。例如，对于预测弱标签，其值可能是（0.1,0.6,0.9），而各事件类型所对应的预设概
率阈值分别为0.5,0.5,0.8（各各事件类型所对应的预设概率阈值可以相同也可以不同），
则可以将伪标签修订为（0,1,1），并将修订后的伪标签修订（0,1,1）作为该无标签的音频数
据的伪标签。

[0052] 在一种实施例中，在确定训练损失值时，还可以根据所述弱标签音频数据集合或者所述强标签音频数据集合的数量分别确定强标签损失值的第一权重w1和所述弱标签损
失值的第二权重w2，并根据所述第一权重w1和所述第二权重w2对所述强标签损失值和所述
弱标签损失值进行加权求和确定训练损失值。即loss=w1*lossweak+w2*lossstrong。

[0053] 例如，若在一个训练批次中按1：1的比例混合强标签音频数据和弱标签音频数据，那么可以将第一权重和第二权重均设置为1。或者，若强标签音频数据或者弱标签音频数据
的占比过低时，则直接将对应的权重设置为0。例如，若强标签音频数据的比例低于10%，则
将第一权重w1设置为0，通过该方式可以基于实际训练样本的数量灵活的调整训练模型损
失值的计算方式，实现更好的训练效果。

[0054] 在一种实施方式中，还可以在如图3a中所示，在全连接层中对于conformer层编码得到特征编码采用初始结构与预测强标签时相同的一层线性网络（即全连接层中的左路），
并通过该线性网络和softmax函数输出得到对应于预测强标签的一标签权重序列，标签权
重序列的维度与预测强标签中所包含的预测子标签的数量相同，且，在顺序上一一对应。进
而，即可以将标签权重序列和对应的每一帧预测强标签进行点乘相加，从而生成所述练样
本的预测弱标签。

[0055] 例如，假设对于预测强标签包含有如下子标签序列（子标签1，标签2，标签3），而生成的标签权重序列为（a，b，c），那么最终生成的弱标签即为a*子标签1+b*子标签2+c*子标
签3。

[0056] 需要说明的是，在这种方式下，模型中的全连接层中的左路通过一层线性网络和softmax函数得到对应于每一帧的标签权重序列，油路通过同样的一层线性网络和sigmoid
函数得到预测强标签（即预测子标签序列）。实际上左右两路的线性网络在初始结构上是相
同的，即包含有相同的待训练参数，甚至待训练参数的初始值可能都是相同的。但是随着模
型训练的进行，左右两个线性网络中待训练参数的值将会不断变更以使得模型的预测标签
更加贴近真实标签，从而在左右两个线性网络中待训练参数的值将会不再相同。

[0057] 在这种实施方式下，对于目标模型的训练过程也是需要基于前述的训练损失值对于左路和右路中所包含的线性网络中的参数进行训练，通过线性网络去学习每一帧的具体
权重，从而使得训练得到的目标模型可以关注每一帧的相对关系，并得到每一帧的子标签
的权重，从而实现更佳的预测效果。

[0058] 在一种实施例中，对于弱标签音频数据集合，除了采用真实数据进行打标得到，还可以在已经打标的真实数据（即弱标签音频数据）的基础上进行增广。即获取与弱标签音频
数据的长度相同的噪声音频数据，并将所述噪声音频数据叠加至所述弱标签音频数据（即
时间对应叠加，可以采用诸如SpecAugment, Mixup等方式进行叠加），生成包含噪声的弱标
签音频数据集合。

[0059] 在一种实施例中，对于强标签音频数据集合，除了采用真实数据进行打标得到，还可以进一步的采用人工合成的方式得到。即首先获取与弱标签音频数据的长度相同的噪声
音频数据，并获取已经确定事件类型的真实音频数据，其中，所述真实音频数据的长度不超
过所述噪声音频数据的长度。

[0060] 例如，当弱标签音频数据的长度为10s时，则获取同样为10s长的噪声音频数据，并获取已经确定对话或者音乐等事件类型的目标音频片段来生成真实音频数据，真实音频数
据如果长度则不超过10s。若目标音频片段的长度超过了10s，则可以对目标音频片段进行
切割，例如，将一个12s的目标音频片段切割为6段长度为2s的真实音频数据。

[0061] 进而，即可以叠加所述真实音频数据和所述噪声音频数据生成包含噪声的真实音频数据，并确定所述真实音频数据和所述噪声音频数据中的叠加时间点。续前例而言，可以
在噪声音频数据中随机的叠加真实音频数据，并且在叠加完之后确定叠加的时间，或者，也
可以预先确定好在噪声音频数据中的叠加时间点（例如第3‑5s），并在叠加时间点上叠加真
实音频数据，总之，在生成的包含噪声的真实音频数据中，对于真实音频数据和所述噪声音
频数据中的叠加时间点可以被确定，从而可以对包含噪声的真实音频数据进行进一步的标
注，生成真实强标签，例如，对于在叠加时间点为第3‑5s的包含噪声的真实音频数据中，若
其长度为10s，并分为了10帧，则其在真实强标签中，第3帧至第5帧所对应的子标签中，在维
度对应“对话”的值为1。

[0062] 进一步地，在同一噪声音频数据中，可以同时叠加不同事件类型的真实音频数据，在叠加时，不同事件类型的叠加时间点可以重叠也可以不重叠。例如，可以在第3‑5s叠加
“对话”的真实音频数据，在第4‑7s叠加“音乐”的真实音频数据；或者，在第3‑5s叠加“对话”
的真实音频数据，在第6‑7s叠加“音乐”的真实音频数据，从而形成更多样的强标签音频数
据集合，以实现更好的模型训练效果。

[0063] 在一种实施例中，当目标模型已经训练完毕后，对于待识别的音频数据，除了需要识别其所包含的事件类型，则可能还需要将该事件类型所对应的音频片段切割出来。基于
此，目标模型对于获取待识别的音频数据，首先生成音频数据的每一帧中各事件类型的概
率分布（即生成预测强标签）。生成的预测强标签是一个概率分布，例如，假设一个音频数据
可以被划分为50帧，对应的事件类型的种类为3，则生成预测强标签对应于每一帧的取值可
能依次为如下形式（0.1,0.3,0.8）,（0.11,0.32,0.83）,（0.21,0.23,0.68）,（0.1,0.33,
0.78）和（0.11,0.35,0.88），……，（0.7,0.55,0.1）。

[0064] 进而，即可以采用采用中值滤波对所述概率分布进行处理，生成处理后的概率分布。中值滤波是一种非线性的平滑方式，具体而言，对于某一帧而言，可以采用该帧的一定
领域（例如，3帧或者5帧）中的其它帧的中位数来进行替代，而生成处理后的概率分布。

[0065] 例如，对于第3帧的子标签，若选取领域为2，则经过中值滤波之后的子标签将成为与其左右相邻的5个子标签（包括自身）在各维度上的中位数（0.11，0.32，0.8）。通过该方式
可以使得处理后的依次相邻的各帧中的概率分布更为平滑。

[0066] 进而，对于处理后的概率分布，可以判定在处理后的概率分布中各事件类型在预测强标签中是否满足一定的预设条件，所述预设条件包括：在预设窗口长度的连续多帧中
的该事件类型的概率值均不低于预设概率阈值。例如，对于事件类型为“对话”时，其预设条
件可以是在窗口长度为3s的连续5帧的子标签中，事件类型“对话”所对应的维度的取值不
低于0.7。

[0067] 对于某一事件类型，若其对应的概率分布前述预设条件，则从所述待识别的音频数据中划分得到长度不低于所述预设窗口长度的该事件类型的音频片段。

[0068] 例如，若从某一帧开始的5帧内任一后续帧均满足该预设条件，则将其作为起始帧；若从某一帧开始的5帧内有任一后续帧不满足该预设条件，则将该帧作为事件类型为对
话的截止帧，从而可以获取从起始帧到截止帧的多个连续帧，显然，在获取得到的多个连续
帧中每一帧的子标签中，在维度为事件类型“对话”上的值都满足前述的预设条件，即前后5
帧的取值都不低于0.7。

[0069] 进而，即可以确定获取得到的多个连续帧的时间长度，如果时间长度不超过3s，则认为该连续帧是无效的。

[0070] 由于不同的频事件持续时间通常不同，有的音频事件持续时间相对较长，例如语音对话，有的则相对较短，例如冲击碰撞的声音。因此对于不同的事件类型，其对应的预设
条件中所包含的预设窗口长度通常不同，从而基于预设预设窗口长度可以所述待识别的音
频数据中划分得到有效的音频片段，避免无效的识别。

[0071] 在一种实施例中，可以对每一事件类型单独计算损失值，进而求和得到最终的损失值。具体而言，即可以确定所述训练样本的预测强标签和真实强标签中所包含的事件类
型，分别计算每一类事件类型所对应的第一损失值，并根据每一类事件类型所对应的第一
损失值的和确定强标签损失值；以及，确定所述训练样本的预测弱标签和真实弱标签中所
包含的事件类型，分别计算每一类事件类型所对应的第二损失值，并根据每一类事件类型
所对应的第二损失值的和确定弱标签损失值。

[0072] 例如，对于弱标签音频数据的弱标签损失值，可以采用如下方式来计算：

[0073]

[0074] 其中，Bweak是一组训练样本中的弱标签音频数据的数量，C为标签中的事件类型的数量，lweak即为真实弱标签，yweak即为预测弱标签，BCE为交叉熵损失计算函数。而对于强标
签损失值，则可以采用如下方式来计算：

[0075] 。

[0076] 其中，Bstrong是一组训练样本中的强标签音频数据的数量，ln即为真实强标签，yn即为预测得到的子标签，N即为预测得到的子标签的数量，N个预测得到的子标签序列即构成
了预测强标签。

[0077] 通过该方式，当存在C种不同的事件类型时，首先分别单独在预测标签和真实标签中计算各类事件类型所对应的损失值，即通过分别计算每一事件类型所对应的第一损失值
并求和，以及，通过分别计算每一事件类型所对应的第二损
失值并求和，从而实现在对每一类音频事件单独计算二元交叉熵损失，避免了在同一音频
数据中包含有出现重叠而导致计算损失值互相干扰的情形。

[0078] 在本公开实施例的第二方面，还提供了一种音频事件识别模型的训练装置，如图4所示，图4为本公开实施例所提供的一种音频事件识别模型的训练装置的结构示意图，包
括：

[0079] 获取装置401，获取训练样本的集合，其中，所述训练样本的集合由包含真实弱标签的弱标签音频数据集合和包含真实强标签的强标签音频数据集合组成，所述弱标签用于
表征弱标签音频数据中所包含的事件类型，所述强标签用于表征在强标签音频数据中的每
一帧所包含的事件类型；

[0080] 强标签确定模块403，采用待训练模型确定所述训练样本的预测强标签；

[0081] 弱标签确定模块405，根据训练样本的预测强标签确定所述训练样本的预测弱标签；

[0082] 损失值确定模块407，根据所述训练样本的预测强标签和真实强标签确定强标签损失值，以及，根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值；

[0083] 训练模块409，根据所述强标签损失值和所述弱标签损失值的和确定训练损失值，根据所述训练损失值对所述待训练模型进行训练，生成目标模型。

[0084] 在本公开实施例的第三方面，本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述
至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于
使所述电子设备执行根据本公开实施例的方法。

[0085] 本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开
实施例的方法。

[0086] 本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

[0087] 参考图5，现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数
字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀
片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装
置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所
示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述
的和/或者要求的本公开的实现。

[0088] 如图5所示，电子设备800包括计算单元801，其可以根据存储在只读存储器（ROM）802中的计算机程序或者从存储单元808加载到随机访问存储器（RAM）803中的计算机程序，
来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数
据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出（I/O）接口805也
连接至总线804。

[0089] 电子设备800中的多个部件连接至I/O接口805，包括：输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型
的设备，输入单元806可以接收输入的数字或字符信息，以及产生与电子设备的用户设置
和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备，并
且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元
804可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机
网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、
网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设
备、蜂窝通信设备和/或类似物。

[0090] 计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工
智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及
任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。
例如，在一些实施例中，如第一方面的训练方法可被实现为计算机软件程序，其被有形地包
含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以
经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中，计
算单元801可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行如第一方面
的训练方法。

[0091] 用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处
理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

[0092] 在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM
或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD‑ROM）、光学储存设备、磁储存设备、或
上述内容的任何合适组合。

[0093] 如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光
盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。

[0094] 为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视
器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的
反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用
任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

[0095] 可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算
系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网
（LAN）、广域网（WAN）和互联网。

[0096] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计
算机程序来产生客户端和服务器的关系。

一种音频事件识别模型的训练方法、装置及其设备转让专利

申请号 : CN202110847978.1

文献号 : CN113299314B

文献日 : 2021-11-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 龚亚光

申请人 : 北京世纪好未来教育科技有限公司

摘要 :

权利要求 :

说明书 :