一种音频事件识别模型的训练方法、装置及其设备转让专利
申请号 : CN202110847978.1
文献号 : CN113299314B
文献日 : 2021-11-02
发明人 : 龚亚光
申请人 : 北京世纪好未来教育科技有限公司
摘要 :
权利要求 :
1.一种音频事件识别模型的训练方法,包括:获取训练样本的集合,其中,所述训练样本的集合由包含真实弱标签的弱标签音频数据集合和包含真实强标签的强标签音频数据集合组成,所述真实弱标签用于表征弱标签音频数据中所包含的事件类型,所述真实强标签用于表征在强标签音频数据中的每一帧所包含的事件类型,所述弱标签音频数据包含所述真实弱标签,所述强标签音频数据包含所述真实强标签,所述弱标签音频数据集合包含至少一个所述弱标签音频数据,所述强标签音频数据集合包含至少一个所述强标签音频数据;
采用待训练模型确定所述训练样本的预测强标签;
根据训练样本的预测强标签确定所述训练样本的预测弱标签;
根据所述训练样本的预测强标签和真实强标签确定强标签损失值,以及,根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值;
根据所述强标签损失值和所述弱标签损失值的和确定训练损失值,根据所述训练损失值对所述待训练模型进行训练,生成目标模型。
2.如权利要求1所述的方法,其中,还包括:获取无标签的音频数据;
采用所述目标模型预测生成所述无标签的音频数据的预测弱标签;
根据所述预测弱标签确定所述无标签的音频数据的伪标签,生成包含伪标签的伪标签音频数据集合;
将所述伪标签音频数据集合合并至所述弱标签音频数据集合中,生成新的弱标签音频数据集合。
3.如权利要求2所述的方法,其中,根据所述预测弱标签确定所述无标签的音频数据的伪标签,包括:
获取所述预测弱标签所对应的事件类型,其中,所述预测弱标签中通过概率值表征对应的事件类型的可能性;
若对应的事件类型的概率超过预设概率阈值,在所述预测弱标签中将所述对应的事件类型的概率值修订为表征事件类型存在的值;
将修订后的预测弱标签确定为所述无标签的音频数据的伪标签。
4.如权利要求1所述的方法,其中,根据所述强标签损失值和所述弱标签损失值的和确定训练损失值,包括:
根据所述弱标签音频数据集合或者所述强标签音频数据集合的数量分别确定强标签损失值的第一权重和所述弱标签损失值的第二权重;
根据所述第一权重和所述第二权重对所述强标签损失值和所述弱标签损失值进行加权求和确定训练损失值。
5.如权利要求1所述的方法,其中,根据训练样本的预测强标签确定所述训练样本的预测弱标签,包括:
获取所述训练样本的特征编码;
对所述特征编码通过线性网络进行线性化,生成对应于预测强标签的标签权重序列;
将标签权重序列和对应的每一帧预测强标签进行点乘相加,生成所述练样本的预测弱标签;
相应的,根据所述训练损失值对所述待训练模型进行训练,包括:根据所述训练损失值对所述线性网络中的参数进行训练。
6.如权利要求1所述的方法,其中,所述弱标签音频数据集合通过如下方式预先生成:获取与弱标签音频数据的长度相同的噪声音频数据;
将所述噪声音频数据叠加至所述弱标签音频数据,生成包含噪声的弱标签音频数据集合。
7.如权利要求6所述的方法,其中,所述强标签音频数据集合通过如下方式预先生成:获取与弱标签音频数据的长度相同的噪声音频数据,以及,获取已经确定事件类型的真实音频数据,其中,所述真实音频数据的长度不超过所述噪声音频数据的长度;
叠加所述真实音频数据和所述噪声音频数据生成包含噪声的真实音频数据,并确定所述真实音频数据和所述噪声音频数据中的叠加时间点;
根据所述叠加时间点和所述事件类型确定包含噪声的真实音频数据的真实强标签,生成强标签音频数据集合。
8.如权利要求1所述的方法,其中,还包括:获取待识别的音频数据,采用所述目标模型生成对应于所述待识别的音频数据的每一帧中各事件类型的概率分布;
采用中值滤波对所述概率分布进行处理,生成处理后的概率分布;
针对任一事件类型,确定在处理后的概率分布中该事件类型在各帧中所对应的概率值是否满足预设条件,其中,所述预设条件包括:在预设窗口长度的连续多帧中的该事件类型的概率值均不低于预设概率阈值;
若满足,从所述待识别的音频数据中划分得到长度不低于所述预设窗口长度的该事件类型的音频片段。
9.如权利要求1所述的方法,其中,根据所述训练样本的预测强标签和真实强标签确定强标签损失值,以及,根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值,包括:
确定所述训练样本的预测强标签和真实强标签中所包含的事件类型,分别计算每一类事件类型所对应的第一损失值,并根据每一类事件类型所对应的第一损失值的和确定强标签损失值;
以及,确定所述训练样本的预测弱标签和真实弱标签中所包含的事件类型,分别计算每一类事件类型所对应的第二损失值,并根据每一类事件类型所对应的第二损失值的和确定弱标签损失值。
10.一种音频事件识别模型的训练装置,包括:获取装置,获取训练样本的集合,其中,所述训练样本的集合由真实弱标签的弱标签音频数据集合和包含真实强标签的强标签音频数据集合组成,所述真实弱标签用于表征弱标签音频数据中所包含的事件类型,所述真实强标签用于表征在强标签音频数据中的每一帧所包含的事件类型,所述弱标签音频数据包含所述真实弱标签,所述强标签音频数据包含所述真实强标签,所述弱标签音频数据集合包含至少一个所述弱标签音频数据,所述强标签音频数据集合包含至少一个所述强标签音频数据;
强标签确定模块,采用待训练模型确定所述训练样本的预测强标签;
弱标签确定模块,根据训练样本的预测强标签确定所述训练样本的预测弱标签;
损失值确定模块,根据所述训练样本的预测强标签和真实强标签确定强标签损失值,以及,根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值;
训练模块,根据所述强标签损失值和所述弱标签损失值的和确定训练损失值,根据所述训练损失值对所述待训练模型进行训练,生成目标模型。
11.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1‑9中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑9中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1‑9中任一项所述的方法。
说明书 :
一种音频事件识别模型的训练方法、装置及其设备
技术领域
背景技术
件的事件类型进行标注成本是相当高的,这造成在实际中带有标签的真实数据是极少的往
往出现各种数据缺失的情形,这给模型训练带来了不便。
发明内容
真实强标签的强标签音频数据集合组成,所述弱标签用于表征弱标签音频数据中所包含的
事件类型,所述强标签用于表征在强标签音频数据中的每一帧所包含的事件类型;采用待
训练模型确定所述训练样本的预测强标签;根据训练样本的预测强标签确定所述训练样本
的预测弱标签;根据所述训练样本的预测强标签和真实强标签确定强标签损失值,以及,根
据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值;根据所述强标签损失值和
所述弱标签损失值的和确定训练损失值,根据所述训练损失值对所述待训练模型进行训
练,生成目标模型。
集合和包含真实强标签的强标签音频数据集合组成,所述弱标签用于表征弱标签音频数据
中所包含的事件类型,所述强标签用于表征在强标签音频数据中的每一帧所包含的事件类
型;强标签确定模块,采用待训练模型确定所述训练样本的预测强标签;弱标签确定模块,
根据训练样本的预测强标签确定所述训练样本的预测弱标签;损失值确定模块,根据所述
训练样本的预测强标签和真实强标签确定强标签损失值,以及,根据所述训练样本的预测
弱标签和真实弱标签确定弱标签损失值;训练模块,根据所述强标签损失值和所述弱标签
损失值的和确定训练损失值,根据所述训练损失值对所述待训练模型进行训练,生成目标
模型。
方面所述的方法。
数据集合组成,采用待训练模型确定所述训练样本的预测强标签;根据训练样本的预测强
标签确定所述训练样本的预测弱标签;根据所述训练样本的预测强标签和真实强标签确定
强标签损失值,以及,根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值;根
据所述强标签损失值和所述弱标签损失值的和确定训练损失值,根据所述训练损失值对所
述待训练模型进行训练,生成目标模型。由于采用了对强弱两部分损失函数分别进行计算,
在训练中可以应对实际数据短缺的各种情况而调整损失值的计算方式,而无需修改训练流
程,从而实现灵活的模型训练。
附图说明
具体实施方式
里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的
是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
开的范围在此方面不受限制。
“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定
义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的
装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者
相互依存关系。
施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用
于对这些消息或信息的范围进行限制。
相同。
声音和机械音。如果一个弱标签音频数据中包含有“对话”,那么在其标签中“对话”所对应
的维度的值为1,否则为0,即其标签的形式可能是“10000”。
可能是“11000”。
际应用中,对于强标签音频数据中所包含的帧数的数量,可以基于实际需要而确定。例如,
可以对强标签音频数据提取对数梅尔谱特征或者梅尔谱特征,而对应得到远超100多帧的
子音频。
间。因此,子标签序列即构成了真实强标签。真实强标签用于表征在强标签音频数据中的每
一帧所包含的事件类型,并通过该方式可以表征出在强标签音频数据中各事件类型的起始
时间和结束时间。
中,对应“对话”的维度上的值均为1,那么即可以知道,在该强标签音频数据中,包含有事件
类型“对话”,并且,其持续时间为第3s至第7s。
频的帧,每帧对应包括多个类的子标签,例如,其形式为“11000”。
分别表征了“对话”和“音乐”,1表示事件存在,0表示不存在。
和结束时间。而在强标签音频数据中通过真实强标签表明其同时包含了事件类型“对话”和
“音乐”,并且通过各帧所对应的子标签中各维度的取值的连续性,可以表征事件类型“对
话”从第1帧持续至第4帧,而事件类型“音乐”从第3帧持续至第5帧,即真实强标签由各帧所
对应的子标签序列构成。
同时包含有真实强标签和真实弱标签。
础特征进行进一步的特征融合,而得到融合后的融合特征,并采用包含多个块的conformer
结构进行编码而得到特征编码,进而,采用一层线性网络对于特征编码线性化而得到所述
训练样本的每一帧的预测子标签yn,即预测强标签。
本公开实施例所提供的整体模型架构的示意图,包括了特征提取、CNN blocks、
conformerblocks和生成最终分类结果的全连接层。图3b为本公开实施例所提供的卷积神
经网络CNN块中的内部结构的示意图,包括了用于对提取得到的基础特征进行卷积的卷积
层、参数批量规范化和加速训练的批量归一化层、包含神经网络激活函数的激活层以及防
止过拟合的舍弃层。
弱标签。例如,若在连续多帧的预测子标签中,某个维度上的取值均大于预设阈值,则可以
线确定在所述连续多帧的预测子标签中的平均值或者中位数,并将该训练样本的预测弱标
签上该维度的取值修改为该平均值或者中位数。
用分别独立的方式来计算其各自的损失值。
据和强标签音频数据的数量进行分别设定。例如,在弱标签音频数据数量较少是,则可以忽
略弱标签损失值;若强标签音频数据的数量极少,则可以忽略强标签损失值,在这个过程中
无需修改训练流程。
数据集合组成,采用待训练模型确定所述训练样本的预测强标签;根据训练样本的预测强
标签确定所述训练样本的预测弱标签;根据所述训练样本的预测强标签和真实强标签确定
强标签损失值,以及,根据所述训练样本的预测弱标签和真实弱标签确定弱标签损失值;根
据所述强标签损失值和所述弱标签损失值的和确定训练损失值,根据所述训练损失值对所
述待训练模型进行训练,生成目标模型。由于采用了对强弱两部分损失函数分别进行计算,
在训练中可以应对实际数据短缺的各种情况而调整损失值的计算方式,而无需修改训练流
程,从而实现灵活的模型训练。
得到该音频数据所包括的事件类型,即可以生成所述无标签的音频数据的预测弱标签。
签的伪标签音频数据集合U,从而,可以将集合U合并至弱标签音频数据集合W中,从而生成
新的弱标签音频数据集合,即新的弱标签音频数据集合W’为集合W和U的并集,并采用集合
W’和集合S继续对目标模型进行训练,这个过程可以反复进行,直到达到更为理想的模型预
测效果。
含的对应的事件类型的可能性,因此,对于伪标签音频数据中的数据进行打标时,若对应的
事件类型的概率超过预设概率阈值,在所述预测弱标签中将所述对应的事件类型的概率值
修订为表征事件类型存在的值,并将修订后的预测弱标签确定为所述无标签的音频数据的
伪标签。例如,对于预测弱标签,其值可能是(0.1,0.6,0.9),而各事件类型所对应的预设概
率阈值分别为0.5,0.5,0.8(各各事件类型所对应的预设概率阈值可以相同也可以不同),
则可以将伪标签修订为(0,1,1),并将修订后的伪标签修订(0,1,1)作为该无标签的音频数
据的伪标签。
失值的第二权重w2,并根据所述第一权重w1和所述第二权重w2对所述强标签损失值和所述
弱标签损失值进行加权求和确定训练损失值。即loss=w1*lossweak+w2*lossstrong。
的占比过低时,则直接将对应的权重设置为0。例如,若强标签音频数据的比例低于10%,则
将第一权重w1设置为0,通过该方式可以基于实际训练样本的数量灵活的调整训练模型损
失值的计算方式,实现更好的训练效果。
并通过该线性网络和softmax函数输出得到对应于预测强标签的一标签权重序列,标签权
重序列的维度与预测强标签中所包含的预测子标签的数量相同,且,在顺序上一一对应。进
而,即可以将标签权重序列和对应的每一帧预测强标签进行点乘相加,从而生成所述练样
本的预测弱标签。
签3。
函数得到预测强标签(即预测子标签序列)。实际上左右两路的线性网络在初始结构上是相
同的,即包含有相同的待训练参数,甚至待训练参数的初始值可能都是相同的。但是随着模
型训练的进行,左右两个线性网络中待训练参数的值将会不断变更以使得模型的预测标签
更加贴近真实标签,从而在左右两个线性网络中待训练参数的值将会不再相同。
权重,从而使得训练得到的目标模型可以关注每一帧的相对关系,并得到每一帧的子标签
的权重,从而实现更佳的预测效果。
数据的长度相同的噪声音频数据,并将所述噪声音频数据叠加至所述弱标签音频数据(即
时间对应叠加,可以采用诸如SpecAugment, Mixup等方式进行叠加),生成包含噪声的弱标
签音频数据集合。
音频数据,并获取已经确定事件类型的真实音频数据,其中,所述真实音频数据的长度不超
过所述噪声音频数据的长度。
据如果长度则不超过10s。若目标音频片段的长度超过了10s,则可以对目标音频片段进行
切割,例如,将一个12s的目标音频片段切割为6段长度为2s的真实音频数据。
在噪声音频数据中随机的叠加真实音频数据,并且在叠加完之后确定叠加的时间,或者,也
可以预先确定好在噪声音频数据中的叠加时间点(例如第3‑5s),并在叠加时间点上叠加真
实音频数据,总之,在生成的包含噪声的真实音频数据中,对于真实音频数据和所述噪声音
频数据中的叠加时间点可以被确定,从而可以对包含噪声的真实音频数据进行进一步的标
注,生成真实强标签,例如,对于在叠加时间点为第3‑5s的包含噪声的真实音频数据中,若
其长度为10s,并分为了10帧,则其在真实强标签中,第3帧至第5帧所对应的子标签中,在维
度对应“对话”的值为1。
“对话”的真实音频数据,在第4‑7s叠加“音乐”的真实音频数据;或者,在第3‑5s叠加“对话”
的真实音频数据,在第6‑7s叠加“音乐”的真实音频数据,从而形成更多样的强标签音频数
据集合,以实现更好的模型训练效果。
此,目标模型对于获取待识别的音频数据,首先生成音频数据的每一帧中各事件类型的概
率分布(即生成预测强标签)。生成的预测强标签是一个概率分布,例如,假设一个音频数据
可以被划分为50帧,对应的事件类型的种类为3,则生成预测强标签对应于每一帧的取值可
能依次为如下形式(0.1,0.3,0.8),(0.11,0.32,0.83),(0.21,0.23,0.68),(0.1,0.33,
0.78)和(0.11,0.35,0.88),……,(0.7,0.55,0.1)。
领域(例如,3帧或者5帧)中的其它帧的中位数来进行替代,而生成处理后的概率分布。
可以使得处理后的依次相邻的各帧中的概率分布更为平滑。
的该事件类型的概率值均不低于预设概率阈值。例如,对于事件类型为“对话”时,其预设条
件可以是在窗口长度为3s的连续5帧的子标签中,事件类型“对话”所对应的维度的取值不
低于0.7。
话的截止帧,从而可以获取从起始帧到截止帧的多个连续帧,显然,在获取得到的多个连续
帧中每一帧的子标签中,在维度为事件类型“对话”上的值都满足前述的预设条件,即前后5
帧的取值都不低于0.7。
条件中所包含的预设窗口长度通常不同,从而基于预设预设窗口长度可以所述待识别的音
频数据中划分得到有效的音频片段,避免无效的识别。
型,分别计算每一类事件类型所对应的第一损失值,并根据每一类事件类型所对应的第一
损失值的和确定强标签损失值;以及,确定所述训练样本的预测弱标签和真实弱标签中所
包含的事件类型,分别计算每一类事件类型所对应的第二损失值,并根据每一类事件类型
所对应的第二损失值的和确定弱标签损失值。
签损失值,则可以采用如下方式来计算:
了预测强标签。
并求和,以及,通过 分别计算每一事件类型所对应的第二损
失值并求和,从而实现在对每一类音频事件单独计算二元交叉熵损失,避免了在同一音频
数据中包含有出现重叠而导致计算损失值互相干扰的情形。
括:
表征弱标签音频数据中所包含的事件类型,所述强标签用于表征在强标签音频数据中的每
一帧所包含的事件类型;
至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于
使所述电子设备执行根据本公开实施例的方法。
实施例的方法。
字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀
片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装
置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所
示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述
的和/或者要求的本公开的实现。
来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数
据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也
连接至总线804。
的设备,输入单元806可以接收输入的数字或字符信息,以及产生与电子设备的用户设置
和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备,并
且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元
804可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机
网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、
网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设
备、蜂窝通信设备和/或类似物。
智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及
任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。
例如,在一些实施例中,如第一方面的训练方法可被实现为计算机软件程序,其被有形地包
含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以
经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中,计
算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行如第一方面
的训练方法。
理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM
或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。
器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用
任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网
(LAN)、广域网(WAN)和互联网。
算机程序来产生客户端和服务器的关系。