一种语音自动标注数据中的噪音筛选方法及系统转让专利

申请号 : CN202210978859.4

文献号 : CN115440238B

文献日 : 2023-04-07

相似专利: 请登录后查看

本发明公开了一种语音自动标注数据中的噪音筛选方法及系统，本方法通过噪音过滤模型依据自身策略筛选和过滤初始标注音频数据集中的噪声数据，并利用语音验证模型的训练结果验证噪音过滤模型筛选噪声数据的有效性，进而引导噪音过滤模型不断自我学习，从而使得经过多次更新后的噪音过滤模型能够准确的过滤掉噪声数据，筛选得到高质量标注音频数据，利用这些高质量标注音频数据能提高语音识别模型的准确率。

1.一种语音自动标注数据中的噪音筛选方法，其特征在于，所述噪音筛选方法包括：从初始视频数据中提取初始标注音频数据集；所述初始标注音频数据集中包括多个标注音频数据，所述标注音频数据是已标注的音频数据；

根据预设的初始噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，得到第一标注音频数据集；根据所述第一标注音频数据集训练预设的语音验证模型，得到训练完成的第一语音验证模型；根据预设的音频验证数据集验证所述第一语音验证模型，得到第一验证结果，其中，所述音频验证数据集中包括多个高质量的标注音频数据；根据所述第一验证结果引导更新所述初始噪音过滤模型，得到第一噪音过滤模型；

根据所述第一噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，得到第二标注音频数据集；根据所述第二标注音频数据集训练所述语音验证模型，得到训练完成的第二语音验证模型；根据所述音频验证数据集验证所述第二语音验证模型，得到第二验证结果；根据所述第二验证结果引导更新所述第一噪音过滤模型，得到第二噪音过滤模型；

以此类推，直至根据第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，得到满足预设标准的第i+1标注音频数据集；其中，根据第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，包括：从所述初始标注音频数据集中提取每一个标注音频数据对应的特征向量：其中，xi表示所述初始标注音频数据集中的第i个标注音频数据，表示第i个标注音频数据中的第k个音频片段的特征向量；

通过如下公式提取xi的第一关键特征：

x″′i＝Wlx″i+b

其中，f()表示一维卷积函数，W表示卷积算子，表示卷积操作，Wl表示对特征向量进行线性变换的权重，Dropout(x″′i)表示对x″′i进行Dropout特征变换，表示xi的第一关键特征，且通过如下公式提取的第二关键特征：

其中，表示对中的进行前馈网络FFN处理，j∈k，表示通过多头注意力机制MHSA建立和的交互关系，表示

对进行Layernorm处理，表示的第二关键特征，且通过softmax函数引导执行噪音数据的删除和保留动作，并通过概率转换选择删除和保留动作：其中， Ws表示线性变换矩阵，y表示所述第i噪音过滤模型过滤噪声数据后输出的第i+1标注音频数据集；

根据第i标注音频数据集训练所述语音验证模型，包括：利用softmax函数将转换为概*率分布：通过CTC函数计算得到概率最大的标签：l＝argmax(p(l|x))；

通过如下公式计算得到第i验证结果：

Ri＝α(WERi‑WERi‑1)+γ(SERi‑SERi‑1)其中，WERi表示第i语音验证模型的字错误率，WERi‑1表示第i‑1语音验证模型的字错误率，SERi表示第i语音验证模型的句错误率，SERi‑1表示第i‑1语音验证模型的句错误率，α，γ表示权重系数；

通过如下公式更新所述第i噪音过滤模型：

Oi‑1＝Ni‑1‑(Ni∩Ni‑1)

Oi＝Ni‑(Ni∩Ni‑1)

其中，Ni‑1表示第i‑1噪音过滤模型过滤所述初始标注音频数据集中的噪声数据的集合，Ni表示第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据的集合，P(xi|θ)表示第i噪音过滤模型，θ表示待更新的权重集合。

2.根据权利要求1所述的语音自动标注数据中的噪音筛选方法，其特征在于，所述从初始视频数据中提取初始标注音频数据集，包括：从初始视频数据中提取多张原始图像；

确定每张原始图像中的字幕区域，并根据所述字幕区域确定字幕坐标；

根据字幕坐标裁剪对应所述原始图像，得到每张原始图像对应的字幕区域图像；

识别每张所述字幕区域图像中的字幕文字，并根据所述字幕文字的上下文对比，计算每一段字幕文字的起始时间和结束时间；

根据所述每一段字幕文字的起始时间和结束时间，从所述初始视频数据中切分出所述每一段字幕文字对应的音频数据；

将切分出的所述音频数据及其对应段的字幕文字作为一个标注音频数据，并将所有所述标注音频数据组合成初始标注音频数据集。

3.根据权利要求1所述的语音自动标注数据中的噪音筛选方法，其特征在于，所述从所述初始标注音频数据集中提取每一个标注音频数据对应的特征向量，包括：对所述初始标注音频数据集中的每一个标注音频数据依次进行预加重、分帧、加窗、FFT、取绝对值、Mel滤波、取对数和动态特征处理，得到每一个标注音频数据对应的特征向量。

4.一种语音自动标注数据中的噪音筛选系统，其特征在于，所述噪音筛选系统包括：数据获取单元，用于从初始视频数据中提取初始标注音频数据集；所述初始标注音频数据集中包括多个标注音频数据，所述标注音频数据是已标注的音频数据；

数据处理单元，用于根据预设的初始噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，得到第一标注音频数据集；根据所述第一标注音频数据集训练预设的语音验证模型，得到训练完成的第一语音验证模型；根据预设的音频验证数据集验证所述第一语音验证模型，得到第一验证结果，其中，所述音频验证数据集中包括多个高质量的标注音频数据；根据所述第一验证结果引导更新所述初始噪音过滤模型，得到第一噪音过滤模型；以及，根据所述第一噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，得到第二标注音频数据集；根据所述第二标注音频数据集训练所述语音验证模型，得到训练完成的第二语音验证模型；根据所述音频验证数据集验证所述第二语音验证模型，得到第二验证结果；根据所述第二验证结果引导更新所述第一噪音过滤模型，得到第二噪音过滤模型；以及，以此类推，直至根据第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，得到满足预设标准的第i+1标注音频数据集；其中，根据第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，包括：从所述初始标注音频数据集中提取每一个标注音频数据对应的特征向量：其中，xi表示所述初始标注音频数据集中的第i个标注音频数据，表示第i个标注音频数据中的第k个音频片段的特征向量；

通过如下公式提取xi的第一关键特征：

x″′i″＝Wlx″i+b

其中，表示对中的进行前馈网络FFN处理，j∈k，表示通过多头注意力机制MHSA建立和的交互关系，表示

根据第i标注音频数据集训练所述语音验证模型，包括：利用softmax函数将转换为概*率分布：通过CTC函数计算得到概率最大的标签：l＝argmax(p(l|x))；

通过如下公式计算得到第i验证结果：

通过如下公式更新所述第i噪音过滤模型：

Oi‑1＝Ni‑1‑(Ni∩Ni‑1)

Oi＝Ni‑(Ni∩Ni‑1)

其中，Ni‑1表示第o‑1噪音过滤模型过滤所述初始标注音频数据集中的噪声数据的集合，Ni表示第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据的集合，P(xi|θ)表示第i噪音过滤模型，θ表示待更新的权重集合。

5.一种电子设备，其特征在于：包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至3任一项所述的语音自动标注数据中的噪音筛选方法。

6.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至3任一项所述的语音自动标注数据中的噪音筛选方法。

一种语音自动标注数据中的噪音筛选方法及系统

技术领域

[0001] 本发明涉及语音识别相关技术领域，尤其是涉及一种语音自动标注数据中的噪音筛选方法及系统。

背景技术

[0002] 目前，基于深度学习端到端的语音识别模型在语音识别领域取得了重大突破，端到端的语音识别模型的精确度已经远远超过传统的语音识别模型。

[0003] 基于深度学习的语音识别模型大都是建立在大量训练数据的基础上的，标注的训练数据需要人工对语音逐字标注，语音标注需要耗费大量的人力资源，因此也有不少方法通过一些规则低成本、自动化的获取标注音频，但是也会产生大量错误的标注数据，这些错误的标注数据也需要人工介入，需要耗费大量的人力成本和时间成本去校对。

发明内容

[0004] 本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。本发明提供了一种语音自动标注数据中的噪音筛选方法及系统，能够引导噪音过滤模型不断自我学习，提高噪音过滤模型筛选得到高质量标注音频数据的能力。

[0005] 本发明的第一方面，提供了一种语音自动标注数据中的噪音筛选方法，所述噪音筛选方法包括：

[0006] 从初始视频数据中提取初始标注音频数据集；所述初始标注音频数据集中包括多个标注音频数据，所述标注音频数据是已标注的音频数据；

[0007] 根据预设的初始噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，得到第一标注音频数据集；根据所述第一标注音频数据集训练预设的语音验证模型，得到训练完成的第一语音验证模型；根据预设的音频验证数据集验证所述第一语音验证模型，得到第一验证结果，其中，所述音频验证数据集中包括多个高质量的标注音频数据；根据所述第一验证结果引导更新所述初始噪音过滤模型，得到第一噪音过滤模型；

[0008] 根据所述第一噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，得到第二标注音频数据集；根据所述第二标注音频数据集训练所述语音验证模型，得到训练完成的第二语音验证模型；根据所述音频验证数据集验证所述第二语音验证模型，得到第二验证结果；根据所述第二验证结果引导更新所述第一噪音过滤模型，得到第二噪音过滤模型；

[0009] 以此类推，直至根据第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，得到满足预设标准的第i+1标注音频数据集。

[0010] 本发明的第一方面提供的语音自动标注数据中的噪音筛选方法，至少具有如下有益效果：

[0011] 本方法通过噪音过滤模型依据自身策略判定并过滤初始标注音频数据集中的噪声数据，并利用语音验证模型的训练结果验证噪音过滤模型过滤噪声数据的有效性，进而引导噪音过滤模型不断自我学习，从而使得经过多次更新后的噪音过滤模型能够准确的过滤掉噪声数据，筛选得到高质量标注音频数据，利用这些高质量标注音频数据能提高语音识别模型的准确率。

[0012] 根据本发明的一些实施例，所述从初始视频数据中提取初始标注音频数据集，包括：

[0013] 从初始视频数据中提取多张原始图像；

[0014] 确定每张原始图像中的字幕区域，并根据所述字幕区域确定字幕坐标；

[0015] 根据字幕坐标裁剪对应所述原始图像，得到每张原始图像对应的字幕区域图像；

[0016] 识别每张所述字幕区域图像中的字幕文字，并根据所述字幕文字的上下文对比，计算每一段字幕文字的起始时间和结束时间；

[0017] 根据所述每一段字幕文字的起始时间和结束时间，从所述初始视频数据中切分出所述每一段字幕文字对应的音频数据；

[0018] 将切分出的所述音频数据及其对应段的字幕文字作为一个标注音频数据，并将所有所述标注音频数据组合成初始标注音频数据集。

[0019] 根据本发明的一些实施例，所述根据第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，包括：

[0020] 从所述初始标注音频数据集中提取每一个标注音频数据对应的特征向量：

[0021]

[0022] 其中，xi表示所述初始标注音频数据集中的第i个标注音频数据，表示第i个标注音频数据中的第k个音频片段的特征向量；

[0023] 通过如下公式提取xi的第一关键特征：

[0024] x″i＝f(W°xi)

[0025] x″′i＝Wlx″i+b

[0026]

[0027] 其中，f()表示一维卷积函数，W表示卷积算子，°表示卷积操作，Wl表示对特征向量进行线性变换的权重，Dropout(x″′i)表示对x″′i进行Dropout特征变换，表示xi的第一关键特征，且

[0028] 通过如下公式提取的第二关键特征：

[0029]

[0030]

[0031]

[0032]

[0033] 其中，表示对中的进行前馈网络FFN处理，j∈k，表示通过多头注意力机制MHSA建立和的交互关系，
表示对进行Layernorm处理，表
示的第二关键特征，且

[0034] 通过softmax函数引导执行噪音数据的删除和保留动作，并通过概率转换选择删除和保留动作：

[0035]

[0036]

[0037] 其中， Ws表示线性变换矩阵，y表示所述第i噪音过滤模型过滤噪声数据后输出的第i+1标注音频数据集。

[0038] 根据本发明的一些实施例，所述从所述初始标注音频数据集中提取每一个标注音频数据对应的特征向量，包括：

[0039] 对所述初始标注音频数据集中的每一个标注音频数据依次进行预加重、分帧、加窗、FFT、取绝对值、Mel滤波、取对数和动态特征处理，得到每一个标注音频数据对应的特征向量。

[0040] 根据本发明的一些实施例，根据第i标注音频数据集训练所述语音验证模型，包括：

[0041] 利用softmax函数将转换为概率分布：

[0042] 通过CTC函数计算得到概率最大的标签：l*＝argmax(p(l|x))。

[0043] 根据本发明的一些实施例，通过如下公式计算得到第i验证结果：

[0044] Ri＝α(WERi‑WERi‑1)+γ(SERi‑SERi‑1)

[0045] 其中，WERi表示第i语音验证模型的字错误率，WERi‑1表示第i‑1语音验证模型的字错误率，SERi表示第i语音验证模型的句错误率，SERi‑1表示第i‑1语音验证模型的句错误率，α，γ表示权重系数。

[0046] 根据本发明的一些实施例，通过如下公式更新所述第i噪音过滤模型：

[0047] Oi‑1＝Ni‑1‑(Ni∩Ni‑1)

[0048] Oi＝Ni‑(Ni∩Ni‑1)

[0049]

[0050] 其中，Ni‑1表示第i‑1噪音过滤模型过滤所述初始标注音频数据集中的噪声数据的集合，Ni表示第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据的集合，P(xi|θ)表示第i噪音过滤模型，θ表示待更新的权重集合。

[0051] 本发明第二方面提供了一种语音自动标注数据中的噪音筛选系统，所述噪音筛选系统包括：

[0052] 数据获取单元，用于从初始视频数据中提取初始标注音频数据集；所述初始标注音频数据集中包括多个标注音频数据，所述标注音频数据是已标注的音频数据；

[0053] 数据处理单元，用于根据预设的初始噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，得到第一标注音频数据集；根据所述第一标注音频数据集训练预设的语音验证模型，得到训练完成的第一语音验证模型；根据预设的音频验证数据集验证所述第一语音验证模型，得到第一验证结果，其中，所述音频验证数据集中包括多个高质量的标注音频数据；根据所述第一验证结果引导更新所述初始噪音过滤模型，得到第一噪音过滤模型；以及，根据所述第一噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，得到第二标注音频数据集；根据所述第二标注音频数据集训练所述语音验证模型，得到训练完成的第二语音验证模型；根据所述音频验证数据集验证所述第二语音验证模型，得到第二验证结果；根据所述第二验证结果引导更新所述第一噪音过滤模型，得到第二噪音过滤模型；以及，以此类推，直至根据第i噪音过滤模型过滤所述初始标注音频数据集中的噪声数据，得到满足预设标准的第i+1标注音频数据集。

[0054] 本发明第三方面提供了一种电子设备，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如上述的语音自动标注数据中的噪音筛选方法。

[0055] 本发明第四方面提供了一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述的语音自动标注数据中的噪音筛选方法。

[0056] 可以理解的是，上述第二方面至第四方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同，可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

[0057] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

[0058] 图1是本发明一实施例提供的一种语音自动标注数据中的噪音筛选方法的流程示意图；

[0059] 图2是本发明另外一实施例提供的一种语音自动标注数据中的噪音筛选方法的流程示意图；

[0060] 图3是本发明一实施例提供的噪音过滤模型过滤噪音的示意图；

[0061] 图4是本发明一实施例提供的语音验证模型训练阶段的示意图；

[0062] 图5是本发明一实施例提供的语音验证模型验证阶段的示意图；

[0063] 图6是本发明一实施例提供的一种语音自动标注数据中的噪音筛选系统的结构示意图；

[0064] 图7是本发明一实施例提供的一种电子设备的结构示意图。

具体实施方式

[0065] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

[0066] 需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

[0067] 除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

[0068] 目前，基于深度学习端到端的语音识别模型在语音识别领域取得了重大突破，端到端的语音识别模型的精确度已经远远超过传统的语音识别模型。

[0069] 基于深度学习的语音识别模型大都是建立在大量训练数据的基础上的，标注的训练数据需要人工对语音逐字标注，语音标注需要耗费大量的人力资源，因此也有不少方法通过一些规则低成本、自动化的获取标注音频数据，但是也会产生大量错误的标注音频数据，这些错误的标注音频数据也需要人工介入，需要耗费大量的人力成本和时间成本去校对。

[0070] 为了解决上述技术缺陷，参照图1，本发明的一个实施例，提供一种语音自动标注数据中的噪音筛选方法，本噪音筛选方法包括如下步骤S101和S102：

[0071] 步骤S101、从初始视频数据中提取初始标注音频数据集。

[0072] 在本实施例中，初始标注音频数据集中包括多个标注音频数据，标注音频数据是已标注的音频数据，音频数据是指一段音频片段，这里的标注是指音频片段对应的字幕文字。本实施例不限制初始视频数据的来源。

[0073] 步骤S102、根据预设的初始噪音过滤模型过滤初始标注音频数据集中的噪声数据，得到第一标注音频数据集；根据第一标注音频数据集训练预设的语音验证模型，得到训练完成的第一语音验证模型；根据预设的音频验证数据集验证第一语音验证模型，得到第一验证结果，其中，音频验证数据集中包括多个高质量的标注音频数据；根据第一验证结果引导更新初始噪音过滤模型，得到第一噪音过滤模型。

[0074] 根据第一噪音过滤模型过滤初始标注音频数据集中的噪声数据，得到第二标注音频数据集；根据第二标注音频数据集训练语音验证模型，得到训练完成的第二语音验证模型；根据音频验证数据集验证第二语音验证模型，得到第二验证结果；根据第二验证结果引导更新第一噪音过滤模型，得到第二噪音过滤模型。

[0075] 以此类推，直至根据第i噪音过滤模型过滤初始标注音频数据集中的噪声数据，得到满足预设标准的第i+1标注音频数据集。其中，i是大于2的整数。

[0076] 在本实施例中，初始噪音过滤模型至第i噪音过滤模型用于负责执行数据筛选操作，即依据自带筛选逻辑，判定和删除多个初始标注音频数据中的错误标注的音频数据(即噪声数据)；初始噪音过滤模型至第i噪音过滤模型之间为依次迭代更新，实现噪音过滤模型的不断更新迭代，例如：第i噪音过滤模型筛选噪声数据的效果高于第i‑1噪音过滤模型。语音验证模型用于负责对每一次迭代中的噪音过滤模型过滤有效性进行验证，即先利用当前迭代的噪音过滤模型过滤得到的标注音频数据集训练语音验证模型，然后在选取部分高质量的标注音频数据对训练完成的语音验证模型进行验证，得到验证结果，该验证结果能够作为判断当前迭代的噪音过滤模型筛选的有效性的量化标准，而且还可以利用该验证结果引导噪音过滤模型进行更新，使得更新后的噪音过滤模型能够具备更加的优秀的噪声筛选能力。

[0077] 本方法首先从初始视频数据中提取初始标注音频数据集，将初始标注音频数据集作为噪音过滤模型的数据来源。其次利用噪音过滤模型过滤初始标注音频数据集中的噪声数据，得到标注音频数据集，噪音过滤模型能够根据自带规则自动判定并删除噪声数据；然后利用过滤了噪声数据的标注音频数据集训练预设的语音验证模型，得到训练完成的语音验证模型，并利用高质量的音频验证数据验证训练完成的语音验证模型，得到验证结果，语音验证模型能够体现过滤掉噪声数据的标注音频数据集的训练性能，利用高质量的音频验证数据验证的验证结果能够验证噪音过滤模型过滤噪声数据的有效性；最后根据验证结果引导噪音过滤模型进行迭代更新，使得迭代更新后的噪音过滤模型在执行下一轮迭代时，做出更为合理的过滤噪声数据的行为。

[0078] 为了提高语音识别模型的准确率，关键是提供高质量的标注音频数据，本方法通过噪音过滤模型判定并过滤初始标注音频数据集中的噪声数据，并且还利用语音验证模型的训练结果验证噪音过滤模型的有效性，进而引导噪音过滤模型不断自我学习，从而使得经过多次更新后的噪音过滤模型能够准确的过滤掉噪声数据，筛选得到高质量标注音频数据集，利用这些高质量标注音频数据集能提高语音识别模型的准确率。

[0079] 参照图2至图5，为了更详细的阐述，本申请实施例还提供一种语音自动标注数据中的噪音筛选方法，本方法包括如下步骤S201至S204：

[0080] 步骤S201、从视频流中提取大量的标注音频数据。在一些实施例中，步骤S201具体包括如下步骤S2011至S2016：

[0081] 步骤S2011、获取视频流中的所有帧，每一帧为一张图像，帧集合为：T＝[t1，t2，...，tm]。

[0082] 步骤S2012、选定字幕区域，得到字幕坐标，例如：[x1，y1，x2，y2，x3，y3，x4，y4，...]。

[0083] 步骤S2013、通过字幕坐标对每一帧图片进行裁剪，得到字幕区域图像的集合，字幕区域图像集合为：其中每一帧图像都有其对应的时间戳。

[0084] 步骤S2014、采用OCR对Tcut进行字幕文字识别，得到其中代表字幕文字内容。需要注意的是，OCR是一种文字识别工具，本实施例以OCR作
为示例，但不能作为提取字幕文字的工具限制。

[0085] 步骤S2015、通过文字内容的前后对比，获取每一段字幕的起始时间和结束时间。

[0086] 步骤S2016、通过语音切分函数将每一段字幕对应的音频切分出。这里对语音切分函数不进行具体限制。

[0087] 通过上述步骤，能快速的产生大量的标注音频数据其中，xi为音频数据，yi为音频数据对应段的字幕文字。

[0088] 步骤S202、通过噪音过滤模型过滤噪声数据。在一些实施例中，步骤S202具体包括如下步骤S2021至S2024：

[0089] 由于字幕文字的字体样式繁多，导致出现OCR识别的字幕内容不准的问题，且根据每一段字幕的起始时间和结束时间也不一定能完整的把对应的音频切分出来，音频内也有可能带有噪音、杂音，导致自动标注模块会产生大量的不准确的噪音数据。

[0090] 对于每个输入的音频，噪音过滤模型负责判断该音频是否为噪音数据，然后对噪音数据作删除操作。该阶段只判断音频数据是否为噪音数据，目标动作是保留或移除当前的音频数据。

[0091] 每一次迭代中的噪音过滤模型会根据自身策略从步骤S201得到的标注音频数据集合中删除一个由噪声数据组成的噪声数据集合Ni Ni代表噪音过滤模型在经过第i次迭代后所删除的噪声数据集合，得到经过第i次迭代后得到新的标注音频数据集合例如：首次迭代时，初始的噪音过滤模型将过滤步骤S201得到的标注音频
数据集合中的噪声数据集合N1，得到新的标注音频数据集合然后后续将对
初始的噪音过滤模型进行更新，得到第1噪音过滤模型；第二次迭代时，第1噪音过滤模型将过滤步骤S201得到的标注音频数据集合中的噪声数据集合N2，得到新的标注音频数据集合然后后续将对第1噪音过滤模型进行更新，得到第2噪音过滤模型；并依次
类推，直至迭代更新多次的噪音过滤模型能够筛选出符合预设标准的标注音频数据集合。
需要注意的是，这里的预设标准(即预设的高质量标准)可通过实际情况进行设定，本实施例不进行具体限制。

[0092] 对每一个标注音频数据具体判断过程如下：

[0093] 步骤S2021、针对音频数据xi，经过预加重、分帧、加窗、FFT、取绝对值、Mel滤波、取对数、动态特征等处理步骤。

[0094] 对于音频数据，经过上述步骤处理后得到其中，k表示将音频切分为k个音频片段，代表音频片段的特征向量。这里的k值可按音频的帧数量进行设定。

[0095] 步骤S2022、针对音频数据xi，通过一维卷积、全连接、Dropout等一系列特征变换得到每个音频数据的关键特征其方式如公式(1)至(3)所示，其中W为卷积算子，°为卷积操作，Wl为对特征进行线性变换的权重，b为偏置量：

[0096] x″i＝f(W°xi) (1)

[0097] x″′i＝Wlx″i+b (2)

[0098]

[0099] 步骤S2023、对于特征对于每一个特征采用conformer架构进行语音特征的进一步提取，j∈k，综合考虑语音音频的时序特征、局部、全局特征，通过自注意力机制解决长序列依赖的问题，通过卷积则提取局部特征，通过conformer架构进行特征提取，得到
conformer架构具体流
程如下所示：

[0100] 先经过前馈网络FFN处理，再通过多头注意力机制MHSA建立每个音频片段的交互关系，采用全连接层和Layernorm对特征作线性变换和归一化处理，其步骤如下公式(4)至(7)所示：

[0101]

[0102]

[0103]

[0104]

[0105] 步骤S2024、通过softmax函数来引导噪音过滤模型执行噪音数据的删除、保留动作，通过概率转换来选择删除、保留动作，选择概率最大的动作作为执行的动作，将最后一个时间步特征转换为概率，Ws为线性变换矩阵，其方式如下所示：

[0106]

[0107]

[0108] 步骤S203、根据标注音频数据集训练预设的语音验证模型，得到训练完成的语音验证模型，并根据预设的音频验证数据集验证训练完成的语音验证模型，得到验证结果。

[0109] 本方法采用结果驱动策略，以性能变化为依据，对噪音过滤模型的一系列行为决策进行奖励，以此来驱使噪音过滤模型更加准确的过滤掉噪声数据，由此获得的更为纯净的标注音频数据集。

[0110] 针对语音验证模型，主要包括如下步骤S2031至S2032：

[0111] 步骤S2031、训练阶段；由噪音过滤模型过滤噪声数据之后得到标注音频数据集(即上述的 )对语音验证模型进行训练，得到训练完成的语音验证模型。

[0112] 步骤S2032、验证阶段；由高质量的标注音频数据验证训练完成的语音验证模型的质量。如果噪音过滤模型所筛选的标注音频数据质量高，那分数也随之会提高，反之亦然。

[0113] 通过噪音过滤模型的公式(1)至(7)进行建模，得到各个音频片段的时序特征*利用softmax函数将特征转换为概率分布，再通过CTC函数得到概率最大的标签l ，如下述公式(10)至(11)所示：

[0114]

[0115] l*＝argmax(p(l|x)) (11)

[0116] 语音验证模型的训练阶段采用噪音过滤模型过滤后的标注音频数据进行训练，对于过滤后的标注音频数据集中的音频数据xi，xi∈Nt，采用语音验证模型进行训练。

[0117] 语音验证模型的验证阶段，当错误标注的音频数据(即噪声数据)被过滤掉后，语音识别模型便能得到更好的性能。本实施例采用少部分高质量的标注音频数据进行验证，对于数据集噪音过滤模型会根据自身策略从中删除一个由噪声数据组成的噪声数据集合Ni，删除后，将得到新的标注音频数据集然后利用Nt训练语音验证模型。

[0118] 当错误标注的音频数据(噪声数据)被过滤掉后，语音识别模型便能得到更好的性能，当过多的滤掉正确数据，语音识别模型性能便有所下降。

[0119] 步骤S2033、通过少部分标注好的高质量的音频数据对训练后的语音验证模型进行验证，得到WER(字错误率)和SER(句错误率)，通过WER、SER综合评判语音验证模型的性能分数Ri，其方式如下，其中α、γ代表权重系数：

[0120] Ri＝α(WERi‑WERi‑1)+γ(SERi‑SERi‑1) (12)

[0121] 步骤S204、根据Ri更新噪音过滤模型。

[0122] 在得到分数Ri后采用如公式(13)至(15)所示的机制对噪音过滤模型进行迭代更新，Ni表示噪音过滤模型迭代第i次的噪声数据删除的部分。如果语音验证模型的模型分数Ri有增加，则意味着第i次迭代更新的噪音过滤模型的过滤动作比第i‑1次迭代更新的噪音过滤模型的过滤动作更有效，更合理，即Oi比Oi‑1具有更多的噪声数据，因此，将正奖励分配给Oi，负奖励分配给Oi‑1，引导噪音过滤模型往更合理的权重参数进行更新，反之亦然。

[0123] 最终损失函数如下公式(15)，其中P(xi|θ)代表噪音过滤模型，θ为噪音过滤模型中需要更新的权重集合，xi为音频数据：

[0124] Oi‑1＝Ni‑1‑(Ni∩Ni‑1) (13)

[0125] Oi＝Ni‑(Ni∩Ni‑1) (14)

[0126]

[0127] 通过本实施例可以快速、智能化标注出无噪声的标注音频数据集，智能化的过滤自动标注(现阶段主要通常对数据进行自动标注)所产生的不准确的噪声音频。通过噪音过滤模型负责执行噪声数据的过滤操作，对于噪音过滤模型判定的噪音数据进行删除；然后语音验证模型负责验证噪音过滤模型动作的有效性，得到噪音过滤模型的动作有效性的分数；最后通过语音验证模型引导噪音过滤模型进行权重更新，引导噪音过滤模型下一次迭代做出更合理和有效的过滤动作，通过不断的自主学习来使得噪音过滤模型过滤出高质量的数据集。

[0128] 参照图6，本发明的一个实施例，提供一种语音自动标注数据中的噪音筛选系统，本噪音筛选系统1000包括数据获取单元1100和数据处理单元1200，其中：

[0129] 数据获取单元1100用于从初始视频数据中提取初始标注音频数据集。

[0130] 数据处理单元1200用于根据预设的初始噪音过滤模型过滤初始标注音频数据集中的噪声数据，得到第一标注音频数据集；根据第一标注音频数据集训练预设的语音验证模型，得到训练完成的第一语音验证模型；根据预设的音频验证数据集验证第一语音验证模型，得到第一验证结果，其中，音频验证数据集中包括多个高质量的标注音频数据；根据第一验证结果引导更新初始噪音过滤模型，得到第一噪音过滤模型；以及，根据第一噪音过滤模型过滤初始标注音频数据集中的噪声数据，得到第二标注音频数据集；根据第二标注音频数据集训练语音验证模型，得到训练完成的第二语音验证模型；根据音频验证数据集验证第二语音验证模型，得到第二验证结果；根据第二验证结果引导更新第一噪音过滤模型，得到第二噪音过滤模型；以及，以此类推，直至根据第i噪音过滤模型过滤初始标注音频数据集中的噪声数据，得到满足预设标准的第i+1标注音频数据集。

[0131] 需要说明的是，本系统实施例与上述方法实施例是基于相同的发明构思，因此上述方法实施例的内容同样适用于本系统实施例，此处不再赘述。

[0132] 参照图7，本申请实施例还提供了一种电子设备，本电子设备包括：

[0133] 至少一个存储器；

[0134] 至少一个处理器；

[0135] 至少一个程序；

[0136] 程序被存储在存储器中，处理器执行至少一个程序以实现本公开实施上述的语音自动标注数据中的噪音筛选方法。

[0137] 该电子设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、车载电脑等任意智能终端。

[0138] 本申请实施例的电子设备，用于执行上述语音自动标注数据中的噪音筛选方法，通过噪音过滤模型判定并过滤初始标注音频数据集中的噪声数据，并且利用语音验证模型的训练结果验证噪音过滤模型过滤噪声数据的有效性，进而引导噪音过滤模型不断自我学习，从而使得经过多次更新后的噪音过滤模型能够准确的过滤掉噪声数据，筛选得到高质量标注音频数据集，利用这些高质量标注音频数据集能提高语音识别模型的准确率。

[0139] 电子设备包括：

[0140] 处理器1600，可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

[0141] 存储器1700，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器1700可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1700中，并由处理器1600来调用执行本公开实施例的语音自动标注数据中的噪音筛选方法。

[0142] 输入/输出接口1800，用于实现信息输入及输出；

[0143] 通信接口1900，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

[0144] 总线2000，在设备的各个组件(例如处理器1600、存储器1700、输入/输出接口1800和通信接口1900)之间传输信息；

[0145] 其中处理器1600、存储器1700、输入/输出接口1800和通信接口1900通过总线2000实现彼此之间在设备内部的通信连接。

[0146] 本公开实施例还提供了一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行上述语音自动标注数据中的噪音筛选方法。

[0147] 本申请实施例的存储介质，用于执行上述语音自动标注数据中的噪音筛选方法，通过噪音过滤模型判定并过滤初始标注音频数据集中的噪声数据，并且利用语音验证模型的训练结果验证噪音过滤模型过滤噪声数据的有效性，进而引导噪音过滤模型不断自我学习，从而使得经过多次更新后的噪音过滤模型能够准确的过滤掉噪声数据，筛选得到高质量标注音频数据集，利用这些高质量标注音频数据集能提高语音识别模型的准确率。

[0148] 存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

[0149] 本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

[0150] 本领域技术人员可以理解的是，图中示出的技术方案并不构成对本公开实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

[0151] 以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

[0152] 在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

[0153] 作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0154] 另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

[0155] 集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read‑Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序的介质。

[0156] 以上是对本申请实施例的较佳实施进行了具体说明，但本申请实施例并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请实施例精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请实施例权利要求所限定的范围内。

一种语音自动标注数据中的噪音筛选方法及系统转让专利

申请号 : CN202210978859.4

文献号 : CN115440238B

文献日 : 2023-04-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 何国对 , 钟英生 , 韦肖斌 , 赵芸 , 苏一海 , 施宇 , 赵达文 , 林富强 , 檀杏杏 , 龙珑

申请人 : 广西壮族自治区通信产业服务有限公司技术服务分公司

摘要 :

权利要求 :

说明书 :