音频丢包补偿处理方法、装置及电子设备转让专利

申请号 : CN202011606515.8

文献号 : CN113035205B

文献日 : 2022-06-07

本发明实施例提供一种音频丢包补偿处理方法、装置及电子设备，其中，方法包括：获取过去第一数量的已有音频帧的时域信号；对该第一数量的已有音频帧的时域信号进行声学特征提取，生成已有音频帧的声学特征；对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成已有音频帧对应的语义表达；根据声学特征和语义表达，预测当前音频帧的时域信号。在本发明实施例通过在进行音频帧预测的过程中，对音频帧的原始的时序信号进行特征提取，避免了音频特征的信息损失，此外，在进行音频帧预测过程中，引入语义理解辅助，从而能够更加准确地预测出丢失的音频帧。

1.一种音频丢包补偿处理方法，包括：

在出现音频丢包的情况下，获取第一数量的已有音频帧的时域信号；

对该第一数量的已有音频帧的时域信号进行声学特征提取，生成所述已有音频帧的声学特征；

对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的语义表达；

根据所述声学特征和所述语义表达，预测当前音频帧的时域信号，用于音频丢包补偿。

2.根据权利要求1所述的方法，其中，所述对该第一数量的已有音频帧的时域信号进行声学特征提取，生成所述已有音频帧的声学特征包括：使用多个分支的一维卷积网络，对该第一数量的已有音频帧的时域信号进行声学特征提取，生成多个低维度的声学特征；

对所述多个低维度的声学特征，进行聚合处理，生成所述已有音频帧的声学特征。

3.根据权利要求2所述的方法，其中，对所述多个低维度的声学特征，进行聚合处理，生成所述已有音频帧的声学特征包括：对所述多个低维度的声学特征，通过注意力模块进行聚合，生成所述已有音频帧的声学特征。

4.根据权利要求2所述的方法，其中，还包括：

对预设数量的已有音频帧的声学特征进行缓存，用于后续音频帧的预测处理。

5.根据权利要求1所述的方法，其中，对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的语义表达包括：使用一维卷积网络对所述对该第一数量的已有音频帧的时域信号进行语义特征提取，使用GRU网络基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的音素级别的语义表达。

6.根据权利要求1所述的方法，其中，根据所述声学特征和所述语义表达，预测当前音频帧的时域信号包括：使用GRU网络根据所述声学特征和所述语义表达，预测当前音频帧的时域信号。

7.根据权利要求6所述的方法，其中，所述GRU网络中采用稀疏化的模型参数。

8.一种音频丢包补偿处理方法，包括：

获取当前音频帧的时域信号和帧状态；

如果所述帧状态为丢失状态，则使用音频预测模型，根据该当前音频帧之前的第一数量的已有音频帧的时域信号，对当前音频帧的时域信号进行预测，将预测结果作为当前音频帧进行输出；

如果所述帧状态为完好状态，则使用当前音频帧和该当前音频帧之前的第一数量的已有音频帧的时域信号作为训练数据，对所述音频预测模型进行训练，并更新所述音频预测模型，以及将处于完好状态的所述当前音频帧进行输出，其中，根据该当前音频帧之前的第一数量的已有音频帧的时域信号，对当前音频帧的时域信号进行预测包括：对该第一数量的已有音频帧的时域信号进行声学特征提取，生成所述已有音频帧的声学特征；

对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的语义表达；

根据所述声学特征和所述语义表达，预测当前音频帧的时域信号。

9.根据权利要求8所述的方法，其中，所述对该第一数量的已有音频帧的时域信号进行声学特征提取，生成所述已有音频帧的声学特征包括：使用多个分支的一维卷积网络，对该第一数量的已有音频帧的时域信号进行声学特征提取，生成多个低维度的声学特征；

对所述多个低维度的声学特征，进行聚合处理，生成所述已有音频帧的声学特征。

10.根据权利要求8所述的方法，其中，对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的语义表达包括：使用一维卷积网络对所述对该第一数量的已有音频帧的时域信号进行语义特征提取，使用GRU网络基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的音素级别的语义表达。

11.根据权利要求8所述的方法，其中，根据所述声学特征和所述语义表达，预测当前音频帧的时域信号包括：使用GRU网络根据所述声学特征和所述语义表达，预测当前音频帧的时域信号。

12.根据权利要求8所述的方法，其中，使用当前音频帧和该当前音频帧之前的第一数量的已有音频帧的时域信号作为训练数据，对所述音频预测模型进行训练包括：将与所述当前音频帧连续的第一数量的已有音频帧的时域信号作为训练模型的输入，根据所述当前音频帧和所述训练模型的输出结果之间的差异，对所述音频预测模型的模型参数进行调整。

13.根据权利要求8所述的方法，其中，使用当前音频帧和该当前音频帧之前的第一数量的已有音频帧的时域信号作为训练数据，对所述音频预测模型进行训练包括：以预设的概率，使用与所述当前音频帧间隔的第一数量的已有音频帧的时域信号作为训练模型的输入，进行连续丢帧的预测训练，根据所述当前音频帧和所述训练模型的输出结果之间的差异，对所述音频预测模型的模型参数进行调整。

14.根据权利要求8所述的方法，其中，所述音频预测模型与直播端对应配置，所述方法还包括：以预设的时间间隔，将多个音频预测模型进行融合处理，将融合后的音频预测模型与各个直播端对应配置。

15.根据权利要求14所述的方法，其中，所述融合处理包括：针对各个直播端，分别进行加权融合处理，其中，所针对的直播端的音频预测模型的权重值大于其他直播端的音频预测模型的权重值。

16.根据权利要求8所述的方法，其中，所述音频预测模型为采用综合性训练数据集进行了离线训练后的模型。

17.一种音频丢包补偿处理装置，包括：

音频帧获取模块，用于在出现音频丢包的情况下，获取第一数量的已有音频帧的时域信号；

声学特征提取模块，用于对该第一数量的已有音频帧的时域信号进行声学特征提取，生成所述已有音频帧的声学特征；

语义理解模块，对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的语义表达；

音频帧预测模块，用于根据所述声学特征和所述语义表达，预测当前音频帧的时域信号，用于音频丢包补偿。

18.根据权利要求17所述的装置，其中，所述对该第一数量的已有音频帧的时域信号进行声学特征提取，生成所述已有音频帧的声学特征包括：使用多个分支的一维卷积网络，对该第一数量的已有音频帧的时域信号进行声学特征提取，生成多个低维度的声学特征；

对所述多个低维度的声学特征，进行聚合处理，生成所述已有音频帧的声学特征。

19.根据权利要求18所述的装置，其中，对所述多个低维度的声学特征，进行聚合处理，生成所述已有音频帧的声学特征包括：对所述多个低维度的声学特征，通过注意力模块进行聚合，生成所述已有音频帧的声学特征。

20.根据权利要求17所述的装置，其中，对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的语义表达包括：使用一维卷积网络对所述对该第一数量的已有音频帧的时域信号进行语义特征提取，使用GRU网络基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的音素级别的语义表达。

21.根据权利要求17所述的装置，其中，根据所述声学特征和所述语义表达，预测当前音频帧的时域信号包括：使用GRU网络根据所述声学特征和所述语义表达，预测当前音频帧的时域信号。

22.一种音频丢包补偿处理装置，包括：

音频帧获取模块，用于获取当前音频帧的时域信号和帧状态；

音频预测模块，用于在所述帧状态为丢失状态的情况下，使用音频预测模型，根据该当前音频帧之前的第一数量的已有音频帧的时域信号，对当前音频帧的时域信号进行预测，将预测结果作为当前音频帧进行输出，其中，根据该当前音频帧之前的第一数量的已有音频帧的时域信号，对当前音频帧的时域信号进行预测包括：对该第一数量的已有音频帧的时域信号进行声学特征提取，生成所述已有音频帧的声学特征；

对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的语义表达；

根据所述声学特征和所述语义表达，预测当前音频帧的时域信号；

模型训练处理模块，用于在所述帧状态为完好状态的情况下，使用当前音频帧和该当前音频帧之前的第一数量的已有音频帧的时域信号作为训练数据，对所述音频预测模型进行训练，并更新所述音频预测模型，以及将处于完好状态的所述当前音频帧进行输出。

23.根据权利要求22所述的装置，其中，使用当前音频帧和该当前音频帧之前的第一数量的已有音频帧的时域信号作为训练数据，对所述音频预测模型进行训练包括：将与所述当前音频帧连续的第一数量的已有音频帧的时域信号作为训练模型的输入，根据所述当前音频帧和所述训练模型的输出结果之间的差异，对所述音频预测模型的模型参数进行调整。

24.根据权利要求22所述的装置，其中，使用当前音频帧和该当前音频帧之前的第一数量的已有音频帧的时域信号作为训练数据，对所述音频预测模型进行训练包括：以预设的概率，使用与所述当前音频帧间隔的第一数量的已有音频帧的时域信号作为训练模型的输入，进行连续丢帧的预测训练，根据所述当前音频帧和所述训练模型的输出结果之间的差异，对所述音频预测模型的模型参数进行调整。

25.一种电子设备，包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以执行权利要求1至7任一所述的音频丢包补偿处理方法。

26.一种电子设备，包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以执行权利要求8至16任一所述的音频丢包补偿处理方法。

音频丢包补偿处理方法、装置及电子设备

技术领域

[0001] 本申请涉及一种音频丢包补偿处理方法、装置及电子设备，属于计算机技术领域。

背景技术

[0002] 直播凭借其真实性、互动性等优势在电商场景下正变得越来越重要，同时随着移动端的普及，观看直播的网络环境也变得越来越复杂，丢包现象较为严重，传统的音频丢包补偿方案的处理能力无法满足现网直播服务的需求。

[0003] 随着深度学习技术的发展，出现了一些基于机器学习的智能丢包补偿方案，但是，在现有技术中，一般是先将音频信号进行频域特征提取后，然后再输入到机器学习模型中进行基于频域特征的音频预测，这样的处理会丢失大量的原始信息，对于音频帧的补偿的准确度较差。

发明内容

[0004] 本发明实施例提供一种音频丢包补偿处理方法、装置及电子设备，以提高语音恢复效果。

[0005] 为了实现上述目的，本发明实施例提供了一种音频丢包补偿处理方法，包括：

[0006] 在出现音频丢包的情况下，获取第一数量的已有音频帧的时域信号；

[0007] 对该第一数量的已有音频帧的时域信号进行声学特征提取，生成所述已有音频帧的声学特征；

[0008] 对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的语义表达；

[0009] 根据所述声学特征和所述语义表达，预测当前音频帧的时域信号，用于音频丢包补偿。

[0010] 本发明实施例还提供了一种音频丢包补偿处理方法，包括：

[0011] 获取当前音频帧的时域信号和帧状态；

[0012] 如果所述帧状态为丢失状态，则使用音频预测模型，根据该当前音频帧之前的第一数量的已有音频帧的时域信号，对当前音频帧的时域信号进行预测，将预测结果作为当前音频帧进行输出；

[0013] 如果所述帧状态为完好状态，则使用当前音频帧和该当前音频帧之前的第一数量的已有音频帧的时域信号作为训练数据，对所述音频预测模型进行训练，并更新所述音频预测模型，以及将处于完好状态的所述当前音频帧进行输出。

[0014] 本发明实施例还提供了一种音频丢包补偿处理装置，包括：

[0015] 音频帧获取模块，用于在出现音频丢包的情况下，获取第一数量的已有音频帧的时域信号；

[0016] 声学特征提取模块，用于对该第一数量的已有音频帧的时域信号进行声学特征提取，生成所述已有音频帧的声学特征；

[0017] 语义理解模块，对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成所述已有音频帧对应的语义表达；

[0018] 音频帧预测模块，用于根据所述声学特征和所述语义表达，预测当前音频帧的时域信号，用于音频丢包补偿。

[0019] 本发明实施例还提供了一种音频丢包补偿处理装置，包括：

[0020] 音频帧获取模块，用于获取当前音频帧的时域信号和帧状态；

[0021] 音频预测模块，用于在所述帧状态为丢失状态的情况下，使用音频预测模型，根据该当前音频帧之前的第一数量的已有音频帧的时域信号，对当前音频帧的时域信号进行预测，将预测结果作为当前音频帧进行输出；

[0022] 模型训练处理模块，用于在所述帧状态为完好状态的情况下，使用当前音频帧和该当前音频帧之前的第一数量的已有音频帧的时域信号作为训练数据，对所述音频预测模型进行训练，并更新所述音频预测模型，以及将处于完好状态的所述当前音频帧进行输出。

[0023] 本发明实施例还提供了一种电子设备，包括：

[0024] 存储器，用于存储程序；

[0025] 处理器，用于运行所述存储器中存储的所述程序，以执行上述的音频丢包补偿处理方法。

[0026] 本发明实施例还提供了一种电子设备，包括：

[0027] 存储器，用于存储程序；

[0028] 处理器，用于运行所述存储器中存储的所述程序，以执行上述的音频丢包补偿处理方法。

[0029] 在本发明实施例的技术方案，通过在进行音频帧预测的过程中，直接对音频帧的原始的时序信号进行特征提取，避免了音频特征的信息损失，使得预测出的音频帧更加准确并且能够获得更加自然的语音效果，此外，在进行音频帧预测过程中，还引入了语义理解辅助，而基于原始的时序信号进行语义特征提取，保留更加全面的语音信息，从而能够提高语义理解的准确度，进而能够更加准确地预测出丢失的音频帧。

[0030] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

[0031] 图1为本发明实施例的音频预测模型的结构示意图；

[0032] 图2为本发明实施例在线丢包补偿处理系统的工作原理示意图；

[0033] 图3为本发明实施例的音频丢包补偿处理方法的流程示意图；

[0034] 图4为本发明实施例的音频丢包补偿处理方法的流程示意图；

[0035] 图5为本发明实施例的音频丢包补偿处理装置的结构示意图；

[0036] 图6为本发明实施例的音频丢包补偿处理装置的结构示意图；

[0037] 图7为本发明实施例的电子设备的结构示意图。

具体实施方式

[0038] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

[0039] 如图1所示，其为本发明实施例的音频预测模型的结构示意图。该音频预测模型可以应用网络直播或者视频会议等应用场景，该音频预测模型可以部署在播放端，用于在出现音频丢包的情况下，对丢包部分对应的音频帧进行预测，从而对缺失的音频帧进行补偿，形成连续的语音信号。

[0040] 如图1中所示，本发明实施例中音频预测模型包括声学特征提取网络、语义特征提取网络、语义理解网络以及声学预测网络。假定当前音频帧发生丢失，过去多个连续的音频帧的时域信号输入到该模型中，以对当前音频帧进行预测。这些过去音频帧的时域信号会分别输入到声学特征提取网络和语义特征提取网络进行特征提取，在语义特征提取网络一侧，会进一步通过语义理解网络，对提取出的语义特征进行语义理解，形成音素级别的语义表达，最后，提取出的声学特征和音素级别的语义表达，再输入到声学预测网络，最终预测出当前音频的时域信号，从而补偿了当前帧的丢失。

[0041] 在上述的音频预测模型中，输入数据为音频帧的时域信号，而不是经过频域采样后的频域信号，这样的处理能够更多的保留音频帧的原始信息，并将特征提取的细节处理交由音频预测模型来处理，避免由于在进行未进入模型前而进行频域特征提取时造成的信息丢失。在本发明实施例中，声学特征提取网络和语义特征提取网络中，对于音频特征提取的参数是由音频预测模型通过自适应神经网络机制反复训练而获得的，能够充分利用原始时域信号所包含的全面的语音信息，从而进行更加准确的音频帧预测。

[0042] 此外，在音频预测模型中，除了基于声学特征来进行音频帧预测外，还添加了一路进行语义理解的模型(包括了图1中的语义特征提取网络和语义理解网络)，通过语义特征提取网络和语义理解网络能够生成过去几个音频帧对应的语义表达，从而为后面的声音预测网络提供了语义方面的重要的辅助信息，使得基于声学特征信息的预测能够更具有语义层级的意义。

[0043] 此外，该神经网络可以采用音素级别的轻量化模型，能够对音素级别的语义进行理解，并生成对应的语义表达，例如某个字或者词。这里所说的音素级别是指一个发音单元，可能是一个字或者半个字，例如中文中声母音节或者韵母音节，英文中的一个单词的音标的一部分等。在进行语义理解的处理中，在过去几个连续音频帧中，可能最后一个音频帧只说出了半个字或者一个英文单词的半个发音，而通过图1中的语义特征提取网络和语义理解网络，根据这个半个字或者单词的发音，能够识别出整个字或词，从而能够显著提高后续的声音预测网络进行音频帧预测的准确率。

[0044] 进一步地，如图1所示，声学特征提取网络可以采用多个分支的一维卷积网络的结构，使用该多个分支的一维卷积网络(Conv1d)，对该第一数量的已有音频帧的时域信号进行声学特征提取，生成多个低维度的声学特征。然后，对多个低维度的声学特征，进行聚合处理，生成已有音频帧的声学特征，具体可以采用注意力模块进行聚合处理，从而为各个分支提取的低维度的声学特征分配合理的权重。此外，上述各个分支的一维卷积网络对多个已有音频帧进行卷积计算的结果，可以进行缓存，用于后续音频帧的预测处理，例如，以使用过去三个已有音频帧对当前帧进行预测为例，需要对这三个已有音频帧进行卷积处理，如果发生连续丢帧的情形，即当前音频帧的下一帧也出现丢失，则需要使用当前音频帧的下一帧的过去三帧进行预测，在这种情况下，就会重复使用到过去三个已有音频帧中的两个音频帧的卷积结果，在本发明实施例中，通过对卷积计算的结果的缓存机制，可以避免这种重复计算，具体的缓存数据量可以根据具体应用场景而设定，例如，如果使用过去三帧来进行当前音频帧的预测，则缓冲的数据量可以为过去两帧的卷积计算结果。

[0045] 在语义理解方面，图1所示示例也采用了一维卷积网络的结构，使用一维卷积网络对对该第一数量的已有音频帧的时域信号进行语义特征提取，然后使用GRU(Gated Recurrent Unit，门控循环单元)网络基于提取出的语义特征进行语义理解，生成已有音频帧对应的音素级别的语义表达。

[0046] 最后，使用GRU网络根据声学特征和语义表达，预测当前音频帧的时域信号。在上述的GRU网络中可以采用稀疏化的模型参数，从而进一步减少运算量，提高模型的在线处理速度。

[0047] 本发明实施例中，丢包的情形可能导致单个音频帧丢失，也可能会导致多个音频帧丢失，这取决于每个数据包包含的音频帧的数量以及丢失数据包的数量，单个数据包可以包含一个音频帧也可以包括多个音频帧，视不同的传输协议决定。在出现连续多个帧丢失的情况下，本发明实施例还可以进行连续丢帧的预测，通过过去的多个音频帧来预测当前丢失的音频帧，然后，在把预测出来的当前音频帧已知帧和过去的多个音频帧一起，预测下一个丢失的音频帧，从而实现连续丢帧的预测。

[0048] 如图2所示，其为本发明实施例基于音频预测模型的在线丢包补偿处理系统的工作原理示意图。如前面所介绍的，可以将上述的音频预测模型部署在播放端，进行针对直播等场景下的在线应用。

[0049] 如图2所示，播放端的解码器(未图示)会对接收到的音频数据进行解码，生成用时域信号表示的音频帧，并输出该音频帧是否丢失的帧状态。这里所说的时域信号表示的音频帧可以具体为一组浮点数，浮点数的数量取决于采样点数，如果出现丢帧的情况，该音频帧的时域信号为全零，不过，在出现静音状态时，音频帧的时域信号也可能为全零，因此，该音频帧是否为丢帧还是取决于帧状态的值。帧状态可以采用二进制的数据位来表示，例如，丢帧为0未丢帧为1。解码器可以通过帧序号的连续性来确定当前音频帧是否存在丢帧的情形。

[0050] 解码器解码出的音频帧(对应于图中输入的当前音频帧)和帧状态作为在线丢包补偿处理系统输入，在线丢包补偿处理系统根据帧状态来决定进一步的处理。具体地，在线丢包补偿处理系统包括了两个方面的处理过程，一方面在发生丢包时进行音频帧的预测，如图2中所示，在帧丢失的情况下，会获取与当前视频帧连续的过程去数个视频帧，然后输入到音频预测模型中执行帧预测处理，输入到音频预测模型中的帧数量可以根据实际需要而设定，例如可以使用过去的三个音频帧来对当前音频帧进行预测。经过音频预测模型的预测处理而产生的音频帧将作为当前音频帧输出。

[0051] 另一方面，在未发生帧丢失的情况下即帧完好的情况下，会使用当前音频帧和过去一定数量的音频帧对模型进行在线训练和更新，同时直接将输入的当前音频帧进行输出。在线训练可以包括针对单个帧丢失的预测训练和针对连续帧丢失的预测训练。

[0052] 单个帧丢失的情况为较为常规的丢包现象，并且针对单个帧的丢失补偿处理，也可以应用于连续丢帧的情况，因此，在线训练会主要针对单个帧丢失情况而进行。具体地训练方式可以包括：将与当前音频帧连续的第一数量的已有音频帧的时域信号作为训练模型的输入，根据当前音频帧和训练模型的输出结果之间的差异，对音频预测模型的模型参数进行调整。

[0053] 对连续帧丢失的情况，在本发明实施例中，也进行了针对性训练，具体地，针对连续帧丢失情况的训练可以以预设的概率来触发。具体的训练方式可以包括：使用与当前音频帧间隔的第一数量的已有音频帧的时域信号作为训练模型的输入，进行连续丢帧的预测训练，根据当前音频帧和训练模型的输出结果之间的差异，对音频预测模型的模型参数进行调整。需要说明的是，对于连续丢帧情况下的帧预测处理和单个帧丢失情况的预测处理是一样的，只不过，在连续丢帧的情况下，会将预测出来的音频帧作为已有音频帧，接着预测下一个丢失的帧。举例来说，目前有三个音频帧是正常的，第四帧和第五帧丢失，则可以以前三个已有音频帧去预测第四个音频帧，然后再以第二和第三个音频帧以及预测出的第四个音频帧，去预测第五个音频帧，依次类推来出连续帧丢失情况下的预测。具体到在线训练处理中，在一定预设概率触发下，训练数据会选择为与当前音频帧有一定间隔的第一数量的已有音频帧，这里所说的间隔就是连续丢帧的范围，需要在训练过程中进行逐帧预测，直到预测出当前音频帧，然后再用真实的当前音频帧与预测出的当前音频帧进行比较，来修正模型参数。

[0054] 此外，图2中所示，本发明实施例中所采用的音频预测模型，在执行线上处理之前，会预先进行离线训练，离线训练可以采用较大的综合性训练数据集，经过离线训练的音频预测模型可以满足基本的丢帧预测，然后部署到各个播放端后，经过一定时间的在线训练，可以满足各个播放端所处的网络环境以及播放直播的具体情况，其中包括了该播放经常播放的直播内容以及主播等等。

[0055] 进一步地，上述的音频预测模型也可以和不同的直播端进行对应配置，从而使得音频预测模能够适应直播端的音频特征，例如，直播端的网络状态以及主播的语音特点等，从而在出现音频帧丢失的情况下，更加准确地进行预测。为了进一步提高音频预测模型的泛化处理能力，还可以以预设的时间间隔，将与各个直播端对应的多个音频预测模型进行融合处理，将融合后的音频预测模型更新到播放端上。进一步地，在进行融合处理的过程中，可以采用加权融合处理的方式，可以针对不同的直播端，增加该直播端的权重，从而使得融合结果既具有泛化性还能保持当前直播端的特性。即各个直播端的音频预测模型在融合过程中，会增加自身的权重，从而得到融合模型是仍然保持了自身的特点，同时还能兼顾从其他播放端对应的音频预测模型所获取的泛化能力。

[0056] 此外，在本发明实施例的音频预测模型中，加入了语义理解方面的模型，因此，可以使用该语义理解方面的模型对过去一定数量的音频帧的语义理解结果，来生成字幕，从而帮助用户更好地接收直播的信息，尤其是在网络环境不好的情况下，音频还原后的效果比较差，而通过字幕能够更加准确的获得信息。进一步地，上述的字幕生成机制还可以有选择的处理，例如，仅针对直播进程中的关键语句来生成字幕，例如关键的价格信息、条件信息等。对于字幕生成的辅助技术，播放端可以根据网络质量来灵活开启，例如在网络状况好的情况下关闭字幕生成功能，在网络条件差的情况下，开启字幕生成功能，此外，用户可以通过播放器来手动选择是否加载字幕，该字幕功能以及上述的平滑处理策略同样可以应用在会议直播的场景中。以上介绍了本发明实施例所采用的音频预测模型以及在线丢包补偿系统，在本发明实施例中，在进行音频帧预测的过程中，直接对音频帧的原始的时序信号进行特征提取，避免了音频特征的信息损失，使得预测出的音频帧更加准确并且能够获得更加自然的语音效果，此外，在进行音频帧预测过程中，引入了语义理解辅助，而基于原始的时序信号进行语义特征提取，保留更加全面的语音信息，从而能够提高语义理解的准确度，进而能够更加准确地预测出丢失的音频帧。此外，在模型的应用方面，采用了在线训练加离线训练的模式，其中，离线辅助训练充分利用了语音信号的广义相关性，构建具备基本音频帧预测能力的模型，而在线训练则针对语音信号的局部高动态特性，在合理模型复杂度的前提下实现了对局部变化的准确跟踪，使得模型能够更适用于应对实际场景中复杂多变的网络状况和多种多样的语者特性，解决了泛化性不稳定的问题。

[0057] 下面通过一些具体实施例来进一步说明本发明的技术方案。

[0058] 实施例一

[0059] 如图3所示，其为本发明实施例的音频丢包补偿处理方法的流程示意图，该方法可以应用于直播场景下，具体可以应用在例如智能手机、计算机等播放端设备上，该方法可以基于图1所示的深度神经网络模型来执行，具体地，该方法包括：

[0060] S101：在出现音频丢包的情况下，获取过去第一数量的已有音频帧的时域信号。在本发明实施例中，输入音频预测模型进行处理的是音频帧的时域信号而非经过频率采样的频域信号，这样的处理能够更多的保留音频帧的原始信息，并将特征提取的细节处理交由音频预测模型来处理，避免由于在进行未进入模型前而进行频域特征提取时造成的信息丢失。已有音频帧是相对于当前要预测的音频帧而言，在时间维度上过去的音频帧，一般采用与当前音频帧连续的数个音频帧对当前丢失的音频帧进行预测。在获得的已有音频帧后，会并行执行声学特征提取和语音特征提取，分别对应下面的步骤S102和步骤S103。

[0061] S102：对该第一数量的已有音频帧的时域信号进行声学特征提取，生成已有音频帧的声学特征。对于声学特征的提取可以采用多个分支的一维卷积网络(Conv1d)所构成的声学特征提取网络来实现，具体地，该步骤可以包括：使用多个分支的一维卷积网络，对该第一数量的已有音频帧的时域信号进行声学特征提取，生成多个低维度的声学特征，然后，对多个低维度的声学特征，进行聚合处理，生成已有音频帧的声学特征。具体可以采用注意力模块进行聚合处理，为各个分支提取的低维度的声学特征分配合理的权重。此外，还可以包括对预设数量的已有音频帧的声学特征进行缓存，用于后续音频帧的预测处理，这里所缓存的目的主要是减少出现连续丢帧时，在预测当前音频帧的下一帧时，同样还要用到已经计算过的卷积结果，即提取到的声学特征，而对已经提取到的声学特征进行缓存能够减少重复计算。预设数量可以根据实际需要而定，将上述第一数量减一作为预设数量，以使用过去三个已有音频帧对当前帧进行预测为例，需要对这三个已有音频帧进行卷积处理以提取声学特征，并缓存其中最近的两个音频帧的声学特征，已被后续使用，该缓存在每次执行音频帧预测时会不断更新。

[0062] S103：对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成已有音频帧对应的语义表达。在语义理解方面，本发明实施例也可以采用了一维卷积网络的结构来进行语义方面的特征提取，然后，再使用GRU网络基于提取出的语义特征进行语义理解，生成已有音频帧对应的音素级别的语义表达。这里所说的音素级别是指一个发音单元，可能是一个字或者半个字，例如中文中声母音节或者韵母音节，英文中的一个单词的音标的一部分等。在进行语义理解的处理中，在过去几个连续音频帧中，可能最后一个音频帧只说出了半个字或者一个英文单词的半个发音，而通过本发明实施例的语义特征提取和语义理解，根据这个半个字或者单词的发音，识别出整个字或词，从而能够显著提高后续的声音预测网络进行音频帧预测的准确率。

[0063] S104：根据声学特征和语义表达，预测当前音频帧的时域信号，用于音频丢包补偿。对于最后的预测处理，也可以采用GRU网络来实现，通过GRU网络根据声学特征和语义表达，预测当前音频帧的时域信号。其中，该部分的GRU网络中采用稀疏化的模型参数，从而进一步减少运算量，提高模型的在线处理速度。

[0064] 本发明的实施例的音频预测的处理方法可以应用于丢失单个音频帧的情形，也可以适用于连续丢失音频帧的情形，在出现连续多个帧丢失的情况下，通过过去的多个已有音频帧来预测丢失的第一个音频帧，然后再将该第一音频帧作为已有音频帧和过去的多个音频帧一起，预测下一个丢失的音频帧，从而实现连续丢帧的预测。

[0065] 在本发明实施例音频丢包补偿处理方法，通过在进行音频帧预测的过程中，直接对音频帧的原始的时序信号进行特征提取，避免了音频特征的信息损失，使得预测出的音频帧更加准确并且能够获得更加自然的语音效果，此外，在进行音频帧预测过程中，引入了语义理解辅助，而基于原始的时序信号进行语义特征提取，保留更加全面的语音信息，从而能够提高语义理解的准确度，进而能够更加准确地预测出丢失的音频帧。

[0066] 实施例二

[0067] 如图4所示，其为本发明实施例的音频丢包补偿处理方法的流程示意图，该方法可以应用于直播场景下，具体可以应用例如智能手机、计算机等播放端设备上，该方法可以使用前面图1介绍的音频预测模型来对丢失的音频帧进行预测，具体地，该方法包括：

[0068] S201：获取当前音频帧的时域信号和帧状态。其中，当前音频帧和帧状态是播放端的解码器对接收到的音频数据进行解码后的输出结果。这里所说的时域信号可以具体为一组浮点数，浮点数的数量取决于采样点数，如果出现丢帧的情况，该音频帧的时域信号为全零，不过，在出现静音状态时，音频帧的时域信号也可能为全零，因此，该音频帧是否为丢帧还是取决于帧状态的值。帧状态可以采用二进制的数据位来表示，例如，丢帧为0未丢帧为1。解码器可以通过帧序号的连续性来确定当前音频帧是否存在丢帧的情形。

[0069] S202：如果帧状态为丢失状态，则使用音频预测模型，根据该当前音频帧之前的第一数量的已有音频帧的时域信号，对当前音频帧的时域信号进行预测，将预测结果作为当前音频帧进行输出。具体的音频预测的处理过程可以采用前述实施例的处理过程，此外，如前面介绍的，这里的预测处理可能是针对单个帧丢失的预测处理，也可能是在出现连续帧丢失情况下的预测处理。对于连续丢帧情况，预测出当前音频帧后，将该当前音频帧作为已有音频帧参与下一轮的当前音频帧的预测处理，也就是说，无论是针对单个帧丢失的情况，还是针对连续丢帧的情况，本实施例的处理方法的流程没有改变。

[0070] S203：如果帧状态为完好状态，则使用当前音频帧和该当前音频帧之前的第一数量的已有音频帧的时域信号作为训练数据，对音频预测模型进行训练，并更新音频预测模型，以及将处于完好状态的当前音频帧进行输出。该步骤主要是利用未发生丢帧的数据对模型进行在线训练，以不断完善音频预测模型。此外，上述的音频预测模型可以是预先经过离线训练的模型，离线训练可以采用较大的综合性训练数据集，经过离线训练的音频预测模型可以满足基本的丢帧预测，然后部署到各个播放端后，经过一定时间的在线训练，可以满足各个播放端所处的网络环境以及播放直播的具体情况。在线训练可以包括针对单个帧丢失的预测训练和针对连续帧丢失的预测训练。

[0071] 单个帧丢失的情况为较为常规的丢包现象，因此，在线训练会主要针对单个帧丢失情况而进行。具体地训练方式可以包括：将与当前音频帧连续的第一数量的已有音频帧的时域信号作为训练模型的输入，根据当前音频帧(解码器输出的未丢失的帧)和训练模型的输出结果(假定发生丢帧情况下模型预测出的音频帧)之间的差异，对音频预测模型的模型参数进行调整。

[0072] 连续帧丢失的情况相对于单个帧丢失的情况而言，其频度较低，因此，在进行在线训练时，针对连续帧丢失情况的训练可以以预设的概率来触发。具体的训练方式可以包括：以预设的概率，使用与当前音频帧间隔的第一数量的已有音频帧的时域信号作为训练模型的输入，进行连续丢帧的预测训练，根据当前音频帧(解码器输出的未丢失的帧)和训练模型的输出结果(假定发生丢连续帧情况下模型预测出的音频帧)之间的差异，对音频预测模型的模型参数进行调整。需要说明的是，对于连续丢帧情况下的帧预测处理和单个帧丢失情况的预测处理是一样的，只不过，在连续丢帧的情况下，会将预测出来的音频帧作为已有音频帧，参与到下一个丢失的帧的预测处理中。这里所说的间隔就是连续丢帧的范围，需要在训练过程中进行逐帧预测，直到预测到当前音频帧为止，然后再用真实的当前音频帧(解码器输出的未丢失的帧)与预测出的当前音频帧(假定发生连续丢帧情况下模型预测出的音频帧)进行比较，来修正模型参数。

[0073] 此外，上述的音频预测模型也可以和不同的直播端进行对应配置，从而使得音频预测模能够适应直播端的音频特征，例如，直播端的网络状态以及主播的语音特点等，从而在出现音频帧丢失的情况下，更加准确地进行预测。为了进一步提高音频预测模型的泛化处理能力，还可以以预设的时间间隔，将与各个直播端对应的多个音频预测模型进行融合处理，将融合后的音频预测模型更新到播放端上。进一步地，在进行融合处理的过程中，可以采用加权融合处理的方式，可以针对不同的直播端，增加该直播端的权重，从而使得融合结果既具有泛化性还能保持当前直播端的特性。即各个直播端的音频预测模型在融合过程中，会增加自身的权重，从而得到融合模型是仍然保持了自身的特点，同时还能兼顾从其他播放端对应的音频预测模型所获取的泛化能力。

[0074] 本发明实施例的音频丢包补偿处理方法，采用了在线训练加离线训练的模式，其中，离线辅助训练充分利用了语音信号的广义相关性，构建具备基本音频帧预测能力的模型，而在线训练则针对语音信号的局部高动态特性，在合理模型复杂度的前提下实现了对局部变化的准确跟踪，是的模型能够更适用于应对实际场景中复杂多变的网络状况和多种多样的语者特性，解决了泛化性不稳定的问题。

[0075] 实施例三

[0076] 如图5所示，其为本发明实施例的音频丢包补偿处理装置的结构示意图，该装置可以应用于直播场景下，具体可以应用在例如智能手机、计算机等播放端设备上，该装置可以基于图1所示的深度神经网络模型来进行处理，具体地，该装置包括：

[0077] 音频帧获取模块11，用于在出现音频丢包的情况下，获取过去第一数量的已有音频帧的时域信号。在本发明实施例中，输入音频预测模型进行处理的是音频帧的时域信号而非经过频率采样的频域信号，这样的处理能够更多的保留音频帧的原始信息，并将特征提取的细节处理交由音频预测模型来处理，避免由于在进行未进入模型前而进行频域特征提取时造成的信息丢失。已有音频帧是相对于当前要预测的音频帧而言，在时间维度上过去的音频帧，一般采用与当前音频帧连续的数个音频帧对当前丢失的音频帧进行预测。

[0078] 声学特征提取模块12，用于对该第一数量的已有音频帧的时域信号进行声学特征提取，生成已有音频帧的声学特征。对于声学特征的提取可以采用多个分支的一维卷积网络所构成的声学特征提取网络来实现，具体地，该部分处理可以包括：使用多个分支的一维卷积网络，对该第一数量的已有音频帧的时域信号进行声学特征提取，生成多个低维度的声学特征，然后，对多个低维度的声学特征，进行聚合处理，生成已有音频帧的声学特征。具体可以采用注意力模块进行聚合处理，为各个分支提取的低维度的声学特征分配合理的权重。此外，还可以包括对预设数量的已有音频帧的声学特征进行缓存，用于后续音频帧的预测处理。。

[0079] 语义理解模块13，对该第一数量的已有音频帧的时域信号进行语义特征提取，以及基于提取出的语义特征进行语义理解，生成已有音频帧对应的语义表达。在语义理解方面，本发明实施例也可以采用了一维卷积网络的结构来进行语义方面的特征提取，然后，再使用GRU网络基于提取出的语义特征进行语义理解，生成已有音频帧对应的音素级别的语义表达。这里所说的音素级别是指一个发音单元，可能是一个字或者半个字。

[0080] 音频帧预测模块14，用于根据声学特征和语义表达，预测当前音频帧的时域信号，用于音频丢包补偿。对于最后的预测处理，也可以采用GRU网络来实现，通过GRU网络根据声学特征和语义表达，预测当前音频帧的时域信号。其中，该部分的GRU网络中采用稀疏化的模型参数，从而进一步减少运算量，提高模型的在线处理速度。

[0081] 本发明的实施例的音频预测的处理装置可以应用于丢失单个音频帧的情形，也可以适用于连续丢失音频帧的情形，在出现连续多个帧丢失的情况下，通过过去的多个已有音频帧来预测丢失的第一个音频帧，然后再将该第一音频帧作为已有音频帧和过去的多个音频帧一起，预测下一个丢失的音频帧，从而实现连续丢帧的预测。

[0082] 对于上述处理过程具体说明、技术原理详细说明以及技术效果详细分析在前面实施例中进行了详细描述，在此不再赘述。

[0083] 在本发明实施例音频丢包补偿处理装置，通过在进行音频帧预测的过程中，直接对音频帧的原始的时序信号进行特征提取，避免了音频特征的信息损失，使得预测出的音频帧更加准确并且能够获得更加自然的语音效果，此外，在进行音频帧预测过程中，引入了语义理解辅助，而基于原始的时序信号进行语义特征提取，保留更加全面的语音信息，从而能够提高语义理解的准确度，进而能够更加准确地预测出丢失的音频帧。

[0084] 实施例四

[0085] 如图6所示，其为本发明实施例的音频丢包补偿处理装置的结构示意图，该装置可以应用于直播场景下，具体可以应用例如智能手机、计算机等播放端设备上，该装置包括：

[0086] 音频帧获取模块21，用于获取当前音频帧的时域信号和帧状态。其中，当前音频帧和帧状态是播放端的解码器对接收到的音频数据进行解码后的输出结果。这里所说的时域信号可以具体为一组浮点数，浮点数的数量取决于采样点数，如果出现丢帧的情况，该音频帧的时域信号为全零，不过，在出现静音状态时，音频帧的时域信号也可能为全零，因此，该音频帧是否为丢帧还是取决于帧状态的值。帧状态可以采用二进制的数据位来表示，例如，丢帧为0未丢帧为1。解码器可以通过帧序号的连续性来确定当前音频帧是否存在丢帧的情形。

[0087] 音频预测模块22，用于在帧状态为丢失状态的情况下，使用音频预测模型，根据该当前音频帧之前的第一数量的已有音频帧的时域信号，对当前音频帧的时域信号进行预测，将预测结果作为当前音频帧进行输出。具体的音频预测的处理过程可以采用前述实施例的处理过程，此外，如前面介绍的，这里的预测处理可能是针对单个帧丢失的预测处理，也可能是在出现连续帧丢失情况下的预测处理。对于连续丢帧情况，预测出当前音频帧后，将该当前音频帧作为已有音频帧参与下一轮的当前音频帧的预测处理。

[0088] 模型训练处理模块23，用于在帧状态为完好状态的情况下，使用当前音频帧和该当前音频帧之前的第一数量的已有音频帧的时域信号作为训练数据，对音频预测模型进行训练，并更新音频预测模型，以及将处于完好状态的当前音频帧进行输出。模型训练处理模块23的处理主要是利用未发生丢帧的数据对模型进行在线训练，以不断完善音频预测模型。上述的音频预测模型可以是预先经过离线训练的模型，离线训练可以采用较大的综合性训练数据集，经过离线训练的音频预测模型可以满足基本的丢帧预测，然后部署到各个播放端后，经过一定时间的在线训练，可以满足各个播放端所处的网络环境以及播放直播的具体情况。在线训练可以包括针对单个帧丢失的预测训练和针对连续帧丢失的预测训练。

[0089] 单个帧丢失的情况为较为常规的丢包现象，因此，在线训练会主要针对单个帧丢失情况而进行。具体地训练方式可以包括：将与当前音频帧连续的第一数量的已有音频帧的时域信号作为训练模型的输入，根据当前音频帧(解码器输出的未丢失的帧)和训练模型的输出结果(假定发生丢帧情况下模型预测出的音频帧)之间的差异，对音频预测模型的模型参数进行调整。

[0090] 连续帧丢失的情况相对于单个帧丢失的情况而言，其频度较低，因此，在进行在线训练时，针对连续帧丢失情况的训练可以以预设的概率来触发。具体的训练方式可以包括：以预设的概率，使用与当前音频帧间隔的第一数量的已有音频帧的时域信号作为训练模型的输入，进行连续丢帧的预测训练，根据当前音频帧(解码器输出的未丢失的帧)和训练模型的输出结果(假定发生丢连续帧情况下模型预测出的音频帧)之间的差异，对音频预测模型的模型参数进行调整。

[0091] 本发明实施例的音频丢包补偿处理装置，采用了在线训练加离线训练的模式，其中，离线辅助训练充分利用了语音信号的广义相关性，构建具备基本音频帧预测能力的模型，而在线训练则针对语音信号的局部高动态特性，在合理模型复杂度的前提下实现了对局部变化的准确跟踪，是的模型能够更适用于应对实际场景中复杂多变的网络状况和多种多样的语者特性，解决了泛化性不稳定的问题。

[0092] 实施例五

[0093] 前面实施例描述了音频丢包补偿的流程处理及装置结构，上述的方法和装置的功能可借助一种电子设备实现完成，如图7所示，其为本发明实施例的电子设备的结构示意图，具体包括：存储器110和处理器120。

[0094] 存储器110，用于存储程序。

[0095] 除上述程序之外，存储器110还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

[0096] 存储器110可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

[0097] 处理器120，耦合至存储器110，用于执行存储器110中的程序，以执行前述实施例中所描述的音频丢包补偿处理方法的操作步骤。

[0098] 此外，处理器120也可以包括前述实施例所描述的各种模块以执行音频丢包补偿处理方法的处理过程，并且存储器110可以例如用于存储这些模块执行操作所需要的数据和/或所输出的数据。

[0099] 对于上述处理过程具体说明、技术原理详细说明以及技术效果详细分析在前面实施例中进行了详细描述，在此不再赘述。

[0100] 进一步，如图所示，电子设备还可以包括：通信组件130、电源组件140、音频组件150、显示器160等其它组件。图中仅示意性给出部分组件，并不意味着电子设备只包括图中所示组件。

[0101] 通信组件130被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件130经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件130还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

[0102] 电源组件140，为电子设备的各种组件提供电力。电源组件140可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

[0103] 音频组件150被配置为输出和/或输入音频信号。例如，音频组件150包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器110或经由通信组件130发送。在一些实施例中，音频组件150还包括一个扬声器，用于输出音频信号。

[0104] 显示器160包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

[0105] 本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

[0106] 最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

音频丢包补偿处理方法、装置及电子设备转让专利

申请号 : CN202011606515.8

文献号 : CN113035205B

文献日 : 2022-06-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 汤兴 , 宋琦 , 王立波 , 吴桂林 , 陈举锋 , 伍倡辉

申请人 : 阿里巴巴(中国)有限公司

摘要 :

权利要求 :

说明书 :

音频丢包补偿处理方法、装置及电子设备

技术领域

背景技术

发明内容

附图说明

具体实施方式