一种基于深度学习的音视频处理方法和装置转让专利

申请号 : CN202111495106.X

文献号 : CN114363631B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 余丹兰雨晴黄永琢王丹星唐霆岳

申请人 : 慧之安信息技术股份有限公司

摘要 :

本申请提供了一种基于深度学习的音视频处理方法和装置,涉及数据处理技术领域。该方法通过深度学习与神经网络对被压缩过的音视频流进行预测,得到预测出的每一帧数据;根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度;随后根据相关数据准确度和非相关数据准确度来判断当前深度学习与神经网络预测的级别;进而将预测的级别以二进制的形式传输至工作人员的终端,并在终端以点亮条格的形式展现出来。可以看到,本申请实施例通过深度学习与神经网络的预测代替传统的函数预测方案,对压缩之后的音视频帧进行预测,可以提高预测的效率。

权利要求 :

1.一种基于深度学习的音视频处理方法,其特征在于,包括以下步骤:

通过深度学习与神经网络对被压缩过的音视频流进行预测,得到预测出的每一帧数据;

根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度;

根据所述相关数据准确度和所述非相关数据准确度来判断当前深度学习与神经网络预测的级别;

将所述预测的级别以二进制的形式传输至工作人员的终端,并在终端以点亮条格的形式展现出来;

其中,利用如下公式根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度:其中L(i)表示通过深度学习与神经网络预测的第i帧的相关数据准确度;F(i)表示通过深度学习与神经网络预测的第i帧的非相关数据准确度;其中若 则L(i)=1,若 则F(i)=1;Di(a)表示通过深度学习与神经网络预测的第i帧二进制形式数据中的第a位上的二进制数;Di,0(a)表示音视频流的原始数据的第i帧二进制形式数据中的第a位上的二进制数;Gi(a)表示特征检测函数,若音视频流的原始数据的第i帧二进制形式数据中第a位上的二进制数为特征数即可反映音视频流的特征数值时函数值Gi(a)=1,反之函数值Gi(a)=0;mi表示音视频流的原始数据的第i帧二进制形式数据中二进制数的位数;| |表示求取绝对值;[]10表示将括号内的数值转换为十进制。

2.根据权利要求1所述的基于深度学习的音视频处理方法,其特征在于,所述条格为终端上存在一个多行一列的竖条格,所述竖条格的每一行即为一个独立条格,每一行的独立条格都可以单独被控制进行点亮和熄灭。

3.根据权利要求2所述的基于深度学习的音视频处理方法,其特征在于,利用如下公式根据所述相关数据准确度和所述非相关数据准确度得到传输至工作人员终端的二进制数据:其中(C)2表示传输至工作人员终端二进制形式的数据;n表示音视频流的总帧数;∧表示逻辑与;()2表示括号内的数为二进制形式的数据。

4.根据权利要求3所述的基于深度学习的音视频处理方法,其特征在于,利用如下公式根据终端接收到的二进制数据控制所述竖条格状条上的独立条格进行点亮:其中k表示所述竖条格状条上的独立条格控制点亮个数;K表示所述竖条格状条上的独立条格总数。

5.一种基于深度学习的音视频处理装置,其特征在于,包括:

预测模块,用于通过深度学习与神经网络对被压缩过的音视频流进行预测,得到预测出的每一帧数据;

比较模块,用于根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度;

判断模块,用于根据所述相关数据准确度和所述非相关数据准确度来判断当前深度学习与神经网络预测的级别;

传输模块,用于将所述预测的级别以二进制的形式传输至工作人员的终端,并在终端以点亮条格的形式展现出来;

其中,所述比较模块还用于:

利用如下公式根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度:其中L(i)表示通过深度学习与神经网络预测的第i帧的相关数据准确度;F(i)表示通过深度学习与神经网络预测的第i帧的非相关数据准确度;其中若 则L(i)=1,若 则F(i)=1;Di(a)表示通过深度学习与神经网络预测的第i帧二进制形式数据中的第a位上的二进制数;Di,0(a)表示音视频流的原始数据的第i帧二进制形式数据中的第a位上的二进制数;Gi(a)表示特征检测函数,若音视频流的原始数据的第i帧二进制形式数据中第a位上的二进制数为特征数即可反映音视频流的特征数值时函数值Gi(a)=1,反之函数值Gi(a)=0;mi表示音视频流的原始数据的第i帧二进制形式数据中二进制数的位数;| |表示求取绝对值;[]10表示将括号内的数值转换为十进制。

6.根据权利要求5所述的基于深度学习的音视频处理装置,其特征在于,所述条格为终端上存在一个多行一列的竖条格,所述竖条格的每一行即为一个独立条格,每一行的独立条格都可以单独被控制进行点亮和熄灭。

7.根据权利要求6所述的基于深度学习的音视频处理装置,其特征在于,所述传输模块还用于:利用如下公式根据所述相关数据准确度和所述非相关数据准确度得到传输至工作人员终端的二进制数据:其中(C)2表示传输至工作人员终端二进制形式的数据;n表示音视频流的总帧数;∧表示逻辑与;()2表示括号内的数为二进制形式的数据。

8.根据权利要求7所述的基于深度学习的音视频处理装置,其特征在于,还包括:控制模块,用于利用如下公式根据终端接收到的二进制数据控制所述竖条格状条上的独立条格进行点亮:其中k表示所述竖条格状条上的独立条格控制点亮个数;K表示所述竖条格状条上的独立条格总数。

说明书 :

一种基于深度学习的音视频处理方法和装置

技术领域

[0001] 本申请涉及数据处理技术领域,尤其涉及一种基于深度学习的音视频处理方法和装置。

背景技术

[0002] 音视频压缩的目标是在尽可能保证听觉和视觉效果的前提下减少音视频数据率,音视频压缩比一般指压缩后的数据量与压缩前的数据量之比。相关技术中对音视频的压缩主要是只保留I帧以及其他帧的运动向量,从I帧预测出P帧与B帧,预测方法较为固定,需要存储很多信息,耗费计算资源。虽然这样的编码方式可以将码流压缩至很小,但是很难从已经压缩过的码流预测还原出未压缩过的完整码流,故当需要完整码流时只能重新传输完整码流。因此,亟需解决这一技术问题。

发明内容

[0003] 鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的基于深度学习的音视频处理方法和装置,通过深度学习与神经网络的预测代替传统的函数预测方案,可以提高预测的效率。所述技术方案如下:
[0004] 第一方面,提供了一种基于深度学习的音视频处理方法,包括以下步骤:
[0005] 通过深度学习与神经网络对被压缩过的音视频流进行预测,得到预测出的每一帧数据;
[0006] 根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度;
[0007] 根据所述相关数据准确度和所述非相关数据准确度来判断当前深度学习与神经网络预测的级别;
[0008] 将所述预测的级别以二进制的形式传输至工作人员的终端,并在终端以点亮条格的形式展现出来。
[0009] 在一种可能的实现方式中,所述条格为终端上存在一个多行一列的竖条格,所述竖条格的每一行即为一个独立条格,每一行的独立条格都可以单独被控制进行点亮和熄灭。
[0010] 在一种可能的实现方式中,利用如下公式根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度:
[0011]
[0012]
[0013] 其中L(i)表示通过深度学习与神经网络预测的第i帧的相关数据准确度;F(i)表示通过深度学习与神经网络预测的第i帧的非相关数据准确度;其中若则L(i)=1,若 则F(i)=1;Di(a)表示通过深度学习与神经网络预测
的第i帧二进制形式数据中的第a位上的二进制数;Di,0(a)表示音视频流的原始数据的第i帧二进制形式数据中的第a位上的二进制数;Gi(a)表示特征检测函数,若音视频流的原始数据的第i帧二进制形式数据中第a位上的二进制数为特征数即可反映音视频流的特征数值时函数值Gi(a)=1,反之函数值Gi(a)=0;mi表示音视频流的原始数据的第i帧二进制形式数据中二进制数的位数;||表示求取绝对值;[]10表示将括号内的数值转换为十进制。
[0014] 在一种可能的实现方式中,利用如下公式根据所述相关数据准确度和所述非相关数据准确度得到传输至工作人员终端的二进制数据:
[0015]
[0016] 其中(C)2表示传输至工作人员终端二进制形式的数据;n表示音视频流的总帧数;∧表示逻辑与;()2表示括号内的数为二进制形式的数据。
[0017] 在一种可能的实现方式中,利用如下公式根据终端接收到的二进制数据控制所述竖条格状条上的独立条格进行点亮:
[0018]
[0019] 其中k表示所述竖条格状条上的独立条格控制点亮个数;K表示所述竖条格状条上的独立条格总数。
[0020] 第二方面,提供了一种基于深度学习的音视频处理装置,包括:
[0021] 预测模块,用于通过深度学习与神经网络对被压缩过的音视频流进行预测,得到预测出的每一帧数据;
[0022] 比较模块,用于根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度;
[0023] 判断模块,用于根据所述相关数据准确度和所述非相关数据准确度来判断当前深度学习与神经网络预测的级别;
[0024] 传输模块,用于将所述预测的级别以二进制的形式传输至工作人员的终端,并在终端以点亮条格的形式展现出来。
[0025] 在一种可能的实现方式中,所述条格为终端上存在一个多行一列的竖条格,所述竖条格的每一行即为一个独立条格,每一行的独立条格都可以单独被控制进行点亮和熄灭。
[0026] 在一种可能的实现方式中,所述比较模块还用于:
[0027] 利用如下公式根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度:
[0028]
[0029]
[0030] 其中L(i)表示通过深度学习与神经网络预测的第i帧的相关数据准确度;F(i)表示通过深度学习与神经网络预测的第i帧的非相关数据准确度;其中若则L(i)=1,若 则F(i)=1;Di(a)表示通过深度学习与神经网络预测
的第i帧二进制形式数据中的第a位上的二进制数;Di,0(a)表示音视频流的原始数据的第i帧二进制形式数据中的第a位上的二进制数;Gi(a)表示特征检测函数,若音视频流的原始数据的第i帧二进制形式数据中第a位上的二进制数为特征数即可反映音视频流的特征数值时函数值Gi(a)=1,反之函数值Gi(a)=0;mi表示音视频流的原始数据的第i帧二进制形式数据中二进制数的位数;||表示求取绝对值;[]10表示将括号内的数值转换为十进制。
[0031] 在一种可能的实现方式中,所述传输模块还用于:
[0032] 利用如下公式根据所述相关数据准确度和所述非相关数据准确度得到传输至工作人员终端的二进制数据:
[0033]
[0034] 其中(C)2表示传输至工作人员终端二进制形式的数据;n表示音视频流的总帧数;∧表示逻辑与;()2表示括号内的数为二进制形式的数据。
[0035] 在一种可能的实现方式中,所述装置还包括:
[0036] 控制模块,用于利用如下公式根据终端接收到的二进制数据控制所述竖条格状条上的独立条格进行点亮:
[0037]
[0038] 其中k表示所述竖条格状条上的独立条格控制点亮个数;K表示所述竖条格状条上的独立条格总数。
[0039] 借由上述技术方案,本申请实施例提供的基于深度学习的音视频处理方法和装置,首先通过深度学习与神经网络对被压缩过的音视频流进行预测,得到预测出的每一帧数据;根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度;随后根据相关数据准确度和非相关数据准确度来判断当前深度学习与神经网络预测的级别;进而将预测的级别以二进制的形式传输至工作人员的终端,并在终端以点亮条格的形式展现出来。可以看到,本申请实施例通过深度学习与神经网络的预测代替传统的函数预测方案,对压缩之后的音视频帧进行预测,可以提高预测的效率。

附图说明

[0040] 为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
[0041] 图1示出了本申请实施例的基于深度学习的音视频处理方法的流程图;
[0042] 图2示出了本申请实施例的基于深度学习的音视频处理装置的结构图;
[0043] 图3示出了本申请另一实施例的基于深度学习的音视频处理装置结构图。

具体实施方式

[0044] 下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
[0045] 需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。
[0046] 本申请实施例提供了一种基于深度学习的音视频处理方法,可以应用在移动终端、个人电脑、平板电脑等电子设备。如图1所示,该基于深度学习的音视频处理方法可以包括以下步骤S101至S104:
[0047] 步骤S101,通过深度学习与神经网络对被压缩过的音视频流进行预测,得到预测出的每一帧数据;
[0048] 步骤S102,根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度;
[0049] 步骤S103,根据相关数据准确度和非相关数据准确度来判断当前深度学习与神经网络预测的级别;
[0050] 步骤S104,将预测的级别以二进制的形式传输至工作人员的终端,并在终端以点亮条格的形式展现出来。
[0051] 本申请实施例首先通过深度学习与神经网络对被压缩过的音视频流进行预测,得到预测出的每一帧数据;根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度;随后根据相关数据准确度和非相关数据准确度来判断当前深度学习与神经网络预测的级别;进而将预测的级别以二进制的形式传输至工作人员的终端,并在终端以点亮条格的形式展现出来。可以看到,本申请实施例通过深度学习与神经网络的预测代替传统的函数预测方案,对压缩之后的音视频帧进行预测,可以提高预测的效率。
[0052] 本申请实施例中提供了一种可能的实现方式,所述条格为终端上存在一个多行一列的竖条格,所述竖条格的每一行即为一个独立条格,每一行的独立条格都可以单独被控制进行点亮和熄灭。
[0053] 本申请实施例中提供了一种可能的实现方式,上文步骤S102中根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度,具体可以利用如下公式根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度:
[0054]
[0055]
[0056] 其中L(i)表示通过深度学习与神经网络预测的第i帧的相关数据准确度;F(i)表示通过深度学习与神经网络预测的第i帧的非相关数据准确度;其中若则L(i)=1,若 则F(i)=1;Di(a)表示通过深度学习与神经网络预测
的第i帧二进制形式数据中的第a位上的二进制数;Di,0(a)表示音视频流的原始数据的第i帧二进制形式数据中的第a位上的二进制数;Gi(a)表示特征检测函数,若音视频流的原始数据的第i帧二进制形式数据中第a位上的二进制数为特征数即可反映音视频流的特征数值时函数值Gi(a)=1,反之函数值Gi(a)=0;mi表示音视频流的原始数据的第i帧二进制形式数据中二进制数的位数;||表示求取绝对值;[]10表示将括号内的数值转换为十进制。
[0057] 本申请实施例根据对预测出的每一帧数据与原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度,进而将准确度分为两部分来对深度学习与神经网络算法进行分析,一是可以保证对深度学习与神经网络算法的预测方向有一个大致了解,二是可以通过两个准确度来定性算法的级别。
[0058] 本申请实施例中提供了一种可能的实现方式,上文步骤S103根据相关数据准确度和非相关数据准确度来判断当前深度学习与神经网络预测的级别以及步骤S104将预测的级别以二进制的形式传输至工作人员的终端,具体可以利用如下公式根据相关数据准确度和非相关数据准确度得到传输至工作人员终端的二进制数据:
[0059]
[0060] 其中(C)2表示传输至工作人员终端二进制形式的数据;n表示音视频流的总帧数;∧表示逻辑与;()2表示括号内的数为二进制形式的数据。
[0061] 本申请实施例根据相关数据准确度和非相关数据准确度得到传输至工作人员终端的二进制数据,由于数据传输二进制是最快最高效也是最方便的,因此以二进制的形式来代表两个准确度的级别进行传输即高效又方便。
[0062] 本申请实施例中提供了一种可能的实现方式,上文步骤S104中将预测的级别以二进制的形式传输至工作人员的终端,并在终端以点亮条格的形式展现出来,具体可以利用如下公式根据终端接收到的二进制数据控制竖条格状条上的独立条格进行点亮:
[0063]
[0064] 其中k表示竖条格状条上的独立条格控制点亮个数;K表示竖条格状条上的独立条格总数。
[0065] 本申请实施例通过上述步骤得到的点亮个数对竖条格状条上的独立条格按照从下到上的顺序点亮独立条格,即将独立条格从无填充颜色变为白色填充;进而工作人员可以通过观察终端上点亮的独立条格个数来知晓当前深度学习与神经网络预测的级别,进而优化或改进深度学习与神经网络算法,使之级别更高,算法更完善。
[0066] 需要说明的是,实际应用中,上述所有可能的实施方式可以采用结合的方式任意组合,形成本申请的可能的实施例,在此不再一一赘述。
[0067] 基于上文各个实施例提供的基于深度学习的音视频处理方法,基于同一发明构思,本申请实施例还提供了一种基于深度学习的音视频处理装置。
[0068] 图2示出了根据本申请实施例的基于深度学习的音视频处理装置的结构图。如图2所示,该基于深度学习的音视频处理装置可以包括预测模块210、比较模块220、判断模块230以及传输模块240。
[0069] 预测模块210,用于通过深度学习与神经网络对被压缩过的音视频流进行预测,得到预测出的每一帧数据;
[0070] 比较模块220,用于根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度;
[0071] 判断模块230,用于根据相关数据准确度和非相关数据准确度来判断当前深度学习与神经网络预测的级别;
[0072] 传输模块240,用于将预测的级别以二进制的形式传输至工作人员的终端,并在终端以点亮条格的形式展现出来。
[0073] 本申请实施例中提供了一种可能的实现方式,条格为终端上存在一个多行一列的竖条格,竖条格的每一行即为一个独立条格,每一行的独立条格都可以单独被控制进行点亮和熄灭。
[0074] 本申请实施例中提供了一种可能的实现方式,上文图2展示的比较模块220还用于:
[0075] 利用如下公式根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度:
[0076]
[0077]
[0078] 其中L(i)表示通过深度学习与神经网络预测的第i帧的相关数据准确度;F(i)表示通过深度学习与神经网络预测的第i帧的非相关数据准确度;其中若则L(i)=1,若 则F(i)=1;Di(a)表示通过深度学习与神经网络预测
的第i帧二进制形式数据中的第a位上的二进制数;Di,0(a)表示音视频流的原始数据的第i帧二进制形式数据中的第a位上的二进制数;Gi(a)表示特征检测函数,若音视频流的原始数据的第i帧二进制形式数据中第a位上的二进制数为特征数即可反映音视频流的特征数值时函数值Gi(a)=1,反之函数值Gi(a)=0;mi表示音视频流的原始数据的第i帧二进制形式数据中二进制数的位数;||表示求取绝对值;[]10表示将括号内的数值转换为十进制。
[0079] 本申请实施例中提供了一种可能的实现方式,上文图2展示的传输模块240还用于:
[0080] 利用如下公式根据相关数据准确度和非相关数据准确度得到传输至工作人员终端的二进制数据:
[0081]
[0082] 其中(C)2表示传输至工作人员终端二进制形式的数据;n表示音视频流的总帧数;∧表示逻辑与;()2表示括号内的数为二进制形式的数据。
[0083] 本申请实施例中提供了一种可能的实现方式,如图3所示,上文图2展示的装置还可以包括:
[0084] 控制模块310,用于利用如下公式根据终端接收到的二进制数据控制竖条格状条上的独立条格进行点亮:
[0085]
[0086] 其中k表示竖条格状条上的独立条格控制点亮个数;K表示竖条格状条上的独立条格总数。
[0087] 本申请实施例根据终端接收到的二进制数据控制竖条格状条上的独立条格进行点亮,从而工作人员可以根据竖条格状条上的独立条格的点亮情况知晓当前深度学习与神经网络预测的级别,进而优化或改进深度学习与神经网络算法,使之级别更高,算法更完善。
[0088] 本申请实施例提供的基于深度学习的音视频处理装置,首先通过深度学习与神经网络对被压缩过的音视频流进行预测,得到预测出的每一帧数据;根据对预测出的每一帧数据与音视频流的原始数据进行比较,分别得到预测的每一帧的相关数据准确度和非相关数据准确度;随后根据相关数据准确度和非相关数据准确度来判断当前深度学习与神经网络预测的级别;进而将预测的级别以二进制的形式传输至工作人员的终端,并在终端以点亮条格的形式展现出来。可以看到,本申请实施例通过深度学习与神经网络的预测代替传统的函数预测方案,对压缩之后的音视频帧进行预测,可以提高预测的效率。
[0089] 所属领域的技术人员可以清楚地了解到,上述描述的系统、装置、模块的具体工作过程,可以参考前述方法实施例中的对应过程,为简洁起见,在此不另赘述。
[0090] 本领域普通技术人员可以理解:本申请的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,其包括若干程序指令,用以使得一电子设备(例如个人计算机,服务器,或者网络设备等)在运行所述程序指令时执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0091] 或者,实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机,服务器,或者网络设备等的电子设备)来完成,所述程序指令可以存储于一计算机可读取存储介质中,当所述程序指令被电子设备的处理器执行时,所述电子设备执行本申请各实施例所述方法的全部或部分步骤。
[0092] 以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:在本申请的精神和原则之内,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案脱离本申请的保护范围。