一种网络直播视频的压缩伪影去除方法及装置转让专利

申请号 : CN202110649651.3

文献号 : CN113542780B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李嘉锋高宇麒张菁郜征徐晗

申请人 : 北京工业大学

摘要 :

本发明提供一种网络直播视频的压缩伪影去除方法,该方法包括:获取压缩视频;将所述压缩视频输入压缩伪影去除模型中,得到所述压缩伪影去除模型输出的与所述压缩视频相对应的高质量恢复视频;其中,所述压缩伪影去除模型利用循环神经网络RNN和膨胀卷积,对未知压缩码率且含有压缩伪影的所述压缩视频进行恢复,以生成所述高质量恢复视频。本发明可以在未知压缩码率的状况下,通过使用单个网络模型来恢复压缩视频,从而可以提供高质量的网络直播视频。

权利要求 :

1.一种网络直播视频的压缩伪影去除方法,其特征在于,包括:

获取压缩视频;

将所述压缩视频输入压缩伪影去除模型中,得到所述压缩伪影去除模型输出的与所述压缩视频相对应的高质量恢复视频;

其中,所述压缩伪影去除模型利用循环神经网络RNN和膨胀卷积,对未知压缩码率且含有压缩伪影的所述压缩视频进行恢复,以生成所述高质量恢复视频,其中,所述循环神经网络包括:底层特征提取模块、循环模块、图像重建模块和跳跃连接;所述循环模块包括:N个卷积组和两个用于调整输出通道的卷积层ConvA和ConvB,其中N等于4;所述卷积组包括:三个不同膨胀率的并行卷积、多尺度特征融合层和密集残差连接;

并且

其中,所述循环模块的输入为前一次迭代时循环模块产生的输出,与当前循环神经网络中提取的图像浅层特征的拼接;

所述循环模块提取到的高水平特征信息分别作为下一次循环神经网络迭代时所述循环模块的输入和当前迭代时所述图像重建模块的输入;

所述循环模块中膨胀率较小的卷积核ConvS充分地提取图像的细节信息;所述循环模块中膨胀率较大的卷积核ConvM和ConvL提升循环神经网络的感受野,获得局部信息;

每个膨胀率相同的膨胀卷积之间使用密集残差连接,以使得低质量视频中存在的图像信息在循环神经网络中传输;

对于三个并行卷积的输出,按通道方向进行拼接后,通过一个多尺度特征融合模块ConvF来融合三个膨胀卷积提取的不同感受野的信息,生成卷积组的输出。

2.根据权利要求1所述的网络直播视频的压缩伪影去除方法,其特征在于,所述底层特征提取模块包括两个卷积层Conv1和Conv2,其中,所述底层特征提取模块提取到的图像浅层特征信息和前一次迭代时所述循环模块提取的高水平特征信息,按通道维度进行拼接后输入到所述循环模块中,使用所述循环模块进一步处理,以提取图像的高层语义特征信息。

3.根据权利要求1所述的网络直播视频的压缩伪影去除方法,其特征在于,所述图像重建模块包括卷积层Conv3,所述卷积层Conv3对所述循环模块提取的特征进行重建,从而得到恢复高质量视频的残差信息。

4.根据权利要求1所述的网络直播视频的压缩伪影去除方法,其特征在于,所述跳跃连接将所述高质量视频残差信息与低质量输入视频相加,得到去除压缩伪影后的高质量恢复视频。

5.根据权利要求1‑4任一项所述的网络直播视频的压缩伪影去除方法,其特征在于,所述循环神经网络中所有激活函数使用PReLU激活函数。

6.根据权利要求1所述的网络直播视频的压缩伪影去除方法,其特征在于,所述方法还包括:训练所述压缩伪影去除模型,其中所述训练所述压缩伪影去除模型包括:

使用H.264算法对原始视频进行编码压缩;

将所述原始视频和编码压缩后的视频转换为视频帧,构成成对的视频样本库;

基于所述成对的视频样本库训练所述压缩伪影去除模型。

7.一种网络直播视频的压缩伪影去除装置,其特征在于,包括:

压缩视频获取单元,用于获取压缩视频;以及

压缩伪影去除单元,用于将所述压缩视频输入压缩伪影去除模型中,得到所述压缩伪影去除模型输出的与所述压缩视频相对应的高质量恢复视频,其中,所述压缩伪影去除模型利用循环神经网络RNN和膨胀卷积,对未知压缩码率且含有压缩伪影的所述压缩视频进行恢复,以生成所述高质量恢复视频,所述循环神经网络包括:底层特征提取模块、循环模块、图像重建模块和跳跃连接;所述循环模块包括:N个卷积组和两个用于调整输出通道的卷积层ConvA和ConvB,其中N等于4;所述卷积组包括:三个不同膨胀率的并行卷积、多尺度特征融合层和密集残差连接;并且其中,所述循环模块的输入为前一次迭代时循环模块产生的输出,与当前循环神经网络中提取的图像浅层特征的拼接;所述循环模块提取到的高水平特征信息分别作为下一次循环神经网络迭代时所述循环模块的输入和当前迭代时所述图像重建模块的输入;所述循环模块中膨胀率较小的卷积核ConvS充分地提取图像的细节信息;所述循环模块中膨胀率较大的卷积核ConvM和ConvL提升循环神经网络的感受野,获得局部信息;每个膨胀率相同的膨胀卷积之间使用密集残差连接,以使得低质量视频中存在的图像信息在循环神经网络中传输;对于三个并行卷积的输出,按通道方向进行拼接后,通过一个多尺度特征融合模块ConvF来融合三个膨胀卷积提取的不同感受野的信息,生成卷积组的输出。

8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的网络直播视频的压缩伪影去除方法的步骤。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述的网络直播视频的压缩伪影去除方法的步骤。

说明书 :

一种网络直播视频的压缩伪影去除方法及装置

技术领域

[0001] 本发明涉及数字图像/视频信号处理领域,更具体地,涉及一种网络直播视频的压缩伪影去除方法及装置。

背景技术

[0002] 近年来,随着视频采集设备的发展,网络直播视频分辨率变得越来越大,其所占用的传输带宽和存储空间也越来越大。为了节省直播视频的传输和存储成本,需要对高质量视频进行压缩。在对视频进行编码的过程中,一般都采用了有损压缩的算法,例如常见的H.264算法等。
[0003] H.264算法可以通过控制视频码率来调整视频压缩质量,然而,较低的视频码率在大幅减小视频体积的同时,会导致视频出现压缩块效应、振铃效应、模糊、锯齿等压缩伪影。这些因素会导致视频的质量严重退化,影响用户的主观观看体验。与此同时,存在大量压缩伪影的视频会影响后续的目标检测、图像分类、图像分割等智能化分析处理。因此,对高压缩比例导致的,产生压缩伪影的视频进行后处理,有效的去除压缩伪影具有重要意义。
[0004] 在许多压缩伪影去除的工作中,基于压缩码率未知的方法和压缩码率已知的方法都被考虑,其中已知码率方法假设压缩码率已知,通常比使用压缩码率未知的视频训练出来的单个网络表现得更好。已知码率方法有一个很大的缺点,即需要针对不同的压缩码率专门训练多个网络来恢复压缩视频。因此,通常需要占用大量内存,并且对于相近的压缩码率,模型之间可能存在冗余。一些现存的未知码率方法通过加深网络的深度来提高网络的感受野,使得网络能够适应各种压缩码率带来的伪影。然而较深的网络不能保证直播视频处理的实时性。

发明内容

[0005] 针对现有技术中的不足,本发明提供了一种网络直播视频的压缩伪影去除方法及装置,可以在未知压缩码率的状况下,以视频帧的方式,使用单个网络模型来恢复压缩视频,从而可以提供高质量的网络直播视频。
[0006] 具体地,本发明是通过以下技术方案来实现的:
[0007] 第一方面,本发明提供了一种网络直播视频的压缩伪影去除方法,其特征在于,包括:获取压缩视频;将所述压缩视频输入压缩伪影去除模型中,得到所述压缩伪影去除模型输出的与所述压缩视频相对应的高质量恢复视频;其中,所述压缩伪影去除模型利用循环神经网络RNN和膨胀卷积,对未知压缩码率且含有压缩伪影的所述压缩视频进行恢复,以生成所述高质量恢复视频。
[0008] 进一步地,所述循环神经网络包括:底层特征提取模块、循环模块、图像重建模块和跳跃连接。
[0009] 进一步地,所述循环模块包括:N个卷积组和两个用于调整输出通道的卷积层ConvA和ConvB,其中N等于4;所述卷积组包括:三个不同膨胀率的并行卷积、多尺度特征融合层和密集残差连接。
[0010] 进一步地,所述循环模块的输入为前一次迭代时循环模块产生的输出,与当前循环神经网络中提取的图像浅层特征的拼接;所述循环模块提取到的高水平特征信息分别作为下一次循环神经网络迭代时所述循环模块的输入和当前迭代时所述图像重建模块的输入;所述循环模块中膨胀率较小的卷积核ConvS充分地提取图像的细节信息;所述循环模块中膨胀率较大的卷积核ConvM和ConvL提升循环神经网络的感受野,获得局部信息;每个膨胀率相同的膨胀卷积之间使用密集残差连接,以使得低质量视频中存在的图像信息在循环神经网络中传输;对于三个并行卷积的输出,按通道方向进行拼接后,通过一个多尺度特征融合模块ConvF来融合三个膨胀卷积提取的不同感受野的信息,生成卷积组的输出。
[0011] 进一步地,所述底层特征提取模块包括两个卷积层Conv1和Conv2,其中所述底层特征提取模块提取到的图像浅层特征信息和前一次迭代时所述循环模块提取的高水平特征信息,按通道维度进行拼接后输入到所述循环模块中,使用所述循环模块进一步处理,以提取图像的高层语义特征信息。
[0012] 进一步地,所述图像重建模块包括卷积层Conv3,所述卷积层Conv3对所述循环模块提取的特征进行重建,从而得到恢复高质量视频的残差信息。
[0013] 进一步地,所述跳跃连接将所述高质量视频残差信息与低质量输入视频相加,得到去除压缩伪影后的高质量恢复视频。
[0014] 进一步地,所述循环神经网络中所有激活函数使用PReLU激活函数。
[0015] 进一步地,所述方法还包括:训练所述压缩伪影去除模型,其中所述训练所述压缩伪影去除模型包括:使用H.264算法对所述原始视频进行编码压缩;将所述原始视频和编码压缩后的视频转换为视频帧,构成成对的视频样本库;基于所述成对的视频样本库训练所述压缩伪影去除模型。
[0016] 第二方面,本发明提供了一种网络直播视频的压缩伪影去除装置,其特征在于,包括:压缩视频获取单元,用于获取压缩视频;以及压缩伪影去除单元,用于将所述压缩视频输入压缩伪影去除模型中,得到所述压缩伪影去除模型输出的与所述压缩视频相对应的高质量恢复视频,其中,所述压缩伪影去除模型利用循环神经网络RNN和膨胀卷积,对未知压缩码率且含有压缩伪影的所述压缩视频进行恢复,以生成所述高质量恢复视频。
[0017] 第三方面,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如第一方面中任一项所述的网络直播视频的压缩伪影去除方法的步骤。
[0018] 第四方面,本发明提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如第一方面中任一项所述的网络直播视频的压缩伪影去除方法的步骤。
[0019] 本发明通过训练所述压缩伪影去除模型,将压缩视频输入所述压缩伪影去除模型中,利用循环神经网络RNN和膨胀卷积,对未知压缩码率且含有压缩伪影的所述压缩视频进行恢复,得到了高质量恢复视频,从而可以在未知压缩码率的状况下,使用单个网络模型来恢复压缩视频,更经济有效地提供高质量的网络直播视频。

附图说明

[0020] 为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021] 图1是根据本发明的一个实施例的网络直播视频的压缩伪影去除方法的流程图;
[0022] 图2是根据本发明的一个实施例的循环神经网络的整体结构示意图;
[0023] 图3是根据本发明的一个实施例的循环神经网络的循环块的结构示意图;
[0024] 图4是根据本发明的一个实施例的训练压缩伪影去除模型的方法的流程图;
[0025] 图5是根据本发明的另一实施例的网络直播视频的压缩伪影去除装置的示意图;以及
[0026] 图6是根据本发明的又一实施例的电子设备的结构示意图。

具体实施方式

[0027] 为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0028] 图1是根据本发明的一个实施例的网络直播视频的压缩伪影去除方法的流程图。参照图1,该方法可以包括如下步骤:
[0029] 步骤101:获取压缩视频;
[0030] 步骤102:将所述压缩视频输入压缩伪影去除模型中,得到所述压缩伪影去除模型输出的与所述压缩视频相对应的高质量恢复视频,
[0031] 其中,所述压缩伪影去除模型利用循环神经网络RNN和膨胀卷积,对未知压缩码率且含有压缩伪影的所述压缩视频进行恢复,以生成所述高质量恢复视频。
[0032] 具体地,在本实施例中,需要说明的是,在步骤101中,该压缩视频可以是未知压缩码率并且含有压缩伪影的压缩视频。压缩伪影是视频在被大幅压缩时产生的,包括压缩块效应、振铃效应、模糊、锯齿等。压缩伪影会导致视频的质量严重退化,影响用户的主观观看体验。与此同时,存在大量压缩伪影的视频会影响后续的目标检测、图像分类、图像分割等智能化分析处理。
[0033] 在步骤102中,该压缩伪影去除模型可以利用循环神经网络RNN和膨胀卷积,对未知压缩码率且含有压缩伪影的压缩视频进行恢复,以生成高质量恢复视频。
[0034] 具体地,该循环神经网络包括:底层特征提取模块、循环模块、图像重建模块和跳跃连接,网络使用循环模块来实现循环卷积的迭代机制,网络整体结构如附图2所示。整体结构中每层参数如表1所示。
[0035] 表1网络整体结构中每层参数
[0036]
[0037] 网络循环T次,每次循环时都输入压缩图像ILQ;网络最终输出恢复后的图像共T张图像。网络中所有激活函数使用PReLU(Parametric Rectified Linear Unit)激活函数,PReLU激活函数如等式(1)所示:
[0038]
[0039] 其中,当x≤0时,斜率a为可学习参数,根据网络迭代时的梯度进行更新。
[0040] 以第t次迭代为例,网络输入压缩图像ILQ,ILQ的大小为H×W×3,其中H为低质量图像高,W为低质量图像宽。对ILQ首先使用底层特征提取模块积提取浅层特征H0,其包含Conv1和Conv2两层卷积。在Conv1中,先经过256个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为H×W×256的特征图;在Conv2中,先经过64个步长为1的1×1大小的卷积核卷积,再经过PReLU激活模块,得到大小为H×W×64的特征图。将经过两层卷积后提取到的特征图H0送入循环模块。循环模块的输入以及输出可以表示为式(2):
[0041]
[0042] 其中concat()表示按通道方向的拼接操作,fRB表示使用循环模块提取特征操作。网络将前一次循环时循环模块的输出 和当前循环时网络提取的浅层特征H0进行拼接,后送入循环模块进行处理。循环模块的输出 用于下次循环时循环模块的输入。需要注意的是,当循环t=1时, 即:
[0043]
[0044] 循环模块的输出为 其大小为H×W×64。循环模块保留当前的输出 用于第t+1次迭代,并将当前输出 经过图像重建模块,该模块包含1个卷积Conv3, 经过步长为1的3×3大小的卷积核,得到大小为H×W×3的特征图。最后,特征图以残差的方式,相加到低质量图像ILQ上,生成最终的高质量恢复图像
[0045] 如上所述,网络首先使用底层特征提取模块来提取图像的浅层特征,该模块由两个卷积层Conv1和Conv2组成。将提取到的图像浅层特征信息和网络前一次迭代时循环模块提取的高水平特征信息,按通道维度进行拼接后输入到循环模块中,使用循环模块进一步处理,以提取图像的高层语义特征信息。循环模块提取到的高水平特征信息分别作为下一次网络迭代时循环模块的输入和当前迭代时图像重建模块的输入。网络重建模块由一个卷积层Conv3组成,其作用是对循环模块提取的特征进行重建,从而得到能够恢复高质量图像的残差信息。最后网络使用跳层连接结构,将网络生成的高质量图像残差信息与低质量输入图像相加,得到使用网络进行压缩伪影去除后的高质量恢复图像。
[0046] 该循环模块包括:N个卷积组和两个用于调整输出通道的卷积层ConvA和ConvB,其中N等于4;该卷积组包括:三个不同膨胀率的并行卷积、多尺度特征融合层和密集残差连接。具体地,本发明所设计的循环模块结构如附图3所示,循环模块中每层参数如表2‑1至表2‑4所示。以第t次迭代使用的循环模块为例,循环模块输入当前迭代网络所提取的浅层特征H0,和第t‑1次迭代时,循环模块所产生的隐藏状态 H0和 按通道方向进行拼
接,拼接后得到大小为H×W×128的特征图;之后经过64个步长为1的1×1大小的卷积核ConvA卷积,再经过PReLU激活模块,得到大小为H×W×64的特征图。调整通道后的特征图输入N个串联的卷积组中,每个卷积组输出的特征图 大小为H×W×64。之后对N个卷积组的输出按通道方向进行拼接,得到大小为H×W×[64×N]的特征图。最后对拼接后的特征图经过64个步长为1的1×1大小的卷积核ConvB卷积,再经过PReLU激活模块,得到大小为H×W×64的特征图,作为第t次迭代的循环模块输出 过程如式(4)所示,
[0047]
[0048] 每个卷积组使用三个膨胀率分别为1、2、3的膨胀卷积层ConvS、ConvM、ConvL提取不同感受野的特征图,并包含多尺度特征融合模块ConvF,并且每个卷积组相同膨胀率的卷积之间都添加了密集残差连接。除第一个卷积组外,每个卷积组膨胀卷积前还使用一个1×1卷积Conv1、Conv2、Conv3,用于整合通道数量。以第t次迭代时的第n个卷积组为例,卷积组的输入 为上一个卷积组的输出 其中,当n=1时,循环模块的输入为:使用64个大小为1×1的卷积核卷积融合当前循环提取的浅层特征H0,与上一次循环时循环模块所保留的高层特征 如式(5)所示。
[0049]
[0050] 卷积组输入第n‑1个卷积组的输出 和前n‑1个卷积组中,膨胀率为1的卷积1 2 n‑1 1 2 n‑1
层的输出:[S ,S ,…,S ],膨胀率为2的卷积层的输出:[M ,M ,…,M ],和膨胀率为3的卷
1 2 n‑1 1 2 n‑1
积层的输出:[L ,L ,…,L ]。第一个并行卷积:首先对S ,S ,…,S 和 按通道方向进行拼接,之后经过64个步长为1的1×1大小的卷积核Conv1卷积,再经过PReLU激活模块,得到大小为H×W×64的特征图;之后对该特征图经过64个步长为1的3×3大小、膨胀系数为1的n
卷积核ConvS卷积,再经过PReLU激活模块,得到大小为H×W×64的特征图S。第二个并行卷
1 2 n‑1
积:首先对M ,M ,…,M 和 按通道方向进行拼接,之后经过64个步长为1的1×1大小的卷积核Conv2卷积,再经过PReLU激活模块,得到大小为H×W×64的特征图;之后对该特征图经过64个步长为1的3×3大小、膨胀系数为2的卷积核ConvM卷积,再经过PReLU激活模块,得n 1 2 n‑1
到大小为H×W×64的特征图M。第三个并行卷积:首先对L ,L ,…,L 和 按通道方向进行拼接,之后经过64个步长为1的1×1大小的卷积核Conv3卷积,再经过PReLU激活模块,得到大小为H×W×64的特征图;之后对该特征图经过64个步长为1的3×3大小、膨胀系数为3n
的卷积核ConvL卷积,再经过PReLU激活模块,得到大小为H×W×64的特征图L。最后使用多尺度特征融合模块融合三个并行卷积提取的多尺度特征,其首先对三个多尺度特征按通道方向进行拼接,得到大小为H×W×(64×3)的特征图,之后对该特征图经过64个步长为1的1×1大小的卷积核ConvF卷积,再使用PReLU进行激活,得到卷积组的输出 其过程如式(6)式(7)所示:
[0051]
[0052]
[0053] 其中, 的上标表示卷积核的膨胀率。
[0054] 表2‑1循环模块中每层参数
[0055]
[0056] 表2‑2循环模块中每层参数
[0057]
[0058] 表2‑3循环模块中每层参数
[0059]
[0060] 表2‑4循环模块中每层参数
[0061]
[0062] 由上所述,循环模块的输入为前一次迭代时循环模块产生的输出,与当前网络中提取的图像浅层特征的拼接。使用卷积层ConvA调整通道数量。为了使网络在不增加参数量的情况下提升网络的感受野,并且还能够充分提取图像的细节信息,本发明在每个卷积组中分别使用三个膨胀率不同的卷积核ConvS、ConvM、ConvL,对输入进行并行卷积。其中膨胀率小的卷积核ConvS能够充分的提取图像的细节信息;膨胀率大的卷积核ConvM和ConvL能够提升网络的感受野,获得局部信息。所有卷积组中,每个膨胀率相同的膨胀卷积之间使用密集残差连接,以保证低质量图像中存在的图像信息能够在网络中自由流动。因此除第一个卷积组外,每个卷积组膨胀卷积前还使用一个用于整合通道数量的卷积Conv1、Conv2和Conv3。对于三个并行卷积的输出,按通道方向进行拼接后,通过一个多尺度特征融合模块ConvF来融合三个膨胀卷积提取的不同感受野的信息,生成卷积组的输出。循环模块中包含N个卷积组。最后,对于N个卷积组的输出按通道方向进行拼接,使用一个卷积层ConvB调整输出通道,生成循环模块的输出。
[0063] 图4是根据本发明的一个实施例的训练压缩伪影去除模型的方法的流程图。
[0064] 步骤401:使用H.264算法对所述原始视频进行编码压缩;
[0065] 步骤402:将所述原始视频和编码压缩后的视频转换为视频帧,构成成对的视频样本库;
[0066] 步骤403:基于所述成对的视频样本库训练所述压缩伪影去除模型。
[0067] 具体地,本发明使用的成对的视频样本库(包括训练集、验证集和测试集)中的原始高清视频是通过对网络直播视频爬取得到,其中包含主播室内直播、户外直播、游戏直播和电影播放等四类直播视频。为了生成成对的训练和验证样本,对原始数据集进行H.264编码,生成低质量压缩视频。原始视频分辨率为1280×720,由于当压缩码率大于1000Kbps时,视频中的压缩伪影不明显,因此,在进行H.264编码时,选取压缩码率范围为[1000Kbps,128Kbps]。由于相近的视频码率压缩视频产生的退化程度相近,因此在制作低质量视频时,压缩码率随机选取{1000Kbps,512Kbps,256Kbps,128Kbps}。另外,由于本发明没有使用到视频的时间相关性,因此将原始视频和编码后的压缩视频转为视频帧,并构建成对的样本。
原始高清视频包含558段视频,每段高清视频对应4段压缩视频。选取550段高清视频和相应的2200段压缩视频作为训练集;对每一类选取2段高清视频和相应的8段压缩视频,分别作为验证集和测试集。
[0068] 对于训练集,每段视频随机选取相同的4帧图像,因此训练集共有8800对图像对;对于验证集,每段视频随机选取相同的4帧图像,因此验证集共有32对图像对;对于测试集,直接将高清视频压缩后的低质量视频转换为视频帧。
[0069] 本发明利用成对的视频样本库中的训练集和验证集,训练上述搭建的循环卷积神经网络。网络随机输入训练集中的低质量视频帧LLQ,使用底层特征提取模块提取图像的浅层信息H0。循环神经网络可以以循环的方式,在不增加网络参数的情况下加深网络深度,提高网络的感受野和非线性表达能力,因此整个网络循环T次。除第一次循环外,网络每一次循环时,循环模块的输入为当前网络底层特征提取模块提取图像的浅层信息H0和上一次循环时循环模块的输出;对于第一次循环,由于没有上一次迭代过程,因此循环模块的输入为当前网络底层特征提取模块提取图像的浅层信息H0与H0的拼接。循坏块的输出除用于重建图像外,还用于下一次迭代中,以细化下一次迭代时的底层信息表达。由于网络整体循环T次,每一次循环都产生一个输出,因此网络共产生T张高质量恢复图像,即使用高清视频帧对网络生成图像计算损失后,用梯度下降算法求解最小化损失函数。网络采用Adam梯度下降算法,动量设置为0.9,学习率设置为0.0001,每训练一次,使用验证集验证网络的性能,每训练200次,网络的学习率减半,经过反复迭代,当达到预设的最大迭代次数(1000次)时停止训练,最终得到压缩伪影去除模型。
[0070] 另外地,本发明使用循环卷积的目的是使用循环模块提取的图像高层特征来优化底层的表示。网络在训练时,对每张输出图像都使用相应的无损图像GT进行监督,网络使用L2损失作为损失函数,因此本发明所设计的网络损失函数公式如等式(8)所示:
[0071]
[0072] 本发明网络训练完成后,使用上述H.264编码成对的视频样本库建立中所构建的测试数据集进行视频压缩伪影去除。将存在伪影的待恢复低质量压缩视频,以图像帧的方式送入网络,其输出结果为高质量恢复图像。在视频压缩伪影去除的过程中,可根据硬件的计算性能,调整网络的迭代次数,以达到网络性能与运算时间之间的平衡,但需保证测试时网络的迭代次数小于等于训练时网络的迭代次数。
[0073] 由以上可知,本发明通过循环神经网络对未知压缩码率的H.264编码视频中的压缩伪影进行去除,并恢复高质量视频。首先,利用循环神经网络,建立了一种端到端的未知压缩码率的压缩视频伪影去除方案,并使用成对的低质‑高质视频帧进行训练;其次,通过利用膨胀卷积提取的多尺度特征图,既可以提升网络的感受野,使网络能够消除大范围的图像伪影,又可以提取细节特征,使网络在消除伪影的同时保留细节。可以有效的提升网络性能,提高了网络的泛化能力,可以实现使用单一网络对所有范围压缩码率编码的视频进行恢复。再者,本发明采用的循环神经网络不仅可以在不增加参数量的情况下提升网络的深度,有效的提升了网络的表达能力与非线性建模能力,也可以根据硬件性能的限制调整网络的循环次数,达到网络性能与运算时间的平衡,便利于此方法在实践中的应用。
[0074] 图5是根据本发明的另一实施例的网络直播视频的压缩伪影去除装置的示意图。
[0075] 在本实施例中,需要说明的是,参照图5,根据本发明的实施例的网络直播视频的压缩伪影去除装置可以包括压缩视频获取单元501,用于获取压缩视频;压缩伪影去除单元502,用于将所述压缩视频输入压缩伪影去除模型中,得到所述压缩伪影去除模型输出的与所述压缩视频相对应的高质量恢复视频,
[0076] 其中,所述压缩伪影去除模型利用循环神经网络RNN和膨胀卷积,对未知压缩码率且含有压缩伪影的所述压缩视频进行恢复,以生成所述高质量恢复视频。
[0077] 由于本发明实施例提供的网络直播视频的压缩伪影去除装置,可以用于执行上述实施例所述的网络直播视频的压缩伪影去除方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述实施例的介绍。
[0078] 在本实施例中,需要说明的是,本发明实施例的装置中的各个单元可以集成于一体,也可以分离部署。上述单元可以合并为一个单元,也可以进一步拆分成多个子单元。
[0079] 基于相同的发明构思,本发明又一实施例提供了一种电子设备,参见图6,所述电子设备具体包括如下内容:处理器601、存储器602、通信接口603和通信总线604;其中,所述处理器601、存储器602、通信接口603通过所述通信总线604完成相互间的通信。
[0080] 所述处理器601用于调用所述存储器602中的计算机程序,所述处理器执行所述计算机程序时实现上述的网络直播视频的压缩伪影去除方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述过程:获取压缩视频;将所述压缩视频输入压缩伪影去除模型中,得到所述压缩伪影去除模型输出的与所述压缩视频相对应的高质量恢复视频,[0081] 其中,所述压缩伪影去除模型利用循环神经网络RNN和膨胀卷积,对未知压缩码率且含有压缩伪影的所述压缩视频进行恢复,以生成所述高质量恢复视频。
[0082] 可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。
[0083] 基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的网络直播视频的压缩伪影去除方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述过程:获取压缩视频;将所述压缩视频输入压缩伪影去除模型中,得到所述压缩伪影去除模型输出的与所述压缩视频相对应的高质量恢复视频,
[0084] 其中,所述压缩伪影去除模型利用循环神经网络RNN和膨胀卷积,对未知压缩码率且含有压缩伪影的所述压缩视频进行恢复,以生成所述高质量恢复视频。
[0085] 可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。
[0086] 基于相同的发明构思,本发明又一实施例提供了一种计算机程序产品,所计算机程序产品包括有计算机程序,该计算机程序被处理器执行时实现上述的网络直播视频的压缩伪影去除方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述过程:获取压缩视频;将所述压缩视频输入压缩伪影去除模型中,得到所述压缩伪影去除模型输出的与所述压缩视频相对应的高质量恢复视频,其中,所述压缩伪影去除模型利用循环神经网络RNN和膨胀卷积,对未知压缩码率且含有压缩伪影的所述压缩视频进行恢复,以生成所述高质量恢复视频。
[0087] 可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。
[0088] 此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0089] 以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0090] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的网络直播视频的压缩伪影去除方法。
[0091] 此外,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0092] 此外,在本发明中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0093] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。