一种基于动态重建的多分支视频超分辨率方法及系统转让专利
申请号 : CN202010838584.5
文献号 : CN111915492B
文献日 : 2021-03-30
发明人 : 邵杰 , 张东阳 , 梁振文 , 申恒涛
申请人 : 四川省人工智能研究院(宜宾)
摘要 :
权利要求 :
1.一种基于动态重建的多分支视频超分辨率方法,其特征在于,包括以下步骤:S1、将从目标视频中提取的帧序列以7个帧为单位作为一个输入数据;
S2、将输入数据的全部7个帧输入到第一分支,将输入数据的中间5个帧输入第二分支,将输入数据的中间3个帧输入第三分支,分别通过第一分支、第二分支和第三分支得到一个特征图;其中第一分支包括5个依次相连的MREB模块,第二分支包括4个依次相连的MREB模块,第三分支包括3个依次相连的MREB模块;第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连,第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连,n=1,2,
3,4;m=1,2,3;每个分支的通道数均为64;
S3、将三个分支生成的特征图直接相加后,通过二元自适应均值池化层将相加后的数据的高和宽均调整为1,得到大小调整后的数据;
S4、通过第一全连接层将大小调整后的数据的维度调整为8,得到维度调整后的数据;
S5、将维度调整后的数据分别输入第二全连接层、第三全连接层和第四全连接层,得到三个64维不同大小的特征描述变量,并将三个64维不同大小的特征描述变量分别作为三个分支对应的权重;
S6、将每个分支生成的特征图和对应的权重相乘,并将三个相乘结果之和作为目标特征图;
S7、将目标特征图进行子像素卷积上采样,完成视频超分辨率;
步骤S2中第一分支的大小为7×7,第二分支的大小为5×5,第三分支的大小为3×3;
步骤S2中每个MREB模块均包括依次相连的第一E3DB单元、第二E3DB单元、第一相加单元和第二相加单元,依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元,以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元;所述第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端;
所述第二下采样单元的输入端与第一下采样单元的输出端相连,所述第二上采样单元的输出端与第三相加单元的另一个输入端相连,所述第一上采样单元与第一相加单元的另一个输入端相连;所述第二相加单元的输出端为MREB模块的输出端;
第一E3DB单元、第二E3DB单元和第三E3DB单元均包括一个通道维度分离子单元,通道维度分离子单元的输入端为其所在E3DB单元的输入端,通道维度分离子单元的两个输出端分别连接第一子分支和第二子分支的输入端,所述第一子分支和第二子分支的输出端分别连接连接子单元的两个输入端;连接子单元的输出端依次连接第一K×1×1的卷积核和第一PReLU激活层,第一PReLU激活层的输出端为其所在E3DB单元的输出端;
第一子分支包括依次连接的第一1×K×1卷积核、第一1×1×K卷积核和第二PReLU激活层;第二子分支包括依次连接的第二1×1×K卷积核、第二1×K×1卷积核和第三PReLU激活层;其中第一分支中E3DB单元的K值为7,第二分支中的E3DB单元的K值为5,第三分支中的E3DB单元的K值为3。
2.一种基于动态重建的多分支视频超分辨率系统,其特征在于,包括依次连接的取帧模块、特征图生成模块、大小调整模块、维度调整模块、权重获取模块、目标特征图获取模块和超分辨率模块;
所述取帧模块,用于将从目标视频中提取的帧序列以7个帧为单位作为一个输入数据;
所述特征图生成模块,包括第一分支、第二分支和第三分支,其中第一分支包括5个依次相连的MREB模块,第二分支包括4个依次相连的MREB模块,第三分支包括3个依次相连的MREB模块;第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连,第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连,n=1,2,3,4;m=1,2,3;每个分支的通道数均为64;用于将输入数据的全部7个帧输入到第一分支,将输入数据的中间5个帧输入第二分支,将输入数据的中间3个帧输入第三分支,分别通过第一分支、第二分支和第三分支得到一个特征图;
所述大小调整模块,用于将三个分支生成的特征图直接相加后,通过二元自适应均值池化层将相加后的数据的高和宽均调整为1,获取大小调整后的数据;
所述维度调整模块,用于通过第一全连接层将大小调整后的数据的维度调整为8,获取维度调整后的数据;
所述权重获取模块,用于将维度调整后的数据分别输入第二全连接层、第三全连接层和第四全连接层,得到三个64维不同大小的特征描述变量,并将三个64维不同大小的特征描述变量分别作为三个分支对应的权重;
所述目标特征图获取模块,用于将每个分支生成的特征图和对应的权重相乘,并将三个相乘结果之和作为目标特征图;
所述超分辨率模块,用于将目标特征图进行子像素卷积上采样,完成视频超分辨率;
第一分支的大小为7×7,第二分支的大小为5×5,第三分支的大小为3×3;
每个MREB模块均包括依次相连的第一E3DB单元、第二E3DB单元、第一相加单元和第二相加单元,依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元,以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元;所述第一E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端;所述第二下采样单元的输入端与第一下采样单元的输出端相连,所述第二上采样单元的输出端与第三相加单元的另一个输入端相连,所述第一上采样单元与第一相加单元的另一个输入端相连;所述第二相加单元的输出端为MREB模块的输出端;
第一E3DB单元、第二E3DB单元和第三E3DB单元均包括一个通道维度分离子单元,通道维度分离子单元的输入端为其所在E3DB单元的输入端,通道维度分离子单元的两个输出端分别连接第一子分支和第二子分支的输入端,所述第一子分支和第二子分支的输出端分别连接连接子单元的两个输入端;连接子单元的输出端依次连接第一K×1×1的卷积核和第一PReLU激活层,第一PReLU激活层的输出端为其所在E3DB单元的输出端;
第一子分支包括依次连接的第一1×K×1卷积核、第一1×1×K卷积核和第二PReLU激活层;第二子分支包括依次连接的第二1×1×K卷积核、第二1×K×1卷积核和第三PReLU激活层;其中第一分支中E3DB单元的K值为7,第二分支中的E3DB单元的K值为5,第三分支中的E3DB单元的K值为3。
说明书 :
一种基于动态重建的多分支视频超分辨率方法及系统
技术领域
背景技术
不错的效果,例如DBPN(Deep Back‑Projection Networks),该方法使用了一种迭代地计算
上采样和下采样投影误差的错误反馈机制,对重建过程进行引导以得到更好的结果。RDN
(Residual Dense Networks),堆叠多个残差稠密块,提出了一个残差稠密网络,充分利用
网络中各个层级的特征。RCAN(Residual Channel Attention Networks)则发现之前的网
络中的特征包含有多余的低频信息,但是网络对于所有信息是同等对待的,从而限制了网
络的表达能力。
了非常优秀的结果。但是,同时也有许多著作如[1]、[2]直接证明了,如果使用普通的单张
图片超分辨率网络进行视频超分辨率,产生的结果不会很好。因此,在视频超分辨率中一个
非常重要的任务就是如何利用帧与帧之间的时间关系,从而进行视频的重建。
运动场。估算出的运动场会被用来完成最终高分辨率视频的重建,如文献[3]中提出的网络
VESPCN(Video Efficient Sub‑Pixel Convolutional Neural Network)就是通过光流算
法进行运动补偿。然而,光流算法存在一定程度的不确定性,这些误差会被引入到各个帧当
中,最终损害到之后的超分辨率过程。除此之外,光流算法在整个算法中也是一个独立的模
块,这会带来额外的计算开销,同时也会影响网络端到端的训练过程。因此,在视频超分辨
率的过程中,光流算法的引入会带来不小的有害影响。然而无论使用或者不使用光流算法,
之前的神经网络模型都是传统的二维卷积神经网络,并不能完全解决时间信息难以利用的
问题,最终导致模型的性能不佳。所以,三维卷积神经网络被引入到视频处理领域,使视频
超分辨率模型得到了快速的发展。例如C3D(Convolution 3D)模块以及文献[4]中提出的
FRB(Fast Residual Block)模块,C3D模块是最原始的三维卷积模块与残差连接的结合,而
FRB模块则是针对C3D模块的一个改进。然而这些三维卷积通常会消耗巨大的计算成本。所
以,如何利用有限的计算资源进行有效的视频超分辨率仍是一个有待解决的问题。其中,文
献[5]提出了TDAN(Temporally Deformable Alignment Network),利用可变形卷积模块组
成了网络,自适应的给当前帧和相邻帧做对齐:动态估计像素/特征空间上的偏移。
122,2016.
Conference on Image Processing,ICIP 2019,Taipei,Taiwan,September 22‑25,2019,
pp.2831–2835.
compensation,”in 2017 IEEE Conference on Computer Vision and Pattern
Recognition,CVPR 2017,Honolulu,HI,USA,July 21‑26,2017,2017,pp.2848–2857.
Computer Vision and Pattern Recognition,CVPR 2019,Long Beach,CA,USA,June 16‑
20,2019,2019,pp.10522–10531.
Vision and Pattern Recognition,CVPR 2020,Seattle,WA,USA,July 16‑20,2020,2020。
发明内容
到一个特征图;其中第一分支包括5个依次相连的MREB模块(多分辨率提取模块,Multi‑
Resolution Extraction Block),第二分支包括4个依次相连的MREB模块,第三分支包括3
个依次相连的MREB模块;第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连,
第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连,n=1,2,3,4;m=1,2,3;每
个分支的通道数均为64;
三个分支对应的权重;
单元,依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元,以及
依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元;第一E3DB单元、第一下采
样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端;第二下采样单元的输
入端与第一下采样单元的输出端相连,第二上采样单元的输出端与第三相加单元的另一个
输入端相连,第一上采样单元与第一相加单元的另一个输入端相连;第二相加单元的输出
端为MREB模块的输出端。
元的两个输出端分别连接第一子分支和第二子分支的输入端,第一子分支和第二子分支的
输出端分别连接连接子单元的两个输入端;连接子单元的输出端依次连接第一K×1×1的
卷积核和第一PReLU激活层,第一PReLU激活层的输出端为其所在E3DB单元的输出端;
PReLU激活层;其中第一分支中E3DB单元的K值为7,第二分支中的E3DB单元的K值为5,第三
分支中的E3DB单元的K值为3。
超分辨率模块;
MREB模块;第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连,第二分支的第m
+1个MREB模块与第三分支的第m个MREB模块相连,n=1,2,3,4;m=1,2,3;每个分支的通道
数均为64;用于将输入数据的全部7个帧输入到第一分支,将输入数据的中间5个帧输入第
二分支,将输入数据的中间3个帧输入第三分支,分别通过第一分支、第二分支和第三分支
得到一个特征图;
描述变量分别作为三个分支对应的权重;
上采样单元,以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元;第一
E3DB单元、第一下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端;
第二下采样单元的输入端与第一下采样单元的输出端相连,第二上采样单元的输出端与第
三相加单元的另一个输入端相连,第一上采样单元与第一相加单元的另一个输入端相连;
第二相加单元的输出端为MREB模块的输出端。
元的两个输出端分别连接第一子分支和第二子分支的输入端,第一子分支和第二子分支的
输出端分别连接连接子单元的两个输入端;连接子单元的输出端依次连接第一K×1×1的
卷积核和第一PReLU激活层,第一PReLU激活层的输出端为其所在E3DB单元的输出端;
PReLU激活层;其中第一分支中E3DB单元的K值为7,第二分支中的E3DB单元的K值为5,第三
分支中的E3DB单元的K值为3。
了重建能力的较大提升,相比现有技术具备更低的计算成本。此外,本发明采用多分支的网
络结构,并且分支之间的信息传递充分利用了不同大小的特征图之间的信息依赖关系,最
终使神经网络的性能有较大的提升。
附图说明
具体实施方式
只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易
见的,一切利用本发明构思的发明创造均在保护之列。
到一个特征图;如图3所示,其中第一分支包括5个依次相连的MREB模块(多分辨率提取模
块,Multi‑Resolution Extraction Block),第二分支包括4个依次相连的MREB模块,第三
分支包括3个依次相连的MREB模块;第一分支的第n+1个MREB模块与第二分支的第n个MREB
模块相连,第二分支的第m+1个MREB模块与第三分支的第m个MREB模块相连,n=1,2,3,4;m
=1,2,3;每个分支的通道数均为64;
三个分支对应的权重;
元,Efficient 3D convolutional Block)、第二E3DB单元、第一相加单元和第二相加单元,
依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元,以及依次相
连接的第二下采样单元、通道洗牌单元和第二上采样单元;第一E3DB单元、第一下采样单元
和第二相加单元的另一个输入端共同作为MREB模块的输入端;第二下采样单元的输入端与
第一下采样单元的输出端相连,第二上采样单元的输出端与第三相加单元的另一个输入端
相连,第一上采样单元与第一相加单元的另一个输入端相连;第二相加单元的输出端为
MREB模块的输出端。
出端分别连接第一子分支和第二子分支的输入端,第一子分支和第二子分支的输出端分别
连接连接子单元的两个输入端;连接子单元的输出端依次连接第一K×1×1的卷积核和第
一PReLU激活层,第一PReLU激活层的输出端为其所在E3DB单元的输出端;
PReLU激活层;其中第一分支中E3DB单元的K值为7,第二分支中的E3DB单元的K值为5,第三
分支中的E3DB单元的K值为3。
超分辨率模块;
次相连的MREB模块;第一分支的第n+1个MREB模块与第二分支的第n个MREB模块相连,第二
分支的第m+1个MREB模块与第三分支的第m个MREB模块相连,n=1,2,3,4;m=1,2,3;每个分
支的通道数均为64;用于将输入数据的全部7个帧输入到第一分支,将输入数据的中间5个
帧输入第二分支,将输入数据的中间3个帧输入第三分支,分别通过第一分支、第二分支和
第三分支得到一个特征图;每个分支在向前卷积的过程中,分支之间也加入了信息的传递,
方式为不同分支之间的特征图同时向右对齐,对齐后上下特征图相加生成新的特征图进行
后续卷积,方向为从大卷积核分支逐步传递到小卷积核分支,从高感受野分支传递到低感
受野分支;
描述变量分别作为三个分支对应的权重;
相加单元,依次相连的第一下采样单元、第三E3DB单元、第三相加单元和第一上采样单元,
以及依次相连接的第二下采样单元、通道洗牌单元和第二上采样单元;第一E3DB单元、第一
下采样单元和第二相加单元的另一个输入端共同作为MREB模块的输入端;第二下采样单元
的输入端与第一下采样单元的输出端相连,第二上采样单元的输出端与第三相加单元的另
一个输入端相连,第一上采样单元与第一相加单元的另一个输入端相连;第二相加单元的
输出端为MREB模块的输出端。
出端分别连接第一子分支和第二子分支的输入端,第一子分支和第二子分支的输出端分别
连接连接子单元的两个输入端;连接子单元的输出端依次连接第一K×1×1的卷积核和第
一PReLU激活层,第一PReLU激活层的输出端为其所在E3DB单元的输出端;
PReLU激活层;其中第一分支中E3DB单元的K值为7,第二分支中的E3DB单元的K值为5,第三
分支中的E3DB单元的K值为3。
各自相等。
×C,分离出的两个特征图大小则都是H×W×(C/2)。这两个子分支当中,第一个子分支先进
行1×K×1的卷积,再进行1×1×K的卷积;第二个子分支先进行1×1×K的卷积,再进行1×
K×1的卷积。然后两个子分支分别进行PReLU激活层的激活,之后将两个子分支产生的结果
直接相连,再统一经过K×1×1的卷积和PReLU的激活后输出。
率‑高分辨率图像对的相互依赖关系的充分利用,以一个非常小的计算成本实现了重建能
力的较大提升。最后,三个不同卷积核大小的分支输出的不同维度的特征图之间有很大的
区别,简单的相加、相乘或者相连都不能很好地保证合理利用每个特征图中包含的信息,本
发明可以为不同的特征图附上不同的权重,而该权重又由特征图本身的性质所决定,该方
式可以更加有效的完成特征融合的过程,最终提升整体性能。
FRB ≈49K ≈793M
E3DB ≈25K ≈396M
本实现了重建能力的较大提升,相比现有技术具备更低的计算成本。此外,本发明采用多分
支的网络结构,并且分支之间的信息传递充分利用了不同大小的特征图之间的信息依赖关
系,最终使神经网络的性能有较大的提升。