一种基于GAN潜码的多视点视频重建方法转让专利

申请号 : CN202011316505.0

文献号 : CN112866668B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 兰诚栋罗铖缪辰启赵铁松

申请人 : 福州大学

摘要 :

本发明涉及一种基于GAN潜码的多视点视频重建方法,可用于虚拟视点合成、多视点视频压缩后处理以及虚拟现实等领域,具有广泛的应用价值。本发明通过GAN的生成能力来补偿相邻视点之间丢失的映射关系,并在提取网络的训练过程中考虑重建质量与潜码的码率之间的权衡。在编码器端,使用卷积网络提取GAN的潜码作为辅助信息,并构建模型的码率与重建质量联合代价函数。在解码器端,GAN的生成器将相邻视点与潜码结合起来以重构中间视图。本发明GAN潜码可以用作多视点视频的辅助信息,以实现更好的率失真性能。

权利要求 :

1.一种基于GAN潜码的多视点视频重建方法,其特征在于:包括以下步骤:步骤S1:空时域EPI生成:将摄像机阵列采集的多视点视频图像转化为空时域的EPI图像;所述多视点视频图像包括奇数视点视频图像和偶数视点视频图像;

步骤S2:构建一个包含编码网络E、生成网络G和判别网络D的总体网络模型;

步骤S3:构建总体网络模型的码率与重建质量联合代价函数;

步骤S4:将空时域EPI图像输入总体网络模型中,然后开始训练模型;

步骤S5:传输奇数视点:将多视点视频中奇数视点的视频用H.265标准压缩传输;

步骤S6:传输偶数视点:将多视点视频中偶数视点的视频通过训练好的总体网络模型中的E网络生成偶数视点对应的潜码,开将该潜码进行压缩传输;

步骤S7:偶数视点EPI重建:将奇数视点视频对应的空时域EPI图像和偶数视点对应的潜码一起输入训练好的总体网络模型中的G网络中,得到重建的多列宽EPI图像;

步骤S8:从重建的多列宽EPI图像中恢复出偶数视点视频,并和传输后的奇数视点视频组合,恢复成多视点视频。

2.根据权利要求1所述的一种基于GAN潜码的多视点视频重建方法,具特征在于:所述步骤S1具体包括以下步骤:

步骤S11:将多视点视频图像转化为多列宽EPI图像:首先将视点中的帧图像每8行组成行块,转置后形成列块,然后将不同视点在相同时刻的列块拼接在一起,得到多列宽EPI图像;将多列宽EPI图像的构建过程形式化描述如下,所述多列宽EPI图像矩阵为:式中,t代表原始多视点视频中的某一时刻,T代表矩阵转置,m代表多列宽EPI图像的序列号以及原始多视点图像的第m行,K是代表多视点图像总个数,Ii为第i个视点的多视点图像;矩阵Am的大小等于图像大小,表示如下:矩阵Bi的大小等于图像大小,表示如下:步骤S12:将多列宽EPI图像堆叠成空时域EPI图像:时域上交叠选取连续的三帧多列宽EPI图像,将该三帧彩色图像堆叠在一起形成一个包含9个通道的空时域EPI图像;将空时域EPI图像的构建过程形式化描述如下,所述空时域EPI图像矩阵为:式中,τ代表时域的帧顺序,u、v表示像素的空间位置横、纵坐标,k表示堆叠的多列宽EPI个数,O表示原始的多列宽EPI图像,R,G,B分别代表图像的三个通道。

3.根据权利要求1所述的一种基于GAN潜码的多视点视频重建方法,其特征在于:所述步骤S2的具体内容为:

总体网络模型内部为多层的神经网络结构,由编码网络E、生成网络D和判别网络G三个网络串联而成;其中E网络一共有18层,由输入部分1个卷积层,中间部分4个残差块和输出部分1个卷积层构成;其中每个残差块由2个卷积层及2个BN层构成;D网络一共有14层,由输入部分的11个卷积层和输出部分的3个全连接层构成;G网络一共有68层,由输入部分的2个卷积层,中间部分16个残差块和输出部分2个卷积层构成;其中每个残差块由2个卷积层及2个BN层构成;将原始多视点视频转化得到的空时域EPI图像的中间视点作为编码网络E的输入,输出原始空时域EPI图像中间视点的潜码;将E网络输出的空时域EPI图像中间视点的潜码以及原始多视点视频转化得到的空时域EPI图像的旁边视点相拼接,作为G网络的输入,由G网络生成重建的EPI中间视点图像;对于D网络,当D网络的输入是原始空时域EPI图像和中间视点的潜码时,D网络的输出是1;当D网络的输入是G网络的输出和中间视点的潜码时,输出0。

4.根据权利要求1所述的一种基于GAN潜码的多视点视频重建方法,其特征在于:步骤S3中所述总体网络模型的码率与重建质量联合代价函数,具体如下,其中,第一项表示D网络用于区分真实图像,第二项表示G网络用于生成近似原始样本数据集分布的图像,第三项中d(x,G(q(E(x))))为重建质量约束项,第四项中H(q(E(x)))为码率约束项;α、β表示的是权重参数,d表示的是用于衡量x与 之间相似度的损失函数,H表示的是码率约束损失函数。

5.根据权利要求4所述的一种基于GAN潜码的多视点视频重建方法,其特征在于:所述代价函数中的重建质量约束项,具体如下,d(x,G(q(E(x))))=lMSE+lVGG           (6)其中,lMSE的计算公式为:

其中,lVGG的计算公式为:

式(7)(8)中,lMSE代表基于MSE的像素级损失,lVGG代表基于VGG的特征级损失,w,h代表图像的宽和高,xi,j代表i、j位置上的原始像素点, 代表i、j位置上的重建像素点,φ代表VGG网络提取特征图的操作。

6.根据权利要求4所述的一种基于GAN潜码的多视点视频重建方法,其特征在于:所述代价函数中的码率约束项,具体如下,H(q(E(x)))=H(q(w))           (9)式(9)中的量化操作q使用可微分软量化公式计算,具体如下:其中L代表量化级,Wi代表量化操作后的第i个潜码,Cj代表第j个量化电平;式(9)中的计算编码平均比特数操作H通过熵测量,具体如下:其中概率 用统计离散的值表示,具体如下,其中,N为潜码的长度, 表示的是量化级Cj的出现的次数, 具体如下:其中s表示量化步长。

7.根据权利要求1所述的一种基于GAN潜码的多视点视频重建方法,其特征在于:步骤S4中所述训练模型的具体过程为:

首先将收集好的空时域EPI图像设置为训练样本,然后将样本集合中的每一个样本输入总体网络,得到总体网络输出的样本重建值;再将总体网络输出的样本重建值和样本的原始值代入步骤S3中构建的代价函数中,得到重建值和原始值之间的代价;最后代价通过迭代调整网络的权重和偏置参数,不停地迭代直至损失最小,同时得到最优的网络参数,由此网络训练达到收敛;将调整网络权重和偏置参数的过程形式化描述如下:式中,w代表的是权重参数,b代表的是偏置参数,t表示的是第t次迭代,t+1表示的是第t+1次迭代,η代表的是学习率,L代表的是代价。

8.根据权利要求1所述的一种基于GAN潜码的多视点视频重建方法,其特征在于:步骤S6中所述传输偶数视点的具体过程为:将多视点视频中偶数视点的视频图像通过步骤S1所述的空时域EPI图像生成方法生成偶数视点对应的空时域EPI图像,然后将偶数视点对应的空时域EPI图像输入到训练好的编码网络E中,输出偶数视点EPI图像对应的潜码;将偶数视点EPI图像对应的潜码经过量化操作后进行传输;其中的量化操作是将图像中的连续像素值集合映射到有限个离散的像素值集合中,用以减小数据量。

9.根据权利要求1所述的一种基于GAN潜码的多视点视频重建方法,其特征在于:步骤S7中所述偶数视点EPI重建的具体过程为:将量化后的偶数视点EPI图像对应潜码进行反量化操作,并连同奇数视点的EPI图像一起,输入到训练好的生成网络G中,输出重建的多列宽EPI图像;其中的反量化操作是将有限个离散的像素值集合映射回连续的像素值集合中。

10.根据权利要求1所述的一种 基于GAN潜码的多视点视频重建方法,其特征在于:所述步骤S8的具体过程为:

步骤S81:从重建的多列宽EPI图像恢复出偶数视点视频:首先将重建后的各序号多列宽EPI图像每8列组成列块,转置后形成行块,然后将不同序号在相同列序的行块按照序号的顺序,首尾对应拼接在一起,得到多视点视频图像,最后将多视点视频图像中的偶数视点抽出,得到偶数视点视频;

步骤S82:奇偶数视点视频组合,恢复多视点视频:将步骤S5中压缩传输后的奇数视点视频以一个视点的间隔插空排列,并将得到的偶数视点视频按顺序插入奇数视点视频的空白间隔中,由此恢复成多视点视频。

说明书 :

一种基于GAN潜码的多视点视频重建方法

技术领域

[0001] 本发明涉及图像处理和多视点图像重建领域,特别是一种基于GAN潜码的多视点视频重建方法。

背景技术

[0002] 随着计算技术和多媒体技术的飞速发展,用户对于高质量体验的沉浸式视频的追求也日益增长,虚拟现实(VR)和增强现实(AR)已然成为各界的关注焦点。多媒体系统通过
其提供的显示及追踪技术在时间和空间上忠实再现现实世界的行为和感觉,就被称为沉
浸。沉浸式视频超越了时间和空间的界限,让人们在虚拟世界中也能产生身临其境的临场。
[0003] 为了增强沉浸感和互动性,使用户可以像现实世界一样自主选择观看的角度和位置,在计算机视觉领域中提出了光场(LF)表示技术作为该问题的解决方案。
[0004] 光场表示旨在从一系列视点提供3D场景的照片级渲染效果。3维场景自由视点VR系统适合采用的是摄像机阵列来获取多视点图像集,并通过多视图渲染进行场景重建,但
是由于稠密的视点信息才能重建平滑的3维场景,海量的光场视频数据的采集,存储和传输
带来巨大挑战。
[0005] 因此,对采集到的光场、多视点视频数据进行压缩变得至关重要。
[0006] 对多视点重建方法调研可知,a)深度图的多视点图像重建方面:提出采用基于分割的光流方法来计算虚拟视图和两个相邻视图之间的偏量,并通过加权三个映射的视图来
产生新的视图。提出了一种视图合成方法,通过优化贝叶斯公式,用鲁棒的深度误差估计来
优化新的代价函数。b)混合分辨率的多视点重建方面:Garcia等人在2012年提出多视点混
合分辨率图像超分辨的研究,但同时他们在研究过程中也发现了混合分辨率研究过程中会
出现一种多视点间的遮挡问题。同年Richter又提出一种具有鲁棒性的超分辨算法,从高分
辨率视角图像中分离出来的高、低频成分都投影到目标低分辨率视角上,通过基于块的低
频配准算法补偿空洞。c)无深度图的光场重建方面:2017年Vagharshakyan等将光场视为
EPI上的稀疏优化求解问题,并使用适应的离散shearlet变换来作为稀疏表示基。2018年Wu
等人提出了一种基于CNN的“模糊‑恢复‑去模糊”框架,从稀疏视图中进行光场重建,可以抑
制上采样或超分辨角度尺寸中的重影效应。
[0007] 对反向GAN的辅助信息生成方法调研可知,最先是2016年Creswell等人的论文中介绍了在计算图可用的前提下使用预先训练的GAN将图像样本投影到潜在空间的技术。同
年Dumoulin等人提出了一种在GAN框架内集成有效推理的新方法,对抗学习推理(ALI),在
类似GAN的对抗框架中投射了推理机(或编码器)和深度定向生成模型(或解码器)的学习。
[0008] 对基于辅助信息的多视点编码调研可知,传统的多视点视频编码,如基于多视点加低分辨率图(MRMV)的视频编码方法,提出了用低分辨率作为辅助信息,采用混合编码框
架对每路视点编码,其视频码率会随着视点数的增加而急剧增长。而3D场景的深度值经常
作为一种辅助信息,例如基于多视点加深度(MVD)的视频编码方法,对应深度被编码和传
输,通过基于深度图像的渲染(DIBR)合成虚拟视点图像,但是该方法中的深度信息难以获
取,且深度图像中很多信息缺失,不能很好地重建图像。上述两种方法都是通过手动提取辅
助信息的方式,来进行多视点视频的编码,辅助信息容易存在冗余,难以用最少的辅助信息
来辅助重建最好的图像质量。对基于EPI的光场重建方法调研可知,虽然EPI可以较好地利
用视点间的相关性重建图像,但因其没有充分利用辅助信息,其中间视点的重建质量有限。

发明内容

[0009] 有鉴于此,本发明的目的是提供一种基于GAN潜码的多视点视频重建方法,通过编码网络提取潜码,构建码率与重建失真联合约束的代价函数,确定最优的辅助信息数据,以
此利用最少的辅助信息来重建最好质量的图像。并结合相邻视点及中间视点潜码的先验知
识作为中间视点的补偿,进一步实现重建质量和码率的联合最优。
[0010] 本发明采用以下方案实现:一种基于GAN潜码的多视点视频重建方法,包括以下步骤:
[0011] 步骤S1:空时域EPI(Epipolar Plane Image)生成:将摄像机阵列采集的多视点视频图像转化为空时域的EPI图像;所述多视点视频图像包括奇数视点视频图像和偶数视点
视频图像;
[0012] 步骤S2:构建一个包含编码网络E、生成网络G和判别网络D的总体网络模型;
[0013] 步骤S3:构建总体网络模型的码率与重建质量联合代价函数;
[0014] 步骤S4:将空时域EPI图像输入总体网络模型中,然后开始训练模型;
[0015] 步骤S5:传输奇数视点:将多视点视频中奇数视点的视频用H.265标准压缩传输;
[0016] 步骤S6:传输偶数视点:将多视点视频中偶数视点的视频通过训练好的总体网络模型中的E网络生成偶数视点对应的潜码,并将该潜码进行压缩传输;
[0017] 步骤S7:偶数视点EPI重建:将奇数视点视频对应的空时域EPI图像和偶数视点对应的潜码一起输入训练好的总体网络模型中的G网络中,得到重建的多列宽EPI图像;
[0018] 步骤S8:从重建的多列宽EPI图像中恢复出偶数视点视频,并和传输后的奇数视点视频组合,恢复成多视点视频。
[0019] 进一步地,所述步骤S1具体包括以下步骤:
[0020] 步骤S11:将多视点视频图像转化为多列宽EPI图像:首先将视点中的帧图像每8行组成行块,转置后形成列块,然后将不同视点在相同时刻的列块拼接在一起,得到多列宽
EPI图像;将多列宽EPI图像的构建过程形式化描述如下,所述多列宽EPI图像矩阵为:
[0021]
[0022] 式中,t代表原始多视点视频中的某一时刻,T代表矩阵转置,m代表多列宽EPI图像的序列号以及原始多视点图像的第m行,K是代表多视点图像总个数,Ii为第i个视点的多视
点图像;矩阵Am的大小等于图像大小,表示如下:
[0023]
[0024] 矩阵Bi的大小等于图像大小,表示如下:
[0025]
[0026] 步骤S12:将多列宽EPI图像堆叠成空时域EPI图像:时域上交叠选取连续的三帧多列宽EPI图像,将该三帧彩色图像堆叠在一起形成一个包含9个通道的空时域EPI图像;将空
时域EPI图像的构建过程形式化描述如下,所述空时域EPI图像矩阵为:
[0027]
[0028] 式中,τ代表时域的帧顺序,u、v表示像素的空间位置横、纵坐标,k表示堆叠的多列宽EPI个数,O表示原始的多列宽EPI图像,R,G,B分别代表图像的三个通道。
[0029] 进一步地,所述步骤S2的具体内容为:
[0030] 总体网络模型内部为多层的神经网络结构,由编码网络E、生成网络D和判别网络G三个网络串联而成;其中E网络一共有18层,由输入部分1个卷积层,中间部分4个残差块和
输出部分1个卷积层构成;其中每个残差块由2个卷积层及2个BN层构成;D网络一共有14层,
由输入部分的11个卷积层和输出部分的3个全连接层构成;G网络一共有68层,由输入部分
的2个卷积层,中间部分16个残差块和输出部分2个卷积层构成;其中每个残差块由2个卷积
层及2个BN层构成;将原始多视点视频转化得到的空时域EPI图像的中间视点作为编码网络
E的输入,输出原始空时域EPI图像中间视点的潜码;将E网络输出的空时域EPI图像中间视
点的潜码以及原始多视点视频转化得到的空时域EPI图像的旁边视点相拼接,作为G网络的
输入,由G网络生成重建的EPI中间视点图像;对于D网络,当D网络的输入是原始空时域EPI
图像和中间视点的潜码时,D网络的输出是1;当D网络的输入是G网络的输出和中间视点的
潜码时,输出0。
[0031] 进一步地,步骤S3中所述总体网络模型的码率与重建质量联合代价函数,具体如下,
[0032]
[0033] 其中,第一项表示D网络用于区分真实图像,第二项表示G网络用于生成近似原始样本数据集分布的图像,第三项中d(x,G(q(E(x))))为重建质量约束项,第四项中H(q(E
(x)))为码率约束项;α、β表示的是权重参数,d表示的是用于衡量x与 之间相似度的损失函
数,H表示的是码率约束损失函数。
[0034] 进一步地,所述代价函数中的重建质量约束项,具体如下,
[0035] d(x,G(q(E(x))))=lMSE+lVGG   (6)
[0036] 其中,lMSE的计算公式为:
[0037]
[0038] 其中,lVGG的计算公式为:
[0039]
[0040] 式(7)(8)中,lMSE代表基于MSE的像素级损失,lVGG代表基于VGG的特征级损失,w,h代表图像的宽和高,xi,j代表i、j位置上的原始像素点, 代表i、j位置上的重建像素点,φ
代表VGG网络提取特征图的操作。
[0041] 进一步地,所述代价函数中的码率约束项,具体如下,
[0042] H(q(E(x)))=H(q(w)))               (9)
[0043] 式(9)中的量化操作q使用可微分软量化公式计算,具体如下:
[0044]
[0045] 其中L代表量化级,Wi代表量化操作后的第i个潜码,Cj代表第j个量化电平;式(9)中的计算编码平均比特数操作H通过熵测量,具体如下:
[0046]
[0047] 其中概率 用统计离散的值表示,具体如下,
[0048]
[0049] 其中,N为潜码的长度, 表示的是量化级Cj的出现的次数, 具体如下:
[0050]
[0051] 其中s表示量化步长。
[0052] 进一步地,步骤S4中所述训练模型的具体过程为:
[0053] 首先将收集好的空时域EPI图像设置为训练样本,然后将样本集合中的每一个样本输入总体网络,将总体网络输出的重建值和样本的真实值代入步骤S3中构建的代价函数
中,得到重建值和真实值之间的代价;最后代价通过迭代调整网络的权重和偏置参数,不停
地迭代直至损失最小,同时得到最优的网络参数,由此网络训练达到收敛;将调整网络权重
和偏置参数的过程形式化描述如下:
[0054]
[0055] 式中,w代表的是权重参数,b代表的是偏置参数,t表示的是第t次迭代,t+1表示的是第t+1次迭代,η代表的是学习率,L代表的是代价。
[0056] 进一步地,步骤S6中所述传输偶数视点的具体过程为:
[0057] 将多视点视频中偶数视点的视频图像通过步骤S1所述的空时域EPI图像生成方法生成偶数视点对应的空时域EPI图像,然后将偶数视点对应的空时域EPI图像输入到训练好
的编码网络E中,输出偶数视点EPI图像对应的潜码;将偶数视点EPI图像对应的潜码经过量
化操作后进行传输;其中的量化操作是将图像中的连续像素值集合映射到有限个离散的像
素值集合中,用以减小数据量。
[0058] 进一步地,步骤S7中所述偶数视点EPI重建的具体过程为:
[0059] 将量化后的偶数视点EPI图像对应潜码进行反量化操作,并连同奇数视点的EPI图像一起,输入到训练好的生成网络G中,输出重建的多列宽EPI图像;其中的反量化操作是将
有限个离散的像素值集合映射回连续的像素值集合中。
[0060] 进一步地,所述步骤S8的具体过程为:
[0061] 步骤S81:从重建的多列宽EPI图像恢复出偶数视点视频:首先将重建后的各序号多列宽EPI图像每8列组成列块,转置后形成行块,然后将不同序号在相同列序的行块按照
序号的顺序,首尾对应拼接在一起,得到多视点视频图像,最后将多视点视频图像中的偶数
视点抽出,得到偶数视点视频;
[0062] 步骤S82:奇偶数视点视频组合,恢复多视点视频:将步骤S5中压缩传输后的奇数视点视频以一个视点的间隔插空排列,并将得到的偶数视点视频按顺序插入奇数视点视频
的空白间隔中,由此恢复成多视点视频。
[0063] 与现有技术相比,本发明具有以下有益效果:
[0064] 本发明提出的方法在给定少量视点数据的情况下,通过传输的潜码来重建多视点图像是非常有效的。在大大压缩码率的情况下保证了多视点视频重建的良好质量。本发明
提出的重建算法可应用于虚拟视点合成、多视点视频压缩后处理以及虚拟现实等多个领
域。

附图说明

[0065] 图1为本发明实施例的方法流程图。
[0066] 图2为本发明实施例的时空域EPI构建过程的框图。
[0067] 图3为本发明实施例的网络结构的框图。
[0068] 图4为本发明实施例的方法与其他方法客观比较的RD曲线图;其中,图4(a)为序列Balloons的RD曲线图,图4(b)为序列Book_Arrival的RD曲线图,图4(c)为序列Kendo的RD曲
线图,图4(d)为序列Lovebird1的RD曲线图,图4(e)为序列Newspaper的RD曲线图。
[0069] 图5为本发明实施例的方法与其他方法客观比较的RS曲线图;其中,图5(a)为序列Balloons的RD曲线图,图5(b)为序列Book_Arrival的RD曲线图,图5(c)为序列Kendo的RD曲
线图,图5(d)为序列Lovebird1的RD曲线图,图5(e)为序列Newspaper的RD曲线图。
[0070] 图6为本发明实施例的方法与其他方法主观比较的效果图。其中,图6(a)为MRMV表示基于低分辨率信息作为辅助信息编码方法生成的视频图像,图6(b)为MVD表示基于潜码
作为辅助信息的编码方法生成的视频图像,图6(c)为Proposed表示的是本文方法生成的视
频图像,图6(d)为Original images表示的是原始的多视点视频图像。

具体实施方式

[0071] 下面结合附图及实施例对本发明做进一步说明。
[0072] 应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常
理解的相同含义。
[0073] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式
也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包
括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0074] 如图1所示,本实施例提供一种基于GAN(Generative Adversarial Network)潜码的多视点视频重建方法,包括以下步骤:
[0075] 训练模型阶段:
[0076] 步骤S1:空时域EPI(Epipolar Plane Image)生成:将摄像机阵列采集的多视点视频图像转化为空时域的EPI图像;所述多视点视频图像包括奇数视点视频图像和偶数视点
视频图像;
[0077] 步骤S2:构建一个包含编码网络E、生成网络G和判别网络D的总体网络模型;
[0078] 步骤S3:构建总体网络模型的码率与重建质量联合代价函数;
[0079] 步骤S4:将空时域EPI图像输入总体网络模型中,然后开始训练模型;
[0080] 使用模型阶段:
[0081] 步骤S5:传输奇数视点:将多视点视频中奇数视点的视频用H.265标准压缩传输;
[0082] 步骤S6:传输偶数视点:将多视点视频中偶数视点的视频通过训练好的总体网络模型中的E网络生成偶数视点对应的潜码,并将该潜码进行压缩传输;
[0083] 步骤S7:偶数视点EPI重建:将奇数视点视频对应的空时域EPI图像和偶数视点对应的潜码一起输入训练好的总体网络模型中的G网络中,得到重建的多列宽EPI图像;
[0084] 步骤S8:从重建的多列宽EPI图像中恢复出偶数视点视频,并和传输后的奇数视点视频组合,恢复成多视点视频。
[0085] 在本实施例中,所述步骤S1具体包括以下步骤:
[0086] 步骤S11:将多视点视频图像转化为多列宽EPI图像:首先将视点中的帧图像每8行组成行块,转置后形成列块,然后将不同视点在相同时刻的列块拼接在一起,得到多列宽
EPI图像;将多列宽EPI图像的构建过程形式化描述如下,所述多列宽EPI图像矩阵为:
[0087]
[0088] 式中,t代表原始多视点视频中的某一时刻,T代表矩阵转置,m代表多列宽EPI图像的序列号以及原始多视点图像的第m行,K是代表多视点图像总个数,Ii为第i个视点的多视
点图像;矩阵Am的大小等于图像大小,表示如下:
[0089]
[0090] 矩阵Bi的大小等于图像大小,表示如下:
[0091]
[0092] 步骤S12:将多列宽EPI图像堆叠成空时域EPI图像:时域上交叠选取连续的三帧多列宽EPI图像,将该三帧彩色图像堆叠在一起形成一个包含9个通道的空时域EPI图像;将空
时域EPI图像的构建过程形式化描述如下,所述空时域EPI图像矩阵为:
[0093]
[0094] 式中,τ代表时域的帧顺序,u、v表示像素的空间位置横、纵坐标,k表示堆叠的多列宽EPI个数,O表示原始的多列宽EPI图像,R,G,B分别代表图像的三个通道。
[0095] 在本实施例中,所述步骤S2的具体内容为:
[0096] 总体网络模型内部为多层的神经网络结构,由编码网络E、生成网络D和判别网络G三个网络串联而成;其中E网络一共有18层,由输入部分1个卷积层,中间部分4个残差块和
输出部分1个卷积层构成;其中每个残差块由2个卷积层及2个BN层构成;D网络一共有14层,
由输入部分的11个卷积层和输出部分的3个全连接层构成;G网络一共有68层,由输入部分
的2个卷积层,中间部分16个残差块和输出部分2个卷积层构成;其中每个残差块由2个卷积
层及2个BN层构成;上述的卷积层,残差块,BN层和全连接层,均为神经网络中经典的网络结
构。将原始多视点视频转化得到的空时域EPI图像的中间视点作为编码网络E的输入,输出
原始空时域EPI图像中间视点的潜码;将E网络输出的空时域EPI图像中间视点的潜码以及
原始多视点视频转化得到的空时域EPI图像的旁边视点相拼接,作为G网络的输入,由G网络
生成重建的EPI中间视点图像;对于D网络,当D网络的输入是原始空时域EPI图像和中间视
点的潜码时,D网络的输出是1;当D网络的输入是G网络的输出和中间视点的潜码时,输出0;
具体的网络结构如图3所示。
[0097] 在本实施例中,所述步骤S3中所述总体网络模型的码率与重建质量联合代价函数,具体如下,
[0098]
[0099] 其中,第一项表示D网络用于区分真实图像,第二项表示G网络用于生成近似原始样本数据集分布的图像,第三项中d(x,G(q(E(x))))为重建质量约束项,第四项中H(q(E
(x)))为码率约束项;α、β表示的是权重参数,d表示的是用于衡量x与 之间相似度的损失
函数,H表示的是码率约束损失函数。
[0100] 在本实施例中,所述代价函数中的重建质量约束项,具体如下,
[0101] d(x,G(q(E(x))))=lMSE+lVGG   (6)
[0102] 其中,lMSE的计算公式为:
[0103]
[0104] 其中,lVGG的计算公式为:
[0105]
[0106] 式(7)(8)中,lMSE代表基于MSE的像素级损失,lVGG代表基于VGG的特征级损失,w,h代表图像的宽和高,xi,j代表i、j位置上的原始像素点, 代表i、j位置上的重建像素点,φ
代表VGG网络提取特征图的操作。
[0107] 在本实施例中,所述代价函数中的码率约束项,具体如下,
[0108] H(q(E(x)))=H(q(w)))               (9)
[0109] 式(9)中的量化操作q使用可微分软量化公式计算,具体如下:
[0110]
[0111] 其中L代表量化级,Wi代表量化操作后的第i个潜码,Cj代表第j个量化电平;式(9)中的计算编码平均比特数操作H通过熵测量,具体如下:
[0112]
[0113] 其中概率 用统计离散的值表示,具体如下,
[0114]
[0115] 其中,N为潜码的长度, 表示的是量化级Cj的出现的次数, 具体如下:
[0116]
[0117] 其中s表示量化步长。
[0118] 在本实施例中,步骤S4中所述训练模型的具体过程为:
[0119] 首先将收集好的空时域EPI图像设置为训练样本,然后将样本集合中的每一个样本输入总体网络,将总体网络输出的重建值和样本的真实值代入步骤S3中构建的代价函数
中,得到重建值和真实值之间的代价;最后代价通过迭代调整网络的权重和偏置参数,不停
地迭代直至损失最小,同时得到最优的网络参数,由此网络训练达到收敛;将调整网络权重
和偏置参数的过程形式化描述如下:
[0120]
[0121] 式中,w代表的是权重参数,b代表的是偏置参数,t表示的是第t次迭代,t+1表示的是第t+1次迭代,η代表的是学习率,L代表的是代价。
[0122] 其中,此重建值为总体网络模型的输出,步骤S3中码率与重建质量联合代价函数是由总体网络的输入(即文中所示样本的原始值)和总体网络的输出(即文中所示样本的重
建值)这两个值计算得到的。
[0123] 在本实施例中,步骤S6中所述传输偶数视点的具体过程为:
[0124] 将多视点视频中偶数视点的视频图像通过步骤S1所述的空时域EPI图像生成方法生成偶数视点对应的空时域EPI图像,然后将偶数视点对应的空时域EPI图像输入到训练好
的编码网络E中,输出偶数视点EPI图像对应的潜码;其中编码网络E的网络结构见步骤S2中
E网络的结构所述。将偶数视点EPI图像对应的潜码经过量化操作后进行传输;其中的量化
操作是将图像中的连续像素值集合映射到有限个离散的像素值集合中,用以减小数据量。
[0125] 在本实施例中,步骤S7中所述偶数视点EPI重建的具体过程为:
[0126] 将量化后的偶数视点EPI图像对应潜码进行反量化操作,并连同奇数视点的EPI图像一起,输入到训练好的生成网络G中,输出重建的多列宽EPI图像;其中生成网络G的网络
结构见步骤S2中G网络的结构所述。其中的反量化操作是将有限个离散的像素值集合映射
回连续的像素值集合中。
[0127] 在本实施例中,所述步骤S8的具体过程为:
[0128] 步骤S81:从重建的多列宽EPI图像恢复出偶数视点视频:首先将重建后的各序号多列宽EPI图像每8列组成列块,转置后形成行块,然后将不同序号在相同列序的行块按照
序号的顺序,首尾对应拼接在一起,得到多视点视频图像,最后将多视点视频图像中的偶数
视点抽出,得到偶数视点视频;
[0129] 步骤S82:奇偶数视点视频组合,恢复多视点视频:将步骤S5中压缩传输后的奇数视点视频以一个视点的间隔插空排列,并将得到的偶数视点视频按顺序插入奇数视点视频
的空白间隔中,由此恢复成多视点视频。
[0130] 本实施例通过GAN的生成能力来补偿相邻视点之间丢失的映射关系,并在提取网络的训练过程中考虑重建质量与潜码的码率之间的权衡。在编码器端,使用卷积网络提取
GAN的潜码作为辅助信息,并构建模型的码率与重建质量联合代价函数。在解码器端,GAN的
生成器将相邻视点与潜码结合起来以重构中间视图。本发明GAN潜码可以用作多视点视频
的辅助信息,以实现更好的率失真性能。
[0131] 特别的,为了验证本实施例中提出算法的有效性,基于Nvidia 2080Ti GPU,使用Matlab和Python语言实现了基于GAN潜码的多视点视频重建方法,并使用了来自Balloons,
Kendo,Lovebird1,Newspaper和Book_arrival的五个多视点视频图像序列进行大量实验,
训练数据集设置如表1所示。为了验证我们提出的GAN潜码作为辅助信息的多视点视频重建
方法的可行性,我们将其与使用深度图作为辅助信息的重建方法(MVD)和基于低分辨率信
息作为辅助信息的重建方法(MRMV)进行比较,设置了三个实验。
[0132] 表1训练数据集设置
[0133]
[0134] 在训练模型阶段,首先我们将每个多视点视频图像序列通过Matlab代码转成时空域EPI,其中时空域EPI中每个视点的宽度为8。然后基于Python语言构建好E,G,D三个网络
模型,他们的具体网络结构图3所示,并构建模型的码率与重建质量联合代价函数,如式(5)
所示。最后设置训练集和超参数。训练集使用的是五个序列EPI的混合样本集,共15000张图
片。训练的Sample_num设置为15000,Batchsize设置为1,Epoch_init设置为12,Epoch设置
为50;设置完成后开始训练。
[0135] 而在使用模型阶段,首先选取多视点视频图像序列中的奇数视点,并将其通过H.265标准压缩传输至解码端。然后选取多视点视频图像序列中的偶数视点,将其通过E网
络生成潜码,并将潜码进行压缩传输至解码端。后将解码端的奇数视点视频和潜码一起输
入G网络,以此重建中间视点的EPI图像。最后通过Matlab,将重建后的时空域EPI图像恢复
成多视点视频图像。
[0136] 使用PSNR和SSIM评估重建视频图像的质量,并采用所有中间视点的平均失真来评估算法性能。对于每个多视点图像序列,用图上的曲线表示我们提出的方法的RS和RD性能。
[0137] 1)客观比较
[0138] 为了证明本实施例提出的多视点视频重建方法的效率,将本实施例的方法与基于低分辨率信息作为辅助信息的编码方法(MRMV)和基于深度图作为辅助信息的编码方法
(MVD)进行比较。由于我们设计的目的是评估生成的潜码如何影响多视点图像的编码效率,
所以只考虑这三种方法在使用相同编码方法3D‑HEVC的情况。对于相应的两个多视点重建
方法,将HTM的编码器参数设置为完全一样。最后,通过GAN解码传输的偶数视点辅助信息,
并和原有的奇数视点图像一起合成中间视点。
[0139] 图4展示了三种算法的RD(Rate‑PSNR)曲线,其中x轴表示的是辅助信息编码比特率(包括深度图,低分辨率图、潜码),y轴表示的是由PSNR测量的合成视点图像质量评价的
得分。如图4所示,其中,MRMV表示基于低分辨率信息作为辅助信息的编码方法,MVD表示基
于潜码作为辅助信息的编码方法,MVLL表示的是本文方法。从图上可以看出,MRMV方法总体
上比MVD好,随着码率提升,其PSNR迅速提升;在某些序列的低码率情况下,MVD方法性能较
好,但高码率下性能较差。这是因为深度图在高码率情况下,对提升重建质量没有很大影
响。而我们的方法(MVLL)性能在整体上均优于其他两种方法,特别在低码率下,我们算法的
性能较好,PSNR比MVD算法高,而在高码率下我们的算法与MVD算法性能接近。与MVD方法及
MRMV方法相比,率失真性能的迅速提升验证了GAN潜码作为辅助信息的好处。它证明了GAN
潜码编码网络中获取的辅助信息可以在保持相同比特率的同时,合成质量更好的虚拟视点
图像。而潜码在比特率降低时对合成视点图像质量的影响也小于其他辅助信息。图5展示了
三种算法的RS(Rate‑SSIM)曲线,其中x轴是辅助信息的编码比特率,y轴表示的是由SSIM测
量的合成视点图像质量评价的得分。如图5所示,其中,MRMV表示基于低分辨率信息作为辅
助信息的编码方法,MVD表示基于潜码作为辅助信息的编码方法,MVLL表示的是本文方法。
这些图同样也表明我们提出的方法在比特率较低时,能具有更好的性能。
[0140] 2)主观比较
[0141] 本实施例选取了部分主观结果来直观检验提出的方法重建的图像与MRMV方法以及MVD方法的对比,如图6所示,测试序列分别是Balloons,Book_Arrival,Kendo,Lovebird1
和Newspaper。参照图6,第一列对应的是通过混合分辨率方法(MRMV)从中间视点图像的低
分辨率图像重建的图像,第二列的图像是由具有深度图的相邻视图合成方法(MVD)重建的
图像,第三列对应的是我们提出的由GAN潜码方法重建的图像。在每行中,三种方法的中间
视点图像的辅助信息编码比特率几乎相同。可以观察到,本实施例提出的方法重建的图像
在视觉上更令人愉悦,因为这些图像保留了更加丰富的细节信息并且噪声更少。相比之下,
由具有深度图作为辅助信息的重建图像显得更加模糊,并且由低分辨率图像作为辅助信息
重建的图像中存在明显的错误像素。结果表明,与其他两种方法相比,利用GAN潜码恢复中
间视点图像可以获得更好的合成视图质量,这与之前文献中的多视点视频重建算法设计结
果一致。
[0142] 以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。