一种面部通话视频的分层编码方法转让专利

申请号 : CN202210053055.3

文献号 : CN114067258B

文献日 : 2022-05-03

本发明属于视频压缩和视频质量增强领域，具体提供一种面部通话视频的分层编码方法，用以有效提升通话视频的重建质量和压缩效率。在本发明中，基于面部通话视频的空间冗余和时间冗余较大，本发明对基础层进行高倍下采样，在对大量冗余信息和少量非冗余信息进行丢弃的同时，通过一定数量的高分辨率视频帧（即增强层）来对这部分丢弃的信息进行补全，能够在有效提高压缩率的同时保证优良的通话质量；同时，本发明将压缩后的基础层和增强层输入卷积神经网络，再辅以特征层用于引导基础层和增强层的融合，有效提高重建视频质量；综上所述，本发明通过多层编码，能够显著提升面部通话视频恢复的质量，进而有效提升视频重建质量和压缩效率。

1.一种面部通话视频的分层编码方法，其特征在于，包括以下步骤：步骤1、编码，具体为：

步骤1.1、采用深度卷积神经网络提取通话视频帧的面部特征点得到面部特征点矩阵；

步骤1.2、利用面部特征点从待压缩的通话视频中提取关键帧；

步骤1.3、对通话视频进行高倍下采样，再采用HEVC压缩得到基础层，并再次提取基础层的面部特征点得到面部特征点矩阵；

步骤1.4、将步骤1.1所得面部特征点矩阵与步骤1.3所得面部特征点矩阵做差，将所得残差编码作为特征层；

步骤1.5、将关键帧插入基础层的插值序列采用HEVC压缩得到增强层；

步骤2、解码，具体为：

步骤2.1、分别对基础层、特征层、增强层数据进行解码；

步骤2.2、将解码后基础层、特征层、增强层数据输入至多层视频重建网络，由多层视频重建网络输出重建面部视频；所述多层视频重建网络由特征提取模块、特征融合模块和图像重建模块组成；其中，

所述特征提取模块由基础层通道分支、增强层通道分支与特征层通道分支组成，基础层通道分支的输入为基础层图像Ib、输出为Fb，增强层通道分支的输入为关键帧图像Ie、输出为Fe，特征层通道分支的输入为面部特征点图像If、输出为Ff；所述基础层通道分支与增强层通道分支的网络结构相同，均由网络单元U1、网络单元U2、网络单元U3依次连接组成；

网络单元U1、网络单元U2与网络单元U3结构相同，均为：输入Uin经过CONV3×3×64+ReLU+Dilated‑CONV3×3×64_2+BatchNorm+ReLU+Dilated‑CONV3×3×64_2+BatchNorm+ReLU后输出Umid、网络单元U的输出为Uout=Umid+Uin；所述特征层通道分支为：CONV 1×1×64+ReLU+CONV 1×1×64+ReLU+CONV 1×1×64+ReLU；

所述特征融合模块由多级特征融合单元MFFU和带有残差的密集连接残差单元RRDU组成；多级特征融合单元MFFU的输入为Fb、Fe、Ff，输出为Fmffu；带有残差的密集连接残差单元RRDU的输入Fmffu、输出为Frrdu；具体为：输入Ff与Fe各经过CONV 1×1×64+ReLU后输出Ff*与Fe*，Ff*与Fe*沿通道执行concatenation操作、再经过CONV 3×3×64+CONV 3×3×

64后输出M；输入Fe经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fe**，Fe**与M进行点乘得到M**；输入Fb经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fb*，Fb*与M**沿通道执行concatenation操作、再经过CONV 3×3×64+ReLU +CONV 3×3×64+ReLU后输出Fmffu；

所述带有残差的密集连接残差单元RRDU由3个RDU组成，具体为：RDU1的输入为RDU1in=Fmffu、输出为RDU1out，RDU2的输入为RDU2in= RDU1out +RDU1in、输出为RDU2out，RDU3的输入为RDU3in=RDU2out+RDU2in、输出为RDU3out，RRDU的输出为Frrdu =RDU3out+RDU3in+RDU1in；

所述图像重建模块为：网络单元U4+网络单元U5+网络单元U6+CONV 3×3×64+ReLU，网络单元U4、网络单元U5、网络单元U6结构相同，且与网络单元U1相同；图像重建模块的输入为Frrdu、输出为重建人脸图像。

2.按权利要求1所述面部通话视频的分层编码方法，其特征在于，所述RDU包括5个卷积层，其中，每个卷积层具体为：CONV 3×3×64+LeakReLU，第一个卷积层的输入为RDU in、输出为CONVout1，CONVout1与 RDU in沿通道执行concatenation操作后得到第二个卷积层的输入CONV in2，第二个卷积层输出为CONVout2，CONVout2与CONV in2沿通道执行concatenation操作后得到第三个卷积层的输入CONV in3，第三个卷积层的输出为CONVout3，CONVout3与CONV in3沿通道执行concatenation操作后得到第四个卷积层的输入CONV in4，第四个卷积层的输出为CONVout4，CONVout4与CONV in4沿通道执行concatenation操作后得到第五个卷积层的输入为CONV in5，第五个卷积层的输出为RDU out。

3.按权利要求1所述面部通话视频的分层编码方法，其特征在于，所述步骤1.2中，提取关键帧的具体过程为：计算当前帧和已选关键帧的差异性：其中，为倍率因子，代表当前帧和已选关键帧的面部表情相似性、为当前帧和已选关键帧的面部朝向相似性：

其中，代表当前帧的面部特征点矩阵中第组的点坐标减去得到的相对坐标，代表当前帧的面部特征点矩阵中第组的点坐标的平均值，、则代表已选关键帧的相应值；

将与已选关键帧的差异性大于预设阈值的当前帧选为关键帧。

一种面部通话视频的分层编码方法

技术领域

[0001] 本发明属于视频压缩和视频质量增强领域，具体提供一种面部通话视频的分层编码方法。

背景技术

[0002] 近年来，远程协同办公迎来井喷式增长，以视频通话为基础的视频会议业务日益增多；此外，社交媒体中的实时视频交流也日渐成为网络用户沟通的主要手段。数字视频其
原始数据量巨大，需要占用较大的存储空间和传输带宽；为了节约有限的存储和传输资源，
通常需要对数字视频进行有损压缩；压缩率越高，所节约的存储和传输资源就越多，不过带
来的压缩失真就越大。

[0003] 与普通视频不同的是：视频会议或视频通话的内容往往包含用户面部和静态背景，这种视频的质量高度依赖于网络的稳定性和带宽；目前，弱网环境下的视频通话能力无
法满足用户的应用需求，为了保证在带宽有限的网络上的稳定传输，有必要设计一种独特
的面部通话视频编码方法。

发明内容

[0004] 本发明的目的在于针对上述现有技术提出的问题，提供一种面部通话视频的分层编码方法，用以有效提升通话视频的重建质量和压缩效率。为实现该目的，本发明采用的技
术方法如下：

[0005] 一种面部通话视频的分层编码方法，其特征在于，包括以下步骤：

[0006] 步骤1、编码，具体为：

[0007] 步骤1.1、采用深度卷积神经网络提取通话视频帧的面部特征点得到面部特征点矩阵；

[0008] 步骤1.2、利用面部特征点从待压缩的通话视频中提取关键帧；

[0009] 步骤1.3、对通话视频进行高倍下采样，再采用HEVC压缩得到基础层，并再次提取基础层的面部特征点得到面部特征点矩阵；

[0010] 步骤1.4、将步骤1.1所得面部特征点矩阵与步骤1.3所得面部特征点矩阵做差，将所得残差编码作为特征层；

[0011] 步骤1.5、将关键帧插入基础层的插值序列采用HEVC压缩得到增强层；

[0012] 步骤2、解码，具体为：

[0013] 步骤2.1、分别对基础层、特征层、增强层数据进行解码；

[0014] 步骤2.2、将解码后基础层、特征层、增强层数据输入至多层视频重建网络，由多层视频重建网络输出重建面部视频。

[0015] 进一步的，所述步骤2.2中，多层视频重建网络由特征提取模块、特征融合模块和图像重建模块组成；其中，

[0016] 所述特征提取模块由基础层通道分支、增强层通道分支与特征层通道分支组成，基础层通道分支的输入为基础层图像Ib、输出为Fb，增强层通道分支的输入为关键帧图像
Ie、输出为Fe，特征层通道分支的输入为面部特征点图像If、输出为Ff；所述基础层通道分
支与增强层通道分支的网络结构相同，均由网络单元U1、网络单元U2、网络单元U3依次连接
组成，网络单元U1、网络单元U2与网络单元U3结构相同，均为：输入Uin经过CONV3×3×64+
ReLU+Dilated‑CONV3×3×64_2+BatchNorm+ReLU+Dilated‑CONV3×3×64_2+BatchNorm+
ReLU后输出Umid、网络单元U的输出为Uout=Umid+Uin；所述特征层通道分支为：CONV 1×1
×64+ReLU+CONV 1×1×64+ReLU+CONV 1×1×64+ReLU；

[0017] 所述特征融合模块由多级特征融合单元MFFU和带有残差的密集连接残差单元RRDU组成；多级特征融合单元MFFU的输入为Fb、Fe、Ff，输出为Fmffu；带有残差的密集连接
残差单元RRDU的输入Fmffu、输出为Frrdu；具体为：输入Ff与Fe各经过CONV 1×1×64+ReLU
后输出Ff*与Fe*，Ff*与Fe*沿通道执行concatenation操作、再经过CONV 3×3×64+CONV 3
×3×64后输出M；输入Fe经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fe**，Fe**
与M进行点乘得到M**；输入Fb经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fb*，
Fb*与M**沿通道执行concatenation操作、再经过CONV 3×3×64+ReLU +CONV 3×3×64+
ReLU后输出Fmffu；

[0018] 所述带有残差的密集连接残差单元RRDU由3个RDU组成，具体为：RDU1的输入为RDU1in=Fmffu、输出为RDU1out，RDU2的输入为RDU2in= RDU1out +RDU1in、输出为RDU2out，
RDU3的输入为RDU3in=RDU2out+RDU2in、输出为RDU3out，RRDU的输出为Frrdu =RDU3out+
RDU3in+RDU1in；

[0019] 所述图像重建模块为：网络单元U4+网络单元U5+网络单元U6+CONV 3×3×64+ReLU，网络单元U4、网络单元U5、网络单元U6结构相同，且与网络单元U1相同；图像重建模
块的输入为Frrdu、输出为重建人脸图像。

[0020] 进一步的，所述RDU包括5个卷积层，其中，每个卷积层具体为：CONV 3×3×64+LeakReLU，第一个卷积层的输入为RDU in、输出为CONVout1，CONVout1与 RDU in沿通道执
行concatenation操作后得到第二个卷积层的输入CONV in2，第二个卷积层输出为
CONVout2，CONVout2与CONV in2沿通道执行concatenation操作后得到第三个卷积层的输
入CONV in3，第三个卷积层的输出为CONVout3，CONVout3与CONV in3沿通道执行
concatenation操作后得到第四个卷积层的输入CONV in4，第四个卷积层的输出为
CONVout4，CONVout4与CONV in4沿通道执行concatenation操作后得到第五个卷积层的输
入为CONV in5，第五个卷积层的输出为RDU out。

[0021] 进一步的，所述步骤1.2中，提取关键帧的具体过程为：计算当前帧和已选关键帧的差异性：

[0022]

[0023] 其中，为倍率因子，代表当前帧和已选关键帧的面部表情相似性、为当前帧和已选关键帧的面部朝向相似性：

[0024]

[0025]

[0026] 其中，代表当前帧的面部特征点矩阵中第组的点坐标减去得到的相对坐标，代表当前帧的面部特征点矩阵中第组的点坐标的平均值，、
则代表已选关键帧的相应值；

[0027] 将与已选关键帧的差异性大于预设阈值的当前帧选为关键帧。

[0028] 与现有技术相比，本发明是有益效果在于：

[0029] 本发明提出了一种面部通话视频的分层编码方法，为视频会议和社交媒体中拍摄的视频提供了一种有效的压缩方法；基于面部通话视频的空间冗余和时间冗余较大，本发
明对基础层进行高倍下采样，在对大量冗余信息和少量非冗余信息进行丢弃的同时，通过
一定数量的高分辨率视频帧（即增强层）来对这部分丢弃的信息进行补全，能够在有效提高
压缩率的同时保证优良的通话质量；同时，本发明将压缩后的基础层和增强层输入卷积神
经网络，再辅以特征层用于引导基础层和增强层的融合，有效提高重建视频质量；综上所
述，本发明通过多层编码，能够显著提升面部通话视频恢复的质量，进而有效提升视频重建
质量和压缩效率。

附图说明

[0030] 图1为本发明实施例中面部视频重建网络结构图。

[0031] 图2为本发明实施例中面部视频重建网络中网络单元U1‑U6的结构图。

[0032] 图3为本发明实施例中面部视频重建网络中MFFU的结构图。

[0033] 图4为本发明实施例中面部视频重建网络中RRDU的结构图。

[0034] 图5为本发明实施例中RRDU中RDU的结构图。

[0035] 图6为本发明实施例中面部通话视频的分层编码方法的流程图。

[0036] 图7为本发明实施例与HEVC的R‑D曲线对比图。

具体实施方式

[0037] 下面将结合附图对本发明的实施例中的技术方法进行清楚、完整的描述，显然，下面所描述的实施例仅是本发明一部分的实施例，而不是全部的实施例；基于本发明中的实
施例，本领域普通技术人员在没有付出创造性劳动前提下，所获得的所有其他实施例，都属
于本发明保护的范围。

[0038] 本实施例提供一种面部通话视频的分层编码方法，其流程如图6所示，具体步骤如下：

[0039] 步骤1. 编码端设计；

[0040] 步骤1.1 采用深度卷积神经网络提取视频帧的面部特征点矩阵，具体为从视频中抽取视频帧，对每一视频帧采用face_alignment库中提供的FaceAlignment类进行面部特
征点矩阵提取，landmarks_type参数为face_alignment.LandmarksType._2D，flip_input
参数为False，提取到的面部特征点矩阵为2×68的矩阵，其第一行为横坐标、第二行为纵坐
标，共有68个点，按顺序排列分别描述人脸的下巴、两条眉毛、两只眼睛、鼻子、脸部的外唇
和内唇，共8组；

[0041] 步骤1.2 利用面部特征点矩阵从待压缩的通话视频中提取关键帧，具体为计算当前帧和已选关键帧的差异性：

[0042]

[0043] 其中，代表当前帧和已选关键帧的面部表情相似性，为倍率因子、设置为5，为当前帧和已选关键帧的面部朝向相似性，又有：

[0044]

[0045]

[0046] 其中，代表当前帧的面部特征点矩阵中第组的点坐标减去得到的相对坐标，代表当前帧的面部特征点矩阵中第组的点坐标的平均值，、
则代表已选关键帧的相应值；

[0047] 将与已选关键帧的差异性都大于阈值400的当前帧选为关键帧；

[0048] 步骤1.3 将原224×224分辨率的视频帧通过bicubic下采样为96×96分辨率，并采用HM软件进行压缩得到基础层；

[0049] 步骤1.4 将原224×224分辨率的视频帧提取的面部特征点矩阵与96×96分辨率的基础层提取的面部特征点矩阵做差，将所得残差矩阵以4为量化因子量化取整后，每个矩
阵元素使用2byte顺序编码作为特征层；

[0050] 步骤1.5 将224×224分辨率的关键帧插入由96×96的基础层插值得到的224×224序列，并采用HM软件压缩得到增强层；

[0051] 步骤2. 解码端设计；

[0052] 步骤2.1 对基础层数据使用HM软件进行解压缩得到解码后的基础层，并从其中提取面部特征点矩阵；对特征层数据进行直接解码得到面部特征点矩阵残差，用面部特征点
矩阵残差与从解码后的基础层中提取的面部特征点矩阵相加得到解码后的特征层，对增强
层数据使用HM软件进行解压缩得到解码后的增强层；

[0053] 步骤2.2. 将解码后基础层、特征层、增强层数据输入至多层视频重建网络，由多层视频重建网络输出重建面部视频。

[0054] 所述多层视频重建网络的结构如图1所示，其中，卷积层对应的卷积核大小为3×3和1×1，除RRDU块中激活函数为LeakRelu函数外，其余卷积层激活函数均为Relu函数；具体
网络结构如图1 图5所示，图中“CONV 3×3×64”表示一层卷积层、且对应的卷积核的大小
~
为3×3、卷积的输出通道为64、padding参数为“same”，“Dilated‑CONV 3×3×64_2”表示一
层空洞卷积层、且对应的卷积核的大小为3×3、卷积的输出通道为64、padding参数为2、
dilation参数为2，“CONCAT”表示沿通道尺度的concatenation操作，“ ”表示像素级的
点乘操作；

[0055] 更为具体的讲：所述多层视频重建网络由特征提取模块、特征融合模块和图像重建模块组成；

[0056] 所述特征提取模块由基础层通道分支、增强层通道分支与特征层通道分支三部分组成，其中，基础层通道分支的输入为基础层图像Ib、输出为Fb，增强层通道分支的输入为
关键帧图像Ie、输出为Fe，特征层通道分支的输入为面部特征点图像If、输出为Ff；

[0057] 所述基础层通道分支与增强层通道分支的网络结构相同，由3个相同的网络单元U1、U2、U3依次连接组成，如图2所示，具体为：

[0058] 网络单元U1的输入为U1in，U1in经过CONV 3×3×64+ReLU+Dilated‑CONV 3×3×64_2+BatchNorm +ReLU+ Dilated‑CONV 3×3×64_2+BatchNorm+ReLU后输出U1mid，网络
单元U1的输出为U1out=U1mid+U1in；

[0059] 网络单元U2的输入为U1out，U1out经过CONV 3×3×64+ReLU+Dilated‑CONV 3×3×64_2+BatchNorm +ReLU+ Dilated‑CONV 3×3×64_2+BatchNorm+ReLU后输出U2mid，网
络单元U2的输出为U2out=U2mid+U1out；

[0060] 网络单元U3的输入为U2out，U2out经过CONV 3×3×64+ReLU+Dilated‑CONV 3×3×64_2+BatchNorm +ReLU+ Dilated‑CONV 3×3×64_2+BatchNorm+ReLU后输出U3mid，网
络单元U3的输出为U3out=U3mid+U2out，U3out即为Fb/Fe；

[0061] 所述特征层通道分支由3个1×1的卷积层依次连接组成，具体为：

[0062] CONV 1×1×64+ReLU+CONV 1×1×64+ReLU+CONV 1×1×64+ReLU，其输出为Ff；

[0063] 所述特征融合模块由1个多级特征融合单元MFFU和1个带有残差的密集连接残差单元RRDU依次连接组成，其中，多级特征融合单元MFFU的输入为Fb、Fe、Ff，输出为Fmffu；带
有残差的密集连接残差单元RRDU的输入Fmffu、输出为Frrdu；

[0064] 多级特征融合单元MFFU如图3所示，具体结构为：输入Ff与Fe各经过CONV 1×1×64+ReLU后输出Ff*与Fe*，Ff*与Fe*沿通道执行concatenation操作、再经过CONV 3×3×64
+CONV 3×3×64后输出M；输入Fe经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出
Fe**，Fe**与M进行点乘得到M**；输入Fb经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后
输出Fb*，Fb*与M**沿通道执行concatenation操作、再经过CONV 3×3×64+ReLU +CONV 3
×3×64+ReLU后输出Fmffu；

[0065] 所述带有残差的密集连接残差单元RRDU包含3个相同的RDU，如图4所示，具体结构为：RDU1的输入为RDU1in=Fmffu、输出为RDU1out，RDU2的输入为RDU2in= RDU1out +
RDU1in、输出为RDU2out，RDU3的输入为RDU3in=RDU2out+RDU2in、输出为RDU3out，RRDU的输
出为Frrdu =RDU3out+RDU3in+RDU1in；

[0066] 所述RDU包含5个卷积层，如图5所示，具体结构为：每个卷积层具体为：CONV 3×3×64+LeakReLU，第一个卷积层的输入为RDU in、输出为CONVout1，CONVout1与 RDU in沿通
道执行concatenation操作后得到第二个卷积层的输入CONV in2，第二个卷积层输出为
CONVout2，CONVout2与CONV in2沿通道执行concatenation操作后得到第三个卷积层的输
入CONV in3，第三个卷积层的输出为CONVout3，CONVout3与CONV in3沿通道执行
concatenation操作后得到第四个卷积层的输入CONV in4，第四个卷积层的输出为
CONVout4，CONVout4与CONV in4沿通道执行concatenation操作后得到第五个卷积层的输
入为CONV in5，第五个卷积层的输出为RDU out；

[0067] 所述图像重建模块由3个相同的网络单元U4、U5、U6与一个卷积层依次连接组成，具体为：网络单元U4+网络单元U5+网络单元U6+CONV 3×3×64+ReLU，其中，U4、U5、U6的结
构与网络单元U1、U2、U3相同；图像重建模块的输入为Frrdu、输出为重建人脸图像。

[0068] 基于训练集对上述多层视频重建网络进行离线训练，具体为：

[0069] 采用VoxCeleb2数据集中的108个面部视频作为训练视频，对训练视频执行步骤1.1、步骤1.2、步骤1.3、步骤1.4、步骤1.5的编码端处理；并在解码端执行步骤2.1以获得基
础层、特征层、增强层数据；再以三层数据的RGB图作为输入、原始高分辨率面部视频的RGB
高清图作为标签，形成训练样本，进而构建得训练集；

[0070] 采用Adam优化器对面部视频重建网络进行训练；所述训练参数为：初始学习率为0.0001、批尺寸为16、训练周期为60，并在第50周期将学习率下降10倍，所述损失函数为：

[0071]

[0072] 其中，Y1表示面部视频重建网络输出的重建视频的RGB高清图，Y0表示标签，Y(i,j)表示图像Y的第i行、第j列的像素值，N、M分别表示输入图像的高、宽；本实施例中，N=M=224。

[0073] 基于上述技术方案，本实施例在VoxCeleb2数据集中的除去108个训练视频外的8个视频上进行测试，与传统的HEVC方法进行对比，其测试结果如图7中所示，其中，横轴为
Bit‑Rate（kbps）（表示传输过程中每秒所需的字节数），纵轴为CPSNR（峰值信噪比、大小与
图像质量成正相关），“Ours”表示面部通话视频的分层编码方法得到重建视频RGB三通道的
率失真曲线，“HEVC”表示由HEVC直接编码得到重建视频RGB三通道的率失真曲线；由图7可
知，本发明实施例所用的面部通话视频的分层编码方法优于传统的HEVC编码方法，测试结
果表明在对面部通话视频的一部分冗余信息进行丢弃的同时，通过一定数量的高分辨率视
频帧来对这部分信息进行补全，可以在有效提高压缩率的同时保证一定的通话质量，证明
了本发明方法的有效性及优越性。

[0074] 综上所述，本发明所提出的面部通话视频的分层编码方法具有出色的表现，在测试集中，相较于HEVC，在同等的码率下，可将重建视频图像CPSNR提高1.2dB以上。

[0075] 以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方
法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

一种面部通话视频的分层编码方法转让专利

申请号 : CN202210053055.3

文献号 : CN114067258B

文献日 : 2022-05-03

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 朱树元 , 刘宇 , 刘光辉

申请人 : 电子科技大学

摘要 :

权利要求 :

说明书 :