一种面部通话视频的分层编码方法转让专利
申请号 : CN202210053055.3
文献号 : CN114067258B
文献日 : 2022-05-03
发明人 : 朱树元 , 刘宇 , 刘光辉
申请人 : 电子科技大学
摘要 :
权利要求 :
1.一种面部通话视频的分层编码方法,其特征在于,包括以下步骤:步骤1、编码,具体为:
步骤1.1、采用深度卷积神经网络提取通话视频帧的面部特征点得到面部特征点矩阵;
步骤1.2、利用面部特征点从待压缩的通话视频中提取关键帧;
步骤1.3、对通话视频进行高倍下采样,再采用HEVC压缩得到基础层,并再次提取基础层的面部特征点得到面部特征点矩阵;
步骤1.4、将步骤1.1所得面部特征点矩阵与步骤1.3所得面部特征点矩阵做差,将所得残差编码作为特征层;
步骤1.5、将关键帧插入基础层的插值序列采用HEVC压缩得到增强层;
步骤2、解码,具体为:
步骤2.1、分别对基础层、特征层、增强层数据进行解码;
步骤2.2、将解码后基础层、特征层、增强层数据输入至多层视频重建网络,由多层视频重建网络输出重建面部视频;所述多层视频重建网络由特征提取模块、特征融合模块和图像重建模块组成;其中,
所述特征提取模块由基础层通道分支、增强层通道分支与特征层通道分支组成,基础层通道分支的输入为基础层图像Ib、输出为Fb,增强层通道分支的输入为关键帧图像Ie、输出为Fe,特征层通道分支的输入为面部特征点图像If、输出为Ff;所述基础层通道分支与增强层通道分支的网络结构相同,均由网络单元U1、网络单元U2、网络单元U3依次连接组成;
网络单元U1、网络单元U2与网络单元U3结构相同,均为:输入Uin经过CONV3×3×64+ReLU+Dilated‑CONV3×3×64_2+BatchNorm+ReLU+Dilated‑CONV3×3×64_2+BatchNorm+ReLU后输出Umid、网络单元U的输出为Uout=Umid+Uin;所述特征层通道分支为:CONV 1×1×64+ReLU+CONV 1×1×64+ReLU+CONV 1×1×64+ReLU;
所述特征融合模块由多级特征融合单元MFFU和带有残差的密集连接残差单元RRDU组成;多级特征融合单元MFFU的输入为Fb、Fe、Ff,输出为Fmffu;带有残差的密集连接残差单元RRDU的输入Fmffu、输出为Frrdu;具体为:输入Ff与Fe各经过CONV 1×1×64+ReLU后输出Ff*与Fe*,Ff*与Fe*沿通道执行concatenation操作、再经过CONV 3×3×64+CONV 3×3×
64后输出M;输入Fe经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fe**,Fe**与M进行点乘得到M**;输入Fb经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fb*,Fb*与M**沿通道执行concatenation操作、再经过CONV 3×3×64+ReLU +CONV 3×3×64+ReLU后输出Fmffu;
所述带有残差的密集连接残差单元RRDU由3个RDU组成,具体为:RDU1的输入为RDU1in=Fmffu、输出为RDU1out,RDU2的输入为RDU2in= RDU1out +RDU1in、输出为RDU2out,RDU3的输入为RDU3in=RDU2out+RDU2in、输出为RDU3out,RRDU的输出为Frrdu =RDU3out+RDU3in+RDU1in;
所述图像重建模块为:网络单元U4+网络单元U5+网络单元U6+CONV 3×3×64+ReLU, 网络单元U4、网络单元U5、网络单元U6结构相同,且与网络单元U1相同;图像重建模块的输入为Frrdu、输出为重建人脸图像。
2.按权利要求1所述面部通话视频的分层编码方法,其特征在于,所述RDU包括5个卷积层,其中,每个卷积层具体为:CONV 3×3×64+LeakReLU,第一个卷积层的输入为RDU in、输出为CONVout1,CONVout1与 RDU in沿通道执行concatenation操作后得到第二个卷积层的输入CONV in2,第二个卷积层输出为CONVout2,CONVout2与CONV in2沿通道执行concatenation操作后得到第三个卷积层的输入CONV in3,第三个卷积层的输出为CONVout3,CONVout3与CONV in3沿通道执行concatenation操作后得到第四个卷积层的输入CONV in4,第四个卷积层的输出为CONVout4,CONVout4与CONV in4沿通道执行concatenation操作后得到第五个卷积层的输入为CONV in5,第五个卷积层的输出为RDU out。
3.按权利要求1所述面部通话视频的分层编码方法,其特征在于,所述步骤1.2中,提取关键帧的具体过程为:计算当前帧和已选关键帧的差异性 :其中, 为倍率因子, 代表当前帧和已选关键帧的面部表情相似性、为当前帧和已选关键帧的面部朝向相似性:
其中, 代表当前帧的面部特征点矩阵中第 组的点坐标减去 得到的相对坐标, 代表当前帧的面部特征点矩阵中第 组的点坐标的平均值, 、 则代表已选关键帧的相应值;
将与已选关键帧的差异性大于预设阈值的当前帧选为关键帧。
说明书 :
一种面部通话视频的分层编码方法
技术领域
背景技术
原始数据量巨大,需要占用较大的存储空间和传输带宽;为了节约有限的存储和传输资源,
通常需要对数字视频进行有损压缩;压缩率越高,所节约的存储和传输资源就越多,不过带
来的压缩失真就越大。
法满足用户的应用需求,为了保证在带宽有限的网络上的稳定传输,有必要设计一种独特
的面部通话视频编码方法。
发明内容
术方法如下:
Ie、输出为Fe,特征层通道分支的输入为面部特征点图像If、输出为Ff;所述基础层通道分
支与增强层通道分支的网络结构相同,均由网络单元U1、网络单元U2、网络单元U3依次连接
组成,网络单元U1、网络单元U2与网络单元U3结构相同,均为:输入Uin经过CONV3×3×64+
ReLU+Dilated‑CONV3×3×64_2+BatchNorm+ReLU+Dilated‑CONV3×3×64_2+BatchNorm+
ReLU后输出Umid、网络单元U的输出为Uout=Umid+Uin;所述特征层通道分支为:CONV 1×1
×64+ReLU+CONV 1×1×64+ReLU+CONV 1×1×64+ReLU;
残差单元RRDU的输入Fmffu、输出为Frrdu;具体为:输入Ff与Fe各经过CONV 1×1×64+ReLU
后输出Ff*与Fe*,Ff*与Fe*沿通道执行concatenation操作、再经过CONV 3×3×64+CONV 3
×3×64后输出M;输入Fe经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fe**,Fe**
与M进行点乘得到M**;输入Fb经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出Fb*,
Fb*与M**沿通道执行concatenation操作、再经过CONV 3×3×64+ReLU +CONV 3×3×64+
ReLU后输出Fmffu;
RDU3的输入为RDU3in=RDU2out+RDU2in、输出为RDU3out,RRDU的输出为Frrdu =RDU3out+
RDU3in+RDU1in;
块的输入为Frrdu、输出为重建人脸图像。
行concatenation操作后得到第二个卷积层的输入CONV in2,第二个卷积层输出为
CONVout2,CONVout2与CONV in2沿通道执行concatenation操作后得到第三个卷积层的输
入CONV in3,第三个卷积层的输出为CONVout3,CONVout3与CONV in3沿通道执行
concatenation操作后得到第四个卷积层的输入CONV in4,第四个卷积层的输出为
CONVout4,CONVout4与CONV in4沿通道执行concatenation操作后得到第五个卷积层的输
入为CONV in5,第五个卷积层的输出为RDU out。
则代表已选关键帧的相应值;
明对基础层进行高倍下采样,在对大量冗余信息和少量非冗余信息进行丢弃的同时,通过
一定数量的高分辨率视频帧(即增强层)来对这部分丢弃的信息进行补全,能够在有效提高
压缩率的同时保证优良的通话质量;同时,本发明将压缩后的基础层和增强层输入卷积神
经网络,再辅以特征层用于引导基础层和增强层的融合,有效提高重建视频质量;综上所
述,本发明通过多层编码,能够显著提升面部通话视频恢复的质量,进而有效提升视频重建
质量和压缩效率。
附图说明
具体实施方式
施例,本领域普通技术人员在没有付出创造性劳动前提下,所获得的所有其他实施例,都属
于本发明保护的范围。
征点矩阵提取,landmarks_type参数为face_alignment.LandmarksType._2D,flip_input
参数为False,提取到的面部特征点矩阵为2×68的矩阵,其第一行为横坐标、第二行为纵坐
标,共有68个点,按顺序排列分别描述人脸的下巴、两条眉毛、两只眼睛、鼻子、脸部的外唇
和内唇,共8组;
则代表已选关键帧的相应值;
阵元素使用2byte顺序编码作为特征层;
矩阵残差与从解码后的基础层中提取的面部特征点矩阵相加得到解码后的特征层,对增强
层数据使用HM软件进行解压缩得到解码后的增强层;
网络结构如图1 图5所示,图中“CONV 3×3×64”表示一层卷积层、且对应的卷积核的大小
~
为3×3、卷积的输出通道为64、padding参数为“same”,“Dilated‑CONV 3×3×64_2”表示一
层空洞卷积层、且对应的卷积核的大小为3×3、卷积的输出通道为64、padding参数为2、
dilation参数为2,“CONCAT”表示沿通道尺度的concatenation操作,“ ”表示像素级的
点乘操作;
关键帧图像Ie、输出为Fe,特征层通道分支的输入为面部特征点图像If、输出为Ff;
单元U1的输出为U1out=U1mid+U1in;
络单元U2的输出为U2out=U2mid+U1out;
络单元U3的输出为U3out=U3mid+U2out,U3out即为Fb/Fe;
有残差的密集连接残差单元RRDU的输入Fmffu、输出为Frrdu;
+CONV 3×3×64后输出M;输入Fe经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后输出
Fe**,Fe**与M进行点乘得到M**;输入Fb经过CONV 3×3×64+ReLU+CONV 3×3×64+ReLU后
输出Fb*,Fb*与M**沿通道执行concatenation操作、再经过CONV 3×3×64+ReLU +CONV 3
×3×64+ReLU后输出Fmffu;
RDU1in、输出为RDU2out,RDU3的输入为RDU3in=RDU2out+RDU2in、输出为RDU3out,RRDU的输
出为Frrdu =RDU3out+RDU3in+RDU1in;
道执行concatenation操作后得到第二个卷积层的输入CONV in2,第二个卷积层输出为
CONVout2,CONVout2与CONV in2沿通道执行concatenation操作后得到第三个卷积层的输
入CONV in3,第三个卷积层的输出为CONVout3,CONVout3与CONV in3沿通道执行
concatenation操作后得到第四个卷积层的输入CONV in4,第四个卷积层的输出为
CONVout4,CONVout4与CONV in4沿通道执行concatenation操作后得到第五个卷积层的输
入为CONV in5,第五个卷积层的输出为RDU out;
构与网络单元U1、U2、U3相同;图像重建模块的输入为Frrdu、输出为重建人脸图像。
础层、特征层、增强层数据;再以三层数据的RGB图作为输入、原始高分辨率面部视频的RGB
高清图作为标签,形成训练样本,进而构建得训练集;
Bit‑Rate(kbps)(表示传输过程中每秒所需的字节数),纵轴为CPSNR(峰值信噪比、大小与
图像质量成正相关),“Ours”表示面部通话视频的分层编码方法得到重建视频RGB三通道的
率失真曲线,“HEVC”表示由HEVC直接编码得到重建视频RGB三通道的率失真曲线;由图7可
知,本发明实施例所用的面部通话视频的分层编码方法优于传统的HEVC编码方法,测试结
果表明在对面部通话视频的一部分冗余信息进行丢弃的同时,通过一定数量的高分辨率视
频帧来对这部分信息进行补全,可以在有效提高压缩率的同时保证一定的通话质量,证明
了本发明方法的有效性及优越性。
法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。