一种图像处理方法、装置、设备及计算机可读存储介质转让专利

申请号 : CN202110620382.8

文献号 : CN113822790B

文献日 : 2023-04-21

本申请实施例提供一种图像处理方法、装置、设备及计算机可读存储介质。其中方法包括：获取图像处理模型的训练样本集从样本集中选取第一样本图像xi，调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像xi′，从样本集中选取第二样本图像yk，调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k，调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y′k′，根据各个样本图像与对应的预测图像之间的差异，更新图像处理模型的参数；对图像处理模型进行迭代训练直至图像处理模型达到收敛，进而较佳地提升了图像处理模型的处理准确度，扩展了图像处理模型的使用场景。

1.一种图像处理方法，其特征在于，包括：

获取图像处理模型的训练样本集，所述图像处理模型包含第一生成网络和第二生成网络，所述第一生成网络和所述第二生成网络具备相同的特征提取结构；所述训练样本集包含第一样本集和第二样本集，所述第一样本集包括N个第一样本图像，每个第一样本图像均包含目标头像；所述第二样本集包括M个第二样本图像，每个第二样本图像包含一个样本头像，M、N均为正整数；

从所述第一样本集中选取第一样本图像xi，调用所述第一生成网络对所述第一样本图像xi进行生成处理，得到第一预测图像x′i；所述第一预测图像x′i包含目标头像，且所述第一预测图像x′i中的目标头像的属性与所述第一样本图像xi中的目标头像的属性保持一致，i为正整数且i≤N；

从所述第二样本集中选取第二样本图像yk，调用所述第一生成网络对所述第二样本图像yk进行生成处理，得到第二预测图像y′k；其中，所述第二预测图像y′k包含目标头像，且所述第二预测图像y′k中的目标头像的属性与所述第二样本图像yk中的样本头像的属性保持一致，k为正整数且k≤M；

调用所述第二生成网络对所述第二样本图像yk进行生成处理，得到第三预测图像y″k；

所述第三预测图像y″k与所述第二样本图像yk包含相同的样本头像；

根据所述第一样本图像xi与所述第一预测图像x′i之间的差异，所述第二样本图像yk与所述第二预测图像y′k之间的差异，以及所述第二样本图像yk与所述第三预测图像y″k之间的差异，更新所述图像处理模型的参数；

令i＝i+1且k＝k+1，迭代上述训练流程直至所述图像处理模型达到收敛，其中，i+1≤N，k+1≤M。

2.如权利要求1所述的方法，其特征在于，所述第一生成网络包括编码器和第一解码器；所述调用所述第一生成网络对所述第一样本图像xi进行生成处理，得到第一预测图像x′i，包括：调用所述编码器对所述第一样本图像xi进行编码处理，得到第一特征向量，所述第一特征向量蕴含所述第一样本图像xi中的目标头像的属性；

调用所述第一解码器对所述第一特征向量进行解码处理，得到第一生成图像及所述第一生成图像的区域分割信息，所述区域分割信息用于指示所述第一生成图像中的头像区域；

按照所述第一生成图像的区域分割信息，从所述第一生成图像中提取第一预测图像x′i。

3.如权利要求1所述的方法，其特征在于，所述第一生成网络包括编码器和第一解码器；所述调用所述第一生成网络对所述第二样本图像yk进行生成处理，得到第二预测图像y′k，包括：调用所述编码器对所述第二样本图像yk进行编码处理，得到第二特征向量，所述第二特征向量蕴含所述第二样本图像yk中的样本头像的属性；

调用所述第一解码器对所述第二特征向量进行解码处理，得到第二生成图像及所述第二生成图像的区域分割信息，所述区域分割信息用于指示所述第二生成图像中的头像区域；

按照所述第二生成图像的区域分割信息，从所述第二生成图像中提取第二预测图像y′k。

4.如权利要求2或3所述的方法，其特征在于，所述编码器包括P个特征提取网络和一个特征聚合层，P为正整数；每个特征提取网络包含一个下采样层；P个下采样层的尺度参数不同；

所述P个下采样层用于提取输入至所述编码器的样本图像在P个尺度下的特征信息；

所述特征聚合层用于对所述P个尺度下的特征信息进行聚合处理，得到所述输入至所述编码器的样本图像对应的特征向量；

其中，所述输入至所述编码器的样本图像是指所述第一样本图像xi或所述第二样本图像yk。

5.如权利要求2或3所述的方法，其特征在于，所述第一解码器包含一个特征转换网络、Q个图像重建网络和一个卷积网络，Q为正整数；每个图像重建网络包含一个残差网络和一个上采样层；

所述特征转换网络用于将输入至所述第一解码器的特征向量转换成特征图；

所述Q个图像重建网络用于对所述特征图进行特征恢复处理，得到融合特征图像；

所述卷积网络用于对所述融合特征图像进行卷积处理，并输出所述输入至所述第一解码器的特征向量对应的生成图像；

其中，所述输入至所述第一解码器的特征向量是指所述第一特征向量或所述第二特征向量；若所述输入至所述第一解码器的特征向量是所述第一特征向量，则所述输入至所述第一解码器的特征向量对应的生成图像为第一生成图像；若所述输入至所述第一解码器的特征向量是所述第二特征向量，则所述输入至所述第一解码器的特征向量对应的生成图像为第二生成图像。

6.如权利要求1所述的方法，其特征在于，所述第二生成网络包括编码器，第二解码器和身份识别网络；

所述调用所述第二生成网络对所述第二样本图像yk进行生成处理，得到第三预测图像y″k，包括：调用所述编码器对所述第二样本图像yk进行编码处理，得到第二特征向量，所述第二特征向量蕴含所述第二样本图像yk中的样本头像的属性；

调用所述身份识别网络对所述第二特征向量进行识别，得到所述第二样本图像yk的标识信息；

调用所述第二解码器根据所述第二样本图像yk的标识信息对所述第二特征向量进行解码处理，得到第三生成图像及所述第三生成图像的区域分割信息，所述区域分割信息用于指示所述第三生成图像中的头像区域；

按照所述第三生成图像的区域分割信息，从所述第三生成图像中提取第三预测图像y″k，所述第三预测图像y″k与所述第二样本图像yk具备相同的标识信息。

7.如权利要求6所述的方法，其特征在于，所述第二解码器包含一个特征转换网络、Q个图像重建网络和一个卷积网络，Q为正整数；每个图像重建网络包含一个残差网络、一个上采样层和一个自适应模块；

所述自适应模块用于在所述第二解码器的解码过程中传输所述第二样本图像yk的标识信息。

8.如权利要求1所述的方法，其特征在于，所述根据所述第一样本图像xi与所述第一预测图像x′i之间的差异，所述第二样本图像yk与所述第二预测图像y′k之间的差异，以及所述第二样本图像yk与所述第三预测图像y″k之间的差异，更新所述图像处理模型的参数，包括：根据所述第一样本图像xi与所述第一预测图像x′i之间的差异，构建第一损失函数；

根据所述第二样本图像yk与所述第二预测图像y′k之间的差异，构建第二损失函数；

根据所述第二样本图像yk与所述第三预测图像y″k之间的差异，构建第三损失函数；

根据所述第一损失函数、所述第二损失函数和所述第三损失函数构建所述图像处理模型的目标损失函数；

根据所述目标损失函数的损失值更新所述图像处理模型的参数；

其中，当所述目标损失函数的损失值保持稳定时，或当所述目标损失函数的损失值小于损失阈值时，所述图像处理模型达到收敛。

9.如权利要求8所述的方法，其特征在于，所述图像处理模型还包括第一判别器和预训练网络；

所述根据所述第一样本图像xi与所述第一预测图像x′i之间的差异，构建第一损失函数，包括：通过所述第一判别器对所述第一样本图像xi及所述第一预测图像x′i分别进行判别处理；

基于所述第一样本图像xi的判别结果和所述第一预测图像x′i的判别结果，构建所述第一损失函数的第一分支函数；

通过所述预训练网络对所述第一样本图像xi及所述第一预测图像x′i进行特征比对，得到特征比对结果，所述特征比对结果用于反映所述第一样本图像xi及所述第一预测图像x′i之间的特征差异；

基于所述特征比对结果构建所述第一损失函数的第二分支函数；

将所述第一损失函数的第一分支函数与所述第一损失函数的第二分支函数之和，确定为所述第一损失函数。

10.如权利要求8所述的方法，其特征在于，所述图像处理模型还包括第一判别器和属性识别网络；

所述根据所述第二样本图像yk与所述第二预测图像y′k之间的差异，构建第二损失函数，包括：通过所述第一判别器对所述第二预测图像y′k行判别处理；

基于所述第二预测图像y′k的判别结果，构建所述第二损失函数的第一分支函数；

通过所述属性识别网络对所述第二样本图像yk及所述第二预测图像y′k进行属性比对，得到属性比对结果，所述属性比对结果用于反映所述第二样本图像yk及所述第二预测图像y′k之间的属性差异；

基于所述属性比对结果构建所述第二损失函数的第二分支函数；

将所述第二损失函数的第一分支函数与所述第二损失函数的第二分支函数之和，确定为所述第二损失函数。

11.如权利要求8所述的方法，其特征在于，所述图像处理模型还包括第二判别器和预训练网络；

所述根据所述第二样本图像yk与所述第三预测图像y″k之间的差异，构建第三损失函数，包括：通过所述第二判别器对所述第二样本图像yk及所述第三预测图像y″k分别进行判别处理；

基于所述第二样本图像yk的判别结果和所述第三预测图像y″k的判别结果，构建所述第三损失函数的第一分支函数；

通过所述预训练网络对所述第二样本图像yk及所述第三预测图像y″k进行特征比对，得到特征比对结果，所述特征比对结果用于反映所述第二样本图像yk及所述第三预测图像y″k之间的特征差异；

基于所述特征比对结果构建所述第三损失函数的第二分支函数；

将所述第三损失函数的第一分支函数与所述第三损失函数的第二分支函数之和，确定为所述第三损失函数。

12.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取测试视频，所述测试视频包括R帧测试图像，每帧测试图像包括一个校正头像，R为正整数；

调用收敛后的所述图像处理模型的第一生成网络分别对所述每帧测试图像进行生成处理，得到每帧测试图像对应的预测图像；其中，每帧预测图像包含目标头像，且每帧预测图像中的目标头像的属性与对应的测试图像中的校正头像的属性保持一致；

对所述测试视频进行图像补全处理；

将每帧预测图像分别与图像补全处理后的测试视频中相应的测试图像进行融合，得到目标视频。

13.一种图像处理装置，其特征在于，所述图像处理装置包括：

获取单元，用于获取图像处理模型的训练样本集，所述图像处理模型包含第一生成网络和第二生成网络，所述第一生成网络和所述第二生成网络具备相同的特征提取结构；所述训练样本集包含第一样本集和第二样本集，所述第一样本集包括N个第一样本图像，每个第一样本图像均包含目标头像；所述第二样本集包括M个第二样本图像，每个第二样本图像包含一个样本头像，M、N均为正整数；

处理单元，用于从所述第一样本集中选取第一样本图像xi，调用所述第一生成网络对所述第一样本图像xi进行生成处理，得到第一预测图像x′i；所述第一预测图像x′i包含目标头像，且所述第一预测图像x′i中的目标头像的属性与所述第一样本图像xi中的目标头像的属性保持一致，i为正整数且i≤N；

以及用于从所述第二样本集中选取第二样本图像yk，调用所述第一生成网络对所述第二样本图像yk进行生成处理，得到第二预测图像y′k；其中，所述第二预测图像y′k包含目标头像，且所述第二预测图像y′k中的目标头像的属性与所述第二样本图像yk中的样本头像的属性保持一致，k为正整数且k≤M；

以及用于调用所述第二生成网络对所述第二样本图像yk进行生成处理，得到第三预测图像y″k；所述第三预测图像y″k与所述第二样本图像yk包含相同的样本头像；

以及用于根据所述第一样本图像xi与所述第一预测图像x′i之间的差异，所述第二样本图像yk与所述第二预测图像y′k之间的差异，以及所述第二样本图像yk与所述第三预测图像y″k之间的差异，更新所述图像处理模型的参数；

以及用于令i＝i+1且k＝k+1，迭代上述训练流程直至所述图像处理模型达到收敛，其中，i+1≤N，k+1≤M。

14.一种图像处理设备，其特征在于，包括：存储装置和处理器；

所述存储装置中存储有计算机程序；

处理器，用于加载并执行所述计算机程序，以实现如权利要求1‑12任一项所述的图像处理方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1‑12任一项所述的图像处理方法。

一种图像处理方法、装置、设备及计算机可读存储介质

技术领域

[0001] 本发明涉及计算机技术领域，具体涉及一种图像处理方法、装置、设备及计算机可读存储介质。

背景技术

[0002] 随着计算机技术的不断发展，图像处理技术得到广泛发展；其中，利用图像处理技术实现头像转换是一个较为新颖的尝试及应用，所谓头像转换是指将图像中的原头像替换为目标头像的过程。头像转换一般是基于图像处理模型来实现，但实践发现，目前的图像处理模型在执行头像转换的任务时仅是采用目标头像的五官来替换原头像的五官，处理准确度较低，使用场景较为受限。

发明内容

[0003] 本发明实施例提供了一种图像处理方法、装置、设备及计算机可读存储介质，能够训练图像处理模型，且训练得到的图像处理模型的处理准确度较高，使用场景广泛。

[0004] 一方面，本申请实施例提供了一种图像处理方法，包括：

[0005] 获取图像处理模型的训练样本集，图像处理模型包含第一生成网络和第二生成网络，第一生成网络和第二生成网络具备相同的特征提取结构；训练样本集包含第一样本集和第二样本集，第一样本集包括N个第一样本图像，每个第一样本图像均包含目标头像；第二样本集包括M个第二样本图像，每个第二样本图像包含一个样本头像，M、N均为正整数；

[0006] 从第一样本集中选取第一样本图像xi，调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像x′i；第一预测图像x′i包含目标头像，且第一预测图像x′i中的目标头像的属性与第一样本图像xi中的目标头像的属性保持一致，i为正整数且i≤N；

[0007] 从第二样本集中选取第二样本图像yk，调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k；其中，第二预测图像y′k包含目标头像，且第二预测图像y′k中的目标头像的属性与第二样本图像yk中的样本头像的属性保持一致，k为正整数且k≤M；

[0008] 调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k；第三预测图像y″k与第二样本图像yk包含相同的样本头像；

[0009] 根据第一样本图像xi与第一预测图像x′i之间的差异，第二样本图像yk与第二预测图像y′k之间的差异，以及第二样本图像yk与第三预测图像y″k之间的差异，更新图像处理模型的参数；

[0010] 令i＝i+1且k＝k+1，迭代上述训练流程直至图像处理模型达到收敛，其中，i+1≤N，k+1≤M。

[0011] 一方面，本申请实施例提供了一种图像处理装置，该图像处理装置包括：

[0012] 获取单元，用于获取图像处理模型的训练样本集，图像处理模型包含第一生成网络和第二生成网络，第一生成网络和第二生成网络具备相同的特征提取结构；训练样本集包含第一样本集和第二样本集，第一样本集包括N个第一样本图像，每个第一样本图像均包含目标头像；第二样本集包括M个第二样本图像，每个第二样本图像包含一个样本头像，M、N均为正整数；

[0013] 处理单元，用于从第一样本集中选取第一样本图像xi，调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像x′i；第一预测图像x′i包含目标头像，且第一预测图像x′i中的目标头像的属性与第一样本图像xi中的目标头像的属性保持一致，i为正整数且i≤N；

[0014] 以及用于从第二样本集中选取第二样本图像yk，调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k；其中，第二预测图像y′k包含目标头像，且第二预测图像y′k中的目标头像的属性与第二样本图像yk中的样本头像的属性保持一致，k为正整数且k≤M；

[0015] 以及用于调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k；第三预测图像y″k与第二样本图像yk包含相同的样本头像；

[0016] 以及用于根据第一样本图像xi与第一预测图像x′i之间的差异，第二样本图像yk与第二预测图像y′k之间的差异，以及第二样本图像yk与第三预测图像y″k之间的差异，更新图像处理模型的参数；

[0017] 以及用于令i＝i+1且k＝k+1，迭代上述训练流程直至图像处理模型达到收敛，其中，i+1≤N，k+1≤M。

[0018] 在一种实施方式中，第一生成网络包括编码器和第一解码器；处理单元用于，调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像x′i，具体用于：

[0019] 调用编码器对第一样本图像xi进行编码处理，得到第一特征向量，第一特征向量蕴含第一样本图像xi中的目标头像的属性；

[0020] 调用第一解码器对第一特征向量进行解码处理，得到第一生成图像及第一生成图像的区域分割信息，区域分割信息用于指示第一生成图像中的头像区域；

[0021] 按照第一生成图像的区域分割信息，从第一生成图像中提取第一预测图像x′i。

[0022] 在一种实施方式中，第一生成网络包括编码器和第一解码器；处理单元用于，调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k，具体用于：

[0023] 调用编码器对第二样本图像yk进行编码处理，得到第二特征向量，第二特征向量蕴含第二样本图像yk中的样本头像的属性；

[0024] 调用第一解码器对第二特征向量进行解码处理，得到第二生成图像及第二生成图像的区域分割信息，区域分割信息用于指示第二生成图像中的头像区域；

[0025] 按照第二生成图像的区域分割信息，从第二生成图像中提取第二预测图像y′k。

[0026] 在一种实施方式中，编码器包括P个特征提取网络和一个特征聚合层，P为正整数；每个特征提取网络包含一个下采样层；P个下采样层的尺度参数不同；

[0027] P个下采样层用于提取输入至编码器的样本图像在P个尺度下的特征信息；

[0028] 特征聚合层用于对P个尺度下的特征信息进行聚合处理，得到输入至编码器的样本图像对应的特征向量；

[0029] 其中，输入至编码器的样本图像是指第一样本图像xi或第二样本图像yk。

[0030] 在一种实施方式中，第一解码器包含一个特征转换网络、Q个图像重建网络和一个卷积网络，Q为正整数；每个图像重建网络包含一个残差网络和一个上采样层；

[0031] 特征转换网络用于将输入至第一解码器的特征向量转换成特征图；

[0032] Q个图像重建网络用于对特征图进行特征恢复处理，得到融合特征图像；

[0033] 卷积网络用于对融合特征图像进行卷积处理，并输出输入至第一解码器的特征向量对应的生成图像；

[0034] 其中，输入至第一解码器的特征向量是指第一特征向量或第二特征向量；若输入至第一解码器的特征向量是第一特征向量，则输入至第一解码器的特征向量对应的生成图像为第一生成图像；若输入至第一解码器的特征向量是第二特征向量，则输入至第一解码器的特征向量对应的生成图像为第二生成图像。

[0035] 在一种实施方式中，第二生成网络包括编码器，第二解码器和身份识别网络；处理单元用于，调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y`k，具体用于：

[0036] 调用编码器对第二样本图像yk进行编码处理，得到第二特征向量，第二特征向量蕴含第二样本图像yk中的样本头像的属性；

[0037] 调用身份识别网络对第二特征向量进行识别，得到第二样本图像yk的标识信息；

[0038] 调用第二解码器根据第二样本图像yk的标识信息对第二特征向量进行解码处理，得到第三生成图像及第三生成图像的区域分割信息，区域分割信息用于指示第三生成图像中的头像区域；

[0039] 按照第三生成图像的区域分割信息，从第三生成图像中提取第三预测图像y″k，第三预测图像y″k与第二样本图像yk具备相同的标识信息。

[0040] 在一种实施方式中，第二解码器包含一个特征转换网络、Q个图像重建网络和一个卷积网络，Q为正整数；每个图像重建网络包含一个残差网络、一个上采样层和一个自适应模块；

[0041] 自适应模块用于在第二解码器的解码过程中传输第二样本图像yk的标识信息。

[0042] 在一种实施方式中，处理单元用于，根据第一样本图像xi与第一预测图像x′i之间的差异，第二样本图像yk与第二预测图像y′k之间的差异，以及第二样本图像yk与第三预测图像y″k之间的差异，更新图像处理模型的参数，具体用于：

[0043] 根据第一样本图像xi与第一预测图像x′i之间的差异，构建第一损失函数；

[0044] 根据第二样本图像yk与第二预测图像y′k之间的差异，构建第二损失函数；

[0045] 根据第二样本图像yk与第三预测图像y″k之间的差异，构建第三损失函数；

[0046] 根据第一损失函数、第二损失函数和第三损失函数构建图像处理模型的目标损失函数；

[0047] 根据目标损失函数的损失值更新图像处理模型的参数；

[0048] 其中，当目标损失函数的损失值保持稳定时，或当目标损失函数的损失值小于损失阈值时，图像处理模型达到收敛。

[0049] 在一种实施方式中，图像处理模型还包括第一判别器和预训练网络；处理单元用于，根据第一样本图像xi与第一预测图像x′i之间的差异，构建第一损失函数，具体用于：

[0050] 通过第一判别器对第一样本图像xi及第一预测图像x′i分别进行判别处理；

[0051] 基于第一样本图像xi的判别结果和第一预测图像x′i的判别结果，构建第一损失函数的第一分支函数；

[0052] 通过预训练网络对第一样本图像xi及第一预测图像x′i进行特征比对，得到特征比对结果，特征比对结果用于反映第一样本图像xi及第一预测图像x′i之间的特征差异；

[0053] 基于特征比对结果构建第一损失函数的第二分支函数；

[0054] 将第一损失函数的第一分支函数与第一损失函数的第二分支函数之和，确定为第一损失函数。

[0055] 在一种实施方式中，图像处理模型还包括第一判别器和属性识别网络；处理单元用于，根据第二样本图像yk与第二预测图像y′k之间的差异，构建第二损失函数，具体用于：

[0056] 通过第一判别器对第二预测图像y′k行判别处理；

[0057] 基于第二预测图像y′k的判别结果，构建第二损失函数的第一分支函数；

[0058] 通过属性识别网络对第二样本图像yk及第二预测图像y′k进行属性比对，得到属性比对结果，属性比对结果用于反映第二样本图像yk及第二预测图像y′k之间的属性差异；

[0059] 基于属性比对结果构建第二损失函数的第二分支函数；

[0060] 将第二损失函数的第一分支函数与第二损失函数的第二分支函数之和，确定为第二损失函数。

[0061] 在一种实施方式中，图像处理模型还包括第二判别器和预训练网络；处理单元用于，根据第二样本图像yk与第三预测图像y″k之间的差异，构建第三损失函数，具体用于：

[0062] 通过第二判别器对第二样本图像yk及第三预测图像y″k分别进行判别处理；

[0063] 基于第二样本图像yk的判别结果和第三预测图像y″k的判别结果，构建第三损失函数的第一分支函数；

[0064] 通过预训练网络对第二样本图像yk及第三预测图像y″k进行特征比对，得到特征比对结果，特征比对结果用于反映第二样本图像yk及第三预测图像y″k之间的特征差异；

[0065] 基于特征比对结果构建第三损失函数的第二分支函数；

[0066] 将第三损失函数的第一分支函数与第三损失函数的第二分支函数之和，确定为第三损失函数。

[0067] 在一种实施方式中，处理单元还用于：

[0068] 获取测试视频，测试视频包括R帧测试图像，每帧测试图像包括一个校正头像，R为正整数；

[0069] 调用收敛后的图像处理模型的第一生成网络分别对每帧测试图像进行生成处理，得到每帧测试图像对应的预测图像；其中，每帧预测图像包含目标头像，且每帧预测图像中的目标头像的属性与对应的测试图像中的校正头像的属性保持一致；

[0070] 对测试视频进行图像补全处理；

[0071] 将每帧预测图像分别与图像补全处理后的测试视频中相应的测试图像进行融合，得到目标视频。

[0072] 一方面，本申请提供了一种图像处理设备，该设备包括：

[0073] 处理器，用于加载并执行计算机程序；

[0074] 计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时，实现上述图像处理方法。

[0075] 一方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行上述图像处理方法。

[0076] 一方面，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像处理方法。

[0077] 本申请实施例中，获取图像处理模型的训练样本集，该训练样本集包括第一样本集和第二样本集，第一样本集包含N个第一样本图像，这些第一样本图像均包含目标头像；当然可以理解的是，这些第一样本图像中的目标头像可以具备不同表情、不同姿态等等。第二样本集包含M个第二样本图像，每个第二样本图像均包含一个样本头像，也就是说，M个第二样本图像可以提供M个不同的样本头像，这些样本头像可以具备不同的人脸、不同的表情、不同的姿态等等。采用这样的训练样本集，能够使得图像处理模型可以学习到任意样本头像的特征，也可以学习到目标头像的多种姿态表情，从而能够实现任意头像至目标头像的换头处理，适用于更广泛的场景。

[0078] 另外，从第一样本集中选取第一样本图像xi，调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像x′i，从第二样本集中选取第二样本图像yk，调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k，调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k，第一生成网络和第二生成网络具备相同的特征提取结构，通过训练第二生成网络中的特征提取结构，来辅助第一生成网络的训练；根据第一样本图像xi与第一预测图像x′i之间的差异，第二样本图像yk与第二预测图像y′k之间的差异，以及第二样本图像yk与第三预测图像y″k之间的差异，更新图像处理模型的参数；令i＝i+1且k＝k+1，对图像处理模型进行迭代训练直至图像处理模型达到收敛。采用上述的训练过程来训练图像处理模型，可以使得训练好的图像处理模型能够将任意头像替换为目标头像，且换头处理后生成的图像中的人像，既保留了该原任意头像五官、头发、皮肤、眼镜等外貌特征，又具备目标头像的姿态、表情、光照等特征，从而较佳地提升了处理准确度。

附图说明

[0079] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0080] 图1示出了本申请一个示例性实施例提供的一种图像处理场景图；

[0081] 图2示出了本申请一个示例性实施例提供的一种图像处理方法的流程图；

[0082] 图3示出了本申请一个示例性实施例提供的另一种图像处理方法的流程图；

[0083] 图4示出了本申请一个示例性实施例提供的一种训练样本集的生成流程图；

[0084] 图5a示出了本申请一个示例性实施例提供的一种编码器的结构示意图；

[0085] 图5b示出了本申请一个示例性实施例提供的一种第一解码器的结构示意图；

[0086] 图5c示出了本申请一个示例性实施例提供的一种第二解码器的结构示意图；

[0087] 图6a示出了本申请一个示例性实施例提供的一种第一损失函数的构建流程图；

[0088] 图6b示出了本申请一个示例性实施例提供的一种第一损失函数的构建流程图；

[0089] 图6c示出了本申请一个示例性实施例提供的一种第一损失函数的构建流程图；

[0090] 图7示出了本申请一个示例性实施例提供的一种测试视频的处理流程图；

[0091] 图8示出了本申请一个示例性实施例提供的一种第一生成网络对测试图像进行生成处理流程图；

[0092] 图9示出了本申请一个示例性实施例提供的一种测试视频的处理流程图；

[0093] 图10示出了本申请一个示例性实施例提供的一种图像处理装置的结构示意图；

[0094] 图11示出了本申请一个示例性实施例提供的一种图像处理设备的结构示意图。

具体实施方式

[0095] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

[0096] 本申请实施例涉及人工智能(Artificial Intelligence，AI)及机器学习(Machine Learning，ML)。其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术；其主要通过了解智能的实质，生产出一种新的能以人类智能相似的方式做出反应的智能机器，使得智能机器具有感知、推理与决策等多种功能。

[0097] AI技术是一门综合学科，其主要包括计算机视觉技术(Computer Vision，CV)、语音处理技术、自然语言处理技术以及机器学习(Machine Learning，ML)/深度学习等几大方向。其中，计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统；其通常包括图像处理、视频处理、视频语义理解、视频内容/行为识别等技术。

[0098] 机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

[0099] 此外，本申请实施例还涉及头像转换和生成网络(generator)，所谓头像转换是指将第一人像和第二人像输入图像处理模型，得到图像处理模型输出的模拟人像，该模拟人像既保持了第一人像的五官、头发、皮肤、眼镜等外貌特征，又具有第二人像的姿态、表情、光照。

[0100] 生成网络是生成对抗网络(Generative Adversarial Network，简称GAN)的组成部分，GAN是非监督式学习的一种方法，由一个生成网络(generator)与一个判别网络(discriminator)组成。判别网络的输入则为真实样本图像(如真实头像)或生成网络输出的模拟图像(如模拟头像)，判别网络的目的是将生成网络输出的模拟图像从真实样本图像中尽可能分辨出来(即能够分别哪些是真实图像，哪些是模拟图像)；而生成网络则要尽可能使得生成的模拟图像不被判别网络识别出来(即使得模拟图像尽量逼真)。两个网络相互对抗、不断调整参数(即相互优化)，最终使得生成网络能够生成判别网络难以辨别的模拟图片(或者使得判别网络的识别准确度达到阈值)。

[0101] 基于AI技术中的计算机视觉技术和机器学习技术，本申请实施例提供了一种图像处理方案，基于对抗网络来对图像处理模型进行训练，使得训练后的图像处理模型可以将任意头像转换为目标头像(即实现头像转换)。

[0102] 请参见图1，图1示出了本申请一个示例性实施例提供的一种图像处理场景图。如图1所示，图像处理场景中包括了终端设备101和服务器102。其中，终端设备101为用户所使用的设备，终端设备101可以包括但不限于：智能手机(如Android手机、iOS手机等)、平板电脑、便携式个人计算机、移动互联网设备(Mobile Internet Devices，MID)等设备；终端设备配置有显示装置，显示装置也可为显示器、显示屏、触摸屏等等，触摸屏也可为触控屏、触控面板等等，本申请实施例不做限定。

[0103] 服务器102是指能够对根据终端设备101提供的第一样本集和第二样本集对图像处理模型进行训练的后台设备，在得训练后的图像处理模型后，服务器102可以向终端设备101返回训练后的图像处理模型，也可以对训练后的图像处理模型进行部署。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。此外，还可以将多个服务器组成为一个区块链网络，每个服务器为区块链网络中的一个节点。终端设备101和服务器102之间可以通过有线通信或者无线通信方式进行直接或间接地连接，本申请在此不做限制。

[0104] 需要说明的是，图1所示的模型处理场景中终端设备和服务器的数量仅为举例，例如，终端设备和服务器的数量可以为多个，本申请并不对终端设备和服务器的数量进行限定。

[0105] 图1所示的图像处理场景中，图像处理流程主要包括以下步骤：(1)服务器获取图像处理模型的训练样本集，训练样本集可以是从终端设备中获取，也可以是从数据库中获取；训练样本集包含第一样本集和第二样本集，第一样本集包括N个第一样本图像，每个第一样本图像均包含目标头像(即需要保留姿态、表情、光照等特征的头像)；第二样本集包括M个第二样本图像，每个第二样本图像包含一个样本头像(即需要保留五官、头发、皮肤、眼镜等外貌特征的头像)，M、N均为正整数；图像处理模型包含第一生成网络(用于根据第一样本图像或者第二样本图像生成模型图像，模拟图像中的头像保留了第一样本图像中的头像的姿态、表情、光照等特征)和第二生成网络(用于辅助第一生成网络的训练)，第一生成网络和第二生成网络具备相同的特征提取结构(如第一生成网络和第二生成网络具有相同的特征编码器)；举例来说，第一样本集包括N个第一样本图像，每个第一样本图像均包括用户A的头像；第二样本集包括M个第二样本图像，每个第二样本图像均包括一个样本头像，样本头像可以是除用户A以外的任一个用户的头像；第一生成网络用于生成用户A的模拟图像(即该模拟图像中的头像保留有用户A的姿态、表情、光照等特征)。

[0106] (2)服务器从第一样本集中选取第一样本图像xi，调用第一生成网络对第一样本图像xi(该图像为真实图像)进行生成处理，得到第一预测图像x′i(该图像为模拟图像)；其中，第一预测图像x′i包含目标头像(即该头像具有目标头像的姿态、表情、光照等特征)，且第一预测图像x′i中的目标头像的属性与第一样本图像xi中的目标头像的属性保持一致(即第一预测图像x′i中的目标头像的五官、头发、皮肤、眼镜等外貌特征与第一样本图像xi保持一致)，i为正整数且i≤N；从原理上来说，第一生成网络中携带有目标头像的姿态、表情、光照等特征，调用第一生成网络对第一样本图像xi进行生成处理是指：提取第一样本图像xi中的头像的五官、头发、皮肤、眼镜等外貌特征，并将这些特征与目标头像的姿态、表情、光照等特征进行融合，得到第一预测图像x′i(即第一预测图像x′i中的头像的姿态、表情、光照等特征，以及五官、头发、皮肤、眼镜等外貌特征均与第一样本图像xi中的头像保持一致)。

[0107] (3)服务器从第二样本集中选取第二样本图像yk，调用第一生成网络对第二样本图像yk(该图像为真实图像)进行生成处理，得到第二预测图像y″k(该图像为模拟图像)；其中，第二预测图像y′k包含目标头像(即该头像具有目标头像的姿态、表情、光照等特征)，且第二预测图像y′k中的目标头像的属性与第二样本图像yk中的样本头像的属性保持一致(即第二预测图像y′k中的目标头像的五官、头发、皮肤、眼镜等外貌特征与第二样本图像yk保持一致)，k为正整数且k≤M；与步骤(2)同理，第一生成网络中携带有目标头像的姿态、表情、光照等特征，调用第一生成网络对第二样本图像yk进行生成处理是指：提取第二样本图像yk中的头像的五官、头发、皮肤、眼镜等外貌特征，并将这些特征与目标头像的姿态、表情、光照等特征进行融合，得到第二预测图像y′k(即第二预测图像y′k中的头像的姿态、表情、光照等特征与目标头像保持一致，第二预测图像y′k中的头像的五官、头发、皮肤、眼镜等外貌特征与第二样本图像yk中的头像保持一致)。

[0108] (4)服务器调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k(该图像为模拟图像)；第三预测图像y″k与第二样本图像yk包含相同的样本头像(即第三预测图像y″k中的头像的姿态、表情、光照等特征，以及五官、头发、皮肤、眼镜等外貌特征均与第二样本图像yk中的头像保持一致)。

[0109] (5)服务器根据第一样本图像xi与第一预测图像x′i之间的差异，第二样本图像yk与第二预测图像y′k之间的差异，以及第二样本图像yk与第三预测图像y″k之间的差异，更新图像处理模型的参数；在一个实施例中，服务器可以通过构建损失函数来计算各个图像间的差异；例如，服务构建第一损失函数来计算第一样本图像xi与第一预测图像x′i之间的差异，构建第二损失函数来计算第二样本图像yk与第二预测图像y′k之间的差异，构建第三损失函数来计算第二样本图像yk与第三预测图像y″k之间的差异，并基于第一损失函数，第二损失函数和第三损失函数构建目标损失函数，通过目标损失函数来更新图像处理模型的参数。

[0110] (6)令i＝i+1且k＝k+1，迭代执行上述步骤(2)‑步骤(5)直至图像处理模型达到收敛(如目标损失函数的损失值不再随着迭代的次数减小，或者迭代次数达到次数阈值，或者目标损失函数的损失值小于损失阈值等)，其中，i+1≤N，k+1≤M。

[0111] 本申请实施例中，获取图像处理模型的训练样本集，该训练样本集包括第一样本集和第二样本集，第一样本集包含N个第一样本图像，这些第一样本图像均包含目标头像；当然可以理解的是，这些第一样本图像中的目标头像可以具备不同表情、不同姿态等等。第二样本集包含M个第二样本图像，每个第二样本图像均包含一个样本头像，也就是说，M个第二样本图像可以提供M个不同的样本头像，这些样本头像可以具备不同的人脸、不同的表情、不同的姿态等等。采用这样的训练样本集，能够使得图像处理模型可以学习到任意样本头像的特征，也可以学习到目标头像的多种姿态表情，从而能够实现任意头像至目标头像的换头处理，适用于更广泛的场景。

[0112] 另外，从第一样本集中选取第一样本图像xi，调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像x′i，从第二样本集中选取第二样本图像yk，调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k，调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k，第一生成网络和第二生成网络具备相同的特征提取结构，通过训练第二生成网络中的特征提取结构，来辅助第一生成网络的训练；根据第一样本图像xi与第一预测图像x′i之间的差异，第二样本图像yk与第二预测图像y′k之间的差异，以及第二样本图像yk与第三预测图像y″k之间的差异，更新图像处理模型的参数；令i＝i+1且k＝k+1，对图像处理模型进行迭代训练直至图像处理模型达到收敛。采用上述的训练过程来训练图像处理模型，可以使得训练好的图像处理模型能够将任意头像替换为目标头像，且换头处理后生成的图像中的人像，既保留了该原任意头像五官、头发、皮肤、眼镜等外貌特征，又具备目标头像的姿态、表情、光照等特征，从而较佳地提升了处理准确度。

[0113] 基于上述描述，下面将结合附图，对本申请实施例提出的图像处理方法进行详细介绍。

[0114] 图2示出了本申请一个示例性实施例提供的一种图像处理方法的流程图。该图像处理方法可以由图1所示的服务器102执行，如图2所示，图像处理方法包括但不限于如下步骤S201‑步骤S206：

[0115] S201、获取图像处理模型的训练样本集。

[0116] 训练样本集可以是从终端设备中获取，也可以是从数据库中获取；训练样本集包含第一样本集和第二样本集，第一样本集包括N个第一样本图像，每个第一样本图像均包含目标头像(即需要保留姿态、表情、光照等特征的头像)；第二样本集包括M个第二样本图像，每个第二样本图像包含一个样本头像(即需要保留五官、头发、皮肤、眼镜等外貌特征的头像)，M、N均为正整数。

[0117] 图像处理模型包含第一生成网络(用于根据第一样本图像或者第二样本图像生成模型图像，该模拟图像中的头像保留了目标头像的姿态、表情、光照等特征)；例如，设目标头像为用户A的头像；第二样本集包括M个第二样本图像，每个第二样本图像均包括一个样本头像，样本头像可以是除用户A以外的任一个用户的头像；第一生成网络用于生成用户A的模拟图像(即该模拟图像中的头像保留有用户A的姿态、表情、光照等特征)。

[0118] 图像处理模型还包含第二生成网络(用于辅助第一生成网络的训练)，第一生成网络和第二生成网络具备相同的特征提取结构(如第一生成网络和第二生成网络具有相同的特征编码器)，具体来说，服务器可以通过训练第二生成网络中的特征提取结构，来辅助第一生成网络的训练。

[0119] S202、从第一样本集中选取第一样本图像xi，调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像x′i。

[0120] 第一预测图像x′i包含目标头像(即该头像具有目标头像的姿态、表情、光照等特征)，且第一预测图像x′i中的目标头像的属性与第一样本图像xi中的目标头像的属性保持一致(即第一预测图像x′i中的目标头像的五官、头发、皮肤、眼镜等外貌特征与第一样本图像xi保持一致)，i为正整数且i≤N。从原理上来说，第一生成网络中携带有目标头像的姿态、表情、光照等特征，服务器调用第一生成网络对第一样本图像xi进行生成处理是指：服务器提取第一样本图像xi中的头像的五官、头发、皮肤、眼镜等外貌特征(由于第一样本图像xi中包含目标头像，因此第一样本图像xi中的头像的五官、头发、皮肤、眼镜等外貌特征，即为目标头像的五官、头发、皮肤、眼镜等外貌特征)，并将这些特征与目标头像的姿态、表情、光照等特征进行融合，得到第一预测图像x′i(即第一预测图像x′i中的头像的姿态、表情、光照等特征，以及五官、头发、皮肤、眼镜等外貌特征均与第一样本图像xi中的头像(目标头像)保持一致)。

[0121] S203、从第二样本集中选取第二样本图像yk，调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k。

[0122] 第二预测图像y′k包含目标头像(即该头像具有目标头像的姿态、表情、光照等特征)，且第二预测图像y′k中的目标头像的属性与第二样本图像yk中的样本头像的属性保持一致(即第二预测图像y′k中的目标头像的五官、头发、皮肤、眼镜等外貌特征与第二样本图像yk保持一致)，k为正整数且k≤M。步骤S203同理，第一生成网络中携带有目标头像的姿态、表情、光照等特征，服务器调用第一生成网络对第二样本图像yk进行生成处理是指：服务器提取第二样本图像yk中的头像的五官、头发、皮肤、眼镜等外貌特征，并将这些特征与目标头像的姿态、表情、光照等特征进行融合，得到第二预测图像y′k(即第二预测图像y′k中的头像的姿态、表情、光照等特征与目标头像保持一致，第二预测图像y′k中的头像的五官、头发、皮肤、眼镜等外貌特征与第二样本图像yk中的头像保持一致)。

[0123] S204、调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k。

[0124] 第三预测图像y″k与第二样本图像yk包含相同的样本头像(即第三预测图像y″k中的头像的姿态、表情、光照等特征，以及五官、头发、皮肤、眼镜等外貌特征均与第二样本图像yk中的头像保持一致)。简单来说，第二生成网络用于根据不同的图像(包含真实头像的图像)，生成与之对应的模拟图像(包含模拟头像的图像)；例如，调用第二生成网络对包含用户A的真实头像的图像进行生成处理，可以得到包含用户A的模拟头像(即与用户A的真实头像的姿态、表情、光照等特征，以及五官、头发、皮肤、眼镜等外貌特征均保持一致)的图像。

[0125] S205、根据第一样本图像xi与第一预测图像x′i之间的差异，第二样本图像yk与第二预测图像y′k之间的差异，以及第二样本图像yk与第三预测图像y′k之间的差异，更新图像处理模型的参数。

[0126] 在一种实施方式中，服务构建第一损失函数来计算第一样本图像xi与第一预测图像x′i之间的差异，构建第二损失函数来计算第二样本图像yk与第二预测图像y′k之间的差异，构建第三损失函数来计算第二样本图像yk与第三预测图像y″k之间的差异，并基于第一损失函数，第二损失函数和第三损失函数构建目标损失函数，通过目标损失函数来更新图像处理模型的参数。

[0127] S206、判断图像处理模型是否收敛。

[0128] 服务器判断更新后的图像处理模型是否收敛，若更新后的图像处理模型不收敛，则令i＝i+1且k＝k+1，并按照上述步骤S202‑步骤S205进行迭代，直至图像处理模型达到收敛；若更新后的图像处理模型收敛，则结束本轮图像处理模型的训练。

[0129] 本申请实施例中，获取图像处理模型的训练样本集，该训练样本集包括第一样本集和第二样本集，第一样本集包含N个第一样本图像，这些第一样本图像均包含目标头像；当然可以理解的是，这些第一样本图像中的目标头像可以具备不同表情、不同姿态等等。第二样本集包含M个第二样本图像，每个第二样本图像均包含一个样本头像，也就是说，M个第二样本图像可以提供M个不同的样本头像，这些样本头像可以具备不同的人脸、不同的表情、不同的姿态等等。采用这样的训练样本集，能够使得图像处理模型可以学习到任意样本头像的特征，也可以学习到目标头像的多种姿态表情，从而能够实现任意头像至目标头像的换头处理，适用于更广泛的场景。

[0130] 另外，从第一样本集中选取第一样本图像xi，调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像x′i，从第二样本集中选取第二样本图像yk，调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k，调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k，第一生成网络和第二生成网络具备相同的特征提取结构，通过训练第二生成网络中的特征提取结构，来辅助第一生成网络的训练；根据第一样本图像xi与第一预测图像x′i之间的差异，第二样本图像yk与第二预测图像y′k之间的差异，以及第二样本图像yk与第三预测图像y″k之间的差异，更新图像处理模型的参数；令i＝i+1且k＝k+1，对图像处理模型进行迭代训练直至图像处理模型达到收敛。采用上述的训练过程来训练图像处理模型，可以使得训练好的图像处理模型能够将任意头像替换为目标头像，且换头处理后生成的图像中的人像，既保留了该原任意头像五官、头发、皮肤、眼镜等外貌特征，又具备目标头像的姿态、表情、光照等特征，从而较佳地提升了处理准确度。

[0131] 图3示出了本申请一个示例性实施例提供的另一种图像处理方法的流程图。该图像处理方法可以由图1所示的服务器102执行，如图3所示，图像处理方法包括但不限于如下步骤S301‑步骤S311：

[0132] S301、获取图像处理模型的训练样本集。

[0133] 图4示出了本申请一个示例性实施例提供的一种训练样本集的生成流程图。如图4所示，获取图像处理模型的训练样本集的流程主要包括步骤S3011‑步骤S3013。

[0134] S3011：数据采集阶段。一方面服务器获取目标图像集合(每张目标图像中均包含目标头像)；例如，服务器获取终端设备发送的一段包含目标头像的视频，该视频的时长为10分钟，服务器通过抽帧可以从该视频中抽取X张目标图像，得到目标图像集合。另一方面服务器获取样本图像集合(每张样本图像中均包含样本头像，样本头像可以是除目标头像外的任一头像，样本头像可以是不同人的头像)；例如，服务器从数据库中获取预先采集的样本图像，得到样本图像集合。

[0135] S3012：头像校正阶段。服务器可以通过人脸检测算法(如AdaBoost框架、DMP(Deformable Part Model)模型、Cascade CNN等)对采集的图像进行头像区域检测，并对头像区域进行校准(如采用基于回归树的人脸对齐算法)，其目的在于在已知的头像区域上定位其准确地形状。此外，服务器还可以通过头像姿态矫正算法(如三维形变模型(3D Morphable Models，3DMM)算法)得到矫正后的头像(正面头像)；实践发现，通过矫正后的头像对图像处理模型进行训练，有助于模型训练的稳定。在得到校正后的训练样本集后，服务器可以直接执行步骤S302，也可以继续执行步骤S3013(该步骤为可选项)。

[0136] S3013：头像区域分割阶段。由于在步骤S3012中，服务器已经确定出训练样本集中各个图像的头像区域，因此服务可以对训练样本集中的各个图像进行剪裁，仅保留头像区域。也就是说，在对图像处理模型进行训练之前，预先对训练样本集进行头像分割处理，相较于直接使用训练样本集(样本图像中包括背景)对图像处理模型进行训练，可以提高图像处理模型的训练效率。

[0137] S302、从第一样本集中选取第一样本图像xi，调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像x′i。

[0138] 在一种实施方式中，第一生成网络包括编码器和第一解码器，编码器用于提取图像特征得到特征向量，第一解码器用于根据特征向量生成模拟图像，第一解码器中携带目标头像的姿态、表情、光照等特征；服务器调用编码器对第一样本图像xi进行编码处理，得到第一特征向量，第一特征向量蕴含第一样本图像xi中的目标头像的属性(即目标头像的五官、头发、皮肤、眼镜等外貌特征)；在得到第一特征向量后，服务器调用第一解码器对第一特征向量进行解码处理(即将第一样本图像xi中的目标头像的五官、头发、皮肤、眼镜等外貌特征，以及目标头像的姿态、表情、光照等特征进行融合)，得到第一生成图像及第一生成图像的区域分割信息，区域分割信息用于指示第一生成图像中的头像区域；进一步地，服务器按照第一生成图像的区域分割信息，从第一生成图像中提取第一预测图像x′i(即第一模拟头像，该第一模拟头像与目标头像的姿态、表情、光照等特征，以及五官、头发、皮肤、眼镜等外貌特征均保持一致)。

[0139] 图5a示出了本申请一个示例性实施例提供的一种编码器的结构示意图。如图5a所示，编码器包括P个特征提取网络和一个特征聚合层，P为正整数；每个特征提取网络包含一个下采样层；P个下采样层的尺度参数不同；例如，第一下采样层中dilation(尺度参数)＝1；第二下采样层中dilation(尺度参数)＝2；第三下采样层中dilation(尺度参数)＝4。更进一步地，每个下采样层是基于深度离散卷积网络(depth separable convolution)构建的，该深度离散卷积网络中包括卷积函数(Conv2d，k＝1)和深度卷积函数(DepthConv2d，k＝3，s＝2，dilation＝d)。服务器调用编码器对第一样本图像xi进行编码处理，得到第一特征向量的具体实施方式为：通过P个特征提取网络中的下采样层(即P个下采样层)提取第一样本图像xi在P个尺度下的特征信息；再通过特征聚合层对第一样本图像xi在P个尺度下的特征信息进行聚合处理，得到第一特征向量。

[0140] 图5b示出了本申请一个示例性实施例提供的一种第一解码器的结构示意图。如图5b所示，第一解码器包含一个特征转换网络、Q个图像重建网络和一个卷积网络，Q为正整数；每个图像重建网络包含一个残差网络和一个上采样层；其中，特征转换网络用于将输入至第一解码器的特征向量转换(reshape)成特征图；重建网络用于对特征图进行第一特征恢复处理(即通过Q上采样层(UpScaleBlock)将特征图的尺寸恢复为与第一样本图像xi的尺寸一致，并通过残差网络(residual network)缓解了在上采样过程中存在的梯度消失问题)，得到融合特征图像；卷积网络用于对融合特征图像进行卷积处理，得到输入第一解码器的特征向量对应的生成图像。服务器调用第一解码器对第一特征向量进行解码处理，得到第一生成图像及第一生成图像的区域分割信息的具体实施方式为：通过特征转换网络对第一特征向量进行转换，得到第一特征图；通过P个重建网络对第一特征图进行第一特征恢复处理，得到第一融合特征图像；通过卷积网络对第一特征融合图像进行卷积处理，得到第一特征向量对应的第一生成图像及第一生成图像的区域分割信息。

[0141] S303、从第二样本集中选取第二样本图像yk，调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k。

[0142] 在一种实施方式中，第一生成网络包括编码器和第一解码器，编码器用于提取图像特征得到特征向量，第一解码器用于根据特征向量生成模拟图像，第一解码器中携带目标头像的姿态、表情、光照等特征；服务器调用编码器对第二样本图像yk进行编码处理，得到第二特征向量，第二特征向量蕴含第二样本图像yk中的样本头像的属性(即第二样本图像yk中的样本头像的五官、头发、皮肤、眼镜等外貌特征)；在得到第二特征向量后，服务器调用第一解码器对第二特征向量进行解码处理(即将第二样本图像yk中的样本头像的五官、头发、皮肤、眼镜等外貌特征，以及目标头像的姿态、表情、光照等特征进行融合)，得到第二生成图像及第二生成图像的区域分割信息，区域分割信息用于指示第二生成图像中的头像区域；进一步地，服务器按照第二生成图像的区域分割信息，从第二生成图像中提取第二预测图像y′k(即第二模拟头像，该第二模拟头像与第二样本图像yk中的样本头像的五官、头发、皮肤、眼镜等外貌特征保持一致，与目标头像的姿态、表情、光照等特征保持一致)。

[0143] 其中，服务器调用编码器对第二样本图像yk进行编码处理，得到第二特征向量的具体实施方式为：通过P个特征提取网络中的下采样层(即P个下采样层)提取第二样本图像yk在P个尺度下的特征信息；再通过特征聚合层对第二样本图像yk在P个尺度下的特征信息进行聚合处理，得到第二特征向量。服务器调用第一解码器对第二特征向量进行解码处理，得到第二生成图像及第二生成图像的区域分割信息的具体实施方式为：通过特征转换网络对第二特征向量进行转换，得到第二特征图；通过P个重建网络对第二特征图进行第一特征恢复处理，得到第二融合特征图像；通过卷积网络对第二特征融合图像进行卷积处理，得到第二特征向量对应的第二生成图像及第二生成图像的区域分割信息。

[0144] S304、调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k。

[0145] 在一种实施方式中，第二生成网络包括编码器，第二解码器和身份识别网络，编码器用于提取图像特征得到特征向量(即第一生成网络、第二生成网络具备相同的特征提取结构)，身份识别网络用于提取图像的标识信息(例如，不同图像对应不同的ID，身份识别网络用于确定各个图像对应的ID)，第二解码器用于根据特征向量和身份识别网络提供的标识信息生成模拟图像。服务器调用编码器对第二样本图像yk进行编码处理，得到第二特征向量，第二特征向量蕴含第二样本图像yk中的样本头像的属性(即第二样本图像yk中的样本头像的五官、头发、皮肤、眼镜等外貌特征)。在得到第二特征向量后，服务器调用身份识别网络对第二特征向量进行识别，得到第二样本图像yk的标识信息(如第二样本图像yk中样本头像的ID)。进一步地，服务器调用第二解码器根据第二样本图像yk的标识信息(使得第二解码器携带第二样本图像yk的标识信息所对应的头像(也就是第二样本图像yk中的样本头像)的姿态、表情、光照等特征)对第二特征向量进行解码处理(即将第二样本图像yk中的样本头像的五官、头发、皮肤、眼镜等外貌特征，以及姿态、表情、光照等特征进行融合)，得到第三生成图像及第三生成图像的区域分割信息，区域分割信息用于指示第三生成图像中的头像区域；更进一步地，服务器按照第三生成图像的区域分割信息，从第三生成图像中提取第三预测图像y″k(即第三模拟头像，该第三模拟头像与第二样本图像yk中的样本头像的五官、头发、皮肤、眼镜等外貌特征，以及姿态、表情、光照等特征均保持一致)，第三预测图像y″k与第二样本图像yk具备相同的标识信息(即若第二解码器生成的第三预测图像y″k相似度高于相似度阈值(足够逼真)，则身份识别网络对预测图像y″k的识别结果与身份识别网络对第二样本图像yk的识别结果一致)。

[0146] 其中，服务器调用编码器对第二样本图像yk进行编码处理，得到第二特征向量的具体实施方式为：通过P个特征提取网络中的下采样层(即P个下采样层)提取第二样本图像yk在P个尺度下的特征信息；再通过特征聚合层对第二样本图像yk在P个尺度下的特征信息进行聚合处理，得到第二特征向量。

[0147] 图5c示出了本申请一个示例性实施例提供的一种第二解码器的结构示意图。如图5c所示，第二解码器包含一个特征转换网络、Q个图像重建网络(与第一解码器数量一致)和一个卷积网络，Q为正整数；每个图像重建网络包含一个残差网络，一个上采样层和一个自适应模块(AdaIN)；其中，特征转换网络用于将输入至第二解码器的特征向量转换成特征图；重建网络用于对特征图进行第二特征恢复处理(即通过Q上采样层将特征图的尺寸恢复为与第二样本图像yk的尺寸一致，通过自适应模块在上采样的过程中加入输入第二解码器的特征向量对应的标识信息进行特征融合，并通过残差网络缓解了在上采样过程中存在的梯度消失问题)，得到融合特征图像；卷积网络用于对融合特征图像进行卷积处理，得到输入第二解码器的特征向量对应的生成图像。服务器调用第二解码器根据第二样本图像yk的标识信息对第二特征向量进行解码处理，得到第三生成图像及第三生成图像的区域分割信息的具体实施方式为：通过特征转换网络对第二特征向量进行转换，得到第二特征图；通过P个重建网络对第二特征图进行第二特征恢复处理，得到第三融合特征图像；通过卷积网络对第三特征融合图像进行卷积处理，得到第二特征向量对应的第三生成图像及第三生成图像的区域分割信息。

[0148] S305、根据第一样本图像xi与第一预测图像x′i之间的差异，构建第一损失函数。

[0149] 图6a示出了本申请一个示例性实施例提供的一种第一损失函数的构建流程图。如图6a所示，图像处理模型还包括第一判别器(特定判别器)和预训练网络(如图像感知相似度指标(Learned Perceptual Image Patch Similarity，LPIPS)网络)。图像处理模型获取第一样本图像xi，并通过第一生成网络得到第一预测图像x′i的实施方式可参考步骤S302，在此不再赘述。

[0150] 在得到第一预测图像x′i后，一方面，服务器通过第一判别器对第一样本图像xi及第一预测图像x′i分别进行判别处理(如判断第一样本图像xi及第一预测图像x′i是否为真实图像)，并基于第一样本图像xi的判别结果和第一预测图像x′i的判别结果，构建第一损失函数的第一分支函数，该第一分支函数可以表示为：

[0151]

[0152] 其中，LGAN1代表第一生成对抗网络GAN(包括第一生成网络(G1)和第一判别器(D1))的第一损失函数。表示令第一生成网络(G)生成的第一预测图像x′i与第一样本图像xi的差异尽量小，表示令第一判别器判断第一预测图像x′i与第一样本图像xi的差异尽量大，E(x)函数用于求x的期望，Dsrc(x)用于表示采用第一判别器对x进行判别处理，Isrc为第一样本图像即xi，Enc(x)用于表示采用编码器对x进行编码处理，Decsrc(x)用于表示采用第一解码器对x进行解码处理。由此可以推断，Dsrc(Isrc)表示采用第一判别器对第一样本图像xi进行判别处理，Decsrc(Enc(Isrc))为第一预测图像即x′i，Dsrc(Decsrc(Enc(Isrc)))表示采用第一判别器对第一预测图像即x′i进行判别处理。

[0153] 另一方面，服务器通过预训练网络(LPIPS网络)对第一样本图像xi及第一预测图像x′i进行特征比对，得到特征比对结果，该特征比对结果用于反映第一样本图像xi及第一预测图像x′i之间的特征差异；在得到特征比对结果后，服务器基于特征比对结果构建第一损失函数的第二分支函数，该第二分支函数可以表示为：

[0154] LLPIPS1＝[LPIPS(Decsrc(Enc(Isrc)))‑LPIPS(Isrc)]2

[0155] 其中，LLPIPS1代表预训练网络(LPIPS网络)的第一损失函数，LPIPS(x)表示通过预训练网络(LPIPS网络)对x进行特征感知处理；由第一损失函数的第一分支函数可知，Isrc为第一样本图像即xi，Decsrc(Enc(Isrc))为第一预测图像即x′i；基于此，LPIPS(Decsrc(Enc(Isrc)))表示通过LPIPS网络对第一预测图像即x′i进行特征感知处理，LPIPS(Isrc)表示通过LPIPS网络对第一样本图像xi进行特征感知处理。

[0156] 在得到第一损失函数的第一分支函数与第一损失函数的第二分支函数之后，服务器将第一损失函数的第一分支函数与第一损失函数的第二分支函数之和，确定为第一损失函数；第一损失函数L1可以表示为：L1＝LGAN1+LLPIPS1。

[0157] S306、根据第二样本图像yk与第二预测图像y′k之间的差异，构建第二损失函数。

[0158] 图6b示出了本申请一个示例性实施例提供的一种第一损失函数的构建流程图。如图6b所示，图像处理模型还包括属性识别网络，属性识别网络可以识别眼睛大小、眼球位置和嘴巴大小等脸部属性，属性识别网络输出的是一个[0,1]范围内的连续值；例如，对于眼睛大小，0表示闭眼，1表示完全睁眼。对于眼球位置，0表示偏向最左侧，1表示偏向最右侧。对于嘴巴大小，0表示闭嘴，1表示完全张嘴。图像处理模型获取第二样本图像yk，并通过第一生成网络得到第二预测图像y′k的实施方式可参考步骤S303，在此不再赘述。

[0159] 在得到第二预测图像y′k后，一方面，服务器通过第一判别器对第二预测图像y′k进行判别处理(如第二预测图像y′k是否为真实图像)，并基于第二预测图像y′k的判别结果，构建第二损失函数的第一分支函数，该第一分支函数可以表示为：

[0160]

[0161] 其中，LGAN2代表第一生成对抗网络GAN(包括第一生成网络(G1)和第一判别器(D1))的第二损失函数。表示令第一生成网络(G)生成的第二预测图像y′k与第二样本图像yk的差异尽量小(使得第一判别器对第二预测图像y′k的判别结果为真)，E(x)函数用于求x的期望，Dsrc(x)用于表示采用第一判别器对x进行判别处理，Iother为第二样本图像yk，Enc(x)用于表示采用编码器对x进行编码处理，Decsrc(x)用于表示采用第一解码器对x进行解码处理。由此可以推断，Decsrc(Enc(Iother))为第二预测图像y′k，Dsrc(Decsrc(Enc(Iother)))表示采用第一判别器对第二预测图像y′k进行判别处理。

[0162] 另一方面，服务器通过属性识别网络对第二样本图像yk及第二预测图像y′k进行属性比对，得到属性比对结果，属性比对结果用于反映第二样本图像yk及第二预测图像y′k之间的属性差异；并基于属性比对结果构建第二损失函数，第二损失函数可以表示为：

[0163] Lattri＝[Nattri(Decsrc(Enc(Iother)))‑Nattri(Iother)]2

[0164] 其中，Lattri代表属性识别网络的损失函数，Nattri(x)表示通过属性识别网络对x进行属性识别；由第二损失函数的第一分支函数可知，Iother为第二样本图像yk，Decsrc(Enc(Iother))为第二预测图像y′k，基于此，Nattri(Decsrc(Enc(Iother)))表示通过属性识别网络对第二预测图像y′k进行属性识别处理，Nattri(Iother)表示通过属性识别网络对第二样本图像yk进行属性识别处理。

[0165] 在得到第二损失函数的第一分支函数与第二损失函数的第二分支函数之后，服务器将第二损失函数的第一分支函数与第二损失函数的第二分支函数之和，确定为第二损失函数；第一损失函数L2可以表示为：L2＝LGAN2+Lattri。

[0166] S307、根据第二样本图像yk与第三预测图像y″k之间的差异，构建第三损失函数。

[0167] 图6c示出了本申请一个示例性实施例提供的一种第一损失函数的构建流程图。如图6c所示，图像处理模型还包括第二判别器(广义判别器)。图像处理模型通过第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k的实施方式可参考步骤S304，在此不再赘述。

[0168] 在得到第三预测图像y″k后，一方面，服务器通过第二判别器对第二样本图像yk及第三预测图像y″k分别进行判别处理(如判断第二样本图像yk及第三预测图像y″k是否为真实图像)，并基于第二样本图像yk的判别结果和第三预测图像y″k的判别结果，构建第三损失函数的第一分支函数，该第一分支函数可以表示为：

[0169]

[0170] 其中，LGAN3代表第二生成对抗网络GAN′(包括第二生成网络(G2)和第二判别器(D2))的损失函数。表示令第二生成网络(G)生成的第三预测图像y″k与第二样本图像yk的差异尽量小，表示令第二判别器判断第三预测图像y″k与第二样本图像yk的差异尽量大，E(x)函数用于求x的期望，Dgeneral(x)用于表示采用第二判别器对x进行判别处理，Iother为第二样本图像yk，Enc(x)用于表示采用编码器对x进行编码处理，Decgeneral(x，y)用于表示采用第二解码器根据y对x进行解码处理。由此可以推断，Dgeneral(Iother)表示采用第二判别器对第二样本图像yk进行判别处理，Decgeneral(Enc(Iother)，Nid(Iother))为第三预测图像y″k，Dgeneral(Decgeneral(Enc(Iother)，Nid(Iother)))表示采用第二判别器对第三预测图像y″k进行判别处理。

[0171] 另一方面，服务器通过预训练网络(LPIPS网络)对第二样本图像yk及第三预测图像y″k进行特征比对，得到特征比对结果，该特征比对结果用于反映第二样本图像yk及第三预测图像y″k之间的特征差异；在得到特征比对结果后，服务器基于特征比对结果构建第三损失函数的第二分支函数，该第二分支函数可以表示为：

[0172] LLPIPS2＝[LPIPS(Decgeneral(Enc(Iother)))‑LPIPS(Iother)]2

[0173] 其中，LLPIPS2代表预训练网络(LPIPS网络)的第二损失函数，LPIPS(x)表示通过预训练网络(LPIPS网络)对x进行特征感知处理；由第三损失函数的第一分支函数可知，Iother为第二样本图像即yk，Decgeneral(Enc(Iother))为第三预测图像即y″k；基于此，LPIPS(Decgeneral(Enc(Iother)))表示通过LPIPS网络对第三预测图像即y″k进行特征感知处理，LPIPS(Iother)示通过LPIPS网络对第二样本图像即yk进行特征感知处理。

[0174] 在得到第三损失函数的第一分支函数与第三损失函数的第二分支函数之后，服务器将第三损失函数的第一分支函数与第三损失函数的第二分支函数之和，确定为第三损失函数；第三损失函数L3可以表示为：L3＝LGAN3+LLPIPS2。

[0175] 在一个实施例中，步骤S305‑步骤S307可以是同时进行的。

[0176] S308、根据第一损失函数、第二损失函数和第三损失函数构建图像处理模型的目标损失函数。

[0177] 在一种实施方式中，目标损失函数是通过第一损失函数、第二损失函数和第三损失函数求和得到的，该目标损失函数可以表示为：Ltotal＝L1+L2+L3。

[0178] S309、根据目标损失函数的损失值更新图像处理模型的参数。

[0179] 在一种实施方式中，服务器调整图像处理模型的参数(如卷积层的层数、上采样层的层数、下采样层的层数、dilation等)，以降低目标函数的损失值。具体地，服务器根据目标损失函数，将误差反传(Back Propagation)回第一生成网络和第二生成网络(编解码模块)，使用梯度下降法更新第一生成网络和第二生成网络的参数值。

[0180] S310、判断图像处理模型是否收敛。

[0181] 服务器判断更新后的图像处理模型是否收敛，若更新后的图像处理模型不收敛，则令i＝i+1且k＝k+1，并按照上述步骤S302‑步骤S309进行迭代，直至图像处理模型达到收敛；若更新后的图像处理模型收敛，则继续执行步骤S311。

[0182] S311、调用收敛后的图像处理模型对获取测试视频进行处理，得到目标视频。

[0183] 图7示出了本申请一个示例性实施例提供的一种测试视频的处理流程图。如图7所示，服务器获取测试视频，一方面，服务器测试视频进行抽帧(图像提取)处理，得到测试图像集合，每一帧测试图像包含测试头像。服务器对测试图像集合中的测试头像进行校正，具体的校正方式可参考步骤S3012中的实施方式，在此不再赘述。在校正完成后，服务器调用收敛后的图像处理模型的第一生成网络分别对每帧测试图像进行生成处理，得到每帧测试图像对应的预测图像。图8示出了本申请一个示例性实施例提供的一种第一生成网络对测试图像进行生成处理流程图。图8中，服务器采用第一生成网络对每帧测试图像进行生成处理，得到每帧测试图像对应的预测图像的具体实施方式与步骤S303类似，在此不再赘述。

[0184] 另一方面，服务器对测试视频进行图像补全(inpainting)处理，其目的在于根据待修复图像自身(如背景)或图像库信息来补全待修复图像的缺失区域(即换头区域),使得修复后的图像看起来非常自然,难以和未受损的图像区分开。

[0185] 图9示出了本申请一个示例性实施例提供的一种测试视频的处理流程图。如图9所示，服务器将每帧预测图像分别与图像补全处理后的测试视频中相应的测试图像进行融合，对融合后的视频进行颜色校正(如调整肤色)，得到目标视频。

[0186] 在一个实施例中，用户可以上传自己的唱歌，或者舞蹈视频；服务器可以使用明星头像/动漫头像等(作为目标头像)对用户上传的视频进行处理，得到头像转换后的目标视频，进而提升视频的趣味性。此外，用户还可以通过该图像处理模型进行“换头”直播(即将直播用户的头像实时转换为目标头像)，进而增加直播的趣味性。

[0187] 在另一个实施例中，由于移动支付可以通过“刷脸”进行，这对人脸识别模型的精度要求较高，图像处理模型可以用于生成训练数据(攻击数据)，来对人脸识别模型进行训练(即训练人脸识别模型识别模拟头像的能力)，进而提升移动支付的可靠性和安全性。

[0188] 本申请实施例中，获取图像处理模型的训练样本集，该训练样本集包括第一样本集和第二样本集，第一样本集包含N个第一样本图像，这些第一样本图像均包含目标头像；当然可以理解的是，这些第一样本图像中的目标头像可以具备不同表情、不同姿态等等。第二样本集包含M个第二样本图像，每个第二样本图像均包含一个样本头像，也就是说，M个第二样本图像可以提供M个不同的样本头像，这些样本头像可以具备不同的人脸、不同的表情、不同的姿态等等。采用这样的训练样本集，能够使得图像处理模型可以学习到任意样本头像的特征，也可以学习到目标头像的多种姿态表情，从而能够实现任意头像至目标头像的换头处理，适用于更广泛的场景。

[0189] 另外，从第一样本集中选取第一样本图像xi，调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像x′i，从第二样本集中选取第二样本图像yk，调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k，调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k，第一生成网络和第二生成网络具备相同的特征提取结构，通过训练第二生成网络中的特征提取结构，来辅助第一生成网络的训练；根据第一样本图像xi与第一预测图像x′i之间的差异，第二样本图像yk与第二预测图像y′k之间的差异，以及第二样本图像yk与第三预测图像y″k之间的差异，更新图像处理模型的参数；令i＝i+1且k＝k+1，对图像处理模型进行迭代训练直至图像处理模型达到收敛。采用上述的训练过程来训练图像处理模型，可以使得训练好的图像处理模型能够将任意头像替换为目标头像，且换头处理后生成的图像中的人像，既保留了该原任意头像五官、头发、皮肤、眼镜等外貌特征，又具备目标头像的姿态、表情、光照等特征，从而较佳地提升了处理准确度。

[0190] 上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

[0191] 请参见图10，图10示出了本申请一个示例性实施例提供的一种图像处理装置的结构示意图，该图像处理装置可以搭载在图1所示的服务器102中。图10所示的图像处理装置可以用于执行上述图2和图3所描述的方法实施例中的部分或全部功能。其中，各个单元的详细描述如下：

[0192] 获取单元1001，用于获取图像处理模型的训练样本集，图像处理模型包含第一生成网络和第二生成网络，第一生成网络和第二生成网络具备相同的特征提取结构；训练样本集包含第一样本集和第二样本集，第一样本集包括N个第一样本图像，每个第一样本图像均包含目标头像；第二样本集包括M个第二样本图像，每个第二样本图像包含一个样本头像，M、N均为正整数；

[0193] 处理单元1002，用于从第一样本集中选取第一样本图像xi，调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像x′i；第一预测图像x′i包含目标头像，且第一预测图像x′i中的目标头像的属性与第一样本图像xi中的目标头像的属性保持一致，i为正整数且i≤N；

[0194] 以及用于从第二样本集中选取第二样本图像yk，调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k；其中，第二预测图像y′k包含目标头像，且第二预测图像y′k中的目标头像的属性与第二样本图像yk中的样本头像的属性保持一致，k为正整数且k≤M；

[0195] 以及用于调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k；第三预测图像y″k与第二样本图像yk包含相同的样本头像；

[0196] 以及用于根据第一样本图像xi与第一预测图像x′i之间的差异，第二样本图像yk与第二预测图像y′k之间的差异，以及第二样本图像yk与第三预测图像y″k之间的差异，更新图像处理模型的参数；

[0197] 以及用于令i＝i+1且k＝k+1，迭代上述训练流程直至图像处理模型达到收敛，其中，i+1≤N，k+1≤M。

[0198] 在一种实施方式中，第一生成网络包括编码器和第一解码器；处理单元1002用于，调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像x′i，具体用于：

[0199] 调用编码器对第一样本图像xi进行编码处理，得到第一特征向量，第一特征向量蕴含第一样本图像xi中的目标头像的属性；

[0200] 调用第一解码器对第一特征向量进行解码处理，得到第一生成图像及第一生成图像的区域分割信息，区域分割信息用于指示第一生成图像中的头像区域；

[0201] 按照第一生成图像的区域分割信息，从第一生成图像中提取第一预测图像x′i。

[0202] 在一种实施方式中，第一生成网络包括编码器和第一解码器；处理单元1002用于，调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k，具体用于：

[0203] 调用编码器对第二样本图像yk进行编码处理，得到第二特征向量，第二特征向量蕴含第二样本图像yk中的样本头像的属性；

[0204] 调用第一解码器对第二特征向量进行解码处理，得到第二生成图像及第二生成图像的区域分割信息，区域分割信息用于指示第二生成图像中的头像区域；

[0205] 按照第二生成图像的区域分割信息，从第二生成图像中提取第二预测图像y′k。

[0206] 在一种实施方式中，编码器包括P个特征提取网络和一个特征聚合层，P为正整数；每个特征提取网络包含一个下采样层；P个下采样层的尺度参数不同；

[0207] P个下采样层用于提取输入至编码器的样本图像在P个尺度下的特征信息；

[0208] 特征聚合层用于对P个尺度下的特征信息进行聚合处理，得到输入至编码器的样本图像对应的特征向量；

[0209] 其中，输入至编码器的样本图像是指第一样本图像xi或第二样本图像yk。

[0210] 在一种实施方式中，第一解码器包含一个特征转换网络、Q个图像重建网络和一个卷积网络，Q为正整数；每个图像重建网络包含一个残差网络和一个上采样层；

[0211] 特征转换网络用于将输入至第一解码器的特征向量转换成特征图；

[0212] Q个图像重建网络用于对特征图进行特征恢复处理，得到融合特征图像；

[0213] 卷积网络用于对融合特征图像进行卷积处理，并输出输入至第一解码器的特征向量对应的生成图像；

[0214] 其中，输入至第一解码器的特征向量是指第一特征向量或第二特征向量；若输入至第一解码器的特征向量是第一特征向量，则输入至第一解码器的特征向量对应的生成图像为第一生成图像；若输入至第一解码器的特征向量是第二特征向量，则输入至第一解码器的特征向量对应的生成图像为第二生成图像。

[0215] 在一种实施方式中，第二生成网络包括编码器，第二解码器和身份识别网络；处理单元1002用于，调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k，具体用于：

[0216] 调用编码器对第二样本图像yk进行编码处理，得到第二特征向量，第二特征向量蕴含第二样本图像yk中的样本头像的属性；

[0217] 调用身份识别网络对第二特征向量进行识别，得到第二样本图像yk的标识信息；

[0218] 调用第二解码器根据第二样本图像yk的标识信息对第二特征向量进行解码处理，得到第三生成图像及第三生成图像的区域分割信息，区域分割信息用于指示第三生成图像中的头像区域；

[0219] 按照第三生成图像的区域分割信息，从第三生成图像中提取第三预测图像y″k，第三预测图像y″k与第二样本图像yk具备相同的标识信息。

[0220] 在一种实施方式中，第二解码器包含一个特征转换网络、Q个图像重建网络和一个卷积网络，Q为正整数；每个图像重建网络包含一个残差网络、一个上采样层和一个自适应模块；

[0221] 自适应模块用于在第二解码器的解码过程中传输第二样本图像yk的标识信息。

[0222] 在一种实施方式中，处理单元1002用于，根据第一样本图像xi与第一预测图像x′i之间的差异，第二样本图像yk与第二预测图像y′k之间的差异，以及第二样本图像yk与第三预测图像y″k之间的差异，更新图像处理模型的参数，具体用于：

[0223] 根据第一样本图像xi与第一预测图像x′i之间的差异，构建第一损失函数；

[0224] 根据第二样本图像yk与第二预测图像y′k之间的差异，构建第二损失函数；

[0225] 根据第二样本图像yk与第三预测图像y″k之间的差异，构建第三损失函数；

[0226] 根据第一损失函数、第二损失函数和第三损失函数构建图像处理模型的目标损失函数；

[0227] 根据目标损失函数的损失值更新图像处理模型的参数；

[0228] 其中，当目标损失函数的损失值保持稳定时，或当目标损失函数的损失值小于损失阈值时，图像处理模型达到收敛。

[0229] 在一种实施方式中，图像处理模型还包括第一判别器和预训练网络；处理单元1002用于，根据第一样本图像xi与第一预测图像x′i之间的差异，构建第一损失函数，具体用于：

[0230] 通过第一判别器对第一样本图像xi及第一预测图像x′i分别进行判别处理；

[0231] 基于第一样本图像xi的判别结果和第一预测图像x′i的判别结果，构建第一损失函数的第一分支函数；

[0232] 通过预训练网络对第一样本图像xi及第一预测图像x′i进行特征比对，得到特征比对结果，特征比对结果用于反映第一样本图像xi及第一预测图像x′i之间的特征差异；

[0233] 基于特征比对结果构建第一损失函数的第二分支函数；

[0234] 将第一损失函数的第一分支函数与第一损失函数的第二分支函数之和，确定为第一损失函数。

[0235] 在一种实施方式中，图像处理模型还包括第一判别器和属性识别网络；处理单元1002用于，根据第二样本图像yk与第二预测图像y′k之间的差异，构建第二损失函数，具体用于：

[0236] 通过第一判别器对第二预测图像y′k行判别处理；

[0237] 基于第二预测图像y′k的判别结果，构建第二损失函数的第一分支函数；

[0238] 通过属性识别网络对第二样本图像yk及第二预测图像y′k进行属性比对，得到属性比对结果，属性比对结果用于反映第二样本图像yk及第二预测图像y′k之间的属性差异；

[0239] 基于属性比对结果构建第二损失函数的第二分支函数；

[0240] 将第二损失函数的第一分支函数与第二损失函数的第二分支函数之和，确定为第二损失函数。

[0241] 在一种实施方式中，图像处理模型还包括第二判别器和预训练网络；处理单元1002用于，根据第二样本图像yk与第三预测图像y″k之间的差异，构建第三损失函数，具体用于：

[0242] 通过第二判别器对第二样本图像yk及第三预测图像y″k分别进行判别处理；

[0243] 基于第二样本图像yk的判别结果和第三预测图像y″k的判别结果，构建第三损失函数的第一分支函数；

[0244] 通过预训练网络对第二样本图像yk及第三预测图像y″k进行特征比对，得到特征比对结果，特征比对结果用于反映第二样本图像yk及第三预测图像y″k之间的特征差异；

[0245] 基于特征比对结果构建第三损失函数的第二分支函数；

[0246] 将第三损失函数的第一分支函数与第三损失函数的第二分支函数之和，确定为第三损失函数。

[0247] 在一种实施方式中，处理单元1002还用于：

[0248] 获取测试视频，测试视频包括R帧测试图像，每帧测试图像包括一个校正头像，R为正整数；

[0249] 调用收敛后的图像处理模型的第一生成网络分别对每帧测试图像进行生成处理，得到每帧测试图像对应的预测图像；其中，每帧预测图像包含目标头像，且每帧预测图像中的目标头像的属性与对应的测试图像中的校正头像的属性保持一致；

[0250] 对测试视频进行图像补全处理；

[0251] 将每帧预测图像分别与图像补全处理后的测试视频中相应的测试图像进行融合，得到目标视频。

[0252] 根据本申请的一个实施例，图2和图3所示的图像处理方法所涉及的部分步骤可由图10所示的图像处理装置中的各个单元来执行。例如，图2中所示的步骤S201可由图10所示的获取单元1001执行，步骤S202‑步骤S206可由图10所示的处理单元1002执行。图3中所示的步骤S301可由图10所示的获取单元1001执行，步骤S302‑步骤S311可由图10所示处理单元1002执行。图10所示的图像处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，图像处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

[0253] 根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算装置上运行能够执行如图2和图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图10中所示的图像处理装置，以及来实现本申请实施例的图像处理方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算装置中，并在其中运行。

[0254] 基于同一发明构思，本申请实施例中提供的图像处理装置解决问题的原理与有益效果与本申请方法实施例中图像处理方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

[0255] 请参阅图11，图11示出了本申请一个示例性实施例提供的一种图像处理设备的结构示意图，该图像处理设备可以图1所示的服务器102；该图像处理设备至少包括处理器1101、通信接口1102和存储器1103。其中，处理器1101、通信接口1102和存储器1103可通过总线或其他方式连接，本申请实施例以通过总线连接为例。其中，处理器1101(或称中央处理器(Central Processing Unit，CPU))是图像处理设备的计算核心以及控制核心，其可以解析图像处理设备内的各类指令以及处理图像处理设备的各类数据，例如：CPU可以用于解析用户向图像处理设备所发送的开关机指令，并控制图像处理设备进行开关机操作；再如：
CPU可以在图像处理设备内部结构之间传输各类交互数据，等等。通信接口1102可选的可以包括标准的有线接口、无线接口(如WI‑FI、移动通信接口等)，受处理器1101的控制可以用于收发数据；通信接口1102还可以用于图像处理设备内部数据的传输以及交互。存储器
1103(Memory)是图像处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器1103既可以包括图像处理设备的内置存储器，当然也可以包括图像处理设备所支持的扩展存储器。存储器1103提供存储空间，该存储空间存储了图像处理设备的操作系统，可包括但不限于：Android系统、iOS系统、Windows Phone系统等等，本申请对此并不作限定。

[0256] 在本申请实施例中，处理器1101通过运行存储器1103中的可执行程序代码，执行如下操作：

[0257] 通过通信接口1102获取图像处理模型的训练样本集，图像处理模型包含第一生成网络和第二生成网络，第一生成网络和第二生成网络具备相同的特征提取结构；训练样本集包含第一样本集和第二样本集，第一样本集包括N个第一样本图像，每个第一样本图像均包含目标头像；第二样本集包括M个第二样本图像，每个第二样本图像包含一个样本头像，M、N均为正整数；

[0258] 从第一样本集中选取第一样本图像xi，调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像x′i；第一预测图像x′i包含目标头像，且第一预测图像x′i中的目标头像的属性与第一样本图像xi中的目标头像的属性保持一致，i为正整数且i≤N；

[0259] 从第二样本集中选取第二样本图像yk，调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k；其中，第二预测图像y′k包含目标头像，且第二预测图像y′k中的目标头像的属性与第二样本图像yk中的样本头像的属性保持一致，k为正整数且k≤M；

[0260] 调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k；第三预测图像y″k与第二样本图像yk包含相同的样本头像；

[0261] 根据第一样本图像xi与第一预测图像x′i之间的差异，第二样本图像yk与第二预测图像y′k之间的差异，以及第二样本图像yk与第三预测图像y″k之间的差异，更新图像处理模型的参数；

[0262] 令i＝i+1且k＝k+1，迭代上述训练流程直至图像处理模型达到收敛，其中，i+1≤N，k+1≤M。

[0263] 作为一种可选的实施方式，第一生成网络包括编码器和第一解码器；处理器1101调用第一生成网络对第一样本图像xi进行生成处理，得到第一预测图像x′i的具体实施方式为：

[0264] 调用编码器对第一样本图像xi进行编码处理，得到第一特征向量，第一特征向量蕴含第一样本图像xi中的目标头像的属性；

[0265] 调用第一解码器对第一特征向量进行解码处理，得到第一生成图像及第一生成图像的区域分割信息，区域分割信息用于指示第一生成图像中的头像区域；

[0266] 按照第一生成图像的区域分割信息，从第一生成图像中提取第一预测图像x′i。

[0267] 作为一种可选的实施方式，第一生成网络包括编码器和第一解码器；处理器1101调用第一生成网络对第二样本图像yk进行生成处理，得到第二预测图像y′k的具体实施方式为：

[0268] 调用编码器对第二样本图像yk进行编码处理，得到第二特征向量，第二特征向量蕴含第二样本图像yk中的样本头像的属性；

[0269] 调用第一解码器对第二特征向量进行解码处理，得到第二生成图像及第二生成图像的区域分割信息，区域分割信息用于指示第二生成图像中的头像区域；

[0270] 按照第二生成图像的区域分割信息，从第二生成图像中提取第二预测图像y′k。

[0271] 作为一种可选的实施方式，

[0272] 编码器包括P个特征提取网络和一个特征聚合层，P为正整数；每个特征提取网络包含一个下采样层；P个下采样层的尺度参数不同；

[0273] P个下采样层用于提取输入至编码器的样本图像在P个尺度下的特征信息；

[0274] 特征聚合层用于对P个尺度下的特征信息进行聚合处理，得到输入至编码器的样本图像对应的特征向量；

[0275] 其中，输入至编码器的样本图像是指第一样本图像xi或第二样本图像yk。

[0276] 作为一种可选的实施方式，第一解码器包含一个特征转换网络、Q个图像重建网络和一个卷积网络，Q为正整数；每个图像重建网络包含一个残差网络和一个上采样层；

[0277] 特征转换网络用于将输入至第一解码器的特征向量转换成特征图；

[0278] Q个图像重建网络用于对特征图进行特征恢复处理，得到融合特征图像；

[0279] 卷积网络用于对融合特征图像进行卷积处理，并输出输入至第一解码器的特征向量对应的生成图像；

[0280] 其中，输入至第一解码器的特征向量是指第一特征向量或第二特征向量；若输入至第一解码器的特征向量是第一特征向量，则输入至第一解码器的特征向量对应的生成图像为第一生成图像；若输入至第一解码器的特征向量是第二特征向量，则输入至第一解码器的特征向量对应的生成图像为第二生成图像。

[0281] 作为一种可选的实施方式，第二生成网络包括编码器，第二解码器和身份识别网络；处理器1101调用第二生成网络对第二样本图像yk进行生成处理，得到第三预测图像y″k的具体实施方式为：

[0282] 调用编码器对第二样本图像yk进行编码处理，得到第二特征向量，第二特征向量蕴含第二样本图像yk中的样本头像的属性；

[0283] 调用身份识别网络对第二特征向量进行识别，得到第二样本图像yk的标识信息；

[0284] 调用第二解码器根据第二样本图像yk的标识信息对第二特征向量进行解码处理，得到第三生成图像及第三生成图像的区域分割信息，区域分割信息用于指示第三生成图像中的头像区域；

[0285] 按照第三生成图像的区域分割信息，从第三生成图像中提取第三预测图像y″k，第三预测图像y″k与第二样本图像yk具备相同的标识信息。

[0286] 作为一种可选的实施方式，第二解码器包含一个特征转换网络、Q个图像重建网络和一个卷积网络，Q为正整数；每个图像重建网络包含一个残差网络、一个上采样层和一个自适应模块；

[0287] 自适应模块用于在第二解码器的解码过程中传输第二样本图像yk的标识信息。

[0288] 作为一种可选的实施方式，处理器1101根据第一样本图像xi与第一预测图像x′i之间的差异，第二样本图像yk与第二预测图像y′k之间的差异，以及第二样本图像yk与第三预测图像y″k之间的差异，更新图像处理模型的参数的具体实施方式为：

[0289] 根据第一样本图像xi与第一预测图像x′i之间的差异，构建第一损失函数；

[0290] 根据第二样本图像yk与第二预测图像y′k之间的差异，构建第二损失函数；

[0291] 根据第二样本图像yk与第三预测图像y″k之间的差异，构建第三损失函数；

[0292] 根据第一损失函数、第二损失函数和第三损失函数构建图像处理模型的目标损失函数；

[0293] 根据目标损失函数的损失值更新图像处理模型的参数；

[0294] 其中，当目标损失函数的损失值保持稳定时，或当目标损失函数的损失值小于损失阈值时，图像处理模型达到收敛。

[0295] 作为一种可选的实施方式，图像处理模型还包括第一判别器和预训练网络；处理器1101根据第一样本图像xi与第一预测图像x′i之间的差异，构建第一损失函数的具体实施方式为：

[0296] 通过第一判别器对第一样本图像xi及第一预测图像x′i分别进行判别处理；

[0297] 基于第一样本图像xi的判别结果和第一预测图像x′i的判别结果，构建第一损失函数的第一分支函数；

[0298] 通过预训练网络对第一样本图像xi及第一预测图像x′i进行特征比对，得到特征比对结果，特征比对结果用于反映第一样本图像xi及第一预测图像x′i之间的特征差异；

[0299] 基于特征比对结果构建第一损失函数的第二分支函数；

[0300] 将第一损失函数的第一分支函数与第一损失函数的第二分支函数之和，确定为第一损失函数。

[0301] 作为一种可选的实施方式，图像处理模型还包括第一判别器和属性识别网络；处理器1101根据第二样本图像yk与第二预测图像y′k之间的差异，构建第二损失函数的具体实施方式为：

[0302] 通过第一判别器对第二预测图像y′k行判别处理；

[0303] 基于第二预测图像y′k的判别结果，构建第二损失函数的第一分支函数；

[0304] 通过属性识别网络对第二样本图像yk及第二预测图像y′k进行属性比对，得到属性比对结果，属性比对结果用于反映第二样本图像yk及第二预测图像y′k之间的属性差异；

[0305] 基于属性比对结果构建第二损失函数的第二分支函数；

[0306] 将第二损失函数的第一分支函数与第二损失函数的第二分支函数之和，确定为第二损失函数。

[0307] 作为一种可选的实施方式，图像处理模型还包括第二判别器和预训练网络；处理器1101根据第二样本图像yk与第三预测图像y″k之间的差异，构建第三损失函数的具体实施方式为：

[0308] 通过第二判别器对第二样本图像yk及第三预测图像y″k分别进行判别处理；

[0309] 基于第二样本图像yk的判别结果和第三预测图像y″k的判别结果，构建第三损失函数的第一分支函数；

[0310] 通过预训练网络对第二样本图像yk及第三预测图像y″k进行特征比对，得到特征比对结果，特征比对结果用于反映第二样本图像yk及第三预测图像y″k之间的特征差异；

[0311] 基于特征比对结果构建第三损失函数的第二分支函数；

[0312] 将第三损失函数的第一分支函数与第三损失函数的第二分支函数之和，确定为第三损失函数。

[0313] 作为一种可选的实施方式，处理器1101通过运行存储器1103中的可执行程序代码，还执行如下操作：

[0314] 获取测试视频，测试视频包括R帧测试图像，每帧测试图像包括一个校正头像，R为正整数；

[0315] 调用收敛后的图像处理模型的第一生成网络分别对每帧测试图像进行生成处理，得到每帧测试图像对应的预测图像；其中，每帧预测图像包含目标头像，且每帧预测图像中的目标头像的属性与对应的测试图像中的校正头像的属性保持一致；

[0316] 对测试视频进行图像补全处理；

[0317] 将每帧预测图像分别与图像补全处理后的测试视频中相应的测试图像进行融合，得到目标视频。

[0318] 基于同一发明构思，本申请实施例中提供的图像处理设备解决问题的原理与有益效果与本申请方法实施例中图像处理方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

[0319] 本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行上述方法实施例的图像处理方法。

[0320] 本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像处理的方法。

[0321] 需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

[0322] 本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

[0323] 本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

[0324] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，可读存储介质可以包括：闪存盘、只读存储器(Read‑Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

[0325] 以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于申请所涵盖的范围。

一种图像处理方法、装置、设备及计算机可读存储介质转让专利

申请号 : CN202110620382.8

文献号 : CN113822790B

文献日 : 2023-04-21

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 朱飞达 , 邰颖 , 汪铖杰 , 李季檩

申请人 : 腾讯云计算(北京)有限责任公司

摘要 :

权利要求 :

说明书 :