一种基于近端策略优化的图像美化方法及装置转让专利

申请号 : CN202310727603.0

文献号 : CN116957917B

文献日 : 2024-03-15

本发明公开了一种基于近端策略优化的图像美化方法及装置，方法包括：构建CLIP模型的文本和图像编码模块，将全量渲染图输入图像编码模块，确定初始数据集；构建初始深度强化学习网络，将初始数据集输入初始深度强化学习网络，结合近端策略优化完成初始深度强化学习网络的训练，得到目标深度强化学习网络，将待美化图像通过目标深度强化学习网络，得到美化后的图像；本发明通过构建CLIP模型的文本和图像编码模块，在深度强化学习网络的训练过程中可以提高训练效率，还通过构建深度强化学习网络，多种算法对图像进行美化，解决了传统的数字图像处理方法只能处理单一图像缺陷的问题，提高了方法的泛化性，可广泛应用于图像处理技术领域。

1.一种基于近端策略优化的图像美化方法，其特征在于，包括：

构建CLIP模型的文本编码模块和图像编码模块；

通过将图像评价文本输入所述文本编码模块得到文本特征向量，所述文本特征向量包括第一质量文本特征向量、第二质量文本特征向量、第一场景文本特征向量和第二场景文本特征向量；

通过所述图像编码模块提取全量渲染图的渲染图像特征，基于所述渲染图像特征与所述文本特征向量计算所述全量渲染图的场景复杂度，将所述场景复杂度与预设的第一阈值进行对比，将所述场景复杂度大于所述第一阈值的渲染图确定为初始数据集；

构建初始深度强化学习网络；

将所述初始数据集输入所述初始深度强化学习网络，通过近端策略优化完成所述初始深度强化学习网络的训练，得到目标深度强化学习网络；

将待美化图像输入所述图像编码模块，得到待美化特征向量，将所述待美化特征向量输入所述目标深度强化学习网络进行图像美化，得到美化后的图像；

所述通过所述图像编码模块提取全量渲染图的渲染图像特征，基于所述渲染图像特征与所述文本特征向量计算所述全量渲染图的场景复杂度，包括：获取全量渲染图，将所述全量渲染图进行预处理后输入所述图像编码模块，提取所述全量渲染图的渲染图像特征；将所述渲染图像特征与所述第一场景文本特征向量、所述第二场景文本特征向量，通过向量点乘计算得到第一场景相似度和第二场景相似度；将所述第一场景相似度和所述第二场景相似度通过激活处理，计算得到场景复杂度；

所述构建初始深度强化学习网络，包括：

根据图像处理选择动作模块、图像处理参数动作模块和评估价值函数模块构建初始深度强化学习网络；

所述将所述初始数据集输入所述初始深度强化学习网络，通过近端策略优化完成所述初始深度强化学习网络的训练，得到目标深度强化学习网络，包括：将所述初始数据集通过所述图像编码模块，获得第一图像特征；将所述第一图像特征与第一质量文本特征向量、第二质量文本特征向量进行计算，得到第一相似度得分和第二相似度得分；将所述第一相似度得分和所述第二相似度得分进行激活处理，得到第一质量得分；将所述第一图像特征输入所述图像处理选择动作模块，得到选择动作概率；将所述第一图像特征输入所述图像处理参数动作模块，得到参数动作均值；将所述第一图像特征输入所述评估价值函数模块，得到价值评估分数；将所述全量渲染图通过所述图像编码模块，获得第二图像特征；将所述第二图像特征与第一质量文本特征向量、第二质量文本特征向量进行计算，得到第三相似度得分和第四相似度得分；将所述第三相似度得分和所述第四相似度得分进行激活处理，得到第二质量得分；将所述第一质量得分与所述第二质量得分作差得到奖赏得分；基于所述选择动作概率、所述参数动作均值、所述价值评估分数和所述奖赏得分完成所述初始深度强化学习网络的训练。

2.根据权利要求1所述的一种基于近端策略优化的图像美化方法，其特征在于，所述通过将图像评价文本输入所述文本编码模块得到文本特征向量，包括：将第一质量图像文本输入所述文本编码模块，得到第一质量文本特征向量，其中所述第一质量图像文本为高质量图像文本；

将第二质量图像文本输入所述文本编码模块，得到第二质量文本特征向量，其中所述第二质量图像文本为低质量图像文本；

将第一场景文本输入所述文本编码模块，得到第一场景文本特征向量，其中所述第一场景文本为复杂场景文本；

将第二场景文本输入所述文本编码模块，得到第二场景文本特征向量，其中所述第二场景文本为简单场景文本。

3.根据权利要求1所述的一种基于近端策略优化的图像美化方法，其特征在于，所述构建初始深度强化学习网络，包括：构建离散的图像处理选择动作模块，所述图像处理选择动作模块包括三个感知层，感知层之间通过TANH激活，输出采用SIGMOID激活；

构建连续的图像处理参数动作模块，所述图像处理参数动作模块包括三个感知层，感知层之间通过TANH激活，输出采用TANH激活；

构建评估价值函数模块，所述评估价值函数模块包括三个感知层，感知层之间通过TANH激活。

4.根据权利要求1所述的一种基于近端策略优化的图像美化方法，其特征在于，所述方法还包括：构建图像处理算法库和图像处理LUT包；

在将待美化图像通过所述目标深度强化学习网络时，调用所述图像处理算法库和所述图像处理LUT包对所述初始数据集进行处理，得到美化后的图像。

5.根据权利要求4所述的一种基于近端策略优化的图像美化方法，其特征在于，所述构建图像处理算法库和图像处理LUT包，包括：构建图像处理算法库，所述图像处理算法库包括曝光矫正算法、Gamma矫正算法、白平衡算法、色彩矫正算法、亮度对比矫正算法、饱和度增强算法；

通过LUT增强函数构建图像处理LUT包，所述LUT增强函数的计算公式为：

f(x,p；LUT)＝(1‑p)*x+p*LUT(x)

其中，f(x,p；LUT)为LUT增强度，x为图像输入的像素值，y为图像输出的像素值，LUT为滤镜对应的3DLUT矩阵，p为图像处理强度参数。

6.一种基于近端策略优化的图像美化装置，其特征在于，包括：

第一模块，用于构建CLIP模型的文本编码模块和图像编码模块；

第二模块，用于通过将文本输入所述文本编码模块得到文本特征向量，所述文本特征向量包括第一质量文本特征向量、第二质量文本特征向量、第一场景文本特征向量和第二场景文本特征向量；

第三模块，用于通过所述图像编码模块提取渲染图的渲染图像特征，基于所述渲染图像特征与所述文本特征向量计算所述渲染图的场景复杂度，将所述场景复杂度与预设的第一阈值进行对比，将所述场景复杂度大于所述第一阈值的渲染图确定为初始数据集；

第四模块，用于构建初始深度强化学习网络；

第五模块，用于将所述初始数据集输入所述初始深度强化学习网络，通过近端策略优化完成所述初始深度强化学习网络的训练，得到目标深度强化学习网络；

第六模块，用于将待美化图像输入所述图像编码模块，得到待美化特征向量，将所述待美化特征向量输入所述目标深度强化学习网络进行图像美化，得到美化后的图像；

第七模块，用于构建图像处理算法库和图像处理LUT包；在将待美化图像通过所述目标深度强化学习网络时，调用所述图像处理算法库和所述图像处理LUT包对所述初始数据集进行处理，得到美化后的图像；

所述第三模块，具体用于获取全量渲染图，将所述全量渲染图进行预处理后输入所述图像编码模块，提取所述全量渲染图的渲染图像特征；将所述渲染图像特征与所述第一场景文本特征向量、所述第二场景文本特征向量，通过向量点乘计算得到第一场景相似度和第二场景相似度；将所述第一场景相似度和所述第二场景相似度通过激活处理，计算得到场景复杂度；

所述第四模块，具体用于根据图像处理选择动作模块、图像处理参数动作模块和评估价值函数模块构建初始深度强化学习网络；

所述第五模块，具体用于将所述初始数据集通过所述图像编码模块，获得第一图像特征；将所述第一图像特征与第一质量文本特征向量、第二质量文本特征向量进行计算，得到第一相似度得分和第二相似度得分；将所述第一相似度得分和所述第二相似度得分进行激活处理，得到第一质量得分；将所述第一图像特征输入所述图像处理选择动作模块，得到选择动作概率；将所述第一图像特征输入所述图像处理参数动作模块，得到参数动作均值；将所述第一图像特征输入所述评估价值函数模块，得到价值评估分数；将所述全量渲染图通过所述图像编码模块，获得第二图像特征；将所述第二图像特征与第一质量文本特征向量、第二质量文本特征向量进行计算，得到第三相似度得分和第四相似度得分；将所述第三相似度得分和所述第四相似度得分进行激活处理，得到第二质量得分；将所述第一质量得分与所述第二质量得分作差得到奖赏得分；基于所述选择动作概率、所述参数动作均值、所述价值评估分数和所述奖赏得分完成所述初始深度强化学习网络的训练。

7.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至5中任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至5中任一项所述的方法。

一种基于近端策略优化的图像美化方法及装置

技术领域

[0001] 本发明涉及图像处理技术领域，尤其是一种基于近端策略优化的图像美化方法及装置。

背景技术

[0002] 图像美化技术是一种将低质量图像(Low)增强为高质量图像(High Resolution，HR)的图像编辑技术，在社会的各个行业存在着广泛的应用，如：人像美化，手机图像美化，旧照修复等。

[0003] 主流的图像美化方法主要基于三类。第一类是基于传统数字图像处理的方法，如ISP中的曝光调整、黑电平方法、白平衡方法、色彩矫正等；还有类似于基于图像直方图的CLAHE方法等。传统数字图像处理方法在针对性地处理某些特定类型的图像缺陷时有比较出色的效果，但缺乏泛化性，每次处理都需要专业人士进行超参数的调整。

[0004] 第二类是基于LUT的方法，这类方法在摄影、影视等领域被大规模应用，通过自身积累的LUTs模板可以获得一个出色的图像处理效果，但同样缺乏泛化性，每张图片能采用的LUT各不相同。

[0005] 第三类是基于深度学习的方法，通过收集类似于FIVE5K这样的图像美化数据集，结合有监督训练方法，获得一种较为具有泛化性的图像美化方法，但这类方法往往都需要有pair数据集；还有一些利用GAN技术，不需要pair数据也可以完成，但这类方法往往难以训练，虽然具备一定的泛化性能，但由于主流的数据集往往从摄影、影视等领域获取，导致相关的模型偏向于这类数据的拟合，这与室内家居渲染领域有比较大的差异，并不能有效地在家居渲染领域有很好的具备泛化性的效果。

[0006] 现有技术主要存在以下问题：

[0007] 1、传统的数字图像处理方法只能处理单一图像缺陷，且缺乏泛化性；

[0008] 2、基于LUT的方法同样缺乏泛化性；

[0009] 3、基于深度学习的方法需要GAN提供图像状态奖励，引入GAN和ActorCritic模型的话，导致难以训练，同时耗费更多的计算资源。

发明内容

[0010] 有鉴于此，本发明实施例提供一种效率高且泛化性强的基于近端策略优化的图像美化方法。

[0011] 一方面，本发明实施例提供了一种基于近端策略优化的图像美化方法，包括：

[0012] 构建CLIP模型的文本编码模块和图像编码模块；

[0013] 通过将图像评价文本输入所述文本编码模块得到文本特征向量；

[0014] 通过所述图像编码模块提取全量渲染图的渲染图像特征，基于所述渲染图像特征与所述文本特征向量计算所述全量渲染图的场景复杂度，将所述场景复杂度与预设的第一阈值进行对比，将所述场景复杂度大于所述第一阈值的渲染图确定为初始数据集；

[0015] 构建初始深度强化学习网络；

[0016] 将所述初始数据集输入所述初始深度强化学习网络，通过近端策略优化完成所述初始深度强化学习网络的训练，得到目标深度强化学习网络；

[0017] 将待美化图像输入所述图像编码模块，得到待美化特征向量，将所述待美化特征向量输入所述目标深度强化学习网络进行图像美化，得到美化后的图像。

[0018] 可选地，所述通过将图像评价文本输入所述文本编码模块得到文本特征向量，包括：

[0019] 将第一质量图像文本输入所述文本编码模块，得到第一质量文本特征向量，其中所述第一质量图像文本为高质量图像文本；

[0020] 将第二质量图像文本输入所述文本编码模块，得到第二质量文本特征向量，其中所述第二质量图像文本为低质量图像文本；

[0021] 将第一场景文本输入所述文本编码模块，得到第一场景文本特征向量，其中所述第一场景文本为复杂场景文本；

[0022] 将第二场景文本输入所述文本编码模块，得到第二场景文本特征向量，其中所述第二场景文本为简单场景文本。

[0023] 可选地，所述通过所述图像编码模块提取全量渲染图的渲染图像特征，基于所述渲染图像特征与所述文本特征向量计算所述全量渲染图的场景复杂度，将所述场景复杂度与预设的第一阈值进行对比，将所述场景复杂度大于所述第一阈值的渲染图确定为初始数据集，包括：

[0024] 获取全量渲染图，将所述全量渲染图进行预处理后输入所述图像编码模块，提取所述全量渲染图的渲染图像特征；

[0025] 将所述渲染图像特征与所述第一场景文本特征向量、所述第二场景文本特征向量，通过向量点乘计算得到第一场景相似度和第二场景相似度；

[0026] 将所述第一场景相似度和所述第二场景相似度通过激活处理，计算得到场景复杂度；

[0027] 将所述场景复杂度与预设的第一阈值进行对比，将所述场景复杂度大于所述第一阈值的渲染图确定为初始数据集。

[0028] 可选地，所述构建初始深度强化学习网络，包括：

[0029] 构建离散的图像处理选择动作模块，所述图像处理选择动作模块包括三个感知层，感知层之间通过TANH激活，输出采用SIGMOID激活；

[0030] 构建连续的图像处理参数动作模块，所述图像处理参数动作模块包括三个感知层，感知层之间通过TANH激活，输出采用TANH激活；

[0031] 构建评估价值函数模块，所述评估价值函数模块包括三个感知层，感知层之间通过TANH激活；

[0032] 根据所述图像处理选择动作模块、所述图像处理参数动作模块和所述评估价值函数模块构建初始深度强化学习网络。

[0033] 可选地，所述将所述初始数据集输入所述初始深度强化学习网络，通过近端策略优化完成所述初始深度强化学习网络的训练，得到目标深度强化学习网络，包括：

[0034] 将所述初始数据集通过所述图像编码模块，获得第一图像特征；

[0035] 将所述第一图像特征与第一质量文本特征向量、第二质量文本特征向量进行计算，得到第一相似度得分和第二相似度得分；

[0036] 将所述第一相似度得分和所述第二相似度得分进行激活处理，得到第一质量得分；

[0037] 将所述第一图像特征输入所述图像处理选择动作模块，得到选择动作概率；

[0038] 将所述第一图像特征输入所述图像处理参数动作模块，得到参数动作均值；

[0039] 将所述第一图像特征输入所述评估价值函数模块，得到价值评估分数；

[0040] 将所述全量渲染图通过所述图像编码模块，获得第二图像特征；

[0041] 将所述第二图像特征与第一质量文本特征向量、第二质量文本特征向量进行计算，得到第三相似度得分和第四相似度得分；

[0042] 将所述第三相似度得分和所述第四相似度得分进行激活处理，得到第二质量得分；

[0043] 将所述第一质量得分与所述第二质量得分作差得到奖赏得分；

[0044] 基于所述选择动作概率、所述参数动作均值、所述价值评估分数和所述奖赏得分完成所述初始深度强化学习网络的训练，

[0045] 可选地，所述方法还包括：构建图像处理算法库和图像处理LUT包；在将待美化图像通过所述目标深度强化学习网络时，调用所述图像处理算法库和所述图像处理LUT包对所述初始数据集进行处理，得到美化后的图像。

[0046] 可选地，所述构建图像处理算法库和图像处理LUT包，包括：

[0047] 构建图像处理算法库，所述图像处理算法库包括曝光矫正算法、Gamma矫正算法、白平衡算法、色彩矫正算法、亮度对比矫正算法、饱和度增强算法；

[0048] 通过LUT增强函数构建图像处理LUT包，所述LUT增强函数的计算公式为：

[0049] f(x,p；LUT)＝(1‑p)*x+p*LUT(x)

[0050] 其中，f(x,p；LUT)为LUT增强度，x为图像输入的像素值，y为图像输出的像素值，LUT为滤镜对应的3DLUT矩阵，p为图像处理强度参数。

[0051] 另一方面，本发明实施例还提供了一种基于近端策略优化的图像美化装置，包括：

[0052] 第一模块，用于构建CLIP模型的文本编码模块和图像编码模块；

[0053] 第二模块，用于通过将文本输入所述文本编码模块得到文本特征向量；

[0054] 第三模块，用于通过所述图像编码模块提取渲染图的渲染图像特征，基于所述渲染图像特征与所述文本特征向量计算所述渲染图的场景复杂度，将所述场景复杂度与预设的第一阈值进行对比，将所述场景复杂度大于所述第一阈值的渲染图确定为初始数据集；

[0055] 第四模块，用于构建初始深度强化学习网络；

[0056] 第五模块，用于将所述初始数据集输入所述初始深度强化学习网络，通过近端策略优化完成所述初始深度强化学习网络的训练，得到目标深度强化学习网络；

[0057] 第六模块，用于将待美化图像输入所述图像编码模块，得到待美化特征向量，将所述待美化特征向量输入所述目标深度强化学习网络进行图像美化，得到美化后的图像；

[0058] 第七模块，用于构建图像处理算法库和图像处理LUT包；在将待美化图像通过所述目标深度强化学习网络时，调用所述图像处理算法库和所述图像处理LUT包对所述初始数据集进行处理，得到美化后的图像。

[0059] 另一方面，本发明实施例还提供了一种电子设备，包括处理器以及存储器；所述存储器用于存储程序；所述处理器执行所述程序实现如前述一种基于近端策略优化的图像美化方法。

[0060] 另一方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前述一种基于近端策略优化的图像美化方法。

[0061] 本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

[0062] 本发明的实施例至少包括以下有益成果：本发明实施例通过构建CLIP模型的文本编码模块和图像编码模块，在深度强化学习网络的训练过程中可以提高训练效率；本发明实施例通过构建深度强化学习网络，其中多种算法对图像进行美化处理，解决了传统的数字图像处理方法只能处理单一图像缺陷的问题，提高了美化方法的泛化性。

附图说明

[0063] 为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0064] 图1为本发明实施例提供的一种基于近端策略优化的图像美化方法的流程图；

[0065] 图2为目标深度强化学习网络调用图像处理算法库和图像处理LUT包对待美化图像进行处理的流程图；

[0066] 图3为本发明实施例提供的一种基于近端策略优化的图像美化装置的示意图；

[0067] 图4为本发明实施例提供的对初始深度强化学习网络进行训练的流程图。

具体实施方式

[0068] 为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

[0069] 一方面，本发明实施例公开了一种基于近端策略优化的图像美化方法，包括但不限于步骤S100‑S600：

[0070] S100：构建CLIP模型的文本编码模块和图像编码模块。

[0071] 可选地，构建CLIP模型的文本编码模块和图像编码模块，CLIP模型是一种深度学习模型，可以同时处理文本和图像的预训练模型，能够通过自监督学习的方式从未标注的图像和文本数据中进行预训练，使得模型能够理解图像和文本之间的语义联系；CLIP模型的一个重要应用是图像分类，它可以将输入的图像和文本信息进行匹配，从而识别图像的内容。此外，CLIP模型还可以用于图像生成、图像检索、视觉问答等任务。

[0072] S200：通过将图像评价文本输入所述文本编码模块得到文本特征向量。

[0073] 可选地，通过将图像评价文本输入所述文本编码模块得到文本特征向量，在得到文本特征向量后将文本编码模块删除，清除其占用的内存显存资源，最后将图像编码模块冻结，其中，所述图像评价文本包括第一质量图像文本、第二质量图像文本、第一场景文本和第二场景文本。步骤S200包括但不限于步骤S210‑S240：

[0074] S210：将第一质量图像文本输入所述文本编码模块，得到第一质量文本特征向量，其中所述第一质量图像文本为高质量图像文本。

[0075] 可选地，第一质量图像文本即“高质量图像”文本，将“高质量图像”输入到中文CLIP模型的文本编码模块，得到“高质量图像”的第一质量文本特征向量。

[0076] S220：将第二质量图像文本输入所述文本编码模块，得到第二质量文本特征向量，其中所述第二质量图像文本为低质量图像文本。

[0077] 可选地，第二质量图像文本即“低质量图像”文本，将“低质量图像”输入到中文CLIP模型的文本编码模块，得到“低质量图像”的第二质量文本特征向量。

[0078] S230：将第一场景文本输入所述文本编码模块，得到第一场景文本特征向量，其中所述第一场景文本为复杂场景文本。

[0079] 可选地，第一场景文本即“场景复杂”文本，将“场景复杂”输入到中文CLIP模型的文本编码模块，得到“场景复杂”的第一场景文本特征向量E场景复杂。

[0080] S240：将第二场景文本输入所述文本编码模块，得到第二场景文本特征向量，其中所述第二场景文本为简单场景文本。

[0081] 可选地，第二场景文本即“场景简单”文本，将“场景简单”输入到中文CLIP模型的文本编码模块，得到“场景简单”的第二场景文本特征向量E场景简单。

[0082] S300：通过所述图像编码模块提取全量渲染图的渲染图像特征，基于所述全量渲染图像特征与所述文本特征向量计算所述全量渲染图的场景复杂度，将所述场景复杂度与预设的第一阈值进行对比，将所述场景复杂度大于所述第一阈值的渲染图确定为初始数据集。

[0083] 可选地，步骤S300包括但不限于S310‑S340：

[0084] S310：获取全量渲染图，将所述全量渲染图进行预处理后输入所述图像编码模块，提取所述全量渲染图的渲染图像特征。

[0085] 可选地，收集历史渲染图数据，定义为全量渲染图，然后将所述全量渲染图进行预处理，预处理包括首先遍历全量渲染图，然后统一插值长边是1024像素，短边满足等比例缩放的图像，将预处理后的全量渲染图输入图像编码模块，提取渲染图像特征，记为Eimage。

[0086] S320：将所述渲染图像特征与所述第一场景文本特征向量、所述第二场景文本特征向量，通过向量点乘计算得到第一场景相似度和第二场景相似度。

[0087] 可选地，将所述渲染图像特征与所述第一场景文本特征向量、所述第二场景文本特征向量，通过向量点乘计算得到第一场景相似度和第二场景相似度，计算第一场景相似度和第二场景相似度的计算公式为：

[0088] L场景复杂＝Eimage·E场景复杂

[0089] L场景简单＝Eimage·E场景简单

[0090] 其中，L场景复杂为第一场景相似度，L场景简单为第二场景相似度，Eimage为渲染图像特征，E场景复杂为第一场景文本特征向量，E场景简单为第二场景文本特征向量，“.”为点乘运算。

[0091] S330：将所述第一场景相似度和所述第二场景相似度通过激活处理，计算得到场景复杂度。

[0092] 可选地，将所述第一场景相似度和所述第二场景相似度通过Softmax激活处理，取第一场景相似度对应的得分作为场景复杂度S场景复杂，激活处理的表达式为：

[0093] [S场景复杂,S场景简单]＝Softmax([L场景复杂,L场景简单])

[0094] 其中，S场景复杂为第一场景相似度对应的得分，S场景简单为第二场景相似度对应的得分，L场景复杂为第一场景相似度，L场景简单为第二场景相似度，Softmax()为激活函数。

[0095] S340：将所述场景复杂度与预设的第一阈值进行对比，将所述场景复杂度大于所述第一阈值的渲染图确定为初始数据集。

[0096] 可选地，本发明的一个实施例取预设的第一阈值为0.6，保留全量渲染图中场景复杂度大于预设的第一阈值的渲染图作为初始数据集。

[0097] S400：构建初始深度强化学习网络。

[0098] 可选地，步骤S400包括但不限于S410‑S440：

[0099] S410：构建离散的图像处理选择动作模块，所述图像处理选择动作模块包括三个感知层，感知层之间通过TANH激活，输出采用SIGMOID激活。

[0100] 可选地，离散的图像处理选择动作模块包括三个感知层，感知层之间通过TANH激活，输出采用SIGMOID激活，三个感知层包括第一感知层、第二感知层和第三感知层；第一感知层输入的向量维度为1024，输出的维度为64；第二感知层输入的向量维度为64，输出的维度为64；第三感知层输入的向量维度为64，输出的维度为A+1，其中A为可选用的图像处理动作的数量，额外增加的1维代表“停止”动作。

[0101] S420：构建连续的图像处理参数动作模块，所述图像处理参数动作模块包括三个感知层，感知层之间通过TANH激活，输出采用TANH激活。

[0102] 可选地，图像处理参数动作模块包括三个感知层，感知层之间通过TANH激活，输出采用TANH激活。三个感知层包括第四感知层、第五感知层和第六感知层；第四感知层输入的向量维度为1024，输出的维度为64；第五感知层输入的向量维度为64，输出的维度为64；第六感知层输入的向量维度为64，输出的维度为A，其中A为可选用的图像处理动作的数量。

[0103] S430：构建评估价值函数模块，所述评估价值函数模块包括三个感知层，感知层之间通过TANH激活。

[0104] 可选地，评估价值函数模块包括三个感知层，感知层之间通过TANH激活，输出不选取激活函数；三个感知层包括第七感知层、第八感知层和第九感知层，第七感知层输入的向量维度为1024，输出的维度为64；第八感知层输入的向量维度为64，输出的维度为64；第九感知层输入的向量维度为64，输出的维度为1，其中最终输出的1维代表所估计的当前图像的状态价值。

[0105] S440：根据所述图像处理选择动作模块、所述图像处理参数动作模块和所述评估价值函数模块构建初始深度强化学习网络。

[0106] 可选地，根据所述图像处理选择动作模块、所述图像处理参数动作模块和所述评估价值函数模块构建初始深度强化学习网络。

[0107] S500：将所述初始数据集输入所述初始深度强化学习网络，通过近端策略优化完成所述初始深度强化学习网络的训练，得到目标深度强化学习网络。

[0108] 可选地，在通过近端策略优化完成所述初始深度强化学习网络的训练的同时，会调用处理算法库和图像处理LUT包对初始数据集进行美化处理，步骤S500包括但不限于S510‑S590：

[0109] S510：将所述初始数据集通过所述图像编码模块，获得第一图像特征；将所述第一图像特征与第一质量文本特征向量、第二质量文本特征向量进行计算，得到第一相似度得分和第二相似度得分。

[0110] 可选地，定义图像数据集的数量为N，定义初始深度强化学习网络中的连续动作方2
差为σ，将初始数据集输入S200冻结的图像编码模块，获得第一图像特征；将所述第一图像特征与第一质量文本特征向量、第二质量文本特征向量进行求解相似度得分计算，得到第一相似度得分和第一相似度得分。

[0111] S520：将所述第一相似度得分和所述第二相似度得分进行激活处理，得到第一质量得分。

[0112] 可选地，将所述第一相似度得分和所述第二相似度得分进行Softmax激活处理，取第一相似度对应得分作为第一质量得分。

[0113] S530：将所述第一图像特征输入所述图像处理选择动作模块，得到选择动作概率。

[0114] 可选地，将所述第一图像特征输入所述图像处理选择动作模块，得到选择动作概率，得到选择动作概率A选择的公式为：

[0115] A选择＝[P动作1,P动作2,…,P动作n]

[0116] 其中，P动作1,P动作2,…,P动作n分别为输出的每个动作的选择概率。

[0117] S540：将所述第一图像特征输入所述图像处理参数动作模块，得到参数动作均值。

[0118] 可选地，将所述第一图像特征输入所述图像处理参数动作模块，得到参数动作均值A参数。

[0119] S550：将所述第一图像特征输入所述评估价值函数模块，得到价值评估分数。

[0120] 可选地，将所述第一图像特征输入所述评估价值函数模块，得到价值评估分数。

[0121] S560：将所述全量渲染图通过所述图像编码模块，获得第二图像特征；将所述第二图像特征与第一质量文本特征向量、第二质量文本特征向量进行计算，得到第三相似度得分和第四相似度得分。

[0122] 可选地，将全量数据集输入S200冻结的图像编码模块，获得第二图像特征；将所述第二图像特征与第一质量文本特征向量、第二质量文本特征向量进行求解相似度得分计算，得到第三相似度得分和第四相似度得分。

[0123] S570：将所述第三相似度得分和所述第四相似度得分进行激活处理，得到第二质量得分。

[0124] 可选地，将所述第三相似度得分和所述第四相似度得分进行Softmax激活处理，取第三相似度对应得分作为第二质量得分。

[0125] S580：将所述第一质量得分与所述第二质量得分作差得到奖赏得分。

[0126] 可选地，将所述第一质量得分减去所述第二质量的结果作为奖赏得分。

[0127] S590：基于所述选择动作概率、所述参数动作均值、所述价值评估分数和所述奖赏得分完成所述初始深度强化学习网络的训练。

[0128] 可选地，通过选择动作概率A选择采样得到选择动作；通过参数动作均值A参数和动作方差构建的正态分布采样得到参数动作，本发明一个实施例的动作方差设为0.1；将价值评估分数通过归一化处理，归一化处理的计算公式为：

[0129]

[0130] 其中，v为价值评估分数，μ(v)为价值评估分数的均值，σ(v)为价值评估分数的标准差。

[0131] 可选地，根据构建好的选择动作、参数动作、价值分数和奖赏得分，结合近端策略优化完成初始深度强化学习网络的训练。

[0132] S600：将待美化图像输入所述图像编码模块，得到待美化特征向量，将所述待美化特征向量输入所述目标深度强化学习网络进行图像美化，得到美化后的图像。

[0133] 可选地，将待美化图像输入所述图像编码模块，得到待美化特征向量，将所述待美化特征向量输入所述目标深度强化学习网络进行图像美化，得到美化后的图像。首先将待美化图像输入图像编码模块，获得待美化特征向量，然后将待美化特征向量输入目标深度强化学习网络，通过目标深度强化学习网络中的图像处理选择动作模块和图像处理参数动作模块，得到选择动作和参数动作；当选择动作不为“停止”时，结合对应的参数动作，通过图像处理算法库和图像处理LUT包对图像进行处理；当选择动作为“停止”时，则结束图像美化，得到美化后的图像。

[0134] 可选地，一种基于近端策略优化的图像美化方法还包括：构建图像处理算法库和图像处理LUT包；在将待美化图像通过所述目标深度强化学习网络时，调用所述图像处理算法库和所述图像处理LUT包对所述待美化图像进行处理，得到所述美化后的图像。具体包括步骤S710‑S720：

[0135] S710：构建图像处理算法库，所述图像处理算法库包括曝光矫正算法、Gamma矫正算法、白平衡算法、色彩矫正算法、亮度对比矫正算法、饱和度增强算法。

[0136] 可选地，统一定义输入的图像为x，输出的图像为y，每个处理算法都只需要一个输入参数作为图像处理强度参数，定义该输入参数为p。

[0137] 可选地，曝光矫正算法的计算公式为：

[0138] y＝x*exp(p*ln(2))

[0139] 其中，x为图像输入的像素值，y为图像输出的像素值，p为图像处理强度参数，p越大曝光矫正程度越强。

[0140] 可选地，Gamma矫正算法的计算公式为：

[0141] y＝max(x,0.001)*p

[0142] 其中，x为图像输入的像素值，y为图像输出的像素值，p为图像处理强度参数，p越大Gamma矫正程度越强，而max(x,0.001)为取图像像素和0.001之间的最大值者。

[0143] 可选地，色彩矫正算法的计算公式为：

[0144] yR＝(1‑p)*xR+p*c1*xT

[0145] yB＝(1‑p)*xB+p*c2*xT

[0146] yG＝(1‑p)*xG+p*c3*xT

[0147] 其中，xR、xG、xB分别是输入图像的RGB空间的具体像素值,而像素向量x＝[xR,xG,xB]，yR、yG、yB分别是输出图像的RGB空间的具体像素值，c1,c2,c3为预先定义好的参数，即：

[0148] c1＝[3.2410,‑1.5374,‑0.4986]

[0149] c2＝[‑0.9692,1.8760,0.0416]

[0150] c3＝[0.0556,‑0.2040,1.0570]

[0151] 其中，p为图像处理强度参数，p越大色彩矫正程度越强。

[0152] 可选地，亮度对比矫正算法的计算公式为：

[0153] L＝‑cos(max(xR,xG,xB)*π)*0.5+0.5

[0154] 其中，L为整体亮度，结合L通过下述公式完成亮度对比矫正：

[0155]

[0156] 其中，x为图像输入的像素值，y为图像输出的像素值，p为图像处理强度参数，p越大亮度对比矫正程度越强。

[0157] 可选地，所述饱和度增强算法的计算公式为：

[0158] ys＝xs+(1‑xs)*(0.5‑|0.5‑xv|)*0.8

[0159] 其中，先将图像的RGB输入转换成HSV输入，xs为输入图像HSV空间里的饱和度(S)部分，xv为输入图像HSV空间里的亮度(V)部分，ys为输出图像HSV空间里的饱和度部分。

[0160] S720：通过LUT增强函数构建图像处理LUT包，所述LUT增强函数的计算公式为：

[0161] f(x,p；LUT)＝(1‑p)*x+p*LUT(x)

[0162] 其中，f(x,p；LUT)为LUT增强度，x为图像输入的像素值，y为图像输出的像素值，LUT为滤镜对应的3DLUT矩阵，p为图像处理强度参数，p越大滤镜应用程度越强。

[0163] 下面以本发明的一个实施例说明本发明的应用：

[0164] 1、参照图4为对初始深度强化学习网络进行训练，得到目标深度强化学习网络的流程图。首先构建CLIP模型的文本编码模块和图像编码模块；通过将图像评价文本输入所述文本编码模块得到文本特征向量，得到“高质量图像”文本特征和“低质量图像”文本特征；通过所述图像编码模块提取全量渲染图的渲染图像特征，基于所述渲染图像特征与所述文本特征向量计算所述全量渲染图的场景复杂度，将所述场景复杂度与预设的第一阈值进行对比，将所述场景复杂度大于所述第一阈值的渲染图确定为初始数据集；将文本编码模块删除，清除其占用的内存显存资源，最后将图像编码模块冻结，将初始数据集用于训练初始深度强化学习网络，通过CLIP模型中的图像质量评价模块计算初始数据集的优化得分；

[0165] 2、然后构建初始深度强化学习网络，将初始数据集和文本特征输入初始深度强化学习网络，通过初始深度强化学习网络的离散动作模块(离散的图像处理选择动作模块)计算得到选择动作概率，连续动作模块(连续的图像处理参数动作模块)计算得到参数动作均值，价值函数模块(评估价值函数模块)计算得到价值评估分数，同时调用图像处理算法库和图像处理LUT包对初始数据集进行美化处理，通过价值评估分数和优化得分计算出图像损失；通过近端策略优化完成所述初始深度强化学习网络的训练，得到目标深度强化学习网络，将待美化图像输入所述图像编码模块，得到待美化特征向量，将所述待美化特征向量输入所述目标深度强化学习网络进行图像美化，得到美化后的图像；

[0166] 3、构建图像处理算法库和图像处理LUT包；在将待美化图像通过所述目标深度强化学习网络时，调用所述图像处理算法库和所述图像处理LUT包对所述待美化图像进行处理，得到美化后的图像；参照图2为调用所述图像处理算法库和所述图像处理LUT包对所述待美化图像进行处理的流程图，将待美化图像输入图像编码模块，得到待美化特征向量，再将待美化特征向量输入目标深度强化学习网络，网络中的图像处理选择动作模块和图像处理参数动作模块调用图像处理算法库和所述图像处理LUT包执行图像处理操作，最后得到美化后图像。

[0167] 综上所述，本发明实施例的一种基于近端策略优化的图像美化方法具有以下优点：

[0168] 1、本发明通过近端策略优化的强化学习，在深度强化学习网络上，可以同时处理离散的选择动作和连续的参数动作，提高了网络训练效率；

[0169] 2、本发明实施例通过借助CLIP模型提供的图像质量评价功能，得到奖赏得分，在深度强化学习网络的训练过程中，优化了每步的资源使用情况，极大提升了训练效率；

[0170] 3、本发明实施例构建的图像处理算法库和图像处理LUT包，可以对待美化图像进行曝光矫正、Gamma矫正、白平衡、色彩矫正、亮度对比矫正和饱和度增强等多方面的图像美化，提高了图像美化的泛化性。

[0171] 参照图3，本发明实施例还提供了一种基于近端策略优化的图像美化装置，包括：

[0172] 第一模块301，用于构建CLIP模型的文本编码模块和图像编码模块；

[0173] 第二模块302，用于通过所述文本编码模块得到文本特征向量；

[0174] 第三模块303，用于通过所述图像编码模块提取渲染图的渲染图像特征，基于所述渲染图像特征与所述文本特征向量计算所述渲染图的场景复杂度，将所述场景复杂度与预设的第一阈值进行对比，将所述场景复杂度大于所述第一阈值的渲染图确定为初始数据集；

[0175] 第四模块304，用于构建初始深度强化学习网络；

[0176] 第五模块305，用于将所述初始数据集输入所述初始深度强化学习网络，通过近端策略优化完成所述初始深度强化学习网络的训练，得到目标深度强化学习网络；

[0177] 第六模块306，用于将待美化图像输入所述图像编码模块，得到待美化特征向量，将所述待美化特征向量输入所述目标深度强化学习网络进行图像美化，得到美化后的图像；

[0178] 第七模块307，用于构建图像处理算法库和图像处理LUT包；在将待美化图像通过所述目标深度强化学习网络时，调用所述图像处理算法库和所述图像处理LUT包对所述初始数据集进行处理，得到美化后的图像。

[0179] 另一方面，本发明实施例还提供了一种电子设备，包括处理器以及存储器；所述存储器用于存储程序；所述处理器执行所述程序实现如前述一种基于近端策略优化的图像美化方法。

[0180] 另一方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前述一种基于近端策略优化的图像美化方法。

[0181] 本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

[0182] 在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

[0183] 此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

[0184] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read‑On ly Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

[0185] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

[0186] 计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

[0187] 应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

[0188] 在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

[0189] 尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

[0190] 以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

一种基于近端策略优化的图像美化方法及装置转让专利

申请号 : CN202310727603.0

文献号 : CN116957917B

文献日 : 2024-03-15

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 戴振军 , 王兵 , 柯建生 , 陈学斌

申请人 : 广州极点三维信息科技有限公司

摘要 :

权利要求 :

说明书 :