一种基于非模态布局补全的图像生成方法转让专利

申请号 : CN202211612018.8

文献号 : CN115661603B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴敬宇李泽健孙凌云

申请人 : 浙江大学

摘要 :

本发明公开了一种基于非模态布局补全的图像生成方法,包括对非模态布局图中的标框进行分类、组合、提取和缩放得到训练样本,将训练样本输入训练模型将待补全标框进行补全,训练模型包括类别隐空间模块,边界框隐空间模块和模态标框推导模块,通过损失函数训练的非模态补全模型,将非模态布局图输入非模态补全模型得到补全后的模态布局图,将模态布局图输入生成模型得到场景图像。该方法能够基于非模态布局图准确的生成场景图像。

权利要求 :

1.一种基于非模态布局补全的图像生成方法,其特征在于,包括:

构建训练样本集,获得真实场景图像,以及真实场景图像对应的非模态布局图和模态布局图;将非模态布局图中的具有重合区域或相交边的标框组合为第一非模态标框组,将具有相同标框的第一非模态标框组进行组合得到第二非模态标框组,将第二非模态标框组依次进行提取和放缩得到非模态标框组合图像,每个非模态标框组合图像作为训练样本,多个非模态标框组合图像构建训练样本集;

构建训练模型,包括类别隐空间模块,边界框隐空间模块和模态标框推导模块,将训练样本中的任一非模态标框作为待补全标框,将其他标框作为遮掩标框,通过类别隐空间模块中的label embedding将待补全标框和遮掩标框的物体类别转化为类别隐空间特征,将类别隐空间特征进行全连接得到类别隐空间特征向量;通过边界框隐空间模块对待补全标框和遮掩标框的边界框分别进行下采样得到待补全标框和遮掩标框的边界框隐空间特征向量;通过模态标框推导模块将所述边界框隐空间特征向量和所述类别隐空间特征向量进行结合得到预测模态标框隐空间特征向量,将预测模态标框隐空间特征向量进行上采样得到预测模态标框;

基于预测模态标框和模态布局图中的对应标框构建损失函数,基于训练样本集通过损失函数训练训练模型得到非模态布局补全模型,将非模态布局图输入至非模态布局补全模型得到预测模态布局图,将预测模态布局图输入至图像生成模型得到场景图像;

所述基于预测模态标框和模态布局图中的对应标框构建损失函数  为:

其中, 为超参数,N1为待补全标框中的模态标框的边界框数量,N2为待补全标框中的非模态标框的边界框数量,  为第o个遮掩标框的边界框,   为待补全标框中第s个非模态标框的边界框, 为待补全标框中第r个模态标框的边界框, 为待补全标框中第r个模态标框的类别, 为待补全标框中第s个非模态标框的类别, 为第o个遮掩标框的类别,  为训练模型, 为交叉损失函数,Mt为真实模态标框。

2.根据权利要求1所述的基于非模态布局补全的图像生成方法,其特征在于,所述非模态布局图中的标框用于标注物体的类别,以及可视范围的大小和位置;所述模态布局图中的标框用于标注物体的类别,可视范围和遮挡范围的大小,以及可视范围和遮掩范围的位置。

3.根据权利要求1所述的基于非模态布局补全的图像生成方法,其特征在于,所述将第二非模态标框组合依次进行提取和放缩得到非模态标框组合图像,包括:基于第二非模态标框组的高度、宽度和横纵坐标的极值采用极大值的方法对第二非模态标框组合的边界进行扩展,对扩展后的第二非模态标框组合进行提取得到第二非模态标框组合图像,将所述第二非模态标框组合图像放缩到给定分辨率得到非模态标框组合图像。

4.根据权利要求1所述的基于非模态布局补全的图像生成方法,其特征在于,所述类别隐空间模块包括label embedding层和全连接层,通过label embedding层将待补全标框和遮掩标框的物体类别转化为类别隐空间特征,通过全连接层将类别隐空间特征进行全连接得到类别隐空间特征向量。

5.根据权利要求1所述的基于非模态布局补全的图像生成方法,其特征在于,所述通过边界框隐空间模块对待补全标框和遮掩标框的边界框分别进行下采样得到待补全标框和遮掩标框的边界框隐空间特征向量,其中:所述边界框隐空间模块包括多个依次连接的下采样子模块,每个下采样子模块包括依次连接的下采样单元和最大池化层,每个下采样单元包括多个依次连接的下采样子单元,每个下采样子单元依次由卷积层、正则化层和激活层组成。

6.根据权利要求1所述的基于非模态布局补全的图像生成方法,其特征在于,所述模态标框推导模块包括多个全连接层和多个上采样子模块,其中,通过多个全连接层将所述边界框隐空间特征向量和所述类别隐空间特征向量进行结合得到预测模态标框隐空间特征向量,通过多个上采样子模块将预测模态标框隐空间特征向量进行上采样得到预测模态标框。

7.根据权利要求1所述的基于非模态布局补全的图像生成方法,其特征在于,基于IoU变体指标测量非模态布局补全模型的准确性,所述IoU变体指标包括第一IoU变体指标和第二IoU变体指标,其中: 第一IoU变体指标   为:

 第二IoU变体指标   为:

其中, 为非模态布局图中的第i个边界框,m表示该边界框为原始非模态布局图中的边界框,  为真实模块布局图中的第i个边界框,a表示该边界框为真实模块布局图中的边界框,原始非模态布局图的边界框与真实模态布局图的边界框一一对应,F(﹒)为非模态布局图补全模型,N为边界框的数量。

说明书 :

一种基于非模态布局补全的图像生成方法

技术领域

[0001] 本发明属于图像数据处理领域,具体涉及一种基于非模态布局补全的图像生成方法。

背景技术

[0002] 近年来,基于布局图(layout)的生成模型因为其可以更明确地表示出场景信息而受到极大的关注。布局图是图像生成过程中非常重要的概念,布局图信息包含场景中的物体类别和空间位置信息,是图像强有力的结构化表示。与其他场景先验信息相比,布局图最大的特点是可以描述复杂场景中各个物体的类别和空间位置。因此基于布局图先验的生成网络有望解决生成图像中精度较低和准确度较低的问题。
[0003] 中国专利CN114241052A公开了一种基于布局图的多物体场景新视角图像生成方法,包括将多个图像的布局图输入至布局图预测器,获得新视角下的布局图;输入多个图像,对图像中的每个对象实例进行采样,并将其与相机位姿矩阵沿通道方向连接构建输入张量,将构建的张量输入至像素预测器,获得新视角下的各个物体的图像;将新视角下的布局图和新视角下的各个物体的图像输入至场景生成器中,各个物体的图像依次经过编码器和融合器,得到一个包含所有物体信息的融合特征,通过解码器生成场景图像。该专利了通过场景的布局图信息指导网络生成场景图像,不依赖输入图像的深度图,生成的图像更加清晰真实,解决了现有生成图像中精度较低和准确度较低的问题。
[0004] 中国专利CN114241052A公开了一种基于单图像生成对抗网络的语义图像类比方法,由上述本发明提供的技术方案可以看出,能够在给定任意图像和其语义分割图的情况下训练出专属于给定图像的生成模型,该模型能够根据期望语义布局的不同对源图像进行重新组合,生成符合目标语义布局的图像,达到语义图像类比的效果。该方法所产生的结果视觉质量和符合准确性都达到了最优。
[0005] 但上述专利必须使用原始的图片以及对应的真实/预训练模型的实例分割图片,而在很多的应用场景中,比如用户绘出非模态布局图,需要仅仅通过非模态布局图就能够得到较为准确的场景图像,通过场景图像来判断布局图的思路是否准确,非模态布局图为对象间存在遮挡关系的布局图,而现有的非模态布局图中只标注了物体在图片中的可见部分,没有考虑遮掩部分,从而导致了场景标注信息的不完整,模型在训练的时候会默认每个布局所代表的是完整的物体,从而忽略了现实场景中存在的遮掩关系,这会导致模型对于复杂真实场景中物体之间的关系理解不准确,综上所述,现有技术中存在无法实现从非模态布局图直接、准确的获得场景图像的问题。

发明内容

[0006] 本发明提供了一种基于非模态布局补全的图像生成方法,该方法能够基于非模态布局图准确的生成场景图像。
[0007] 一种基于非模态布局补全的图像生成方法,包括:
[0008] 构建训练样本集,获得真实场景图像,以及真实场景图像对应的非模态布局图和模态布局图;将非模态布局图中的具有重合区域或相交边的标框组合为第一非模态标框组,将具有相同标框的第一非模态标框组进行组合得到第二非模态标框组,将第二非模态标框组依次进行提取和放缩得到非模态标框组合图像,每个非模态标框组合图像作为训练样本,多个非模态标框组合图像构建训练样本集;
[0009] 构建训练模型,包括类别隐空间模块,边界框隐空间模块和模态标框推导模块,将训练样本中的任一非模态标框作为待补全标框,将其他标框作为遮掩标框,通过类别隐空间模块中的label embedding将待补全标框和遮掩标框的物体类别转化为类别隐空间特征,将类别隐空间特征进行全连接得到类别隐空间特征向量;通过边界框隐空间模块对待补全标框和遮掩标框的边界框分别进行下采样得到待补全标框和遮掩标框的边界框隐空间特征向量;通过模态标框推导模块将所述边界框隐空间特征向量和所述类别隐空间特征向量进行结合得到预测模态标框隐空间特征向量,将预测模态标框隐空间特征向量进行上采样得到预测模态标框;
[0010] 基于预测模态标框和模态布局图中的对应标框构建损失函数,基于训练样本集通过损失函数训练训练模型得到非模态布局补全模型,将非模态布局图输入至非模态布局补全模型得到预测模态布局图,将预测模态布局图输入至图像生成模型得到场景图像。
[0011] 所述非模态布局图中的标框用于标注物体的类别,以及可视范围的大小和位置;
[0012] 所述模态布局图中的标框用于标注物体的类别,可视范围和遮挡范围的大小,以及可视范围和遮掩范围的位置。
[0013] 所述将第二非模态标框组合依次进行提取和放缩得到非模态标框组合图像,包括:
[0014] 基于第二非模态标框组的高度、宽度和横纵坐标的极值采用极大值的方法方法对第二非模态标框组合的边界进行扩展,对扩展后的第二非模态标框组合进行提取得到第二非模态标框组合图像,将所述第二非模态标框组合图像放缩到给定分辨率得到非模态标框组合图像。
[0015] 所述类别隐空间模块包括label embedding层和全连接层,通过label embedding层将待补全标框和遮掩标框的物体类别转化为类别隐空间特征,通过全连接层将类别隐空间特征进行全连接得到类别隐空间特征向量。
[0016] 所述通过边界框隐空间模块对待补全标框和遮掩标框的边界框分别进行下采样得到待补全标框和遮掩标框的边界框隐空间特征向量,其中:
[0017] 所述边界框隐空间模块包括多个依次连接的下采样子模块,每个下采样子模块包括依次连接的下采样单元和最大池化层,每个下采样单元包括多个依次连接的下采样子单元,每个下采样子单元依次由卷积层、正则化层和激活层组成。
[0018] 所述模态标框推导模块包括多个全连接层和多个上采样子模块,其中,通过多个全连接层将所述边界框隐空间特征向量和所述类别隐空间特征向量进行结合得到预测模态标框隐空间特征向量,通过多个上采样子模块将预测模态标框隐空间特征向量进行上采样得到预测模态标框。
[0019] 所述基于预测模态标框和模态布局图中的对应标框构建损失函数 为:
[0020]
[0021] 其中, 为超参数,N1为待补全标框中的模态标框的边界框数量,N2为待补全标框中的非模态标框的边界框数量,  为第o个遮掩标框的边界框,   为待补全标框中第s个非模态标框的边界框, 为待补全标框中第r个模态标框的边界框,  为待补全标框中第r个模态标框的类别, 为待补全标框中第s个非模态标框的类别, 为第o个遮掩标框的类别,  为训练模型, 为交叉损失函数,Mt为真实模态标框。
[0022] 基于IoU变体指标测量非模态布局补全模型的准确性,所述IoU变体指标包括第一IoU变体指标和第二IoU变体指标,其中:
[0023] 第一IoU变体指标   为:
[0024]
[0025] 第二IoU变体指标   为:
[0026]
[0027] 其中, 为非模态布局图中的第i个边界框,m表示该边界框为原始非模态布局图中的边界框,  为真实模块布局图中的第i个边界框,a表示该边界框为真实模块布局图中的边界框,原始非模态布局图的边界框与真实模态布局图的边界框一一对应,F(﹒)为非模态布局图补全模型,N为边界框的数量。
[0028] 与现有技术相比,本发明的有益效果为:
[0029] 本发明通过对非模态布局图中的每个非模态标框逐个进行补全得到预测模态布局图,基于预测模态布局图通过生成器准确的获得了场景图像。
[0030] 本发明通过在隐空间对非模态布局图中的待补全非模态标框和其他标框的类别和边界框的特征进行融合分别得到类别关系向量和边界框关系向量,对类别关系向量和边界框关系向量进行融合后上采样从而将待补全非模态标框进行补全获得较为准确的预测模态标框,基于预测模态标框能够在场景图中完整的呈现对应的对象,以及对应对象与其他对象在场景图中的位置关系。

附图说明

[0031] 图1为本发明实施例提供的基于非模态布局补全的图像生成方法流程图;
[0032] 图2为本发明实施例提供的获取训练样本集示意图;
[0033] 图3为本发明实施例提供的基于非模态布局补全的图像生成方法示意图;
[0034] 图4为本发明实施例提供的损失函数构建示意图;
[0035] 图5为本发明实施例提供的效果对比图。

具体实施方式

[0036] 为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
[0037] 本发明提供了一种基于非模态布局补全的图像生成方法,如图1所示,包括:
[0038] (1)基于真实图像和真实图像对应的模态布局图和非模态布局图得到训练样本集和标签。
[0039] 对真实图像进行标框标注得到非模态布局图和模态布局图,非模态布局图为标注该真实图像中对象的对象类别,以及可视范围的对象大小和位置;模态布局图为标注该真实图像中对象的对象类别,可视和遮掩范围的大小,以及可视和遮掩范围的位置,非模态布局图中的标框和模态布局图中的标框一一对应,本发明将该模态布局图中的标框作为标签,标框包括物体类别和边框(bbox),边框包括位置(左上角的坐标)和大小(高和宽)。
[0040] 如图2所示,首先,本发明提供了将非模态布局图中的标框进行分类和组合的方法,具体步骤为:具有重合区域两个标框组合成第一非模态标框组,然后再将非模态布局图中具有相交边的两个标框组合成第一非模态标框组;遍历第一非模态标框组,将具有相同标框的第一非模态标框组进行组合得到第二非模态标框组。
[0041] 然后,本发明提供了将获得第二非模态标框组进行提取和缩放的方法,具体步骤为:获得第二非模态标框组的最大高度值 、最大宽度值 和最小横纵坐标值 ,并基于上述极值对第二非模态标框组的边界框进行扩展得到留边后的第二非模态标框组边界框 ,对扩展后的第二非模态标框组合进行提取得到第二非模态标框组合图像,然后放缩到分辨率为256×256的图片。每个非模态标框组合图像作为训练样本,多个非模态标框组合图像构建训练样本集。
[0042] (2)构建训练模型,训练模型包括隐空间模块(branchcate),边界框隐空间模块(branchmodal)和模态标框推导模块(branchamodal),将训练样本中的任一非模态标框作为待补全标框,将其他标框作为遮掩标框,其中,如图3所示,branchcate用于根据给定的补全标框和遮掩标框的类别C,分析类别之间的相互关系后得到类别隐空间特征向量,branchmodal用于分析待补全标框和遮掩标框中的边界框之间的隐空间关系,并将该关系表达成边界框隐空间特征向量,branchamodal用于将上述得到的两个特征向量进行结合推导出可能的模态边界框隐空间特征向量,即预测模态边界框隐空间特征向量,然后通过一系列上采样和全连接推导出预测模态标框,将训练样本中的每个标框作为待补全标框,其他标框作为遮掩标框,通过上述步骤将待补全标框进行补全从而将训练样本补全完成。
[0043] 本发明提供的隐空间模块(branchcate)包括label embedding层和全连接层,通过label embedding层将待补全标框和遮掩标框的物体类别转化为类别隐空间特征,通过全连接层将类别隐空间特征进行全连接得到类别隐空间特征向量,该向量为512×1×1维度,从而获得待补全标框和遮掩标框的类别关系。
[0044] 本发明提供的边界框隐空间模块(branchmodal)包括5依次连接的下采样子模块,每个下采样子模块包括依次连接的下采样单元和最大池化层,每个下采样单元包括2个依次连接的下采样子单元,每个下采样子单元依次由卷积层、正则化层和激活层组成。最后得到维度为512×16×16的边界框隐空间特征向量。
[0045] 本发明提供的模态标框推导模块(branchamodal)包括2个全连接层和5个上采样子模块,其中,通过2个全连接层将边界框隐空间特征向量和类别隐空间特征向量进行结合得到维度为512×17×17的预测模态标框隐空间特征向量,通过5个上采样子模块将预测模态标框隐空间特征向量进行上采样得到预测模态标框。
[0046] (3)采用构建的损失函数基于训练样本集训练训练模型得到非模态布局补全模型(ALCN),如图4所示,通过预测模态标框和模态布局图中的对应标框构建损失函数 为:
[0047]
[0048] 其中, 为超参数,N1为待补全标框中的模态标框的边界框数量,N2为待补全标框中的非模态标框的边界框数量,  为第o个遮掩标框的边界框,   为待补全标框中第s个非模态标框的边界框, 为待补全标框中第r个模态标框的边界框,  为待补全标框中第r个模态标框的类别, 为待补全标框中第s个非模态标框的类别, 为第o个遮掩标框的类别,  为训练模型, 为交叉损失函数,Mt为真实模态标框。通过调控超参数,使得模型能够对待补全标框中的非模态标框进行补全,而减少对模态标框的补全。
[0049] 本发明基于训练样本集通过损失函数训练训练模型得到非模态布局补全模型,将非模态布局图输入至非模态布局补全模型得到预测模态布局图,将预测模态布局图输入至布局图到图像生成模型得到场景图像。
[0050] (4)本发明还提供了评价非模态布局补全模型补全效果的IoU变体指标,通过IoU变体指标来评价步骤(3)得到的非模态布局补全模型,基于IoU变体指标测量非模态布局补全模型的准确性, IoU变体指标包括第一IoU变体指标和第二IoU变体指标,其中:
[0051] 第一IoU变体指标   为:
[0052]
[0053] 第二IoU变体指标   为:
[0054]
[0055] 其中, 为非模态布局图中的第i个边界框,m表示该边界框为原始非模态布局图中的边界框,  为真实模块布局图中的第i个边界框,a表示该边界框为真实模块布局图中的边界框,原始非模态布局图的边界框与真实模态布局图的边界框一一对应,F(﹒)为非模态布局图补全模型,N为边界框的数量。。在这两个指标中,  测量非模态布局补全模型在不同难易程度下的补全效果,因为非模态布局和真实模态布局之间的IoU较低,说明模型需要补全的部分相对较多;  衡量非模态布局补全模型的精确程度,因为非模态布局和真实模态布局之间的IoU很高,意味着极其相近,一点错误的改变就会导致指标的结果下降。
[0056] (5)利用步骤(3)得到的非模态布局补全模型,根据任意输入的物体非模态标框布局图生成对应的补全的模态布局,并可视化场景中物体之间的遮挡关系。具体步骤为:
[0057] (5‑1)绘制待补全的非模态标注框的边界框以及每个边界框的类别。
[0058] (5‑2)将绘制好的待补全的非模态标注框输入步骤(3)得到的非模态布局补全模型得到补全的模态布局图,并比较非模态布局图和模态布局图之间的异同,突显场景中物体之间的遮挡关系。
[0059] (6)使用步骤(5)得到的补全的模态布局,生成高质量场景图像,具体步骤为:将(5)得到的补全标注框,输入到布局到图像生成模型中,得到生成的场景图像。图 5给出了一组生成图像的实例,从左到右分别为非模态布局、基于非模态布局生成的图片、补全的模态布局生成的图片以及真实的图片,如图5所示,从结果中可以发现,使用本发明提供的方法将非模态布局补全成模态布局以后生成的图片质量效果相对更好。