一种跨域的大范围场景生成方法转让专利

申请号 : CN201910306469.0

文献号 : CN110147733B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 曹先彬罗晓燕杜文博杨燕丹

申请人 : 北京航空航天大学

摘要 :

本发明公开了一种跨域的大范围场景生成方法,属于图像生成技术领域;首先,设定目标场景中各背景的对应分布情况以及各前景目标的语义特征;根据背景各自的比例,随机生成背景分割图,再将每一个前景目标根据语义特征依次加入背景分割图中;然后,将分割图像与预先设定好的某特征向量进行融合;对特征融合后的图像,利用神经网络的多卷积层进行编码,提取高级特征,得到高级语义特征图,并利用残差网络进一步融合;最后,对融合的残差结果,使用上采样结构进行解码;最终输出彩色场景生成结果。本发明对于数据不足、样本难以获取的大范围视角任务提供了数据生成的方法,并且省去了手动给出分割标注图的过程,效果良好、实用性更强。

权利要求 :

1.一种跨域的大范围场景生成方法,其特征在于,具体步骤如下:

步骤一、设定目标场景中各背景的对应分布情况以及各前景目标的语义特征;

背景包括:天空、陆地和海洋三类;

语义特征包括:前景目标的种类,每类前景目标的数量,每类前景目标中每个目标各自的尺寸、姿态和坐标等;

前景目标的种类包括飞行器,车辆和船舶三类;

步骤二、根据背景各自的比例,随机生成背景分割图,再将每一个前景目标根据语义特征依次加入背景分割图中;

首先,生成一张只有背景的分割图:

背景分割图的尺寸与目标场景图的大小相同,海洋、陆地和天空各自为一个整体,天空在分割图像最上方,占面积比例m1;剩下部分包含陆地和海洋,分别按照比例m2和m3通过简单随机低阶曲线划分,分布在图像中下方;

其中海洋、陆地和天空三部分中,每部分面积中包括的像素取值都相同,三部分的像素值取值不同;

然后,在生成的背景分割图上,按照海上目标,地面目标和空域目标的先后顺序,分别加入每一个前景目标;

具体过程为:针对某类前景目标,依次选择该类前景目标下的某个目标,根据该目标的姿态,设定该姿态对应的像素轮廓图;

然后,根据当前目标的尺寸对像素轮廓图进行调整,并按照当前目标的坐标,将调整后的像素轮廓图放置在背景分割图上对应的位置上;

该像素轮廓图中包括的所有像素取值相同;

同理,将该类前景目标下的所有目标一一放置到背景分割图上,直至放完三类前景目标中所有的目标;

每类前景目标中的所有目标的像素轮廓图中包括的像素取值都相同,目标中的像素取值和背景中的像素取值对应不同的整数,且每个目标的像素轮廓图中的像素取值覆盖背景中的像素值;

最终的分割图尺寸为W*H,对应宽度和高度;分割图上每一个数值对应一类前景目标或背景;

步骤三、将分割图像与预先设定好的某特征向量进行融合;

针对同一类前景目标,网络预先训练该类下的不同小类,针对每一小类中的每个物体,得到每个物体的特征向量,长度均为L;

融合是根据选择的某个物体,将分割图像与长度为L的特征向量逐像素拼接,最终得到尺寸为W*H*(l+L)的特征图;

步骤四、对特征融合后的特征图,利用神经网络的多卷积层对低级特征图像进行编码,提取高级特征,得到高级语义特征图;

步骤五、对高级语义特征图利用残差网络进一步融合;

步骤六、对融合的残差结果,使用上采样结构进行解码;最终输出尺寸为W*H*3的3通道的彩色场景生成结果。

2.如权利要求1所述的一种跨域的大范围场景生成方法,其特征在于,步骤一中所述的各背景的对应分布情况为各自的像素所占的比例,分别用m1,m2和m3表示。

3.如权利要求1所述的一种跨域的大范围场景生成方法,其特征在于,所述的步骤四具体为:对特征融合后的尺寸为W*H*(l+L)的特征图使用串联的3层卷积层进行下采样,对特征进行降维和编码,从而得到尺寸缩小的高级语义特征图;

每个卷积层的卷积核大小均为3×3,代表其感受野的大小,卷积核的步长分别为2,代表每次卷积核滑窗的步长为2;卷积核的通道数依次为64,512和1024;每经过一层卷积层,特征图长、宽尺寸都减小为原来的一半,语义特征级别也在逐次提升;经过三层卷积层后,长和宽尺寸都缩小为原来的 每一层卷积后都要通过归一化层和激活函数层。

4.如权利要求1所述的一种跨域的大范围场景生成方法,其特征在于,所述的步骤五具体为:采用三个相互串联的残差结构,每个结构相同,且均不改变特征图的尺寸;单个残差结构包含了4层卷积层;当输入特征图为x时,首先通过卷积核大小为1×1的卷积层,通道数为512;再通过3×3的卷积层,通道数为256;再通过卷积核大小为5×5的卷积核,通道数为

128;最后通过卷积核大小为1×1的卷积核,通道数为1024;每一层卷积之后都要经过归一化和激活函数,此时最后一层卷积的输出为中间特征F(x),与原特征图x相加,得到最终特征输出结果F(x)+x。

5.如权利要求1所述的一种跨域的大范围场景生成方法,其特征在于,所述的步骤六具体为:将结果F(x)+x采用三层反卷积层,尺寸与解码过程的卷积层尺寸一一对应,反卷积层步长也为2,核大小也为3×3;经过三层反卷积之后,特征图长宽还原为W×H;三个反卷积层的通道数依次为512、64和3,将编码后的低维度高层特征进行解码,并将尺寸放大到目标图像尺寸;最终的输出尺寸为W*H*3,得到一个3通道的彩色图像,即为生成的场景图。

说明书 :

一种跨域的大范围场景生成方法

技术领域

[0001] 本发明属于图像生成技术领域,涉及一种跨域的大范围场景生成方法。

背景技术

[0002] 近年来,随着国家对低空领域使用权的不断开放,飞行器经常被用来执行辅助灾情巡查以及特殊场景监视等任务。在这些任务中,场景信息的获取与分析是最为重要的环节之一,然而很多场景在实际操作中是第一次接触,缺乏预先的经验,对信息的分析带来很大的挑战。场景生成方法可以针对目标场景的特征进行模拟,对于场景数据难以提前获取或数据缺失的情况均有不可估量的作用。
[0003] 目前许多深度学习任务需要大量样本作为训练集,采用的算法也都是对样本进行分类或者回归,前提是样本充足。针对样本不足的情况,迁移学习方法可以将其他样本集特征通过算法适当的迁移到新的样本集上,但依旧存在不同样本集之间的差别,无法达到较理想的结果。小样本学习方法,如元学习,采用了一些网络训练技巧,能够在样本不足的情况下加速网络的优化过程,但没有从根本上解决样本的问题。
[0004] 对抗生成网络提供了一种思路,可以人为地引导模型生成虚拟数据,当虚拟数据逼近真实数据时,可以近似代替真实数据,在数据不足或缺乏数据的情况下可以用于数据生成。
[0005] 在大多数对抗生成网络模型都是在高级语义层面进行优化,生成的图像分辨率较低,细节比较模糊,无法对真实场景进行精细模拟,因而也不能应用到实际任务当中。
[0006] 现有的逐像素生成法拥有较好的效果,它借助了神经网络的卷积操作,提取低维特征,进一步用反卷积进行上采样,得到逐像素复原后的模拟图像,过程中采用了残差网络进行特征融合。但此方法由于整个网络输入需要一个与输出等大小的分割标注图,每一类物体所在区域用相同值的像素表示,这对输入的要求较高,需要提前获取分割标注图,在一定程度上限制了其应用。

发明内容

[0007] 本发明一种跨域的大范围场景生成方法,采用现有的逐像素生成法,将简单的场景描述作为输入,通过特征可视化生成分割标注图,不用手动提前给出分割标注图,既可以生成关于场景图的数据集,也可以通过语义特征人为引导网络输出想要的数据,对样本少、数据难以获取的任务有较大意义,为不同的任务需求提供了充足的选择,是一个应用广泛,效果突出的方法。
[0008] 具体步骤包括:
[0009] 步骤一、设定目标场景中各背景的对应分布情况以及各前景目标的语义特征;
[0010] 背景包括:天空、陆地和海洋三类;对应的分布情况为各背景的像素所占的比例,分别用m1,m2和m3表示。
[0011] 语义特征包括:前景目标的种类,每类前景目标的数量,每类前景目标中每个目标各自的尺寸、姿态和坐标等。
[0012] 前景目标的种类包括飞行器,车辆和船舶三类;
[0013] 步骤二、根据背景各自的比例,随机生成背景分割图,再将每一个前景目标根据语义特征依次加入背景分割图中。
[0014] 首先,生成一张只有背景的分割图:
[0015] 背景分割图的尺寸与目标场景图的大小相同,海洋、陆地和天空各自为一个整体,天空在分割图像最上方,占面积比例m1;剩下部分包含陆地和海洋,分别按照比例m2和m3通过简单随机低阶曲线划分,分布在图像中下方。
[0016] 其中海洋、陆地和天空三部分中,每部分面积中包括的像素取值都相同,三部分的像素值取值不同。
[0017] 然后,在生成的背景分割图上,按照海上目标,地面目标和空域目标的先后顺序,分别加入每一个前景目标。
[0018] 具体过程为:针对某类前景目标,依次选择该类前景目标下的某个目标,根据该目标的姿态,设定该姿态对应的像素轮廓图。
[0019] 然后,根据当前目标的尺寸对像素轮廓图进行调整,并按照当前目标的坐标,将调整后的像素轮廓图放置在背景分割图上对应的位置上。
[0020] 该像素轮廓图中包括的所有像素取值相同。
[0021] 同理,将该类前景目标下的所有目标一一放置到背景分割图上,直至放完三类前景目标中所有的目标。
[0022] 每类前景目标中的所有目标的像素轮廓图中包括的像素取值都相同,目标中的像素取值和背景中的像素取值对应不同的整数,且每个目标的像素轮廓图中的像素取值覆盖背景中的像素值。
[0023] 最终的分割图尺寸为W*H,对应宽度和高度;分割图上每一个数值对应一类前景目标或背景。
[0024] 步骤三、将分割图像与预先设定好的某特征向量进行融合。
[0025] 针对同一类前景目标,网络预先训练该类下的不同小类,针对每一小类中的每个物体,得到每个物体的特征向量,长度均为L;
[0026] 融合是根据选择的某个物体,将分割图像与长度为L的特征向量逐像素拼接,最终得到尺寸为W*H*(l+L)的特征图。
[0027] 步骤四、对特征融合后的图像,利用神经网络的多卷积层对低级特征图像进行编码,提取高级特征,得到高级语义特征图。
[0028] 对特征融合后的尺寸为W*H*(l+L)的图像使用串联的3层卷积层进行下采样,对特征进行降维和编码,从而得到尺寸缩小的高级语义特征图。
[0029] 每个卷积层的卷积核大小均为3×3,代表其感受野的大小,卷积核的步长分别为2,代表每次卷积核滑窗的步长为2。卷积核的通道数依次为64,512,1024。每经过一层卷积层,特征图长、宽尺寸都减小为原来的一半,语义特征级别也在逐次提升。经过三层卷积层后,长和宽尺寸都缩小为原来的 每一层卷积后都要通过归一化层和激活函数层。
[0030] 步骤五、对高级语义特征图利用残差网络进一步融合。
[0031] 具体为:采用三个相互串联的残差结构,每个结构相同,且均不改变特征图的尺寸。单个残差结构包含了4层卷积层;当输入特征图为x时,首先通过卷积核大小为1×1的卷积层,通道数为512;再通过3×3的卷积层,通道数为256;再通过卷积核大小为5×5的卷积核,通道数为128;最后通过卷积核大小为1×1的卷积核,通道数为1024。每一层卷积之后都要经过归一化和激活函数。此时最后一层卷积的输出为F(x),作为新的特征图,然后与原特征图x相加,得到结果F(x)+x。
[0032] 步骤六、对融合的残差结果,使用上采样结构进行解码;最终输出尺寸为W*H*3的3通道的彩色场景生成结果。
[0033] 将结果F(x)+x采用三层反卷积层,尺寸与解码过程的卷积层尺寸一一对应,反卷积层步长也为2,核大小也为3×3。经过三层反卷积之后,特征图长宽还原为W×H;三个反卷积层的通道数依次为512、64、3,将编码后的低维度高层特征进行解码,并将尺寸放大到目标图像尺寸;最终的输出尺寸为W*H*3,得到一个3通道的彩色图像,即为生成的场景图。
[0034] 本发明的优点在于:
[0035] 1)、一种跨域的大范围场景生成方法,将简单的场景描述作为输入,通过特征可视化生成分割标注图,免去人工标注分割图的过程。
[0036] 2)、一种跨域的大范围场景生成方法,对生成图片的约束较强,能够达到像素级的模拟。
[0037] 3)、一种跨域的大范围场景生成方法,优于大部分对抗生成网络,弥补数据缺失或难以获取的问题,对不易提前监测的视觉任务的仿真模拟有重大意义。
[0038] 4)、一种跨域的大范围场景生成方法,效果良好、实用性更强。

附图说明

[0039] 图1为本发明一种跨域的大范围场景生成方法的流程图;
[0040] 图2为本发明采用的残差网络结构示意图。

具体实施方式

[0041] 为了使本发明能够更加清楚地理解其技术原理,下面结合附图具体、详细地阐述本发明实施例。
[0042] 本发明使用基于特征描述的对抗生成网络模型实现大范围的场景生成,将简单的场景描述作为输入,通过特征可视化生成分割标注图,进一步利用对抗生成网络生成目标场景。对于数据不足、样本难以获取的大范围视角任务提供了数据生成的方法,并且省去了手动给出分割标注图的过程,实现了效果良好、实用性更强的大范围的场景生成方法。能够适用于各种情况,可以在人为设定下引导网络输出想要的数据,为不同的任务需求提供了充足的选择,是一个应用广泛,效果显著的方法。
[0043] 如图1所示,一种跨域的大范围场景生成方法具体步骤如下:
[0044] 步骤一、设定目标场景中各背景的对应分布情况以及各前景目标的语义特征;
[0045] 由于每次生成的场景不同,其语义特征也有不同。针对大范围的场景特征,给出背景特征,即天空、陆地和海洋三类场景的对应分布情况,只需给出所占像素比例即可;分别用m1,m2和m3表示。
[0046] 语义特征包括:前景目标的种类,每类前景目标的数量,每类前景目标中每个目标各自的尺寸、姿态和坐标等。
[0047] 前景目标的种类包括飞行器,车辆和船舶三类;针对不同的目标设定了不同的姿态描述,如飞行器和船舶的姿态信息略有不同,船舶只有一个自由度的姿态信息,即方向角,而飞行器具有左右、俯仰、滚转三个自由度,较为复杂。
[0048] 步骤二、根据背景各自的比例,随机生成背景分割图,再将每一个前景目标根据语义特征依次加入背景分割图中。
[0049] 首先,根据背景三类场景的比例,随机生成一张只有背景的分割图:
[0050] 背景分割图的尺寸与最终想要生成的目标场景图的大小相同,但此过程具有一定约束。首先,海洋、陆地和天空各自为一个整体,同一部分不会被分割成多个小区域,天空所在位置在分割图像最上方,占面积比例m1;剩下部分包含陆地和海洋,分别按照比例m2和m3通过简单随机低阶曲线划分,分布在图像中下方。
[0051] 其中海洋、陆地和天空三部分中,每部分面积中包括的像素取值都相同,三部分的像素值取值不同。
[0052] 然后,在生成的背景分割图上,按照海上目标,地面目标和空域目标的先后顺序,分别加入每一个前景目标。
[0053] 每一个目标首先根据种类、姿态等信息从数据库中提取,再根据坐标和尺寸进行布局和调整,最终对应到分割图上的相应像素。具体过程为:针对某类前景目标,依次选择该类前景目标下的某个目标,根据该目标的姿态,设定该姿态对应的像素轮廓图。
[0054] 然后,根据当前目标的尺寸对像素轮廓图进行调整,并按照当前目标的坐标,将调整后的像素轮廓图放置在背景分割图上对应的位置上。
[0055] 该像素轮廓图中包括的所有像素取值相同。
[0056] 同理,将该类前景目标下的所有目标一一放置到背景分割图上,直至放完三类前景目标中所有的目标。
[0057] 每类前景目标中的所有目标的像素轮廓图中包括的像素取值都相同,目标中的像素取值和背景中的像素取值对应不同的整数,且每个目标的像素轮廓图中的像素取值覆盖背景中的像素值。
[0058] 最终的分割图尺寸为W*H,对应宽度和高度;分割图上每一个数值对应一类前景目标或背景。
[0059] 步骤三、将分割图像与预先设定好的某特征向量进行融合。
[0060] 将特征在输入部分就直接融入是比较少见的,但由于分割图没有任何纹理信息,为了达到生成场景的多样化和可选择性,希望能够人为地设定纹理特征。不同种类的物体具有不同的特征向量,这些特征向量是由网络预先训练得到的,能够辅助此后步骤生成对应种类的表面纹理。
[0061] 通过训练不同的场景图片,能够得到不同的特征向量,在下一次运行网络时融合进去可以生成不同的场景,保证场景的多样化。如果不预先设定,那么网络只有尺寸为W*H*1的特征图作为网络输入,生成的场景比较单一。
[0062] 针对同一类前景目标,网络预先训练该类下的不同小类,针对每一小类中的每个物体,得到每个物体的特征向量,长度均为L;
[0063] 融合是根据选择的某个物体,将分割图像与长度为L的特征向量逐像素拼接,最终得到尺寸为W*H*(l+L)的特征图。
[0064] 步骤四、对特征融合后的图像,利用pix2pix神经网络的多卷积层对低级特征图像进行编码,提取高级特征,得到高级语义特征图。
[0065] 特征融合后的图像所拥有的特征较为底层,包含许多冗余信息,对此后的生成会带来一定干扰,所以首先对特征融合后的尺寸为W*H*(l+L)的图像使用串联的3层卷积层进行下采样,对特征进行降维和编码,从而提取出最有用的信息,得到尺寸缩小的高级语义特征图。
[0066] 每个卷积层的卷积核大小均为3×3,代表其感受野的大小,卷积核的步长分别为2,代表每次卷积核滑窗的步长为2。卷积核的通道数依次为64,512,1024。每经过一层卷积层,特征图长、宽尺寸都减小为原来的一半,语义特征级别也在逐次提升。经过三层卷积层后,长和宽尺寸都缩小为原来的 每一层卷积后都要通过归一化层和激活函数层。
[0067] 步骤五、对高级语义特征图利用残差网络进一步融合。
[0068] 残差网络将重点放在细微差别上,能够对细节特征进行精细化提取和融合。这个过程不会改变特征图的尺寸,整个过程也是借助卷积层,但是加入了残差结构。
[0069] 具体为:采用三个相互串联的残差结构,每个结构相同,且均不改变特征图的尺寸。单个残差结构包含了4层卷积层;如图2所示,当输入特征图为x时,首先通过卷积核大小为1×1的卷积层,通道数为512;再通过3×3的卷积层,通道数为256;再通过卷积核大小为5×5的卷积核,通道数为128;最后通过卷积核大小为1×1的卷积核,通道数为1024。每一层卷积之后都要经过归一化和激活函数。此时最后一层卷积的输出为中间特征F(x),作为新的特征图后与原特征图x跨层相加,得到输出特征F(x)+x,最终结果包含了全部的原特征图信息x,所以F(x)可以不用关注信息的保留,而能够进一步提取更高级的信息,以及更深入地进行特征融合。
[0070] 步骤六、对融合的残差结果,使用上采样结构进行解码;最终输出尺寸为W*H*3的3通道的特定背景和前景的目标场景生成图像。
[0071] 输入结果F(x)+x通过反卷积层,可以将特征图的尺寸变大,将编码后的低维度高层特征进行解码,并放大到目标图像尺寸。所以采用多层设定好参数数量的反卷积层,将高级语义解码,并且可以通过简单的后期调整对其进行可视化。
[0072] 具体为:采用三层反卷积层,尺寸与解码过程的卷积层尺寸一一对应,反卷积层步长也为2,核大小也为3×3。经过三层反卷积之后,特征图长宽还原为W×H;三个反卷积层的通道数依次为512、64、3,将编码后的低维度高层特征进行解码,并将尺寸放大到目标图像尺寸;最终的输出尺寸为W*H*3,得到一个3通道的彩色图像,即为生成的场景图。