一种基于跨模态图像生成的多视角植株生成方法和装置转让专利

申请号 : CN202311605122.9

文献号 : CN117314755B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 孙立剑徐晓刚冯献忠王军虞舒敏高金珊曹卫强

申请人 : 之江实验室中国科学院东北地理与农业生态研究所

摘要 :

本发明公开了一种基于跨模态图像生成的多视角植株生成方法和装置,属于农业方面的图像处理领域,包括:采集植株图像并标注文本信息;基于图像和文本对文本图像映射模型进行训练微调并冻结,得到图像和文本的内嵌向量;基于图像和文本的内嵌向量,构建基于扩散模型的包含文本图像先验模块和图像编码器模块的图像生成模型并训练;实际推理阶段根据基因型‑表型预测模型得到的目标植株表型数据,引导图像生成模型生成多视角小图,并输入图像超分辨模块得到高分辨率的目标植株图像。本发明采用扩散模型构建图像生成模型和图像超分辨模块,

权利要求 :

1.一种基于跨模态图像生成的多视角植株生成方法,其特征在于,包括以下步骤:

步骤1:采集不同视角的植株图像,并进行标注得到文本信息;

步骤2:利用植株图像和文本信息对文本图像映射模型进行训练微调并冻结,用于得到图像内嵌向量和文本内嵌向量,包括:所述文本图像映射模型包含图像编码器和文本编码器,所述图像编码器和文本编码器采用对比语言‑图像预训练模型CLIP,针对植株图像和文本信息,分别采用图像编码器、文本编码器得到图像内嵌向量和文本内嵌向量;利用空间映射将图像内嵌向量和文本内嵌向量映射为相同维度,并进行L2归一化;计算L2归一化之后的图像内嵌向量和文本内嵌向量之间的余弦相似度;基于余弦相似度,采用对比学习方法实现图像内嵌向量和文本内嵌向量的对齐,完成训练微调;

步骤3:构建基于扩散模型的图像生成模型,采用图像内嵌向量和文本内嵌向量对图像生成模型进行训练,所述训练包括对文本图像先验模块和图像解码器模块的训练:对文本图像先验模块的训练,包括:

将冻结后的文本图像映射模型处理后的第一图像内嵌向量输入到文本图像先验模块中,前向扩散过程将第一图像内嵌向量进行加噪处理得到第一噪声图像内嵌向量;

冻结后的文本图像映射模型处理后的文本内嵌向量、时间步和所述第一噪声图像内嵌向量经过逆向扩散过程降噪得到第二图像内嵌向量;

通过第一图像内嵌向量加躁处理时所加噪声和文本图像先验模块的逆向扩散过程降噪时的估计噪声之间的第一损失函数最小化,完成对文本图像先验模块的训练;

对图像解码器模块的训练,包括:

图像解码器模块的前向扩散过程对植株图像进行加噪处理得到噪声图像向量;

将第二图像内嵌向量、时间步和所述噪声图像向量经过逆向扩散过程降噪得到生成图像;

通过植株图像加躁处理时所加噪声和图像解码器模块的逆向扩散过程降噪时的估计噪声之间的第二损失函数最小化,完成对图像解码器模块的训练;

步骤4:提取推理时目标植株的文本信息构建目标文本内嵌向量,将所述目标文本内嵌向量、噪声向量和时间步输入训练好的文本图像先验模块中,得到目标图像内嵌向量;将所述目标图像内嵌向量、噪声向量和时间步输入训练好的图像解码器模块,得到多视角小图;

步骤5:将多视角小图输入到基于扩散模型的图像超分辨模块中,得到高分辨率的目标植株图像,并通过图像质量评价模块对目标植株图像进行评价。

2.根据权利要求1所述的基于跨模态图像生成的多视角植株生成方法,其特征在于,步骤1中,所述文本信息包括植株的生命周期、生长环境、品种以及外在表型数据,所述外在表型数据是对植株进行实际测量得到的株高、株围以及分支数。

3.根据权利要求1所述的基于跨模态图像生成的多视角植株生成方法,其特征在于,步骤4中,所述目标植株的文本信息包括采用基因型‑表型预测模型获取目标植株的表型数据,以及预设的目标植株的生命周期、生长环境和品种。

4.根据权利要求1所述的基于跨模态图像生成的多视角植株生成方法,其特征在于,步骤5中,所述基于扩散模型的图像超分辨模块由两个超分辨扩散模型串联组成,每一个超分辨扩散模型包括一个预训练的残差卷积上采样模块和基于Unet去噪网络的超分辨扩散模型,得到高分辨率的目标植株图像的过程,包括:将低分辨率的多视角小图输入预训练的残差卷积上采样模块,得到目标分辨率特征图和注意力图;

所述目标分辨率特征图通过频率分解卷积模块,得到损失严重的高频特征和保真较好的低频特征;

将所述损失严重的高频特征输入基于Unet去噪网络的超分辨扩散模型中,将注意力图通过图像编码器得到注意力引导向量,用于引导基于Unet去噪网络的超分辨扩散模型对损失严重的高频特征降噪得到新生成的高频特征;

将新生成的高频特征和所述保真较好的低频特征进行融合,得到高分辨率的目标植株图像。

5.根据权利要求1所述的基于跨模态图像生成的多视角植株生成方法,其特征在于,步骤5中,所述图像质量评价模块包括高维语义特征提取器和低维失真特征提取器,所述高维语义特征提取器包括目标检测网络,所述低维失真特征提取器包括预训练的VGG19网络。

6.一种基于跨模态图像生成的多视角植株生成装置,其特征在于,包括文本图像采集单元、内嵌向量构建单元、模型训练单元、模型推理单元、质量评估单元;

所述文本图像采集单元用于采集不同视角的植株图像,并进行标注得到文本信息;

所述内嵌向量构建单元用于利用植株图像和文本信息对文本图像映射模型进行训练微调并冻结,用于得到图像内嵌向量和文本内嵌向量,包括:所述文本图像映射模型包含图像编码器和文本编码器,所述图像编码器和文本编码器采用对比语言‑图像预训练模型CLIP,针对植株图像和文本信息,分别采用图像编码器、文本编码器得到图像内嵌向量和文本内嵌向量;利用空间映射将图像内嵌向量和文本内嵌向量映射为相同维度,并进行L2归一化;计算L2归一化之后的图像内嵌向量和文本内嵌向量之间的余弦相似度;基于余弦相似度,采用对比学习方法实现图像内嵌向量和文本内嵌向量的对齐,完成训练微调;

所述模型训练单元用于构建基于扩散模型的图像生成模型,采用图像内嵌向量和文本内嵌向量对图像生成模型进行训练,所述训练包括对文本图像先验模块和图像解码器模块的训练:对文本图像先验模块的训练,包括:

将冻结后的文本图像映射模型处理后的第一图像内嵌向量输入到文本图像先验模块中,前向扩散过程将第一图像内嵌向量进行加噪处理得到第一噪声图像内嵌向量;

冻结后的文本图像映射模型处理后的文本内嵌向量、时间步和所述第一噪声图像内嵌向量经过逆向扩散过程降噪得到第二图像内嵌向量;

通过第一图像内嵌向量加躁处理时所加噪声和文本图像先验模块的逆向扩散过程降噪时的估计噪声之间的第一损失函数最小化,完成对文本图像先验模块的训练;

对图像解码器模块的训练,包括:

图像解码器模块的前向扩散过程对植株图像进行加噪处理得到噪声图像向量;

将第二图像内嵌向量、时间步和所述噪声图像向量经过逆向扩散过程降噪得到生成图像;

通过植株图像加躁处理时所加噪声和图像解码器模块的逆向扩散过程降噪时的估计噪声之间的第二损失函数最小化,完成对图像解码器模块的训练;

所述模型推理单元用于提取推理时目标植株的文本信息构建目标文本内嵌向量,将所述目标文本内嵌向量、噪声向量和时间步输入训练好的文本图像先验模块中,得到目标图像内嵌向量;将所述目标图像内嵌向量、噪声向量和时间步输入训练好的图像解码器模块,得到多视角小图;

所述质量评估单元用于将多视角小图输入到基于扩散模型的图像超分辨模块中,得到高分辨率的目标植株图像,并通过图像质量评价模块对目标植株图像进行评价。

说明书 :

一种基于跨模态图像生成的多视角植株生成方法和装置

技术领域

[0001] 本发明属于农业方面的图像处理领域,具体涉及一种基于跨模态图像生成的多视角植株生成方法和装置。

背景技术

[0002] 随着先进育种设备和计算机技术的快速发展,围绕表型驱动的计算育种系统、基因型驱动的计算育种系统和人工智能驱动的多模块计算育种系统目前得到了越来越多的关注。然而在实际使用时,还是以传统的表型驱动和基因型驱动的计算育种系统为主,通过种植相应基因型的植株,进行观察和采集得到表型数据,然后决定该表型数据是否满足要求,从而为育种决策提供支撑。
[0003] 公开号为CN116779029A的专利文献公开了一种基于表型表现的育种筛选系统及方法,包括:第一信息采集模块,包含采集植株图像的第一检测单元;基于所述第一信息采集模块采集的包含植株的表型数据,远程服务器将采集到的n个表型数据基于其数据特征进行分类,并生成对应的表型数据集合,其中,每个集合设置有其对应的类别标签;所述远程服务器包含基因数据库,其中,基于集合的类别标签,所述远程服务器关联所述基因数据库中存储的与植株表型相关的基因数据和集合的类别标签,并将具有关联性的至少一个基因作为第一优先级基因集合,以获得所述植株可能发生突变的基因。但是该发明建立基因型‑表型筛选系统对植株突变基因进行筛选,采集到的表型数据较为单一,且无法为育种人员提供可视化的直观信息。
[0004] 公开号为CN116740650A的专利文献公开了一种基于深度学习的作物育种监测方法及系统,包括采集育种区内作物病害部位图像及对应标签,标签为作物病害类别,将育种区内作物病害部位图像作为原始图像;光照感知色彩增强,对每个分量进行分解,校正和调整入射光和反射光分量,将R、G和B三个通道简化为单通道计算增强后的亮度分量,基于增强后的亮度分量校正饱和度分量,色度分量不变,实现色彩增强;多尺度图像特征提取,改进网络结构,使用多尺度池化将先前卷积池化层生成的深度特征集成到固定长度的特征表达式中,然后将其发送到全连接层,进而得到作物育种病害特征向量;作物育种病害分类,通过不断优化初始连接权重和阈值,确定作物守护者模型,再对提取的作物育种病害特征进行分类,得到病害标签,对作物采取对应有效的防治措施。但是该发明通过深度学习方法建立起植株图像和植株病害特征的关联模型,必须采集植株图像作为模型的输入,无法实现育种预测功能。
[0005] 因此,需要一种适用于植株图像的生成方法,将预测的表型数据以可视化的方式直观地呈现出来。然而直接从简单的表型数据去生成可视化的逼真植株图像是一项具有很大挑战难度的事情,得益于近年来文本图像生成大模型的不断发展,让植株图像生成成为可能。

发明内容

[0006] 本发明的目的是提供一种基于跨模态图像生成的多视角植株生成方法和装置,通过构建基于扩散模型的图像生成模型和图像超分辨模块,实际推理时,采用基因型‑表型预测模型输出的目标植株的表型数据引导图像生成模型和图像超分辨模块得到高分辨率的目标植株图像,能够实现生成效率高、可扩展性强且生成图像质量高的植株表型数据可视化图像预测,为可视育种提供支撑。
[0007] 为实现上述发明目的,本发明提供的技术方案如下:
[0008] 第一方面,本发明实施例提供的一种基于跨模态图像生成的多视角植株生成方法,包括以下步骤:
[0009] 步骤1:采集不同视角的植株图像,并进行标注得到文本信息;
[0010] 步骤2:利用植株图像和文本信息对文本图像映射模型进行训练微调并冻结,用于得到图像内嵌向量和文本内嵌向量;
[0011] 步骤3:构建基于扩散模型的图像生成模型,采用图像内嵌向量和文本内嵌向量对图像生成模型进行训练,所述训练包括对文本图像先验模块和图像解码器模块的训练;
[0012] 步骤4:提取推理时目标植株的文本信息构建目标文本内嵌向量,将所述目标文本内嵌向量、噪声向量和时间步输入训练好的文本图像先验模块中,得到目标图像内嵌向量;将所述目标图像内嵌向量、噪声向量和时间步输入训练好的图像解码器模块,得到多视角小图;
[0013] 步骤5:将多视角小图输入到基于扩散模型的图像超分辨模块中,得到高分辨率的目标植株图像,并通过图像质量评价模块对目标植株图像进行评价。
[0014] 本发明利用扩散模型构建图像生成模型,包含文本图像先验模块和图像解码器模块两个部分。在图像生成模型的训练阶段,图像内嵌向量和文本内嵌向量分别输入文本图像先验模块的前向扩散过程和逆向扩散过程,其中,文本内嵌向量引导逆向扩散过程生成第二图像内嵌向量并作为图像解码器模块的引导向量,引导图像解码器模块的逆向扩散过程得到训练植株的生成图像。在实际推理阶段,采用基因型‑表型预测模型输出的目标植株的表型数据和植株生命周期、生长环境等信息引导图像生成模型生成目标植株的多视角小图。
[0015] 为了提升生成的多视角小图的分辨率,本发明还提出基于扩散模型的图像超分辨模块,所述基于扩散模型的图像超分辨模块由两个超分辨扩散模型串联组成,每一个超分辨扩散模型包括一个预训练的残差卷积上采样模块和基于Unet去噪网络的超分辨扩散模型。将低分辨率的多视角小图输入预训练的残差卷积上采样模块,得到目标分辨率特征图和注意力图;所述目标分辨率特征图通过频率分解卷积模块,得到损失严重的高频特征和保真较好的低频特征;将损失严重的高频特征输入基于Unet去噪网络的超分辨扩散模型中,基于注意力图构建注意力引导向量,引导损失严重的高频特征降噪得到新生成的高频特征;将新生成的高频特征和所述保真较好的低频特征进行融合,得到高分辨率的目标植株图像。
[0016] 进一步的,步骤1中,所述文本信息包括植株的生命周期、生长环境、品种以及外在表型数据,所述外在表型数据是对植株进行实际测量得到的株高、株围以及分支数。
[0017] 进一步的,步骤2中,所述文本图像映射模型包含图像编码器和文本编码器,所述图像编码器和文本编码器采用对比语言‑图像预训练模型CLIP。
[0018] 进一步的,步骤2中,利用植株图像和文本信息对文本图像映射模型进行训练微调,包括:
[0019] 针对植株图像和文本信息,分别采用图像编码器、文本编码器得到图像内嵌向量和文本内嵌向量;
[0020] 利用空间映射将图像内嵌向量和文本内嵌向量映射为相同维度,并进行L2归一化;
[0021] 计算L2归一化之后的图像内嵌向量和文本内嵌向量之间的余弦相似度;
[0022] 基于余弦相似度,采用对比学习方法实现图像内嵌向量和文本内嵌向量的对齐,完成训练微调。
[0023] 进一步的,步骤3中,对文本图像先验模块的训练,包括:
[0024] 将冻结后的文本图像映射模型处理后的第一图像内嵌向量输入到文本图像先验模块中,前向扩散过程将第一图像内嵌向量进行加噪处理得到第一噪声图像内嵌向量;
[0025] 冻结后的文本图像映射模型处理后的文本内嵌向量、时间步和所述第一噪声图像内嵌向量经过逆向扩散过程降噪得到第二图像内嵌向量;
[0026] 通过第一图像内嵌向量加躁处理时所加噪声和文本图像先验模块的逆向扩散过程降噪时的估计噪声之间的第一损失函数最小化,完成对文本图像先验模块的训练。
[0027] 进一步的,步骤3中,对图像解码器模块的训练,包括:
[0028] 图像解码器模块的前向扩散过程对植株图像进行加噪处理得到噪声图像向量;
[0029] 将第二图像内嵌向量、时间步和所述噪声图像向量经过逆向扩散过程降噪得到生成图像;
[0030] 通过植株图像加躁处理时所加噪声和图像解码器模块的逆向扩散过程降噪时的估计噪声之间的第二损失函数最小化,完成对图像解码器模块的训练。
[0031] 进一步的,步骤4中,所述目标植株的文本信息包括采用基因型‑表型预测模型获取目标植株的表型数据,以及预设的目标植株的生命周期、生长环境和品种。
[0032] 进一步的,步骤5中,所述基于扩散模型的图像超分辨模块由两个超分辨扩散模型串联组成,每一个超分辨扩散模型包括一个预训练的残差卷积上采样模块和基于Unet去噪网络的超分辨扩散模型,得到高分辨率的目标植株图像的过程,包括:
[0033] 将低分辨率的多视角小图输入预训练的残差卷积上采样模块,得到目标分辨率特征图和注意力图;
[0034] 所述目标分辨率特征图通过频率分解卷积模块,得到损失严重的高频特征和保真较好的低频特征;
[0035] 将所述损失严重的高频特征输入基于Unet去噪网络的超分辨扩散模型中,将注意力图通过图像编码器得到注意力引导向量,用于引导基于Unet去噪网络的超分辨扩散模型对损失严重的高频特征降噪得到新生成的高频特征;
[0036] 将新生成的高频特征和所述保真较好的低频特征进行融合,得到高分辨率的目标植株图像。
[0037] 进一步的,步骤5中,所述图像质量评价模块包括高维语义特征提取器和低维失真特征提取器,所述高维语义特征提取器包括目标检测网络,所述低维失真特征提取器包括预训练的VGG19网络。
[0038] 第二方面,为实现上述发明目的,本发明实施例还提供了一种基于跨模态图像生成的多视角植株生成装置,包括文本图像采集单元、内嵌向量构建单元、模型训练单元、模型推理单元、质量评估单元;
[0039] 所述文本图像采集单元用于采集不同视角的植株图像,并进行标注得到文本信息;
[0040] 所述内嵌向量构建单元用于利用植株图像和文本信息对文本图像映射模型进行训练微调并冻结,用于得到图像内嵌向量和文本内嵌向量;
[0041] 所述模型训练单元用于构建基于扩散模型的图像生成模型,采用图像内嵌向量和文本内嵌向量对图像生成模型进行训练,所述训练包括对文本图像先验模块和图像解码器模块的训练;
[0042] 所述模型推理单元用于提取推理时目标植株的文本信息构建目标文本内嵌向量,将所述目标文本内嵌向量、噪声向量和时间步输入训练好的文本图像先验模块中,得到目标图像内嵌向量;将所述目标图像内嵌向量、噪声向量和时间步输入训练好的图像解码器模块,得到多视角小图;
[0043] 所述质量评估单元用于将多视角小图输入到基于扩散模型的图像超分辨模块中,得到高分辨率的目标植株图像,并通过图像质量评价模块对目标植株图像进行评价。
[0044] 本发明的有益效果如下:
[0045] (1)本发明构建了基于扩散模型的图像生成模型,在实际推理阶段,通过基因型‑表型预测模型预测目标植株的表型数据,结合生命周期、生长环境和品种作为目标植株的文本信息构建目标文本内嵌向量,引导本发明提出的图像生成模型生成可视化的目标植株图像,有利于育种人员更好地判断基因对表型数据的影响,从而确定合适的基因,解决了传统方法只能通过文本形式的表型数据去判断基因的优良性;
[0046] (2)本发明提出基于扩散模型的图像生成模型,有利于充分挖掘植株文本信息和植株图像之间的相关性,在实际推理阶段,仅仅需要植株文本信息引导图像生成模型生成植株图像,且本发明提出的图像生成模型能够根据需要生成不同参数下的植株图像,另外,本发明还提出了基于扩散模型的图像超分辨模块,用于提升生成图像的质量,因此,本发明提出的方法和装置具有生成效率高、可扩展性强、生成图像质量高的优点。

附图说明

[0047] 图1是本发明实施例提供的基于跨模态图像生成的多视角植株生成方法整体流程示意图。
[0048] 图2是本发明实施例提供的文本图像映射模型训练微调的流程示意图。
[0049] 图3是本发明实施例提供的基于扩散模型的图像生成模型用于实际推理的流程示意图。
[0050] 图4是本发明实施例提供的超分辨扩散模型的流程示意图。
[0051] 图5是本发明实施例提供的基于跨模态图像生成的多视角植株生成装置的结构示意图。

具体实施方式

[0052] 为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不限定本发明的保护范围。
[0053] 本发明的技术构思为:本发明利用扩散模型构建图像生成模型,根据植株的文本信息构建文本内嵌向量引导图像生成模型生成植株图像。首先基于采集到的植株图像以及对应的文本信息,训练文本图像映射模型,所述文本图像映射模型包含图像编码器和文本编码器,通过对文本图像映射模型的训练微调,得到适用于本发明应用场景的图像编码器和文本编码器。基于文本图像映射模型得到图像内嵌向量和文本内嵌向量,用于对图像生成模型进行训练。
[0054] 图像生成模型包含两部分,分别是文本图像先验模块和图像解码器模块。在训练阶段,将图像内嵌向量和文本内嵌向量分别输入文本图像先验模块的前向扩散过程和逆向扩散过程中,其中,文本内嵌向量作为引导向量引导文本图像先验模块的逆向扩散过程生成第二图像内嵌向量;图像解码器模块的前向扩散过程给植株图像加噪得到噪声图像向量,采用第二图像内嵌向量作为图像解码器模块逆向扩散过程的引导向量,引导噪声图像向量降噪得到生成图像,完成图像生成模型的训练。
[0055] 实际推理阶段,通过基因型‑表型预测模型获取目标植株的表型数据,并结合目标植株的生命周期、生长环境和品种作为目标植株的目标文本信息构建目标文本内嵌向量,用于引导训练好的图像生成模型生成目标植株的多视角小图。为了提升多视角小图的分辨率,本发明还提出基于扩散模型的图像超分辨模块,每一个超分辨扩散模型包括一个预训练的残差卷积上采样模块和基于Unet去噪网络的超分辨扩散模型,得到高分辨率的目标植株图像,实现目标植株基因型数据到表型数据的可视化预测,为可视育种提供支撑。
[0056] 图1是本发明实施例提供的基于跨模态图像生成的多视角植株生成方法整体流程示意图。如图1所示,实施例提供了一种基于跨模态图像生成的多视角植株生成方法,包括以下步骤:
[0057] S110,采集不同视角的植株图像,并进行标注得到文本信息。
[0058] 本实施例中,以大豆植株为例,采集不同视角的大豆植株图像,对图像进行增强预处理,然后进行裁剪和去除背景操作,只获得包含大豆植株的植株图像,作为对应的目标数据,用来监督生成的数据。
[0059] 标注包含大豆植株的植株图像中对应的文本信息,包括大豆植株对应的生命周期、生长环境、品种;对实际的大豆植株进行测量,获得外在表型数据用于模型训练,所述外在表型数据包括大豆株高、株围、分支数、分支夹角、豆荚数。在实际推理阶段,通过基因型‑表型预测模型获取目标植株的外在表型数据,并通过这些外在表型数据和已知的生命周期、生长环境以及品种来预测生成多视角植株图像。
[0060] S120,利用植株图像和文本信息对文本图像映射模型进行训练微调并冻结,用于得到图像内嵌向量和文本内嵌向量。
[0061] 本实施例中,给定一个(图像,文本)对,将植株图像和文本信息输入一个文本图像映射模型中,利用植株图像和文本信息对该模型进行训练微调,得到适用于本发明应用场景下的文本图像映射模型。
[0062] 训练微调过程如图2所示。将植株图像和文本信息分别通过图像编码器和文本编码器得到图像内嵌向量和文本内嵌向量,采用空间映射将图像内嵌向量和文本内嵌向量映射到同一个嵌入空间中的不同位置,并进行L2归一化,得到相同维度的、可直接进行比较的图像内嵌向量和文本内嵌向量并计算两者之间的余弦相似度,通过对比学习让正确编码的(图像,文本)对之间的余弦相似度较高,不正确编码的(图像,文本)对之间的余弦相似度较低,实现图像内嵌向量和文本内嵌向量的对齐,微调完毕之后对文本图像映射模型进行冻结,不再参与后续的训练。
[0063] 本实施例中,文本图像映射模型中的图像编码器采用vision transformer图像模型,具体为VIT‑H/16图像编码器,输入为256×256像素的图像,总计32个transformer块,具有1280个嵌入;文本编码器采用text transformer语言模型,具体为GPT文本编码器,具有1024个嵌入和24个transformer块。
[0064] S130,构建基于扩散模型的图像生成模型,采用图像内嵌向量和文本内嵌向量对图像生成模型进行训练,所述训练包括对文本图像先验模块和图像解码器模块的训练。
[0065] 首先将训练植株的植株图像 和文本信息 通过冻结后的文本图像映射模型,分别得到第一图像内嵌向量 和文本内嵌向量 。
[0066] 文本图像先验模块采用扩散模型,基于随机噪声 ,前向扩散过程对第一图像内嵌向量 加噪,经过T时间步之后得到加噪的第一噪声图像内嵌向量 。逆向扩散过程将文本内嵌向量 、时间步T和第一噪声图像内嵌向量 一起输入到基于多头结构的Unet噪声估计网络中,得到估计噪声 ,并与随机噪声 进行比
较,估计噪声 与随机噪声 之间的损失函数用公式表示为:
[0067]                (1)
[0068] 其中, 表示关于θ的微分,θ表示网络超参数。
[0069] 所述多头 结构的Unet噪声估计网络,用公式表示为:
[0070]          (2)
[0071] 其中,Q表示查询(query),K表示键(key),V表示值(value), ,, , , 和 分别表示Q,K,V对应的权值矩阵,
softmax()表示归一化函数,d表示Q,K,V的嵌入维度,主要是为了缩小点积范围,确保softmax()函数的梯度稳定性。
[0072] 对噪声估计网络进行训练优化,最小化损失函数,得到训练好的文本图像先验模块。经过多轮去噪,得到第二图像内嵌向量。
[0073] 图像解码器模块采用扩散模型,基于随机噪声 ,前向扩散过程将植株图像 进行加噪处理,经过T时间步之后得到加噪的噪声图像向量 。图像解码器模块的逆向扩散过程将文本图像先验模块输出的第二图像内嵌向量作为引导向量,与时间步T和噪声图像向量一起输入到基于多头 结构的Unet噪声估计网络中,得到估计噪声,类似的,计算估计噪声 和随机噪声 之间的损失函数并最小化,完成对图像解码器模块的训练。经过多轮去噪,得到训练植株的生成图像。
[0074] S140,提取推理时目标植株的文本信息构建目标文本内嵌向量,将所述目标文本内嵌向量、噪声向量和时间步输入训练好的文本图像先验模块中,得到目标图像内嵌向量;将所述目标图像内嵌向量、噪声向量和时间步输入训练好的图像解码器模块,得到多视角小图。
[0075] 本实施例中,在运用训练好的图像生成模型进行实际推理时,采用基因型‑表型预测模型预测目标植株的表型数据,并通过预设生命周期、生长环境以及品种信息,构建目标植株的文本信息,输入到冻结后的文本编码器中,得到目标文本内嵌向量。
[0076] 实际推理过程如图3所示,随机生成标准正态分布二维噪声并通过冻结后的图像编码器,得到噪声向量zT,输入到训练好的图像生成模型的文本图像先验模块中,将时间步T通过扩散时间步编码器输入到训练好的文本图像先验模块中,目标文本内嵌向量引导文本图像先验模块进行逆向扩散过程,不断迭代降噪得到不含噪声的目标图像内嵌向量z0。
[0077] 在图像内嵌空间中也随机生成服从标准正态分布的二维噪声向量,然后将此二维噪声向量与文本图像先验模块输出的目标图像内嵌向量z0和时间步一起输入到图像生成模型的图像解码器模块中,所述目标图像内嵌向量z0引导图像解码器模块产生4张分辨率为64×64的与目标植株的文本信息描述匹配的多视角小图。
[0078] S150,将多视角小图输入到基于扩散模型的图像超分辨模块中,得到高分辨率的目标植株图像,并通过图像质量评价模块对目标植株图像进行评价。
[0079] 本实施例中,构建了基于扩散模型的图像超分辨模块,所述图像超分辨模块由两个超分辨扩散模型串联组成,每一个超分辨扩散模型包括一个预训练的残差卷积上采样模块和基于Unet去噪网络的超分辨扩散模型。所述预训练的残差卷积上采样模块为去掉了最后卷积输出层的预训练的残差卷积超分辨模型。
[0080] 如图4所示,将S140中64×64的低分辨率的多视角小图输入到预训练的残差卷积上采样模块中,获得上采样后的目标分辨率特征图和注意力图,将得到的目标分辨率特征图输入到一个频率分解卷积模块中,分解得到损失严重的高频特征和保真较好的低频特征。然后将所述损失严重的高频特征输入到基于Unet去噪网络的超分辨扩散模型中,将注意力图通过冻结后的图像编码器得到注意力引导向量,引导基于Unet去噪网络的超分辨扩散模型对损失严重的高频特征在空间区域上选择性地扩散,高效生成更多细节,经过多轮迭代降噪,得到新生成的高频特征。然后将新生成的高频特征和保真较好的低频特征进行融合,将多视角小图的分辨率从64×64扩大到256×256,然后通过另一个同样的超分辨扩散模型将图像分辨率进一步从256×256扩大到1024×1024,得到高分辨率的目标植株图像。
[0081] 进一步的,将高分辨率的目标植株图像输入到一个图像质量综合评价模块中,用以评价生成的目标植株图像质量的好坏。
[0082] 本实施例中,图像质量综合评价模块包括高维语义和低维特征方面的特征提取和失真评估,评价生成的目标植株图像在语义内容方面和保真性方面是否满足要求。所述高维语义特征提取器包括目标检测网络,所述低维失真特征提取器采用预训练的VGG19网络的前四层。
[0083] 将得到的多视角、高分辨率的目标植株图像进行合成,利用高维语义特征提取器获取目标植株的检测株高、株高、株围、分支数等语义特征,与实际推理时输入的目标植株文本信息的语义特征进行比对,计算它们之间的余弦相似度得到失真分数;利用低维失真特征提取器提取合成的多视角目标植株图像的低维失真特征,包括压缩、噪声、模糊、色差、锐度、块状效应。
[0084] 将得到的高维语义特征和低维失真特征输入到由三层全连接层组成的图像失真质量回归模型中,得到相应的评估分数。图像失真质量回归模型用来评估生成图像的质量,结合主客观评价指标,对低维特征的失真程度进行判别。对于真实场景下获得的高质量图像,其失真指标为0,对这些高质量图像进行不同程度的失真化处理,并进行0‑1之间的打分,得分越接近1表明失真程度越高。
[0085] 基于同样的发明构思,本发明实施例还提供了一种基于跨模态图像生成的多视角植株生成装置500,如图5所示,包括文本图像采集单元510、内嵌向量构建单元520、模型训练单元530、模型推理单元540、质量评估单元550;
[0086] 其中,文本图像采集单元510用于采集不同视角的植株图像,并进行标注得到文本信息;
[0087] 内嵌向量构建单元520用于利用植株图像和文本信息对文本图像映射模型进行训练微调并冻结,用于得到图像内嵌向量和文本内嵌向量;
[0088] 模型训练单元530用于构建基于扩散模型的图像生成模型,采用图像内嵌向量和文本内嵌向量对图像生成模型进行训练,所述训练包括对文本图像先验模块和图像解码器模块的训练;
[0089] 模型推理单元540用于提取推理时目标植株的文本信息构建目标文本内嵌向量,将所述目标文本内嵌向量、噪声向量和时间步输入训练好的文本图像先验模块中,得到目标图像内嵌向量;将所述目标图像内嵌向量、噪声向量和时间步输入训练好的图像解码器模块,得到多视角小图;
[0090] 质量评估单元550用于将多视角小图输入到基于扩散模型的图像超分辨模块中,得到高分辨率的目标植株图像,并通过图像质量评价模块对目标植株图像进行评价。
[0091] 对于本发明实施例提供的基于跨模态图像生成的多视角植株生成装置而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0092] 需要说明的是,上述实施例提供的基于跨模态图像生成的多视角植株生成装置与基于跨模态图像生成的多视角植株生成方法实施例属于同一构思,其具体实现过程详见基于跨模态图像生成的多视角植株生成方法实施例,这里不再赘述。
[0093] 以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。