图像生成方法、装置、电子设备和计算机可读存储介质转让专利

申请号 : CN202310856919.X

文献号 : CN116580127B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 疏坤何山殷兵胡金水刘聪

申请人 : 科大讯飞股份有限公司

摘要 :

本申请公开了一种图像生成方法、装置、电子设备和计算机可读存储介质,该方法包括:获取第一生成图像;响应于针对第一生成图像对应的待调整区域的图像编辑指令,获取与待调整区域关联的参考图像或第一提示词,作为第一生成信息;基于第一生成信息生成调整图像;利用调整图像对待调整区域进行调整,得到第二生成图像,上述方案,能够提高图像生成效率。

权利要求 :

1.一种图像生成方法,其特征在于,包括:

获取第一生成图像;

响应于针对所述第一生成图像对应的待调整区域的图像编辑指令,获取与所述待调整区域关联的参考图像或第一提示词,作为第一生成信息;

基于所述第一生成信息生成调整图像;

利用所述调整图像对所述待调整区域进行调整,得到第二生成图像;

其中,所述第一生成图像是图像生成模型基于第二生成信息进行图像生成得到的,所述第二生成信息从输入信息中提取得到,在所述输入信息包括输入图像且所述输入图像为设备采集到的图像的情况下,从所述输入信息中提取第二生成信息,包括:对所述输入图像进行场景识别,得到场景类别作为第一备选提示词,对所述输入图像进行语义分割,得到若干物体类别作为第二备选提示词,对所述输入图像进行关键词分析,得到图像关键词作为第三备选提示词;

响应于获得指定相似度,基于所述指定相似度所处的相似度区间,在所述第一备选提示词、所述第二备选提示词和所述第三备选提示词中,选择第二提示词以作为所述第二生成信息;其中,所述指定相似度用于指示所述输入图像与所述第一生成图像之间的相似度,所述第二提示词的数量与所述指定相似度的数值正相关。

2.根据权利要求1所述的方法,其特征在于,所述图像编辑指令包括新增指令、删除指令、重绘指令、调色指令和变形指令中任一者,且所述调色指令和所述变形指令包括多种指令类别。

3.根据权利要求2所述的方法,其特征在于,在所述图像编辑指令为所述新增指令或所述重绘指令的情况下,所述第一生成信息包括所述第一提示词,且所述第一提示词由用户输入;

所述基于所述第一生成信息生成调整图像,包括:

利用图像生成模型生成与所述第一提示词匹配的所述调整图像。

4.根据权利要求2所述的方法,其特征在于,在所述图像编辑指令为所述调色指令或所述变形指令的情况下,所述第一生成信息包括所述参考图像,且所述参考图像包含所述待调整区域内的像素;

所述基于所述第一生成信息生成调整图像,包括:

基于当前的所述指令类别,对所述参考图像所包含的像素进行调整,得到所述调整图像。

5.根据权利要求2所述的方法,其特征在于,在所述图像编辑指令为所述删除指令的情况下,所述第一生成信息包括所述参考图像,且所述参考图像包含距离所述待调整区域预设范围内的像素;

所述基于所述第一生成信息生成调整图像,包括:

基于所述参考图像所包含的像素,生成与所述待调整区域匹配的所述调整图像。

6.根据权利要求1所述的方法,其特征在于,所述响应于针对所述第一生成图像对应的待调整区域的图像编辑指令,获取与所述待调整区域关联的参考图像或第一提示词,作为第一生成信息之前,所述方法还包括:对所述第一生成图像进行语义分割,得到语义分割结果;其中,所述语义分割结果包括对所述第一生成图像分割得到的若干第一子区域,且所述第一生成图像之外的其他区域作为第二子区域;

响应选择所述第二子区域或选择至少一个所述第一子区域的选择操作,将被选中的区域作为所述待调整区域。

7.根据权利要求1所述的方法,其特征在于,所述获取第一生成图像,包括:获取输入信息,从所述输入信息中提取第二生成信息;其中,所述输入信息包括输入语音、输入文本和输入图像中至少一者,所述第二生成信息用于指示图像生成模型生成所述第一生成图像,所述第二生成信息包括第二提示词和输入图像信息中的至少一者;

利用图像生成模型生成与所述第二生成信息匹配的所述第一生成图像。

8.根据权利要求7所述的方法,其特征在于,在所述输入信息包括所述输入语音的情况下,所述从所述输入信息中提取第二生成信息之前,所述方法还包括:对所述输入语音进行语音识别,得到识别文本,利用所述识别文本更新所述输入文本;

在所述输入信息包括所述输入文本的情况下,所述从所述输入信息中提取第二生成信息,包括:从所述输入文本中提取若干文本关键词,将所述文本关键词作为所述第二提示词。

9.根据权利要求7所述的方法,其特征在于,在所述输入信息包括输入图像且所述输入图像为设备采集到的图像的情况下,所述从所述输入信息中提取第二生成信息,包括:对所述输入图像进行关键词分析,得到图像关键词作为所述第二提示词,获取所述输入图像中物体的特征信息作为所述输入图像信息。

10.根据权利要求7所述的方法,其特征在于,在所述输入信息包括输入图像且所述输入图像为用户绘制的图像的情况下,所述从所述输入信息中提取第二生成信息,包括:对所述输入图像进行语义分析,得到图像语义作为所述输入图像信息。

11.根据权利要求1所述的方法,其特征在于,所述利用所述调整图像对所述待调整区域进行调整,得到第二生成图像之后,所述方法还包括:将所述第二生成图像更新为所述第一生成图像;

响应于获得所述图像编辑指令,重新执行所述获取与所述待调整区域关联的参考图像或第一提示词,作为第一生成信息的步骤;

响应于获得图像直接输出指令,将当前的所述第一生成图像作为目标生成图像;

响应于获得图像转换输出指令,基于所述图像转换输出指令,对当前的所述第一生成图像进行转换,得到目标生成图像;其中,所述图像转换输出指令包括风格转换指令和超分辨率重建指令中的至少一者。

12.一种图像生成装置,其特征在于,所述图像生成装置包括:

第一获取模块,用于获取第一生成图像;

第二获取模块,响应于针对所述第一生成图像对应的待调整区域的图像编辑指令,所述第二获取模块用于获取与所述待调整区域关联的参考图像或第一提示词,作为第一生成信息;

生成模块,用于基于所述第一生成信息生成调整图像;

调整模块,用于利用所述调整图像对所述待调整区域进行调整,得到第二生成图像;其中,所述第一生成图像是图像生成模型基于第二生成信息进行图像生成得到的,所述第二生成信息从输入信息中提取得到,所述第一获取模块包括提取子模块,所述提取子模块包括备选提取单元和选择单元,在所述输入信息包括输入图像且所述输入图像为设备采集到的图像的情况下,所述备选提取单元用于对所述设备采集到的图像进行场景识别,得到场景类别作为第一备选提示词,对所述设备采集到的图像进行语义分割,得到若干物体类别作为第二备选提示词,对所述设备采集到的图像进行关键词分析,得到图像关键词作为第三备选提示词;响应于获得指定相似度,所述选择单元用于基于所述指定相似度所处的相似度区间,在所述第一备选提示词、所述第二备选提示词和所述第三备选提示词中,选择第二提示词以作为所述第二生成信息;其中,所述指定相似度用于指示所述设备采集到的图像与所述第一生成图像之间的相似度,所述第二提示词的数量与所述指定相似度的数值正相关。

13.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至11中任一项所述的图像生成方法。

14.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至11中任一项所述的图像生成方法。

说明书 :

图像生成方法、装置、电子设备和计算机可读存储介质

技术领域

[0001] 本申请涉及图像处理技术领域,特别是一种图像生成方法、装置、电子设备和计算机可读存储介质。

背景技术

[0002] 随着互联网和数字媒体的快速发展,数字图像处理技术日趋成熟,为了高效地绘制和处理拥有个性化特征的数字图像作品,出现了大量的人工智能技术辅助人类完成图像绘制工作,图像自动生成技术受到越来越多的关注和研究。
[0003] 现有的图像自动生成技术生成的图像常存在达不到用户要求的情况,那么则需要多次尝试重新生成以得到满足用户要求的图像,使得图像生成的效率低,因此,如何能够高效生成满足用户需要的图像成为亟待解决的问题。

发明内容

[0004] 本申请主要解决的技术问题是提供一种图像生成方法、装置、电子设备和计算机可读存储介质,能够提高图像生成效率。
[0005] 为解决上述技术问题,本申请第一方面提供一种图像生成方法,该方法包括:获取第一生成图像;响应于针对第一生成图像对应的待调整区域的图像编辑指令,获取与待调整区域关联的参考图像或第一提示词,作为第一生成信息;基于第一生成信息生成调整图像;利用调整图像对待调整区域进行调整,得到第二生成图像。
[0006] 为解决上述技术问题,本申请第二方面提供一种图像生成装置,该装置包括:第一获取模块、第二获取模块、生成模块和调整模块,第一获取模块用于获取第一生成图像;响应于针对第一生成图像对应的待调整区域的图像编辑指令,第二获取模块用于获取与待调整区域关联的参考图像或第一提示词,作为第一生成信息;生成模块用于基于第一生成信息生成调整图像;调整模块用于利用调整图像对待调整区域进行调整,得到第二生成图像。
[0007] 为解决上述技术问题,本申请第三方面提供一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面所述的图像生成方法。
[0008] 为解决上述技术问题,本申请第四方面提供一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面所述的图像生成方法。
[0009] 上述方案,在得到第一生成图像之后,基于图像编辑指令,获取与待调整区域关联的参考图像或第一提示词,作为第一生成信息生成调整图像,利用调整图像对待调整区域进行调整,得到第二生成图像,能够对已经生成的底图进行二次编辑,以使得图像能够更贴合用户需求,相比于多次尝试重新生成图像来说,能够高效地生成满足用户需要的图像,提高了图像生成的效率。

附图说明

[0010] 图1是本申请图像生成方法一实施例的流程示意图;
[0011] 图2是本申请图像生成方法另一实施例的流程示意图;
[0012] 图3是本申请图像生成方法再一实施例的流程示意图;
[0013] 图4是本申请步骤S310另一实施例的流程示意图;
[0014] 图5是本申请步骤S310再一实施例的流程示意图;
[0015] 图6为本申请步骤S310又一实施例的流程示意图;
[0016] 图7是本申请图像生成方法又一实施例的流程示意图;
[0017] 图8是本申请图像生成装置一实施例的框架示意图;
[0018] 图9是本申请电子设备一实施例的框架示意图;
[0019] 图10是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

[0020] 为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0021] 本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
[0022] 请参阅图1,图1是本申请图像生成方法一实施例的流程示意图。具体而言,该方法可以包括如下步骤:
[0023] 步骤S110:获取第一生成图像。
[0024] 其中,第一生成图像可以为进行图像生成得到的,进一步来说,可以是利用图像生成模型生成的。
[0025] 步骤S120:响应于针对第一生成图像对应的待调整区域的图像编辑指令,获取与待调整区域关联的参考图像或第一提示词,作为第一生成信息。
[0026] 其中,第一生成图像对应的待调整区域可以包括第一生成图像内的区域,或者也可以包括第一生成图像外的区域。
[0027] 在一具体的应用场景中,第一生成图像对应的待调整区域为第一生成图像内的部分区域。
[0028] 在一具体的应用场景中,第一生成图像对应的待调整区域为第一生成图像外的区域。
[0029] 其中,图像编辑指令用于指示对待调整区域进行调整,图像编辑指令可以为根据用户操作而生成的。
[0030] 一些实施例中,图像编辑指令包括新增指令、删除指令、重绘指令、调色指令和变形指令中任一者。其中,调色指令和变形指令可以包括多种指令类别。新增指令可以表示在第一生成图像的基础上增加图像,例如,增加一个新的物体。删除指令可以表示对第一生成图像中某些区域的图像进行删除,例如,删除第一生成图像中的某个物体。重绘指令可以表示修改第一生成图像中某些区域的像素,例如,删除某个区域原有的像素,并生成新的图像添加至该区域。调色指令可以表示对第一生成图像进行颜色调整,并且可以包括多个指令类别,例如,亮度调节、饱和度调节、对比度调节和色调调节等。变形指令可以表示对第一生成图像中某些区域图像的变形,并且可以包括多个指令类别,例如,位置变形、形状变形和姿态变形,例如,对第一生成图像中某个物体进行位置、形状和姿态的调整。进一步举例来说,如将一个低头的人变形成抬头的样子,将一棵树从图像左侧移动到图像右侧,对一棵树进行放大等。
[0031] 其中,参考图像或第一提示词作为第一生成信息,用于生成调整图像,用于对待调整区域进行调整。
[0032] 在一实施场景中,在图像编辑指令为新增指令的情况下,待调整区域可以为第一生成图像内的区域,或者也可以为第一生成图像外的区域,或者也可以包括部分第一生成图像内的区域和部分第一生成图像外的区域。新增指令可以表示对待调整区域增加图像。
[0033] 在一实施场景中,在图像编辑指令为删除指令的情况下,待调整区域可以为第一生成图像内的区域。需要说明的是,删除指令并非仅仅表示对待调整区域的像素的删除,还表示对待调整区域进行重新填充。删除指令可以表示对待调整区域内的原有图像进行删除,并重新填充该待调整区域。
[0034] 在一实施场景中,在图像编辑指令为重绘指令的情况下,待调整区域可以为第一生成图像内的区域。重绘指令表示对待调整区域内原有图像进行删除,并重新绘制待调整区域的图像。
[0035] 需要说明的是,删除指令和重绘指令的差别在于,删除指令可以根据在第一生成图像的待调整区域周边的像素值,对待调整区域进行填充。而重绘指令可以独立于第一生成图像而重新绘制待调整区域的图像。具体举例来说,第一生成图像中包含一片草坪,草坪上有一只小狗,待调整区域可以为小狗所在的区域,删除指令可以用于指示将小狗删除,并利用第一生成图像的像素填充待调整区域,从而第一生成图像变为草坪上没有狗。而重绘指令可以用于指示将小狗所在区域重新绘制,如绘制一只猫,从而第一生成图像变为草坪上有一只猫。
[0036] 在一实施场景中,在图像编辑指令为调色指令的情况下,待调整区域可以为第一生成图像内的区域。调色指令表示对待调整区域原有图像进行颜色调整,例如,调整亮度、饱和度、对比度和色调等。
[0037] 在一实施场景中,在图像编辑指令为变形指令的情况下,待调整区域可以包括第一调整子区域和第二调整子区域,其中,第一调整子区域可以用于得到调整图像,第一调整子区域可以为第一生成图像内的区域,第一调整子区域和第二调整子区域可以用于作为调整图像调整的区域,第二调整子区域可以为第一生成图像内的区域,也可以为第一生成图像外的区域。
[0038] 一些实施例中,图像编辑指令也可以不限于上述新增指令、删除指令、重绘指令、调色指令和变形指令,可以根据用户对于第一生成图像的编辑需要而设置对应的编辑指令。
[0039] 步骤S130:基于第一生成信息生成调整图像。
[0040] 其中,第一生成信息可以为与待调整区域关联的参考图像,或者第一提示词。具体来说,基于第一生成信息生成调整图像可以为基于参考图像而生成调整图像,或者基于第一提示词而生成调整图像。与待调整区域关联的参考图像可以为待调整区域内的图像,或者,待调整区域预设范围内的调整图像。
[0041] 步骤S140:利用调整图像对待调整区域进行调整,得到第二生成图像。
[0042] 其中,利用调整图像对待调整区域进行调整的方式可以是多样的。例如,将调整图像按照待调整区域与第一生成图像进行融合,利用调整图像替换待调整区域的图像等。进一步地,利用调整图像对待调整区域进行调整的方式可以与图像编辑指令的类别相关,以实现对待调整区域进行不同形式的编辑。
[0043] 上述方案,在得到第一生成图像之后,基于图像编辑指令,获取与待调整区域关联的参考图像或第一提示词,作为第一生成信息生成调整图像,利用调整图像对待调整区域进行调整,得到第二生成图像,能够对已经生成的底图进行二次编辑,以使得图像能够更贴合用户需求,满足多样化场景的图像设计制作需求,相比于多次尝试重新生成图像来说,能够高效地生成满足用户需要的图像,提高了图像生成的效率。
[0044] 进一步地,设备支持新增、删除、重绘、调色、变形等调整方式,能够便捷地对第一生成图像进行多形式的调整,以满足用户对第一生成图像的多种修改需要,提高了图像生成的灵活性,并且通过修改使得生成图像能够更贴合用户要求,提高了图像生成的效率。
[0045] 请参阅图2,图2是本申请图像生成方法另一实施例的流程示意图。具体而言,该方法可以包括如下步骤:
[0046] 步骤S210:获取第一生成图像。
[0047] 其中,第一生成图像可以为利用图像生成模型直接得到的底图。具体来说,图像生成模型基于第二生成信息进行图像生成,而得到第一生成图像。
[0048] 步骤S220:响应于针对第一生成图像对应的待调整区域的图像编辑指令,获取第一提示词,作为第一生成信息。
[0049] 其中,图像编辑指令可以用于指示不依赖于第一生成图像而独立生成调整图像,即第一生成信息与第一生成图像相互独立,利用调整图像用于对第一生成图像进行调整。
[0050] 本实施例中,图像编辑指令可以为新增指令或者重绘指令,第一生成信息包括第一提示词,并且第一提示词基于用户输入得到。
[0051] 进一步来说,第一提示词可以基于用户输入的信息而得到,用户输入的信息的形式可以是多样的,例如,语音、文本、图像等等。
[0052] 在一实施场景中,获取用户输入的若干词语作为第一提示词,作为第一生成信息。
[0053] 步骤S230:基于第一生成信息生成调整图像。
[0054] 本实施例中,第一生成信息包括第一提示词。
[0055] 进一步地,基于第一提示词生成调整图像具体可以包括:利用图像生成模型生成与第一提示词匹配的调整图像。其中,图像生成模型可以为文生图模型,例如,stable‑diffusion模型v2版本、Midjourney模型、CogView模型等。
[0056] 一些实施例中,调整图像的形状、尺寸可以与待调整区域匹配。一些实施例中,调整图像的形状、尺寸不受限制。
[0057] 步骤S240:利用调整图像对待调整区域进行调整,得到第二生成图像。
[0058] 其中,调整图像可以用于增加到待调整区域中,以得到第二生成图像。
[0059] 在一具体的应用场景中,图像编辑指令为新增指令,利用调整图像对待调整区域进行调整可以通过将调整图像按照待调整区域与第一生成图像进行融合实现。其中,待调整区域可以包括第一生成图像内的区域,也可以包括第二生成图像外的区域。进一步地,由于调整图像是利用图像生成模型单独生成的,在将调整图像按照待调整区域与第一生成图像进行融合之前,设备还可以根据待调整区域对调整图像的尺寸、形状进行调整,以便于进行融合。
[0060] 在一具体的应用场景中,图像编辑指令为重绘指令,利用调整图像对待调整区域进行调整可以通过利用调整图像替换待调整区域内的图像而实现。进一步地,由于重绘指令可以指示对待调整区域进行重新绘制,调整图像的形状、尺寸可以与待调整区域一致,从而设备可以将第一生成图像中待调整区域原本的图像删除,并将调整图像与删除操作后的第一生成图像进行融合,以实现利用另外绘制的调整图像替换待调整区域内的图像,从而完成对待调整区域的重新绘制。
[0061] 一些实施例中,也可以直接利用调整图像覆盖待调整区域原本的图像,以完成对待调整区域的重新绘制。
[0062] 一些实施例中,图像编辑指令为新增指令的情况下,也可以从第一提示词中选择至少部分,用于生成调整图像,以得到第二生成图像。
[0063] 请参阅图3,图3是本申请图像生成方法再一实施例的流程示意图。具体而言,该方法可以包括如下步骤:
[0064] 步骤S310:获取第一生成图像。
[0065] 一些实施例中,在响应于针对第一生成图像对应的待调整区域的图像编辑指令,获取与待调整区域关联的参考图像和第一提示词中的至少一种,作为第一生成信息之前,设备可以根据用户操作而确定待调整区域。
[0066] 在一实施场景中,设备可以对第一生成图像进行语义分割,得到语义分割结果,语义分割结果包括对第一生成图像分割得到的若干第一子区域,以及将第一生成图像之外的其他区域作为第二子区域,响应于用户的选择操作,将被选中的区域作为待调整区域。其中,上述第一子区域和第二子区域可以供用户选择,增加用户选择的多样性并提高用户选择的便捷度,例如,响应于选择第二子区域的选择操作,将被选中的第二子区域作为待调整区域,响应于选择至少一个第一子区域的选择操作,将被选择的至少一个第一子区域作为待调整区域。
[0067] 在一实施场景中,设备可以为用户提供自定义选区,例如,为用户提供涂抹工具、预设形状的选择框等方式供用户选择待调整区域。
[0068] 在一实施场景中,设备可以根据用户的编辑操作而确定待调整区域,例如,用户选择某一语义分割得到的第一子区域,并对该第一子区域做出了变形操作,从而设备可以确定图像编辑指令为变形指令,并且该第一子区域为待调整区域,变形后的第一子区域也作为待调整区域。
[0069] 上述实施方式仅为示例,待调整区域的确定方式可以根据实际需要而设置。
[0070] 在一具体应用场景中,用户选择某一语义分割得到的第一子区域,并拖动该第一子区域到指定区域,设备可以确定图像编辑指令为位置变形指令,其中,该选中的第一子区域为第一调整子区域,用于生成调整图像,该选中的第一子区域和指定区域为第二调整子区域,用于进行调整。设备可以利用第一子区域内的图像得到调整图像以用于填充到该指定区域,利用第一子区域预设范围内的图像生成调整图像以用于填充该第一子区域,从而实现了原第一子区域图像的位置变形,并且利用周围像素填充了原第一子区域,保持了第一生成图像的完整性。
[0071] 在一具体的应用场景中,用户选择某一语义分割得到的第一子区域,并拖动该第一子区域内的图像进行等比例放大,放大图像所处位置为指定区域,设备可以确定图像编辑指令为形状变形指令。其中,该选中的第一子区域为第一调整子区域,用于生成调整图像,该选中的第一子区域和指定区域为第二调整子区域,用于进行调整。设备可以利用第一子区域内的图像经过放大处理后得到调整图像以用于填充到该指定区域,利用第一子区域预设范围内的图像生成调整图像以用于填充该第一子区域。进一步地,等比例放大后的图像所处的指定区域与第一子区域之间可以存在重叠,那么利用第一子区域预设范围内的图像生成调整图像以用于填充第一子区域不属于指定区域的部分。例如,指定区域覆盖第一子区域,那么指定区域已经完成调整后,无需对第一子区域再次进行填充,指定区域与第一子区域之间存在交集,那么指定区域已经完成调整后,对于交集部分无需再次进行填充。
[0072] 在一具体的应用场景中,点击图像任意区域即可输入文本,该文本为新增的内容提示词描述,然后根据文生图模型生成对应的图像内容,然后自动做图像融合嵌入目标图像中。其中,用户点击区域可以用于确定调整图像增加到的待调整区域,或者也可以结合语义信息确定待调整区域。
[0073] 步骤S320:响应于针对第一生成图像对应的待调整区域的图像编辑指令,获取与待调整区域关联的参考图像,作为第一生成信息。
[0074] 其中,图像编辑指令可以用于指示基于与待调整区域关联的参考图像生成调整图像,利用调整图像用于对第一生成图像进行调整,其中,与待调整区域关联的参考图像可以来自第一生成图像。
[0075] 本实施例中,图像编辑指令可以为调色指令、变形指令或者删除指令,第一生成信息包括与待调整区域关联的参考图像。参考图像可以包括待调整区域的像素或者距离待调整区域预设范围内的像素。
[0076] 在一实施场景中,图像编辑指令可以为调色指令,第一生成信息包括参考图像,并且参考图像包含待调整区域内的像素。
[0077] 在一实施场景中,图像编辑指令可以为变形指令,第一生成信息包括参考图像,并且参考图像包含待调整区域内的像素,进一步来说,待调整区域包括第一调整子区域,参考图像包含第一调整子区域内的像素。
[0078] 在一实施场景中,图像编辑指令可以为删除指令,第一生成信息包括参考图像,并且参考图像包含距离待调整区域预设范围内的像素。
[0079] 步骤S330:基于第一生成信息生成调整图像。
[0080] 本实施例中,调色指令可以包括多种指令类别,不同指令类别表示在不同维度进行调整。例如,调色指令可以包括亮度调节、饱和度调节、对比度调节和色调调节四个指令类别,分别表示从亮度、饱和度、对比度和色调的维度进行调整。变形指令可以包括多种指令类别,不同指令类别表示在不同维度进行调整。例如,变形指令可以包括位置变形、形状变形和姿态变形三个指令类别,分别从位置、形状和姿态的维度进行调整。
[0081] 在一实施场景中,第一生成信息包括参考图像,图像编辑指令可以为调色指令或变形指令,参考图像包含待调整区域的像素,基于第一生成信息生成调整图像具体可以包括:基于当前的指令类别,对参考图像所包含的像素进行调整,得到调整图像。其中,对参考图像包含的像素进行调整的操作与当前的指令类别对应。
[0082] 进一步来说,图像编辑指令为调色指令时,表示对待调整区域内的像素进行颜色调整,生成调整图像时可以根据待调整区域进行,调整图像的形状、尺寸与待调整区域匹配。
[0083] 在一具体应用场景中,图像编辑指令为亮度调节指令,参考图像包含待调整区域内的像素,对参考图像包含的像素进行调整则可以为对参考图像包含的像素进行亮度调节,从而得到调整图像。
[0084] 在一具体的应用场景中,图像编辑指令为饱和度调节,参考图像包含待调整区域内的像素,对参考图像包含的像素进行调整则可以为对参考图像包含的像素进行饱和度调节,从而得到调整图像。
[0085] 进一步来说,图像编辑指令为变形指令时,表示基于待调整区域内的像素进行变形。调整图像的形状、尺寸也可以基于当前的指令类别而确定。具体来说,对于位置变形指令,调整图像的形状、尺寸可以与待调整区域的第一调整子区域一致。对于形状变形指令、姿态变形指令,调整图像的形状、尺寸与指令中具体的变换要求匹配,并不必然与待调整区域一致。
[0086] 在一具体的应用场景中,图像编辑指令为形状变形指令,参考图像包含待调整区域内的像素,对参考图像包含的像素进行调整则可以为对参考图像包含的像素进行形状调节。进一步来说,待调整区域包括第一调整子区域,参考图像包含第一调整子区域内的像素,对参考图像包含的像素进行调整则可以为对第一调整子区域的像素进行形状调节。其中,形状调节也可以包括多种形式,例如,等比例放大、宽度增加、仿射变换等。
[0087] 在一具体的应用场景中,图像编辑指令为位置变形指令,参考图像包含待调整区域内的像素,对参考图像包含的像素进行调整则可以为对参考图像包含的像素进行位置调节。进一步来说,待调整区域包括第一调整子区域,参考图像包含第一调整子区域内的像素,对参考图像包含的像素进行调整则可以为对第一调整子区域的像素进行位置调节。此时调整图像可以与参考图像一致。
[0088] 需要说明的是,调色指令或者变形指令可以包括至少一个指令类别的指令。举例来说,调色指令可以包括亮度调节和饱和度调节,从而基于参考图像生成调整图像可以包括对参考图像包含的像素进行亮度和饱和度调节。
[0089] 在一实施场景中,第一生成信息包括参考图像,图像编辑指令可以为删除指令,参考图像包含距离待调整区域预设范围内的像素,基于第一生成信息生成调整图像具体可以包括:基于参考图像所包含的像素,生成与待调整区域匹配的调整图像。其中,预设范围可以根据实际需要而调整。调整图像与待调整区域形状、尺寸匹配。
[0090] 在一具体的应用场景中,待调整区域为草坪上的小狗所在的区域,参考图像为小狗所在的区域预设范围内的像素,具体为小狗所在的区域周围的草坪图像。基于参考图像所包含的像素,生成与待调整区域匹配的调整图像具体可以为,利用小狗所在的区域预设范围内的像素生成与小狗形状、尺寸一致的调整图像,以得到不包含小狗的草坪图像。
[0091] 步骤S340:利用调整图像对待调整区域进行调整,得到第二生成图像。
[0092] 其中,利用调整图像对待调整区域进行调整的方式可以是多样的,并且调整方式可以与图像编辑指令的类别相关。
[0093] 在一具体的应用场景中,图像编辑指令为删除指令,利用调整图像对待调整区域进行调整可以通过利用调整图像替换待调整区域内的图像而实现。进一步地,由于删除指令可以指示对待调整区域原有的图像内容进行删除,而为了保持第一生成图像的完整,调整图像的形状、尺寸可以与待调整区域一致,从而设备可以将第一生成图像中待调整区域原本的图像删除,并将调整图像与删除操作后的第一生成图像进行融合,以实现对待调整区域原有图像的删除,同时又能够保持第一生成图像的完整性。
[0094] 在一具体的应用场景中,图像编辑指令为调色指令,利用调整图像对待调整区域进行调整可以通过利用调整图像替换待调整区域内的图像而实现。进一步地,由于调色指令可以指示对待调整区域内的图像进行颜色调整,调整图像的形状、尺寸可以与待调整区域一致,从而设备可以将第一生成图像中待调整区域原本的图像删除,并将调整图像与删除操作后的第一生成图像进行融合,以实现利用调色后的调整图像替换原有的图像,实现对待调整区域的颜色调整。
[0095] 一些实施例中,图像编辑指令为调色指令,调整图像可以用于与待调整区域的图像像素叠加以实现颜色调整,利用调整图像对待调整区域进行调整也可以通过将调整图像按照待调整区域与第一生成图像进行融合实现。
[0096] 一些实施例中,图像编辑指令为调色指令或变形指令,调色指令或变形指令的类别也可以不限于上述举例,生成调整图像的方式也可以是多样的。例如,生成调整图像可以基于当前的指令类别,以及还可以结合参考图像的语义信息,例如,在对人物进行姿势变形时,还可以结合人物的语义信息生成符合该语义信息和姿势变形的调整图像。
[0097] 请参阅图4,图4是本申请步骤S310另一实施例的流程示意图。具体而言,步骤S310可以包括如下步骤:
[0098] 步骤S411:获取输入信息。
[0099] 其中,输入信息为基于用户操作得到的。输入信息的形式可以是多样的,例如,输入信息包括输入语音、输入文本和输入图像中至少一者,当然,输入信息也可以不限于上述语音、文本、图像的形式,也可以为其他形式,可以根据用户需要而设置,实现对多模态信息进行处理。
[0100] 在一具体的应用场景中,用户上传某一图像,以生成与该上传的图像对应的图像,设备可以获取该图像作为输入图像。
[0101] 在一具体的应用场景中,用户输入语音,以生成与该语音对应的图像,设备可以获取该语音作为输入语音。
[0102] 在一具体的应用场景中,用户输入语音和文本,以生成与该语音和文本对应的图像。
[0103] 一些实施例中,输入图像可以为设备采集到的图像或者用户绘制的图像。
[0104] 在一具体的应用场景中,设备采集到的图像可以为通过图像采集设备采集到的,用户绘制的图像也可以为用户勾勒的草图。
[0105] 一些实施例中,输入信息包括输入文本,从输入信息中提取第二生成信息包括:从输入文本中提取若干文本关键词,将文本关键词作为第二提示词。
[0106] 一些实施例中,输入信息包括输入语音,在从输入信息中提取第二生成信息之前,设备先执行对输入语音进行语音识别,得到识别文本,利用识别文本更新输入文本。而后从输入文本中提取若干文本关键词,将文本关键词作为第二提示词。
[0107] 在一实施场景中,输入文本直接体现为若干文本关键词,那么可以直接将该文本关键词作为第二提示词。
[0108] 在一具体的应用场景中,用户直接输入如下文本“可爱、微笑、男孩”,将该文本关键词作为第二提示词。
[0109] 在一具体的应用场景中,获取输入语音,设备对输入语音进行语音识别,得到识别文本“可爱、微笑、男孩”,将该文本关键词作为第二提示词。
[0110] 在一实施场景中,输入文本为文本段落,那么从该文本段落中提取若干文本关键词,将文本关键词作为第二提示词。
[0111] 在一具体的应用场景中,用户直接输入如下文本“我想生成一张夏日沙滩的风景,一群孩子在一起追逐,海浪轻轻的拍打在孩子们的脚丫上,孩子们的笑容像烈日一样灿烂夺目”,从该输入文本中提取得到如下文本关键词“夏日、沙滩、风景、孩子、追逐、海浪、脚丫、笑容、烈日、灿烂”。
[0112] 需要说明的是,提取文本关键词可以利用大语言模型实现,上述大语言模型例如,LLaMA模型、ChatGLM‑6B模型、PaLM‑E模型等。
[0113] 步骤S412:从输入信息中提取第二生成信息。
[0114] 其中,第二生成信息用于指示图像生成模型生成第一生成图像,第二生成信息包括第二提示词和输入图像信息中的至少一者。
[0115] 需要说明的是,输入语音和输入文本可以用于提取得到第二提示词,输入图像可以用于提取得到第二提示词和输入图像信息。进一步地,基于输入图像提取第二生成信息的方式是多样的,可以根据实际需要而选择适合的提取方式。
[0116] 步骤S413:利用图像生成模型生成与第二生成信息匹配的第一生成图像。
[0117] 其中,图像生成模型用于基于第二生成信息生成第一生成图像,该图像生成模型可以根据第二生成信息的形式而选择,例如,stable‑diffusion模型、生成对抗网络(GauGAN)等。
[0118] 上述方案,设备可以对多模态信息进行处理,以自动生成图像,从而能够适应不同形式的输入,提高了图像生成的灵活性和便捷性,满足了多样化场景的图像设计制作需要。
[0119] 请参阅图5,图5是本申请步骤S310再一实施例的流程示意图。具体而言,步骤S310可以包括如下步骤:
[0120] 步骤S511:获取输入信息。
[0121] 本实施例中,输入信息包括输入图像,且输入图像为设备采集到的图像。从输入信息中提取第二生成信息可以包括步骤S512‑步骤S513,以基于输入图像提取第二生成信息。
[0122] 步骤S512:对输入图像进行场景识别,得到场景类别作为第一备选提示词,以及对输入图像进行语义分割,得到若干物体类别作为第二备选提示词,以及对输入图像进行关键词分析,得到图像关键词作为第三备选提示词。
[0123] 其中,场景识别、语义分割和关键词分析可以利用相关模型实现。例如,关键词分析可以采用img2prompt相关的模型或工具实现。场景识别得到输入图像所属的场景类别,以作为第一备选提示词。语义分割得到输入图像中所有物体的物体类别,以作为第二备选提示词。关键词分析得到输入图像的图像关键词,该图像关键词可以表示输入图像的特征,例如,图像中物体之间的位置关系等。
[0124] 步骤S513:响应于获得指定相似度,基于指定相似度所处的相似度区间,在第一备选提示词、第二备选提示词和第三备选提示词中,选择第二提示词。
[0125] 本实施例中,通过上述提取方式可以从基于输入图像提取得到第二提示词以作为第二生成信息。其中,指定相似度用于指示输入图像与第一生成图像之间的相似度,第二提示词的数量与指定相似度的数值正相关。指定相似度可以为响应于用户操作而预先确定的。
[0126] 在一具体的应用场景中,设备可以供用户选择第一生成图像与输入图像之间的指定相似度大小,例如,指定相似度可以为从0.1到1。
[0127] 其中,第二提示词的可选范围与指定相似度所处的相似度区间相关。进一步地,在指定相似度小于或等于第一阈值时,从第一备选提示词中选择第二提示词。在指定相似度处于第一阈值与第二阈值之间时,第一备选提示词作为第二提示词,以及选择若干第二备选提示词,以与第一备选提示词一并作为第二提示词,选择的第二备选提示词的数量与指定相似度成正比。在指定相似度大于第二阈值时,第一备选提示词和第二备选提示词均作为第二提示词,并选择若干第三备选提示词,以与第一备选提示词和所有第二备选提示词一并作为第二提示词,选择的第三备选提示词的数量与指定相似度成正比。
[0128] 上述方式,能够适应用户指定相似度生成第一生成图像,提高了图像生成的灵活性,以及能够更为准确地生成相似度符合用户要求的图像,提高图像生成的效率。
[0129] 步骤S514:利用图像生成模型生成与第二生成信息匹配的第一生成图像。
[0130] 其中,图像生成模型可以为文生图模型,以用于生成与第二提示词匹配的第一生成图像。
[0131] 需要说明的是,前述实施例中对第一提示词的获取可以参考第二提示词的获取步骤。
[0132] 请参阅图6,图6为本申请步骤S310又一实施例的流程示意图。具体而言,步骤S310可以包括如下步骤:
[0133] 步骤S611:获取输入信息。
[0134] 本实施例中,输入信息包括输入图像,且输入图像为设备采集到的图像。从输入信息中提取第二生成信息可以包括步骤S612,以基于输入图像提取第二生成信息。
[0135] 步骤S612:对输入图像进行关键词分析,得到图像关键词作为第二提示词,获取输入图像中物体的特征信息作为输入图像信息。
[0136] 其中,关键词分析可以参考前述实施例中的相关描述。具体地,输入图像中的物体的特征信息可以包括物体轮廓、深度、角点、关键点、三维模型的法线中的至少一者。输入图像的物体的特征信息可以基于输入图像提取得到,进一步地,输入图像的物体的特征信息可以为掩码图的形式。
[0137] 在一具体的应用场景中,可以利用ControlNet模型对输入图像提取得到物体的特征信息,作为输入图像信息,以作为第二生成信息。
[0138] 步骤S613:利用图像生成模型生成与第二生成信息匹配的第一生成图像。
[0139] 在一具体的应用场景中,可以利用stable‑diffusion模型基于输入图像信息以及第二提示词生成第一生成图像。
[0140] 一些实施例中,在输入信息包括输入图像,并且输入图像为用户绘制的图像时,从输入信息中提取第二生成信息可以包括对输入图像进行语义分析,得到图像语义作为输入图像信息。其中,输入图像可以为用户绘制的草图,草图中包括用户勾勒的物体轮廓。
[0141] 在一具体的应用场景中,利用生成对抗网络根据用户绘制的图像生成真实物体并上色,得到第二生成图像,进一步地,生成对抗网络可以对输入图像进行语义分析,得到图像语义以用于生成真实物体并上色。
[0142] 一些实施例中,输入信息也可以同时包括输入文本和输入图像,或者同时包括输入语音和输入图像,或者同时包括输入文本、输入语音和输入图像。
[0143] 需要说明的是,本申请各个实施例中不存在技术矛盾的各方案之间可以结合起来,前述各实施例中从输入信息中提取第二生成信息的方式也可以结合使用。
[0144] 在一具体的应用场景中,设备获取用于给定的提示词,如“可爱、微笑、男孩”,设备利用stable‑diffusion模型v2版本生成底图。
[0145] 在一具体的应用场景中,基于大语言模型将文本转成提示词列表,如“我想生成一张夏日沙滩的风景,一群孩子在一起追逐,海浪轻轻的拍打在孩子们的脚丫上,孩子们的笑容像烈日一样灿烂夺目”这句话,经过大语言模型处理后生成的提示词列表为“夏日、沙滩、风景、孩子、追逐、海浪、脚丫、笑容、烈日、灿烂”。
[0146] 在一具体的应用场景中,根据用户输入的图像自动生成一张与参考图元素(物体、风格、色调、构图等)类似的底图。进一步地,假设最终用于生成图像的提示词列表为PN,N表示总提示词的数目,根据img2prompt相关的模型或者工具自动生成图像对应的提示词列表KM,M表示总列表词的数目。根据图像场景识别,获取图像所属场景类别S,同时执行物体分割和检测(SAM),记录所有物体类别OJ,J表示总物体数目。设备可以获取用户选择的生成图与参考图的相似度大小(从0.1到1),相似度越高表示PN提示词列表的丰富度越高,具体设置方式为:相似度0.1表示PN = 【S】,仅将场景类别作为提示词作为底库生成的输入;相似度0.5表示PN = 【S, O1,…,OJ】,将场景类别和物体类别一起作为输入,假设相似度为s,则放入PN中的物体数目j = max{(s ‑ 0.1) * J / 0.4, 1};相似度1表示PN = 【S, O1,…,OJ, K1,…,KM】,将场景类别、物体类别和img2prompt提示词一起作为输入,假设相似度为s,则放入PN中的KM提示词数目m = max{(s ‑ 0.5) * M / 0.5, 1}。有了提示词列表PN后直接根据文生图(stable‑diffusion模型v2版本)算法生成底图。这种方式生成的图像丰富度较高,生成的底图与输入图像相似度较低。
[0147] 在一具体的应用场景中,根据输入图像,生成与输入图像轮廓、深度、角点、关键点、对应三维模型的法线等保持一致的底图。进一步地,通过ControlNet模型提取输入图像中物体的特征信息作为输入图像信息,具体包括上述轮廓、深度、角点、关键点、对应三维模型的法线等中的至少一者。利用输入图像信息和img2prompt相关的模型或者工具自动生成图像对应的提示词列表KM作为第二生成信息,利用stable diffusion模型生成底图。如生成一张人像,通过这种方式生成的效果可以与输入图像中人物的性别、发型、身材、身体姿势等均一致,这种方式生成的底图与输入图像相似度非常高。
[0148] 在一具体的应用场景中,设备获取用户自行勾勒绘制的图像,系统根据内容自动生成真实物体并上色,这种方式生成的图像相似度较低,想象力更丰富,内容可能更加抽象。具体地,设备可以获取用户勾勒的草图,基于生成对抗网络(GauGAN)根据内容自动生成真实物体并上色,生成底图。
[0149] 请参阅图7,图7是本申请图像生成方法又一实施例的流程示意图。具体而言,该方法可以包括如下步骤:
[0150] 步骤S710:获取第一生成图像。
[0151] 步骤S720:响应于针对第一生成图像对应的待调整区域的图像编辑指令,获取与待调整区域关联的参考图像或第一提示词,作为第一生成信息。
[0152] 步骤S730:基于第一生成信息生成调整图像。
[0153] 步骤S740:利用调整图像对待调整区域进行调整,得到第二生成图像。
[0154] 其中,步骤S710‑步骤S740的相关描述可以参考前述实施例中的相关内容,在此不做赘述。
[0155] 步骤S750:将第二生成图像更新为第一生成图像。
[0156] 其中,第二生成图像是在原有的第一生成图像基础上进行调整得到的,在得到第二生成图像之后,设备可以利用其更新第一生成图像,即利用调整后的第一生成图像更新原有的第一生成图像。
[0157] 需要说明的是,设备可以为用户提供图像编辑页面,以供在生成了底图之后对底图进行编辑。上述步骤S720‑步骤S750可以认为是对第一生成图像的一次编辑,上述编辑步骤可以执行若干次,在将第二生成图像更新为第一生成图像之后,还可以响应于获取新的图像编辑指令,重新执行步骤S720‑步骤S750,再次更新第一生成图像。
[0158] 步骤S760:响应于获得图像直接输出指令,将当前的第一生成图像作为目标生成图像。
[0159] 其中,目标生成图像为本次图像生成的最终输出结果,图像直接输出指令用于指示设备将当前的第一生成图像作为目标生成图像而输出。
[0160] 步骤S770:响应于获得图像转换输出指令,基于图像转换输出指令,对当前的第一生成图像进行转换,得到目标生成图像。
[0161] 其中,图像转换输出指令用于指示设备对当前第一生成图像进行转换,转换结果作为目标生成图像而输出。图像转换输出指令包括风格转换指令和超分辨率重建指令中的至少一者。
[0162] 需要说明的是,上述转换操作为后处理展示,不会改变图像的内容(存在的元素、构图等)。
[0163] 在一实施场景中,风格转换指令用于对图像进行风格迁移,设备可以预存有若干预设风格供用户选择,例如,2D卡通、3D效果、CG写实效果、真实场景等。
[0164] 在一具体的应用场景中,设备中可以预存有风格迁移模块,用于对图像进行风格迁移,得到用户选择的风格下的转换结果,以作为目标生成图像。其中,上述风格迁移模块可以为CycleGAN模型等。
[0165] 在一实施场景中,超分辨率重建指令用于对图像进行超分辨率重建,提高图像的分辨率,能够使得展示的图像更加清晰。进一步地,设备可以根据用户操作而确定目标分辨率,超分辨率重建指令用于指示将图像重建为目标分辨率。
[0166] 需要说明的是,上述步骤S760、步骤S770、返回执行步骤S720‑步骤S750是根据用户指令而执行。其中,步骤S760和步骤S770中执行一者。
[0167] 上述方式,在生成底图之后,还可以根据用户需要对底图进行后处理,调整底图的风格和清晰度,生成符合用户需要的数字图像。
[0168] 上述方案,在生成底图后,根据用户操作而对底图进行多种形式的即时编辑,以对底图进行调整,更加适应用户要求,无需重新调整输入再重新生成,简化了图像生成的步骤,全程只需要用户给出简单的指令即可生成并且编辑图像,即使没有绘画基础的用户也可以轻松完成高质量图像的制作。
[0169] 请参阅图8,图8是本申请图像生成装置一实施例的框架示意图。
[0170] 本实施例中,图像生成装置80包括:第一获取模块81、第二获取模块82、生成模块83和调整模块84,第一获取模块81用于获取第一生成图像;响应于针对第一生成图像对应的待调整区域的图像编辑指令,第二获取模块82用于获取与待调整区域关联的参考图像或第一提示词,作为第一生成信息;生成模块83用于基于第一生成信息生成调整图像;调整模块84用于利用调整图像对待调整区域进行调整,得到第二生成图像。
[0171] 其中,图像编辑指令包括新增指令、删除指令、重绘指令、调色指令和变形指令中任一者,且调色指令和变形指令包括多种指令类别。
[0172] 其中,在图像编辑指令为新增指令或重绘指令的情况下,第一生成信息包括第一提示词,且第一提示词由用户输入。生成模块83包括第一生成子模块,第一生成子模块用于利用图像生成模型生成与第一提示词匹配的调整图像。
[0173] 其中,在图像编辑指令为调色指令或变形指令的情况下,第一生成信息包括参考图像,且参考图像包含待调整区域内的像素。生成模块83包括第二生成子模块,第二生成子模块用于基于当前的指令类别,对参考图像所包含的像素进行调整,得到调整图像。
[0174] 其中,在图像编辑指令为删除指令的情况下,第一生成信息包括参考图像,且参考图像包含距离待调整区域预设范围内的像素。生成模块83包括第三生成子模块,第三生成子模块用于基于参考图像所包含的像素,生成与待调整区域匹配的调整图像。
[0175] 其中,图像生成装置80还包括分割模块,用于在获取与待调整区域关联的参考图像和第一提示词中的至少一种,作为第一生成信息之前,对第一生成图像进行语义分割,得到语义分割结果;响应选择第二子区域或选择至少一个第一子区域的选择操作,将被选中的区域作为待调整区域,其中,语义分割结果包括对第一生成图像分割得到的若干第一子区域,且第一生成图像之外的其他区域作为第二子区域。
[0176] 其中,第一获取模块81包括获取子模块、提取子模块、第四生成子模块,获取子模块用于获取输入信息,提取子模块用于从输入信息中提取第二生成信息;其中,输入信息包括输入语音、输入文本和输入图像中至少一者,第二生成信息用于指示图像生成模型生成第一生成图像,第二生成信息包括第二提示词和输入图像信息中的至少一者;第四生成子模块用于利用图像生成模型生成与第二生成信息匹配的第一生成图像。
[0177] 其中,图像生成装置80还包括识别模块,在输入信息包括输入语音的情况下,用于在从输入信息中提取第二生成信息之前,对输入语音进行语音识别,得到识别文本,利用识别文本更新输入文本。提取子模块包括关键词提取单元,用于在输入信息包括输入文本的情况下,从输入文本中提取若干文本关键词,将文本关键词作为第二提示词。
[0178] 其中,提取子模块包括备选提取单元和选择单元,备选提取单元用于在输入信息包括输入图像且输入图像为设备采集到的图像的情况下,对输入图像进行场景识别,得到场景类别作为第一备选提示词,对输入图像进行语义分割,得到若干物体类别作为第二备选提示词,对输入图像进行关键词分析,得到图像关键词作为第三备选提示词;响应于获得指定相似度,选择单元用于基于指定相似度所处的相似度区间,在第一备选提示词、第二备选提示词和第三备选提示词中,选择第二提示词;其中,指定相似度用于指示输入图像与第一生成图像之间的相似度,第二提示词的数量与指定相似度的数值正相关。
[0179] 其中,提取子模块包括第一分析单元,用于在输入信息包括输入图像且输入图像为设备采集到的图像的情况下,对输入图像进行关键词分析,得到图像关键词作为第二提示词,以及获取输入图像中物体的特征信息作为输入图像信息。
[0180] 其中,提取子模块包括第二分析单元,用于在输入信息包括输入图像且输入图像为用户绘制的图像的情况下,对输入图像进行语义分析,得到图像语义作为输入图像信息。
[0181] 其中,图像生成装置80还包括更新模块,用于在利用调整图像对待调整区域进行调整,得到第二生成图像之后,将第二生成图像更新为第一生成图像;
[0182] 图像生成装置80还包括编辑模块,响应于获得图像编辑指令,用于重新执行获取与待调整区域关联的参考图像或第一提示词,作为第一生成信息的步骤;图像生成装置80还包括输出模块,响应于获得图像直接输出指令,用于将当前的第一生成图像作为目标生成图像;图像生成装置还包括转换输出模块,响应于获得图像转换输出指令,用于基于图像转换输出指令,对当前的第一生成图像进行转换,得到目标生成图像;其中,图像转换输出指令包括风格转换指令和超分辨率重建指令中的至少一者。
[0183] 请参阅图9,图9是本申请电子设备一实施例的框架示意图。
[0184] 本实施例中,电子设备90包括存储器91、处理器92,其中存储器91耦接处理器92。具体地,电子设备90的各个组件可通过总线耦合在一起,或者电子设备90的处理器92分别与其他组件一一连接。该电子设备90可以为具有处理能力的任意设备,例如计算机、平板电脑、手机等。
[0185] 存储器91用于存储处理器92执行的程序指令以及处理器92在处理过程中的数据等。例如,第一生成图像、第二生成图像等。其中,该存储器91包括非易失性存储部分,用于存储上述程序指令。
[0186] 处理器92控制电子设备90的操作,处理器92还可以称为CPU(Central Processing Unit,中央处理单元)。处理器92可能是一种集成电路芯片,具有信号的处理能力。处理器92还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器92可以由多个成电路芯片共同实现。
[0187] 处理器92通过调用存储器91存储的程序指令,用于执行指令以实现上述任一图像生成方法。
[0188] 请参阅图10,图10是本申请计算机可读存储介质一实施例的框架示意图。
[0189] 本实施例中,该计算机可读存储介质100存储有处理器可运行的程序指令101,该程序指令101能够被执行,用以实现上述任一图像生成方法。
[0190] 该计算机可读存储介质100具体可以为U盘、移动硬盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储程序指令的介质,或者也可以为存储有该程序指令的服务器,该服务器可将存储的程序指令发送给其他设备运行,或者也可以自运行该存储的程序指令。
[0191] 在一些实施例中,计算机可读存储介质100还可以为如图9所示的存储器。
[0192] 以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。