基于AIGC的文章编辑自动插图方法、装置、设备及存储介质转让专利

申请号 : CN202311070425.5

文献号 : CN117078802B

文献日 : 2024-02-13

本发明公开了一种基于AIGC的文章编辑自动插图方法、装置、设备及存储介质，涉及信息处理技术领域。所述方法是在获取待插图文章、绘画风格关键词和绘画类型关键词后，先确定需要绘图的目标自然段以及从该自然段中提取出绘画提示词组，然后将关键词和绘画提示词组导入AI绘图工具，输出得到多张绘制图，再然后根据各张绘制图的图像特征和目标自然段的文本特征，确定各张绘制图与目标自然段的图文一致性程度，最后将具有最高图文一致性程度的且该最高图文一致性程度超过预设程度阈值的某个绘制图作为目标插图，插入到待插图文章中，如此可无需文章作者人工绘图，实现在解放作者的同时还能快速得到图文并茂的以及确保图文一致性的新文章的目的。

1.一种基于AIGC的文章编辑自动插图方法，其特征在于，包括：

获取待插图文章、绘画风格关键词和绘画类型关键词，其中，所述待插图文章包含有多个自然段；

从所述多个自然段中确定出需要绘图的至少一个目标自然段，具体包括：针对在所述多个自然段中的各个自然段，先使用分词工具对对应自然段进行分词处理，得到对应的分词结果，然后根据该分词结果统计得到对应的实词数量，最后若该实词数量超过预设词数阈值，则将对应自然段确定为需要绘图的目标自然段；按照自然段在所述待插图文章中的先后顺序，若有依次连续的M个自然段的实词数量均未超过所述预设词数阈值，则按照所述先后顺序将在所述M个自然段中的第m 个自然段确定为需要绘图的目标自然段，其中，M表示大于等于7的正整数，m=k×(T+1)，k表示小于等于K的正整数，K=Round((M‑2*T)÷(T+

1))，T表示预设的自然段间隔最小数目且小于M÷2，Round()表示向上取整函数；

针对在所述至少一个目标自然段中的各个目标自然段，从对应自然段中提取出对应的绘画提示词组，其中，所述绘画提示词组包含有名词／和与该名词关联的动词、形容词、数词和/或量词；

针对所述各个目标自然段，将所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的多张绘制图，具体包括：按照目标自然段在所述待插图文章中的先后顺序，若是针对首个目标自然段，则先根据对应自然段在当前所属页面的位置确定对应的插图尺寸大小，然后再将该插图尺寸大小、所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的且分别符合该插图尺寸大小的多张绘制图，其中，该插图尺寸大小满足如下条件：与所述首个目标自然段对应的插图在插入文章后与所述首个目标自然段处于同一页面；按照目标自然段在所述待插图文章中的先后顺序，若是针对非首个目标自然段，则在完成插入与前一个目标自然段对应的插图后，再根据对应自然段在当前所属页面的位置确定对应的插图尺寸大小，最后将该插图尺寸大小、所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的且分别符合该插图尺寸大小的多张绘制图，其中，该插图尺寸大小满足如下条件：与所述非首个目标自然段对应的插图在插入文章后与所述非首个目标自然段处于同一页面；

针对所述各个目标自然段，先使用预训练的BERT网络模型提取对应自然段的文本特征，以及使用预训练的VGG19卷积神经网络模型提取在对应的多张绘制图中的各张绘制图的图像特征，然后根据所述各张绘制图的图像特征和对应自然段的文本特征，确定所述各张绘制图与对应自然段的图文一致性程度，最后将具有最高图文一致性程度的且该最高图文一致性程度超过预设程度阈值的某个绘制图作为对应的插图，插入到所述待插图文章中的对应自然段与前一自然段之间或者对应自然段与后一自然段之间。

2.根据权利要求1所述的文章编辑自动插图方法，其特征在于，针对在所述至少一个目标自然段中的某个目标自然段，从对应自然段中提取出对应的绘画提示词组，包括：使用分词工具对所述某个目标自然段进行分词处理，得到所述某个目标自然段的分词结果；

根据所述某个目标自然段的分词结果，统计得到在所述某个目标自然段中的各个名词的出现频次；

将在所述某个目标自然段中的且按出现频次从高至低顺序排列的前N个名词分别作为绘画提示词，其中，N表示预设的正整数且取值范围为[1,10]；

针对在所述前N个名词中的各个名词，根据所述某个目标自然段的分词结果查找与对应名词关联的动词、形容词、数词和/或量词，并将查找到的词也作为绘画提示词；

汇总所有的绘画提示词，得到所述某个目标自然段的绘画提示词组。

3.根据权利要求1所述的文章编辑自动插图方法，其特征在于，针对在所述至少一个目标自然段中的某个目标自然段，根据对应的某张绘制图的图像特征和对应自然段的文本特征，确定该某张绘制图与对应自然段的图文一致性程度，包括：将所述某张绘制图的图像特征输入第一全连接层中，以便经过所述第一全连接层处理得到完成维度变换的新图像特征；

将所述某个目标自然段的文本特征输入第二全连接层中，以便经过所述第二全连接层处理得到完成维度变换的新文本特征，其中，所述新文本特征与所述新图像特征具有相同的尺寸大小；

对所述新文本特征和所述新图像特征进行拼接处理，得到组合特征；

将所述组合特征输入基于LightGBM的且已预先完成二分类训练的图文一致检测模型，输出得到将所述某张绘制图和所述某个目标自然段划分为图文一致类别的概率；

将所述概率确定为所述某张绘制图与所述某个目标自然段的图文一致性程度。

4.根据权利要求3所述的文章编辑自动插图方法，其特征在于，在所述图文一致检测模型的二分类训练过程中，采用基于树结构的贝叶斯优化算法对模型参数进行调优。

5.一种基于AIGC的文章编辑自动插图装置，其特征在于，包括有信息获取模块、目标段落确定模块、提示词提取模块、绘图模块和选图模块；

所述信息获取模块，用于获取待插图文章、绘画风格关键词和绘画类型关键词，其中，所述待插图文章包含有多个自然段；

所述目标段落确定模块，通信连接所述信息获取模块，用于从所述多个自然段中确定出需要绘图的至少一个目标自然段，具体包括：针对在所述多个自然段中的各个自然段，先使用分词工具对对应自然段进行分词处理，得到对应的分词结果，然后根据该分词结果统计得到对应的实词数量，最后若该实词数量超过预设词数阈值，则将对应自然段确定为需要绘图的目标自然段；按照自然段在所述待插图文章中的先后顺序，若有依次连续的M个自然段的实词数量均未超过所述预设词数阈值，则按照所述先后顺序将在所述M个自然段中的第m 个自然段确定为需要绘图的目标自然段，其中，M表示大于等于7的正整数，m=k×(T+

1)，k表示小于等于K的正整数，K=Round((M‑2*T)÷(T+1))，T表示预设的自然段间隔最小数目且小于M÷2，Round()表示向上取整函数；

所述提示词提取模块，通信连接所述目标段落确定模块，用于针对在所述至少一个目标自然段中的各个目标自然段，从对应自然段中提取出对应的绘画提示词组，其中，所述绘画提示词组包含有名词／和与该名词关联的动词、形容词、数词和/或量词；

所述绘图模块，分别通信连接所述信息获取模块和所述提示词提取模块，用于针对所述各个目标自然段，将所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的多张绘制图，具体包括：按照目标自然段在所述待插图文章中的先后顺序，若是针对首个目标自然段，则先根据对应自然段在当前所属页面的位置确定对应的插图尺寸大小，然后再将该插图尺寸大小、所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的且分别符合该插图尺寸大小的多张绘制图，其中，该插图尺寸大小满足如下条件：与所述首个目标自然段对应的插图在插入文章后与所述首个目标自然段处于同一页面；按照目标自然段在所述待插图文章中的先后顺序，若是针对非首个目标自然段，则在完成插入与前一个目标自然段对应的插图后，再根据对应自然段在当前所属页面的位置确定对应的插图尺寸大小，最后将该插图尺寸大小、所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的且分别符合该插图尺寸大小的多张绘制图，其中，该插图尺寸大小满足如下条件：与所述非首个目标自然段对应的插图在插入文章后与所述非首个目标自然段处于同一页面；

所述选图模块，通信连接所述绘图模块，用于针对所述各个目标自然段，先使用预训练的BERT网络模型提取对应自然段的文本特征，以及使用预训练的VGG19卷积神经网络模型提取在对应的多张绘制图中的各张绘制图的图像特征，然后根据所述各张绘制图的图像特征和对应自然段的文本特征，确定所述各张绘制图与对应自然段的图文一致性程度，最后将具有最高图文一致性程度的且该最高图文一致性程度超过预设程度阈值的某个绘制图作为对应的插图，插入到所述待插图文章中的对应自然段与前一自然段之间或者对应自然段与后一自然段之间。

6.一种计算机设备，其特征在于，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～4中任意一项所述的文章编辑自动插图方法。

7.一种计算机可读存储介质，其特征在于,所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～4中任意一项所述的文章编辑自动插图方法。

基于AIGC的文章编辑自动插图方法、装置、设备及存储介质

技术领域

[0001] 本发明属于信息处理技术领域，具体涉及一种基于AIGC的文章编辑自动插图方法、装置、设备及存储介质。

背景技术

[0002] 现有诸如小说、记叙文、说明文和应用文等的文章普遍以纯文字描述为主，而缺少相应图片以达成互相陪衬和相得益彰的展示效果，使得读者有时理解不易，可能造成阅读困难和阅读体验有限的问题。究其原因，主要还是在于文章作者因绘图水平有限，需要消耗大量精力才能绘制出与文字描述配合具有图文并茂效果的展示图片，因此很多文章都因缺少这些展示图片而导致文章质量受限。

[0003] 目前，随着GAN(Generative Adversarial Network,生成对抗网络)、预训练模型、多模态技术和生成算法等技术的累积融合，已催生了AIGC(Artificial Intelligence Generated Conten，生成式人工智能)技术的爆发，特别是基于AIGC的AI绘图工具(例如Midjourrney、Dell‑E、Stable Diffusion、NovelAI和Disco Diffusion等AI绘图软件)的应用热潮，更是证明了AIGC是人工智能1.0时代进入2.0时代的重要标志。因此如何应用基于AIGC的AI绘图工具，对纯文字版的待插图文章进行自动插图的再编辑，以便解放文章作者和快速得到图文并茂的新文章，是本领域技术人员亟需研究的课题。

发明内容

[0004] 本发明的目的是提供一种基于AIGC的文章编辑自动插图方法、装置、计算机设备及计算机可读存储介质，用以解决在现有文章编辑过程中需要人工绘制展示图片，进而导致需要消耗文章作者大量精力以及文章质量受限的问题。

[0005] 为了实现上述目的，本发明采用以下技术方案：

[0006] 第一方面，提供了一种基于AIGC的文章编辑自动插图方法，包括：

[0007] 获取待插图文章、绘画风格关键词和绘画类型关键词，其中，所述待插图文章包含有多个自然段；

[0008] 从所述多个自然段中确定出需要绘图的至少一个目标自然段；

[0009] 针对在所述至少一个目标自然段中的各个目标自然段，从对应自然段中提取出对应的绘画提示词组，其中，所述绘画提示词组包含有名词/和与该名词关联的动词、形容词、数词和/或量词；

[0010] 针对所述各个目标自然段，将所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的多张绘制图；

[0011] 针对所述各个目标自然段，先使用预训练的BERT网络模型提取对应自然段的文本特征，以及使用预训练的VGG19卷积神经网络模型提取在对应的多张绘制图中的各张绘制图的图像特征，然后根据所述各张绘制图的图像特征和对应自然段的文本特征，确定所述各张绘制图与对应自然段的图文一致性程度，最后将具有最高图文一致性程度的且该最高图文一致性程度超过预设程度阈值的某个绘制图作为对应的插图，插入到所述待插图文章中的对应自然段与前一自然段之间或者对应自然段与后一自然段之间。

[0012] 基于上述发明内容，提供了一种应用基于AIGC的AI绘图工具对待插图文章进行自动插图的再编辑方案，即在获取待插图文章、绘画风格关键词和绘画类型关键词后，先确定需要绘图的目标自然段以及从该自然段中提取出绘画提示词组，然后将所述绘画风格关键词、所述绘画类型关键词和所述绘画提示词组导入基于AIGC的AI绘图工具，输出得到多张绘制图，再然后根据各张绘制图的图像特征和目标自然段的文本特征，确定所述各张绘制图与目标自然段的图文一致性程度，最后将具有最高图文一致性程度的且该最高图文一致性程度超过预设程度阈值的某个绘制图作为目标插图，插入到所述待插图文章中，如此可无需文章作者人工绘图，实现在解放作者的同时还能快速得到图文并茂的以及确保图文一致性的新文章的目的，进而可打破文章质量的当前限制，使读者更易阅读理解，便于实际应用和推广。

[0013] 在一个可能的设计中，从所述多个自然段中确定出需要绘图的至少一个目标自然段，包括：

[0014] 针对在所述多个自然段中的各个自然段，先使用分词工具对对应自然段进行分词处理，得到对应的分词结果，然后根据该分词结果统计得到对应的实词数量，最后若该实词数量超过预设词数阈值，则将对应自然段确定为需要绘图的目标自然段。

[0015] 在一个可能的设计中，从所述多个自然段中确定出需要绘图的至少一个目标自然段，还包括：

[0016] 按照自然段在所述待插图文章中的先后顺序，若有依次连续的M个自然段的实词数量均未超过所述预设词数阈值，则按照所述先后顺序将在所述M个自然段中的第m个自然段确定为需要绘图的目标自然段，其中，M表示大于等于7的正整数，m＝k×(T+1)，k表示小于等于K的正整数，K＝Round((M‑2*T)÷(T+1))，T表示预设的自然段间隔最小数目且小于M÷2，Round()表示向上取整函数。

[0017] 在一个可能的设计中，针对在所述至少一个目标自然段中的某个目标自然段，从对应自然段中提取出对应的绘画提示词组，包括：

[0018] 使用分词工具对所述某个目标自然段进行分词处理，得到所述某个目标自然段的分词结果；

[0019] 根据所述某个目标自然段的分词结果，统计得到在所述某个目标自然段中的各个名词的出现频次；

[0020] 将在所述某个目标自然段中的且按出现频次从高至低顺序排列的前N个名词分别作为绘画提示词，其中，N表示预设的正整数且取值范围为[1,10]；

[0021] 针对在所述前N个名词中的各个名词，根据所述某个目标自然段的分词结果查找与对应名词关联的动词、形容词、数词和/或量词，并将查找到的词也作为绘画提示词；

[0022] 汇总所有的绘画提示词，得到所述某个目标自然段的绘画提示词组。

[0023] 在一个可能的设计中，针对所述各个目标自然段，将所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的多张绘制图，包括：

[0024] 按照目标自然段在所述待插图文章中的先后顺序，若是针对首个目标自然段，则先根据对应自然段在当前所属页面的位置确定对应的插图尺寸大小，然后再将该插图尺寸大小、所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的且分别符合该插图尺寸大小的多张绘制图，其中，该插图尺寸大小满足如下条件：与所述首个目标自然段对应的插图在插入文章后与所述首个目标自然段处于同一页面；

[0025] 按照目标自然段在所述待插图文章中的先后顺序，若是针对非首个目标自然段，则在完成插入与前一个目标自然段对应的插图后，再根据对应自然段在当前所属页面的位置确定对应的插图尺寸大小，最后将该插图尺寸大小、所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的且分别符合该插图尺寸大小的多张绘制图，其中，该插图尺寸大小满足如下条件：与所述非首个目标自然段对应的插图在插入文章后与所述非首个目标自然段处于同一页面。

[0026] 在一个可能的设计中，针对在所述至少一个目标自然段中的某个目标自然段，根据对应的某张绘制图的图像特征和对应自然段的文本特征，确定该某张绘制图与对应自然段的图文一致性程度，包括：

[0027] 将所述某张绘制图的图像特征输入第一全连接层中，以便经过所述第一全连接层处理得到完成维度变换的新图像特征；

[0028] 将所述某个目标自然段的文本特征输入第二全连接层中，以便经过所述第二全连接层处理得到完成维度变换的新文本特征，其中，所述新文本特征与所述新图像特征具有相同的尺寸大小；

[0029] 对所述新文本特征和所述新图像特征进行拼接处理，得到组合特征；

[0030] 将所述组合特征输入基于LightGBM的且已预先完成二分类训练的图文一致检测模型，输出得到将所述某张绘制图和所述某个目标自然段划分为图文一致类别的概率；

[0031] 将所述概率确定为所述某张绘制图与所述某个目标自然段的图文一致性程度。

[0032] 在一个可能的设计中，在所述图文一致检测模型的二分类训练过程中，采用基于树结构的贝叶斯优化算法对模型参数进行调优。

[0033] 第二方面，提供了一种基于AIGC的文章编辑自动插图装置，包括有信息获取模块、目标段落确定模块、提示词提取模块、绘图模块和选图模块；

[0034] 所述信息获取模块，用于获取待插图文章、绘画风格关键词和绘画类型关键词，其中，所述待插图文章包含有多个自然段；

[0035] 所述目标段落确定模块，通信连接所述信息获取模块，用于从所述多个自然段中确定出需要绘图的至少一个目标自然段；

[0036] 所述提示词提取模块，通信连接所述目标段落确定模块，用于针对在所述至少一个目标自然段中的各个目标自然段，从对应自然段中提取出对应的绘画提示词组，其中，所述绘画提示词组包含有名词/和与该名词关联的动词、形容词、数词和/或量词；

[0037] 所述绘图模块，分别通信连接所述信息获取模块和所述提示词提取模块，用于针对所述各个目标自然段，将所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的多张绘制图；

[0038] 所述选图模块，通信连接所述绘图模块，用于针对所述各个目标自然段，先使用预训练的BERT网络模型提取对应自然段的文本特征，以及使用预训练的VGG19卷积神经网络模型提取在对应的多张绘制图中的各张绘制图的图像特征，然后根据所述各张绘制图的图像特征和对应自然段的文本特征，确定所述各张绘制图与对应自然段的图文一致性程度，最后将具有最高图文一致性程度的且该最高图文一致性程度超过预设程度阈值的某个绘制图作为对应的插图，插入到所述待插图文章中的对应自然段与前一自然段之间或者对应自然段与后一自然段之间。

[0039] 第三方面，本发明提供了一种计算机设备，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面或第一方面中任意可能设计所述的文章编辑自动插图方法。

[0040] 第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面或第一方面中任意可能设计所述的文章编辑自动插图方法。

[0041] 第五方面，本发明提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面或第一方面中任意可能设计所述的文章编辑自动插图方法。

[0042] 上述方案的有益效果：

[0043] (1)本发明创造性提供了一种应用基于AIGC的AI绘图工具对待插图文章进行自动插图的再编辑方案，即在获取待插图文章、绘画风格关键词和绘画类型关键词后，先确定需要绘图的目标自然段以及从该自然段中提取出绘画提示词组，然后将所述绘画风格关键词、所述绘画类型关键词和所述绘画提示词组导入基于AIGC的AI绘图工具，输出得到多张绘制图，再然后根据各张绘制图的图像特征和目标自然段的文本特征，确定所述各张绘制图与目标自然段的图文一致性程度，最后将具有最高图文一致性程度的且该最高图文一致性程度超过预设程度阈值的某个绘制图作为目标插图，插入到所述待插图文章中，如此可无需文章作者人工绘图，实现在解放作者的同时还能快速得到图文并茂的以及确保图文一致性的新文章的目的，进而可打破文章质量的当前限制，使读者更易阅读理解，便于实际应用和推广。

附图说明

[0044] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0045] 图1为本申请实施例提供的基于AIGC的文章编辑自动插图方法的流程示意图。

[0046] 图2为本申请实施例提供的图文一致性程度确定过程的示例图。

[0047] 图3为本申请实施例提供的基于AIGC的文章编辑自动插图装置的结构示意图。

[0048] 图4为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

[0049] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍，显而易见地，下面关于附图结构的描述仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

[0050] 应当理解，尽管本文可能使用术语第一和第二等等来描述各种对象，但是这些对象不应当受到这些术语的限制。这些术语仅用于区分一个对象和另一个对象。例如可以将第一对象称作第二对象,并且类似地可以将第二对象称作第一对象，同时不脱离本发明的示例实施例的范围。

[0051] 应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A、单独存在B或者同时存在A和B等三种情况；又例如，A、B和/或C，可以表示存在A、B和C中的任意一种或他们的任意组合；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A或者同时存在A和B等两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

[0052] 实施例：

[0053] 如图1所示，本实施例第一方面提供的且基于AIGC的文章编辑自动插图方法，可以但不限于由具有一定计算资源的计算机设备执行，例如由平台服务器、个人计算机(Personal Computer，PC，指一种大小、价格和性能适用于个人使用的多用途计算机；台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(Personal Digital Assistant，PDA)或可穿戴设备等电子设备执行。如图1所示，所述文章编辑自动插图方法，可以但不限于包括有如下步骤S1～S5。

[0054] S1.获取待插图文章、绘画风格关键词和绘画类型关键词，其中，所述待插图文章包含但不限于有多个自然段。

[0055] 在所述步骤S1中，所述待插图文章可以但不限于为以纯文字描述为主的小说、记叙文、说明文和应用文等文章，其可以由文章作者上传得到。具体的，所述绘画风格关键词可以但不限于为古典主义、新古典主义、浪漫主义、现实主义、印象派、后印象派、立体主义、抽象主义、达达主义、现代派或未来派等关键词；所述绘画类型关键词可以但不限于为水墨画、油画、版画、水粉画、壁画、漫画、工笔画、写意画、抽象画、青绿山水画、水墨山水画、白描画、指画、界画、内画和素描画等关键词；所述绘画风格关键词和所述绘画类型关键词可以由所述文章作者根据所述待插图文章的风格来自行确定并输入得到。此外，由于所述自然段是指文艺作品中作者根据作品内容和主线进度安排的且独立的一段文字，可以表达一个较为清晰的场景、概念和动作等，并是构成作品除词语和句子之外的最小语言单位，因此后续是针对自然段来进行独立绘图，以便使该自然段具有图文并茂的展示效果。

[0056] S2.从所述多个自然段中确定出需要绘图的至少一个目标自然段。

[0057] 在所述步骤S2中，考虑不同自然段具有长短不一特点，使得读者对不同自然段的纯文字理解容易程度也不一样，同时考虑文章篇幅是有限的，因此也并非每个自然段都需要绘图，进而需要从所述多个自然段中确定出需要绘图的至少一个目标自然段。还考虑在自然段中实词(即表示具体概念的词，具体有名词、动词、形容词、数词和量词等)数量与读者的理解容易程度具有一定的正相关关系(即实词数量越多，理解越困难)，因此为了精准确定需要绘图的目标自然段，优选的，从所述多个自然段中确定出需要绘图的至少一个目标自然段，包括但不限于有：针对在所述多个自然段中的各个自然段，先使用分词工具对对应自然段进行分词处理，得到对应的分词结果，然后根据该分词结果统计得到对应的实词数量，最后若该实词数量超过预设词数阈值，则将对应自然段确定为需要绘图的目标自然段。所述分词工具可以但不限于具体采用现有的jieba分词工具；所述预设词数阈值可以根据需要具体设定，例如为20。此外，若所述文章作者已预先设置了插图数量X，则从所述多个自然段中确定出需要绘图的至少一个目标自然段，包括但不限于有：针对在所述多个自然段中的各个自然段，先使用分词工具对对应自然段进行分词处理，得到对应的分词结果，然后根据该分词结果统计得到对应的实词数量；将按实词数量从高至低顺序排列的前X个自然段分别作为需要绘图的目标自然段，其中，X表示正整数且小于所述多个自然段的自然段总数。

[0058] 在所述步骤S2中，还考虑存在连续多个自然段的实词数量均未超过所述预设词数阈值的情况，为了实现利于读者更容易理解在这些自然段中的某些自然段的目的，进一步优选的，从所述多个自然段中确定出需要绘图的至少一个目标自然段，还包括但不限于有：按照自然段在所述待插图文章中的先后顺序，若有依次连续的M个自然段的实词数量均未超过所述预设词数阈值，则按照所述先后顺序将在所述M个自然段中的第m个自然段确定为需要绘图的目标自然段，其中，M表示大于等于7的正整数，m＝k×(T+1)，k表示小于等于K的正整数，K＝Round((M‑2*T)÷(T+1))，T表示预设的自然段间隔最小数目且小于M÷2，Round()表示向上取整函数。举例的，若有依次连续的自然段A、自然段B、自然段C、自然段D、自然段E、自然段F和自然段G的实词数量均未超过所述预设词数阈值(即M＝7)，以及预设有T＝
3，则可以确定自然段D为需要绘图的目标自然段(即K＝1，m＝4),以便使该自然段D更容易被读者阅读理解。

[0059] S3.针对在所述至少一个目标自然段中的各个目标自然段，从对应自然段中提取出对应的绘画提示词组，其中，所述绘画提示词组包含但不限于有名词/和与该名词关联的动词、形容词、数词和/或量词等。

[0060] 在所述步骤S3中，所述绘画提示词组用于作为AI绘图工具的输入信息之一，其可以仅有名词，也可以有名词和与该名词关联的动词、形容词、数词和/或量词等，其中，与该名词关联的动词是指当该名词为主语或宾语时的谓语动词(例如在“捡起鸡蛋”中“捡起”)，与该名词关联的形容词是指用于限定该名词的修饰用词(例如在“椭圆形鸡蛋”中“椭圆形”)，与该名词关联的数词是指用于限定该名词的数目用词(例如在“十个鸡蛋”中的“十个”)，与该名词关联的量词是指用于限定该名词的量度用词(例如在“一篮鸡蛋”中的“一篮”)，等等。考虑词频与词重要性具有一定的正相关性(即词频越高，词越重要)，因此为了精准确定最需要展示的名词及其它词，具体的，针对在所述至少一个目标自然段中的某个目标自然段，从对应自然段中提取出对应的绘画提示词组，包括但不限于有如下步骤S31～S35。

[0061] S31.使用分词工具对所述某个目标自然段进行分词处理，得到所述某个目标自然段的分词结果。

[0062] 在所述步骤S31中，所述分词工具同样可以但不限于具体采用现有的jieba分词工具。

[0063] S32.根据所述某个目标自然段的分词结果，统计得到在所述某个目标自然段中的各个名词的出现频次。

[0064] S33.将在所述某个目标自然段中的且按出现频次从高至低顺序排列的前N个名词分别作为绘画提示词，其中，N表示预设的正整数且取值范围为[1,10]。

[0065] 在所述步骤S33中，N可以举例取值为3。

[0066] S34.针对在所述前N个名词中的各个名词，根据所述某个目标自然段的分词结果查找与对应名词关联的动词、形容词、数词和/或量词，并将查找到的词也作为绘画提示词。

[0067] 在所述步骤S34中，若查找到的词有多个，也可以将按出现频次从高至低顺序排列的前有限个词分别作为绘画提示词。

[0068] S35.汇总所有的绘画提示词，得到所述某个目标自然段的绘画提示词组。

[0069] S4.针对所述各个目标自然段，将所述绘画风格关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的多张绘制图。

[0070] 在所述步骤S4中，所述AI绘图工具为现有绘图软件，可以但不限于包括有Midjourrney、Dell‑E、Stable Diffusion、NovelAI和Disco Diffusion等AI绘图软件，由于这些软件属于大模型，具有参数多、训练时间长、泛化性好、通用性强和实用性高等特点，并可适用于各种场景的绘图，因此可以很好的适用于本实施例。考虑图文在同一页面时具有更好的图文并茂效果，因此为了确保目标自然段与插图能够在插入后位于同一页面中，优选的，针对所述各个目标自然段，将所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的多张绘制图，包括但不限于有：按照目标自然段在所述待插图文章中的先后顺序，若是针对首个目标自然段，则先根据对应自然段在当前所属页面的位置确定对应的插图尺寸大小，然后再将该插图尺寸大小、所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的且分别符合该插图尺寸大小的多张绘制图，其中，该插图尺寸大小满足如下条件：与所述首个目标自然段对应的插图在插入文章后与所述首个目标自然段处于同一页面；而按照目标自然段在所述待插图文章中的先后顺序，若是针对非首个目标自然段，则在完成插入与前一个目标自然段对应的插图后，再根据对应自然段在当前所属页面的位置确定对应的插图尺寸大小，最后将该插图尺寸大小、所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的且分别符合该插图尺寸大小的多张绘制图，其中，该插图尺寸大小满足如下条件：与所述非首个目标自然段对应的插图在插入文章后与所述非首个目标自然段处于同一页面。前述的插图尺寸大小可以具体按照如下方式确定：插图宽度小于等于对应目标自然段的所占区域宽度，插图高度大于等于预设的最小高度值且小于从对应目标自然段的首行至页眉线的距离或者小于从对应目标自然段的末行至页脚线的距离。

[0071] S5.针对所述各个目标自然段，先使用预训练的BERT网络模型提取对应自然段的文本特征，以及使用预训练的VGG19卷积神经网络模型提取在对应的多张绘制图中的各张绘制图的图像特征，然后根据所述各张绘制图的图像特征和对应自然段的文本特征，确定所述各张绘制图与对应自然段的图文一致性程度，最后将具有最高图文一致性程度的且该最高图文一致性程度超过预设程度阈值的某个绘制图作为对应的插图，插入到所述待插图文章中的对应自然段与前一自然段之间或者对应自然段与后一自然段之间。

[0072] 在所述步骤S5中，所述BERT(即Bidirectional Encoder Representations from Transformer的缩写,意为基于Transformer的双向编码器表示)网络模型是一个现有的且预训练的语言表征模型，因此可以应用在本实施例中实现很好的文本特征提取。所述VGG19卷积神经网络模型是一个深度卷积神经网络,由牛津大学的Visual Geometry Group开发并命名(这个名字中的"19"代表着它的网络深度——总共有19层,这包括卷积层和全连接层)；由于它常应用在人脸识别和图像分类等方面，因此也可以应用在本实施例中实现很好的图像特征提取。由于是将具有最高图文一致性程度的且该最高图文一致性程度超过预设程度阈值的某个绘制图作为目标插图插入到所述待插图文章中，可以通过择优选图确保在图文并茂的同时还能实现最高的图文一致性目的，保障最终所得文章的质量。此外，若所有绘制图与对应自然段的图文一致性程度均未超过所述预设程度阈值，则需要再次执行步骤S4～S5，以便重新生成绘制图并进行选图，而若多次执行步骤S4～S5，还是未能找到可用的插图，则还可以返回执行步骤S3，以便在调整名词选取数量(即增大N或缩小N)后重新提取绘画提示词组，然后再次执行步骤S4～S5，直到找到可用的插图。

[0073] 在所述步骤S5中，如图2所示，具体的，针对在所述至少一个目标自然段中的某个目标自然段，根据对应的某张绘制图的图像特征和对应自然段的文本特征，确定该某张绘制图与对应自然段的图文一致性程度，包括但不限于有如下步骤S51～S55。

[0074] S51.将所述某张绘制图的图像特征输入第一全连接层中，以便经过所述第一全连接层处理得到完成维度变换的新图像特征。

[0075] 在所述步骤S51中，由于全连接层是常用于实现特征维度变换的现有网络结构，因此可以通过所述第一全连接层处理得到所述新图像特征。举例的，所述第一全连接层为一个1000×32的且神经元数目为4096的全连接层，以便得到尺寸大小为32×32的所述新图像特征。

[0076] S52.将所述某个目标自然段的文本特征输入第二全连接层中，以便经过所述第二全连接层处理得到完成维度变换的新文本特征，其中，所述新文本特征与所述新图像特征具有相同的尺寸大小。

[0077] 在所述步骤S52中，举例的，所述第二全连接层为一个768×32的且神经元数目为4096的全连接层，以便得到尺寸大小为32×32的所述新文本特征。

[0078] S53.对所述新文本特征和所述新图像特征进行拼接处理，得到组合特征。

[0079] 在所述步骤S53中，所述新文本特征和所述新图像特征的尺寸大小分别为32×32，则可以拼接得到尺寸大小为32×64的所述组合特征。

[0080] S54.将所述组合特征输入基于LightGBM的且已预先完成二分类训练的图文一致检测模型，输出得到将所述某张绘制图和所述某个目标自然段划分为图文一致类别的概率。

[0081] 在所述步骤S54中，所述LightGBM(Light Gradient Boosting Machine)是一个实现GBDT(Gradient Boosting Decision Tree，梯度增强决策树)算法的框架，可支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式和可以快速处理海量数据等优点，因此可以基于现有知识搭建并二分类训练得到所述图文一致检测模型(在其二分类训练过程中所用到的两个标签分别为：图文一致类别和图文不一致类别)。进一步优选的，在所述图文一致检测模型的二分类训练过程中，可以但不限于采用基于树结构的贝叶斯优化算法对模型参数进行调优。

[0082] S55.将所述概率确定为所述某张绘制图与所述某个目标自然段的图文一致性程度。

[0083] 由此基于前述步骤S1～S5所描述的且基于AIGC的文章编辑自动插图方法，提供了一种应用基于AIGC的AI绘图工具对待插图文章进行自动插图的再编辑方案，即在获取待插图文章、绘画风格关键词和绘画类型关键词后，先确定需要绘图的目标自然段以及从该自然段中提取出绘画提示词组，然后将所述绘画风格关键词、所述绘画类型关键词和所述绘画提示词组导入基于AIGC的AI绘图工具，输出得到多张绘制图，再然后根据各张绘制图的图像特征和目标自然段的文本特征，确定所述各张绘制图与目标自然段的图文一致性程度，最后将具有最高图文一致性程度的且该最高图文一致性程度超过预设程度阈值的某个绘制图作为目标插图，插入到所述待插图文章中，如此可无需文章作者人工绘图，实现在解放作者的同时还能快速得到图文并茂的以及确保图文一致性的新文章的目的，进而可打破文章质量的当前限制，使读者更易阅读理解，便于实际应用和推广。

[0084] 如图3所示，本实施例第二方面提供了一种实现第一方面所述的文章编辑自动插图方法的虚拟装置，包括有信息获取模块、目标段落确定模块、提示词提取模块、绘图模块和选图模块；

[0085] 所述信息获取模块，用于获取待插图文章、绘画风格关键词和绘画类型关键词，其中，所述待插图文章包含有多个自然段；

[0086] 所述目标段落确定模块，通信连接所述信息获取模块，用于从所述多个自然段中确定出需要绘图的至少一个目标自然段；

[0087] 所述提示词提取模块，通信连接所述目标段落确定模块，用于针对在所述至少一个目标自然段中的各个目标自然段，从对应自然段中提取出对应的绘画提示词组，其中，所述绘画提示词组包含有名词/和与该名词关联的动词、形容词、数词和/或量词；

[0088] 所述绘图模块，分别通信连接所述信息获取模块和所述提示词提取模块，用于针对所述各个目标自然段，将所述绘画风格关键词、所述绘画类型关键词和对应的绘画提示词组导入基于AIGC的AI绘图工具，输出得到对应的多张绘制图；

[0089] 所述选图模块，通信连接所述绘图模块，用于针对所述各个目标自然段，先使用预训练的BERT网络模型提取对应自然段的文本特征，以及使用预训练的VGG19卷积神经网络模型提取在对应的多张绘制图中的各张绘制图的图像特征，然后根据所述各张绘制图的图像特征和对应自然段的文本特征，确定所述各张绘制图与对应自然段的图文一致性程度，最后将具有最高图文一致性程度的且该最高图文一致性程度超过预设程度阈值的某个绘制图作为对应的插图，插入到所述待插图文章中的对应自然段与前一自然段之间或者对应自然段与后一自然段之间。

[0090] 本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果，可以参见第一方面所述的文章编辑自动插图方法，于此不再赘述。

[0091] 如图4所示，本实施例第三方面提供了一种执行如第一方面所述的文章编辑自动插图方法的计算机设备，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面所述的文章编辑自动插图方法。具体举例的，所述存储器可以但不限于包括随机存取存储器(Random‑Access Memory，RAM)、只读存储器(Read‑Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output，FIFO)和/或先进后出存储器(First Input Last Output，FILO)等等；所述处理器可以但不限于采用型号为STM32F105系列的微处理器。此外，所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。

[0092] 本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果，可以参见第一方面所述的文章编辑自动插图方法，于此不再赘述。

[0093] 本实施例第四方面提供了一种存储包含如第一方面所述的文章编辑自动插图方法的指令的计算机可读存储介质，即所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面所述的文章编辑自动插图方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等计算机可读存储介质，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。

[0094] 本实施例第四方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果，可以参见如第一方面所述的文章编辑自动插图方法，于此不再赘述。

[0095] 本实施例第五方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面所述的文章编辑自动插图方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。

[0096] 最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

基于AIGC的文章编辑自动插图方法、装置、设备及存储介质转让专利

申请号 : CN202311070425.5

文献号 : CN117078802B

文献日 : 2024-02-13

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 金聪 , 陈亮 , 李钊斌

申请人 : 中科智宏(北京)科技有限公司

摘要 :

权利要求 :

说明书 :