图像诗句描述生成方法、装置和设备转让专利

申请号 : CN202110451287.X

文献号 : CN113010717B

文献日 : 2022-04-22

本申请涉及图像诗句描述生成方法、装置和设备，方法包括：获取输入图像并采用CNN网络对输入图像进行多标签图像分类，确定输入图像的各分类标签以及标签对应的类别；根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词；关键词为被选中的标签对应的类别；利用隐藏元在初始状态的charRNN_1神经网络，分别在构建的n个诗歌感情训练集上进行训练，得到第i种感情下最后一个隐藏元的状态值statei；i＝1,2,…,n；将关键词和第i种感情下最后一个隐藏元的状态值statei，提供给已在诗歌语料库上预先训练好的charRNN_2神经网络，生成描述输入图像的第i种感情下的诗歌。通过上述方法，实现了对输入图像在不同语境感情下的诗句描述的生成。

1.一种图像诗句描述生成方法，其特征在于，包括步骤：获取输入图像并采用CNN网络对所述输入图像进行多标签图像分类，确定所述输入图像的各分类标签以及标签对应的类别；

根据各所述标签确定对所述输入图像的待生成诗歌每一行诗句的关键词；所述关键词为被选中的所述标签对应的类别；

利用隐藏元在初始状态的charRNN_1神经网络，分别在构建的n个诗歌感情训练集上进行训练，得到第i种感情下最后一个隐藏元的状态值statei；i＝1,2,…,n；

将所述关键词和所述第i种感情下最后一个隐藏元的状态值statei，提供给已在诗歌语料库上预先训练好的charRNN_2神经网络，生成描述所述输入图像的第i种感情下的诗歌；

所述的初始状态为h0，h0表示未通过诗歌感情训练集训练的隐藏元的状态值；

所述charRNN_1神经网络和所述charRNN_2神经网络均为charRNN神经网络，其中，数字

1和2均为标号。

2.根据权利要求1所述的图像诗句描述生成方法，其特征在于，根据各所述标签确定对所述输入图像的待生成诗歌每一行诗句的关键词的步骤，包括：若所述输入图像所属的所述标签的个数大于4，则从所有的所述标签中选中预测概率最大的前四个所述标签；

将选中的前四个所述标签分别对应的类别，确定为对所述输入图像的待生成诗歌每一行诗句的所述关键词。

3.根据权利要求1所述的图像诗句描述生成方法，其特征在于，根据各所述标签确定对所述输入图像的待生成诗歌每一行诗句的关键词的步骤，包括：若所述输入图像所属的所述标签的个数小于4，则以所述输入图像所属的类别为基础，采用基于循环神经网络语言模型和基于额外信息的关键词扩展方法进行关键词扩展，直至所述关键词个数扩展至四个；

将扩展后获得的四个所述关键词，确定为对所述输入图像的待生成诗歌每一行诗句的所述关键词。

4.根据权利要求1至3任一项所述的图像诗句描述生成方法，其特征在于，n个所述诗歌感情训练集的构建过程，包括：

分别采集表达n种感情的诗句，分别用采集的各所述诗句构成n个所述诗歌感情训练集；其中，同一种感情的所述诗句共同构成一个所述诗歌感情训练集。

5.一种图像诗句描述生成装置，其特征在于，包括：图像分类模块，用于获取输入图像并采用CNN网络对所述输入图像进行多标签图像分类，确定所述输入图像的各分类标签以及标签对应的类别；

关键词确定模块，用于根据各所述标签确定对所述输入图像的待生成诗歌每一行诗句的关键词；所述关键词为被选中的所述标签对应的类别；

状态获取模块，用于利用隐藏元在初始状态的charRNN_1神经网络，分别在构建的n个诗歌感情训练集上进行训练，得到第i种感情下最后一个隐藏元的状态值statei；i＝1,

2,…,n；

诗歌生成模块，用于将所述关键词和所述第i种感情下最后一个隐藏元的状态值statei，提供给已在诗歌语料库上预先训练好的charRNN_2神经网络，生成描述所述输入图像的第i种感情下的诗歌；

所述的初始状态为h0，h0表示未通过诗歌感情训练集训练的隐藏元的状态值所述charRNN_1神经网络和所述charRNN_2神经网络均为charRNN神经网络，其中，数字

1和2均为标号。

6.根据权利要求5所述的图像诗句描述生成装置，其特征在于，所述关键词确定模块包括：

标签选取子模块，用于若所述输入图像所属的所述标签的个数大于4，则从所有的所述标签中选中预测概率最大的前四个所述标签；

词确定子模块，用于将选中的前四个所述标签分别对应的类别，确定为对所述输入图像的待生成诗歌每一行诗句的所述关键词。

7.根据权利要求6所述的图像诗句描述生成装置，其特征在于，所述关键词确定模块还包括：

词扩展子模块，用于若所述输入图像所属的所述标签的个数小于4，则以所述输入图像所属的类别为基础，采用基于循环神经网络语言模型和基于额外信息的关键词扩展方法进行关键词扩展，直至所述关键词个数扩展至四个；

所述词确定子模块还用于将扩展后获得的四个所述关键词，确定为对所述输入图像的待生成诗歌每一行诗句的所述关键词。

8.根据权利要求5所述的图像诗句描述生成装置，其特征在于，还包括训练集构建模块，用于分别采集表达n种感情的诗句，分别用采集的各所述诗句构成n个所述诗歌感情训练集；其中，同一种感情的所述诗句共同构成一个所述诗歌感情训练集。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述图像诗句描述生成方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现权利要求1至4中任一项所述图像诗句描述生成方法的步骤。

图像诗句描述生成方法、装置和设备

技术领域

[0001] 本申请涉及多媒体信息处理技术领域，特别是涉及一种图像诗句描述生成方法、装置和设备。

背景技术

[0002] 图像描述生成技术，有时称为“图像自动注释”、“图像标记”或“图像字幕生成”技术，是指让计算机根据一幅图像自动生成一段完整而流畅的文字描述声明。图像描述生成
任务将计算机视觉和自然语言处理紧密联系在一起，是人工智能领域中的一个基本问题。
然而，对于计算机来说，具备这种“看图说话”的能力却是一项十分艰巨的任务。然而，在实
现本发明过程中，发明人发现当前对于图像描述生成的研究大多集中在生成对图像的基本
语句描述上，主要包括提高对图像进行描述的语言的准确性、通俗性和灵活性等方面，这些
描述的语言风格大多枯燥乏味，并且无法表现出图像观察者内心的感受，存在着无法生成
输入图像在不同语境感情下的诗句描述的技术问题。

发明内容

[0003] 基于此，有必要针对上述技术问题，提供一种图像诗句描述生成方法、一种图像诗句描述生成装置、一种计算机设备以及一种计算机可读存储介质，能够实现对输入图像在
不同语境感情下的诗句描述的生成。

[0004] 为了实现上述目的，本发明实施例采用以下技术方案：

[0005] 一方面，本发明实施例提供一种图像诗句描述生成方法，包括步骤：

[0006] 获取输入图像并采用CNN网络对输入图像进行多标签图像分类，确定输入图像的各分类标签以及标签对应的类别；

[0007] 根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词；关键词为被选中的标签对应的类别；

[0008] 利用隐藏元在初始状态的charRNN_1神经网络，分别在构建的n个诗歌感情训练集上进行训练，得到第i种感情下最后一个隐藏元的状态值statei；i＝1，2，…，n；

[0009] 将关键词和第i种感情下最后一个隐藏元的状态值statei，提供给已在诗歌语料库上预先训练好的charRNN_2神经网络，生成描述输入图像的第i种感情下的诗歌。

[0010] 在其中一个实施例中，根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词的步骤，包括：

[0011] 若输入图像所属的标签的个数大于4，则从所有的标签中选中预测概率最大的前四个标签；

[0012] 将选中的前四个标签分别对应的类别，确定为对输入图像的待生成诗歌每一行诗句的关键词。

[0013] 在其中一个实施例中，根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词的步骤，包括：

[0014] 若输入图像所属的标签的个数小于4，则以输入图像所属的类别为基础，采用基于循环神经网络语言模型和基于额外信息的关键词扩展方法进行关键词扩展，直至关键词个
数扩展至四个；

[0015] 将扩展后获得的四个关键词，确定为对输入图像的待生成诗歌每一行诗句的关键词。

[0016] 在其中一个实施例中，n个诗歌感情训练集的构建过程，包括：

[0017] 分别采集表达n种感情的诗句，分别用采集的各诗句构成n个诗歌感情训练集；其中，同一种感情的诗句共同构成一个诗歌感情训练集。

[0018] 另一方面，还提供一种图像诗句描述生成装置，包括：

[0019] 图像分类模块，用于获取输入图像并采用CNN网络对输入图像进行多标签图像分类，确定输入图像的各分类标签以及标签对应的类别；

[0020] 关键词确定模块，用于根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词；关键词为被选中的标签对应的类别；

[0021] 状态获取模块，用于利用隐藏元在初始状态的charRNN_1神经网络，分别在构建的n个诗歌感情训练集上进行训练，得到第i种感情下最后一个隐藏元的状态值statei；i＝1，
2，…，n；

[0022] 诗歌生成模块，用于将关键词和第i种感情下最后一个隐藏元的状态值statei，提供给已在诗歌语料库上预先训练好的charRNN_2神经网络，生成描述输入图像的第i种感情
下的诗歌。

[0023] 在其中一个实施例中，关键词确定模块包括：

[0024] 标签选取子模块，用于若输入图像所属的标签的个数大于4，则从所有的标签中选中预测概率最大的前四个标签；

[0025] 词确定子模块，用于将选中的前四个标签分别对应的类别，确定为对输入图像的待生成诗歌每一行诗句的关键词。

[0026] 在其中一个实施例中，关键词确定模块还包括：

[0027] 词扩展子模块，用于若输入图像所属的标签的个数小于4，则以输入图像所属的类别为基础，采用基于循环神经网络语言模型和基于额外信息的关键词扩展方法进行关键词
扩展，直至关键词个数扩展至四个；

[0028] 词确定子模块还用于将扩展后获得的四个关键词，确定为对输入图像的待生成诗歌每一行诗句的关键词。

[0029] 在其中一个实施例中，前述装置还包括训练集构建模块，用于分别采集表达n种感情的诗句，分别用采集的各诗句构成n个诗歌感情训练集；其中，同一种感情的诗句共同构
成一个诗歌感情训练集。

[0030] 又一方面，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现任一项的上述图像诗句描述生成方法的步骤。

[0031] 再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现任一项的上述图像诗句描述生成方法的步骤。

[0032] 上述技术方案中的一个技术方案具有如下优点和有益效果：

[0033] 上述图像诗句描述生成方法、装置和设备，通过首先采用CNN网络对输入图像进行多标签图像分类，以确定输入图像中包含的实体，以便在后续生成诗歌的阶段中，将该实体
所对应的类别作为诗歌的部分关键词。然后，根据各标签确定对输入图像的待生成诗歌每
一行诗句的关键词；利用隐藏元在初始状态的charRNN_1神经网络，分别在构建的n个诗歌
感情训练集上进行训练，以得到第i种感情下最后一个隐藏元的状态值statei；最后，将前
面获得的关键词和第i种感情下最后一个隐藏元的状态值statei，提供给预先训练好的
charRNN_2神经网络，即可生成对输入图像在第i种感情下描述的诗歌。如此，实现了对输入
图像在不同语境感情下的诗句描述的生成目的，达到了在不同感情的各种语境下，根据一
幅图像生成与该语境所对应的“看图写诗”的效果。

附图说明

[0034] 图1为一个实施例中图像诗句描述生成方法的流程示意图；

[0035] 图2为一个实施例中利用CharRNN_2生成不同语境下的诗歌示意图；

[0036] 图3为一个实施例中CharRNN_1在不同诗歌感情训练集上进行训练的示意图；

[0037] 图4为另一个实施例中图像诗句描述生成方法的流程示意图；

[0038] 图5为一个实施例中图像诗句描述生成方法的其中一种总体流程框架示意图；

[0039] 图6为又一个实施例中图像诗句描述生成方法的流程示意图；

[0040] 图7为一个实施例中图像诗句描述生成装置的模块结构示意图。

具体实施方式

[0041] 为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不
用于限定本申请。

[0042] 除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具
体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相
关的所列项目的任意的和所有的组合。

[0043] 另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这
种技术方案的结合不存在，也不在本发明要求的保护范围之内。

[0044] 本发明针对无法生成输入图像在不同语境感情下的诗句描述的技术问题，提出了有效的解决方法，能够实现对输入图像在不同语境感情下的诗句描述的生成。

[0045] 请参阅图1，在一个实施例中，本发明提供一种图像诗句描述生成方法，包括如下步骤S12至S18：

[0046] S12，获取输入图像并采用CNN网络对输入图像进行多标签图像分类，确定输入图像的各分类标签以及标签对应的类别。

[0047] 可以理解，输入图像可以通过人工给定并输入计算设备中而实现获得，或者可以直接从存储有多种不同输入图像的数据库服务器上请求获得，又或者还可以是通过计算设
备配备的摄像头或外接摄像设备现场拍摄而获得，具体获取输入图像的方式在本说明书中
不做唯一限定，只要能够获取所需的输入图像均可。可以通过利用本领域已有的多种卷积
神经网络(Convolutional Neural Networks，CNN)中的任一种来进行多标签图像分类处
理，确定输入图像中包含的实体，以便在后续生成诗歌的阶段中，将该实体所对应的类别作
为诗歌的部分关键词。

[0048] S14，根据各标签确定对输入图像的待生成诗歌每一行诗句的关键词；关键词为被选中的标签对应的类别。

[0049] 可以理解，对输入图像的待生成诗歌可以包含多种形式，例如可以是两行四句诗句构成的诗歌，也可以是四行八句诗句构成的诗歌，还可以是其他结构形式的诗歌，其中，
每一行的诗句可以包含至少一个关键词。前述步骤处理后获得的各个分类标签中，每个标
签均对应着相应的分类类别，而这些类别均有可能成为某个输入图像的某行诗句的关键
词。通过从标签中根据需要选中一定数量的标签，以这些选中的标签所对应的类别，作为对
当前的输入图像的待生成诗歌每一行诗句的关键词。

[0050] S16，利用隐藏元在初始状态的charRNN_1神经网络，分别在构建的n个诗歌感情训练集上进行训练，得到第i种感情下最后一个隐藏元的状态值statei；i＝1，2，…，n。

[0051] 可以理解，charRNN_1神经网络是本领域中已有的一种charRNN神经网络，其末尾的数字1标号是为了区别于下文中利用到的另一个charRNN神经网络，也即charRNN_2神经
网络。n个诗歌感情训练集是分别对应于n种语境感情的n个训练集，一个诗歌感情训练集是
由表达同一种感情的多个诗句构成，每一个诗歌训练集中的诗句表达的感情均不同。

[0052] 例如，假设诗歌所表达的感情一共有n种，第i种感情记为Qi，诗歌所表达的所有感情构成的集合Q为：Q＝{Q1,…Qi,…Qn}；相应的，n个诗歌感情训练集可以但不限于记为T＝
{T1，…Ti，…Tn}。

[0053] 具体的，利用隐藏元的状态为h0的charRNN_1神经网络，分别在诗歌感情训练集Ti上进行训练，即可得到第i种感情Qi下最后一个隐藏元的状态值statei。其中，状态h0表示
charRNN_1神经网络的隐藏元的初始状态。

[0054] S18，将关键词和第i种感情下最后一个隐藏元的状态值statei，提供给已在诗歌语料库上预先训练好的charRNN_2神经网络，生成描述输入图像的第i种感情下的诗歌。

[0055] 可以理解，charRNN_2神经网络是一个已经预先训练好的网络，向该神经网络输入关键词即可生成诗句，从而输出由诗句构成的整首诗歌。诗歌语料库为预先收集各种诗歌
语料而构建的语料库，用于charRNN_2神经网络的训练。

[0056] 具体的，在生成诗歌阶段，使用的是已经在诗歌语料库上预先训练好的charRNN_2神经网络，利用charRNN_2神经网络生成在不同语境下的诗歌，如图2所示，具体步骤为：

[0057] S82、将已在诗歌语料库上预先训练好的charRNN_2神经网络的隐藏元的初始状态，设置为在第i种感情Qi下最后一个隐藏元的状态值statei；

[0058] S84、将待生成诗歌每一行诗句的关键词，提供给隐藏元初始状态设置完毕后的charRNN_2神经网络，生成描述输入图像的第i种感情Qi下的诗歌。其中，上述确定的关键词
可以关键词序列K的形式输入给charRNN_2神经网络；生成的诗歌具有第i种感情Qi并且保
护上述步骤确定的关键词，并且上述确定的关键词序列K中的每一个关键词对应着所生成
的诗歌中的某一行。

[0059] 上述图像诗句描述生成方法，通过首先采用CNN网络对输入图像进行多标签图像分类，以确定输入图像中包含的实体，以便在后续生成诗歌的阶段中，将该实体所对应的类
别作为诗歌的部分关键词。然后，根据各标签确定对输入图像的待生成诗歌每一行诗句的
关键词；利用隐藏元在初始状态的charRNN_1神经网络，分别在构建的n个诗歌感情训练集
上进行训练，以得到第i种感情下最后一个隐藏元的状态值statei；最后，将前面获得的关
键词和第i种感情下最后一个隐藏元的状态值statei，提供给预先训练好的charRNN_2神经
网络，即可生成对输入图像在第i种感情下描述的诗歌。

[0060] 如此，可通过为预先训练好的CharRNN_2神经网络中隐藏元的初始状态赋予不同的状态值，实现在不同语境下生成与所提供的关键词相匹配的诗歌，完成从输入图像到诗
歌输出的转换，实现了对输入图像在不同语境感情下的诗句描述的生成目的，达到了在不
同感情的各种语境下，根据一幅图像生成与该语境所对应的“看图写诗”的效果，从而增加
了图像描述生成任务的创新性和趣味性。

[0061] 请参阅图3，在一个实施例中，n个诗歌感情训练集的构建过程，包括：

[0062] 分别采集表达n种感情的诗句，分别用采集的各诗句构成n个诗歌感情训练集；其中，表达同一种感情的诗句共同构成一个诗歌感情训练集。

[0063] 可以理解，可以通过互联网，例如古诗文网分别收集表达这n种感情的诗句，进而构成n个训练集，记为T＝{T1,…Ti,…Tn}，每一个诗歌感情训练集对应的诗句表达了不同诗
人的某一种特定语境感情。

[0064] 请参阅图4和图5，在一个实施例中，关于上述步骤S14，具体可以包括如下处理步骤S142和步骤S144：

[0065] S142，若输入图像所属的标签的个数大于4，则从所有的标签中选中预测概率最大的前四个标签；

[0066] S144，将选中的前四个标签分别对应的类别，确定为对输入图像的待生成诗歌每一行诗句的关键词。

[0067] 可以理解，如图5所示的是在本实施例中上述方法的其中一种总体流程框架示意图，在本实施例中，所需生成的诗歌为四行八句形式的诗歌，例如如表1所示的其中一首诗
歌例子：

[0068] 表1

[0069]

[0070] 具体的，对一幅输入图像进行多标签图像分类处理后，若该输入图像所属的标签的个数大于或等于4个，则从所有标签中选择预测概率最大的前四个标签，并将其所对应的
类别作为该输入图像的待生成诗歌每一行的关键词，如此，可以保证待生成诗歌的每一行
对应一个子主题。

[0071] 通过上述处理步骤S142和步骤S144，实现了在生成诗歌的阶段之前，输入图像所属的标签的个数大于或等于4个的情况下，各诗句所需包含的关键词的确定。

[0072] 请参阅图6，在一个实施例中，关于上述步骤S14，具体还可以包括如下处理步骤S143和步骤S145：

[0073] S143，若输入图像所属的标签的个数小于4，则以输入图像所属的类别为基础，采用基于循环神经网络语言模型和基于额外信息的关键词扩展方法进行关键词扩展，直至关
键词个数扩展至四个；

[0074] S145，将扩展后获得的四个关键词，确定为对输入图像的待生成诗歌每一行诗句的关键词。

[0075] 可以理解，在本实施例中，所需生成的诗歌同样为四行八句形式的诗歌，例如如上述表1所示。具体的，若该输入图像所属的标签的个数小于4个，无法提供足够数量的关键
词，则需要以输入图像所属类别为基础对关键词进行扩展，直到关键词的个数满足要求(也
即需扩展至4个)为止。对关键词进行扩展时，可以采用本领域已有的基于循环神经网络语
言模型(RNNLM)和基于额外信息的关键词扩展方法来实现。

[0076] 通过上述处理步骤S143和步骤S145，实现了在生成诗歌的阶段之前，输入图像所属的标签的个数小于4个的情况下，各诗句所需包含的关键词的确定。

[0077] 本领域技术人员可以理解，对于其他行、句形式的诗歌的关键词确定方式，可以参照前述实施例的确定方式同理理解。

[0078] 应该理解的是，虽然图1、图4和图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这
些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且图1、图4和图
6的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是
在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不
必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流
或者交替地执行。

[0079] 请参阅图7，还提供了一种图像诗句描述生成装置100，包括图像分类模块13、关键词确定模块15、状态获取模块17和诗歌生成模块19。其中，图像分类模块13用于获取输入图
像并采用CNN网络对输入图像进行多标签图像分类，确定输入图像的各分类标签以及标签
对应的类别。关键词确定模块15用于根据各标签确定对输入图像的待生成诗歌每一行诗句
的关键词；关键词为被选中的标签对应的类别。状态获取模块17用于利用隐藏元在初始状
态的charRNN_1神经网络，分别在构建的n个诗歌感情训练集上进行训练，得到第i种感情下
最后一个隐藏元的状态值statei；i＝1,2,…,n。诗歌生成模块19用于将关键词和第i种感
情下最后一个隐藏元的状态值statei，提供给已在诗歌语料库上预先训练好的charRNN_2
神经网络，生成描述输入图像的第i种感情下的诗歌。

[0080] 上述图像诗句描述生成装置100，通过各模块的协作，首先采用CNN网络对输入图像进行多标签图像分类，以确定输入图像中包含的实体，以便在后续生成诗歌的阶段中，将
该实体所对应的类别作为诗歌的部分关键词。然后，根据各标签确定对输入图像的待生成
诗歌每一行诗句的关键词；利用隐藏元在初始状态的charRNN_1神经网络，分别在构建的n
个诗歌感情训练集上进行训练，以得到第i种感情下最后一个隐藏元的状态值statei；最
后，将前面获得的关键词和第i种感情下最后一个隐藏元的状态值statei，提供给预先训练
好的charRNN_2神经网络，即可生成对输入图像在第i种感情下描述的诗歌。如此，实现了对
输入图像在不同语境感情下的诗句描述的生成目的，达到了在不同感情的各种语境下，根
据一幅图像生成与该语境所对应的“看图写诗”的效果。

[0081] 在一个实施例中，上述关键词确定模块15包括标签选取子模块和词确定子模块。标签选取子模块用于若输入图像所属的标签的个数大于4，则从所有的标签中选中预测概
率最大的前四个标签。词确定子模块用于将选中的前四个标签分别对应的类别，确定为对
输入图像的待生成诗歌每一行诗句的关键词。

[0082] 在一个实施例中，上述关键词确定模块15还包括词扩展子模块。词扩展子模块用于若输入图像所属的标签的个数小于4，则以输入图像所属的类别为基础，采用基于循环神
经网络语言模型和基于额外信息的关键词扩展方法进行关键词扩展，直至关键词个数扩展
至四个。上述词确定子模块还用于将扩展后获得的四个关键词，确定为对输入图像的待生
成诗歌每一行诗句的关键词。

[0083] 在一个实施例中，前述图像诗句描述生成装置100还包括训练集构建模块。训练集构建模块用于分别采集表达n种感情的诗句，分别用采集的各诗句构成n个诗歌感情训练
集；其中，同一种感情的诗句共同构成一个诗歌感情训练集。

[0084] 关于图像诗句描述生成装置100的具体限定，可以参见上文中图像诗句描述生成方法的相应限定，在此不再赘述。上述图像诗句描述生成装置100中的各个模块可全部或部
分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处
理功能的设备中，也可以软件形式存储于前述设备的存储器中，以便于处理器调用执行以
上各个模块对应的操作，前述计算设备可以是但不限于本领域已有的各型个人计算机或者
移动通信终端。

[0085] 又一方面，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时可以实现以下步骤：获取输入图像并采用CNN网络对输入图像
进行多标签图像分类，确定输入图像的各分类标签以及标签对应的类别；根据各标签确定
对输入图像的待生成诗歌每一行诗句的关键词；关键词为被选中的标签对应的类别；利用
隐藏元在初始状态的charRNN_1神经网络，分别在构建的n个诗歌感情训练集上进行训练，
得到第i种感情下最后一个隐藏元的状态值statei；i＝1,2,…,n；将关键词和第i种感情下
最后一个隐藏元的状态值statei，提供给已在诗歌语料库上预先训练好的charRNN_2神经
网络，生成描述输入图像的第i种感情下的诗歌。

[0086] 在一个实施例中，处理器执行计算机程序时还可以实现上述图像诗句描述生成方法各实施例中增加的步骤或者子步骤。

[0087] 再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取输入图像并采用CNN网络对输入图像进行多标签图像
分类，确定输入图像的各分类标签以及标签对应的类别；根据各标签确定对输入图像的待
生成诗歌每一行诗句的关键词；关键词为被选中的标签对应的类别；利用隐藏元在初始状
态的charRNN_1神经网络，分别在构建的n个诗歌感情训练集上进行训练，得到第i种感情下
最后一个隐藏元的状态值statei；i＝1,2,…,n；将关键词和第i种感情下最后一个隐藏元
的状态值statei，提供给已在诗歌语料库上预先训练好的charRNN_2神经网络，生成描述输
入图像的第i种感情下的诗歌。

[0088] 在一个实施例中，计算机程序被处理器执行时，还可以实现上述图像诗句描述生成方法各实施例中增加的步骤或者子步骤。

[0089] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，计算机程序可存储于一非易失性计算机可读
取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申
请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括
非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM
(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括
随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，
诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强
型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线式动态随机存储器
(Rambus DRAM，简称RDRAM)以及接口动态随机存储器(DRDRAM)等。

[0090] 以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛
盾，都应当认为是本说明书记载的范围。

[0091] 以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在
不脱离本申请构思的前提下，还可做出若干变形和改进，都属于本申请保护范围。因此本申
请专利的保护范围应以所附权利要求为准。

图像诗句描述生成方法、装置和设备转让专利

申请号 : CN202110451287.X

文献号 : CN113010717B

文献日 : 2022-04-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 谢毓湘 , 闫洁 , 宫铨志 , 栾悉道 , 张家辉 , 魏迎梅 , 蒋杰 , 康来 , 冯素茹

申请人 : 中国人民解放军国防科技大学

摘要 :

权利要求 :

说明书 :