图片集描述方法及装置转让专利
申请号 : CN201910186100.0
文献号 : CN109902759B
文献日 : 2021-03-30
发明人 : 周曦 , 姚志强 , 谭涛 , 周翔 , 李夏风 , 吴媛 , 汤文洁 , 吴大为
申请人 : 恒睿(重庆)人工智能技术研究院有限公司
摘要 :
权利要求 :
1.一种图片集描述方法,其特征在于,所述方法包括:获取包括至少一张图片的待描述图片集所对应的主要图像场景,提取所述待描述图片集中的每张图片的图像特征,并根据预存的场景识别模型及得到的每张图片的图像特征对每张图片的图片场景进行识别,对识别出的每种所述图片场景在所述待描述图片集中对应的图片张数进行统计,并根据统计结果计算图片张数最大的目标图片场景在所述待描述图片集处的出现置信度,将所述出现置信度与预设的置信度阈值进行比较,并在所述出现置信度不小于所述置信度阈值时将所述目标图片场景作为所述主要图像场景;从存储的至少一种图像场景对应的自然语言描述模板中,选取与所述主要图像场景匹配的目标描述模板,其中,存储的每种图像场景对应至少一个自然语言描述模板;
根据所述主要图像场景及所述目标描述模板生成与所述待描述图片集对应的自然语言描述文本;
每种图像场景对应的自然语言描述模板的模板种类包括第一类描述模板、第二类描述模板、第三类描述模板及第四类描述模板中的任意一种或多种的组合,所述从存储的至少一种图像场景对应的自然语言描述模板中,选取与所述主要图像场景匹配的目标描述模板的步骤,包括:在存储的至少一种图像场景所对应的自然语言描述模板中,筛选出与所述主要图像场景对应的所有自然语言描述模板;读取所述待描述图片集的拍摄时间及拍摄地点,并在筛选出的所有自然语言描述模板中检测是否存在与所述拍摄时间及所述拍摄地点匹配的第一类描述模板;若检测到存在所述第一类描述模板,则以所述第一类描述模板作为所述目标描述模板;若检测到未存在所述第一类描述模板,则在筛选出的所有自然语言描述模板中检测是否存在只与所述拍摄地点匹配的第二类描述模板及只与所述拍摄时间匹配的第三类描述模板,并根据检测结果确定出所述目标描述模板。
2.根据权利要求1所述的方法,其特征在于,所述在筛选出的所有自然语言描述模板中检测是否存在只与所述拍摄地点匹配的第二类描述模板及只与所述拍摄时间匹配的第三类描述模板,并根据检测结果确定出所述目标描述模板的步骤,包括:若检测到存在所述第二类描述模板,则以所述第二类描述模板作为所述目标描述模板;
若检测到未存在所述第二类描述模板却存在所述第三类描述模板,则以所述第三类描述模板作为所述目标描述模板;
若检测到未存在所述第二类描述模板及所述第三类描述模板,则以筛选出的所有自然语言描述模板中的第四类描述模板作为所述目标描述模板。
3.根据权利要求1‑2中任意一项所述的方法,其特征在于,所述方法还包括:预先对至少一种图像场景所对应的自然语言描述模板进行配置。
4.一种图片集描述装置,其特征在于,所述装置包括:场景获取模块,用于获取包括至少一张图片的待描述图片集所对应的主要图像场景;
模板选取模块,用于从存储的至少一种图像场景对应的自然语言描述模板中,选取与所述主要图像场景匹配的目标描述模板,所述场景获取模块具体用于:提取所述待描述图片集中的每张图片的图像特征,并根据预存的场景识别模型及得到的每张图片的图像特征对每张图片的图片场景进行识别;
对识别出的每种所述图片场景在所述待描述图片集中对应的图片张数进行统计,并根据统计结果计算图片张数最大的目标图片场景在所述待描述图片集处的出现置信度;
将所述出现置信度与预设的置信度阈值进行比较,并在所述出现置信度不小于所述置信度阈值时将所述目标图片场景作为所述主要图像场景,其中,存储的每种图像场景对应至少一个自然语言描述模板,每种图像场景对应的自然语言描述模板的模板种类包括第一类描述模板、第二类描述模板、第三类描述模板及第四类描述模板中的任意一种或多种的组合,所述模板选取模块包括:模板筛选子模块,用于在存储的至少一种图像场景所对应的自然语言描述模板中,筛选出与所述主要图像场景对应的所有自然语言描述模板;模板检测子模块,用于读取所述待描述图片集的拍摄时间及拍摄地点,并在筛选出的所有自然语言描述模板中检测是否存在与所述拍摄时间及所述拍摄地点匹配的第一类描述模板;第一确认子模块,用于若检测到存在所述第一类描述模板,则以所述第一类描述模板作为所述目标描述模板;第二确认子模块,用于若检测到未存在所述第一类描述模板,则在筛选出的所有自然语言描述模板中检测是否存在只与所述拍摄地点匹配的第二类描述模板及只与所述拍摄时间匹配的第三类描述模板,并根据检测结果确定出所述目标描述模板;
描述生成模块,用于根据所述主要图像场景及所述目标描述模板生成与所述待描述图片集对应的自然语言描述文本。
5.根据权利要求4所述的装置,其特征在于,所述第二确认子模块具体用于:若检测到存在所述第二类描述模板,则以所述第二类描述模板作为所述目标描述模板;
若检测到未存在所述第二类描述模板却存在所述第三类描述模板,则以所述第三类描述模板作为所述目标描述模板;
若检测到未存在所述第二类描述模板及所述第三类描述模板,则直接以筛选出的所有自然语言描述模板中的第四类描述模板作为所述目标描述模板。
6.根据权利要求4‑5中任意一项所述的装置,其特征在于,所述装置还包括:模板配置模块,用于预先对至少一种图像场景所对应的自然语言描述模板进行配置。
说明书 :
图片集描述方法及装置
技术领域
背景技术
处理技术的重要分支。目前而言,业界主流在对图片集进行自然语言描述时,通常是结合该
图片集的拍摄时间信息及拍摄地点信息来生成对应的自然语言描述文本。然而,这种自然
语言描述方案最终得到的自然语言描述文本仅只有对时间及地点的相关描述,无法揭露该
图片集的具体实际图像内容,使用户无法直观地通过生成的自然语言描述文本了解到对应
图片集的具体图像内容。
发明内容
述图片集的具体图像内容,使用户可通过生成的自然语言描述文本直观地了解到对应图片
集的具体图像内容。
然语言描述模板;
待描述图片集的具体图像内容,使用户可通过生成的自然语言描述文本直观地了解到对应
图片集的具体图像内容。首先,所述方法获取包括至少一张图片的待描述图片集所对应的
主要图像场景,其中所述主要图像场景为由所述待描述图片集中所有图片表现出的图像场
景中的出现频次比重最大的图像场景;然后,所述方法从存储的至少一种图像场景对应的
自然语言描述模板中,选取与所述主要图像场景匹配的目标描述模板,其中,存储的每种图
像场景对应至少一个自然语言描述模板;最后,所述方法根据所述主要图像场景及所述目
标描述模板生成与所述待描述图片集对应的自然语言描述文本,从而通过所述自然语言描
述文本揭露该待描述图片集的具体图像内容,使用户可通过生成的自然语言描述文本直观
地了解到对应图片集的具体图像内容。
附图说明
本申请保护范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还
可以根据这些附图获得其他相关的附图。
板检测子模块;123‑第一确认子模块;124‑第二确认子模块;140‑模板配置模块。
具体实施方式
本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施
例的组件可以以各种不同的配置来布置和设计。
技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范
围。
体情况理解上述术语在本申请中的具体含义。
使用户通过显示的所述自然语言表述文本获取对应的内容信息。其中,所述终端设备10可
以是,但不限于,服务器、智能手机、个人电脑(personal computer,PC)、平板电脑、个人数
字助理(personal digital assistant,PDA)、移动上网设备(mobile Internet device,
MID)等;所述自然语言可以是,但不限于,中文、英文、俄文等。在本实施例的一种实施方式
中,所述终端设备10为智能手机。
连接,以实现数据的传输或交互。例如,所述存储器11、处理器12及通信单元13这些元件相
互之间可通过一条或多条通讯总线或信号线实现电性连接。
的图像场景,其中所述图像特征为对应图片的图像内容的相关特征,所述图像场景用于表
示对应图片的图像内容(例如,登山、看海、同学聚会等),所述场景识别模型可以是以标注
有图像场景的图片训练样本对神经网络(例如,卷积神经网络、深度神经网络)模型进行训
练得到。
语言描述模板的模板种类包括第一类描述模板、第二类描述模板、第三类描述模板及第四
类描述模板中的任意一种或多种的组合,其中所述第一类描述模板为具有时间属性、地点
属性及场景属性的描述模板,所述第二类描述模板为仅具有地点属性及场景属性的描述模
板,所述第三类描述模板为仅具有时间属性及场景属性的描述模板,第四类描述模板为仅
具有场景属性的描述模板。例如,当图像场景为登山时,对应的第一类描述模板可以是
“2017年5月于华山处进行登山观云海”,也可以是“2017年5月于华山处和X个朋友一起登
山”;对应的第二类描述模板可以是“于华山处进行登山观云海”,也可以是“于华山处和X个
朋友一起登山”;对应的第三类描述模板可以是“2017年5月进行登山观云海”,也可以是
“2017年5月和X个朋友一起登山”;对应的第四类描述模板可以是“登山观云海”,也可以是
“和X个朋友一起登山”。
处理器(Graphics Processing Unit,GPU)、网络处理器(Network Processor,NP)等。通用
处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以实现或者执行本
申请实施例中的公开的各方法、步骤及逻辑框图。
接收来自其他电子设备发送的包括至少一张图片的待描述图片集,或向所述其他电子设备
发送与所述待描述图片集对应的自然语言描述文本。
器12可用于执行所述存储器11存储的可执行模块,例如所述图片集描述装置100所包括的
软件功能模块及计算机程序等。所述终端设备10通过所述图片集描述装置100生成可揭露
待描述图片集的具体图像内容的自然语言描述文本,使用户能够通过生成的自然语言描述
文本直观地了解到对应图片集的具体图像内容。
置。图1中所示的各组件可以采用硬件、软件或其组合实现。
法的具体流程和步骤进行详细阐述。
所有图片表现出的所有图像场景中的出现频次比重最大的图像场景,即所述主要图像场景
为当前最能表示该待描述图片集的具体图像内容的图像场景。其中,所述待描述图片集所
对应的主要图像场景,可以是由其他电子设备发送给所述终端设备10的,也可以是由所述
终端设备10通过对所述待描述图片集进行主要图像场景确定操作来获取的。
集得到时,所述步骤S210包括子步骤S211、子步骤S212及子步骤S213。
10将每张所述图片的图像特征输入到所述场景识别模型中,以通过所述场景识别模型对该
图片所对应的图片场景进行识别,从而得到每张图片的图片场景,其中一张图片可对应出
现至少一种图片场景。其中,所述场景识别模型在获取到待识别图片的图像特征后,可基于
获取到的图像特征计算该待识别图片与每种图像场景的标准表现图片之间的图像相似度,
并根据计算出的图像相似度确定出该待识别图片所对应的图片场景;也可基于获取到的图
像特征以及该待识别图片的拍摄时间和拍摄地点,间接推断出该待识别图片所对应的图片
场景。
出现置信度。
片场景在所述待描述图片集处对应的图片张数。而后,所述终端设备10将选取图片张数最
大的目标图片场景来计算其对应的出现置信度,其中所述出现置信度等于对应目标图片场
景的图片张数与所述待描述图片集的图片总张数之间的百分比数值。
设备10通过将所述目标图片场景的出现置信度与所述置信度阈值进行比较,并在所述出现
置信度不小于所述置信度阈值时,判定所述目标图片场景为所述主要图像场景。在本实施
例的一种实施方式中,所述置信度阈值可以是,但不限于,50%、70%、85%或90%,具体的
数值可根据需求进行不同的配置。
所对应的自然语言描述模板中选取出与所述主要图像场景匹配的目标描述模板,并以该目
标描述模板生成用于揭露待描述图片集的具体图像内容的自然语言描述文本,使用户能够
通过生成的所述自然语言描述文本直观地了解到所述具体图像内容。
板。
标描述模板。
述模板来作为所述目标描述模板。
步骤S220可以包括子步骤S221、子步骤S222、子步骤S223及子步骤S224。
的组合。
板。
述待描述图片集的拍摄时间,将读取到的所有图片的拍摄地点进行地点求共运算以得到所
述待描述图片集的拍摄地点。例如,若待描述图片集中的一张图片的拍摄时间点是2017年5
月15日,而另一张图片的拍摄时间点是2017年5月20日,则该待描述图片集对应的拍摄时间
为2017年5月;若待描述图片集中的一张图片的拍摄地点是南充市安平镇,而另一张图片的
拍摄地点是南充市木老镇,则该待描述图片集对应的拍摄地点为南充市。
摄地点匹配的第一类描述模板。
标描述模板。在本实施例的一种实施方式中,所述终端设备10直接从与该主要图像场景匹
配的所有第一类描述模板中,随机选取一个模板来作为所述目标描述模板;在本实施例的
另一种实施方式中,所述终端设备10从与该主要图像场景匹配的所有第一类描述模板中,
选取被使用次数最小的模板来作为所述目标描述模板。
匹配的第三类描述模板,并根据检测结果确定出所述目标描述模板。
自然语言描述模板中检测是否存在地点属性与所述拍摄地点匹配的第二类描述模板,以及
时间属性与所述拍摄时间匹配的第三类描述模板,并根据相应的检测结果从筛选出的所有
自然语言描述模板中确定出一个描述模板来作为所述目标描述模板。
述目标描述模板的步骤,包括:
要图像场景匹配的所有第二类描述模板中,随机选取一个模板来作为所述目标描述模板,
或选取被使用次数最小的一个模板来作为所述目标描述模板。
的所有第三类描述模板中,随机选取一个模板来作为所述目标描述模板,或选取被使用次
数最小的一个模板来作为所述目标描述模板。
配的所有第四类描述模板中,随机选取一个模板来作为所述目标描述模板,或选取被使用
次数最小的一个模板来作为所述目标描述模板。
图片集的主要图像场景、所述待描述图片集的拍摄时间及待描述图片集的拍摄地点,生成
对应的自然语言描述文本,以通过所述自然语言描述文本揭露该待描述图片集的具体图像
内容,使用户可通过生成的自然语言描述文本直观地了解到对应图片集的具体图像内容。
板、第二类描述模板、第三类描述模板及第四类描述模板中的任意一种或多种的组合。
120及描述生成模块130。
骤S212及子步骤S223的详细描述。
述。
类描述模板、第三类描述模板及第四类描述模板中的任意一种或多种的组合,所述模板选
取模块120包括模板筛选子模块121、模板检测子模块122、第一确认子模块123及第二确认
子模块124。
的第一类描述模板。
与所述拍摄时间匹配的第三类描述模板,并根据检测结果确定出所述目标描述模板。
户可通过生成的自然语言描述文本直观地了解到对应图片集的具体图像内容。首先,所述
方法获取包括至少一张图片的待描述图片集所对应的主要图像场景,其中所述主要图像场
景为由所述待描述图片集中所有图片表现出的图像场景中的出现频次比重最大的图像场
景;然后,所述方法从存储的至少一种图像场景对应的自然语言描述模板中,选取与所述主
要图像场景匹配的目标描述模板,其中,存储的每种图像场景对应至少一个自然语言描述
模板;最后,所述方法根据所述主要图像场景及所述目标描述模板生成与所述待描述图片
集对应的自然语言描述文本,从而通过所述自然语言描述文本揭露该待描述图片集的具体
图像内容,使用户可通过生成的自然语言描述文本直观地了解到对应图片集的具体图像内
容。
改、等同替换、改进等,均应包含在本申请的保护范围之内。