基于人工智能的场景分类方法、装置及电子设备转让专利
申请号 : CN202110534639.8
文献号 : CN112949620B
文献日 : 2021-07-30
发明人 : 郭卉
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种基于人工智能的场景分类方法,其特征在于,包括:针对第一场景类别的多个图像样本,获取每个所述图像样本的至少一个第二场景类别;
其中,每个所述图像样本的至少一个第二场景类别是所述图像样本的第一场景类别的子场景类别;
针对每个所述图像样本执行以下处理:通过第一场景分类模型获取所述图像样本的第一分类特征以及预标记第一场景类别的第一预测概率,通过第二场景分类模型获取所述图像样本的第二分类特征以及预标记第二场景类别的第二预测概率;
通过第三场景分类模型的第三分类网络,将所述第一分类特征以及所述第二分类特征的拼接处理结果映射为所述图像样本的预标记第一场景类别的第三预测概率;
基于所述多个图像样本的第一预测概率、第二预测概率以及第三预测概率、所述多个图像样本的预标记第一场景类别和预标记第二场景类别,确定联合损失,并基于所述联合损失更新所述第一场景分类模型、所述第二场景分类模型以及所述第三场景分类模型的参数;
其中,所述第一场景分类模型用于识别不同的所述第一场景类别,所述第二场景分类模型用于识别不同的所述第二场景类别,所述第三场景分类模型是基于所述第一场景分类模型以及所述第二场景分类模型组合得到的;
通过训练后的所述第三场景分类模型对待分类图像进行场景分类处理,得到所述待分类图像在不同的所述第一场景类别中对应的第一场景类别。
2.根据权利要求1所述的方法,其特征在于,所述针对第一场景类别的多个图像样本,获取每个所述图像样本的至少一个第二场景类别,包括:通过所述第一场景分类模型,获取每个所述图像样本的第一分类特征;
针对每个所述第一场景类别执行以下处理:从所述多个图像样本中获取属于所述第一场景类别的图像样本,作为目标图像样本,并基于多个所述目标图像样本的第一分类特征,对多个所述目标图像样本进行聚类处理,得到与至少一个所述第二场景类别一一对应的至少一个聚类;
基于所述至少一个聚类,确定每个所述图像样本的第二场景类别。
3.根据权利要求2所述的方法,其特征在于,所述获取每个所述图像样本的第一分类特征,包括:
针对每个所述图像样本执行以下处理:提取所述图像样本的第一卷积特征,并对所述图像样本的第一卷积特征进行池化处理,得到所述图像样本的第一池化特征;
对所述第一池化特征进行多次残差迭代处理,得到所述图像样本的残差迭代处理结果;
对所述图像样本的残差迭代处理结果进行最大池化处理,得到所述图像样本的最大池化处理结果;
对所述图像样本的最大池化处理结果进行第一嵌入处理,得到所述图像样本的第一分类特征。
4.根据权利要求2所述的方法,其特征在于,所述基于多个所述目标图像样本的第一分类特征,对多个所述目标图像样本进行聚类处理,得到与至少一个所述第二场景类别一一对应的至少一个聚类,包括:
将多个所述目标图像样本组成目标图像样本集合;
从所述目标图像样本集合中随机选择N个目标图像样本,将对应所述N个目标图像样本的第一分类特征作为多个聚类的初始质心,并将所述N个目标图像样本从所述目标图像样本集合移除,其中,N为对应所述第一场景类别的第二场景类别的数目,N为大于或者等于2的整数;
初始化聚类处理的迭代次数为M,并建立对应每个所述聚类的空的集合,其中,M为大于或者等于2的整数;
在所述聚类处理的每一次迭代过程中执行以下处理:对每个所述聚类的集合进行更新处理,并基于更新处理结果执行质心生成处理,得到每个所述聚类的新质心,当所述新质心不同于所述初始质心时,将所述初始质心对应的目标图像样本再次添加至所述目标图像样本集合,并基于所述新质心更新所述初始质心;
将迭代M次后得到的每个所述聚类的集合确定为聚类处理结果,或者,将迭代m次后得到的每个所述聚类的集合确定为聚类处理结果;
其中,迭代m次后得到的多个聚类与迭代m‑1次后得到的多个聚类的质心相同,m为整数变量且取值满足2≤m≤M。
5.根据权利要求4所述的方法,其特征在于,所述对每个所述聚类的集合进行更新处理,并基于更新处理结果执行质心生成处理,得到每个所述聚类的新质心,包括:针对每个所述目标图像样本执行以下处理:确定所述目标图像样本的第一分类特征与每个所述聚类的初始质心之间的相似度;
将最大相似度对应的初始质心确定为与所述目标图像样本属于相同聚类,并将所述目标图像样本转移至最大相似度初始质心对应的聚类的集合,所述最大相似度初始质心为最大的所述相似度对应的初始质心;
将每个所述聚类的集合中每个目标图像样本的第一分类特征进行平均处理,得到每个所述聚类的新质心。
6.根据权利要求4所述的方法,其特征在于,所述基于所述至少一个聚类,确定每个所述图像样本的第二场景类别,包括:针对每个所述聚类执行以下处理:将每个所述聚类中的每个目标图像样本的第一分类特征进行平均处理,得到每个所述聚类的质心;
针对所述多个图像样本中的每个所述图像样本执行以下处理:确定所述图像样本的第一分类特征与每个所述聚类的质心之间的特征距离,将小于特征距离阈值的特征距离对应的质心的聚类,确定为与所述图像样本关联的聚类,并将所述聚类对应的第二场景类别确定为所述图像样本的第二场景类别。
7.根据权利要求6所述的方法,其特征在于,在将小于特征距离阈值的特征距离对应的质心的聚类,确定为与所述图像样本关联的聚类之前,所述方法还包括:针对每个所述第一场景类别执行以下处理:从数据库中查询所述第一场景类别的标记准确度;
获取与所述标记准确度正相关的第一场景类别阈值;确定属于所述第一场景类别的所述目标图像样本在所述多个图像样本中的数目占比,并将所述数目占比作为所述第一场景类别阈值的权重;
基于每个所述第一场景类别阈值的权重,对多个所述第一场景类别阈值进行加权求和处理,得到所述特征距离阈值。
8.根据权利要求7所述的方法,其特征在于,所述获取与所述标记准确度正相关的第一场景类别阈值,包括:
针对每个所述目标图像样本,确定所述目标图像样本的第一分类特征与每个所述聚类的质心的候选中心距离,并将最小的候选中心距离确定为所述目标图像样本的中心距离;
获取与所述标记准确度正相关的升序排序位置,并对多个所述目标图像样本的中心距离进行升序排序;
获取升序排序结果中对应所述升序排序位置的中心距离,并将所述中心距离确定为所述第一场景类别阈值。
9.根据权利要求2所述的方法,其特征在于,所述第一场景分类模型包括特征网络、第一特征处理网络、以及对应所述第一场景类别的第一分类网络;
所述通过所述第一场景分类模型,获取每个所述图像样本的第一分类特征之前,所述方法还包括:
通过所述特征网络对所述图像样本进行特征提取处理,得到所述图像样本的最大池化处理结果;
通过所述第一特征处理网络对所述图像样本的最大池化处理结果进行第一嵌入处理,得到所述图像样本的第一分类特征;
通过所述第一分类网络将所述第一分类特征映射为所述图像样本的预标记第一场景类别的第一预测概率;
基于所述第一预测概率、以及所述图像样本的预标记第一场景类别,确定所述图像样本的第一分类损失;
根据所述图像样本的第一分类损失,更新所述第一场景分类模型的参数。
10.根据权利要求1所述的方法,其特征在于,所述第一场景分类模型分别与所述第二场景分类模型以及所述第三场景分类模型共享所述第一场景分类模型的特征网络,所述第一场景分类模型与所述第三场景分类模型共享所述第一场景分类模型的第一特征处理网络,所述第二场景分类模型与所述第三场景分类模型共享所述第二场景分类模型的第二特征处理网络;
所述通过第一场景分类模型获取所述图像样本的第一分类特征以及预标记第一场景类别的第一预测概率,包括:
通过所述特征网络对所述图像样本进行特征提取处理,得到所述图像样本的最大池化处理结果;
通过所述第一场景分类模型的第一特征处理网络对所述图像样本的最大池化处理结果进行第一嵌入处理,得到所述图像样本的第一分类特征;
通过所述第一分类网络将所述第一分类特征映射为所述图像样本的预标记第一场景类别的第一预测概率;
所述通过第二场景分类模型获取所述图像样本的第二分类特征以及预标记第二场景类别的第二预测概率,包括:
通过所述第二特征处理网络对所述图像样本的最大池化处理结果进行第二嵌入处理,得到所述图像样本的第二分类特征,并通过所述第二场景分类模型的第二分类网络将所述第二分类特征映射为所述图像样本的至少一个预标记第二场景类别的第二预测概率。
11.根据权利要求1所述的方法,其特征在于,所述基于所述多个图像样本的第一预测概率、第二预测概率以及第三预测概率、所述多个图像样本的预标记第一场景类别和预标记第二场景类别,确定联合损失,包括:基于所述第一预测概率、以及所述图像样本的预标记第一场景类别,确定第一分类损失;
基于所述第三预测概率、以及所述图像样本的预标记第一场景类别,确定第三分类损失;
基于至少一个所述第二预测概率,以及所述图像样本的至少一个预标记第二场景类别,确定第二分类损失;
对所述第一分类损失、所述第二分类损失以及所述第三分类损失进行融合处理,得到所述联合损失。
12.一种基于人工智能的场景分类装置,其特征在于,包括:获取模块,用于针对第一场景类别的多个图像样本,获取每个所述图像样本的至少一个第二场景类别;
其中,每个所述图像样本的至少一个第二场景类别是所述图像样本的第一场景类别的子场景类别;
训练模块,用于针对每个所述图像样本执行以下处理:通过第一场景分类模型获取所述图像样本的第一分类特征以及预标记第一场景类别的第一预测概率,通过第二场景分类模型获取所述图像样本的第二分类特征以及预标记第二场景类别的第二预测概率;
通过第三场景分类模型的第三分类网络,将所述第一分类特征以及所述第二分类特征的拼接处理结果映射为所述图像样本的预标记第一场景类别的第三预测概率;
基于所述多个图像样本的第一预测概率、第二预测概率以及第三预测概率、所述多个图像样本的预标记第一场景类别和预标记第二场景类别,确定联合损失,并基于所述联合损失更新所述第一场景分类模型、所述第二场景分类模型以及所述第三场景分类模型的参数;
其中,所述第一场景分类模型用于识别不同的所述第一场景类别,所述第二场景分类模型用于识别不同的所述第二场景类别,所述第三场景分类模型是基于所述第一场景分类模型以及所述第二场景分类模型组合得到的;
应用模块,用于通过训练后的所述第三场景分类模型对待分类图像进行场景分类处理,得到所述待分类图像在不同的所述第一场景类别中对应的第一场景类别。
13.一种电子设备,其特征在于,包括:存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的基于人工智能的场景分类方法。
14.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至11任一项所述的基于人工智能的场景分类方法。
说明书 :
基于人工智能的场景分类方法、装置及电子设备
技术领域
背景技术
论、方法和技术及应用系统。
高效率的视频推荐,例如,针对手机拍摄的相片而言,需要针对相片的场景进行识别,通过
理解相片的场景,确定相片的标签,从而提高相片分类存储的效率。
发明内容
分类模型以及所述第二场景分类模型组合得到的;
分类模型以及所述第二场景分类模型组合得到的;
样本中获取属于所述第一场景类别的图像样本,作为目标图像样本,并基于多个所述目标
图像样本的第一分类特征,对多个所述目标图像样本进行聚类处理,得到与至少一个所述
第二场景类别一一对应的至少一个聚类;基于所述至少一个聚类,确定每个所述图像样本
的第二场景类别。
所述图像样本的第一池化特征;对所述第一池化特征进行多次残差迭代处理,得到所述图
像样本的残差迭代处理结果;对所述图像样本的残差迭代处理结果进行最大池化处理,得
到所述图像样本的最大池化处理结果;对所述图像样本的最大池化处理结果进行第一嵌入
处理,得到所述图像样本的第一分类特征。
样本的第一分类特征作为多个聚类的初始质心,并将所述N个目标图像样本从所述目标图
像样本集合移除,其中,N为对应所述第一场景类别的第二场景类别的数目,N为大于或者等
于2的整数;初始化聚类处理的迭代次数为M,并建立对应每个所述聚类的空的集合,其中,M
为大于或者等于2的整数;在所述聚类处理的每一次迭代过程中执行以下处理:对每个所述
聚类的集合进行更新处理,并基于更新处理结果执行质心生成处理,得到每个所述聚类的
新质心,当所述新质心不同于所述初始质心时,将所述初始质心对应的目标图像样本再次
添加至所述目标图像样本集合,并基于所述新质心更新所述初始质心;将迭代M次后得到的
每个所述聚类的集合确定为聚类处理结果,或者,将迭代m次后得到的每个所述聚类的集合
确定为聚类处理结果;其中,迭代m次后得到的多个聚类与迭代m‑1次后得到的多个聚类的
质心相同,m小于M,m为整数变量且取值满足2≤m≤M。
质心之间的相似度;将最大相似度对应的初始质心确定为与所述目标图像样本属于相同聚
类,并将所述目标图像样本转移至最大相似度初始质心对应的聚类的集合,所述最大相似
度初始质心为最大的所述相似度对应的初始质心;将每个所述聚类的集合中每个目标图像
样本的第一分类特征进行平均处理,得到每个所述聚类的新质心。
心;针对所述多个图像样本中的每个所述图像样本执行以下处理:确定所述图像样本的第
一分类特征与每个所述聚类的质心之间的特征距离,将小于特征距离阈值的特征距离对应
的质心的聚类,确定为与所述图像样本关联的聚类,并将所述聚类对应的第二场景类别确
定为所述图像样本的第二场景类别。
行以下处理:从数据库中查询所述第一场景类别的标记准确度;获取与所述标记准确度正
相关的第一场景类别阈值;确定属于所述第一场景类别的目标图像样本在所述多个图像样
本中的数目占比,并将所述数目占比作为所述第一场景类别阈值的权重;基于每个所述第
一场景类别阈值的权重,对多个所述第一场景类别阈值进行加权求和处理,得到所述特征
距离阈值。
距离确定为所述目标图像样本的中心距离;获取与所述标记准确度正相关的升序排序位
置,并对多个所述目标图像样本的中心距离进行升序排序;获取升序排序结果中对应所述
升序排序位置的中心距离,并所述中心距离确定为所述第一场景类别阈值。
型,获取每个所述图像样本的第一分类特征之前,通过所述特征网络对所述图像样本进行
特征提取处理,得到所述图像样本的最大池化处理结果;通过所述第一特征处理网络对所
述图像样本的最大池化处理结果进行第一嵌入处理,得到所述图像样本的第一分类特征;
通过所述第一分类网络将所述第一分类特征映射为所述图像样本的预标记第一场景类别
的第一预测概率;基于所述第一预测概率、以及所述图像样本的预标记第一场景类别,确定
所述图像样本的第一分类损失;根据所述图像样本的第一分类损失,更新所述第一场景分
类模型的参数。
样本进行场景分类处理,得到所述图像样本的场景分类结果;基于所述场景分类结果、所述
图像样本的预标记第一场景类别和所述图像样本的预标记第二场景类别,更新所述第一场
景分类模型、所述第二场景分类模型以及所述第三场景分类模型的参数。
三场景分类模型共享所述第一场景分类模型的第一特征处理网络,所述第二场景分类模型
与所述第三场景分类模型共享所述第二场景分类模型的第二特征处理网络;所述训练模
块,还用于:通过所述特征网络对所述图像样本进行特征提取处理,得到所述图像样本的最
大池化处理结果;通过所述第一场景分类模型的第一特征处理网络对所述图像样本的最大
池化处理结果进行第一嵌入处理,得到所述图像样本的第一分类特征;通过所述第一分类
网络将所述第一分类特征映射为所述图像样本的预标记第一场景类别的第一预测概率;通
过所述第二特征处理网络对所述图像样本的最大池化处理结果进行第二嵌入处理,得到所
述图像样本的第二分类特征,并通过所述第二场景分类模型的第二分类网络将所述第二分
类特征映射为所述图像样本的至少一个预标记第二场景类别的第二预测概率;对所述第一
分类特征以及所述第二分类特征进行拼接处理,并通过所述第三场景分类模型的第三分类
网络将拼接处理结果映射为所述图像样本的预标记第一场景类别的第三预测概率;将所述
第一预测概率、所述第二预测概率以及所述第三预测概率,组合为所述图像样本的场景分
类结果。
的预标记第一场景类别,确定第三分类损失;基于至少一个所述第二预测概率,以及所述图
像样本的至少一个预标记第二场景类别,确定第二分类损失;对所述第一分类损失、所述第
二分类损失以及所述第三分类损失进行融合处理,得到联合损失;根据所述联合损失更新
所述第一场景分类模型、所述第二场景分类模型以及所述第三场景分类模型的参数。
同时学习第一场景类别的特征表达以及细粒度场景的特征表达,由于第三场景分类模型是
基于第一场景分类模型以及第二场景分类模型组合得到的,从而训练得到的第三场景分类
模型兼具有第一场景类别以及细粒度场景类别(第二场景类别)的联合特征表达,从而有效
提升场景识别准确度。
附图说明
具体实施方式
做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
的情况下相互结合。
的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的
顺序实施。
不是旨在限制本申请。
狗、猫、鸟等等,基于大型通用物体识别开源数据集ImageNet训练得到的模型能够识别出某
个物体是1000个类别中的哪一个。
标签的概念具有部分重叠,图像具有上述两种类别标签的属性,但仅具有一种类别标签。
域)提取过程,这里的局部区域实质上是图像的背景的显著区域,并不是图像的任意一个区
域均可以用于进行场景识别,对于图像X,根据潜在物体框的分布,计算场景中每个位置的
潜在物体密度,针对场景中潜在物体密度,利用滑动窗口计算图像中在窗口区域内的物体
密度,结合图像X以及潜在物体密度进行滑动窗口响应,从而将潜在物体密度最高的区域提
取出来作为局部区域,进而基于多尺度的局部区域进行特征学习,并基于特征学习结果进
行场景识别。
程中,需要预先完成目标检测定位任务,然后再完成场景识别任务;2、相关技术中训练对应
目标检测定位任务的模型时,对所有可能出现在场景中的物体均需要进行标注,耗时耗力;
3、相关技术中并非所有场景都存在检测目标,例如,海边、森林等等,这些场景中不具备常
用的检测目标。
像样本中可能包含湖景、林中小道、儿童游乐设施、公园健身区、公园草坪、公园树林等更精
准的场景,这些对象的联合可以组成公园类别,但只有1个对象出现时则有可能是噪声标
签,例如,图像中仅出现儿童游乐设施时,图像的场景不一定是公园类别,也可能是商业游
乐场类别,因此,由于场景类别下的细粒度场景类别并没有被标注出来,对场景识别造成语
义模糊的识别困难,申请人在实施本申请实施例时发现如何挖掘每个场景类别的隐式的细
粒度场景类别,并借助所挖掘的细粒度场景类别进行场景识别是亟待解决的技术问题。
度场景类别的特征与第一场景类别的特征的联合表达能力,以有效提高场景识别准确度。
的组合。
第一场景分类模型(用于识别不同的第一场景类别)、第二场景分类模型(用于识别不同的
第二场景类别)以及第三场景分类模型进行基于第一场景类别以及第二场景类别的训练,
将训练完成的第三场景分类模型集成在服务器200中,响应于终端400接收到用户所拍摄的
图像,终端400将图像发送至服务器200,服务器200通过第三场景分类模型确定出图像的场
景分类结果,并发送至终端400,以使终端400直接呈现场景分类结果。
中视频帧的场景分类结果以作为视频的场景分类结果,并基于场景分类结果对视频执行推
荐操作,以向终端400发送被推荐的视频,上传视频的终端和呈现场景分类结果的终端可以
相同或者不同。
出图像的场景分类结果,并发送至终端400,以使终端400直接呈现场景分类结果,并按照对
应的场景分类结果对所拍摄的图像进行存储。
场景分类结果,并直接呈现场景分类结果。
储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台
等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算
机、智能音箱、智能手表、智能电视、智能车载设备等,终端400上可以设有客户端,例如,视
频客户端、浏览器客户端、信息流客户端、图像拍摄客户端等等,但并不局限于此。终端以及
服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
见图3,图3是本申请实施例提供的电子设备的结构示意图,以该电子设备为服务器200为例
进行说明。图3所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口
220。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现
这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线
和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统240。
晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理
器等。
个或多个存储设备。
以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器250旨在
包括任意适合类型的存储器。
通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他电子设备,示例性
的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal
Serial Bus)等。
程序和插件等形式的软件,包括以下软件模块:获取模块2551、训练模块2552以及应用模块
2553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将
在下文中说明各个模块的功能。
型学习)、基于原型类别的第二场景分类模型、以及基于联合特征的第三场景分类模型,其
中,原型类别(以下简称第二场景类别)是第一场景类别的子场景,例如,第一场景类别是公
园类别,第二场景类别是湖泊、游乐场、步道等等,原型类别挖掘网络是获取图像的第二场
景标注类别的网络,第二场景分类模型具有识别不同的第二场景类别的能力,联合特征是
第二场景分类模型输出的第二分类特征与第一场景分类模型输出的第一分类特征拼接得
到的,第三场景分类模型具有识别不同的第一场景类别的能力,由于第三场景分类模型的
特征来源于另外两个场景分类模型,因此,可以同时学习到第一场景类别的特征表达以及
第二场景类别的特征表达。
第二场景类别是公园内的湖泊、游乐场、步道等等,第一场景类别是商场类别,第二场景类
别是商场内的自动扶梯、收银台、餐厅等等。步骤101是基于预标记有第一场景类别的多个
图像样本,挖掘出这些图像样本的第二场景类别,例如,存在100个图像样本,其中有30个图
像样本被预标记为公园类别的第一场景类别,有70个图像样本被预标记为商场类别的第一
场景类别,通过步骤101可以获取这100个图像样本中每个图像样本的第二场景类别,例如,
每个图像样本是否可以被标记为湖泊、游乐场等等,并且每个图像样本可以挖掘出一个第
二场景类别或者挖掘出多个(至少两个)第二场景类别。
体的真实类别名称,即并不关注图像样本的第二场景类别是湖泊还是海洋,可以抽象的用
标识符号代替,只要在训练阶段进行第二场景类别识别时,将对应的图像样本映射到对应
的标识符号以获取对应的损失,即可以保证在实际学习过程中,第二场景分类模型以及第
三场景分类模型学习到了某个第二场景类别的实际特征表达,例如,针对第一场景类别A的
30个目标图像样本进行聚类,得到两个聚类,分别为对应第二场景类别C的聚类c以及对应
第二场景类别D的聚类d,虽然对于用户而言,并不明确第二场景类别C和D是否为湖泊或者
游乐场,但是可以确定第二场景类别C的聚类c对应的集合中的目标图像样本均是具有第二
场景类别C的对象,因此在训练时以将这些目标图像样本识别为第二场景类别C为目标进行
训练,可以充分学习到第二场景类别a的特征表达,从而实现无监督的第二场景类别挖掘。
图像样本的至少一个第二场景类别,可以通过图4B的步骤1011‑1013实现。
积特征,并对图像样本的第一卷积特征进行池化处理,得到图像样本的第一池化特征;对第
一池化特征进行多次残差迭代处理,得到图像样本的残差迭代处理结果;对图像样本的残
差迭代处理结果进行最大池化处理,得到图像样本的最大池化处理结果;对图像样本的最
大池化处理结果进行第一嵌入处理,得到图像样本的第一分类特征。
积层Conv2对图像样本的第一卷积特征进行池化处理,得到图像样本的第一池化特征,池化
处理可以为最大池化处理,再通过表1中的卷积层Conv2‑Conv5对第一池化特征进行多次残
差迭代处理,得到图像样本的残差迭代处理结果,通过表2中的池化层对残差迭代处理结果
进行最大池化处理,得到图像样本的最大池化结果,残差迭代处理结果是表1的特征提取结
果,第一场景分类模型的第一特征处理网络实践为第一特征处理层,通过表2中的第一特征
处理层(Embedding1)对最大池化结果进行全连接处理,得到第一分类特征。
本的第一分类特征之前,通过特征网络对图像样本进行特征提取处理,得到图像样本的最
大池化处理结果;通过第一特征处理网络对图像样本的最大池化处理结果进行第一嵌入处
理,得到图像样本的第一分类特征;通过第一分类网络将第一分类特征映射为图像样本的
预标记第一场景类别的第一预测概率;基于第一预测概率、以及图像样本的预标记第一场
景类别,确定图像样本的第一分类损失;根据图像样本的第一分类损失,更新第一场景分类
模型的参数。
中的第一分类层FC1,通过特征网络对图像样本进行特征提取处理,得到图像样本的最大池
化处理结果的过程,以及通过第一特征处理网络对图像样本的最大池化处理结果进行第一
嵌入处理,得到图像样本的第一分类特征的过程,可以参考步骤1011,通过表2中的第一分
类层(FC1)对第一分类特征进行全连接处理得到图像样本属于每个第一场景类别的第一预
测概率,第一场景类别的数目为P,P为正整数,将图像样本的预标记第一场景类别的第一预
测概率代入交叉熵损失函数,得到第一分类损失,以反向更新第一场景分类模型的参数,反
向更新时可以仅更新第一分类层以及第一特征处理层的参数,通过正向传播以及基于梯度
下降法的反向更新,完成第一场景分类模型的训练,其中,第一特征处理层是全连层,输出
1024维的第一分类特征,卷积层Conv1‑Conv5可以采用在ImageNet数据集上预训练的
ResNet101的参数,对新添加的层(例如,Embedding1以及FC1)采用方差为0.01,均值为0的
高斯分布进行初始化。可以使用不同的网络结构、不同的预训练模型权重作为第一场景分
类模型。经过上述训练过程得到的第一场景分类模型具备识别P个第一场景类别的场景识
别能力。
征,对多个目标图像样本进行聚类处理,得到与至少一个第二场景类别一一对应的至少一
个聚类。
场景类别(下文简称为第一场景类别B),针对第一场景类别A,获取100个图像样本中被预标
记为第一场景类别A的图像样本,作为步骤1012实施过程中的目标图像样本,接着基于30个
被预标记为第一场景类别A的目标图像样本的第一分类特征,对30个目标图像样本进行聚
类处理,得到与至少一个第二场景类别一一对应的至少一个聚类,基于上述过程,完成了针
对第一场景类别A的聚类处理,从而得到第一场景类别A下的至少一个第二场景类别。
通过以下技术方案实现:将多个目标图像样本组成目标图像样本集合;从目标图像样本集
合中随机选择N个目标图像样本,将对应N个目标图像样本的第一分类特征作为多个聚类的
初始质心,并将N个目标图像样本从目标图像样本集合移除,其中,N为对应第一场景类别的
第二场景类别的数目,N为大于或者等于2的整数;初始化聚类处理的迭代次数为M,并建立
对应每个聚类的空的集合,其中,M为大于或者等于2的整数;在聚类处理的每一次迭代过程
中执行以下处理:对每个聚类的集合进行更新处理,并基于更新处理结果执行质心生成处
理,得到每个聚类的新质心,当新质心不同于初始质心时,将初始质心对应的目标图像样本
再次添加至目标图像样本集合,并基于新质心更新初始质心;将迭代M次后得到的每个聚类
的集合确定为聚类处理结果,或者,将迭代m次后得到的每个聚类的集合确定为聚类处理结
果;其中,迭代m次后得到的多个聚类与迭代m‑1次后得到的多个聚类的质心相同,m小于M,m
为整数变量且取值满足2≤m≤M。
集合中每个目标图像样本执行以下处理:确定目标图像样本的第一分类特征与每个聚类的
初始质心之间的相似度;将最大相似度对应的初始质心确定为与目标图像样本属于相同聚
类,并将目标图像样本转移至最大相似度初始质心对应的聚类的集合,最大相似度初始质
心为最大的相似度对应的初始质心;将每个聚类的集合中每个目标图像样本的第一分类特
征进行平均处理,得到每个聚类的新质心。
集合,每个集合中包括对应聚类的目标图像样本,首先随机选择2个目标图像样本的第一分
类特征分别作为两个聚类的初始质心,针对剩余的28个目标图像样本,计算每个目标图像
样本与2个初始质心的相似度,例如采取L2距离来评估相似度,例如,对于目标图像样本E,
它的第一分类特征与初始质心a的距离较近,则将目标图像样本E分配到初始质心a所对应
的聚类的集合中,针对28个目标图像样本均执行分配操作后,针对每个聚类重新计算对应
的新质心,若两个聚类的新质心相同或者新质心与初始质心的相似度大于相似度阈值,则
可以直接将每个集合确定为聚类处理结果,若两个聚类的新质心不相同,且新质心与初始
质心的相似度不大于相似度阈值,则继续利用新质心更新初始质心,并再次针对质心对应
的目标图像样本之外的目标图像样本进行分配操作,例如,原来的初始质心a被新质心代替
后,原来的初始质心a对应的目标图像样本属于质心对应的目标图像样本之外的目标图像
样本,需要再次参与到分配过程中,直到满足两个聚类的新质心相同,或者新质心与初始质
心的相似度大于相似度阈值,或者迭代了指定次数。
本的第一分类特征进行平均处理,得到每个聚类的质心;针对多个图像样本中的每个图像
样本执行以下处理:确定图像样本的第一分类特征与每个聚类的质心之间的特征距离,将
小于特征距离阈值的特征距离对应的质心的聚类,确定为与图像样本关联的聚类,并将聚
类对应的第二场景类别确定为图像样本的第二场景类别。
个第一场景类别下的第二场景类别的数目均为2,则通过步骤1012共得到4个聚类,分别对
应4个第二场景类别。步骤1013中至少一个聚类指的是针对所有第一场景类别获得的聚类,
针对100个图像样本,需要确定每个图像样本所对应的第二场景类别,因此首先确定每个第
二场景类别对应的聚类的质心,例如,针对第二场景类别C,存在有对应的聚类的集合c,集
合c中包括10个目标图像样本,由于已经预先获得了100个图像样本的第一分类特征,并且
目标图像样本是来自于图像样本,因此直接对10个目标图像样本的第一分类特征进行平均
处理,得到第二场景类别C对应的聚类的质心,该质心能够表征第二场景类别C的特征表达,
对某个图像样本F,确定该图像样本F与4个第二场景类别的4个质心之间的特征距离,特征
距离可以通过L2距离进行度量,或者通过余弦距离进行度量,将特征距离小于特征距离阈
值的质心对应的第二场景类别确定为图像样本F的第二场景类别。
场景类别的标记准确度;获取与标记准确度正相关的第一场景类别阈值;确定属于第一场
景类别的目标图像样本在多个图像样本中的数目占比,并将数目占比作为第一场景类别阈
值的权重;基于每个第一场景类别阈值的权重,对多个第一场景类别阈值进行加权求和处
理,得到特征距离阈值。
离阈值对于第二场景类别挖掘的准确度非常重要,由于特征距离阈值是适用于全部图像样
本以及全部第二场景类别的阈值数据,因此需要综合考虑所有的第一场景类别的标注准确
度,来确定特征距离阈值,由于标注准确度越高则表征对应第一场景类别下进行聚类处理
得到的第二场景类别的聚类的集合越准确,由此看出,若标注准确度高的第一场景类别的
图像样本的数目越多,则特征距离阈值可以越高,若标注准确度低的第一场景类别的图像
样本的数目越多,则特征距离阈值需要适当降低,以防止将第二场景类别关联到图像样本
时发生错误。
类别A的图像样本中存在3个图像样本实际上不属于第一场景类别A,获取与标记准确度90%
正相关的第一场景类别阈值90%,确定属于第一场景类别的目标图像样本在多个图像样本
中的数目占比,标记为第一场景类别A的图像样本的数目占比为30%,并将数目占比作为第
一场景类别阈值的权重,即将0.3作为标记准确度90%的权重,通过上述过程还得到了第一
场景类别B的标记准确度80%、与标记准确度80%正相关的第一场景类别阈值80%,标记为第
一场景类别B的图像样本的数目占比为70%,基于每个第一场景类别阈值的权重,对多个第
一场景类别阈值进行加权求和处理,得到特征距离阈值,因此对标记准确度80%以及标记准
确度90%进行加权求和,得到特征距离阈值0.83。
类的质心的候选中心距离,并将最小的候选中心距离确定为目标图像样本的中心距离;获
取与标记准确度正相关的升序排序位置,并对多个目标图像样本的中心距离进行升序排
序;获取升序排序结果中对应升序排序位置的中心距离,并将中心距离确定为第一场景类
别阈值。
标图像样本,经过步骤1012的聚类处理后得到第一场景类别A下的两个第二场景类别的聚
类,针对目标图像样本E,确定目标图像样本的第一分类特征与两个第二场景类别的聚类中
每个聚类的质心的候选中心距离,例如,确定出目标图像样本E与某个第二场景类别的质心
的候选中心距离为0.7,确定出目标图像样本E与另一个第二场景类别的质心的候选中心距
离为0.8,并将最小的候选中心距离0.7确定为目标图像样本E的中心距离,对30个目标图像
样本执行上述处理,从而获取了30个目标图像样本的中心距离,获取与标记准确度正相关
的升序排序位置,例如,标记准确度是80%,与标记准确度正相关的升序排序位置是30个目
标图像样本中的第24位,并对多个目标图像样本的中心距离进行升序排序,将30个目标图
像样本的中心距离进行从小到大的升序排序,获取升序排序结果中对应第24位的中心距
离,并将第24位的中心距离确定为第一场景类别阈值。
分类模型组合得到的。
图像样本的第二场景类别,联合训练第一场景分类模型、第二场景分类模型以及第三场景
分类模型,可以针对每个图像样本执行图4C示出的步骤1021‑1022实现。
场景分类模型的第一特征处理网络,第二场景分类模型与第三场景分类模型共享第二场景
分类模型的第二特征处理网络;步骤1021中通过第一场景分类模型、第二场景分类模型以
及第三场景分类模型对图像样本进行场景分类处理,得到图像样本的场景分类结果,可以
通过以下技术方案实现:通过特征网络对图像样本进行特征提取处理,得到图像样本的最
大池化处理结果;通过第一场景分类模型的第一特征处理网络对图像样本的最大池化处理
结果进行第一嵌入处理,得到图像样本的第一分类特征;通过第一分类网络将第一分类特
征映射为图像样本的预标记第一场景类别的第一预测概率;通过第二特征处理网络对图像
样本的最大池化处理结果进行第二嵌入处理,得到图像样本的第二分类特征,并通过第二
场景分类模型的第二分类网络将第二分类特征映射为图像样本的至少一个预标记第二场
景类别的第二预测概率;对第一分类特征以及第二分类特征进行拼接处理,并通过第三场
景分类模型的第三分类网络将拼接处理结果映射为图像样本的预标记第一场景类别的第
三预测概率;将第一预测概率、第二预测概率以及第三预测概率,组合为图像样本的场景分
类结果。
分类模型共享第一场景分类模型的第一特征处理网络(Embedding1),第二场景分类模型与
第三场景分类模型共享第二场景分类模型的第二特征处理网络(Embedding2),图像样本输
入卷积神经网络后进行特征提取处理,特征提取过程可以参见表1以及表2,首先通过表1中
的卷积层Conv1提取图像样本的第一卷积特征,并通过表1中的卷积层Conv2对图像样本的
第一卷积特征进行池化处理,得到图像样本的第一池化特征,池化处理可以为最大池化处
理,再通过表1中的卷积层Conv2‑Conv5对第一池化特征进行多次残差迭代处理,得到图像
样本的残差迭代处理结果,通过表2中的池化层对残差迭代处理结果进行最大池化处理,残
差迭代处理结果是表1的特征提取结果,得到图像样本的最大池化结果,通过表2中的第一
特征处理层(Embedding1)对最大池化结果进行第一嵌入处理,第一嵌入处理实际上是全连
接处理,得到第一分类特征,第一场景分类模型的第一分类网络实施为第一分类层,同样
的,通过表3中的池化层对残差迭代处理结果进行最大池化处理,残差迭代处理结果是表1
的特征提取结果,得到图像样本的最大池化结果,再通过表2中的第一分类层(FC1)对第一
分类特征进行全连接处理,映射得到图像样本属于每个第一场景类别的第一预测概率,其
中就包括预标记的第一场景类别的第一预测概率(对应第一分类损失),第一场景类别的数
目为P个,P为正整数,针对第二场景分类模型,通过表3中的第二特征处理层(Embedding2)
对图像样本的最大池化结果进行第二嵌入处理,第二嵌入处理实际上是全连接处理,得到
第二分类特征,第二场景分类模型的第二分类网络实施为第二分类层,再通过表3中的第二
分类层(FC2)对第二分类特征进行全连接处理,映射得到图像样本属于每个第二场景类别
的第二预测概率,其中就包括预标记的第二场景类别的第二预测概率(对应第二分类损
失),第二场景类别的数目为K*P个,K为正整数,K为每个第一场景类别下的第二场景类别的
数目。
进行全连接处理得到图像样本属于每个第一场景类别的第三预测概率,其中就包括预标记
第一场景类别的第三预测概率(对应第三分类损失),第一场景类别的数目为P个。
第三场景分类模型的参数。
分类模型以及第三场景分类模型的参数,可以通过以下技术方案实现:基于第一预测概率、
以及图像样本的预标记第一场景类别,确定第一分类损失;基于第三预测概率、以及图像样
本的预标记第一场景类别,确定第三分类损失;基于至少一个第二预测概率,以及图像样本
的至少一个预标记第二场景类别,确定第二分类损失;对第一分类损失、第二分类损失以及
第三分类损失进行融合处理,得到联合损失;根据联合损失更新第一场景分类模型、第二场
景分类模型以及第三场景分类模型的参数。
别,i为图像样本的标识。
实标签为预标记第二场景类别,则 为1,若图像样本的真实标签不为预标记的第二场景
类别,则 为0。
得到第二分类损失。
络的参数、第二分类网络的参数、第三场景分类模型的第三分类网络的参数,从而有效提高
训练效率。
接处理结果进行全连接处理,映射为图像样本属于每个第一场景类别的第三预测概率,在
应用阶段会保留图5所示的框架中的卷积神经网络(特征网络)、第一特征处理网络、第二特
征处理网络以及第三分类网络。
景分类处理,得到关键视频帧的场景分类结果,将关键视频帧的场景分类结果作为待发布
视频的属性标签,并将视频发布且推荐至用户画像与属性标签相符的用户。
中,原型类别(以下简称第二场景类别)是第一场景类别的子场景,例如,第一场景类别是公
园类别,第二场景类别是湖泊、游乐场、步道等等,原型类别挖掘网络是获取图像的第二场
景标注类别的网络,第二场景分类模型具有识别不同的第二场景类别的能力,联合特征是
第二场景分类模型输出的第二分类特征与第一场景分类模型输出的第一分类特征拼接得
到的,第三场景分类模型具有识别不同的第一场景类别的能力,由于第三场景分类模型的
特征来源于另外两个场景分类模型,因此,可以同时学习到第一场景类别的特征表达以及
第二场景类别的特征表达。
大池化结果,通过表2中的第一特征处理层Embedding1对最大池化结果进行全连接处理,得
到第一分类特征,再通过表2中的第一分类层FC1对第一分类特征进行全连接处理得到图像
F属于每个第一场景类别的第一预测概率,第一场景类别的数目为P,P为正整数,上述过程
是第一场景分类模型的正向传播的过程,将图像F的预标记第一场景类别的第一预测概率
代入交叉熵损失函数,以反向更新第一场景分类模型的参数,反向更新时可以仅更新第一
分类层以及第一特征处理层的参数,通过正向传播以及基于梯度下降法的反向更新,完成
第一场景分类模型的训练,其中,第一特征处理层是全连层,输出1024维的第一分类特征,
卷积层Conv1‑Conv5采用在ImageNet数据集上预训练的ResNet101的参数,对新添加的层
(例如,Embedding1以及FC1)采用方差为0.01,均值为0的高斯分布进行初始化。可以使用不
同的网络结构、不同的预训练模型权重作为第一场景分类模型。
同尺寸卷积核的卷积处理,将卷积处理结果与输入进行相加作为下一个残差模块的输入,
其中,relu代表激活函数,表征进行激活处理。残差网络由三个卷积层、融合算子以及激活
函数构成,对某个残差网络的输出以及该残差网络的输入进行融合处理,例如通过加法算
子进行相加处理,得到融合处理结果;对融合处理结果进行激活处理,激活处理通过relu激
活函数完成,通过卷积层对激活处理结果进行多尺寸的卷积处理,例如,进行三个层次的卷
积处理,随着网络深度的增加,训练会变得愈加困难,主要是因为在基于随机梯度下降的网
络训练过程中,误差信号的多层反向传播非常容易引发梯度弥散或者梯度爆炸的现象,图6
所示的残差网络解决了网络深度带来的训练困难的问题,它的网络性能(完成任务的准确
度和精度)较高。
个第一场景类别的场景内更细粒度的子场景,从而对第一场景类别进行更细粒度的场景特
征抽取,每个第一场景类别预定义K个第二场景类别的数量(例如,K=10),对于第一场景类
别数量为P时,共需要得到K*P个第二场景类别的数量,具体过程如下:通过第一场景分类模
型对多个图像中每个图像进行前向计算,得到每个图像的第一分类特征(Embedding1的输
出),针对某个第一场景类别进行以下处理:以第一场景类别是公园类别为例,对标记为公
园类别的图像的第一分类特征进行聚类处理,例如,K‑means聚类处理,得到K个聚类Si,对
应存在K个聚类中心,对标记为公园类别的所有图像计算中心距离,例如,针对图像F,需要
计算图像F的第一分类特征与K个聚类中心的距离,并将与K个聚类中心的K个距离中最近的
距离Di作为图像F的中心距离,将所有图像的中心距离Di进行升序排列,将升序排列的第x%
位距离作为公园类别的阈值thri,并保存数据(thri,Pi),其中Pi为标记为公园类别的图像
的数量,例如,x%为80%,若有10个样本,则阈值thri是从升序排序后的第8个值,x%为集中在
聚类中心的图像数量比例,x%可以是预先设定的值,若标注为公园类别的所有图像的标注
都是正确的,即不存在标注为公园实际上是商场这种情形,则x%可以预设为90%或以上,表
示90%数据都能正确归到公园类别下的第二场景类别的聚类中心,阈值表征公园类别下进
行正确聚类的最大图像数目,通常x%避免预设为100%,目的是去除一些难样本,例如,处于
两个聚类边界的图像,预设难样本比例不超过10%,若超过根据需要调整x%,若某个类别标
注有40%错误,则将x%预设为50%,表示将第50%位的图像的中心距离作为公园类别的类别阈
值,对所有第一场景类别进行上述处理,最终得到K*P个聚类中心以及对应的K*P个(thri,
Pi)数据,通过加权求和的方式确定图像划分阈值,例如,针对K*P个(thri,Pi)数据,计算
thri*Pi/P的加和结果,以得到图像划分阈值Thr,例如,公园类别的图像占图像总数量的1/
5,公园类别的类别阈值为第80%位对应的中心距离0.6,商场类别的图像占图像总数量的4/
5,商场类别的类别阈值为第90%位对应的中心距离0.8,则将0.6乘以1/5得到0.12,将0.8乘
以4/5得到0.64,最后得到的图像划分阈值为0.76,,最后对所有图像,确定对应归属的聚类
中心,例如,对图像F,计算图像F对K*P个聚类中心的距离,将距离小于图像划分阈值的聚类
中心记录为图像F的聚类中心(假设有3个),为该图像F保存3个第二场景类别,并且3个第二
场景类别的权重相同,从而得到所有图像的第二场景类别。
据量正相关的第二场景类别的数量,如具有1000和2000个样本的第一场景类别A和第二场
景类别B,B的第二场景类别的数量为A的第二场景类别的数量的2倍。
多个不同的第二场景类别的共性特征可以分别得到学习。
如,第一场景类别(公园)下具有更精确的第二场景类别,第二场景类别包括:湖景、小道、儿
童设施、花坛等。
联合训练时,第一场景分类模型的正向传播过程与上述过程类似,针对第二场景分类模型,
通过表3中的第二特征处理层(Embedding2)对第一场景分类模型输出的图像样本的最大池
化结果进行全连接处理,得到第二分类特征,再通过表3中的第二分类层(FC2)对第二分类
特征进行全连接处理得到图像F属于每个第二场景类别的第二预测概率,第二场景类别的
数目为K*P个,K为正整数,K为每个第一场景类别下的第二场景类别的数目,上述过程是第
二场景分类模型的正向传播的过程。
于每个第一场景类别的第三预测概率,上述过程是第三场景分类模型的正向传播的过程。
第二分类特征以嵌入的形式合并到第一分类特征中,使的粗粒度的第一场景类别的第一分
类特征与更具有共性的第二分类特征联合驱动场景分类任务。
的第三预测概率,确定各个场景分类模型的损失,针对第一场景分类模型,第一分类损失为
交叉熵损失函数,参见公式(3):
像的标识。
标签,采用多个二分类的交叉熵损失函数作为对应FC2的输出的第二分类损失,以下为某个
第二场景类别的二分类的交叉熵损失函数,参见公式(4):
记第二场景类别,则 为1,若图像的真实标签不为预标记的第二场景类别,则 为0。
道),则分别获取这两个第二场景类别的二分类的交叉熵损失函数,再进行求和处理,得到
第二分类损失。
特征,FC3的作用是把第三分类特征映射到P个不同的第一场景类别,故第三场景分类模型
的第三分类损失与第一分类损失类似,联合训练的整体损失为第一分类损失、第二分类损
失以及第三分类损失之和,从而保证所学习到的第三场景分类模型既学习到细粒度的原型
特征(第二分类特征)的特征表达,也学习到场景分类特征(第一分类特征)的特征表达。
类模型作为要学习的目标分类器,其采用Embedding1和Embedding2的输出拼接作为第三分
类特征,输出为P个需要学习的第一场景类别。
外学习Embedding2、FC2、FC3等网络层,其中,将Embedding1(1*1024)的输出和Embedding2
(1*1024)的输出进行拼接,得到第三分类特征(1*2048)作为FC3的输入,Embedding1的输出
代表单纯采用针对识别第一场景类别所需要用到的第一分类特征、Embedding2的输出代表
场景中具体某些原型特征(即可以根据原型特征区分细粒度的第二场景类别),两者合并实
现两种类型特征的联合。
人工智能的场景分类方法的处理流程图,终端A接收到用户输入的图像,然后上传给服务
器,服务器使用本申请实施例提供的第三场景分类模型对用户输入的图像进行场景分类,
将场景分类结果输出到终端B进行对应显示,终端B是区别于终端A的终端,例如,终端A将图
像上传至服务器以进行发布,终端B接收服务器下发的图像以及对应图像的分类结果。
征,并支持到整体的场景识别中,在模型学习中得到更充分的类别信息,本申请实施例提供
的基于人工智能的场景分类方法具有以下优势:1)通过聚类处理进行无监督的第二场景类
别挖掘,在不需要人力标注第二场景类别的情况下即可以进行识别第二场景类别的学习任
务;2)通过第二场景类别的动态自监督学习逐渐优化第二场景类别的特征表达;3)通过对
第二场景类别的第二分类特征与第一场景类别的第一分类特征进行联合,使得第三场景分
类模型针对第一场景类别的识别效果提升;4)在有限增加复杂度的情况下(对比第一场景
分类模型,仅增加了Embedding 2、FC2、以及FC3)下得到联合训练框架。
练检测器而需要预先标注检测数据集造成额外标注的成本,通过在训练阶段对第一场景类
别进行无监督的第二场景类别多实例建模,强化模型对多个第二场景类别的特征表达,借
助第二场景类别实现第一场景类别的多实例分析,使得每个图像都可以映射到第二场景类
别这样的精准类别上,从而可以区分图像的噪声标签以及第二场景类别,有助于特征的共
性抽取,通过联合第一分类特征这样的基础特征与第二分类特征这样的多实例特征,实现
隐性的多实例特征与基础特征联合,从而获得多个场景样式的表征。
分类装置255中的软件模块可以包括:获取模块2551,用于针对第一场景类别的多个图像样
本,获取每个图像样本的至少一个第二场景类别;其中,每个图像样本的至少一个第二场景
类别是图像样本的第一场景类别的子场景类别;训练模块2552,用于基于多个图像样本的
第一场景类别、以及多个图像样本的第二场景类别,联合训练第一场景分类模型、第二场景
分类模型以及第三场景分类模型;其中,第一场景分类模型用于识别不同的第一场景类别,
第二场景分类模型用于识别不同的第二场景类别,第三场景分类模型是基于第一场景分类
模型以及第二场景分类模型组合得到的;应用模块2553,用于通过训练后的第三场景分类
模型对待分类图像进行场景分类处理,得到待分类图像在不同的第一场景类别中对应的第
一场景类别。
第一场景类别的图像样本,作为目标图像样本,并基于多个目标图像样本的第一分类特征,
对多个目标图像样本进行聚类处理,得到与至少一个第二场景类别一一对应的至少一个聚
类;基于至少一个聚类,确定每个图像样本的第二场景类别。
第一池化特征;对第一池化特征进行多次残差迭代处理,得到图像样本的残差迭代处理结
果;对图像样本的残差迭代处理结果进行最大池化处理,得到图像样本的最大池化处理结
果;对图像样本的最大池化处理结果进行第一嵌入处理,得到图像样本的第一分类特征。
分类特征作为多个聚类的初始质心,并将N个目标图像样本从目标图像样本集合移除,其
中,N为对应第一场景类别的第二场景类别的数目,N为大于或者等于2的整数;初始化聚类
处理的迭代次数为M,并建立对应每个聚类的空的集合,其中,M为大于或者等于2的整数;在
聚类处理的每一次迭代过程中执行以下处理:对每个聚类的集合进行更新处理,并基于更
新处理结果执行质心生成处理,得到每个聚类的新质心,当新质心不同于初始质心时,将初
始质心对应的目标图像样本再次添加至目标图像样本集合,并基于新质心更新初始质心;
将迭代M次后得到的每个聚类的集合确定为聚类处理结果,或者,将迭代m次后得到的每个
聚类的集合确定为聚类处理结果;其中,迭代m次后得到的多个聚类与迭代m‑1次后得到的
多个聚类的质心相同,m小于M,m为整数变量且取值满足2≤m≤M。
度;将最大相似度对应的初始质心确定为与目标图像样本属于相同聚类,并将目标图像样
本转移至最大相似度初始质心对应的聚类的集合,最大相似度初始质心为最大的相似度对
应的初始质心;将每个聚类的集合中每个目标图像样本的第一分类特征进行平均处理,得
到每个聚类的新质心。
心;针对多个目标图像样本中的每个目标图像样本执行以下处理:确定目标图像样本的第
一分类特征与每个聚类的质心之间的特征距离,将小于特征距离阈值的特征距离对应的质
心的聚类,确定为与目标图像样本关联的聚类,并将聚类对应的第二场景类别确定为目标
图像样本的第二场景类别。
别的标记准确度;针对每个第一场景类别,获取与标记准确度正相关的第一场景类别阈值;
确定目标图像样本在多个图像样本中的数目占比,并将数目占比作为第一场景类别阈值的
权重;基于每个第一场景类别阈值的权重,对多个第一场景类别阈值进行加权求和处理,得
到特征距离阈值。
目标图像样本的中心距离;获取与标记准确度正相关的升序排序位置,并对多个目标图像
样本的中心距离进行升序排序;获取升序排序结果中对应升序排序位置的中心距离,并中
心距离确定为第一场景类别阈值。
图像样本的第一分类特征之前,通过特征网络对图像样本进行特征提取处理,得到图像样
本的最大池化处理结果;通过第一特征处理网络对图像样本的最大池化处理结果进行第一
嵌入处理,得到图像样本的第一分类特征;通过第一分类网络将第一分类特征映射为图像
样本的预标记第一场景类别的第一预测概率;基于第一预测概率、以及图像样本的预标记
第一场景类别,确定图像样本的第一分类损失;根据图像样本的第一分类损失,更新第一场
景分类模型的参数。
理,得到图像样本的场景分类结果;基于场景分类结果、图像样本的预标记第一场景类别和
图像样本的预标记第二场景类别,更新第一场景分类模型、第二场景分类模型以及第三场
景分类模型的参数。
场景分类模型的第一特征处理网络,第二场景分类模型与第三场景分类模型共享第二场景
分类模型的第二特征处理网络;训练模块2552,还用于:通过特征网络对图像样本进行特征
提取处理,得到图像样本的最大池化处理结果;通过第一场景分类模型的第一特征处理网
络对图像样本的最大池化处理结果进行第一嵌入处理,得到图像样本的第一分类特征;通
过第一分类网络将第一分类特征映射为图像样本的预标记第一场景类别的第一预测概率;
通过第二特征处理网络对图像样本的最大池化处理结果进行第二嵌入处理,得到图像样本
的第二分类特征,并通过第二场景分类模型的第二分类网络将第二分类特征映射为图像样
本的至少一个预标记第二场景类别的第二预测概率;对第一分类特征以及第二分类特征进
行拼接处理,并通过第三场景分类模型的第三分类网络将拼接处理结果映射为图像样本的
预标记第一场景类别的第三预测概率;将第一预测概率、第二预测概率以及第三预测概率,
组合为图像样本的场景分类结果。
景类别,确定第三分类损失;基于至少一个第二预测概率,以及图像样本的至少一个预标记
第二场景类别,确定第二分类损失;对第一分类损失、第二分类损失以及第三分类损失进行
融合处理,得到联合损失;根据联合损失更新第一场景分类模型、第二场景分类模型以及第
三场景分类模型的参数。
器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备
执行本申请实施例上述的基于人工智能的场景分类方法。
能的场景分类方法。
各种设备。
可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在
计算环境中使用的其它单元。
Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件
中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
上执行。
场景类别进行训练,相当于同时学习第一场景类别的特征表达以及细粒度场景的特征表
达,由于第三场景分类模型是基于第一场景分类模型以及第二场景分类模型组合得到的,
从而训练得到的第三场景分类模型兼具有第一场景类别以及细粒度场景类别(第二场景类
别)的联合特征表达,从而有效提升场景识别准确度。
内。