一种基于弱监督学习的视频目标检测方法转让专利

申请号 : CN202110759622.2

文献号 : CN113420707B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 朱锦雷井琨许野平朱爱红

申请人 : 神思电子技术股份有限公司

摘要 :

本发明提供一种基于弱监督学习的视频目标检测方法,通过设计新型注意力网络模型,基于较少的全标注数据及海量简单标注数据,使网络模型的空间及通道注意力机制高效工作,从而可以基于海量样本进行弱监督训练学习,取得高精度的目标检测效果。注意力网络模型是实现高精度物体检测的必要技术手段,但是在目标识别过程中,所关注的区域热点可能会受到运动背景物体的干扰,有些输入数据预测结果较好,而另一些则很差,本方法引入了位置注意力内部损失函数,通过在视频中跟踪目标区域,生成用于检测的伪定位标签,用于注意力网络模型的弱监督训练,从而实现少量标注样本向海量样本的高效迁移学习。

权利要求 :

1.一种基于弱监督学习的视频目标检测方法,其特征在于:包括以下步骤:S01)、输入视频片段至基准模型,基准模型针对输入进行视频目标检测,输出关键帧中的视频目标位置与类别;

S02)、基于基准模型的输出计算损失函数,在损失函数驱动下对基准模型分两步进行训练,首先基于有目标位置的带标签样本进行预监督训练,生成预训练模型,其次基于预训练模型和无目标位置标签样本对基准模型进行弱监督训练,从而实现对基准模型的优化;

基准模型包括四个网络分支,网络分支一和网络分支二采用复杂度不同的3D‑CNN网络,分别关注目标通道特征和空间特征,网络分支三对通道和空间特征进行融合,网络分支四用于计算视频序列的目标位置损失;

步骤S02的预监督训练和弱监督训练采用一系列子损失函数组合,包括:A、分类交叉熵损失函数,

为了加速计算,基于对原始图像网格化分割的基本思想,将输入样本按S×S网格等比例划分,则相应的分类交叉熵损失函数为:2

其中i为输入样本划分网格的标号,s为网格数目,输入样本上锁定目标中心所需要的候选框模板数目为B,j为候选框模板的标号, 代表网格标号为i、候选框模板标号为j时,j是否存在类别为cls的目标,存在时, 否则为0; 和Pi分别代表预测概率及实际标签;

B、位置损失函数,

首先,定义单帧图像内目标位置损失如下:

其中, 代表网格标号为i、候选框模板标号为j时,是否存在类别为cls的目标,存在2

时, 否则为0,B为锁定目标中心所需要的候选框模板数目,s 为网格数目;

分别代表样本中标注的横向中心坐标、纵向中心坐标、目标宽度、目标高度及目标可信度, 代表 相应的预测值;λco为人工指定的加权系数,即为超参数;

由于输入样本是视频序列片段,它由连续视频帧构成,所以序列位置损失定位为:其中N为样本序列的长度,Lossloc(n;)代表视频序列中第n帧图像的位置损失;

C、伪位置损失函数,

伪位置损失关注两个网络分支关键帧之间的目标位置损失,定位为:其中, 是由网络分支四生成的位置标签,它作为位置损失计算的基准,是由网络分支三生成的位置标签;

D、跟踪损失函数;

使用目标跟踪函数计算临近帧的目标位置,与网络预测位置进行比较,形成目标追踪损失,定义为:其中 为输入序列clip的第n帧目标预测位置, 为输入序列clip的第n‑1帧目标预测位置, 通过追踪器Tracker后,计算与 之间的位置正则化损失;

E、特征连续性损失函数;

其中,Xg代表第g组视频序列,其中有N帧图像,dg,n,l代表g组中第n帧与第l帧预测目标的余弦相似度,f(·)代表图像中候选目标特征,对于批处理组中的第g‑th视频系列Xg,其内部相邻两帧中的候选目标特征距离用余弦距离表示,那么DNCB代表邻域特征距离矩阵,直观上讲,xg,n与xg,n+1的特征距离越近越好,所以,DNCB中各特征距离的贡献是不同,其贡献值定义如下:批处理组内特征连续性损失定义为:

其中ε为超参数,取值范围为0至1之间,ε用于调整的概率密度,当dc值分布较为集中时拉伸其分布空间。

2.根据权利要求1所述的基于弱监督学习的视频目标检测方法,其特征在于:预监督训练阶段,外部损失函数GL及内部损失函数IL定义为:其中,predictkey输入序列关键帧中的目标预测位置,truthkey为标签判断基准;在弱监督训练阶段,外部损失函数GL及内部损失函数IL定义为:其中视频序列clip的长度为N,γ为跟踪损失影响系数,其调节区间为[1,N‑1]。

3.根据权利要求2所述的基于弱监督学习的视频目标检测方法,其特征在于:弱监督训练阶段训练基准模型时,其相应的外部损失函数作用于网络分支一和网络分支三,相应的内部损失函数作用于分支二和分支四。

4.根据权利要求1所述的基于弱监督学习的视频目标检测方法,其特征在于:步骤S02中的无位置标签样本指没有目标在图像中的具体位置,但有在视频中的起始及结束帧位置的样本数据。

说明书 :

一种基于弱监督学习的视频目标检测方法

技术领域

[0001] 本发明涉及一种基于弱监督学习的视频目标检测,属于图像分析与机器学习领域。

背景技术

[0002] 在图像分析与识别领域,有监督学习一般需要标注海量的数据。当基于视频流检测目标或行为时,往往需要对视频流中每帧图像中的目标进行标注,标注工作量显著增加。
[0003] 通过半监督、弱监督、无监督三种学习方式,可消除或减少训练模型对人工标注样本的依赖。一般认为,半监督学习是在有监督学习得到模型基础上,基于新的无标签数据进行二次无监督训练得到新的模型。无监督学习,指算法不依赖标注样本,自动发现数据中蕴含的规律,按一定的损失计算方法进行训练模型。弱监督一般是基于标记不正确、多种标记、标记不充分、局部标记等的数据进行训练模型。

发明内容

[0004] 本发明要解决的技术问题是提供一种基于弱监督学习的视频目标检测方法,利用特定目标在指定区域内视频片段位置及特征连续性特点,标注数据时只需要指定该视频片段中该目标的大概出现的视频帧位置及目标类别(帧标注),无需对视频每帧图像进行详细标签(段标注),该弱监督训练学习方法通过设计网络模型与系列损失函数实现了与有监督学习性能相当的效果。
[0005] 为了解决所述技术问题,本发明采用的技术方案是:一种基于弱监督学习的视频目标检测方法,包括以下步骤:
[0006] S01)、输入视频片段至基准模型,基准模型针对输入进行视频目标检测,输出关键帧中的视频目标位置与类别;
[0007] S02)、基于基准模型的输出计算损失函数,在损失函数驱动下对基准模型分两步进行训练,首先基于有目标位置的带标签样本进行预监督训练,生成预训练模型,其次基于预训练模型和无目标位置标签样本对基准模型进行弱监督训练,从而实现对基准模型的优化。
[0008] 进一步的,步骤S02的预监督训练和弱监督训练采用一系列子损失函数组合,各子函数分别为:
[0009] A、分类交叉熵损失函数,
[0010] 为了加速计算,基于对原始图像网格化分割的基本思想,将输入样本按S×S网格等比例划分,则相应的分类交叉熵损失函数为:
[0011]
[0012] 其中i为输入样本划分网格的标号,s2为网格数目,输入样本上锁定目标中心所需要的候选框模板数目为B,j为候选框模板的标号, 代表网格标号为i、候选框模板标号为jj时,是否存在类别为cls的目标,存在时, 否则为0; 和Pi 分别代表预测概率及实际标签;
[0013] B、位置损失函数,
[0014] 首先,假设单帧图像内目标位置损失如下:
[0015]
[0016] 其中, 代表网格标号为i、候选框模板标号为j时,是否存在类别为cls的目标,2
存在时, 否则为0,B为锁定目标中心所需要的候选框模板数目,s 为网格数目;
分别代表样本中标注的横向中心坐标、纵向中心坐标、目标宽度、目标高度
及目标可信度, 代表 相应的预测值;λco为人工指定的加权系
数,即为超参数;
[0017] 由于输入样本是视频序列片段,它由连续视频帧构成,所以序列位置损失定位为:
[0018] 其中N为样本序列的长度,Lossloc(n;)代表视频序列中第n帧图像的位置损失;C、伪位置损失函数,
[0019] 伪位置损失关注两个网络分支关键帧之间的目标位置损失,定位为:
[0020]
[0021] 其中, 是由网络分支四生成的位置标签,它作为位置损失计算的基准,是由网络分支三生成的位置标签;
[0022] D、跟踪损失函数;
[0023] 使用目标跟踪函数计算临近帧的目标位置,与网络预测位置进行比较,形成目标追踪损失,定义为:
[0024]
[0025] 其中 为输入序列clip的第n帧目标预测位置, 为输入序列clip的第n‑1帧目标预测位置, 通过追踪器Tracker后,计算与 之间的位置正则化损失;
[0026] E、特征连续性损失函数;
[0027] Xg={xg,0,xg,1,…,xg,N}
[0028] dg,n,l=dc(xg,n,xg,l)=f(xg,n)Tf(xg,l),
[0029]
[0030] 其中,Xg代表第g组视频序列,其中有N帧图像,dg,n,l代表g组中第n帧与第l帧预测目标的余弦相似度,f(·)代表图像中候选目标特征,对于批处理组中的第g‑th视频系列Xg,其内部相邻两帧中的候选目标特征距离用余弦距离表示,那么DNCB代表邻域特征距离矩阵,直观上讲,xg,n与xg,n+1的特征距离越近越好,所以,DNCB中各特征距离的贡献是不同,其贡献值定义如下:
[0031]
[0032] 批处理组内特征连续性损失定义为:
[0033]
[0034] 其中ε为超参数,取值范围为0至1之间,ε用于调整dc的概率密度,当dc值分布较为集中时拉伸其分布空间。
[0035] 进一步的,预监督训练阶段,外部损失函数GL及内部损失函数IL定义为:
[0036]
[0037] 其中,predictkey输入序列关键帧中的目标预测位置,truthkey为标签判断基准;在弱监督训练阶段,外部损失函数GL及内部损失函数IL定义为:
[0038]
[0039] 其中视频序列clip的长度为N,γ为跟踪损失影响系数,其调节区间为[1,N‑1]。
[0040] 进一步的,基准模型包括四个网络分支,网络分支一和网络分支二采用复杂度不同的3D‑CNN网络,分别关注目标通道特征和空间特征,网络分支三对通道和空间特征进行融合,网络分支四用于计算视频序列的目标位置损失。
[0041] 进一步的,弱监督训练阶段训练基准模型时,其相应的外部损失函数作用于网络分支一和网络分支三,相应的内部损失函数作用于分支二和分支四。
[0042] 进一步的,步骤S02中的无位置标签样本指没有目标在图像中的具体位置,但有在视频中的起始及结束帧位置的样本数据。
[0043] 本发明的有益效果:通过设计新型注意力网络模型,基于较少的全标注数据及海量简单标注数据,使网络模型的空间及通道注意力机制高效工作,从而可以基于海量样本进行弱监督训练学习,取得高精度的目标检测效果。注意力网络模型是实现高精度物体检测的必要技术手段,但是在目标识别过程中,所关注的区域热点可能会受到运动背景物体的干扰,有些输入数据预测结果较好,而另一些则很差,而我们无法事先决定选择输入内容。使用目标在视频序列内连续存在的特点,可增强网络模型的鲁棒性和抗噪声干扰能力,故,本方法引入了位置注意力内部损失函数,通过在视频中跟踪目标区域,生成用于检测的伪定位标签,用于注意力网络模型的弱监督训练,从而实现少量标注样本向海量样本的高效迁移学习。

附图说明

[0044] 图1为基准模型的原理框图;
[0045] 图2为基于弱监督学习的视频目标检测模型原理框图。

具体实施方式

[0046] 下面结合附图和具体实施例对本发明作进一步的说明。
[0047] 实施例1
[0048] 本实施例公开一种基于弱监督学习的视频目标检测方法,包括以下步骤:
[0049] S01)、输入视频片段至基准模型,基准模型针对输入进行视频目标检测,输出关键帧中的视频目标位置与类别;
[0050] S02)、基于基准模型的输出计算损失函数,在损失函数驱动下对基准模型分两步进行训练,首先基于有目标位置的带标签样本进行预监督训练,生成预训练模型,其次基于预训练模型和无目标位置标签样本对基准模型进行弱监督训练,从而实现对基准模型的优化。
[0051] 本实施例采用基准模型进行视频目标检测,如图1所示,基准模型采用现有神经网络架构,包括四个网络分支,分别是网络分支一、网络分支二、网络分支三和网络分支四。网络分支一和网络分支二采用复杂度不同的3D‑CNN网络,分别关注目标通道特征和空间特征,网络分支三对通道和空间特征进行融合,网络分支四主要用于计算序列的目标位置损失。在弱监督阶段训练基准模型时,其相应的外部损失函数作用于网络分支一和网络分支三,相应的内部损失函数作用于网络分支二和网络分支四。
[0052] 本实施例中,无目标位置标签样本指没有目标在图像中的具体位置,但有在视频中的起始及结束帧位置的样本数据。在弱监督训练时,网络分支四生成目标在输入序列图像中的伪位置,以伪位置标签为基准,求取关键帧目标位置损失。同时以目标伪位置为基准,向前跟踪并输出前一帧的位置跟踪标签,计算各帧预测位置与跟踪标签之间的跟踪损失,由于网络分支四会以概率形式生成多个候选目标,候选目标之间存在可信度损失。
[0053] 本实施例中,步骤S02的预监督训练和弱监督训练采用一系列子损失函数组合,各子函数分别为:
[0054] A、分类交叉熵损失函数,
[0055] 为了加速计算,基于对原始图像网格化分割的基本思想,将输入样本按S×S网格等比例划分,则相应的分类交叉熵损失函数为:
[0056]
[0057] 其中i为输入样本划分网格的标号,s2为网格数目,输入样本上锁定目标中心所需要的候选框模板数目为B,j为候选框模板的标号, 代表网格标号为i、候选框模板标号为jj时,是否存在类别为cls的目标,存在时, 否则为0; 和Pi 分别代表预测概率及实际标签;
[0058] B、位置损失函数,
[0059] 首先,假设单帧图像内目标位置损失如下:
[0060]
[0061] 其中, 代表网格标号为i、候选框模板标号为j时,是否存在类别为cls的目标,2
存在时, 否则为0,B为锁定目标中心所需要的候选框模板数目,s 为网格数目;
分别代表样本中标注的横向中心坐标、纵向中心坐标、目标宽度、目标高度
及目标可信度, 代表 相应的预测值;λco为人工指定的加权
系数,即为超参数;
[0062] 由于输入样本是视频序列片段,它由连续视频帧构成,所以序列位置损失定位为:
[0063]
[0064] 其中N为样本序列的长度,如输入样本序列长度为16帧,则N=16;Loss(n;)代表视频序列中第n帧图像的位置损失,根据公式2计算Loss(n;),计算时,第n帧图像中标注的横向中心坐标、纵向中心坐标、目标宽度、目标高度及目标可信度对应公式2中的它们对应的预测值对应公式2中的
[0065] C、伪位置损失函数,
[0066] 伪位置损失关注两个网络分支关键帧之间的目标位置损失,定位为:
[0067]
[0068] 其中, 是由网络分支四生成的位置标签,它作为位置损失计算的基准,对应公式2中的 是由网络分支三生成的位置标签,对应公式2中的
[0069] D、跟踪损失函数;
[0070] 使用目标跟踪函数计算临近帧的目标位置,与网络预测位置进行比较,形成目标追踪损失,定义为:
[0071]
[0072] 其中 为输入序列clip的第n帧目标预测位置, 为输入序列clip的第n‑1帧目标预测位置, 通过追踪器Tracker后,计算与 之间的位置正则化损失。根据公式2计算 对应公式2中的对应公式2中的
[0073] E、特征连续性损失函数;
[0074] 特征连续性损失函数LNCB采用了在视频序列中,目标特征余弦距离较小及特征连续,以及不同特征相似强度对批处理组损失贡献不同的特性,进行计算所追踪目标的特征连续行损失。
[0075] 具体规定如下:
[0076] Xg={xg,0,xg,1,…,xg,N},
[0077] dg,n,l=dc(xg,n,xg,l)=f(xg,n)Tf(xg,l)      (6),
[0078]
[0079] 其中,Xg代表第g组视频序列,其中有N帧图像,即xg,0至xg,N,dg,n,l代表g组中第n帧与第l帧预测目标的余弦相似度,f(·)代表图像中候选目标特征,对于批处理组中的第g‑th视频系列Xg,其内部相邻两帧中的候选目标特征距离用余弦距离表示,那么DNCB代表邻域特征距离矩阵。参考图1,xg,N‑1与xg,N代表网络分支四与网络分支三中输入的关键帧图像。直观上讲,xg,n与xg,n+1的特征距离越近越好,所以,DNCB中各特征距离的贡献是不同,其贡献值定义如下:
[0080]
[0081] 批处理组内特征连续性损失定义为:
[0082]
[0083] 其中ε为超参数,取值范围为0至1之间,ε用于调整dc的概率密度,当dc值分布较为集中时拉伸其分布空间。
[0084] 预监督训练阶段,外部损失函数GL及内部损失函数IL定义为:
[0085]
[0086] 其中,predictkey输入序列关键帧中的目标预测位置,truthkey为标签判断基准;在弱监督训练阶段,外部损失函数GL及内部损失函数IL定义为:
[0087]
[0088] 其中视频序列clip的长度为N,γ为跟踪损失影响系数,其调节区间为[1,N‑1]。
[0089] 以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。