一种基于主动学习的步态识别方法转让专利
申请号 : CN202110041665.7
文献号 : CN112818755B
文献日 : 2022-05-06
发明人 : 冯镔 , 胡滨 , 肖劲轩 , 刘文予
申请人 : 华中科技大学
摘要 :
权利要求 :
1.一种基于主动学习的步态识别方法,其特征在于,所述方法包括下述步骤:(1)生成轮廓数据集:
(1.1)对一段步态序列中的每一帧轮廓图,依据每一行的像素和不为0的原则,找上边和下边;
(1.2)根据上边和下边对轮廓图进行切割;
(1.3)对切割后的图进行resize操作,高度为64,宽度保持比例;
(1.4)依据每一列的和最大的为中心线原则,找到中心线;
(1.5)中心线左右各32像素进行切割,不够的补0;
(1.6)得到对齐后的轮廓图;
(2)初始化已标注集与未标注集:
将生成的轮廓数据集作为训练特征提取主模型和样本选择副模型的数据集,按照不同的应用场景选择相应的策略,对数据集进行初始化,当数据集样本数量庞大、需要高昂的代价进行人工标注时,初始化数据集的策略是:将轮廓数据集中已经进行了标注的数据设置为已标注集,轮廓数据集中未进行标注的数据设置为未标注集,当数据集样本数量有限、难以获取更多样本时,初始化数据集的策略是:随机从生成的轮廓数据集中选择一定数量的样本作为已标注集,其余的样本视为未标注样本,加入未标注集;
(3)训练特征提取主模型:
(3.1)将初始化好的已标注集样本输入到特征提取主模型当中,使用卷积神经网络和池化层,将已标注集样本从图像序列编码成具有代表性的特征;
(3.2)使用注意力机制,将每一个序列中最大的特征值、中间特征值和平均特征值进行叠加,作为每个序列在模型中的特征表示;
(3.3)得到每个序列的特征表示后,按照不同的尺度将特征进行分层叠加,得到序列多尺度的特征表示;
(3.4)使用损失函数对得到的特征进行评估,反向传播训练特征提取主模型;
(4)训练主动学习样本选择副模型:(4.1)使用特征提取主模型提取好已标注集中样本的特征后,将提取好的特征输入到主动学习样本选择副模型当中,根据不同的应用场景,选择主动学习样本选择副模型的训练方式;
(4.2)当数据样本数量庞大,需要大量的标注,标注代价高昂,主动学习样本选择副模型的主要目的是降低标注代价时,根据特征提取主模型提取出的特征,主动学习样本选择副模型对已标注集中的每个样本预测不确定分数,以特征提取主模型的损失函数值作为真实值,计算主动学习样本选择副模型的损失函数值,反向传播进行训练;
(4.3)当数据集的数量比较有限、新样本获取困难,主动学习样本选择副模型的主要目的是充分利用数据样本的多样性时,根据特征提取主模型提取出的特征,主动学习样本选择副模型对已标注集中的样本预测目标标签,以每个样本的真实标签作为真实值,计算主动学习样本选择副模型的损失函数值,反向传播进行训练;
(5)更新已标注集与未标注集:
将训练好的特征提取主模型和主动学习样本选择副模型设置为测试模式,使用特征提取主模型提取未标注集中样本的特征,输入到主动学习样本选择副模型中,主动学习样本选择副模型对未标注集中每一个样本进行评估,按照设定好的选择策略,根据每个样本的不确定性分数或离相应目标标签特征中心距离的大小,将未标注数据集中的样本进行排序,选取K个样本进行标注后加入到已标注集中;
(6)重复步骤(3)到(5),直到已标注数据集中的样本数量达到预先设定好的容量。
2.根据权利要求1所述的基于主动学习的步态识别方法,其特征在于,所述步骤(3.3)中的损失函数的计算过程为:根据(3.1)中提取出的每个序列的特征,计算不同样本之间的距离,使标签相同的样本距离尽可能近,标签不同的样本距离尽可能远。
3.根据权利要求1或2所述的基于主动学习的步态识别方法,其特征在于,所述步骤(4.1)中主动学习样本选择副模型的使用过程具体为:根据需求场景的不同,选择相应的主动学习样本选择副模型筛选策略,使用特征提取主模型生成的特征矩阵进行联合训练;当数据样本数量庞大,需要大量的标注,标注代价高昂,主动学习样本选择副模型的主要目的是降低标注代价时,主动学习样本选择副模型对未标注集中的样本进行困难度的评估,筛选出困难样本进行标记,加入到已标注集中,送入到特征提取主模型进行进一步的训练;当数据集的数量比较有限,主动学习样本选择副模型的主要目的是充分利用数据样本的多样性时,主动学习样本选择副模型对样本进行混淆度的评估;主动学习样本选择副模型预测未标注集中样本的目标标签,分别计算出每个目标标签下所有序列的中心特征,选择未标注集中离相应目标标签中心特征距离最远的样本作为混淆度最大的样本加入到已标注集中,送入到特征提取主模型中进行训练。
4.根据权利要求1或2所述的基于主动学习的步态识别方法,其特征在于,所述步骤(4.2)中的主动学习样本选择副模型的具体训练方式为:利用特征提取主模型输出的特征矩阵作为输入,使用池化层和全连接层处理输入的特征,输出对样本预测的不确定值。
5.根据权利要求1或2所述的基于主动学习的步态识别方法,其特征在于,所述步骤(4.2)中的主动学习样本选择副模型的损失函数计算方式为:利用特征提取主模型的损失函数值作为副模型的监督信息;由于特征提取主模型的损失函数值会随着训练动态变化,因此,在计算主动学习样本选择副模型的损失函数值时,进行成对样本损失函数相对值的比较;即比较成对的样本损失函数值相对大小,若主动学习样本选择副模型预测的损失函数值相对大小与特征提取主模型损失函数值相对大小相符合,则认定主动学习样本选择副模型的预测正确。
6.根据权利要求1或2所述的基于主动学习的步态识别方法,其特征在于,所述步骤(4.3)中的主动学习样本选择副模型的具体训练方式为:利用特征提取主模型输出的特征矩阵作为输入,使用池化层和全连接层处理输入的特征,输出对样本预测的标签。
7.根据权利要求1或2所述的基于主动学习的步态识别方法,其特征在于,所述步骤(4.3)中的主动学习样本选择副模型的损失函数计算方式为:主动学习样本选择副模型对已标注集样本预测的标签值与样本的真实标签值计算交叉熵,即为主动学习样本选择副模型的损失函数值。
8.根据权利要求1或2所述的基于主动学习的步态识别方法,其特征在于,所述步骤(5)中的目标标签特征中心的计算方式为:利用特征提取主模型得到未标注集中所有序列的特征矩阵,根据主动学习样本选择副模型对未标注集中样本预测的目标标签,计算每个目标标签下所有序列特征矩阵每一个维度上的平均值,即为每个目标标签的中心特征。
9.根据权利要求1或2所述的基于主动学习的步态识别方法,其特征在于,所述步骤(5)中的样本与对应目标标签特征中心距离计算公式为:其中x表示对应序列的特征矩阵,c表示序列对应目标标签的特征中心矩阵;||x||和||c||分别表示序列特征矩阵的中心特征矩阵的L2范数。
10.根据权利要求1或2所述的基于主动学习的步态识别方法,其特征在于,所述步骤(5)中的选择策略具体为:将主动学习样本选择副模块设置为测试模式;当主动学习样本选择副模型主要目的为降低标注代价时,主动学习样本选择副模型给每个未标注样本预测一个不确定性分数,根据输出的分数将未标注样本进行排序,选择K个不确定性最高的数据进行标注,然后加入到已标注集中;当主动学习样本选择副模型主要目的为利用样本多样性时,主动学习样本选择副模型预测每个未标注样本的标签,通过选取每个目标标签下所有序列中距离相应目标特征中心距离最远的K个未标注样本进行标注,然后加入到已标注集。
说明书 :
一种基于主动学习的步态识别方法
技术领域
背景技术
较远距离进行识别,并且无需受配者的主动参与。因此,在预防犯罪、法医鉴定以及社会保
障方面具有广泛的应用。
而,大量的数据往往意味着需要大量的人力与时间,很多时候,这样巨大的标注代价是不可
承受的。此外,在一些情况下,数据的获取比较困难,数据样本的数量比较有限。
用数据样本的多样性来提升步态识别方法的识别性能。
发明内容
数据量有限的时候,可以充分利用数据的多样性,达到提升性能的目的。
的代价进行人工标注时,初始化数据集的策略是:将轮廓数据集中已经进行了标注的数据
设置为已标注集,轮廓数据集中未进行标注的数据设置为未标注集。当数据集样本数量有
限、难以获取更多样本时,初始化数据集的策略是:随机从生成的轮廓数据集中选择一定数
量的样本作为已标注集,其余的样本视为未标注样本,加入未标注集;
的训练方式。
选择副模型对已标注集中的每个样本预测不确定分数,以特征提取主模型的损失函数值作
为真实值,计算主动学习样本选择副模型的损失函数值,反向传播进行训练。
已标注集中的样本预测目标标签,以每个样本的真实标签作为真实值,计算主动学习样本
选择副模型的损失函数值,反向传播进行训练。
样本选择副模型对未标注集中每一个样本进行评估,按照设定好的选择策略,根据每个样
本的不确定性分数或离相应目标标签特征中心距离的大小,将未标注数据集中的样本进行
排序,选取K个样本进行标注后加入到已标注集中。
标签不同的样本距离尽可能远。
取主模型生成的特征矩阵进行联合训练;当数据样本数量庞大,需要大量的标注,标注代价
高昂,主动学习样本选择副模型的主要目的是降低标注代价时,主动学习样本选择副模型
对未标注集中的样本进行困难度的评估,筛选出困难样本进行标记,加入到已标注集中,送
入到特征提取主模型进行进一步的训练;当数据集的数量比较有限,主动学习样本选择副
模型的主要目的是充分利用数据样本的多样性时,主动学习样本选择副模型对样本进行混
淆度的评估;主动学习样本选择副模型预测未标注集中样本的目标标签,分别计算出每个
目标标签下所有序列的中心特征,选择未标注集中离相应目标标签中心特征距离最远的样
本作为混淆度最大的样本加入到已标注集中,送入到特征提取主模型中进行训练。
入的特征,输出对样本预测的不确定值。
主模型的损失函数值会随着训练动态变化,因此,在计算主动学习样本选择副模型的损失
函数值时,进行成对样本损失函数相对值的比较;即比较成对的样本损失函数值相对大小,
若主动学习样本选择副模型预测的损失函数值相对大小与特征提取主模型损失函数值相
对大小相符合,则认定主动学习样本选择副模型的预测正确。
入的特征,输出对样本预测的标签。
值计算交叉熵,即为主动学习样本选择副模型的损失函数值。
标注集中样本预测的目标标签,计算每个目标标签下所有序列特征矩阵每一个维度上的平
均值,即为每个目标标签的中心特征。
习样本选择副模型给每个未标注样本预测一个不确定性分数,根据输出的分数将未标注样
本进行排序,选择K个不确定性最高的数据进行标注,然后加入到已标注集中;当主动学习
样本选择副模型主要目的为利用样本多样性时,主动学习样本选择副模型预测每个未标注
样本的标签,通过选取每个目标标签下所有序列中距离相应目标特征中心距离最远的K个
未标注样本进行标注,然后加入到已标注集。
估,结构简单但是效果明显;
副模型的设计,可以与各种步态识别模型进行适配;
对变化,因此能够适应不同的数据,鲁棒性强。
附图说明
具体实施方式
不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要
彼此之间未构成冲突就可以相互组合。
视频中,6个是正常视频(简称nm,其中4个是gallery,2个为prob),两个穿大衣视频(简称
cl,均为prob),2个带包视频(简称bg,均为prob)。数据格式为‘xxx‑mm‑nn‑ttt.avi’
更重要的信息。
的代价进行人工标注时,初始化数据集的策略是:将轮廓数据集中已经进行了标注的数据
设置为已标注集,轮廓数据集中未进行标注的数据设置为未标注集。当数据集样本数量有
限、难以获取更多样本时,初始化数据集的策略是:随机从生成的轮廓数据集中选择一定数
量的样本作为已标注集,其余的样本视为未标注样本,加入未标注集;
的训练方式。
选择副模型对已标注集中的每个样本预测不确定分数,以特征提取主模型的损失函数值作
为真实值,计算主动学习样本选择副模型的损失函数值,反向传播进行训练。
已标注集中的样本预测目标标签,以每个样本的真实标签作为真实值,计算主动学习样本
选择副模型的损失函数值,反向传播进行训练。
样本选择副模型对未标注集中每一个样本进行评估,按照设定好的选择策略,根据每个样
本的不确定性分数或离相应目标标签特征中心距离的大小,将未标注数据集中的样本进行
排序,选取K个样本进行标注后加入到已标注集中。
习模型选取样本加入标注集,Backbone表示普通的步态识别方法使用全部数据集的结果,
Backbone‑75%表示使用主动学习样本选择模块筛选出的75%的数据量达到的性能。NM,
BG,CL分别表示在目标正常行走、背包和身穿大衣三种状态下的识别准确率。结果的数值越
大表示图像识别的准确率越高,从表中可以看到,本发明方法提升非常明显。在仅使用75%
的数据量进行训练时,达到的性能已经跟Backbone使用全部数据达到的性能相近。
在本发明的保护范围之内。