一种现场自主学习的人脸识别系统和方法转让专利

申请号 : CN202010521332.X

文献号 : CN111797696A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王中元梁超韩镇邹华杜博

申请人 : 武汉大学

摘要 :

本发明公开了一种现场自主学习的人脸识别系统及方法,系统包括人脸检测器、自编码器、人脸识别器、人脸数据库;人脸检测器,用于从采集的动态视频中检测人脸框的位置,获得人脸图像,并将人脸图像输入自编码器中;自编码器,用于将人脸图像转换为高维特征,然后将转换后的图像特征输入人脸识别器中;人脸识别器,用于从人脸数据库中识别出对应的人脸身份;人脸数据库,用于存储现有的人脸及身份信息。本发明能够在无人工干预的情况下根据现场样本数据全自动地自主学习模型参数,从而增强了模型对场景数据的适应能力,提升了模型对特定目标群体的识别精度。

权利要求 :

1.一种现场自主学习的人脸识别系统,其特征在于:包括人脸检测器、自编码器、人脸识别器、人脸数据库;

所述人脸检测器,用于从采集的动态视频中检测人脸框的位置,获得人脸图像,并将人脸图像输入所述自编码器中;

所述自编码器,用于将人脸图像转换为高维特征,然后将转换后的图像特征输入所述人脸识别器中;

所述人脸识别器,用于从人脸数据库中识别出对应的人脸身份;

所述人脸数据库,用于存储现有的人脸及身份信息。

2.根据权利要求1所述的现场自主学习的人脸识别系统,其特征在于:所述人脸检测器,采用高性能人脸检测模型RetinaFace实现其检测功能;所述人脸识别器,采用高性能人脸识别模型ArcFace实现其识别功能。

3.根据权利要求1所述的现场自主学习的人脸识别系统,其特征在于:所述自编码器,包含编码器和解码器,编码器实现图像到特征的转换,解码器将特征重建为图像,二者相结合从而实现无需外部标签样本的自监督学习;采用稀疏自编码器模型实现其转换功能。

4.根据权利要求1-3任意一项所述的现场自主学习的人脸识别系统,其特征在于:所述系统还包括目标群体人脸样本收集单元、识别差错判断单元、目标群体人脸样本数据库、识别错误人脸样本数据库;

所述目标群体人脸样本收集单元,用于采集目标群体的人脸图像样本,形成目标群体人脸样本集,并存储在所述目标群体人脸样本数据库中;

所述识别差错判断单元,用于判断目标群体人脸样本集中误识或拒识这种难识别个体的困难样本,形成识别错误人脸样本集,并存储在所述识别错误人脸样本数据库中。

5.一种现场自主学习的人脸识别方法,其特征在于,包括以下步骤:

步骤1:离线训练人脸检测器,获得训练好的人脸检测器;离线联合训练自编码器和人脸识别器,获得训练好的自编码器和人脸识别器;

步骤2:人脸检测器从采集的动态视频中检测人脸框的位置,获得人脸图像,并送入训练好的自编码器,同时为目标群体和难识别个体提供人脸样本来源;

步骤3:收集目标群体人脸图像样本,形成目标群体人脸样本集;判断目标群体人脸样本集中误识或拒识这种难识别个体的困难样本,形成识别错误人脸样本集;

步骤4:自编码器将人脸图像转换为高维特征,并送入训练好的人脸识别器中;

步骤5:人脸识别器进一步提取人脸图像的身份特征并与人脸数据库中的人脸图像身份特征进行匹配,从人脸数据库中识别出对应的人脸身份。

6.根据权利要求5所述的现场自主学习的人脸识别方法,其特征在于:步骤1中,RetinaFace人脸检测器采用公开的大规模人脸检测数据集WiderFace训练,训练的损失函数采用RetinaFace中的多任务损失;自编码器和ArcFace人脸识别器采用公开的大规模人脸识别数据集WebFace联合训练,联合训练的损失函数采用ArcFace中的加性角余量损失。

7.根据权利要求5所述的现场自主学习的人脸识别方法,其特征在于:步骤3中,识别错误的判断条件为,当停留时间大于平均停留时间时,判断为识别错误。

8.根据权利要求5所述的现场自主学习的人脸识别方法,其特征在于:步骤4中,将人脸图像转换为高维特征,转化公式为:f=FW,b(i);

这里FW,b表示模型参数为(W,b)的自编码器的编码器部分,W,b分别代表模型的权重和偏置参数,i为输入人脸图像,f为输出特征。

9.根据权利要求5所述的现场自主学习的人脸识别方法,其特征在于:步骤5中,身份特征匹配采用如下余弦相似度:这里a,b表示两个待计算相似度的特征向量,符号“.”表示向量的点积运算,|| ||2表示L2-范数。

10.根据权利要求5-9任意一项所述的现场自主学习的人脸识别方法,其特征在于:为了进一步优化自编码器模型和人脸识别器,利用收集的目标群体人脸样本集和识别错误人脸样本集,对自编码器和人脸识别器进行现场训练,并更新自编码器和人脸识别器;其中,现场训练包括目标群体训练和困难样本训练;

所述目标群体训练,利用人脸数据库的标签样本对自编码器和ArcFace人脸识别器再次联合训练,联合训练的损失函数采用ArcFace中的加性角余量损失;采取的训练策略是只调整自编码器和ArcFace人脸识别器的最后三层的参数而保留低层参数不变;

当目标群体人脸样本集收集到预定规模时,仅对自编码器进行再次训练,训练的损失函数为如下L1正则化均方误差函数:其中,xn表示输入人脸样本,N为样本个数,AW,b表示参数为(W,b)的自编码器,|| ||1表示L1-范数;训练结束后,目标群体人脸样本集清零,进行下一次的收集;

所述困难样本训练,当识别错误人脸样本集达到预定规模时,仅对自编码器进行再次训练,训练的损失函数为上述L1正则化均方误差函数;采取的训练策略是只调整自编码器的最后三层的参数而保留低层参数不变;训练结束后,识别错误人脸样本集清零,以便重新记录。

说明书 :

一种现场自主学习的人脸识别系统和方法

技术领域

[0001] 本发明属于人脸识别技术领域,涉及一种人脸识别系统和方法,具体涉及一种现场自主学习的人脸识别系统和方法。技术背景
[0002] 人脸识别是指能够识别或验证图像或视频中的主体的身份的技术。当被部署在无约束条件的环境中时,由于人脸图像在现实世界中的呈现具有高度的可变性,所以人脸识别也是最有挑战性的生物识别方法之一。首个人脸识别算法诞生于七十年代初,当前基于人工设计的特征和传统机器学习技术的传统方法近来已被使用非常大型的数据集训练的深度神经网络取代。
[0003] 卷积神经网络(CNN)是人脸识别方面最常用的一类深度学习方法。Facebook的DeepFace是最早的用于人脸识别的CNN方法之一,其使用了一个能力很强的模型,在LFW基准上实现了97.35%的准确度。香港中文大学提出的DeepID系统通过在图块上训练60个不同的CNN而得到了相近的结果。旷视科技的Face++从网络上搜集了5百万张人脸图片用于训练深度卷积神经网络模型,在LFW数据集上达到了99.5%的准确率。与其他的深度学习方法在人脸上的应用不同,Google的FaceNet并没有用传统的softmax的方式去进行分类学习,然后抽取其中某一层作为特征,而是直接进行端对端学习一个从图像到欧式空间的编码方法,然后基于这个编码再做人脸识别、人脸验证和人脸聚类等,LFW上的精度为99.65%。英国伦敦帝国理工学院邓建康等提出的ArcFace,在SphereFace基础上改进了对特征向量归一化和加性角度间隔,提高了类间可分性同时加强类内紧度和类间差异,LFW上的测试精度达到99.83%。同为邓建康等人提出的RetinaFace被公认为目前最强开源人脸检测算法,在WiderFace的人脸检测精度达到91.4%;通过采用轻量级骨干网络,RetinaFace可以在单CPU核上实时运行。
[0004] 当前的深度学习方式下,离线训练后的深度学习模型一旦部署后,无法针对应用现场的实际样本数据自主在线更新模型参数,即不具备现场自主学习能力。然而,由于应用场景的多样化和不确定性,即使离线训练模型的训练样本量足够丰富,预先收集的训练样本也无法完全反映真实使用环境下实际数据的统计特性,例如,人脸识别应用中,实际的图像采集环境、光照条件、目标群体与训练样本不可能完全一致,从而限制了深度学习模型的潜力。反之,如果深度网络模型能够根据实际场景下的样本数据自主学习、自动更新模型参数,那么模型不仅拥有更好的适应能力而且越学越聪明。达成这种效果的主要困难在于现场实际数据往往未被标注,难以对模型进行标签监督的训练。
[0005] 自编码器具有监督自身学习的能力,在训练时无须额外标签数据的支持,因而可作为一种通用的无监督的高维特征提取器。将其引入现有的人脸识别模型框架中,一定程度上可以规避模型训练对标签数据的强依赖性,从而促成模型具备自主学习能力。
[0006] 在人脸考勤、门禁之类人脸识别的身份认证应用中,当单位人数比较多时,容易出现因“撞脸”引起误识或因缺少个性化的大众脸引起拒识的情况。这种识别差错尽管只发生在个别人身上,但一旦出现将给特定个体带来极大的不便。为此,需要采取措施加大对易误识或难识别的困难样本的训练强度。鉴于困难样本只会在现场应用中暴露出来而无法事先预知,因而对困难样本的再次训练也属于现场自主学习的范畴。

发明内容

[0007] 为了解决上述技术问题,本发明提供了一种现场自主学习的人脸识别系统和方法。
[0008] 本发明的系统所采用的技术方案是:一种现场自主学习的人脸识别系统,其特征在于:包括人脸检测器、自编码器、人脸识别器、人脸数据库;
[0009] 所述人脸检测器,用于从采集的动态视频中检测人脸框的位置,获得人脸图像,并将人脸图像输入所述自编码器中;
[0010] 所述自编码器,用于将人脸图像转换为高维特征,然后将转换后的图像特征输入所述人脸识别器中;
[0011] 所述人脸识别器,用于从人脸数据库中识别出对应的人脸身份;
[0012] 所述人脸数据库,用于存储现有的人脸及身份信息。
[0013] 本发明的方法所采用的技术方案是:一种现场自主学习的人脸识别方法,其特征在于,包括以下步骤:
[0014] 步骤1:离线训练人脸检测器,获得训练好的人脸检测器;离线联合训练自编码器和人脸识别器,获得训练好的自编码器和人脸识别器;
[0015] 步骤2:人脸检测器从采集的动态视频中检测人脸框的位置,获得人脸图像,并送入训练好的自编码器,同时为目标群体和难识别个体提供人脸样本来源;
[0016] 步骤3:收集目标群体人脸图像样本,形成目标群体人脸样本集;判断目标群体人脸样本集中误识或拒识这种难识别个体的困难样本,形成识别错误人脸样本集;
[0017] 步骤4:自编码器将人脸图像转换为高维特征,并送入训练好的人脸识别器中;
[0018] 步骤5:人脸识别器进一步提取人脸图像的身份特征并与人脸数据库中的人脸图像身份特征进行匹配,从人脸数据库中识别出对应的人脸身份;
[0019] 步骤6:利用收集的目标群体人脸样本集和识别错误人脸样本集,对自编码器模型和人脸识别器模型进行现场训练,并更新模型。
[0020] 本发明的优点和积极效果:
[0021] (1)本发明能够在无人工干预的情况下利用现场样本全自动地自主学习模型参数,从而突破了传统的人脸识别模型一旦部署后无法自动更新模型参数的局限,提升了模型对特定目标群体的识别精度。
[0022] (2)本发明通过对频繁误识或拒识这类困难样本的针对性学习,提高了因“撞脸”或大众化脸导致的难识别个体的识别精度,改善了人脸识别系统的可用性和便利性。

附图说明

[0023] 图1为本发明实施例的系统原理图;
[0024] 图2为本发明实施例的方法流程图。

具体实施方式

[0025] 为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
[0026] 请见图1,本发明提供的一种现场自主学习的人脸识别系统,包括人脸检测器、自编码器、人脸识别器、目标群体人脸样本收集单元、识别差错判断单元、目标群体人脸样本数据库、识别错误人脸样本数据库、人脸数据库;
[0027] 人脸检测器,用于从采集的动态视频中检测人脸框的位置,获得人脸图像,并将人脸图像输入自编码器中;自编码器,用于将人脸图像转换为高维特征,然后将转换后的图像特征输入人脸识别器中;人脸识别器,用于从人脸数据库中识别出对应的人脸身份;目标群体人脸样本收集单元,用于采集目标群体(如单位的所有员工)的人脸图像样本,形成目标群体人脸样本集,并存储在目标群体人脸样本数据库中;识别差错判断单元,用于判断目标群体人脸样本集中误识或拒识这种难识别个体的困难样本,形成识别错误人脸样本集,并存储在识别错误人脸样本数据库中;人脸数据库,用于存储现有的人脸及身份信息。
[0028] 本实施例中,人脸检测器,采用高性能人脸检测模型RetinaFace实现其检测功能。自编码器,包含编码器和解码器,采用稀疏自编码器模型实现其转换功能。人脸识别器,采用高性能人脸识别模型ArcFace实现其识别功能。
[0029] 请见图2,本发明提供的一种现场自主学习的人脸识别方法,包括以下步骤:
[0030] 步骤1:离线训练人脸检测器,获得训练好的人脸检测器;离线联合训练自编码器和人脸识别器,获得训练好的自编码器和人脸识别器;
[0031] 本实施例中,RetinaFace人脸检测器、AcrFace人脸识别器的训练需要标签样本支持,而自编码器的训练无需额外标签样本,因而可以利用现场大量的无标签数据自动实现模型的更新。由于ArcFace人脸识别器的输入来源于自编码器学习的高维特征而非原始图像,从而增强了人脸识别器对现场数据的适配能力。
[0032] 本实施例中,RetinaFace人脸检测器采用公开的大规模人脸检测数据集WiderFace训练,80个轮回结束训练;训练的损失函数采用RetinaFace中的多任务损失;
[0033] 自编码器和ArcFace人脸识别器采用公开的大规模人脸识别数据集WebFace联合训练,40个轮回结束训练;联合训练的损失函数采用ArcFace中的加性角余量损失。
[0034] 步骤2:人脸检测器从采集的动态视频中检测人脸框的位置,获得人脸图像,并送入训练好的自编码器,同时为目标群体和难识别个体提供人脸样本来源;
[0035] 步骤3:收集目标群体人脸图像样本,形成目标群体人脸样本集;判断目标群体人脸样本集中误识或拒识这种难识别个体的困难样本,形成识别错误人脸样本集;
[0036] 考虑到当目标被误识或拒识时,往往试图多识别几次以便人脸识别系统能纠正错误,从而导致目标在考勤机前的停留时间比正常情况要长。根据这一特点,识别差错的判断条件为,当停留时间大于平均停留时间时,判断为识别出错。
[0037] 步骤4:自编码器将人脸图像转换为高维特征,并送入训练好的人脸识别器中;
[0038] 本实施例中,将人脸图像转换为高维特征,形式化描述为:
[0039] f=FW,b(i);
[0040] 这里FW,b表示模型参数为(W,b)的自编码器的编码器部分,W,b分别代表模型的权重和偏置参数,i为输入人脸图像,f为输出特征。
[0041] 步骤5:人脸识别器进一步提取人脸图像的身份特征并与人脸数据库中的人脸图像身份特征进行匹配,从人脸数据库中识别出对应的人脸身份。
[0042] 身份特征匹配采用如下余弦相似度:
[0043]
[0044] 这里a,b表示两个待计算相似度的特征向量,符号“.”表示向量的点积运算,||||2表示L2-范数。
[0045] 为了进一步优化自编码器模型和人脸识别器,利用收集的目标群体人脸样本集和识别错误人脸样本集,对自编码器和人脸识别器进行现场训练,并更新自编码器和人脸识别器。
[0046] 本实施例中,现场训练包括目标群体训练和困难样本训练,具体训练要点分别如下:
[0047] (1)目标群体训练
[0048] 利用人脸库的标签样本对自编码器和ArcFace人脸识别器再次联合训练,联合训练的损失函数采用ArcFace中的加性角余量损失;由于人脸库的样本量有限,采取的训练策略是模型微调,即只调整模型的最后三层的参数而保留低层参数不变。
[0049] 上述基于人脸库标签样本的联合训练只在系统运行初期执行一次。
[0050] 当目标群体人脸样本集收集到一定规模时,仅对自编码器进行再次训练,训练的损失函数为如下L1正则化均方误差函数:
[0051]
[0052] 其中,xn表示输入人脸样本,N为样本个数,AW,b表示模型参数为(W,b)的自编码器,||||1表示L1-范数。
[0053] 训练结束后,目标群体人脸样本集清零,进行下一次的收集。
[0054] 上述基于目标群体人脸样本集的训练,为避免对目标群体不必要的多次训练,设置为在系统使用初期训练一次,然后每三年重训练一次。
[0055] (2)困难样本训练
[0056] 当识别错误人脸样本集达到一定规模时,仅对自编码器进行再次训练,训练的损失函数为上述L1正则化均方误差函数;由于困难样本毕竟只占少数,故采取的训练策略是模型微调,只调整自编码器的最后三层的参数而保留低层参数不变。
[0057] 训练结束后,识别错误人脸样本集清零,以便重新记录。
[0058] 上述基于识别错误人脸样本集的训练,为避免对难识别个体的不必要的多次训练,设置为在系统使用初期训练一次,然后每三年重训练一次。
[0059] 应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。