一种人脸质量评价方法与装置转让专利

申请号 : CN201810930343.6

文献号 : CN110837750A

文献日 : 2020-02-25

相似专利: 请登录后查看

一种人脸质量评价方法及装置，该方法包括：对于监控检测到的目标人物的图像进行裁剪，跟踪，得到所述目标人物的N个人脸图像；针对每一个人脸图像，根据图像中的人脸关键点信息和人脸欧拉角对所述N个人脸图像进行人脸质量评价，得到人脸质量分数；所述人脸关键点信息包括：预设的人脸关键点，在图像中各位置的可见性程度；在所述N个人脸图像中选择出人脸质量评价结果最好的人脸图像作为目标人脸图像。

1.一种人脸质量评价方法，其特征在于，所述方法包括：针对同一个目标人物的N个人脸图像，利用第一神经网络获取每个人脸图像中的人脸关键点信息和人脸欧拉角；其中，所述人脸关键点信息包括：预设的人脸关键点位置对应的可见性程度；N为不小于2的正整数；

根据所述每个人脸图像中的人脸关键点信息和人脸欧拉角对所述N个人脸图像进行人脸质量评价；

在所述N个人脸图像中选择出人脸质量评价结果排在前X的人脸图像作为目标人脸图像，X为小于N的正整数；

显示所述目标人脸图像。

2.如权利要求1所述方法，其特征在于，所述根据所述每个人脸图像中的人脸关键点信息和人脸欧拉角对所述N个人脸图像进行人脸质量评价包括：根据第i个人脸图像中的人脸关键点信息得到人脸关键点可见性综合分QAi；其中，i包括不大于N的正整数；

根据所述第i个人脸图像中的人脸欧拉角得到人脸姿态分QBi；

根据所述QAi和所述QBi按照预设公式得到总分QCi，作为所述第i个人脸图像的人脸质量评价结果；

所述在所述N个人脸图像中选择出人脸质量评价结果排在前X的人脸图像作为目标人脸图像包括：在所述N个人脸图像中选择出总分QCi排在前X的人脸图像作为目标人脸图像。

3.如权利要求1所述方法，其特征在于，所述根据所述每个人脸图像中的人脸关键点信息和人脸欧拉角对所述N个人脸图像进行人脸质量评价包括：根据第i个人脸图像中的人脸关键点信息和所述第i个人脸图像中的人脸欧拉角输入第二神经网络得到总分QCi；作为所述第i个人脸图像的人脸质量评价结果；其中，i包括不大于N的正整数；

4.如权利要求1-3任一项所述方法，其特征在于，所述方法还包括：显示所述目标人脸图像对应的人脸关键点可见性综合分、人脸欧拉角、人脸姿态分或者总分中的至少一项。

5.一种人脸质量评价方法，其特征在于，所述方法应用于监控系统，所述方法包括：对于监控系统拍摄到的目标人物的图像进行裁剪，得到所述目标人物的N个人脸图像；

针对所述N个人脸图像，根据所述每个人脸图像中的人脸关键点信息和人脸欧拉角对所述N个人脸图像进行人脸质量评价；所述人脸关键点信息包括：预设的人脸关键点位置对应的可见性程度；

在所述N个人脸图像中选择出人脸质量评价结果最好的人脸图像作为目标人脸图像，X为小于N的正整数；

显示所述目标人脸图像。

6.如权利要求5所述方法，其特征在于，所述针对所述N个人脸图像，根据所述每个人脸图像中的人脸关键点信息和人脸欧拉角对所述N个人脸图像进行人脸质量评价包括：利用第一神经网络获取每个人脸图像中的人脸关键点信息和人脸欧拉角；

根据第i个人脸图像中的人脸关键点信息得到人脸关键点可见性综合分QAi；其中，i包括不大于N的正整数；

根据所述第i个人脸图像中的人脸欧拉角得到人脸姿态分QBi；

根据所述QAi和所述QBi按照预设公式得到总分QCi，作为所述第i个人脸图像的人脸质量评价结果；所述在所述N个人脸图像中选择出人脸质量评价结果最好的人脸图像作为目标人脸图像包括：在所述N个人脸图像中选择出总分QCi最高的人脸图像作为目标人脸图像。

7.如权利要求5所述方法，其特征在于，所述针对所述N个人脸图像，根据所述每个人脸图像中的人脸关键点信息和人脸欧拉角对所述N个人脸图像进行人脸质量评价包括：利用第一神经网络获取每个人脸图像中的人脸关键点信息和人脸欧拉角；

根据第i个人脸图像中的人脸关键点信息和所述第i个人脸图像中的人脸欧拉角输入第二神经网络得到总分QCi；作为所述第i个人脸图像的人脸质量评价结果；其中，i包括不大于N的正整数；

所述在所述N个人脸图像中选择出人脸质量评价结果最好的人脸图像作为目标人脸图像包括：在所述N个人脸图像中选择出总分QCi最高的人脸图像作为目标人脸图像。

8.如权利要求5所述方法，其特征在于，所述针对所述N个人脸图像，根据所述每个人脸图像中的人脸关键点信息和人脸欧拉角对所述N个人脸图像进行人脸质量评价包括：利用第一神经网络获取每个人脸图像中的人脸关键点信息和人脸欧拉角；

根据第i个人脸图像中的人脸关键点信息得到人脸关键点可见性综合分QAi；其中，i包括不大于N的正整数；

根据所述第i个人脸图像中的人脸欧拉角得到人脸姿态分QBi；

所述在所述N个人脸图像中选择出人脸质量评价结果最好的人脸图像作为目标人脸图像包括：在所述N个人脸图像中选择出总分QAi或QBi最高的人脸图像作为目标人脸图像。

9.如权利要求5-8任一项所述方法，其特征在于，所述方法还包括：显示所述目标人脸图像对应的人脸关键点可见性综合分、人脸欧拉角、人脸姿态分或者总分中的至少一项。

10.一种人脸质量评价装置，其特征在于，所述装置包括：获取模块，用于针对同一个目标人物的N个人脸图像，利用第一神经网络获取每个人脸图像中的人脸关键点信息和人脸欧拉角；其中，所述人脸关键点信息包括：预设的人脸关键点位置对应的可见性程度；N为不小于2的正整数；

评价模块，用于根据所述每个人脸图像中的人脸关键点信息和人脸欧拉角对所述N个人脸图像进行人脸质量评价；

选择模块，用于在所述N个人脸图像中选择出人脸质量评价结果排在前X的人脸图像作为目标人脸图像，X为小于N的正整数；

显示模块，用于显示所述目标人脸图像。

11.如权利要求10所述装置，其特征在于，所述评价模块具体用于：根据第i个人脸图像中的人脸关键点信息得到人脸关键点可见性综合分QAi；其中，i包括不大于N的正整数；

根据所述第i个人脸图像中的人脸欧拉角得到人脸姿态分QBi；

根据所述QAi和所述QBi按照预设公式得到总分QCi，作为所述第i个人脸图像的人脸质量评价结果；

所述选择模块具体用于在所述N个人脸图像中选择出总分QCi排在前X的人脸图像作为目标人脸图像。

12.如权利要求10所述装置，其特征在于，所述评价模块具体用于：根据第i个人脸图像中的人脸关键点信息和所述第i个人脸图像中的人脸欧拉角输入第三神经网络得到总分QCi；作为所述第i个人脸图像的人脸质量评价结果；其中，i包括不大于N的正整数；

所述选择模块具体用于：

在所述N个人脸图像中选择出总分QCi排在前X的人脸图像作为目标人脸图像。

13.如权利要求10-12任一项所述装置，其特征在于，所述显示模块还具体用于：显示所述目标人脸图像对应的人脸关键点可见性综合分、人脸欧拉角、人脸姿态分或者总分中的至少一项。

14.一种人脸质量评价设备，其特征在于，所述设备包括：显示屏、处理器、存储器和总线；

所述显示屏、所述处理器、所述存储器通过总线相连；

所述显示屏用于显示视频或图像；

所述存储器用于存储有数据和程序指令；

所述处理器用于调用所述数据和程序指令，与所述显示屏协同完成如权利要求1-4任一项所述方法。

15.一种人脸质量评价设备，其特征在于，所述设备包括摄像头、显示屏、处理器、存储器和总线；所述摄像头、所述显示屏、所述处理器、所述存储器通过总线相连；

所述摄像头用于采集图像；

所述显示屏用于显示视频或图像；

所述存储器用于存储有数据和程序指令；

所述处理器用于调用所述数据和程序指令，与所述摄像头和所述显示屏协同完成如权利要求5-9任一项所述方法。

一种人脸质量评价方法与装置

技术领域

[0001] 本申请涉及图像技术领域，特别涉及人脸质量评价方法与装置。

背景技术

[0002] 人脸抓拍、识别系统是视频监控和安防领域极为重要的一部分。人脸抓拍、识别算法通常由人脸检测、人脸跟踪、人脸质量评价、人脸识别这四部分组成。人脸质量评价是其中不可或缺的一环，其意义在于：

[0003] 1)在同一个目标的多帧轨迹里，选择一张作为人脸抓拍图。能否通过人脸质量评价选择到最适合的抓拍图，直接决定了整个人脸抓拍系统的输出质量，从而决定了办案人员是否能通过我们的人脸抓拍系统认出犯罪嫌疑人。

[0004] 2)针对人脸识别而言，一方面低质量的人脸图片会带来噪声导致错误的识别结果；另一方面人脸识别模型通常开销较大，无法对每一帧人脸都做特征提取。能否通过人脸质量评价选择最合适的一帧或几帧送到识别模块，直接决定了整个人脸抓拍识别系统端到端的识别能力。

[0005] 影响到人脸图像质量的因素主要有：姿态、分辨率、遮挡、光照、模糊、噪声。这些也正是人脸质量评价算法所需要覆盖的点。

[0006] 一种现有技术通过构建一个人脸质量评价图片训练集来对人脸质量进行评价。训练集的标签为人脸质量评价的分数，这个分数通过多个标注人员的主观打分得到。利用这个训练集结合卷积神经网络或者是其他的特征提取器，对输入的人脸图片进行特征提取，再以神经网络或者是SVM(Support Vector Machine)等方法进行分数的回归。本质上是训练一个模型，对输入的每个人脸图像打出一个质量分，而这个质量分是通过学习人对图像的主观打分得到的。

[0007] 然而依靠人的主观感受对人脸图片进行打分标注，这个过程很难量化出一个普适且统一的标准。并且标注人员之间很难保持被测者间一致性。也就是说通过这个方案，用户得到的训练集本身就不够自洽，不够有普适性。构建在此训练集之上的算法也就不够稳定和可靠。

[0008] 另一种现有技术通过构建一个人脸训练集，包含多个ID的人脸图片。对于每个ID，包含多个从不同视频源截取下的轨迹。对于每个轨迹，包含了这个ID的多帧图片。结合人脸识别模型，训练一个人脸质量评价网络。用人脸质量评价网络的输出打分，作为Weight Pooling的权值。将同一个ID的多帧人脸提取的特征，用Weight Pooling合成一个特征后，用Triplet Loss进行训练。

[0009] 然而，整个模型是以纯黑盒的方式训练得到，无法解释得到的质量分究竟考虑了哪些因素，其中的比重又是什么样的。需要一个优质的人脸识别模型结合训练，且与识别模型强耦合，无法解耦。训练过程非常依赖数据集的分布，需要包含很多ID，对于每个ID里的人脸，需要在影响图像质量的各个因素上有广泛的分布，才能训练出比较好的人脸质量评价模型。相当于同时要求数据的广度和深度，这样的数据集是很难获取的，样本构建难度极高。而且Triplet Loss训练十分需要技巧，训练难度高，否则模型难以收敛。

发明内容

[0010] 本申请实施例提供人脸质量评价方法与装置，能够从含有目标人物的大量的图像中选出更少、更高质量的图像来表征目标人物，有利于图像识别和监控分析。

[0011] 本申请实施例提供的具体技术方案如下：

[0012] 第一方面，本申请实施例提供人脸质量评价方法，该方法包括：针对同一个目标人物的N个人脸图像，利用第一神经网络获取每个人脸图像中的人脸关键点信息和人脸欧拉角；其中，人脸关键点信息包括：预设的人脸关键点位置对应的可见性程度；N为不小于2的正整数；根据每个人脸图像中的人脸关键点信息和人脸欧拉角对上述N个人脸图像进行人脸质量评价；在N个人脸图像中选择出人脸质量评价结果排在前X的人脸图像作为目标人脸图像，X为小于N的正整数。可选的，还可以进一步地显示目标人脸图像。

[0013] 第二方面，本申请实施例提供一种人脸质量评价装置，该装置包括：获取模块，用于针对同一个目标人物的N个人脸图像，利用第一神经网络获取每个人脸图像中的人脸关键点信息和人脸欧拉角；其中，所述人脸关键点信息包括：预设的人脸关键点位置对应的可见性程度；N为不小于2的正整数；评价模块，用于根据每个人脸图像中的人脸关键点信息和人脸欧拉角对N个人脸图像进行人脸质量评价；选择模块，用于在N个人脸图像中选择出人脸质量评价结果排在前X的人脸图像作为目标人脸图像，X为小于N的正整数。作为可选的，该装置还可以包括显示模块，用于显示所述目标人脸图像。

[0014] 应理解，对于某一目标人物，N在一些情况下可以为1，则后续进行人脸质量评价和呈现的也是这唯一的图像。

[0015] 其中，对于同一个目标人物的N个人脸图像，可以是终端或系统拍摄采集的，可以是用户批量输入的、可以是终端本地已存储的，可以是调取服务器或云端存储的，可以是监控系统对抓拍图像进行人脸裁剪的等等。

[0016] 其中，人脸欧拉角，包括偏航角、俯仰角、横滚角；人脸关键点信息包括人脸图像中被识别出来的每个关键点坐标/位置以及每个关键点的可见性；即每个关键点的位置和每个关键点可见性的得分。

[0017] 上述方法以及装置应用领域可以包括：监控系统(例如可以从实时监控视频流对应的图像中获取并显示出目标人物最适合的人脸图像，进而提高监控能力，节约存储资源与画面显示空间)、视频会议系统(例如可以从实时会议视频流对应的图像中获取并显示出主讲人或者与会人的最适合的人脸图像，用于清晰地表征其身份)、图像分析系统(例如可以在本地端的同一个人物对应的多个人脸图像中，给出人脸质量评价结果，供用户参考分析和使用)；其他还可以包括手机拍照领域，如对焦时选择或抓拍到最适合的图像，或者连拍时选择或抓拍到最适合的图像，或者录入人脸解锁图像时选择或抓拍到最适合的图像等等。

[0018] 根据第一方面或第二方面，在一种可能的设计中，根据每个人脸图像中的人脸关键点信息和人脸欧拉角对N个人脸图像进行人脸质量评价包括：根据第i个人脸图像中的人脸关键点信息得到人脸关键点可见性综合分QAi；其中，i包括不大于N的正整数；根据第i个人脸图像中的人脸欧拉角得到人脸姿态分QBi；根据QAi和QBi按照预设公式得到总分QCi，作为第i个人脸图像的人脸质量评价结果；所述在N个人脸图像中选择出人脸质量评价结果排在前X的人脸图像作为目标人脸图像包括：在N个人脸图像中选择出总分QCi排在前X的人脸图像作为目标人脸图像。对应方法可以由评价模块和选择模块来实现。

[0019] 根据第一方面或第二方面，在一种可能的设计中，所述根据每个人脸图像中的人脸关键点信息和人脸欧拉角对所述N个人脸图像进行人脸质量评价包括：根据第i个人脸图像中的人脸关键点信息和所述第i个人脸图像中的人脸欧拉角输入第二神经网络得到总分QCi；作为第i个人脸图像的人脸质量评价结果；其中，i包括不大于N的正整数；所述在N个人脸图像中选择出人脸质量评价结果排在前X的人脸图像作为目标人脸图像包括：在N个人脸图像中选择出总分QCi排在前X的人脸图像作为目标人脸图像。对应方法可以由评价模块和选择模块来实现。

[0020] 根据第一方面或第二方面，在一种可能的设计中，针对所述N个人脸图像，根据每个人脸图像中的人脸关键点信息和人脸欧拉角对N个人脸图像进行人脸质量评价包括：根据第i个人脸图像中的人脸关键点信息得到人脸关键点可见性综合分QAi；其中，i包括不大于N的正整数；根据第i个人脸图像中的人脸欧拉角得到人脸姿态分QBi；将PAi和PBi输入第三神经网络得到总分QCi；作为第i个人脸图像的人脸质量评价结果；所述在N个人脸图像中选择出人脸质量评价结果最好的人脸图像作为目标人脸图像包括：在N个人脸图像中选择出总分QCi最高的人脸图像作为目标人脸图像。对应方法可以由评价模块和选择模块来实现。

[0021] 根据第一方面和第二方面，在一种可能的设计中，该方法还包括：显示所述目标人脸图像对应的人脸关键点可见性综合分、人脸欧拉角、人脸姿态分或者总分中的至少一项。对应方法可以由显示模块来实现。

[0022] 第三方面，本申请实施例提供一种人脸质量评价方法，该方法应用于监控系统，该方法包括：对于监控系统拍摄到的目标人物的图像进行裁剪，得到目标人物的N个人脸图像；针对所述N个人脸图像，根据每个人脸图像中的人脸关键点信息和人脸欧拉角对N个人脸图像进行人脸质量评价；人脸关键点信息包括：预设的人脸关键点位置对应的可见性程度；在N个人脸图像中选择出人脸质量评价结果最好的人脸图像作为目标人脸图像，X为小于N的正整数；显示目标人脸图像。

[0023] 第四方面，本申请实施例提供一种人脸质量评价装置，该装置应用于监控系统，该监控系统包括：裁剪模块，用于对于监控系统拍摄到的目标人物的图像进行裁剪，得到目标人物的N个人脸图像；评价模块，用于针对N个人脸图像，根据每个人脸图像中的人脸关键点信息和人脸欧拉角对N个人脸图像进行人脸质量评价；人脸关键点信息包括：预设的人脸关键点位置对应的可见性程度；选择模块，用于在N个人脸图像中选择出人脸质量评价结果最好的人脸图像作为目标人脸图像，X为小于N的正整数；显示模块，用于显示目标人脸图像。

[0024] 应理解，对于某一目标人物，N在一些情况下可以为1，则后续进行人脸质量评价和呈现的也是这唯一的图像。

[0025] 根据第三方面或第四方面，在一种可能的设计中，所述针对所述N个人脸图像，根据所述每个人脸图像中的人脸关键点信息和人脸欧拉角对所述N个人脸图像进行人脸质量评价包括：利用第一神经网络获取每个人脸图像中的人脸关键点信息和人脸欧拉角；根据第i个人脸图像中的人脸关键点信息得到人脸关键点可见性综合分QAi；其中，i包括不大于N的正整数；根据所述第i个人脸图像中的人脸欧拉角得到人脸姿态分QBi；根据所述QAi和所述QBi按照预设公式得到总分QCi，作为所述第i个人脸图像的人脸质量评价结果；所述在所述N个人脸图像中选择出人脸质量评价结果最好的人脸图像作为目标人脸图像包括：在所述N个人脸图像中选择出总分QCi最高的人脸图像作为目标人脸图像。对应方法可以由评价模块和选择模块来实现。

[0026] 根据第三方面或第四方面，在一种可能的设计中，针对所述N个人脸图像，根据每个人脸图像中的人脸关键点信息和人脸欧拉角对N个人脸图像进行人脸质量评价包括：利用第一神经网络获取每个人脸图像中的人脸关键点信息和人脸欧拉角；根据第i个人脸图像中的人脸关键点信息和第i个人脸图像中的人脸欧拉角输入第二神经网络得到总分QCi；作为第i个人脸图像的人脸质量评价结果；其中，i包括不大于N的正整数；所述在N个人脸图像中选择出人脸质量评价结果最好的人脸图像作为目标人脸图像包括：在N个人脸图像中选择出总分QCi最高的人脸图像作为目标人脸图像。对应方法可以由评价模块和选择模块来实现。

[0027] 根据第三方面或第四方面，在一种可能的设计中，针对所述N个人脸图像，根据每个人脸图像中的人脸关键点信息和人脸欧拉角对N个人脸图像进行人脸质量评价包括：利用第一神经网络获取每个人脸图像中的人脸关键点信息和人脸欧拉角；根据第i个人脸图像中的人脸关键点信息得到人脸关键点可见性综合分QAi；其中，i包括不大于N的正整数；根据第i个人脸图像中的人脸欧拉角得到人脸姿态分QBi；将PAi和PBi输入第三神经网络得到总分QCi；作为第i个人脸图像的人脸质量评价结果；所述在N个人脸图像中选择出人脸质量评价结果最好的人脸图像作为目标人脸图像包括：在N个人脸图像中选择出总分QCi最高的人脸图像作为目标人脸图像。对应方法可以由评价模块和选择模块来实现。

[0028] 根据第三方面或第四方面，在一种可能的设计中，针对所述N个人脸图像，根据每个人脸图像中的人脸关键点信息和人脸欧拉角对所述N个人脸图像进行人脸质量评价包括：利用第一神经网络获取每个人脸图像中的人脸关键点信息和人脸欧拉角；根据第i个人脸图像中的人脸关键点信息得到人脸关键点可见性综合分QAi；其中，i包括不大于N的正整数；根据第i个人脸图像中的人脸欧拉角得到人脸姿态分QBi；在N个人脸图像中选择出人脸质量评价结果最好的人脸图像作为目标人脸图像包括：在N个人脸图像中选择出总分QAi或QBi最高的人脸图像作为目标人脸图像。对应方法可以由评价模块和选择模块来实现。

[0029] 根据第三方面或第四方面，在一种可能的设计中，该方法还包括：显示所述目标人脸图像对应的人脸关键点可见性综合分、人脸欧拉角、人脸姿态分或者总分中的至少一项。对应方法可以由显示模块来实现。

[0030] 第五方面，本申请实施例提供一种设备，设备包含处理器、存储器、收发器、显示屏以及总线；处理器、存储器、收发器、显示屏通过总线相连接；存储器中存储有程序指令，收发器用于收发信息；处理器用于调用存储器中的程序指令，完成如上述任意一个方面提供的方法以及任意一种可能的设计的方法。

[0031] 第六方面，本申请实施例提供一种人脸质量评价设备，设备包含摄像头、显示屏、处理器、存储器、收发器以及总线；处理器、存储器、收发器、显示屏、摄像头通过总线相连接；摄像头用于采集图像；显示屏用于显示视频或图像；存储器中存储有程序指令，收发器用于收发信息；处理器用于调用存储器中的程序指令，与所述摄像头和所述显示屏协同完成如上述任意一个方面提供的方法以及任意一种可能的设计的方法。

[0032] 应理解，上述任意一种可能的设计方法，在不违背自然规律的条件下，可以进行方法之间的自由组合。

[0033] 根据本发明所提供的人脸质量评价方法和装置，构建训练样本的难度大大减少，计算机可操作性大大提高，考量人脸欧拉角以及人脸关键点可见性这两大因素，几乎可以涵盖影响图像质量的种种因素，相比于现有技术中同时要考虑光照、噪声、遮挡、分辨率、视差等多种因素来评价和分析图像来说，大大减少了人工以及计算机的运算量。同时通过人脸质量评价方法，能够优选出质量最好的图像，高质量地呈现出对目标人物进行表征的代表图像。有利于提升图像的分析效率或监控分析准确率，同时节约系统的显示空间和存储空间。

附图说明

[0034] 图1为本申请实施例提供的一种人脸识别系统示意图；

[0035] 图2为本申请实施例提供的一种人脸识别系统的信号流程图；

[0036] 图3为本申请实施例提供的一种人脸质量评价方法流程图；

[0037] 图4为本申请实施例中一种人脸欧拉角示意图；

[0038] 图5为本申请实施例提供的一种人脸关键点配置示意图；

[0039] 图6为本申请实施例提供的一种视频监控的显示web界面示意图；

[0040] 图7为本申请实施例提供的一种人脸质量总分计算方法的示意图；

[0041] 图8和本申请实施例提供的另一种人脸质量总分计算方法的示意图；

[0042] 图9为本申请实施例提供的分数融合网络的训练方法示意图；

[0043] 图10为本申请实施例提供的一种训练员原理示意图；

[0044] 图11为本申请实施例提供的一种人脸质量评价装置示意图；

[0045] 图12为本申请实施例提供的一种人脸质量评价设备示意图。

具体实施方式

[0046] 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

[0047] 图像人脸质量评价(Image Quality Assessment，IQA)可分为全参考(Full-Reference，FR)，部分参考(Reduced-Reference，RR)和无参考(No-Reference，NR)三种类型。本发明可以应用在视频监控场景下的人脸关键帧和抓拍图选择上。不存在源图像可以参考，涉及的是无参考图像人脸质量评价(No-Reference Image Quality Assessment，NRIQA)。

[0048] 本发明综合考虑姿态、分辨率、遮挡、光照、模糊、噪声等因素，对同一个人物对应的多帧人脸图像，选择出最适合的图像(这里的最适合可以理解为：选出的图像能够最利于用户通过肉眼观察识别出人物的身份)；或者选择出最适合的图像进行人脸识别(这里的最适合可以理解为：对于一个特定的人脸识别模型，能够从同一个人物的多帧人脸图像中筛选出最适合这个识别模型的关键帧，用以代表性地且准确地表征该人物身份，例如让监控系统发挥出最佳的端到端的识别能力)。

[0049] 本发明应用领域可以包括：监控系统(例如可以从实时监控视频流对应的图像中获取并显示出目标人物最适合的人脸图像，进而提高监控能力，节约存储资源与画面显示空间)、视频会议系统(例如可以从实时会议视频流对应的图像中获取并显示出主讲人或者与会人的最适合的人脸图像，用于清晰地表征其身份)、图像分析系统(例如可以在本地端的同一个人物对应的多个人脸图像中，给出人脸质量评价结果，供用户参考分析和使用)；其他还可以包括手机拍照领域，如对焦时选择或抓拍到最适合的图像，或者连拍时选择或抓拍到最适合的图像，或者录入人脸解锁图像时选择或抓拍到最适合的图像等等。

[0050] 本发明相比于现有技术要解决的技术点可以包括下面的一种或多种：

[0051] 1)如何覆盖姿态、分辨率、遮挡、光照、模糊(运动模糊+失焦模糊)、噪声等因素，使得通过人脸质量评价可以选出最适合的抓拍图/关键帧；

[0052] 2)如何减少训练集构建中，人工标注引入的不一致、不自洽带来的负面影响；

[0053] 3)如何设计算法，减少对于训练集中，人脸图像质量分布广度的依赖，且便于做Data Argumentation；

[0054] 4)如何灵活地选择是否与识别模型去耦合或者加耦合，在选择抓拍图时使用通用的策略，在选择关键帧/抓拍图时可以根据需要决定是否去拟合特定识别模型的喜好。

[0055] 本发明可以基于一种人脸识别系统或监控系统实现，如图1所示，由图像传感器(CCD/CMOS)采集图像，图像经过模/数转换变为数字信号，数字信号经过信号处理和智能分析，得到处理后的数据，处理后的数据经过信息提炼和编码压缩，再经网络传输到Web端呈现最终数据给用户。本发明实施例中所涉及到的数据处理可以发生在信号处理和智能分析模块中。

[0056] 本发明涉及的一种人脸识别系统信号流图可以如图2所示，监控系统启用人脸抓拍功能，一旦在监控范围内检测到人物出现就会保存含有该人物的若干图像，监控系统为了显著性地显示人物，将会对若干图像进行裁剪，得到包含人物人脸的若干小图。现有技术中还采用跟踪技术来确定出哪些图像属于同一个目标。因此用过人脸检测、跟踪、裁剪，对于任一人物，都会得到该人物的若干人脸图像(抓拍图)；对这若干人脸图像进行人脸质量评价，根据人脸质量评价的结果，选择出质量符合条件的人脸图像，如质量最好的人脸图像或质量得分排名靠前的X个人脸图像，供实时显示和参考分析或后续识别。应理解，如果没有实时性的要求，系统可以将若干人脸图像存储起来，待后续有需要时，再进行人脸质量评价，进行人脸图像的人脸质量评价和筛选，供各种需求的参考分析。

[0057] 本发明技术涉及的是其中的人脸质量评价模块，是一种无源(不参考原图像)的人脸质量评价方法(NRIQA，No Reference Image Quality Assessment)。如图3所示，图3为本发明实施例中一种人脸质量评价方法，该方法可以包括以下步骤：

[0058] S11，对于同一目标人物的N个人脸图像，利用第一神经网络获取每个人脸图像中的人脸关键点信息和人脸欧拉角。

[0059] 具体地，可以对于任一人物，获取该目标人物N个人脸图像(也可以理解为输入图像)中的人脸关键点信息(本申请中也可简称关键点信息)(PAi)和人脸欧拉角(PBi)。其中，i包括不大于N的所有正整数，PAi、PBi对应于所述N个不同人脸图像中的第i个人脸图像，即PAi、PBi可以分别表示上述N个不同人脸图像中的第i个人脸图像中的人脸关键点信息和人脸欧拉角。例如，PA3、PB3可以分别表示上述N个不同人脸图像中的第3个人脸图像中的人脸关键点信息和人脸欧拉角，此处不予赘述和穷举。例如在监控应用领域，N的值与目标人物出现在监控视野的时长、监控与抓拍的时间节点的选取、监控系统采集图像的频率等因素有关。另外，N个人脸图像图可以是经过对该目标人物进行检测、跟踪、裁剪获取到的人脸图像，也可以是本地已有或者已经缓存好了的该目标人物的人脸图像。

[0060] 其中，人脸关键点(本申请中也可简称关键点)是指可以对人脸识别或检测有帮助的相貌特征的点，如眼睛、鼻子、嘴等这些位于人脸中关键位置的点，这些位置的点的信息能够更有效地识别人脸的外貌特征，是区别不同人物的关键相貌特性。例如可以定义为眼睛中心*2、鼻尖*1、嘴角*2共五个点。也可以定义为更多的点，如耳朵，下巴、眉毛等。这些位置是可以根据需求预先设定的，本实施例中不予以限定。人脸关键点可见性反映了图像中人脸关键点的可见程度。

[0061] 具体实现过程中，可以采用训练好的神经网络(如，第一神经网络)来完成这一步骤。具体地，可以使用带有人脸欧拉角和人脸关键点信息作为标签的人脸图片，训练深度卷积神经网络。其中，标签中的人脸欧拉角包括偏航角、俯仰角、横滚角；标签中的人脸关键点信息包括人脸关键点的个数、人脸关键点的位置、各个人脸关键点是否可见。训练的过程是在训练第一神经网络中的参数，经过训练的第一神经网络能够隐性地学到人眼可识别人脸欧拉角以及人脸的关键点特征，包括但不限于形状、颜色或边缘等特征。关键点部分使用Softmax+Cross Entropy(交叉熵)训练，欧拉角输出部分使用L2 Loss。当训练到Loss降低收敛时，可认为训练结束。

[0062] 训练完的第一神经网络对于新的输入图片或图像提供的输出信息可以包含两种：

[0063] 1)人脸欧拉角，包括偏航角、俯仰角、横滚角，如图4所示。人脸欧拉角具体包括Yaw，Pitch，Roll的角度，用来判断检测到的人脸的姿态是否端正；应理解，人脸越端正，人脸的识别准确率越高；偏航角、俯仰角、横滚角的取值范围为[-180°，180°]，越接近0度表示越端正。

[0064] 2)人脸关键点信息(PBi)，这里的人脸关键点信息可以包括人脸图像中被识别出来的每个关键点坐标/位置以及每个关键点的可见性；即每个关键点的位置和每个关键点可见性的得分。

[0065] 在具体实现过程中，训练样本中的人脸图片可以是人工手动进行标记的，需要标记的内容可以具体到欧拉角的每个角度，具体到人眼可见的每个关键点的坐标，不同的人对关键点的定义可以不同，因此标注，训练的时候需要统一标准。

[0066] 在具体实现过程中，关键点的可见性可以指可见或不可见(如可见用分数1表示，不可见用0表示)，也可以指可见程度(可以用一个取值区间中的任意数值来表示可见性分数，如[0，1]之间的任意值，表示可见程度的强弱，分数越高表示可见程度越高，分数越低表示可见程度越低)。训练后的第一神经网络对于新输入的图片在一些位置上响应程度越大，神经网络输出的值就越大，就表示一些位置的关键点的可见程度越大，分数也就会越高。如图4所示，关键点可以指白色点，可以指利于识别人脸的特征位置的点。

[0067] 如图5所示，关键点的典型配置是：眼睛中央*2、鼻尖*1、嘴角*2。如果用户更关心人脸图像中，耳朵或者是眉毛的完整性，则可以在配置中定义其他关键点，例如配置为：眼睛中央*2、鼻尖*1、嘴角*2、耳朵*6、眉毛*6。图中白点是当前没有选择的，黑点是已经配置选择的。如果用户更关注某一个关键特征的细节，还可以将某一个人脸特征分解为更多个关键点。这些都是可以根据用户的需求进行预设的，本发明中不予以赘述。

[0068] 作为一种客观现象，遮挡、模糊、噪声、光照等因素最终能影响到图像质量，其实本质是影响到了人眼能否成功辨识出人脸图像中的关键点。因此可以将人脸关键点可见性得分作为评价图像质量的依据，可以涵盖遮挡、光照、模糊、噪声等因素，故人脸关键点可见性的得分可以覆盖遮挡、模糊、光照以及噪声等因素。这是本发明基于的理论基础之一，而现有技术中，要一一考虑上述因素，对于训练网络以及后续网络的使用都带来极大的计算量。

[0069] 作为举例，将图像输入到神经网络，如左眼、右眼、鼻尖这有响应(可以表现为这三个位置第一神经网络的输出值相较其他位置的输出值要大)，代表着这三个关键点清晰可见的程度越大；如左右嘴角无响应，意味着第一神经网络无法在输入图像中识别或定位到左右嘴角信息，意味着存在左右嘴角的关键点被遮挡、模糊、光照、或噪声等等因素影响导致不可见，结果上看，第一神经网络对于左右嘴角这两个关键点位置的响应值较低。

[0070] 另外，对于同一个目标人物的N个人脸图像，可以是终端或系统拍摄采集的，可以是用户批量输入的、可以是终端本地已存储的，可以是调取服务器或云端存储的，可以是监控系统对抓拍图像进行人脸裁剪的等等。

[0071] S12，根据上述N个人脸图像中每个人脸图像中的人脸关键点信息和人脸欧拉角对上述N个人脸图像进行人脸质量评价。

[0072] 具体实现过程中，可以根据人脸关键点信息(PAi)获取人脸关键点可见性综合分(QAi)，根据人脸欧拉角(PBi)得到人脸姿态分(QBi)；还可以依据QAi、QBi经过一系列运算得到人脸质量总分(QCi)(本申请中，也可简称总分)。进一步地，可以根据QAi、QBi、QCi中的任意一个进行人脸质量评价。可选的方式如下：

[0073] (1)例如，可以根据人脸关键点信息(PAi)获取人脸关键点可见性综合分(QAi)。

[0074] 人脸关键点可见性综合分(QAi)可以用来表示遮挡&模糊&光照&噪声得分，可以由人脸质量评价模块根据人脸关键点可见性以及各人脸关键点的权重按照预设公式或算法得到。用户可以个性化配置关键点的位置以及计算人脸可见性得分时各个关键点的权重，比如眼睛比眉毛更有利于区别于人脸，因此后续计算关键点可见性综合分的时候，眼睛这一关键点的权重可以比眉毛的权重更大。

[0075] (2)例如，根据人脸欧拉角(PBi)得到人脸姿态分(QBi)。

[0076] 这里欧拉角如图4所示包含偏航、俯仰、横滚角。监控画面中，姿态角可以由神经网络得到，姿态分可以进一步根据人脸姿态角依据一定的计算规则计算得出，如一些计算公式，由人脸质量评价模块得出。

[0077] (3)例如，可以基于一定的公式策略，根据人脸关键点可见性综合分(QAi)及人脸姿态分(QBi)，将这两个因素融合，得到人脸质量总分QCi，此总分可以覆盖姿态、光照、模糊、遮挡、噪声等因素。

[0078] (4)例如，与预定的人脸识别模型绑定来，利用姿态得分与关键点可见性分这两部分分数作为神经网络输入训练分数融合深度神经网络，直到loss收敛，利用训练后的分数融合深度神经网络(如，第二神经网络)将关键点可见性信息(PAi)与人脸姿态信息(PBi)融合，以网络的输出作为人脸质量总分QCi。此总分可以覆盖姿态、光照、模糊、遮挡、噪声等因素。

[0079] 应理解，上述实现方式中，计算每个人脸图像的QAi、QBi、QCi中任意一个参数的过程都可以认为是进行人脸质量评价。

[0080] S13，在上述N个人脸图像中选择出人脸质量评价结果排在前X的人脸图像作为目标人脸图像，X为小于N的正整数。

[0081] 一种具体实现过程中，可以仅仅依照关键点可见性的综合分(QAi)或人脸姿态分(QBi)的大小关系进行选择目标人脸图像。例如但不限于：在同一目标人物的N个人脸图像中，挑选QAi大于预设阈值的X个人脸图像，或者QBi大于预设阈值的X个人脸图像，X为小于等于N的正整数；其中，X为预设值，如分数大小排名靠前的X个人脸图像；更进一步地，X为1，如选择QAi最大的一个人脸图像，或者选择QBi最大的一个人脸图像。

[0082] 一种具体实现过程中，还可以根据人脸质量总分(QCi)，即人脸质量评价的总分，根据每个人脸图像的总分(QCi)的大小关系从上述N个人脸图像中选择出目标人脸图像。包括但不限于有如下几种：在上述N个人脸图像中，选择人脸质量总分最高的一个人脸图像，或者选择人脸质量总分超过阈值的X张等；其中，X为预设值，X为小于等于N的正整数，如分数大小排名靠前的X张等。

[0083] 此外，作为补充地，还可以选择人脸面积最大的X个人脸图像，或者默认的X个人脸图像等。

[0084] S14，显示目标人脸图像。

[0085] 可以在不同应用场景下，在终端的显示界面呈现挑选出的目标人脸。

[0086] 具体地，在监控应用场景中，可以在视频监控的显示web界面中，对上述目标人脸图像进行显示。

[0087] 具体实现过程中，如视频监控的显示web界面，对于每个人脸图像，还可以显示出人脸的欧拉角、姿态分、以及关键点可见性综合分中的任意一个或多个。以使得监控系统能够对监控对象呈现更高价值、更直观、更有效的人物身份识别信息。

[0088] 另外，结合S13，视频监控的显示web界面显示的策略可以包括但不限于有如下几种：

[0089] 1)对于显示界面中检测到的任一目标对象(人物)，实时抓取并显示当前抓拍帧的人脸图像，并显示此人脸的姿态角、人脸姿态分、关键点可见性综合分及总分中的任意一个或多个；或，

[0090] 2)对于任一目标对象，自此目标对象从进入画面到当前检测时刻(还没有走出画面)，在检测到该目标对象的人脸图像中，显示总分最高的一个人脸图像，并显示此人脸的姿态角、人脸姿态分、关键点可见性综合分及总分中的任意一项或者全部项；可见该方式中，人脸图像的显示可能会出现多次更新；或，

[0091] 3)对于任一目标对象，自此目标对象从进入画面到走出画面，在检测到该目标对象的人脸图像中，显示总分最高的一个人脸图像，并显示此人脸的姿态角、人脸姿态分、关键点可见性综合分及总分中的任意一项或者全部项；或，

[0092] 4)用户可以选择具体某个目标对象，自此目标对象从进入画面到当前检测时刻(还没有走出画面)，在检测到该目标对象的人脸图像中，显示总分最高的一个人脸图像，并显示此人脸的姿态角、人脸姿态分、关键点可见性综合分及总分中的任意一项或者全部项；或，

[0093] 5)用户可以选择具体某个目标对象，自此目标对象从进入画面到走出画面，在检测到该目标对象的人脸图像中，显示总分最高的一个人脸图像，并显示此人脸的姿态角、人脸姿态分、关键点可见性综合分及总分中的任意一项或者全部项；或，

[0094] 6)对于任一目标对象，自此目标对象从进入画面到当前检测时刻(还没有走出画面)，在检测到该目标对象的人脸图像中，选出姿态最好(人脸姿态分最高)或者关键点可见性得分最高的一个人脸图像，并显示此人脸的姿态角、人脸姿态分、或关键点可见性综合分；或，

[0095] 7)对于任一目标对象，自此目标对象从进入画面到走出画面，在检测到该目标对象的人脸图像中，选出姿态最好(人脸姿态分最高)或者关键点可见性得分最高的一个人脸图像，并显示此人脸的姿态角、人脸姿态分、或关键点可见性综合分；或，

[0096] 8)对于任一目标对象，自此目标对象从进入画面到当前检测时刻(还没有走出画面)，在检测到该目标对象的人脸图像中，选出总分或人脸姿态分或关键点可见性综合分最高的一个人脸图像，并显示此人脸的姿态角、人脸姿态分、或关键点可见性；或，[0097] 9)对于任一目标对象，自此目标对象从进入画面到走出画面，在检测到该目标对象的人脸图像中，选出总分或人脸姿态分或关键点可见性综合分最高的一个人脸图像，并显示此人脸的姿态角、人脸姿态分、或关键点可见性；或，

[0098] 10)对于任一目标对象，自此目标对象从进入画面到当前检测时刻(还没有走出画面)，选择总分或人脸姿态分或关键点可见性综合分超过阈值的top X个人脸图像，并显示这些人脸图像，以及各个人脸图像对应的人脸的姿态角、人脸姿态分、关键点可见性综合分及总分中的任意一项或者全部项；其中X的最大值为总分或人脸姿态分或关键点可见性综合分超过阈值的所有抓图的数量；或，

[0099] 11)对于任一目标对象，自此目标对象从进入画面到走出画面，选择总分或人脸姿态分或关键点可见性综合分超过阈值的top X个人脸图像，并显示这些人脸图像，以及各个人脸图像对应的人脸的姿态角、人脸姿态分、关键点可见性综合分及总分中的任意一项或者全部项；其中X的最大值为总分或人脸姿态分或关键点可见性得分超过阈值的所有人脸图像的数量。

[0100] 对于显示方式，本发明实施例中仅作列举，不做任何限定。

[0101] 应理解，对于某一目标人物，N在一些情况下可以为1，则后续进行人脸质量评价和呈现的也是这唯一的图像。

[0102] 一种具体的监控实例可以如图6所示，主显示区域显示实时监控视频流，其他显示区域可以显示当前检测到的所有人物的人脸，也可以显示在检测过程中每一个人物对应的最佳人脸，还可以针对某一人物显示其历史图像，除了显示人脸抓图外，还可以显示各个抓图对应的人脸的姿态角、人脸姿态分、关键点可见性综合分及总分中的任意一项或者全部项。本发明实施例中，视频监控的显示web界面可以包含主显示区域(用于显示实时监控视频流)和周边显示区域/抓图区域(用于显示检测到的人物的优选的人脸图像)；例如显示抓拍到的并裁剪的人脸图像，由于本发明实施例中的周边显示区域中显示的人脸图像是经过系统选出满足条件或优选的人脸图像，因此周边显示区域显示的人脸图像的相貌特征质量非常高，大大提高监控系统的高效利用率和识别准确率。另外，周边显示区域还可以显示各个人脸图像对应的人脸的姿态角、人脸姿态分、关键点可见性综合分及总分、以及质量满分中的任意一项或者全部项；有利于用户对人像质量的直观感知。例如显示4.6/5，其中4.6为当前人脸图像的人脸质量评价总分，5为人脸质量评价的满分......当出现多个人脸图像的时候，人脸质量总分的数值会直接给用户带来可信度的心理确认，对图像利用的准确率和速率会大大提升，用户使用体验也会增强，监控系统的卖点也会增加(端到端的识别能力得到提升，监控系统对于任一人物，都能输出质量最高的人脸图像，人脸识别能力大大提高)。

[0103] 下面将通过示例1和示例2为例，描述两种人脸质量评价的可选方法。

[0104] 示例1：

[0105] 如图7所示为例，第一神经网络包括Net1、Net2、Net3。Net1包含且不仅限于Conv(卷积)、BN(批标准化)、Pooling(池化)、Relu(修正线性单元)；Net2包含且不仅限于Deconv(反卷积)、Conv、Relu、Upsampling(上采样)层；Net3包含且不仅限于Fc(全连接)、Pooling(池化)、Relu(修正线性单元)、Regression(回归)。

[0106] S21，对于任一输入的人脸图像，经过Net1、Net2处理输出M*W*H的featuremap(特征图)。取出Net2输出的M*W*H的Feature Map，根据Feature Map的响应对人脸各关键部位/关键点的可见性进行判断。这里的M代表着用户关心的关键点的个数，例如一种配置为：眼睛*2+鼻尖*1+嘴角*2共五个点，那这里的M就为5。以图7为例，左眼、右眼、鼻尖这三个关键点有响应，左右嘴角无响应。

[0107] 具体实现过程中，各关键点可见性得分可以参照以下计算公式：

[0108]

[0109] 其中，Pi为网络输出的各关键点的可见性的分数，Fijk为FeatureMap上的值，经过Softmax(Pi公式中的括号内部分)得到Pi，Pi为特征图上对特定关键点的最大归一化响应(值0～1)。

[0110] 此外，每个人脸图像经过Net1、Net3处理输出人脸的偏航角、俯仰角、横滚角。

[0111] S22，对于每个人脸图像，根据各关键点的可见性的分数得到关键点可见性综合分。

[0112] 一种计算方式可以参照如下公式：

[0113]

[0114] 其中，Ki为各关键点重要性权值。Ki为用户可配置，用户可以根据对各个点的关系程度选择系数。比如用户觉得眼睛更重要，可以配置眼睛的权值为2，鼻尖的权值为1；该数值仅作举例，不做限定。

[0115] S23，对于每个人脸图像，根据人脸的偏航角、俯仰角、横滚角得到人脸姿态分。可以参照以下公式：

[0116]

[0117] 其中，yaw、pitch、roll分别为网络输出的人脸偏航、俯仰、横滚角，Kyaw、Kpitch、Kroll为系数。比如当系数Kyaw取30时，若yaw＝0，则若yaw＝30则其他项原理类似。可见，SAttitude一定是大于或等于1的数值。

[0118] S24，根据关键点可见性综合分和人脸姿态分计算人脸质量总分。

[0119] 具体地，根据SAttitude(可等同QAi)和SOcc&Quality(可等同QBi)通过预设策略计算出总分S(可等同QCi)。一种参照如下：

[0120] 如果SOcc&Quality＜Threshold，则S＝SOcc&Quality；

[0121] 如果SOcc&Quality≥Threshold，则S＝SOcc&Quality*SAttitude(SAttitude≥1)[0122] 此处阈值Threshold由经验得出，例如当我们定义关键点数量为5时，阈值约为0.2。SOcc&Quality低于阈值时可以认为人脸图像质量过差，脸部信息极少，角度结果无参考意义；SOcc&Quality高于阈值时可以认为人脸图像质量很好，脸部信息足够，角度结果有参考意义。

[0123] S25，根据SOcc&Quality(可等同QAi)，SAttitude(可等同QBi)，和/或S(可等同QCi)，选择出目标人脸图像。

[0124] 具体地，用户可以根据上述三个分数中的一个或者多个。选择方式可类似于S13中的方法。

[0125] S26，采用包括但不仅限于上述S14中1)-11)中任意一种显示策略予以显示目标人脸图像。本实施例中不再赘述和列举。

[0126] 示例2：

[0127] 如图8所示为例，第一神经网络包括Net1、Net2、Net3。Net1包含且不仅限于Conv(卷积)、BN(批标准化)、Pooling(池化)、Relu(修正线性单元)；Net2包含且不仅限于Deconv(反卷积)、Conv、Relu、Upsampling(上采样)层；Net3包含且不仅限于Fc(全连接)、Pooling(池化)、Relu(修正线性单元)、Regression(回归)。

[0128] S31，如上述S21得到每一个人脸图像中各关键点可见性得分Pi以及人脸的偏航角、俯仰角、横滚角。

[0129] S32，关键点可见性得分和人脸欧拉角不再如示例1中经过公式计算人脸质量总分，而是将各关键点可见性得分和人脸欧拉角作为一个训练好的分数融合网络(第二神经网络)的输入，利用分数融合网络输出结果，即得到每个人脸图像的总分S。

[0130] 一种分数融合网络的训练可以如图9所示，经过Weight Pooling(见公式1)用Id Contrastive Loss(见公式2、3)的训练方式，训练出更具有针对性的模型，取得更好的端到端识别效果；其思想为：通过绑定一个特定的人脸识别模型(可对应于人脸识别特征提取器)，训练分数融合网络，去拟合特定识别模型的喜好。其中，训练方法包含以下几步：

[0131] 1)将同一个id(人物)的多个人脸图像输入人脸质量评价模块，得到人脸图像的关键点可见性信息和人脸姿态欧拉角；

[0132] 2)将关键点可见性信息和人脸欧拉角作为输入，输入到分数融合网络，分数融合网络的最后一层为sigmoid激活函数，得到一个的人脸质量总分的输出，分数为0～1之间的分值；

[0133] 3)将同一个id的多个人脸图像输入到人脸识别特征提取器，得到多个人脸特征；

[0134] 4)将同一个id的多个人脸图像提取到的特征，根据第二步得到的人脸质量总分作为权值，进行Weight Pooling(公式1)，得到一个融合后的人脸特征；

[0135]

[0136] 其中，Track是轨迹，融合出一个特征，得到一个新的向量，Qj是分数。这个公式是训练分数的；Fj是不变的。

[0137] 5)将融合后的人脸特征与同一个ID的证件照(图像清晰，姿态正)提取到的特征，计算Id Contrastive Loss，进行训练。(公式2，公式3)

[0138]

[0139] di＝||Fid-Ftrack||2 (公式3)

[0140] 其中，N为单词迭代的batch数目，即更新一次网络参数使用的输入训练样本的数量；Loss是损失函数；di是融合后的特征和证件照特征的差异，即di代表weight pooling后的特征与证件照特征的距离。直到Loss收敛，分数融合网络训练结束。

[0141] 应理解，训练过程中，分数融合网络的参数是可训练的，其他部分的参数是固定的。如图10所示：图中上半部分是训练前的图片。由于训练前所有的人脸的图像质量总分为随机值，WeightPooling后的特征(五边形，由监控照特征按照分数融合网络输出的质量分加权得出)离证件照(五角星)在特征空间上较远。通过Id contrastive Loss，网络学习到了更加合理的weight使得五边形和五角星距离拉近(图中下半部分)。这个weight就是分数融合网络的输出，也是各个人脸特征占融合后的特征的权重。这个合理指的就是特征空间上越靠近证件照(五角星)的人脸特征，weight越大。

[0142] 因此网络训练使Id Contrastive loss下降的过程中，学到了一个分数融合网络，这个分数融合网络根据各个关键点可见性及欧拉角作为输入，输出人脸质量总分，这个质量总分的标准，是在绑定训练的人脸识别模型眼中，与证件照越相似的图像质量分越高。

[0143] S33，根据每个人脸图像的总分S，从同一个人物的N个人脸图像中选择出满足条件的目标人脸图像。

[0144] 根据多个人脸图像的总分S的大小关系从中选择出目标人脸图像。包括但不限于有如下几种：在同一人物的N个人脸图像中，选择总分最高的一个人脸图像，或者选择总分超过阈值的X个人脸图像等；其中，X为预设值，X为小于等于N的整数，如分数大小排名靠前的X个人脸图像。

[0145] 此外，还可以选择人脸面积最大的X张，或者默认的X张等。

[0146] S34，在视频监控的显示web界面中，对上述目标人脸图像进行显示。

[0147] 应理解，视频监控的显示web界面还可以对于每个人脸图像，可以显示到人脸的欧拉角、姿态分、以及关键点可见性综合分中的任意一个或多个。

[0148] 另外，结合S33，视频监控的显示web界面显示的策略可以包括但不限于有如下几种：

[0149] 1)对于显示界面中检测到的任一目标对象(人物)，实时抓取并显示当前抓拍帧的人脸图像，并显示此人脸图像的人脸的姿态角和/或总分；或，

[0150] 2)对于任一目标对象，自此目标对象从进入画面到当前检测时刻(还没有走出画面)，在检测到该目标对象的N个人脸图像中，显示总分最高的一个人脸图像，并显示此人脸图像的人脸姿态角和/或总分；或，

[0151] 3)对于任一目标对象，自此目标对象从进入画面到走出画面，在检测到该目标对象的N个人脸图像中，显示总分最高的一张，并显示此人脸图像的人脸姿态角和/或总分；或，

[0152] 4)用户可以选择具体某个目标对象，自此目标对象从进入画面到当前检测时刻(还没有走出画面)，在检测到该目标对象的N个人脸图像中，显示总分最高的一个人脸图像，并显示此人脸图像的人脸的姿态角和/或总分；或，

[0153] 5)用户可以选择具体某个目标对象，自此目标对象从进入画面到走出画面，在检测到该目标对象的N个人脸图像中，显示总分最高的一个人脸图像，并显示此人脸的姿态角和/或总分；或，

[0154] 6)对于任一目标对象，自此目标对象从进入画面到当前检测时刻(还没有走出画面)，选择总分超过阈值的top M张图，并显示这些抓图，以及各个抓图对应的人脸的姿态角和/或总分；其中M的最大值为总分超过阈值的所有抓图的数量；或，

[0155] 7)对于任一目标对象，自此目标对象从进入画面到走出画面，选择总分超过阈值的topM张图，并显示这些抓图，以及各个抓图对应的人脸的姿态角和/或总分；其中M的最大值为总分超过阈值的所有抓图的数量。

[0156] 以上例子仅作列举，不做任何限定。

[0157] 另外，关于本发明中的分数示例，用户可以根据自己的需求自由改变打分规则，本发明中不予赘述。

[0158] 通过本发明实施例，通过神经网络获得本地人脸图像或实时抓拍人脸图像中人脸的关键点信息以及姿态信息，进行一定的数据处理，进而从同一个目标人物的多个人脸图像中选择一个“最合适”的图像呈现给用户；该“最合适”可以理解为最清晰或最端正或最能有效识别人物身份等特性。对于监控系统，在追踪同一目标的过程中，用最少的图片起到“最合适”的效果，一方面可以增强监控系统的识别准确率，另一方面还大大节约了资源消耗；这两方面无疑会为监控系统的商业成功提供更强大的用户使用基础。另外，一些实施例中，各打分项以及分数的直观显示，会在用户在做识别时提供可信度的心理确认，使得用户使用更加安心，体验更好。

[0159] 一方面，现有技术中通过构造各种图像质量的样本，进行人工主观评价标注；但是造成低质量画质的原因是千奇百怪的，仅凭构造样本是永远无法覆盖所有低质量画质的原因的。本发明基于人脸的关键点可见性和人脸欧拉角。本方法将是否存在遮挡、模糊或其他等画质的问题转化为关键点可见程度。避开了构造和提取各种模糊、过曝、噪声等低质量画质特征的无底洞，再结合人脸欧拉角判断，全面覆盖了人脸质量评价相关的主要因素。

[0160] 另一方面，现有技术采用人工打分标注，通过算法学习人脸图像到分数的映射。而本发明采用训练集标注内容为标准客观稳定的人脸欧拉角和关键点坐标；避开了人为主观打分时标注规则和受试者不一致性导致的偏差问题，以及人为主观打分后的训练集无法做Data Argumentation(数据增强)的问题，因为无法根据旋转平移加模糊等带来的影响估计主观分数的改变；而本发明的方法标注内容是可以进行加模糊、噪声、各种图像失真方法及旋转平移等方式进行扩充的，只需要根据扩充的性质计算扩充后的新的标注结果。

[0161] 又一方面，现有技术并没有灵活的评价策略，而本发明先通过网络得到关键点可见性和人脸欧拉角，再根据具体使用需要，可以选择通用的融合策略得到总分，或者是用结合识别模型训练出的分数融合网络得到总分。即可以根据具体场景灵活选择，可以用通用融合策略得到符合人眼主观的总分，也可以为了更好的端到端的识别效果使用分数融合网络得到总分。

[0162] 综合考虑各因素，在监控应用领域，本发明能够提升人脸抓拍系统的抓拍人脸图像的输出质量，提升人脸关键帧输出质量，提升人脸抓拍识别系统的端到端识别能力。

[0163] 基于上述实施例提供的人脸质量评价方法，本发明实施例提供一种人脸质量评价装置，如图6所示，该装置400可以包括：获取模块401，评价模块402，选择模块403，显示模块404；其中，

[0164] 获取模块401，用于用于针对同一个目标人物的N个人脸图像，利用第一神经网络获取每个人脸图像中的人脸关键点信息和人脸欧拉角；其中，所述人脸关键点信息包括：预设的人脸关键点位置对应的可见性程度；N为不小于2的正整数；该模块可以由处理器调用存储器中的程序指令或者外部输入的程序指令实现，调用摄像头获取图像或调用本地图像，并对图像进行一些计算处理，进而得到以上信息。

[0165] 评价模块402，用于根据所述每个人脸图像中的人脸关键点信息和人脸欧拉角对所述N个人脸图像进行人脸质量评价；该模块可以由处理器调用存储器中的程序指令或者外部输入的程序指令实现；通过算法给出个各个人脸图像的质量评价结果。

[0166] 选择模块403，用于在所述N个人脸图像中选择出人脸质量评价结果排在前X的人脸图像作为目标人脸图像，X为小于N的正整数；该模块可以由处理器调用存储器中的程序指令或者外部输入的程序指令实现；通过算法筛选出满足参数要求或者标准的目标人脸图像。

[0167] 显示模块404，用于显示所述目标人脸图像；该模块可以由处理器调用存储器中的程序指令或者外部输入的程序指令，并配合显示屏一起实现。

[0168] 在具体实现过程中，获取模块401具体用于执行S11中所提到的方法以及可以等同替换的方法；评价模块402具体用于执行S12中所提到的方法以及可以等同替换的方法；选择模块403具体用于执行S13中所提到的方法以及可以等同替换的方法；显示模块404具体用于执行S14中所提到的方法以及可以等同替换的方法。其中，上述具体的方法实施例以及实施例中的解释和表述也适用于单元中的方法执行。

[0169] 进一步地，获取模块401具体用于执行S21中所提到的方法以及可以等同替换的方法；评价模块402具体用于执行S22-S24中所提到的方法以及可以等同替换的方法；选择模块403具体用于执行步骤S25中所提到的方法以及可以等同替换的方法；显示模块404具体用于执行步骤S26中所提到的方法以及可以等同替换的方法。其中，上述具体的方法实施例以及实施例中的解释和表述也适用于单元中的方法执行。

[0170] 进一步地，获取模块401具体用于执行S31中所提到的方法以及可以等同替换的方法；评价模块402具体用于执行S32中所提到的方法以及可以等同替换的方法；选择模块403具体用于执行S33中所提到的方法以及可以等同替换的方法；显示模块404具体用于执行S44中所提到的方法以及可以等同替换的方法。其中，上述具体的方法实施例以及实施例中的解释和表述也适用于单元中的方法执行。

[0171] 本申请实施例还提供一种人脸质量评价设备500，如图12所示，设备包含处理器501、存储器502、摄像头503、显示屏504以及总线505；处理器501、存储器502、摄像头503、显示屏504通过总线505相连接；存储器502中存储有程序指令和数据，摄像头503用于采集图像，显示屏504用于显示视频或图像，处理器501用于调用存储器中的数据和程序指令，与摄像头503和显示屏504协同完成；以完成如上述实施例中提供的任一方法和可能的设计的方法。

[0172] 作为简化的，在另一种实现场景中，本申请实施例还提供一种人脸质量评价设备，该设备包括：显示屏、处理器、存储器和总线；显示屏、处理器、存储器通过总线相连；显示屏用于显示视频或图像；存储器用于存储有数据和程序指令；处理器用于调用所述数据和程序指令，以完成如上述实施例中提供的任一方法和可能的设计的方法。

[0173] 本领域内的技术人员应明白，本申请实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

[0174] 本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0175] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0176] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0177] 显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

一种人脸质量评价方法与装置转让专利

申请号 : CN201810930343.6

文献号 : CN110837750A

文献日 : 2020-02-25

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 董新帅 , 王铭学 , 蔡佳 , 王提政

申请人 : 华为技术有限公司

摘要 :

权利要求 :

说明书 :

一种人脸质量评价方法与装置

技术领域

背景技术

发明内容

附图说明

具体实施方式