用于脸部识别的方法和系统转让专利

申请号 : CN201480080815.3

文献号 : CN106663186B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 汤晓鸥王晓刚朱臻垚罗平

申请人 : 北京市商汤科技开发有限公司

摘要 :

公开多视角感知器系统和多视角感知器方法。所公开的系统包括身份特征确定单元、视角表示捕获单元、特征组合单元和复原单元。所述身份特征确定单元被配置成针对输入脸部图像,在所述图像的给定视角上确定多个身份特征。所述视角表示捕获单元被配置成捕获所述输入脸部图像的视角表示。所述特征组合单元被配置成根据确定的身份特征和所述视角表示来产生用于脸部复原的一个或多个特征。所述复原单元被配置成基于生成的复原脸部生成脸部图像,并且随后将生成的脸部图像与所述视角表示结合成所述生成的脸部图像的视角标签。

权利要求 :

1.一种用于脸部识别的方法,包括:

确定输入脸部图像在所述输入脸部图像的给定视角上的多个身份特征;

捕获所述输入脸部图像的视角表示;

从所确定的身份特征和所述视角表示确定用于脸部复原的一个或多个特征;以及从确定的用于脸部复原的特征生成脸部图像;以及将生成的脸部图像和捕获的视角表示进行结合形成用于生成的脸部图像的视角标签。

2.根据权利要求1所述的方法,其中所述视角表示与脸部视角、脸部照明度和脸部表情中的至少一个自然地关联起来。

3.根据权利要求1所述的方法,其中所述确定、所述捕获、所述生成和所述结合由生物神经网络实施。

4.根据权利要求3所述的方法,还包括:通过使先验分布的下限最大化来训练所述生物神经网络的参数,所述先验分布由所述生成的脸部图像、所述视角表示以及所述输入脸部图像的视角标签来表示。

5.根据权利要求4所述的方法,其中所述训练还包括:随机初始化所述参数;

向多个所述视角表示分配使得所述视角表示具有均匀分布的值;

基于所述输入脸部图像和所述视角表示来生成所述脸部图像和所述视角标签;

根据所述生成的脸部图像、所述视角标签、所述视角表示和所述参数的当前值构建联合概率;

计算所述联合概率的下限的梯度

通过规则 来更新所述参数;以及

迭代上述步骤,直到达到所述联合概率的数据似然的收敛为止。

6.根据权利要求1所述的方法,还包括:计算多个所述生成的脸部图像的概率,以及基于计算的概率确定出所述生成的脸部图像中与所述输入脸部图像最类似的图像。

7.根据权利要求6所述的方法,其中,对于所述输入脸部图像的所有可能视角标签,所述方法还包括:根据所确定的、与具有不同视角标签的输入脸部图像最类似的图像,形成全部光谱的多视角图像。

8.根据权利要求1所述的方法,其中,确定多个身份特征的步骤还包括:根据激活函数,从所述输入脸部图像确定出多个第一身份特征;以及根据所述激活函数,基于生成的第一身份特征确定出多个第二身份特征。

9.根据权利要求8所述的方法,其中确定用于脸部复原的一个或多个特征的步骤还包括:将生成的第二身份特征与生成的视角表示组合,以产生用于脸部复原的一个或多个第三特征;以及根据所述激活函数,从产生的第三特征生成用于脸部复原的一个或多个第四特征。

10.一种用于脸部识别的系统,包括:身份特征确定单元,配置成确定输入脸部图像在所述输入脸部图像的给定视角上的多个身份特征;

视角表示捕获单元,配置成捕获所述输入脸部图像的视角表示;

特征组合单元,配置成从确定的身份特征和所述视角表示来产生用于脸部复原的一个或多个特征;以及复原单元,配置成从产生的用于脸部复原的特征生成脸部图像,并且随后将生成的脸部图像与所述视角表示结合成用于生成的脸部图像的视角标签。

11.根据权利要求10所述的系统,其中所述视角表示与脸部视角、脸部照明度和脸部表情中的至少一个自然地关联起来。

12.根据权利要求10所述的系统,其中所述身份特征确定单元、所述视角表示捕获单元、所述特征组合单元和所述复原单元接合在一起以形成生物神经网络。

13.根据权利要求12所述的系统,其中通过使重要性权值的下限最大化来确定所述生物神经网络的参数,所述权值表示为基于所述生成的脸部图像、所述视角表示、所述输入脸部图像的所述视角标签的概率分布。

14.根据权利要求13所述的系统,其中所述生物神经网络的参数由以下确定:随机初始化所述参数;

向多个所述视角表示分配使得所述视角表示具有均匀分布的值;

基于所述输入脸部图像和所述视角表示来生成所述脸部图像和所述视角标签;

根据所述生成的脸部图像、所述视角标签、所述视角表示和所述参数的当前值构建联合概率;

计算所述联合概率的下限的梯度

通过规则 来更新所述参数;以及

迭代上述步骤,直到达到所述联合概率的数据似然的收敛为止。

15.根据权利要求10所述的系统,还包括:图像选择单元,配置成计算多个所述生成的脸部图像的概率,并且基于计算的概率来确定所述生成的脸部图像中与所述输入脸部图像最类似的图像。

16.根据权利要求15所述的系统,其中,对于输入脸部图像的所有可能视角标签,根据所确定的、与具有不同视角标签的所述输入脸部图像最类似的图像,形成全部光谱的多视角图像。

17.根据权利要求10所述的系统,其中所述身份特征确定单元还配置成:根据激活函数,从所述输入脸部图像确定多个第一身份特征;以及根据所述激活函数,基于生成的第一身份特征来确定多个第二身份特征。

18.根据权利要求17所述的系统,其中所述特征组合单元还配置成:将生成的第二身份特征与生成的视角表示组合,以产生用于脸部复原的一个或多个第三特征;以及根据所述激活函数,从产生的第三特征生成用于脸部复原的一个或多个第四特征。

说明书 :

用于脸部识别的方法和系统

技术领域

[0001] 本申请涉及用于脸部识别的方法和系统。

背景技术

[0002] 脸部识别系统的性能主要取决于面部表示,这自然与很多类型的脸部变化相关,诸如,脸部视角、照明度和视角表情(view expression)。由于经常在不同的视角上观察脸部图像,因此,主要的挑战在于解开(untangle)脸部身份和视角表示。
[0003] 大量的工作已经致力于手工提取身份特征,诸如,LBP、Gabor和SIFT。脸部识别的最佳实践以多重尺度在脸部图像的标定上提取上述特征,并且将它们连接成高维特征矢量。深度神经网络已经应用于从原始像素中学习特征。
[0004] 深度神经网络的启示来源于理解人脑的分层皮质和模仿人脑活动的一些方面。人类不仅可识别身份,而且可在不同的视角下想象人的脸部图像,从而使得人脑中的脸部识别对视角改变较稳健。在某种程度上,人脑可以从2D脸部图像中推断出3D模型,甚至在没有实际上感知到3D数据时也可如此。

发明内容

[0005] 在本申请的一方面,公开了用于多视角感知器的方法,其包括:
[0006] 确定输入脸部图像在所述图像的给定视角上的多个身份特征;
[0007] 捕获所述输入脸部图像的视角表示;
[0008] 从确定的身份特征和所述视角表示来确定用于脸部复原的一个或多个特征;以及[0009] 根据确定的用于脸部复原的特征生成脸部图像,随后将生成的脸部图像与捕获的视角表示结合成用于所生成的脸部图像的视角标签。
[0010] 在本申请的一方面,还公开了多视角感知器系统,其包括:
[0011] 身份特征确定单元,配置成确定输入脸部图像在所述图像的给定视角上的多个身份特征;
[0012] 视角表示捕获单元,配置成捕获所述输入脸部图像的视角表示;
[0013] 特征组合单元,配置成从确定的身份特征和所述视角表示来产生用于脸部复原的一个或多个特征;以及
[0014] 复原单元,配置成基于产生的用于脸部复原的特征生成脸部图像,并且随后将生成的脸部图像与所述视角表示结合成所述生成的脸部图像的视角标签。
[0015] 根据本申请的实施方式,身份特征确定单元、视角表示捕获单元、特征组合单元和复原单元可接合在一起以形成生物神经网络。通过使概率分布的下限最大化,可确定所述生物神经网络的参数,即,权重和偏差,所述概率分布由生成的脸部图像、视角表示和输入脸部图像的视角标签形成。
[0016] 在本申请的一方面,还公开了用于记录可由一个或多个处理器执行的指令的计算机可读存储介质,以便:
[0017] 确定输入脸部图像在所述图像的给定视角上的多个身份特征;
[0018] 捕获所述输入脸部图像的视角表示;
[0019] 从确定的身份特征和所述视角表示来产生用于脸部复原的一个或多个特征;以及[0020] 从产生的用于脸部复原的特征生成脸部图像,并且随后将生成的脸部图像与捕获的视角表示结合成所生成的脸部图像的视角标签。

附图说明

[0021] 下文参考附图描述本发明的示例性非限制实施方式。附图是说明性的,并且一般不按精确比例绘制。不同附图上的相同或相似元件以相同的参考数字进行参考。
[0022] 图1是示出符合一个公开实施方式的用于脸部识别的系统的示意图。
[0023] 图2是示出根据本申请的一个实施方式的对用于脸部识别的系统进行模拟的神经网络的示意图。
[0024] 图3是示出与本申请的一些公开实施方式相一致的脸部识别的示意性流程图。
[0025] 图4是示出与本申请的一些公开实施方式相一致的用于神经网络的训练过程的示意性流程图。
[0026] 图5是示出与本申请的另一公开实施方式相一致的用于脸部识别的系统的示意图。
[0027] 图6是示出与本申请的一些公开实施方式相一致的脸部测试程序的示意性流程图。

具体实施方式

[0028] 现在将详细参考示例性实施方式,示例性实施方式的实例在附图中示出。在适当的时候,在整个附图中相同的参考数字指代相同或相似部分。
[0029] 图1是示出根据本申请的一个实施方式的示例性多视角感知器系统100的示意图。
[0030] 多视角感知器系统100接收不同视角的脸部图像 并且输出不同视角上的相同身份的图像y和它们的视角标签v,即, 其中xij是第j个视角下的第i个身
份的输入图像,yik表示第k个视角的相同身份的输出图像,以及vik是输出的视角标签并且它可以是M维的二进制矢量,其中第k个元素是1并且其他元素为零。
[0031] 应理解,系统100可使用特定硬件、软件或它们的组合来实施。此外,本发明的实施方式可适合于具体化在一个或多个计算机可读存储介质(包括但不限于,磁盘存储器、CD-ROM、光学存储器等)上的计算机程序产品,所述计算机可读存储介质含有计算机程序代码。
[0032] 在利用软件实施系统100的情况下,系统100可包括通用计算机、计算机集群、主流计算机、专用于提供在线内容的计算装置,或者计算机网络,所述计算机网络包括一组以集中或分布方式操作的计算机。
[0033] 再次参考图1,其中设备100由硬件实施,设备100可包括:被配置成在给定的任意视角中学习输入脸部图像x的身份特征hid的确定性单元(神经元)10,以及被配置成捕获输入脸部图像x的视角表示hv的随机单元(神经元)20。视角表示hv自然地与许多类型的脸部变化相关联,诸如,视角、照明度和脸部表情。
[0034] 在本申请的一个实施方式中,身份特征确定单元10操作以在图像的给定视角中确定输入脸部图像的多个身份特征。在本申请的一个实施方式中,身份特征确定单元10可根据激活函数,即,双弯曲函数σ(x),从输入脸部图像中生成多个第一身份特征 并且随后基于生成的第一身份特征 而生成多个第二身份特征 例如,根据下列规则,身份特征确定单元10可生成多个第一身份特征 并且随后基于生成的第一身份特征 而生成身份特征
[0035]
[0036]
[0037] 其中U0和U1是预定权值,如后面将讨论的那样可以是从0到1范围内的数。
[0038] 如图1所示,多视角感知器系统100还包括特征组合单元30,该特征组合单元30被配置成从从确定的身份特征和视角表示产生用于脸部复原的一个或多个特征。在一个实施方式中,特征组合单元30可将生成的第二身份特征 与生成的视角表示hv组合,以产生用于脸部复原的一个或多个第三特征 并且随后从产生的第三特征 生成用于脸部复原的一个或多个第四特征 例如,用于脸部复原的第三特征 和第四特征 可由下列规则确定:
[0039]
[0040]
[0041] 其中{U2,V2}和{U3,V3}是预定权值,并且可以是从0到1范围内的数。
[0042] 再次参考图1,多视角感知器系统100还可包括复原单元40,复原单元40被配置成从生成的复原特征 生成脸部图像y,并且随后将生成的脸部图像y与视角表示hv结合成生成的脸部图像的视角标签。在本申请的一个实施方式中,脸部图像的视点y和视角标签v可由下列规则确定:
[0043]
[0044] v=σ([U5y,W5V])   公式6)
[0045] 其中U4和U5是预定权值,其可以是从0到1范围内的数。
[0046] 在本申请的一个实施方式中,系统100可被实施为模拟生物神经网络并且由连接在一起的多个人工节点形成的网络,其中,所述人工节点被称为“神经元”或“单元”。理论上,人工神经元是被构想成生物神经元的模型的数学函数。人工神经元接收一个或多个输入(代表树突),并且将它们合计起来,以产生输出(代表神经元的轴突)。上述U0、U1、U2、U3、U4、V2、V3、W2和W3代表所形成的神经网络的权重和偏差。换言之,可基于神经网络独立地确定上述U0、U1、U2、U3、U4、V2、V3、W2和W3。图2示出根据本申请的一个实施方式的神经网络的示意性配置。
[0047] 通过使数据对数似然最大化,来学习MVP系统的参数(本文中也称为“权值和偏差”),即,U0、U1、U2、U3、U4、V2、V3、W2和W3:
[0048]
[0049] 通过令q(hv)=p(hv|y,v;Θold), 达到下限。重要性抽样用来估计真实后验p(hv|y,v;Θold)。联合概率p(y,v|hv;Θold)是重要性权值。
[0050] 在下文中,将参考图4论述具体的训练过程400。
[0051] 在步骤S401中,利用0到1范围内的值对参数Θ,即,U0、U1、U2、U3、U4、V2、V3、W2和W3进行随机初始化。
[0052] 在步骤S402中,基于当前参数Θ,对多个视角表示hv进行抽样。具体而言,基于先v验分布q(h),即,均匀分布对视角表示 进行抽样。换言之,向hv的集合分配值,从而使得具有均匀分布,即,{hv}~U(0,1)。随后,通过当前参数Θ的W2,从 生成
[0053] 在步骤S403中,将脸部图像x输入到身份特征确定单元10,即,如图2所示的模拟网络中的最低层,以便基于随机初始化的U0和U1,根据公式1)和2)生成第一和第二身份特征。组合单元30随后操作以将生成的第二身份特征 与分配的 组合,以便根据公式3)和4)产生用于脸部复原的一个或多个第三特征 并且随后基于产生的第三特征 生成用于脸部复原的一个或多个第四特征 通过公式5)和6)的规则,复原单元40随后基于生成的复原特征 生成脸部图像y,并且随后将生成的脸部图像y和被分配以值的视角表示hv结合成所生成的脸部图像的视角标签。
[0054] 在步骤S404中,其使用生成的脸部图像y和视角标签v来形成/计算对应于不同视角表示hv的先验分布(即,重要性权值),所述先验分布可表示为p(hv|y,v;Θold)。具体而言,基于均匀分布,即,{hv}~U(0,1)抽样视角表示hv,那么预期得到的便是重要性权值p(y,v|hv;Θold)的加权求和,这可根据公式7)来表示。
[0055] 在步骤S405中,使用梯度上升来最大化重要性权值p(y,v|hv;Θold)的下限。如公式7)所示,可将下限具体化为 随后,计算下限的梯度,即, 其中通过相对于重要性样本在所有梯度上求平均值来计算梯度。重要性抽样是基本抽样算法,其利用建议分布q(x)来估计复杂分布p(x)。由于p(x)太复杂而不能直接抽样,因此,在本申请的实施方式中,可以从一个简单的分布,即,均匀分布进行抽样,并且p(x)/q(x)的比被称为重要性权值,从而校正因基于不同的分布进行抽样而引入的偏差,如下:
[0056]
[0057] 其中 是重要性权值。
[0058] 在步骤S406中,通过下列规则,由梯度上升来更新参数:
[0059]
[0060] 在步骤S407中,确定是否达到下限或者观察到联合概率的数据似然的收敛;如果没有,则重复步骤S402到S407,否则,学习到/确定参数 (U0、U1、U2、U3、U4、V2、V3、W2和W3)。
[0061] 在下文中,将论述与一些公开实施方式一致的用于脸部识别的过程200。如图3所示,过程200包括一系列步骤,所述步骤可由嵌入或布置在计算机上的处理器中的一个或多个执行、可由系统100的每个模块/单元执行,以实施数据处理操作。出于描述的目的,参考以硬件或者硬件和软件的组合制成系统100的每个模块/单元的情况进行以下论述。所属领域的技术人员应了解,其他合适的装置或系统可适用于实施下列过程,并且系统100仅用作实施该过程的例示。
[0062] 在步骤S201中,将确定输入脸部图像在图像的给定视角上的多个身份特征。在本申请的一个实施方式中,根据激活函数从输入脸部图像生成多个第一身份特征 并且随后基于生成的第一身份特征 来生成多个第二身份特征 例如,通过公式1)和公式2)的规则,可生成多个第一身份特征 以及基于生成的第一身份特征 来生成第二身份特征[0063] 在步骤S202中,过程100捕获输入脸部图像x的视角表示hv。
[0064] 在步骤S203中,该过程基于确定的身份特征和视角表示产生用于脸部复原的一个或多个特征。在本申请的一个实施方式中,将生成的第二身份特征 与生成的视角表示hv组合,以产生用于脸部复原的一个或多个第三特征 并且随后从产生的第三特征 生成用于脸部复原的一个或多个第四特征 例如,通过如上文论述的公式3)和公式4)的规则,可确定用于脸部复原的第三特征 和第四特征
[0065] 在步骤S204中,将基于生成的复原特征 生成脸部图像y,并且随后将生成的y与视角表示hv结合成所生成的脸部图像的视角标签。在本申请的一个实施方式中,脸部图像y和v可由公式5)和公式6)的规则确定。
[0066] 图5示出根据本申请的另一实施方式的多视角感知器系统500。系统500可针对给定图像的所有可能视角标签v来重建全部光谱的多视角图像。
[0067] 如图5所示,系统500可包括身份特征确定单元10、视角表示捕获单元20、特征组合单元30、复原单元40,以及图像选择单元50。图6示出用于系统500针对给定图像的所有可能视角标签v来重建全部光谱的多视角图像的过程600。下文将参考图6论述单元10到50的协作。
[0068] 在步骤S601中,身份特征确定单元10操作以学习具有给定视角标签v的输入脸部图像x的多个身份特征。在步骤S602中,视角表示捕获单元20操作以捕获输入脸部图像x的视角表示hv。在步骤S603中,特征组合单元30操作以将生成的第二身份特征 与生成的视角表示hv组合,以产生用于脸部复原的一个或多个第三特征 并且随后从产生的第三特征 生成用于脸部复原的一个或多个第四特征 在步骤S604中,复原单元40操作以从生成的复原特征 生成脸部图像y,并且随后生成的y(其可表示为输出的集合 )和视角表示hv形成所生成的脸部图像的视角标签。由于单元10到40的配置与图1的那些单元相同,并且步骤S601到S604的过程与步骤S201到S204相同,因此,省略其详细描述。
[0069] 随后在步骤S605中,图像选择单元50操作以计算 的概率p(v|yS,hv),并且随后从ys的集合中选择产生最大概率的那个ys,即,确定与输入图像x最类似的图像。对于具有所有可能视角标签v的输入图像x而言,系统500重复以上程序以获得与具有不同视角标签v的输入x最类似的图像,从而使得针对输入图像x的所有可能视角标签v来重建全部光谱的多视角图像。
[0070] 根据本申请的一个实施方式,在给定脸部图像x的情况下,可通过上述步骤S601到S605来生成对应输出图像的集合{yz},其中z表示所生成(或插入)的视角的值的指数。如果从输出图像{yz}中选出与x最类似的图像的一个yz,那么第z个输出yz的视角标签可分配到脸部图像x。
[0071] 尽管已描述了本发明的优选实例,但在了解本发明基本概念后,所属领域的技术人员可对这些实例进行变化或更改。所附权利要求书旨在被视作包括落入本发明的范围内的优选实例和所有变化或更改。
[0072] 显然,在不脱离本发明的精神和范围的情况下,所属领域的技术人员可对本发明进行变化或更改。因此,如果这些变化或更改属于权利要求书和其等同的范围,那么它们也可落入本发明的范围内。