防止隐私数据泄漏的编码模型训练方法及装置转让专利

申请号 : CN201911252327.7

文献号 : CN111046422B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 石磊磊熊涛

申请人 : 支付宝(杭州)信息技术有限公司

摘要 :

本说明书实施例提供一种编码模型训练方法,该方法包括:首先,获取多个训练样本,其中每个训练样本包括表征对应目标对象身份信息的隐私数据和对象标识;然后,将多个训练样本分别输入编码模型中,得到多个特征向量;接着,将多个特征向量分别输入用于确定目标对象身份的分类模型、用于反推隐私数据的解码模型和用于区分不同目标对象的区分模型,以对应确定分类损失、解码损失和区分损失;再然后,以最大化分类损失和解码损失,以及最小化区分损失为目标,对编码模型调参。此外,还披露一种目标对象身份识别方法,利用训练好的编码模型对采集的隐私数据进行编码,并对得到的特征向量进行传输、存储和比对使用。如此,可以有效防止隐私数据的泄漏。

权利要求 :

1.一种防止隐私数据泄漏的编码模型训练方法,包括:获取多个训练样本组,包括任意的第一样本组,所述第一样本组包括第一样本对和第二样本对,所述第一样本对包括第一训练样本和第二训练样本,其中第一训练样本包括表征第一目标对象身份信息的第一隐私数据和第一对象标识;所述第二训练样本具有所述第一对象标识,所述第二样本对的两个样本具有不同对象标识;

将所述第一样本组中各训练样本对应的隐私数据分别输入编码模型,得到对应的多个特征向量,其中包括对应于所述第一训练样本的第一特征向量;

将所述第一特征向量输入用于确定目标对象身份的分类模型,得到第一分类结果,基于所述第一分类结果和所述第一对象标识,确定第一分类损失;

将所述第一特征向量输入用于反推隐私数据的解码模型,得到第一反推数据,基于所述第一反推数据和所述第一隐私数据,确定第一解码损失;

将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型,得到所述第一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本距离,并且,确定第一区分损失,所述第一区分损失与所述第一样本距离正相关,且与所述第二样本距离负相关;

以最大化所述多个训练样本组对应的分类损失和解码损失,以及最小化所述多个训练样本对应的区分损失为目标,调整所述编码模型中的模型参数。

2.根据权利要求1所述的方法,其中,所述目标对象包括用户,所述身份信息包括以下中的一种或多种:人脸图像、指纹图像、虹膜图像。

3.根据权利要求1所述的方法,其中,所述目标对象包括设备,所述身份信息包括以下中的一种或多种:国际移动设备识别码I ME I、用户识别卡SIM的卡号、设备传感器信息。

4.根据权利要求1所述的方法,其中,所述第二样本对包括所述第一训练样本和第三训练样本;其中将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型,得到所述第一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本距离,包括:

将所述第一训练样本、所述第二训练样本和所述第三训练样本各自对应的特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及所述第二样本距离。

5.根据权利要求1所述的方法,其中,所述第二样本对包括第三训练样本和第四训练样本;其中将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型,得到所述第一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本距离,包括:

将所述第一训练样本、第二训练样本、第三训练样本和第四训练样本各自对应的特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及所述第二样本距离。

6.根据权利要求1所述的方法,其中,在确定第一区分损失之后,所述方法还包括:以最小化所述多个训练样本组对应的分类损失为目标,调整所述分类模型中参数;和/或,

以最小化所述多个训练样本组对应的解码损失为目标,调整所述解码模型中的参数;

和/或,

以最小化所述多个训练样本组对应的区分损失为目标,调整所述区分模型中的参数。

7.根据权利要求1所述的方法,其中,以最大化所述多个训练样本对应的分类损失和解码损失,以及最小化所述多个训练样本对应的区分损失为目标,调整所述编码模型中的模型参数,包括:

基于预先设定的针对所述分类损失、解码损失和区分损失的权重参数,对所述分类损失、解码损失和区分损失进行加权求和,得到综合损失,所述综合损失与所述分类损失和解码损失负相关,且与所述区分损失正相关;

基于所述综合损失,调整所述编码模型中的模型参数。

8.一种防止隐私数据泄漏的目标对象身份识别方法,所述方法的执行主体为服务器,所述识别方法包括:

从终端接收第二特征向量,所述第二特征向量由所述终端将采集的第二隐私数据输入编码模型而确定;其中所述编码模型基于权利要求1所述的方法而预先训练得到;

将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功;其中所述多个特征向量通过将所述多个目标对象的多条历史隐私数据输入所述编码模型而得到。

9.根据权利要求8所述的识别方法,其中,在将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果之后,所述识别方法还包括:

将所述比对结果发送至所述终端。

10.根据权利要求8或9所述的识别方法,其中,将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果,包括:分别计算所述第二特征向量与所述多个特征向量中各个特征向量之间的相似度,并确定其中的最大值;

在所述最大值大于预设阈值的情况下,判定针对所述第二隐私数据所对应目标对象的身份识别成功,作为所述比对结果。

11.根据权利要求9所述的方法,其中,将所述第二特征向量与所述服务器中预先存储的多个目标对象的多个特征向量进行比对,得到比对结果,包括:分别计算所述第二特征向量与所述多个特征向量中各个特征向量之间的相似度,并确定其中的最大值,作为所述比对结果;

其中将所述比对结果发送至所述终端,包括:将所述最大值发送至所述终端,以使所述终端根据所述最大值和预设阈值,判别针对所述第二隐私数据所对应目标对象的身份识别是否成功。

12.一种防止隐私数据泄漏的目标对象识别方法,所述方法的执行主体为终端,所述识别方法包括:

采集第二隐私数据;

将所述第二隐私数据输入编码模型,得到第二特征向量,所述编码模型基于权利要求1所述的方法而预先训练得到;

将所述第二特征向量发送至服务器,以使所述服务器将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功。

13.根据权利要求12所述的方法,其中,所述比对结果包括所述第二特征向量与所述多个特征向量中各个特征向量之间相似度的最大值,在将所述第二特征向量发送至服务器之后,所述方法还包括:

从所述服务器接收所述最大值;

在所述最大值大于预设阈值的情况下,判定针对所述第二隐私数据所对应目标对象的身份识别成功。

14.一种防止隐私数据泄漏的编码模型训练装置,包括:样本获取单元,配置为获取多个训练样本组,包括任意的第一样本组,所述第一样本组包括第一样本对和第二样本对,所述第一样本对包括第一训练样本和第二训练样本,其中第一训练样本包括表征第一目标对象身份信息的第一隐私数据和第一对象标识;所述第二训练样本具有所述第一对象标识,所述第二样本对的两个样本具有不同对象标识;

编码单元,配置为将所述第一样本组中各训练样本对应的隐私数据分别输入编码模型,得到对应的多个特征向量,其中包括对应于所述第一训练样本的第一特征向量;

分类单元,配置为将所述第一特征向量输入用于确定目标对象身份的分类模型,得到第一分类结果,基于所述第一分类结果和所述第一对象标识,确定第一分类损失;

解码单元,配置为将所述第一特征向量输入用于反推隐私数据的解码模型,得到第一反推数据,基于所述第一反推数据和所述第一隐私数据,确定第一解码损失;

区分单元,配置为将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型,得到所述第一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本距离,并且,确定第一区分损失,所述第一区分损失与所述第一样本距离正相关,且与所述第二样本距离负相关;

编码模型调参单元,配置为以最大化所述多个训练样本组对应的分类损失和解码损失,以及最小化所述多个训练样本对应的区分损失为目标,调整所述编码模型中的模型参数。

15.根据权利要求14所述的装置,其中,所述目标对象包括用户,所述身份信息包括以下中的一种或多种:人脸图像、指纹图像、虹膜图像。

16.根据权利要求14所述的装置,其中,所述目标对象包括设备,所述身份信息包括以下中的一种或多种:国际移动设备识别码IMEI、用户识别卡SIM的卡号、设备传感器信息。

17.根据权利要求14所述的装置,其中,所述第二样本对包括所述第一训练样本和第三训练样本;其中区分模型具体配置为:将所述第一训练样本、所述第二训练样本和所述第三训练样本各自对应的特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及所述第二样本距离。

18.根据权利要求14所述的装置,其中,所述第二样本对包括第三训练样本和第四训练样本;其中区分模型具体配置为:

将所述第一训练样本、第二训练样本、第三训练样本和第四训练样本各自对应的特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及所述第二样本距离。

19.根据权利要求14所述的装置,其中,所述装置还包括:分类模型调参单元,配置为以最小化所述多个训练样本组对应的分类损失为目标,调整所述分类模型中参数;和/或,

解码模型调参单元,配置为以最小化所述多个训练样本组对应的解码损失为目标,调整所述解码模型中的参数;和/或,区分模型调参单元,配置为以最小化所述多个训练样本组对应的区分损失为目标,调整所述区分模型中的参数。

20.根据权利要求14所述的装置,其中,所述编码模型调参单元具体配置为:基于预先设定的针对所述分类损失、解码损失和区分损失的权重参数,对所述分类损失、解码损失和区分损失进行加权求和,得到综合损失,所述综合损失与所述分类损失和解码损失负相关,且与所述区分损失正相关;

基于所述综合损失,调整所述编码模型中的模型参数。

21.一种防止隐私数据泄漏的目标对象身份识别装置,所述装置集成于服务器,所述识别装置包括:

向量接收单元,配置为从终端接收第二特征向量,所述第二特征向量由所述终端将采集的第二隐私数据输入编码模型而确定;其中所述编码模型基于权利要求14所述的装置而预先训练得到;

向量比对单元,配置为将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功;其中所述多个特征向量通过将所述多个目标对象的多条历史隐私数据输入所述编码模型而得到。

22.根据权利要求21所述的识别装置,其中,所述识别装置还包括:结果发送单元,配置为将所述比对结果发送至所述终端。

23.根据权利要求21或22所述的识别装置,其中,所述向量比对单元具体配置为:分别计算所述第二特征向量与所述多个特征向量中各个特征向量之间的相似度,并确定其中的最大值;

在所述最大值大于预设阈值的情况下,判定针对所述第二隐私数据所对应目标对象的身份识别成功,作为所述比对结果。

24.根据权利要求22所述的装置,其中,所述向量比对单元具体配置为:分别计算所述第二特征向量与所述多个特征向量中各个特征向量之间的相似度,并确定其中的最大值,作为所述比对结果;

其中结果发送单元具体配置为:

将所述最大值发送至所述终端,以使所述终端根据所述最大值和预设阈值,判别针对所述第二隐私数据所对应目标对象的身份识别是否成功。

25.一种防止隐私数据泄漏的目标对象识别装置,所述装置集成于终端,所述识别装置包括:

数据采集单元,配置为采集第二隐私数据;

编码单元,配置为将所述第二隐私数据输入编码模型,得到第二特征向量,所述编码模型基于权利要求14所述的装置而预先训练得到;

向量发送单元,配置为将所述第二特征向量发送至服务器,以使所述服务器将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功。

26.根据权利要求25所述的装置,其中,所述比对结果包括所述第二特征向量与所述多个特征向量中各个特征向量之间相似度的最大值,所述装置还包括:结果接收单元,配置为从所述服务器接收所述最大值;

判定单元,配置为在所述最大值大于预设阈值的情况下,判定针对所述第二隐私数据所对应目标对象的身份识别成功。

27.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-13中任一项的所述的方法。

28.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-13中任一项所述的方法。

说明书 :

防止隐私数据泄漏的编码模型训练方法及装置

技术领域

[0001] 本说明书一个或多个实施例涉及将机器学习应用于数据安全的技术领域,尤其涉及一种防止隐私数据泄漏的编码模型训练方法及装置、一种防止隐私数据泄漏的目标对象
身份识别方法。

背景技术

[0002] 在许多场景下,都涉及通过采集目标对象(如用户或设备等)的隐私数据,来对该目标对象进行身份识别或身份核验。例如,在人脸支付场景下,可以通过采集用户的人脸信
息,识别该用户的身份(如支付系统中的用户ID),以根据该身份查找到对应支付账户,完成
相应订单的支付。又例如,在用户行为分析场景下,可以通过采集终端设备在使用过程中产
生的传感器数据等,识别该设备的身份(如数据分析系统为该设备分配的设备ID),以建立
用户与设备之间的映射关系。显然,这些场景下,对身份识别的准确性都提出较高的要求。
[0003] 然而,在以上身份识别过程中涉及的针对隐私数据的采集、传输、存储和使用环节,均存在隐私数据泄漏的风险。因此,迫切需要一种合理、可靠的方案,可以在保证针对目
标对象进行身份识别的准确性的同时,有效降低隐私数据泄漏的风险。

发明内容

[0004] 本说明书一个或多个实施例描述了一种防止隐私数据泄漏的编码模型训练方法及装置,以及一种防止隐私数据泄漏的目标对象身份识别方法及装置,可以在保证针对目
标对象进行身份识别的准确性的同时,有效降低隐私数据泄漏的风险。
[0005] 根据第一方面,提供一种防止隐私数据泄漏的编码模型训练方法,该方法包括:获取多个训练样本组,包括任意的第一样本组,所述第一样本组包括第一样本对和第二样本
对,所述第一样本对包括第一训练样本和第二训练样本,其中第一训练样本包括表征第一
目标对象身份信息的第一隐私数据和第一对象标识;所述第二训练样本具有所述第一对象
标识,所述第二样本对的两个样本具有不同对象标识;将所述第一样本组中各训练样本对
应的隐私数据分别输入编码模型,得到对应的多个特征向量,其中包括对应于所述第一训
练样本的第一特征向量;将所述第一特征向量输入用于确定目标对象身份的分类模型,得
到第一分类结果,基于所述第一分类结果和所述第一对象标识,确定第一分类损失;将所述
第一特征向量输入用于反推隐私数据的解码模型,得到第一反推数据,基于所述第一反推
数据和所述第一隐私数据,确定第一解码损失;将所述第一样本组中各训练样本对应的特
征向量输入用于区分不同目标对象的区分模型,得到所述第一样本对中样本之间的第一样
本距离,以及第二样本对中样本之间的第二样本距离,并且,确定第一区分损失,所述第一
区分损失与所述第一样本距离正相关,且与所述第二样本距离负相关;以最大化所述多个
训练样本组对应的分类损失和解码损失,以及最小化所述多个训练样本对应的区分损失为
目标,调整所述编码模型中的模型参数。
[0006] 在一个实施例中,所述目标对象包括用户,所述身份信息包括以下中的一种或多种:人脸图像、指纹图像、虹膜图像。
[0007] 在一个实施例中,所述目标对象包括设备,所述身份信息包括以下中的一种或多种:国际移动设备识别码IMEI、用户识别卡SIM的卡号、设备传感器信息。
[0008] 在一个实施例中,所述第二样本对包括所述第一训练样本和第三训练样本;其中将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型,
得到所述第一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本
距离,包括:将所述第一训练样本、所述第二训练样本和所述第三训练样本各自对应的特征
向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及所述第二样本
距离。
[0009] 在一个实施例中,所述第二样本对包括第三训练样本和第四训练样本;其中将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型,得到
所述第一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本距
离,包括:将所述第一训练样本、第二训练样本、第三训练样本和第四训练样本各自对应的
特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及所述第二
样本距离。
[0010] 在一个实施例中,在确定第一区分损失之后,所述方法还包括:以最小化所述多个训练样本组对应的分类损失为目标,调整所述分类模型中参数;和/或,以最小化所述多个
训练样本组对应的解码损失为目标,调整所述解码模型中的参数;和/或,以最小化所述多
个训练样本组对应的区分损失为目标,调整所述区分模型中的参数。
[0011] 在一个实施例中,其中以最大化所述多个训练样本对应的分类损失和解码损失,以及最小化所述多个训练样本对应的区分损失为目标,调整所述编码模型中的模型参数,
包括:基于预先设定的针对所述分类损失、解码损失和区分损失的权重参数,对所述分类损
失、解码损失和区分损失进行加权求和,得到综合损失,所述综合损失与所述分类损失和解
码损失负相关,且与所述区分损失正相关;基于所述综合损失,调整所述编码模型中的模型
参数。
[0012] 根据第二方面,提供一种防止隐私数据泄漏的目标对象身份识别方法,所述方法的执行主体为服务器,所述识别方法包括:从终端接收第二特征向量,所述第二特征向量由
所述终端将采集的第二隐私数据输入编码模型而确定;其中所述编码模型基于上述第一方
面所述的方法而预先训练得到;将所述第二特征向量与所述服务器中预先存储的对应于多
个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二隐私数据所
对应目标对象的身份识别是否成功;其中所述多个特征向量通过将所述多个目标对象的多
条历史隐私数据输入所述编码模型而得到。
[0013] 根据第三方面,提供一种防止隐私数据泄漏的目标对象识别方法,所述方法的执行主体为终端,所述识别方法包括:采集第二隐私数据;将所述第二隐私数据输入编码模
型,得到第二特征向量,所述编码模型基于第一方面所述的方法而预先训练得到;将所述第
二特征向量发送至服务器,以使所述服务器将所述第二特征向量与所述服务器中预先存储
的对应于多个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二
隐私数据所对应目标对象的身份识别是否成功。
[0014] 根据第四方面,提供一种防止隐私数据泄漏的编码模型训练装置,包括:样本获取单元,配置为获取多个训练样本组,包括任意的第一样本组,所述第一样本组包括第一样本
对和第二样本对,所述第一样本对包括第一训练样本和第二训练样本,其中第一训练样本
包括表征第一目标对象身份信息的第一隐私数据和第一对象标识;所述第二训练样本具有
所述第一对象标识,所述第二样本对的两个样本具有不同对象标识;编码单元,配置为将所
述第一样本组中各训练样本对应的隐私数据分别输入编码模型,得到对应的多个特征向
量,其中包括对应于所述第一训练样本的第一特征向量;分类单元,配置为将所述第一特征
向量输入用于确定目标对象身份的分类模型,得到第一分类结果,基于所述第一分类结果
和所述第一对象标识,确定第一分类损失;解码单元,配置为将所述第一特征向量输入用于
反推隐私数据的解码模型,得到第一反推数据,基于所述第一反推数据和所述第一隐私数
据,确定第一解码损失;区分单元,配置为将所述第一样本组中各训练样本对应的特征向量
输入用于区分不同目标对象的区分模型,得到所述第一样本对中样本之间的第一样本距
离,以及第二样本对中样本之间的第二样本距离,并且,确定第一区分损失,所述第一区分
损失与所述第一样本距离正相关,且与所述第二样本距离负相关;编码模型调参单元,配置
为以最大化所述多个训练样本组对应的分类损失和解码损失,以及最小化所述多个训练样
本对应的区分损失为目标,调整所述编码模型中的模型参数。
[0015] 根据第五方面,提供一种防止隐私数据泄漏的目标对象身份识别装置,所述装置集成于服务器,所述识别装置包括:向量接收单元,配置为从终端接收第二特征向量,所述
第二特征向量由所述终端将采集的第二隐私数据输入编码模型而确定;其中所述编码模型
上述第一四方面中的装置而预先训练得到;向量比对单元,配置为将所述第二特征向量与
所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果,
用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功;其中所述多个特征
向量通过将所述多个目标对象的多条历史隐私数据输入所述编码模型而得到。
[0016] 根据第六方面,提供一种防止隐私数据泄漏的目标对象识别装置,所述装置集成于终端,所述识别装置包括:数据采集单元,配置为采集第二隐私数据;编码单元,配置为将
所述第二隐私数据输入编码模型,得到第二特征向量,所述编码模型基于第四方面中的装
置而预先训练得到;向量发送单元,配置为将所述第二特征向量发送至服务器,以使所述服
务器将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向
量进行比对,得到比对结果,用于判别针对所述第二隐私数据所对应目标对象的身份识别
是否成功。
[0017] 根据第七方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面或第三方面的方法。
[0018] 根据第八方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面或第三方面的
方法。
[0019] 综上,在本说明书实施例披露的上述训练方法及装置中,以最小化区分损失,以及最大化分类损失和解码损失为目标,调整所述编码模型中的模型参数,可以使得编码向量
具有高区分度(以保证后续身份识别的准确度和有效性),同时,可以使得编码向量一方面
不可逆,也就是不法分子难以通过编码向量反推或还原出原始隐私数据,另一方面对编码
向量进行混淆,也就是不法分子难以通过编码向量实现分类或者说实现对目标对象身份的
确定。
[0020] 此外,在本说明书实施例披露的上述身份识别方法及装置中,通过采用由上述训练方法得到的编码模型,将隐私数据编码为特征向量,并对特征向量进行传输、存储和比
对,可以保证身份识别结果的准确度和有效性。同时,即使特征向量发生泄漏,因其具有不
可逆性和混淆性,不法分子难以基于特征向量获得可用信息,从而实现有效防止隐私数据
的泄漏。并且,将特征向量发送至云端比对,而不是直接在终端进行比对,可以使得比对范
围不受终端存储资源的限制。

附图说明

[0021] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本
领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的
附图。
[0022] 图1示出根据一个实施例的一种防止隐私数据泄漏的编码模型训练方法的实施框图;
[0023] 图2示出根据一个实施例的一种防止隐私数据泄漏的目标对象识别方法的实施框图;
[0024] 图3示出根据一个实施例的一种防止隐私数据泄漏的编码模型训练方法流程图;
[0025] 图4示出根据一个实施例的三元组网络的网络结构示意图;
[0026] 图5示出根据一个实施例的一种防止隐私数据泄漏的目标对象识别方法交互图;
[0027] 图6示出根据一个实施例的一种防止隐私数据泄漏的编码模型训练装置结构图;
[0028] 图7示出根据一个实施例的一种防止隐私数据泄漏的身份识别装置结构图;
[0029] 图8示出根据另一个实施例的一种防止隐私数据泄漏的身份识别装置结构图。

具体实施方式

[0030] 下面结合附图,对本说明书提供的方案进行描述。
[0031] 如前所述,在隐私数据的采集、传输、存储和使用环节,均存在隐私数据泄漏的风险。目前,在一种方案中,可以在采集到目标对象的隐私数据后,对其进行加密,然后传输和
存储加密后的数据,以使得传输和存储环节泄漏的数据对不法分子而言不可用。但是,在使
用过程中,需要对加密数据进行解密,以对隐私数据还原,故仍存在泄漏风险,并且,在密钥
泄漏或密钥被破解的情况下,也会导致隐私数据的泄漏。在另一种方案中,可以在采集到的
隐私数据中加入噪音(如水印),以降低隐私数据的辨识度,之后对加入噪音的隐私数据进
行传输、存储和使用。然而,此种降低隐私数据辨识度的方法,很难同时满足隐私数据的辨
识度低和目标对象身份识别的准确性这两点要求。在又一种方案中,可以在设备端或边缘
端完成隐私数据的采集和计算并返回决策结果,不对采集的隐私数据进行传输和存储。但
是,由于端上的存储资源和网络资源的限制,端上可比对的样本库大小受限且不能实时更
新,导致身份识别的成功率和覆盖率十分有限。
[0032] 基于以上观察和分析,发明人提出通过引入对抗学习的思想,设计一种防止隐私数据泄漏的编码模型训练方法,以及,基于所述编码模型实现的一种防止隐私数据泄漏的
目标对象身份识别方法。采用所述训练方法和识别方法,可以在保证针对目标对象进行身
份识别的准确性的同时,有效降低隐私数据泄漏的风险。
[0033] 具体地,图1示出根据一个实施例的一种防止隐私数据泄漏的编码模型训练方法的实施框图。在一个实施例中,如图1所示,首先,抽取一批训练样本,其中每个训练样本包
括对应目标对象的隐私数据(X)和对象标识(Y);接着,将这批训练样本分别输入编码模型
中,得到对应的一批特征向量(Vx);然后,将这批特征向量分别输入用于确定目标对象的身
份的分类模型、用于反推隐私数据的解码模型,和用于区分不同目标对象的区分模型中,以
分别确定该批训练样本对应的分类损失、解码损失和区分损失;再接着,先固定编码器中的
模型参数,分别以最小化所述分类损失、解码损失和区分损失为目标,对应调整分类模型、
解码模型和区分模型中的模型参数。进一步地,在一个具体的实施例中,再抽取另一批训练
样本,重复上述过程得到对应于该另一批训练样本的分类损失、解码损失和区分损失;然
后,固定上述调参后的分类模型、解码模型和区分模型中的模型参数,以最大化该另一批训
练样本对应的分类损失和解码损失,以及最小化对应的区分损失为目标,调整编码模型中
的参数。如此循环迭代,可以得到最终训练好的编码模型。并且,由该编码模型得到的特征
向量,针对不同目标对象具有良好的区分度,同时,不法分子很难根据泄漏的特征向量还原
出可用的隐私数据,也无法根据泄漏的特征向量确定目标对象身份,进而有效防止隐私数
据的泄漏。
[0034] 进一步地,利用最终训练好的编码模型,可以实现在识别目标对象身份的过程中,有效防止隐私数据的泄漏。图2示出根据一个实施例的一种防止隐私数据泄漏的目标对象
识别方法的实施框图。在一个实施例中,如图2所示,首先,终端采集隐私数据(如用户的人
脸图像),再利用终端中部署的编码模型,对隐私数据进行编码,得到对应的特征向量;然
后,终端将特征向量发送至云端服务器;再接着,服务器将接收到的特征向量与其中已存储
的对应于多个目标对象的多个特征向量进行比对,并将比对结果返回给终端;再然后,终端
根据比对结果确定身份识别的最终结果。如此,在身份识别过程中,传输、存储和使用的均
为编码模型输出的特征向量,可以有效防止隐私数据的泄漏。
[0035] 下面,结合具体的实施例,描述上述保护方法的实施步骤。
[0036] 具体地,图3示出根据一个实施例的一种防止隐私数据泄漏的编码模型训练方法流程图,所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集
群。如图3所示,所述方法包括以下步骤:
[0037] 步骤S310,获取多个训练样本组,包括任意的第一样本组,所述第一样本组包括第一样本对和第二样本对,所述第一样本对包括第一训练样本和第二训练样本,其中第一训
练样本包括表征第一目标对象身份信息的第一隐私数据和第一对象标识;所述第二训练样
本具有所述第一对象标识,所述第二样本对的两个样本具有不同对象标识。步骤S320,将所
述第一样本组中各训练样本对应的隐私数据分别输入编码模型,得到对应的多个特征向
量,其中包括对应于所述第一训练样本的第一特征向量。步骤S330,将所述第一特征向量输
入用于确定目标对象身份的分类模型,得到第一分类结果,基于所述第一分类结果和所述
第一对象标识,确定第一分类损失。步骤S340,将所述第一特征向量输入用于反推隐私数据
的解码模型,得到第一反推数据,基于所述第一反推数据和所述第一隐私数据,确定第一解
码损失。步骤S350,将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目
标对象的区分模型,得到所述第一样本对中样本之间的第一样本距离,以及第二样本对中
样本之间的第二样本距离,并且,确定第一区分损失,所述第一区分损失与所述第一样本距
离正相关,且与所述第二样本距离负相关。步骤S360,以最大化所述多个训练样本组对应的
分类损失和解码损失,以及最小化所述多个训练样本对应的区分损失为目标,调整所述编
码模型中的模型参数。
[0038] 首先需要说明的是,上述第一样本组、第一样本对、第一目标对象、第一对象标识和第一特征向量等中的“第一”,以及第二样本对、第二训练样本等中的“第二”仅用于区分
同类事物,不具有其他限定作用。
[0039] 以上步骤具体如下:
[0040] 首先,在步骤S310,获取多个训练样本组。
[0041] 在一个实施例中,多个训练样本组所涉及的目标对象可以包括用户,相应地,在一个具体的实施例中,目标对象的身份信息可以包括用户的生物特征信息,如人脸图像、指纹
图像和虹膜图像等等。在另一个的具体的实施例中,目标对象的身份信息还可以包括用户
的手机号、身份证号等。
[0042] 在另一个实施例中,多个训练样本组所涉及的目标对象可以包括动物,如马、猫、狗、猪等,相应地,目标对象的身份信息可以包括动物的生物特征信息。在一个具体的实施
例中,其中动物的生物特征信息可以包括动物的面部头像、动物的全身图像、动物的爪印等
等。在又一个实施例中,多个训练样本组所涉及的目标对象可以包括设备,相应地,目标对
象的身份信息可以包括设备中器件的标识信息和设备传感器信息。在一个具体的实施例
中,其中器件的标识信息可以包括IMEI(International Mobile Equipment Identity,国
际移动设备识别码)和SIM(Subscriber Identity Modula,用户识别卡)的卡号。在一个具
体的实施例中,其中设备传感器信息可以包括设备传感器的基础电路数据(如传感器电流、
电压等)和设备传感器所采集的使用状态数据(如设备加速度、摄像头杂音等)。
[0043] 在一个实施例中,上述目标对象的对象标识可以为系统(如所述训练方法的执行主体或业务需求方)为每个目标对象分配的唯一标识。在一个具体的实施例中,其中对象标
识可以由数字、字母或符号中的一种或几种组成。例如,两个不同目标对象的对象标识可以
分别为0011和1100。
[0044] 在一个实施例中,对于上述多个训练样本组中的每个训练样本组,可以包括三个训练样本、或四个训练样本、或其他数量的训练样本,关键在于,每个训练样本组中同时存
在具有相同对象标识的样本对和不同对象标识的样本对即可。进一步地,对于多个训练样
本组中任意的第一样本组,其中包括第一样本对和第二样本对,在一个具体的实施例中,其
中第一样本对和第二样本对包括具有相同对象标识的第一训练样本和第二训练样本,第二
样本对中包括具有不同对象标识的第一训练样本和第三训练样本。在另一个具体的实施例
中,其中第一样本对和第二样本对包括具有相同对象标识的第一训练样本和第二训练样
本,第二样本对中包括具有不同对象标识的第三训练样本和第四训练样本。
[0045] 另一方面,在一个实施例中,可以先获取一批训练样本,再将这批训练样本划分为上述多个训练样本组。在一个具体的实施例中,可以从这批训练样本中任意选取某个样本
作为锚点(Anchor)样本,再从其他样本中选取与该某个样本具有相同对象标识的样本作为
正样本(Positive),并且选取与该某个样本具有不同对象标识的样本作为负样本
(Negative),如此该某个样本与其对应的正样本和负样本可以共同组成一个训练样本组。
需要理解,其中某个样本和其对应的正样本可作为上述具有相同对象标识的第一样本对,
且该某个样本和其对应的负样本可作为上述具有不同对象标识的第二样本对。由此,多次
执行上述选取锚点和对应正负样本的过程,可以基于该批训练样本,获得上述多个训练样
本组。
[0046] 在另一个具体的实施例中,可以从这批训练样本中任意选取具有相同对象标识的两个样本作为一个样本对,并且从其他训练样本中选取具有不同对象的两个样本作为另一
个样本,如此该一个样本对和该另一个样本对就可以组成一个训练样本组。由此,多次执行
选取两个样本对的过程,可以基于该批训练样本,获得上述多个训练样本组。
[0047] 以上,可以获取多个训练样本组,并且,对于其中包括的任意的第一样本组,执行步骤S320,将该第一样本组中各训练样本对应的隐私数据分别输入编码模型,得到对应的
多个特征向量。需要理解,对多个训练样本组中每个训练样本组均执行步骤S320,可以得到
对应于多个训练样本组中全量训练样本的全量特征向量。
[0048] 在一个实施例中,上述编码模型可以采用神经网络实现。在一个具体的实施例中,其中神经网络可以包括CNN(Convolutional Neural Networks,卷积神经网络)或DNN
((Deep Neural Networks,深度神经网络)。
[0049] 需要理解,对于第一样本组中包括的任意的第一训练样本,将该第一训练样本中的隐私数据输入编码模型中,可以得到对应的第一特征向量。基于此,可以分别执行步骤
S330、步骤S340和步骤S350。
[0050] 具体地,一方面,在步骤S330中,将所述第一特征向量输入用于确定目标对象身份的分类模型,得到第一分类结果,基于所述第一分类结果和所述第一对象标识,确定第一分
类损失。
[0051] 在一个实施例中,其中分类模型可以采用神经网络、梯度决策树、贝叶斯分类、支持向量机等算法实现。在一个具体的实施例中,其中分类模型可以为多分类模型。在另一个
实施例中,其中分类模型可以为多个二分类模型。在一个实施例中,可以采用交叉熵损失函
数、铰链损失函数、指数损失函数等,确定第一分类损失。
[0052] 如此,可以确定第一训练样本对应的第一分类损失,也就意味着可以确定出第一样本组中,再至多个训练样本组中每个样本对应的分类损失。相应地,对该每个样本对应的
分类损失进行加和或者取期望值等运算,可以得到多个训练样本组对应的分类损失。在一
个例子中,具体可以采用以下公式(1)中的交叉熵损失函数,确定多个训练样本组对应的分
类损失。
[0053]
[0054] 其中 表示分类模型输出的预测值;Y表示对应的标签值,基于对应训练样本的对象标识而确定,具体可参见相关现有技术,在此不赘述。
[0055] 以上通过步骤S330,可以确定出多个训练样本组对应的分类损失。
[0056] 另一方面,在步骤S340中,将所述第一特征向量输入用于反推隐私数据的解码模型,得到第一反推数据,基于所述第一反推数据和所述第一隐私数据,确定第一解码损失。
[0057] 在一个实施例中,其中解码模型可以采用神经网络、梯度决策树、贝叶斯分类、支持向量机等算法实现。在一个实施例中,可以采用MSE(Mean Square Error,均方误差)、MAE
(Mean Absolute Error,平均绝对误差)等损失函数,确定第一解码损失。
[0058] 如此,可以确定第一训练样本对应的第一解码损失,也就意味着可以确定出第一样本组中,再至多个训练样本组中每个样本对应的解码损失。相应地,对该每个样本对应的
解码损失进行加和或者取期望值等运算,可以得到多个训练样本组对应的解码损失。在一
个例子中,具体可以采用以下公式(2)中的MAE损失函数,确定多个训练样本组对应的解码
损失。
[0059]
[0060] 其中 表示解码模型输出的反推数据,X表示对应的原始的隐私数据。
[0061] 以上通过步骤S340,可以确定出多个训练样本组对应的解码损失。
[0062] 又一方面,在步骤S350中,将步骤S320中确定出的第一样本组对应的多个特征向量输入用于区分不同目标对象的区分模型中,得到所述第一样本对中样本之间的第一样本
距离,以及第二样本对中样本之间的第二样本距离,并且,确定第一区分损失,所述第一区
分损失与所述第一样本距离正相关,且与所述第二样本距离负相关。
[0063] 在一个实施例中,上述区分模型可以采用三元组网络(Triplet Network)实现。具体地,其中第二样本对包括所述第一训练样本和第三训练样本。相应地,本步骤可以包括:
将上述第一训练样本、第二训练样本和第三训练样本各自对应的特征向量按照预设顺序拼
接后,输入所述区分模型,得到所述第一样本距离以及所述第二样本距离。在一个具体的实
施例中,其中预设顺序可以为针对锚点样本、负样本和正样本这三种样本设定的任意排列
顺序。在一个例子中,预设顺序可以为先后为:负样本、锚点样本和正样本。在一个具体的实
施例中,图4示出根据一个实施例的三元组网络的网络结构示意图,该三元组网络包括3个
+ -
相同的前馈网络(这3个网络共享参数),图中用3个Net进行表示,并且,X、X 和X分别表示前
述锚点样本、正样本和负样本,样本距离1表示锚点样本和负样本之间的距离,样本距离2表
示锚点样本和正样本之间的距离。进一步地,上述第一区分损失可以利用三元组网络对应
的损失函数确定。
[0064] 在另一个实施例中,上述区分模型可以采用四元组网络实现。具体地,其中第二样本对包括第三训练样本和第四训练样本。相应地,本步骤可以包括:将所述第一训练样本、
第二训练样本、第三训练样本和第四训练样本各自对应的特征向量按照预设顺序拼接后,
输入所述区分模型,得到所述第一样本距离以及所述第二样本距离。在一个具体的实施例
中,其中预设顺序可以为具有相同对象标识的样本对中的两个样本(这两个样本的顺序可
以不限定)在前,具有不同对象标识的样本对中的两个样本(这两个样本的顺序可以不限
定)在后。进一步地,上述第一区分损失可以利用四元组网络对应的损失函数确定。
[0065] 如此,可以确定第一样本组对应的第一区分损失,也就意味着可以确定出多个训练样本组中每个样本组对应的区分损失。相应地,对该每个样本组对应的区分损失进行加
和或者取期望值等运算,可以得到多个训练样本组对应的区分损失。在一个例子中,具体可
以采用以下公式(3)中的三元组损失函数,确定多个训练样本组对应的区分损失。
[0066] LRecognition=∑(||Net(X)-Net(X+)||2-||Net(X)-Net(X-)||2+α   (3)
[0067] 其中X、X+和X-分别表示锚点样本、正样本和负样本对应的特征向量,||Net(XA)-Net(XP)||2表示由区分模型输出的锚点样本和正样本之间的距离,||Net(XA)-Net(XN)||2表
示由区分模型输出的锚点样本和负样本之间的距离,α为超参,例如可以设定为1。
[0068] 以上通过步骤S350,可以确定出多个训练样本组对应的区分损失。
[0069] 由上,在步骤S330、步骤S340和步骤S350,可以分别确定多个训练样本组对应的分类损失、解码损失和区分损失。基于此,在步骤S360,以最大化所述多个训练样本组对应的
分类损失和解码损失,以及最小化所述多个训练样本对应的区分损失为目标,调整所述编
码模型中的模型参数。
[0070] 在一个实施例中,可以先基于多个训练样本组对应的分类损失、解码损失和区分损失,确定综合损失;再基于该综合损失,调整所述编码模型中的模型参数,其中该综合损
失与分类损失和解码损失负相关,且与区分损失正相关。在一个具体的实施例中,可以采用
以下公式(4)确定综合损失:
[0071] L=LRecognition-Lclassification-LReconstruction   (4)
[0072] 其中LRecognition、Lclassification和LReconstruction分别表示多个训练样本组对应的区分损失、分类损失和解码损失。
[0073] 在另一个具体的实施例中,还可以为分类损失、解码损失和区分损失分配不同的权重参数,进而确定综合损失,具体如下式(5)所示:
[0074] L=α1LRecognition-α2Lclassification-α3LReconstruction   (5)
[0075] 其中α1、α2和α3为权重参数,且为超参。在一个例子中,α1、α2和α3的取值可以分别为0.5、0.25和0.25。
[0076] 需要理解,可以将分类模型和编码模型看作是在模拟攻击者模型,如此,以最小化所述多个训练样本组对应的区分损失,以及最大化所述多个训练样本组对应的分类损失和
解码损失为目标,调整所述编码模型中的模型参数,可以使得编码向量具有高区分度(以保
证后续身份识别的准确度和有效性),同时,有效抵御攻击者的攻击,使得编码向量一方面
不可逆,也就是不法分子难以通过编码向量反推或还原出原始隐私数据,另一方面对编码
向量进行混淆,也就是不法分子难以通过编码向量实现分类或者说实现对目标对象身份的
确定。
[0077] 此外需要说明的是,在一个实施例中,在步骤S360之后,所述训练方法还可以包括:以最小化所述多个训练样本组对应的分类损失为目标,调整所述分类模型中参数;和/
或,以最小化所述多个训练样本组对应的解码损失为目标,调整所述解码模型中的参数;
和/或,以最小化所述多个训练样本组对应的区分损失为目标,调整所述区分模型中的参
数。如此,通过引入对抗学习的方式,可以进一步提高编码模型的性能。
[0078] 下面,结合一个具体的例子,对上述训练方法进行进一步说明。在一个例子中,得到最终训练好的编码模型需要进行多轮迭代训练,在其中一轮训练中,又可以包括对分类
模型、解码模型和区分模型这三个模型的多次迭代训练和对编码模型的一次训练。更具体
地,在第一轮训练中,可以先固定编码模型,依次抽取几个批次训练样本,以优化分类模型、
解码模型和区分模型中的参数,然后,基于此轮中参数优化后的分类模型、解码模型和区分
模型,再次后去一批训练样本,以优化编码模型中的参数。如此,经过多轮迭代训练,可以得
到最终收敛的编码模型,用于后续针对目标对象的身份识别。
[0079] 以上,对编码模型的训练方法进行介绍。接下来,再对基于该训练好的编码模型而实施的针对目标对象的身份识别方法进行介绍。
[0080] 具体地,图5示出根据一个实施例的一种防止隐私数据泄漏的目标对象识别方法交互图,其中的交互端包括终端和服务器。需要说明的是,在一个实施例中,其中终端可以
包括智能手机、平板电脑、可穿戴设备、扫描设备等等。在一个实施例中,其中服务器可以为
云端服务器,并且该服务器可以调用云端数据库中存储的数据记录。
[0081] 如图5所示,所述方法包括以下步骤:
[0082] 步骤S510,终端采集第二隐私数据。
[0083] 在一个实施例中,身份识别的目标对象为用户,相应地,可以响应于用户发出的采集指令,采集第二隐私数据。在一个具体的实施例中,可以响应于用户发出的刷脸支付指
令,采集人脸数据和手机号。在另一个实施例中,身份识别的目标对象为设备,相应地,可以
基于用户授权,定期从终端采集终端的身份信息,如IMEA、SIM卡号和传感器信息等。
[0084] 以上可以采集第二隐私数据。接着,在步骤S520,终端将所述第二隐私数据输入上述训练方法中得到的编码模型,得到第二特征向量。并且,步骤S530,终端将第二特征向量
发送至服务器。
[0085] 需要说明的是,终端中部署有基于上述训练方法得到的编码模型,基于此,终端可以利用该编码模型对采集到的第二隐私数据进行编码,得到对应的第二特征向量。如此,通
过对第二特征向量进行传输、存储和使用,可以有效防止隐私数据的泄漏。可选地,在终端
生成第二特征向量后,可以对其中采集的第二隐私数据进行删除,以防止隐私数据的泄漏。
[0086] 然后,在步骤S540,服务器将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二隐私数
据所对应目标对象的身份识别是否成功。
[0087] 在一个实施例中,其中所述多个特征向量通过将所述多个目标对象的多条历史隐私数据输入所述编码模型而得到。
[0088] 在一个实施例中,其中将第二特征向量与多个特征向量进行比对,得到比对结果,可以包括:先分别计算所述第二特征向量与所述多个特征向量中各个特征向量之间的相似
度,并确定其中的最大值;然后,在一个具体的实施例中,在该最大值大于预设阈值的情况
下,判定针对所述第二隐私数据所对应目标对象的身份识别成功,作为所述比对结果;在另
一个具体的实施例中,在该最大值不大于预设阈值的情况下,判定身份识别失败,作为所述
比对结果。在一个例子中,其中预设阈值可以根据实际经验和不同的业务需求进行设定,如
在支付场景下设定为0.99,而在解除门禁场景下设定为0.90,在建立用户与设备映射关系
的场景下设定为0.80。
[0089] 需要说明的是,在一个实施例中,在支付场景下,在上述判定身份识别成功后,可以根据该最大值所对应的多个特征向量中的某特征向量,以及预先存储的多个特征向量与
多个用户信息(包括支付账户等)之间的映射关系,获取该某特征向量对应的支付账户,并
完成针对当前订单的扣款操作。
[0090] 此外,在一个实施例中,在步骤S540之后,所述识别方法还可以包括步骤S550,将比对结果发送至终端。在一个具体的实施例中,可以将包括上述身份识别成功或身份识别
失败的比对结果发送至终端。在另一个具体的实施例中,还可以将上述最大值发送至终端,
此时,上述服务器可以在确定上述最大值后,将最大值作为比对结果发送至终端,而无需对
最大值进行判断操作,而是由终端在接收到最大值后,判断该最大值是否大于预设阈值,进
而确定身份识别是否成功。
[0091] 以上,采用本说明书实施例披露的目标对象身份识别方法,通过采用由上述训练方法得到的编码模型,将隐私数据编码为特征向量,并对特征向量进行传输、存储和比对,
可以保证身份识别结果的准确度和有效性。同时,即使特征向量发生泄漏,因其具有不可逆
性和混淆性,不法分子难以基于特征向量获得可用信息,从而实现有效防止隐私数据的泄
漏。此外,将特征向量发送至云端比对,而不是直接在终端进行比对,可以使得比对范围不
受终端存储资源的限制。
[0092] 与上述训练方法和识别方法相对应的,本说明书实施例还披露一种训练装置和识别装置,具体如下:
[0093] 图6示出根据一个实施例的一种防止隐私数据泄漏的编码模型训练装置结构图。如图6所示,所述训练装置600可以包括:
[0094] 样本获取单元610,配置为获取多个训练样本组,包括任意的第一样本组,所述第一样本组包括第一样本对和第二样本对,所述第一样本对包括第一训练样本和第二训练样
本,其中第一训练样本包括表征第一目标对象身份信息的第一隐私数据和第一对象标识;
所述第二训练样本具有所述第一对象标识,所述第二样本对的两个样本具有不同对象标
识。编码单元620,配置为将所述第一样本组中各训练样本对应的隐私数据分别输入编码模
型,得到对应的多个特征向量,其中包括对应于所述第一训练样本的第一特征向量。分类单
元630,配置为将所述第一特征向量输入用于确定目标对象身份的分类模型,得到第一分类
结果,基于所述第一分类结果和所述第一对象标识,确定第一分类损失。解码单元640,配置
为将所述第一特征向量输入用于反推隐私数据的解码模型,得到第一反推数据,基于所述
第一反推数据和所述第一隐私数据,确定第一解码损失。区分单元650,配置为将所述第一
样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型,得到所述第
一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本距离,并且,
确定第一区分损失,所述第一区分损失与所述第一样本距离正相关,且与所述第二样本距
离负相关。编码模型调参单元660,配置为以最大化所述多个训练样本组对应的分类损失和
解码损失,以及最小化所述多个训练样本对应的区分损失为目标,调整所述编码模型中的
模型参数。
[0095] 在一个实施例中,所述目标对象包括用户,所述身份信息包括以下中的一种或多种:人脸图像、指纹图像、虹膜图像。
[0096] 在一个实施例中,所述目标对象包括设备,所述身份信息包括以下中的一种或多种:国际移动设备识别码IMEI、用户识别卡SIM的卡号、设备传感器信息。
[0097] 在一个实施例中,所述第二样本对包括所述第一训练样本和第三训练样本;其中区分单元650具体配置为:将所述第一训练样本、所述第二训练样本和所述第三训练样本各
自对应的特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及
所述第二样本距离。
[0098] 在一个实施例中,所述第二样本对包括第三训练样本和第四训练样本;其中区分单元650具体配置为:将所述第一训练样本、第二训练样本、第三训练样本和第四训练样本
各自对应的特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以
及所述第二样本距离。
[0099] 在一个实施例中,所述装置600还包括:分类模型调参单元670,配置为以最小化所述多个训练样本组对应的分类损失为目标,调整所述分类模型中参数;和/或,解码模型调
参单元680,配置为以最小化所述多个训练样本组对应的解码损失为目标,调整所述解码模
型中的参数;和/或,区分模型调参单元690,配置为以最小化所述多个训练样本组对应的区
分损失为目标,调整所述区分模型中的参数。
[0100] 在一个实施例中,所述编码模型调参单元660具体配置为:基于预先设定的针对所述分类损失、解码损失和区分损失的权重参数,对所述分类损失、解码损失和区分损失进行
加权求和,得到综合损失,所述综合损失与所述分类损失和解码损失负相关,且与所述区分
损失正相关;基于所述综合损失,调整所述编码模型中的模型参数。
[0101] 图7示出根据一个实施例的一种防止隐私数据泄漏的身份识别装置结构图,所述装置集成于服务器。如图7所示,所述识别装置700包括:
[0102] 向量接收单元710,配置为从终端接收第二特征向量,所述第二特征向量由所述终端将采集的第二隐私数据输入编码模型而确定;其中所述编码模型基于图6示出的装置而
预先训练得到。向量比对单元720,配置为将所述第二特征向量与所述服务器中预先存储的
对应于多个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二隐
私数据所对应目标对象的身份识别是否成功;其中所述多个特征向量通过将所述多个目标
对象的多条历史隐私数据输入所述编码模型而得到。
[0103] 在一个实施例中,所述识别装置700还包括:结果发送单元730,配置为将所述比对结果发送至所述终端。
[0104] 在一个实施例中,所述向量比对单元720具体配置为:分别计算所述第二特征向量与所述多个特征向量中各个特征向量之间的相似度,并确定其中的最大值;在所述最大值
大于预设阈值的情况下,判定针对所述第二隐私数据所对应目标对象的身份识别成功,作
为所述比对结果。
[0105] 在一个实施例中,所述向量比对单元720具体配置为:分别计算所述第二特征向量与所述多个特征向量中各个特征向量之间的相似度,并确定其中的最大值,作为所述比对
结果;其中结果发送单元730具体配置为:将所述最大值发送至所述终端,以使所述终端根
据所述最大值和预设阈值,判别针对所述第二隐私数据所对应目标对象的身份识别是否成
功。
[0106] 图8示出根据另一个实施例的一种防止隐私数据泄漏的身份识别装置结构图,所述装置集成于终端。如图8所示,所述识别装置800包括:
[0107] 数据采集单元810,配置为采集第二隐私数据;编码单元820,配置为将所述第二隐私数据输入编码模型,得到第二特征向量,所述编码模型基于图6示出的装置而预先训练得
到;向量发送单元830,配置为将所述第二特征向量发送至服务器,以使所述服务器将所述
第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,
得到比对结果,用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功。
[0108] 在一个实施例中,所述比对结果包括所述第二特征向量与所述多个特征向量中各个特征向量之间相似度的最大值,所述装置800还包括:结果接收单元840,配置为从所述服
务器接收所述最大值;判定单元850,配置为在所述最大值大于预设阈值的情况下,判定针
对所述第二隐私数据所对应目标对象的身份识别成功。
[0109] 根据又一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3或图5所描述的方法。
[0110] 根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3或图5所述的方法。
[0111] 本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能
存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
[0112] 以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明
的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应
包括在本发明的保护范围之内。