防止隐私数据泄漏的编码模型训练方法及装置转让专利
申请号 : CN201911252327.7
文献号 : CN111046422B
文献日 : 2021-03-12
发明人 : 石磊磊 , 熊涛
申请人 : 支付宝(杭州)信息技术有限公司
摘要 :
权利要求 :
1.一种防止隐私数据泄漏的编码模型训练方法,包括:获取多个训练样本组,包括任意的第一样本组,所述第一样本组包括第一样本对和第二样本对,所述第一样本对包括第一训练样本和第二训练样本,其中第一训练样本包括表征第一目标对象身份信息的第一隐私数据和第一对象标识;所述第二训练样本具有所述第一对象标识,所述第二样本对的两个样本具有不同对象标识;
将所述第一样本组中各训练样本对应的隐私数据分别输入编码模型,得到对应的多个特征向量,其中包括对应于所述第一训练样本的第一特征向量;
将所述第一特征向量输入用于确定目标对象身份的分类模型,得到第一分类结果,基于所述第一分类结果和所述第一对象标识,确定第一分类损失;
将所述第一特征向量输入用于反推隐私数据的解码模型,得到第一反推数据,基于所述第一反推数据和所述第一隐私数据,确定第一解码损失;
将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型,得到所述第一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本距离,并且,确定第一区分损失,所述第一区分损失与所述第一样本距离正相关,且与所述第二样本距离负相关;
以最大化所述多个训练样本组对应的分类损失和解码损失,以及最小化所述多个训练样本对应的区分损失为目标,调整所述编码模型中的模型参数。
2.根据权利要求1所述的方法,其中,所述目标对象包括用户,所述身份信息包括以下中的一种或多种:人脸图像、指纹图像、虹膜图像。
3.根据权利要求1所述的方法,其中,所述目标对象包括设备,所述身份信息包括以下中的一种或多种:国际移动设备识别码I ME I、用户识别卡SIM的卡号、设备传感器信息。
4.根据权利要求1所述的方法,其中,所述第二样本对包括所述第一训练样本和第三训练样本;其中将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型,得到所述第一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本距离,包括:
将所述第一训练样本、所述第二训练样本和所述第三训练样本各自对应的特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及所述第二样本距离。
5.根据权利要求1所述的方法,其中,所述第二样本对包括第三训练样本和第四训练样本;其中将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型,得到所述第一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本距离,包括:
将所述第一训练样本、第二训练样本、第三训练样本和第四训练样本各自对应的特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及所述第二样本距离。
6.根据权利要求1所述的方法,其中,在确定第一区分损失之后,所述方法还包括:以最小化所述多个训练样本组对应的分类损失为目标,调整所述分类模型中参数;和/或,
以最小化所述多个训练样本组对应的解码损失为目标,调整所述解码模型中的参数;
和/或,
以最小化所述多个训练样本组对应的区分损失为目标,调整所述区分模型中的参数。
7.根据权利要求1所述的方法,其中,以最大化所述多个训练样本对应的分类损失和解码损失,以及最小化所述多个训练样本对应的区分损失为目标,调整所述编码模型中的模型参数,包括:
基于预先设定的针对所述分类损失、解码损失和区分损失的权重参数,对所述分类损失、解码损失和区分损失进行加权求和,得到综合损失,所述综合损失与所述分类损失和解码损失负相关,且与所述区分损失正相关;
基于所述综合损失,调整所述编码模型中的模型参数。
8.一种防止隐私数据泄漏的目标对象身份识别方法,所述方法的执行主体为服务器,所述识别方法包括:
从终端接收第二特征向量,所述第二特征向量由所述终端将采集的第二隐私数据输入编码模型而确定;其中所述编码模型基于权利要求1所述的方法而预先训练得到;
将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功;其中所述多个特征向量通过将所述多个目标对象的多条历史隐私数据输入所述编码模型而得到。
9.根据权利要求8所述的识别方法,其中,在将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果之后,所述识别方法还包括:
将所述比对结果发送至所述终端。
10.根据权利要求8或9所述的识别方法,其中,将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果,包括:分别计算所述第二特征向量与所述多个特征向量中各个特征向量之间的相似度,并确定其中的最大值;
在所述最大值大于预设阈值的情况下,判定针对所述第二隐私数据所对应目标对象的身份识别成功,作为所述比对结果。
11.根据权利要求9所述的方法,其中,将所述第二特征向量与所述服务器中预先存储的多个目标对象的多个特征向量进行比对,得到比对结果,包括:分别计算所述第二特征向量与所述多个特征向量中各个特征向量之间的相似度,并确定其中的最大值,作为所述比对结果;
其中将所述比对结果发送至所述终端,包括:将所述最大值发送至所述终端,以使所述终端根据所述最大值和预设阈值,判别针对所述第二隐私数据所对应目标对象的身份识别是否成功。
12.一种防止隐私数据泄漏的目标对象识别方法,所述方法的执行主体为终端,所述识别方法包括:
采集第二隐私数据;
将所述第二隐私数据输入编码模型,得到第二特征向量,所述编码模型基于权利要求1所述的方法而预先训练得到;
将所述第二特征向量发送至服务器,以使所述服务器将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功。
13.根据权利要求12所述的方法,其中,所述比对结果包括所述第二特征向量与所述多个特征向量中各个特征向量之间相似度的最大值,在将所述第二特征向量发送至服务器之后,所述方法还包括:
从所述服务器接收所述最大值;
在所述最大值大于预设阈值的情况下,判定针对所述第二隐私数据所对应目标对象的身份识别成功。
14.一种防止隐私数据泄漏的编码模型训练装置,包括:样本获取单元,配置为获取多个训练样本组,包括任意的第一样本组,所述第一样本组包括第一样本对和第二样本对,所述第一样本对包括第一训练样本和第二训练样本,其中第一训练样本包括表征第一目标对象身份信息的第一隐私数据和第一对象标识;所述第二训练样本具有所述第一对象标识,所述第二样本对的两个样本具有不同对象标识;
编码单元,配置为将所述第一样本组中各训练样本对应的隐私数据分别输入编码模型,得到对应的多个特征向量,其中包括对应于所述第一训练样本的第一特征向量;
分类单元,配置为将所述第一特征向量输入用于确定目标对象身份的分类模型,得到第一分类结果,基于所述第一分类结果和所述第一对象标识,确定第一分类损失;
解码单元,配置为将所述第一特征向量输入用于反推隐私数据的解码模型,得到第一反推数据,基于所述第一反推数据和所述第一隐私数据,确定第一解码损失;
区分单元,配置为将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型,得到所述第一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本距离,并且,确定第一区分损失,所述第一区分损失与所述第一样本距离正相关,且与所述第二样本距离负相关;
编码模型调参单元,配置为以最大化所述多个训练样本组对应的分类损失和解码损失,以及最小化所述多个训练样本对应的区分损失为目标,调整所述编码模型中的模型参数。
15.根据权利要求14所述的装置,其中,所述目标对象包括用户,所述身份信息包括以下中的一种或多种:人脸图像、指纹图像、虹膜图像。
16.根据权利要求14所述的装置,其中,所述目标对象包括设备,所述身份信息包括以下中的一种或多种:国际移动设备识别码IMEI、用户识别卡SIM的卡号、设备传感器信息。
17.根据权利要求14所述的装置,其中,所述第二样本对包括所述第一训练样本和第三训练样本;其中区分模型具体配置为:将所述第一训练样本、所述第二训练样本和所述第三训练样本各自对应的特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及所述第二样本距离。
18.根据权利要求14所述的装置,其中,所述第二样本对包括第三训练样本和第四训练样本;其中区分模型具体配置为:
将所述第一训练样本、第二训练样本、第三训练样本和第四训练样本各自对应的特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及所述第二样本距离。
19.根据权利要求14所述的装置,其中,所述装置还包括:分类模型调参单元,配置为以最小化所述多个训练样本组对应的分类损失为目标,调整所述分类模型中参数;和/或,
解码模型调参单元,配置为以最小化所述多个训练样本组对应的解码损失为目标,调整所述解码模型中的参数;和/或,区分模型调参单元,配置为以最小化所述多个训练样本组对应的区分损失为目标,调整所述区分模型中的参数。
20.根据权利要求14所述的装置,其中,所述编码模型调参单元具体配置为:基于预先设定的针对所述分类损失、解码损失和区分损失的权重参数,对所述分类损失、解码损失和区分损失进行加权求和,得到综合损失,所述综合损失与所述分类损失和解码损失负相关,且与所述区分损失正相关;
基于所述综合损失,调整所述编码模型中的模型参数。
21.一种防止隐私数据泄漏的目标对象身份识别装置,所述装置集成于服务器,所述识别装置包括:
向量接收单元,配置为从终端接收第二特征向量,所述第二特征向量由所述终端将采集的第二隐私数据输入编码模型而确定;其中所述编码模型基于权利要求14所述的装置而预先训练得到;
向量比对单元,配置为将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功;其中所述多个特征向量通过将所述多个目标对象的多条历史隐私数据输入所述编码模型而得到。
22.根据权利要求21所述的识别装置,其中,所述识别装置还包括:结果发送单元,配置为将所述比对结果发送至所述终端。
23.根据权利要求21或22所述的识别装置,其中,所述向量比对单元具体配置为:分别计算所述第二特征向量与所述多个特征向量中各个特征向量之间的相似度,并确定其中的最大值;
在所述最大值大于预设阈值的情况下,判定针对所述第二隐私数据所对应目标对象的身份识别成功,作为所述比对结果。
24.根据权利要求22所述的装置,其中,所述向量比对单元具体配置为:分别计算所述第二特征向量与所述多个特征向量中各个特征向量之间的相似度,并确定其中的最大值,作为所述比对结果;
其中结果发送单元具体配置为:
将所述最大值发送至所述终端,以使所述终端根据所述最大值和预设阈值,判别针对所述第二隐私数据所对应目标对象的身份识别是否成功。
25.一种防止隐私数据泄漏的目标对象识别装置,所述装置集成于终端,所述识别装置包括:
数据采集单元,配置为采集第二隐私数据;
编码单元,配置为将所述第二隐私数据输入编码模型,得到第二特征向量,所述编码模型基于权利要求14所述的装置而预先训练得到;
向量发送单元,配置为将所述第二特征向量发送至服务器,以使所述服务器将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功。
26.根据权利要求25所述的装置,其中,所述比对结果包括所述第二特征向量与所述多个特征向量中各个特征向量之间相似度的最大值,所述装置还包括:结果接收单元,配置为从所述服务器接收所述最大值;
判定单元,配置为在所述最大值大于预设阈值的情况下,判定针对所述第二隐私数据所对应目标对象的身份识别成功。
27.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-13中任一项的所述的方法。
28.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-13中任一项所述的方法。
说明书 :
防止隐私数据泄漏的编码模型训练方法及装置
技术领域
身份识别方法。
背景技术
息,识别该用户的身份(如支付系统中的用户ID),以根据该身份查找到对应支付账户,完成
相应订单的支付。又例如,在用户行为分析场景下,可以通过采集终端设备在使用过程中产
生的传感器数据等,识别该设备的身份(如数据分析系统为该设备分配的设备ID),以建立
用户与设备之间的映射关系。显然,这些场景下,对身份识别的准确性都提出较高的要求。
标对象进行身份识别的准确性的同时,有效降低隐私数据泄漏的风险。
发明内容
标对象进行身份识别的准确性的同时,有效降低隐私数据泄漏的风险。
对,所述第一样本对包括第一训练样本和第二训练样本,其中第一训练样本包括表征第一
目标对象身份信息的第一隐私数据和第一对象标识;所述第二训练样本具有所述第一对象
标识,所述第二样本对的两个样本具有不同对象标识;将所述第一样本组中各训练样本对
应的隐私数据分别输入编码模型,得到对应的多个特征向量,其中包括对应于所述第一训
练样本的第一特征向量;将所述第一特征向量输入用于确定目标对象身份的分类模型,得
到第一分类结果,基于所述第一分类结果和所述第一对象标识,确定第一分类损失;将所述
第一特征向量输入用于反推隐私数据的解码模型,得到第一反推数据,基于所述第一反推
数据和所述第一隐私数据,确定第一解码损失;将所述第一样本组中各训练样本对应的特
征向量输入用于区分不同目标对象的区分模型,得到所述第一样本对中样本之间的第一样
本距离,以及第二样本对中样本之间的第二样本距离,并且,确定第一区分损失,所述第一
区分损失与所述第一样本距离正相关,且与所述第二样本距离负相关;以最大化所述多个
训练样本组对应的分类损失和解码损失,以及最小化所述多个训练样本对应的区分损失为
目标,调整所述编码模型中的模型参数。
得到所述第一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本
距离,包括:将所述第一训练样本、所述第二训练样本和所述第三训练样本各自对应的特征
向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及所述第二样本
距离。
所述第一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本距
离,包括:将所述第一训练样本、第二训练样本、第三训练样本和第四训练样本各自对应的
特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及所述第二
样本距离。
训练样本组对应的解码损失为目标,调整所述解码模型中的参数;和/或,以最小化所述多
个训练样本组对应的区分损失为目标,调整所述区分模型中的参数。
包括:基于预先设定的针对所述分类损失、解码损失和区分损失的权重参数,对所述分类损
失、解码损失和区分损失进行加权求和,得到综合损失,所述综合损失与所述分类损失和解
码损失负相关,且与所述区分损失正相关;基于所述综合损失,调整所述编码模型中的模型
参数。
所述终端将采集的第二隐私数据输入编码模型而确定;其中所述编码模型基于上述第一方
面所述的方法而预先训练得到;将所述第二特征向量与所述服务器中预先存储的对应于多
个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二隐私数据所
对应目标对象的身份识别是否成功;其中所述多个特征向量通过将所述多个目标对象的多
条历史隐私数据输入所述编码模型而得到。
型,得到第二特征向量,所述编码模型基于第一方面所述的方法而预先训练得到;将所述第
二特征向量发送至服务器,以使所述服务器将所述第二特征向量与所述服务器中预先存储
的对应于多个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二
隐私数据所对应目标对象的身份识别是否成功。
对和第二样本对,所述第一样本对包括第一训练样本和第二训练样本,其中第一训练样本
包括表征第一目标对象身份信息的第一隐私数据和第一对象标识;所述第二训练样本具有
所述第一对象标识,所述第二样本对的两个样本具有不同对象标识;编码单元,配置为将所
述第一样本组中各训练样本对应的隐私数据分别输入编码模型,得到对应的多个特征向
量,其中包括对应于所述第一训练样本的第一特征向量;分类单元,配置为将所述第一特征
向量输入用于确定目标对象身份的分类模型,得到第一分类结果,基于所述第一分类结果
和所述第一对象标识,确定第一分类损失;解码单元,配置为将所述第一特征向量输入用于
反推隐私数据的解码模型,得到第一反推数据,基于所述第一反推数据和所述第一隐私数
据,确定第一解码损失;区分单元,配置为将所述第一样本组中各训练样本对应的特征向量
输入用于区分不同目标对象的区分模型,得到所述第一样本对中样本之间的第一样本距
离,以及第二样本对中样本之间的第二样本距离,并且,确定第一区分损失,所述第一区分
损失与所述第一样本距离正相关,且与所述第二样本距离负相关;编码模型调参单元,配置
为以最大化所述多个训练样本组对应的分类损失和解码损失,以及最小化所述多个训练样
本对应的区分损失为目标,调整所述编码模型中的模型参数。
第二特征向量由所述终端将采集的第二隐私数据输入编码模型而确定;其中所述编码模型
上述第一四方面中的装置而预先训练得到;向量比对单元,配置为将所述第二特征向量与
所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,得到比对结果,
用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功;其中所述多个特征
向量通过将所述多个目标对象的多条历史隐私数据输入所述编码模型而得到。
所述第二隐私数据输入编码模型,得到第二特征向量,所述编码模型基于第四方面中的装
置而预先训练得到;向量发送单元,配置为将所述第二特征向量发送至服务器,以使所述服
务器将所述第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向
量进行比对,得到比对结果,用于判别针对所述第二隐私数据所对应目标对象的身份识别
是否成功。
方法。
具有高区分度(以保证后续身份识别的准确度和有效性),同时,可以使得编码向量一方面
不可逆,也就是不法分子难以通过编码向量反推或还原出原始隐私数据,另一方面对编码
向量进行混淆,也就是不法分子难以通过编码向量实现分类或者说实现对目标对象身份的
确定。
对,可以保证身份识别结果的准确度和有效性。同时,即使特征向量发生泄漏,因其具有不
可逆性和混淆性,不法分子难以基于特征向量获得可用信息,从而实现有效防止隐私数据
的泄漏。并且,将特征向量发送至云端比对,而不是直接在终端进行比对,可以使得比对范
围不受终端存储资源的限制。
附图说明
领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的
附图。
具体实施方式
存储加密后的数据,以使得传输和存储环节泄漏的数据对不法分子而言不可用。但是,在使
用过程中,需要对加密数据进行解密,以对隐私数据还原,故仍存在泄漏风险,并且,在密钥
泄漏或密钥被破解的情况下,也会导致隐私数据的泄漏。在另一种方案中,可以在采集到的
隐私数据中加入噪音(如水印),以降低隐私数据的辨识度,之后对加入噪音的隐私数据进
行传输、存储和使用。然而,此种降低隐私数据辨识度的方法,很难同时满足隐私数据的辨
识度低和目标对象身份识别的准确性这两点要求。在又一种方案中,可以在设备端或边缘
端完成隐私数据的采集和计算并返回决策结果,不对采集的隐私数据进行传输和存储。但
是,由于端上的存储资源和网络资源的限制,端上可比对的样本库大小受限且不能实时更
新,导致身份识别的成功率和覆盖率十分有限。
目标对象身份识别方法。采用所述训练方法和识别方法,可以在保证针对目标对象进行身
份识别的准确性的同时,有效降低隐私数据泄漏的风险。
括对应目标对象的隐私数据(X)和对象标识(Y);接着,将这批训练样本分别输入编码模型
中,得到对应的一批特征向量(Vx);然后,将这批特征向量分别输入用于确定目标对象的身
份的分类模型、用于反推隐私数据的解码模型,和用于区分不同目标对象的区分模型中,以
分别确定该批训练样本对应的分类损失、解码损失和区分损失;再接着,先固定编码器中的
模型参数,分别以最小化所述分类损失、解码损失和区分损失为目标,对应调整分类模型、
解码模型和区分模型中的模型参数。进一步地,在一个具体的实施例中,再抽取另一批训练
样本,重复上述过程得到对应于该另一批训练样本的分类损失、解码损失和区分损失;然
后,固定上述调参后的分类模型、解码模型和区分模型中的模型参数,以最大化该另一批训
练样本对应的分类损失和解码损失,以及最小化对应的区分损失为目标,调整编码模型中
的参数。如此循环迭代,可以得到最终训练好的编码模型。并且,由该编码模型得到的特征
向量,针对不同目标对象具有良好的区分度,同时,不法分子很难根据泄漏的特征向量还原
出可用的隐私数据,也无法根据泄漏的特征向量确定目标对象身份,进而有效防止隐私数
据的泄漏。
识别方法的实施框图。在一个实施例中,如图2所示,首先,终端采集隐私数据(如用户的人
脸图像),再利用终端中部署的编码模型,对隐私数据进行编码,得到对应的特征向量;然
后,终端将特征向量发送至云端服务器;再接着,服务器将接收到的特征向量与其中已存储
的对应于多个目标对象的多个特征向量进行比对,并将比对结果返回给终端;再然后,终端
根据比对结果确定身份识别的最终结果。如此,在身份识别过程中,传输、存储和使用的均
为编码模型输出的特征向量,可以有效防止隐私数据的泄漏。
群。如图3所示,所述方法包括以下步骤:
练样本包括表征第一目标对象身份信息的第一隐私数据和第一对象标识;所述第二训练样
本具有所述第一对象标识,所述第二样本对的两个样本具有不同对象标识。步骤S320,将所
述第一样本组中各训练样本对应的隐私数据分别输入编码模型,得到对应的多个特征向
量,其中包括对应于所述第一训练样本的第一特征向量。步骤S330,将所述第一特征向量输
入用于确定目标对象身份的分类模型,得到第一分类结果,基于所述第一分类结果和所述
第一对象标识,确定第一分类损失。步骤S340,将所述第一特征向量输入用于反推隐私数据
的解码模型,得到第一反推数据,基于所述第一反推数据和所述第一隐私数据,确定第一解
码损失。步骤S350,将所述第一样本组中各训练样本对应的特征向量输入用于区分不同目
标对象的区分模型,得到所述第一样本对中样本之间的第一样本距离,以及第二样本对中
样本之间的第二样本距离,并且,确定第一区分损失,所述第一区分损失与所述第一样本距
离正相关,且与所述第二样本距离负相关。步骤S360,以最大化所述多个训练样本组对应的
分类损失和解码损失,以及最小化所述多个训练样本对应的区分损失为目标,调整所述编
码模型中的模型参数。
同类事物,不具有其他限定作用。
图像和虹膜图像等等。在另一个的具体的实施例中,目标对象的身份信息还可以包括用户
的手机号、身份证号等。
例中,其中动物的生物特征信息可以包括动物的面部头像、动物的全身图像、动物的爪印等
等。在又一个实施例中,多个训练样本组所涉及的目标对象可以包括设备,相应地,目标对
象的身份信息可以包括设备中器件的标识信息和设备传感器信息。在一个具体的实施例
中,其中器件的标识信息可以包括IMEI(International Mobile Equipment Identity,国
际移动设备识别码)和SIM(Subscriber Identity Modula,用户识别卡)的卡号。在一个具
体的实施例中,其中设备传感器信息可以包括设备传感器的基础电路数据(如传感器电流、
电压等)和设备传感器所采集的使用状态数据(如设备加速度、摄像头杂音等)。
识可以由数字、字母或符号中的一种或几种组成。例如,两个不同目标对象的对象标识可以
分别为0011和1100。
在具有相同对象标识的样本对和不同对象标识的样本对即可。进一步地,对于多个训练样
本组中任意的第一样本组,其中包括第一样本对和第二样本对,在一个具体的实施例中,其
中第一样本对和第二样本对包括具有相同对象标识的第一训练样本和第二训练样本,第二
样本对中包括具有不同对象标识的第一训练样本和第三训练样本。在另一个具体的实施例
中,其中第一样本对和第二样本对包括具有相同对象标识的第一训练样本和第二训练样
本,第二样本对中包括具有不同对象标识的第三训练样本和第四训练样本。
作为锚点(Anchor)样本,再从其他样本中选取与该某个样本具有相同对象标识的样本作为
正样本(Positive),并且选取与该某个样本具有不同对象标识的样本作为负样本
(Negative),如此该某个样本与其对应的正样本和负样本可以共同组成一个训练样本组。
需要理解,其中某个样本和其对应的正样本可作为上述具有相同对象标识的第一样本对,
且该某个样本和其对应的负样本可作为上述具有不同对象标识的第二样本对。由此,多次
执行上述选取锚点和对应正负样本的过程,可以基于该批训练样本,获得上述多个训练样
本组。
个样本,如此该一个样本对和该另一个样本对就可以组成一个训练样本组。由此,多次执行
选取两个样本对的过程,可以基于该批训练样本,获得上述多个训练样本组。
多个特征向量。需要理解,对多个训练样本组中每个训练样本组均执行步骤S320,可以得到
对应于多个训练样本组中全量训练样本的全量特征向量。
((Deep Neural Networks,深度神经网络)。
S330、步骤S340和步骤S350。
类损失。
实施例中,其中分类模型可以为多个二分类模型。在一个实施例中,可以采用交叉熵损失函
数、铰链损失函数、指数损失函数等,确定第一分类损失。
分类损失进行加和或者取期望值等运算,可以得到多个训练样本组对应的分类损失。在一
个例子中,具体可以采用以下公式(1)中的交叉熵损失函数,确定多个训练样本组对应的分
类损失。
(Mean Absolute Error,平均绝对误差)等损失函数,确定第一解码损失。
解码损失进行加和或者取期望值等运算,可以得到多个训练样本组对应的解码损失。在一
个例子中,具体可以采用以下公式(2)中的MAE损失函数,确定多个训练样本组对应的解码
损失。
距离,以及第二样本对中样本之间的第二样本距离,并且,确定第一区分损失,所述第一区
分损失与所述第一样本距离正相关,且与所述第二样本距离负相关。
将上述第一训练样本、第二训练样本和第三训练样本各自对应的特征向量按照预设顺序拼
接后,输入所述区分模型,得到所述第一样本距离以及所述第二样本距离。在一个具体的实
施例中,其中预设顺序可以为针对锚点样本、负样本和正样本这三种样本设定的任意排列
顺序。在一个例子中,预设顺序可以为先后为:负样本、锚点样本和正样本。在一个具体的实
施例中,图4示出根据一个实施例的三元组网络的网络结构示意图,该三元组网络包括3个
+ -
相同的前馈网络(这3个网络共享参数),图中用3个Net进行表示,并且,X、X 和X分别表示前
述锚点样本、正样本和负样本,样本距离1表示锚点样本和负样本之间的距离,样本距离2表
示锚点样本和正样本之间的距离。进一步地,上述第一区分损失可以利用三元组网络对应
的损失函数确定。
第二训练样本、第三训练样本和第四训练样本各自对应的特征向量按照预设顺序拼接后,
输入所述区分模型,得到所述第一样本距离以及所述第二样本距离。在一个具体的实施例
中,其中预设顺序可以为具有相同对象标识的样本对中的两个样本(这两个样本的顺序可
以不限定)在前,具有不同对象标识的样本对中的两个样本(这两个样本的顺序可以不限
定)在后。进一步地,上述第一区分损失可以利用四元组网络对应的损失函数确定。
和或者取期望值等运算,可以得到多个训练样本组对应的区分损失。在一个例子中,具体可
以采用以下公式(3)中的三元组损失函数,确定多个训练样本组对应的区分损失。
示由区分模型输出的锚点样本和负样本之间的距离,α为超参,例如可以设定为1。
分类损失和解码损失,以及最小化所述多个训练样本对应的区分损失为目标,调整所述编
码模型中的模型参数。
失与分类损失和解码损失负相关,且与区分损失正相关。在一个具体的实施例中,可以采用
以下公式(4)确定综合损失:
解码损失为目标,调整所述编码模型中的模型参数,可以使得编码向量具有高区分度(以保
证后续身份识别的准确度和有效性),同时,有效抵御攻击者的攻击,使得编码向量一方面
不可逆,也就是不法分子难以通过编码向量反推或还原出原始隐私数据,另一方面对编码
向量进行混淆,也就是不法分子难以通过编码向量实现分类或者说实现对目标对象身份的
确定。
或,以最小化所述多个训练样本组对应的解码损失为目标,调整所述解码模型中的参数;
和/或,以最小化所述多个训练样本组对应的区分损失为目标,调整所述区分模型中的参
数。如此,通过引入对抗学习的方式,可以进一步提高编码模型的性能。
模型、解码模型和区分模型这三个模型的多次迭代训练和对编码模型的一次训练。更具体
地,在第一轮训练中,可以先固定编码模型,依次抽取几个批次训练样本,以优化分类模型、
解码模型和区分模型中的参数,然后,基于此轮中参数优化后的分类模型、解码模型和区分
模型,再次后去一批训练样本,以优化编码模型中的参数。如此,经过多轮迭代训练,可以得
到最终收敛的编码模型,用于后续针对目标对象的身份识别。
包括智能手机、平板电脑、可穿戴设备、扫描设备等等。在一个实施例中,其中服务器可以为
云端服务器,并且该服务器可以调用云端数据库中存储的数据记录。
令,采集人脸数据和手机号。在另一个实施例中,身份识别的目标对象为设备,相应地,可以
基于用户授权,定期从终端采集终端的身份信息,如IMEA、SIM卡号和传感器信息等。
发送至服务器。
过对第二特征向量进行传输、存储和使用,可以有效防止隐私数据的泄漏。可选地,在终端
生成第二特征向量后,可以对其中采集的第二隐私数据进行删除,以防止隐私数据的泄漏。
据所对应目标对象的身份识别是否成功。
度,并确定其中的最大值;然后,在一个具体的实施例中,在该最大值大于预设阈值的情况
下,判定针对所述第二隐私数据所对应目标对象的身份识别成功,作为所述比对结果;在另
一个具体的实施例中,在该最大值不大于预设阈值的情况下,判定身份识别失败,作为所述
比对结果。在一个例子中,其中预设阈值可以根据实际经验和不同的业务需求进行设定,如
在支付场景下设定为0.99,而在解除门禁场景下设定为0.90,在建立用户与设备映射关系
的场景下设定为0.80。
多个用户信息(包括支付账户等)之间的映射关系,获取该某特征向量对应的支付账户,并
完成针对当前订单的扣款操作。
失败的比对结果发送至终端。在另一个具体的实施例中,还可以将上述最大值发送至终端,
此时,上述服务器可以在确定上述最大值后,将最大值作为比对结果发送至终端,而无需对
最大值进行判断操作,而是由终端在接收到最大值后,判断该最大值是否大于预设阈值,进
而确定身份识别是否成功。
可以保证身份识别结果的准确度和有效性。同时,即使特征向量发生泄漏,因其具有不可逆
性和混淆性,不法分子难以基于特征向量获得可用信息,从而实现有效防止隐私数据的泄
漏。此外,将特征向量发送至云端比对,而不是直接在终端进行比对,可以使得比对范围不
受终端存储资源的限制。
本,其中第一训练样本包括表征第一目标对象身份信息的第一隐私数据和第一对象标识;
所述第二训练样本具有所述第一对象标识,所述第二样本对的两个样本具有不同对象标
识。编码单元620,配置为将所述第一样本组中各训练样本对应的隐私数据分别输入编码模
型,得到对应的多个特征向量,其中包括对应于所述第一训练样本的第一特征向量。分类单
元630,配置为将所述第一特征向量输入用于确定目标对象身份的分类模型,得到第一分类
结果,基于所述第一分类结果和所述第一对象标识,确定第一分类损失。解码单元640,配置
为将所述第一特征向量输入用于反推隐私数据的解码模型,得到第一反推数据,基于所述
第一反推数据和所述第一隐私数据,确定第一解码损失。区分单元650,配置为将所述第一
样本组中各训练样本对应的特征向量输入用于区分不同目标对象的区分模型,得到所述第
一样本对中样本之间的第一样本距离,以及第二样本对中样本之间的第二样本距离,并且,
确定第一区分损失,所述第一区分损失与所述第一样本距离正相关,且与所述第二样本距
离负相关。编码模型调参单元660,配置为以最大化所述多个训练样本组对应的分类损失和
解码损失,以及最小化所述多个训练样本对应的区分损失为目标,调整所述编码模型中的
模型参数。
自对应的特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以及
所述第二样本距离。
各自对应的特征向量按照预设顺序拼接后,输入所述区分模型,得到所述第一样本距离以
及所述第二样本距离。
参单元680,配置为以最小化所述多个训练样本组对应的解码损失为目标,调整所述解码模
型中的参数;和/或,区分模型调参单元690,配置为以最小化所述多个训练样本组对应的区
分损失为目标,调整所述区分模型中的参数。
加权求和,得到综合损失,所述综合损失与所述分类损失和解码损失负相关,且与所述区分
损失正相关;基于所述综合损失,调整所述编码模型中的模型参数。
预先训练得到。向量比对单元720,配置为将所述第二特征向量与所述服务器中预先存储的
对应于多个目标对象的多个特征向量进行比对,得到比对结果,用于判别针对所述第二隐
私数据所对应目标对象的身份识别是否成功;其中所述多个特征向量通过将所述多个目标
对象的多条历史隐私数据输入所述编码模型而得到。
大于预设阈值的情况下,判定针对所述第二隐私数据所对应目标对象的身份识别成功,作
为所述比对结果。
结果;其中结果发送单元730具体配置为:将所述最大值发送至所述终端,以使所述终端根
据所述最大值和预设阈值,判别针对所述第二隐私数据所对应目标对象的身份识别是否成
功。
到;向量发送单元830,配置为将所述第二特征向量发送至服务器,以使所述服务器将所述
第二特征向量与所述服务器中预先存储的对应于多个目标对象的多个特征向量进行比对,
得到比对结果,用于判别针对所述第二隐私数据所对应目标对象的身份识别是否成功。
务器接收所述最大值;判定单元850,配置为在所述最大值大于预设阈值的情况下,判定针
对所述第二隐私数据所对应目标对象的身份识别成功。
存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应
包括在本发明的保护范围之内。