一种不暴露入模变量的联邦学习预测方法及系统转让专利
申请号 : CN202111637376.X
文献号 : CN113989036B
文献日 : 2022-03-18
发明人 : 郭浩亮 , 张韶峰 , 刘凯
申请人 : 百融至信(北京)征信有限公司
摘要 :
权利要求 :
1.一种不暴露入模变量的联邦学习预测方法,其特征在于,所述方法包括:获得调用方数据信息,所述调用方数据信息包括待评价用户id信息;
获得合作方数据信息,所述合作方数据信息包括所述调用方用户id信息、用户特征值、特征权重值,其中,所述调用方用户id信息包括所述待评价用户id信息;
调用方根据所述用户特征值,生成掩码信息,并对所述掩码信息进行加密,获得加密掩码信息,并将所述加密掩码信息、待评价用户id信息发送至合作方;
合作方根据所述加密掩码信息、所述待评价用户id信息、所述特征权重值,获得合作方特征加权和,并将所述合作方特征加权和发送至调用方;
调用方对所述合作方特征加权和进行解密,获得加权和明文;
根据所述加权和明文、调用方数据信息,获得用户打分;
其中,所述根据所述加权和明文、调用方数据信息,获得用户打分,包括:根据所述加权和明文、所述调用方数据信息,获得用户特征加权和;
获得预设映射函数;
基于所述预设映射函数对所述用户特征加权和进行映射,获得所述用户打分。
2.如权利要求1所述的方法,其特征在于,所述获得调用方数据信息之前,包括:获得调用方训练数据;
获得合作方训练数据;
基于所述调用方训练数据、所述合作方训练数据完成纵向联邦回归模型的训练,获得联邦逻辑回归模型。
3.如权利要求1所述的方法,其特征在于,所述根据所述用户特征值,生成掩码信息,并对所述掩码信息进行加密,获得加密掩码信息,包括:根据所述用户特征值,获得合作方特征数量;
根据所述用户特征值,获得调用特征信息;
根据所述合作方特征数量、所述调用特征信息,获得掩码生成要求,所述掩码生成要求的掩码长度与所述合作方特征数量相同;
基于所述掩码生成要求对所述用户特征值生成所述掩码信息;
获得预设加密方法;
根据所述预设加密方法,获得公钥;
利用所述公钥对所述掩码信息进行加密,获得加密掩码信息。
4.如权利要求2所述的方法,其特征在于,所述根据所述加密掩码信息、所述待评价用户id信息、所述特征权重值,获得合作方特征加权和,包括:根据所述待评价用户id信息,获得交集数据,其中,所述交集数据为通过所述待评价用户id信息在合作方数据中进行求交集处理确定的数据;
根据所述交集数据,获得用户合作方特征值;
根据所述用户合作方特征值,获得所述特征权重值,所述特征权重值为所述用户合作方特征值在所述联邦逻辑回归模型中的权重值;
根据所述特征权重值、所述用户合作方特征值,获得用户特征加权和;
根据所述用户特征加权和、所述加密掩码信息,获得所述合作方特征加权和。
5.如权利要求3所述的方法,其特征在于,所述对所述合作方特征加权和进行解密,获得加权和明文,包括:
根据所述预设加密方法,获得私钥;
根据所述私钥对所述合作方特征加权和进行解密,获得所述加权和明文。
6.如权利要求1所述的方法,其特征在于,所述调用方数据信息还包括:调用方特征值、调用方特征权重。
7.如权利要求6所述的方法,其特征在于,当所述调用方数据信息包括所述调用方特征值、调用方特征权重时,所述根据所述加权和明文、调用方数据信息,获得用户打分,包括:根据所述调用方特征值、所述调用方特征权重,获得调用方加权和;
根据所述调用方加权和、所述加权和明文,获得综合特征加权和;
基于所述预设映射函数对所述综合特征加权和进行映射,获得所述用户打分。
8.一种不暴露入模变量的联邦学习预测系统,其特征在于,所述系统包括:第一获得单元:所述第一获得单元用于获得调用方数据信息,所述调用方数据信息包括待评价用户id信息;
第二获得单元:所述第二获得单元获得合作方数据信息,所述合作方数据信息包括所述调用方用户id信息、用户特征值、特征权重值,其中,所述调用方用户id信息包括所述待评价用户id信息;
第三获得单元:所述第三获得单元调用方根据所述用户特征值,生成掩码信息,并对所述掩码信息进行加密,获得加密掩码信息,并将所述加密掩码信息、待评价用户id信息发送至合作方;
第四获得单元:所述第四获得单元合作方根据所述加密掩码信息、所述待评价用户id信息、所述特征权重值,获得合作方特征加权和,并将所述合作方特征加权和发送至调用方;
第五获得单元:所述第五获得单元调用方对所述合作方特征加权和进行解密,获得加权和明文;
第六获得单元:所述第六获得单元根据所述加权和明文、调用方数据信息,获得用户打分;
其中,所述第六获得单元包括:第二十三获得单元:所述第二十三获得单元用于根据所述加权和明文、所述调用方数据信息,获得用户特征加权和;
第二十四获得单元:所述第二十四获得单元用于获得预设映射函数;
第二十五获得单元:所述第二十五获得单元用于基于所述预设映射函数对所述用户特征加权和进行映射,获得所述用户打分。
9.一种不暴露入模变量的联邦学习预测的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1 7任一项所述方法的步骤。
~
说明书 :
一种不暴露入模变量的联邦学习预测方法及系统
技术领域
背景技术
流通。若使用不经意传输技术保护入模变量,虽入模变量得以保护,但不经意传输技术方法
复杂,效率低下,没有合理利用逻辑回归的特点。
发明内容
法,使用加密掩码在不暴露入模变量的前提下完成基于双方数据的预测打分的技术效果。
作方数据信息,所述合作方数据信息包括所述调用方用户id信息、用户特征值、特征权重
值,其中,所述调用方用户id信息包括所述待评价用户id信息;调用方根据所述用户特征
值,生成掩码信息,并对所述掩码信息进行加密,获得加密掩码信息,并将所述加密掩码信
息、待评价用户id信息发送至合作方;合作方根据所述加密掩码信息、所述待评价用户id信
息、所述特征权重值,获得合作方特征加权和,并将所述合作方特征加权和发送至调用方;
调用方对所述合作方特征加权和进行解密,获得加权和明文;根据所述加权和明文、调用方
数据信息,获得用户打分。
据信息包括待评价用户id信息;第二获得单元:所述第二获得单元获得合作方数据信息,所
述合作方数据信息包括所述调用方用户id信息、用户特征值、特征权重值,其中,所述调用
方用户id信息包括所述待评价用户id信息;
发送至合作方;第四获得单元:所述第四获得单元合作方根据所述加密掩码信息、所述待评
价用户id信息、所述特征权重值,获得合作方特征加权和,并将所述合作方特征加权和发送
至调用方;第五获得单元:所述第五获得单元调用方对所述合作方特征加权和进行解密,获
得加权和明文;第六获得单元:所述第六获得单元根据所述加权和明文、调用方数据信息,
获得用户打分。
行所述程序时实现第一方面任一项所述方法的步骤。
权重值,其中,所述调用方用户id信息包括所述待评价用户id信息;调用方根据所述用户特
征值,生成掩码信息,并对所述掩码信息进行加密,获得加密掩码信息,并将所述加密掩码
信息、待评价用户id信息发送至合作方;合作方根据所述加密掩码信息、所述待评价用户id
信息、所述特征权重值,获得合作方特征加权和,并将所述合作方特征加权和发送至调用
方;调用方对所述合作方特征加权和进行解密,获得加权和明文;根据所述加权和明文、调
用方数据信息,获得用户打分。解决了现有技术中存在预测过程中会暴露入模变量的技术
问题,达到了基于纵向逻辑回归方法,使用加密掩码在不暴露入模变量的前提下完成基于
双方数据的预测打分的技术效果。
更明显易懂,以下特举本申请的具体实施方式。
附图说明
303,总线架构304。
具体实施方式
法,使用加密掩码在不暴露入模变量的前提下完成基于双方数据的预测打分的技术效果。
复杂,效率低下未进行大量的推广使用。
信息,所述合作方数据信息包括所述调用方用户id信息、用户特征值、特征权重值,其中,所
述调用方用户id信息包括所述待评价用户id信息;调用方根据所述用户特征值,生成掩码
信息,并对所述掩码信息进行加密,获得加密掩码信息,并将所述加密掩码信息、待评价用
户id信息发送至合作方;合作方根据所述加密掩码信息、所述待评价用户id信息、所述特征
权重值,获得合作方特征加权和,并将所述合作方特征加权和发送至调用方;调用方对所述
合作方特征加权和进行解密,获得加权和明文;根据所述加权和明文、调用方数据信息,获
得用户打分。
例说明,一需要打分用户,所述打分模型为一信贷额度测评模型,所述打分用户需要准备证
明收入与固定资产或其他相关信息进行评估,收入信息对应权重与固定资产对应权重不
同,应进一步具体进行分析,为后续数据分析提供数据基础。
赘述,合作方准备用户id,用户id对应的合作方特征值以及特征在模型中对应的权重,即所
述合作方数据信息包括所述调用方用户id信息、用户特征值、特征权重值,合作方的所述调
用方用户id信息包括但不限于所述待评价用户id信息,即就是合作方准备的用户id需要覆
盖绝大多数需要打分的调用方待评价用户id信息。
户偿还情况的,标签系统有黑名单与白名单,黑名单用户即长时间逾期,屡次催款不还的用
户,白名单为正常用户,在已有大量标签用户情况下,为未标记用户进行标记,合作方准备
的用户id包含调用方待评价用户id信息的所有状态,结合例中所述合作方准备的用户id即
已有标签用户,用户特征值为用户偿还能力相关特征如资产证明或其他相关证明,特征权
重值为所述偿还能力对还款影响程度如固定资产权重大于收入状况权重,为后续数据分析
提供数据基础。
掩码信息可以屏蔽当前的输入位信息,对所述掩码信息进行加密,获得加密掩码信息,所述
加密掩码信息保证调用方用户的入模信息的安全,在入模信息不暴露的情况完成打分操
作,后将所述加密掩码信息、待评价用户id信息发送至合作方;
作方特征个数相同,若合作方特征需要入模,掩码相应位置为1,若不需要入模,掩码相应位
置为0。paillier加密方法是一种同态加密,满足加法同态性质和数乘同态性质,一个加密
函数如果只满足加法同态,就只能进行加减法运算;如果只满足乘法同态,就只能进行乘除
法运算。随后使用paillier加密方法,生成公钥私钥,使用公钥对掩码进行加密即可获得加
密掩码信息,对调用方数据进行加密保护数据同时,举例进一步解释存在客群相近的公司A
与公司B,公司A需要对新进用户进行打分,但同时不希望公司B获知自身采用的入模变量,
即公司A为调用方,公司B为合作方,公司A将根据公司B的全部特征以及自身需要的特征去
生成掩码,随后通过paillier加密方法进行加密,由于paillier加密方法中有混淆项,相同
的明文加密后也能够得到不同的密文,因此公司B无法通过密文去判断掩码中0,1的分布。
使用掩码避免了码间串扰对运算带来的干扰,保证了数据的安全性与可靠性。
方。
合作方特征在模型中对应的权重相乘,再与加密后的掩码按位相乘,合作方特征需要入模,
掩码相应位置为1;不需要入模,掩码相应位置为0,保证了特征值、对应特征及对应权重之
间的对应关系,随后将各个特征运算所得结果相加,所得即加密后的加权和,将加权和返回
给调用方,举例进一步解释,上述例中所述的两公司,公司B根据技术方案所述方法求加权
和,其中利用了paillier加密的加法同态性质和数乘同态性质,在密文掩码的基础上做运
算,最后也能够得到正确结果的密文,即加密的加权和。同时,由于传递的仅仅是加权和,公
司A无法获取任何公司B的数据。由于数值和掩码0相乘等价于没有参与计算,所以公司A也
成功获取了想要入模的变量的加权和,由此可以保证调用方数据保护的同时需要入模的变
量参与计算。
间,即得到最终打分,打分即预测违约风险。
提下选取了合作方需要入模的变量参与计算,能够通过双方特征数据,有效地判断客户违
约风险。
归模型可以给出y<0或y>0的概率,进而推断出样本为正样本还是负样本。逻辑回归引入
sigmoid函数来推断样本为正样本的概率,输入样本x为正样本的概率可以表示为:P(y|x)=
g(y),其中g()为sigmoid函数,当g(y)>0.5时,表示P(y=1|x)>0.5,将其判为正样本,对应y
>0;反之,当g(y)<0.5时,表示P(y=1|x)<0.5,将其判为负样本,对应y<0,所述函数只做对应
形式表达,不做具体数值分析,具体依照实例进行进一步细化运算。将所述调用方训练数
据、所述合作方训练数据输入纵向联邦回归模型进行训练,可以在不暴露所述调用方训练
数据、所述合作方训练数据的同时优化纵向联邦回归模型,优化后模型即为联邦逻辑回归
模型。
码信息可以屏蔽当前的输入位信息,所述掩码生成要求对所述用户特征值生成所述掩码信
息,预设加密方法为paillier加密方法,生成公钥私钥,公钥用于加密,私钥用于解密,使用
所述公钥对所述掩码信息进行加密,获得加密掩码信息。
公钥与私钥对应情况下才可以对数据进行解密,保证数据的可靠性,调用方事先生成掩码
并加密,在不暴露入模变量的前提选取合作方的需要入模变量参与运算,进一步解决了数
据由于传送而导致的数据安全隐患问题,保障了数据传输的稳定性与可靠性。
作方信息中与所述待评价用户id信息存在相似的部分信息,所述用户合作方特征值,获得
所述特征权重值,所述特征权重值为所述用户合作方特征值在所述联邦逻辑回归模型中的
权重值,合作方进行数据处理过程使用所述联邦逻辑回归模型,保障合作方模型进一步完
善同时,不会对合作方信息产生泄露风险,将所述特征权重值、所述用户合作方特征值输入
所述联邦逻辑回归模型,获得用户特征加权和,根据所述用户特征加权和、所述加密掩码信
息,获得所述合作方特征加权和,所述合作方特征加权和即为合作方处理结果。
的掩码相乘,随后将各个特征运算所得结果相加,所得即加密后的加权和,合作方利用逻辑
回归模型性质,仅传递加权和给调用方,保障合作方模型进一步完善同时,不会对合作方信
息产生泄露风险。
gcd(pq,(p‑1)(q‑1))=1,g为选择随机整数,使得满足n整除g的阶,这个属性是保证两个质
数长度相等,计算n=pq和λ=lcm(p‑1,q‑1),公钥为(n,g)私钥为λ,所述函数只做对应形式表
达,不做具体数值分析,具体依照实例进行进一步细化运算。公钥用于加密,私钥用于解密,
明文对应加密后的密文,即密文解密后可称之为明文,所述加权和明文用于进一步分析调
用方待评价用户id信息。
映射到0‑1区间,即得到最终预测打分,打分即预测违约风险,即获得所述待评价用户id的
信誉状况。
0‑1区间,以g(y)=0.5为界,当g(y)>0.5时,将其判为正,对应y>0,即所述待评价用户id的信
誉状况良好;反之,当g(y)<0.5时,将其判为负,对应y<0,即所述待评价用户id的信誉状况
恶劣,所述函数只做对应形式表达,不做具体数值分析,具体依照实例进行进一步细化运
算。
细化分析,具体涉及公司规模、公司营收状况、公司负债信息等其他相关信息,不能简单将
所述调用方数据信息规划为调用方特征值、调用方特征权重应结合实例进一步具体分析。
权和明文,获得综合特征加权和,所述综合特征加权和通过预设映射函数即sigmoid函数映
射到0‑1区间,即得到最终预测打分,打分即预测违约风险,即获得所述待评价用户id的信
誉状况。
用方加权和、所述加权和明文与所述综合特征加权之间的参数关系进行进一步细化,此处
不做赘述,预设映射函数对所述综合特征加权和进行映射,映射通过sigmoid函数映射到0‑
1区间,即得到最终打分,分数代表所述待评价用户id的信誉状况。
特征权重值,其中,所述调用方用户id信息包括所述待评价用户id信息;调用方根据所述用
户特征值,生成掩码信息,并对所述掩码信息进行加密,获得加密掩码信息,并将所述加密
掩码信息、待评价用户id信息发送至合作方;合作方根据所述加密掩码信息、所述待评价用
户id信息、所述特征权重值,获得合作方特征加权和,并将所述合作方特征加权和发送至调
用方;调用方对所述合作方特征加权和进行解密,获得加权和明文;根据所述加权和明文、
调用方数据信息,获得用户打分的技术方案,本申请实施例通过提供了一种基于生产设备
的CIP清洗方法及系统,解决了现有技术中存在预测过程中会暴露入模变量的技术问题,达
到了基于纵向逻辑回归方法,使用加密掩码在不暴露入模变量的前提下完成基于双方数据
的预测打分的技术效果。
述掩码生成要求的掩码长度与所述合作方特征数量相同;基于所述掩码生成要求对所述用
户特征值生成所述掩码信息;获得预设加密方法;根据所述预设加密方法,获得公钥;利用
所述公钥对所述掩码信息进行加密,获得加密掩码信息。调用方事先生成掩码并加密,在不
暴露入模变量的前提选取合作方的需要入模变量参与运算,进一步解决了数据由于传送而
导致的数据安全隐患问题,保障了数据传输的稳定性与可靠性。
为所述用户合作方特征值在所述联邦逻辑回归模型中的权重值;根据所述特征权重值、所
述用户合作方特征值,获得用户特征加权和;根据所述用户特征加权和、所述加密掩码信
息,获得所述合作方特征加权和。合作方利用逻辑回归模型性质,仅传递加权和给调用方,
保障合作方模型进一步完善同时,不会对合作方信息产生泄露风险。
统包括:
息包括所述待评价用户id信息;
用户id信息发送至合作方;
发送至调用方;
重值;
器与存储器耦合,所述存储器用于存储程序,当所述程序被所述处理器执行时,使得系统以
执行第一方面任一项所述的方法。
304相互连接;总线架构304可以是外设部件互连标(peripheral component
interconnect,简称PCI)总线或扩展工业标准结构(extended industry Standard
architecture,简称EISA)总线等。所述总线架构304可以分为地址总线、数据总线、控制总
线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
networks,WLAN),有线接入网等。
(electrically erasable Programmable read‑only memory,EEPROM)、只读光盘(compact
discread‑only memory,CD‑ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、
数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存
储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不
限于此。存储器可以是独立存在,通过总线架构304与处理器相连接。存储器也可以和处理
器集成在一起。
实施例提供的一种不暴露入模变量的联邦学习预测方法。
信息,所述合作方数据信息包括所述调用方用户id信息、用户特征值、特征权重值,其中,所
述调用方用户id信息包括所述待评价用户id信息;调用方根据所述用户特征值,生成掩码
信息,并对所述掩码信息进行加密,获得加密掩码信息,并将所述加密掩码信息、待评价用
户id信息发送至合作方;合作方根据所述加密掩码信息、所述待评价用户id信息、所述特征
权重值,获得合作方特征加权和,并将所述合作方特征加权和发送至调用方;调用方对所述
合作方特征加权和进行解密,获得加权和明文;根据所述加权和明文、调用方数据信息,获
得用户打分。
述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同
时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
“至少一个”是指一个或者多个。至少两个是指两个或者多个。“至少一个”、“任意一个”或其
类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a ,
b,或c中的至少一项(个、种),可以表示:a ,b,c,a‑b,a‑c,b‑c,或a‑b‑c,其中a,b,c可以是
单个,也可以是多个。
产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或
部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计
算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质
中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机
指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字
用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或
数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者
是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以
是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘
(Solid State Disk,SSD))等。
散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通
用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微
控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处
理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的
配置来实现。
器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD‑ROM或本领域中其它任意形式的存储媒介
中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并
可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可
以设置于ASIC中,ASIC可以设置于终端中。可选地,处理器和存储媒介也可以设置于终端中
的不同的部件中。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,
使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在
计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或
方框图一个方框或多个方框中指定的功能的步骤。
附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修
改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不
脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技
术的范围之内,则本申请意图包括这些改动和变型在内。