联邦模型训练、客户画像方法、装置、设备及介质转让专利
申请号 : CN202110835357.1
文献号 : CN113283185B
文献日 : 2021-11-12
发明人 : 黄宇翔 , 王健宗 , 李泽远
申请人 : 平安科技(深圳)有限公司
摘要 :
权利要求 :
1.一种联邦模型训练方法,其特征在于,包括:获取参与方清单和初始客户画像联邦模型,并按照预设筛选方案,从所述参与方清单中筛选出合格参与方;
向各所述合格参与方发送所述初始客户画像联邦模型;
接收各所述合格参与方返回的模型参数;所述模型参数为所述合格参与方对接收的所述初始客户画像联邦模型进行本地训练完后获得;
运用MPI并行方法,通过恶意参数检测模型对各所述模型参数进行异常特征提取,根据提取的异常特征输出各所述模型参数的识别结果;
根据输出的识别结果,对各所述模型参数进行恶意参数过滤处理,得到最终正常参数;
根据所述最终正常参数,对所述初始客户画像联邦模型进行更新及联邦学习,得到全局客户画像联邦模型;
所述运用MPI并行方法,通过恶意参数检测模型对各所述模型参数进行异常特征提取,根据提取的异常特征输出各所述模型参数的识别结果,包括:运用所述MPI并行方法和决策树方法,通过所述恶意参数检测模型并行对各个所述模型参数进行所述异常特征提取,确定出所有所述模型参数中的可疑参数和第一正常参数;
对所有所述可疑参数进行二次恶意识别,识别出所有所述可疑参数中的恶意参数和第二正常参数;
根据所有所述第一正常参数、所有所述第二正常参数和所有所述恶意参数,确定出各所述模型参数的识别结果。
2.如权利要求1所述的联邦模型训练方法,其特征在于,所述根据所述最终正常参数,对所述初始客户画像联邦模型进行训练,得到全局客户画像联邦模型之后,包括:运用MPI发送方法,向各所述合格参与方发送所述全局客户画像联邦模型中的全局模型参数;
接收各所述合格参与方返回的更新模型参数;所述更新模型参数为所述合格参与方在接收完所述全局模型参数并更新初始客户画像联邦模型后训练获得;
运用所述MPI并行方法,通过所述恶意参数检测模型对各所述更新模型参数进行异常特征提取,根据提取的异常特征输出各所述更新模型参数的更新识别结果;
根据输出的更新识别结果,对各所述模型参数进行恶意参数过滤处理,得到待训练更新参数;
根据所述待训练更新参数,对所述全局客户画像联邦模型进行更新及联邦学习,得到更新后的全局客户画像联邦模型。
3.如权利要求1所述的联邦模型训练方法,其特征在于,所述运用所述MPI并行方法和决策树方法,通过所述恶意参数检测模型并行对各个所述模型参数进行所述异常特征提取,确定出所有所述模型参数中的可疑参数和第一正常参数,包括:通过所述MPI并行方法,对各所述模型参数分配进程标识,得到各所述模型参数的进程标识;
将各所述模型参数同步多线程输入与其进程标识对应的所述恶意参数检测模型中;
运用二分决策树方法,对各所述模型参数机进行异常特征的评估分类,预测出个各所述模型参数的预测结果;
根据所有所述预测结果,确定出所有所述模型参数中的可疑参数和第一正常参数。
4.如权利要求1所述的联邦模型训练方法,其特征在于,所述对所有所述可疑参数进行二次恶意识别,识别出所有所述可疑参数中的恶意参数和第二正常参数,包括:将所有所述可疑参数输入恶意参数识别模型,通过恶意参数识别模型对所有所述可疑参数进行恶意关联特征识别,得到各所述可疑参数的第一识别结果;
对所有所述可疑参数进行黑名单用户识别,得到各所述可疑参数的第二识别结果;
根据各所述可疑参数的所述第一识别结果和所述第二识别结果,确定出所有所述可疑参数中的所述恶意参数和所述第二正常参数。
5.一种客户画像方法,其特征在于,包括:接收客户的画像请求,获取所述画像请求中的客户信息;
将所述客户信息输入通过如权利要求1至4任一项所述联邦模型训练方法获得的全局客户画像联邦模型;
通过所述全局客户画像联邦模型对所述客户信息进行客户画像处理,得到所述客户信息的客户画像结果;所述客户画像结果表征了所述客户的客户类别。
6.一种联邦模型训练装置,其特征在于,包括:获取模块,用于获取参与方清单和初始客户画像联邦模型,并按照预设筛选方案,从所述参与方清单中筛选出合格参与方;
发送模块,用于向各所述合格参与方发送所述初始客户画像联邦模型;
接收模块,用于接收各所述合格参与方返回的模型参数;所述模型参数为所述合格参与方对接收的所述初始客户画像联邦模型进行本地训练完后获得;
提取模块,用于运用MPI并行方法,通过恶意参数检测模型对各所述模型参数进行异常特征提取,根据提取的异常特征输出各所述模型参数的识别结果;所述运用MPI并行方法,通过恶意参数检测模型对各所述模型参数进行异常特征提取,根据提取的异常特征输出各所述模型参数的识别结果,包括:运用所述MPI并行方法和决策树方法,通过所述恶意参数检测模型并行对各个所述模型参数进行所述异常特征提取,确定出所有所述模型参数中的可疑参数和第一正常参数;
对所有所述可疑参数进行二次恶意识别,识别出所有所述可疑参数中的恶意参数和第二正常参数;
根据所有所述第一正常参数、所有所述第二正常参数和所有所述恶意参数,确定出各所述模型参数的识别结果;
过滤模块,用于根据输出的识别结果,对各所述模型参数进行恶意参数过滤处理,得到最终正常参数;
训练模块,用于根据所述最终正常参数,对所述初始客户画像联邦模型进行更新及联邦学习,得到全局客户画像联邦模型。
7.一种客户画像装置,其特征在于,包括:请求模块,用于接收客户的画像请求,获取所述画像请求中的客户信息;
输入模块,用于将所述客户信息输入通过如权利要求1至4任一项所述联邦模型训练方法获得的全局客户画像联邦模型;
识别模块,用于通过所述全局客户画像联邦模型对所述客户信息进行客户画像处理,得到所述客户信息的客户画像结果;所述客户画像结果表征了所述客户的客户类别。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至
4任一项所述联邦模型训练方法,或者所述处理器执行所述计算机程序时实现如权利要求5所述客户画像方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述联邦模型训练方法,或者所述处理器执行所述计算机程序时实现如权利要求5所述客户画像方法。
说明书 :
联邦模型训练、客户画像方法、装置、设备及介质
技术领域
背景技术
的精确性的关键是收集足够数量的数据,而数据之中可能包含有关个人的私人信息,例如
个人就医信息或者个人行程信息等,这引发了公众对于个人隐私受到损害的种种担忧。最
近,联邦学习因其在隐私保护方面的显着优势受到越来越多的广泛应用,通过直接将各参
与方的模型参数进行聚合,进而将聚合获得的模型参数训练全局联邦模型,再将训练后的
全局模型参数再反馈至各参与方,以供各参与方对本地模型进行更新,但是,若各参与方中
存在恶意参与方,且恶意参与方在本地训练过程中提供虚假或者恶意的模型参数,将导致
全局模型参数的有效性变低,进而将会直接影响整体的联邦模型质量,导致整个联邦学习
过程失效,进而导致联邦学习建模的效率和精度变低。
发明内容
得到最终正常参数,以及根据正常参数进行参数更新和训练,得到全局客户画像联邦模型,
自动去除恶意参与方提供的恶意参数,提高了联邦学习建模的效率和精度。
步骤,或者所述处理器执行所述计算机程序时实现上述客户画像方法的步骤。
处理器执行所述计算机程序时实现上述客户画像方法的步骤。
与方;向各所述合格参与方发送所述初始客户画像联邦模型;接收各所述合格参与方返回
的模型参数;运用MPI并行方法,通过恶意参数检测模型对各所述模型参数进行异常特征提
取,根据提取的异常特征输出各所述模型参数的识别结果;根据输出的识别结果,对各所述
模型参数进行恶意参数过滤处理,得到最终正常参数;根据所述最终正常参数,对所述初始
客户画像联邦模型进行更新及联邦学习,得到全局客户画像联邦模型,如此,实现了通过预
设筛选方案筛选出合格参与方,接收各合格参与方返回的模型参数,并运用MPI并行方法,
通过恶意参数检测模型进行异常特征提取,以及恶意参数过滤处理,自动获得正常参数,能
够基于有效的正常参数进行更新及联邦学习,快速地、准确地训练得到全局客户画像联邦
模型,自动去除恶意参与方提供的恶意参数,提高了联邦学习建模的效率和精度,节省了成
本,缩短了联邦学习建模周期,能够快速地应用至场景中。
全局客户画像联邦模型;通过所述全局客户画像联邦模型对所述客户信息进行客户画像处
理,得到所述客户信息的客户画像结果,如此,实现了通过全局客户画像联邦模型能够快速
地对客户进行客户画像处理,自动识别出客户的客户类别,无需人工识别,减少人工识别的
工作量,提高了客户画像的效率和质量。
附图说明
例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图
获得其他的附图。
具体实施方式
明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本发明保护的范围。
人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独
立的服务器或者是多个服务器组成的服务器集群来实现。
从历史的联邦模型库中迁移的历史训练完成的神经网络模型,所述预设筛选方案可根据需
求设定,比如预设筛选方案为在所述参与方清单中去除历史黑名单中的参与方(因为历史
黑名单中的参与方发送的恶意参数的风险较高),或者依据一定的规则选取终端或客户端,
或者在所述参与方清单中选择同一以及相邻的集群下的客户端等,其中,一定的规则可以
设定为选取终端响应时长低于阈值的规则,因为某一客户端的终端响应时长大于或者等于
阈值,说明该客户端的网络信号不稳定或者带宽受限,对于联邦学习的效率存在影响,所以
选取终端响应时长低于阈值的客户端,有利于所述初始客户画像联邦模型的联邦学习,所
述合格参与方为参与所述初始客户画像联邦模型的终端或者客户端。
画像联邦模型传输至Docker容器(为一个开源的应用容器引擎),该Docker容器将其转成镜
像文件,再将该镜像文件通过该Docker容器推送至各个合格参与方的终端,提高了传输速
度和保证了初始客户画像联邦模型的安全性、完整性及正确性。
练,不断学习客户特征,训练迭代接收到的初始客户画像联邦模型中的参数,直至该初始客
户画像联邦模型达到预设收敛条件,停止训练,此时将收敛后的初始客户画像联邦模型的
权重和参数记录为所述模型参数,所述模型参数为所述合格参与方对接收的所述初始客户
画像联邦模型进行本地训练完后获得。
需求设定,比如人为选择,或者通过自然语言识别模型检索所有存储数据中与所述初始客
户画像联邦模型的输入描述相匹配的所述样本,例如:初始客户画像联邦模型的输入描述
为个人就医信息,则在存储数据库中运用文本相似度算法,查找“客户”“就医”“历史记录”
等相匹配内容的客户信息作为样本,通过将查找到的样本输入该初始客户画像联邦模型
中,进行训练学习,学习获得该合格参与方的所述模型参数,如此,能够自动查找出匹配的
样本进行训练,实现快速获得模型参数的效果,无需人工选取样本,减少了人工操作,提高
了效率。
所述MPI并行方法可以并行执行多个进程,并不相互干扰,能够提高执行效率,运用MPI并行
方法,为每个所述合格参与方返回的所述模型参数增加进程标识,相应地给各个所述合格
参与方添加唯一标识,将所有增加了进程标识的所述模型参数输入进程组中,根据进程组
中的各个进程标识并行输入与各进程标识对应的客户端(服务中心)的所述恶意参数检测
模型中。
取,所述异常特征为具有与恶意参数相似的特征,所述恶意参数为历史收集的对训练付出
远离真实的目标结果且对训练产生不良现象的参数,例如恶意参数为参数幅度跨度大,或
者模型参数精度越来越不精确等,输出各所述模型参数的识别结果的过程为确定出所有所
述模型参数中的可疑参数,再对所有所述可疑参数进行二次恶意识别,最终识别出所有模
型参数中的恶意参数和最终正常参数的识别过程,所述识别结果表征了各个所述模型参数
中哪些是最终正常参数哪些是恶意参数的结果。
数的识别结果,包括:
常参数。
预测模型代表的是对象属性与对象值之间的一种映射关系,最终预测出评估值,通过评估
值可以确定出对象属性所属的类别,所述恶意参数检测模型为通过所述决策树方法构建的
预测模型,各所述模型参数输入所述恶意参数检测模型中,通过所述恶意参数检测模型对
各所述模型参数进行异常特征识别,运用决策树方法中的不断分裂所述模型参数中的属
性,最终得到评估值,从而预测出该模型参数是所述可疑参数或者所述第一正常参数,即将
大于预设阈值的所述评估值所对应的所述模型参数确定为所述可疑参数,将小于或者等于
所述预设阈值的所述评估值对应的所述模型参数确定为所述第一正常参数,所述可疑参数
为具有所述异常特征的参数,所述可疑参数属于与恶意参数十分相似的参数,所述第一正
常参数为不具有所述异常特征的参数,所述第一正常参数为初步预测出的正常参数。
模型参数中的可疑参数和第一正常参数,包括:
够在并行处理中不出现混合传输的问题,通过所述MPI并行方法可以实现将各所述模型参
数汇聚在所述进程组中,汇聚后所有添加了进程标识的所述模型参数在同一时刻输入所述
恶意参数检测模型中。
二分决策树方法不断分裂叶子节点,不断对所述异常特征进行提取及评估所述异常特征的
评估值,例如:假设一个模型参数为 , 为第 个参数的特征数据, 为判别
结果(第一正常参数、可疑参数等),CART树为每片叶子节点分类后分配分值,最后将每个
CART树的分值相加获得总得分,并通过K个加法函数进行评估,所述加法函数为:
值,将所述模型参数下的所有参数的所述评估值汇聚成一个数组,得到该模型参数的评估
值,将其记录为该模型参数的预测结果。
法。
的参数的所述评估值记录为所述第一正常参数。
参数检测模型中;运用二分决策树方法,对各所述模型参数机进行异常特征的评估分类,预
测出个各所述模型参数的预测结果;根据所有所述预测结果,确定出所有所述模型参数中
的可疑参数和第一正常参数,如此,能够运用MPI并行方法和二分决策树方法,自动预测出
所有模型参数中哪些为可疑参数哪些为第一正常参数,无需人工识别,直接通过异常特征
的评估分类可以评估出各模型参数中是否包含有可疑的恶意参数,提高了可疑参数识别的
准确性和可靠性,为后续的恶意参数识别提供了数据基础。
行相互关联特征提取,根据提取的相互关联特征确定出是否为恶意参数的第一识别结果的
识别过程,所述黑名单用户识别为判断所有所述可疑参数所对应的所述合格参与方是否在
黑名单用户之列或者与黑名单用户之列的用户存在关联关系(例如:同属于一个集群,或者
定位同属一个网点位置等等)的识别过程,通过所述二次恶意识别能够确定出所有所述可
疑参数中的所述恶意参数和所述第二正常参数,所述恶意参数为对联邦模型的学习具有不
利影响的参数,所述第二正常参数为可疑参数中可用于联邦模型学习的参数,即所述可疑
参数中排除所述恶意参数就可获得所述第二正常参数。
述子神经网络模型的个数为根据恶意关联的组合个数相同,即一种恶意关联的组合方式训
练一个所述子神经网络模型,一个所述子神经网络可以提取输入的所述可疑参数中与其对
应的恶意关联的组合方式的参数进行恶意关联特征识别,识别出该可疑参数针对与该恶意
关联的组合方式的参数是否为恶意参数的概率值,将与该可疑参数对应的所有概率值进行
求和取均值,得到该可疑参数的所述第一识别结果。
(例如:同属于一个集群,或者定位同属一个网点位置等等)的识别过程,从而得到所述可疑
参数是否为恶意参数的所述第二识别结果。
参数,去除所有恶意参数后的所有所述可疑参数记录为所述正常参数。
果;对所有所述可疑参数进行黑名单用户识别,得到各所述可疑参数的第二识别结果;根据
各所述可疑参数的所述第一识别结果和所述第二识别结果,确定出所有所述可疑参数中的
所述恶意参数和所述第二正常参数,如此,实现了通过恶意关联特征识别和黑名单用户识
别,自动进行二次恶意识别,能够准确地识别出恶意参数,提高了识别准确性。
二正常参数还是恶意参数。
疑参数和第一正常参数;对所有所述可疑参数进行二次恶意识别,识别出所有所述可疑参
数中的恶意参数和第二正常参数;根据所有所述第一正常参数、所有所述第二正常参数和
所有所述恶意参数,确定出各所述模型参数的识别结果,如此,实现了自动识别出模型参数
中是否存在恶意参数的识别结果,无需人工识别,提高了识别准确性。
第一正常参数所对应的参数和与所述第二正常参数所对应的参数的集合。
行传输至所述初始客户画像联邦模型,再进行多进程取均值方式的更新方式的更新方法,
并运用联邦学习的方式进行对所述初始客户画像联邦模型进行训练,即通过将客户端(服
务中心)中的样本输入更新后的所述初始客户画像联邦模型进行机器学习,迭代更新训练
完后获得所述全局客户画像联邦模型,通过采用各个模型参数中的最终正常参数进行机器
学习,能够提高得到准确率高且质量高的全局客户画像联邦模型。
联邦模型;接收各所述合格参与方返回的模型参数;运用MPI并行方法,通过恶意参数检测
模型对各所述模型参数进行异常特征提取,根据提取的异常特征输出各所述模型参数的识
别结果;根据输出的识别结果,对各所述模型参数进行恶意参数过滤处理,得到最终正常参
数;根据所述最终正常参数,对所述初始客户画像联邦模型进行更新及联邦学习,得到全局
客户画像联邦模型,如此,实现了通过预设筛选方案筛选出合格参与方,接收各合格参与方
返回的模型参数,并运用MPI并行方法,通过恶意参数检测模型进行异常特征提取,以及恶
意参数过滤处理,自动获得正常参数,能够基于有效的正常参数进行更新及联邦学习,快速
地、准确地训练得到全局客户画像联邦模型,自动去除恶意参与方提供的恶意参数,提高了
联邦学习建模的效率和精度,节省了成本,缩短了联邦学习建模周期,能够快速地应用至场
景中。
所述全局客户画像联邦模型中需要提供给各所述合格参与方进行替换原初始客户画像联
邦模型中的相关参数,通过所述MPI发送方法,可以按照已分配好的所述进程标识向与其所
对应的所述合格参与方发送所述全局模型参数。
客户画像联邦模型进行训练,直至替换后的该初始客户画像联邦模型达到预设收敛条件,
停止训练,此时将收敛后的初始客户画像联邦模型的权重和参数记录为所述更新模型参
数,所述更新模型参数为所述合格参与方对接收的所述全局模型参数进行本地训练完后获
得。
加唯一标识,将所有增加了进程标识的所述更新模型参数输入进程组中,根据进程组中的
各个进程标识并行输入与各进程标识对应的客户端(服务中心)的所述恶意参数检测模型
中。
意参数的结果。
参数为所有更新模型参数中所有正常参数的集合。
客户画像联邦模型,如此,能够通过不断更新可以实时随着合格参与方的样本量的增加不
断学习,得到精度更高的全局客户画像联邦模型,提高了全局客户画像联邦模型的准确率
高且质量高,提高了客户体验满意度。
算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的
服务器或者是多个服务器组成的服务器集群来实现。
关的信息,例如:个人就医信息或者个人行程信息等信息。
息输入获得的所述全局客户画像联邦模型中。
对应的信息进行K‑mean均值聚类方法的聚类处理,得到一个聚焦点,再计算该聚焦点距离
各个客户类别的中心点的欧式距离,根据该聚焦点距离各个客户类别的中心点的欧式距
离,确定出该聚焦点属于哪个客户类别的过程,通过所述客户画像处理后,可以确定出与所
述客户信息所对应的客户的所述客户画像结果,所述客户画像结果表征了所述客户的客户
类别,例如:客户画像结果表征了客户的生活圈是否活跃的客户类别,客户类别包括生活圈
活跃用户、生活圈潜在用户和生活圈固定用户等等,生活圈活跃程度可以通过客户信息中
的个人行程信息或者个人移动定位信息的移动程度体现,如此,通过联邦模型训练方法获
得的全局客户画像联邦模型,能够更加准确地对客户进行客户类别的识别,无需大量客户
的样本就可以得到准确的客户画像结果,提高了客户画像的准确率和可靠性,并提高了客
户画像的效率。
像联邦模型对所述客户信息进行客户画像处理,得到所述客户信息的客户画像结果,如此,
实现了通过全局客户画像联邦模型能够快速地对客户进行客户画像处理,自动识别出客户
的客户类别,无需人工识别,减少人工识别的工作量,提高了客户画像的效率和质量。
块12、接收模块13、提取模块14、过滤模块15和训练模块16。各功能模块详细说明如下:
组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以
以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的
操作。
103。各功能模块详细说明如下:
述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储
于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包
括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据
库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算
机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以
实现一种联邦模型训练方法,或者客户画像方法。
训练方法,或者处理器执行计算机程序时实现上述实施例中客户画像方法。
行时实现上述实施例中客户画像方法。
可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,
本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可
包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM
(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括
随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,
诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强
型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM
(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上
描述的全部或者部分功能。
实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改
或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应
包含在本发明的保护范围之内。