一种基于横向联邦学习的反洗钱识别方法、装置及系统转让专利

申请号 : CN202110264163.0

文献号 : CN113094407B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 武润鹏李衡张岩邹杰

申请人 : 广发证券股份有限公司

摘要 :

本发明公开了一种基于横向联邦学习的反洗钱识别方法、装置及系统,所述方法先对各参与节点所提供的数据特征进行特征对齐,提取出用于构建反洗钱模型的基础数据特征;根据各参与节点所上传的各数据样本的用户ID以及样本生成时间进行样本同步;向各参与节点下发时序特征构造指令,构造出所需的时序特征的最终特征值,并将其下发至各个参与节点,以使各个参与节点根据获取的时序特征值结合自身的数据特征的特征值,通过横向联邦学习构建出反洗钱识别模型,最终根据所构建的反洗钱模型进行反洗钱识别。通过实施本发明实施例能够提高反洗钱识别的准确性。

权利要求 :

1.一种基于横向联邦学习的反洗钱识别方法,其特征在于,包括:

对若干参与节点的样本数据表中各数据特征进行特征对齐,生成用于构建反洗钱模型的基础数据特征;其中,每一所述样本数据表包括若干数据样本,且每一数据样本均设置有用户ID以及样本生成时间;

根据用户ID以及样本生成时间对各所述参与节点的样本数据表进行样本同步;其中,在进行样本同步时,将当前参与节点中一选定数据样本的用户ID和样本生成时间发送至未拥有所述选定数据样本但拥有与所述选定数据样本用户ID相同的数据样本的参与节点;

向各所述参与节点下发时序特征构造指令,以使各所述参与节点在接收所述时序特征构造指令时,根据所述时序构造指令所包含的统计时间维度信息,所需的基础数据特征的特征名称以及计算方式,基于样本同步后的样本数据表计算所需构造的时序特征的基础特征值;根据各所述基础特征值计算所述时序特征的最终特征值;

将所述时序特征的最终特征值下发至各所述参与节点,以使各所述参与节点根据所述时序特征的最终特征值以及自身的数据特征的特征值,通过横向联邦学习生成反洗钱识别模型并根据所述反洗钱识别模型进行反洗钱识别;

所述对若干参与节点的样本数据表中各数据特征进行特征对齐,生成用于构建反洗钱模型的基础数据特征,具体包括:

取各参与节点的样本数据表中的各数据特征的特征交集,获得若干第一基础数据特征;逐一计算除所述第一基础数据特征外的各数据特征的全局有效率;将全局有效率超过第一预设阈值的数据特征,作为第二基础数据特征;将所有所述第一基础数据特征以及所有所述第二基础数据特征作为所述用于构建反洗钱模型的基础数据特征;

其中,通过以下公式计算一数据特征的全局有效率:

gr为一数据特征的全局有效率、M为参与节点的数量,IrM为数据特征在第M个参与节点的局部有效率、nM为第M个参与节点的数据样本的数量。

2.一种基于横向联邦学习的反洗钱识别装置,其特征在于,包括:特征对齐模块、样本同步模块、时序特征构造模块以及反洗钱识别模块;

所述特征对齐模块,用于对若干参与节点的样本数据表中各数据特征进行特征对齐,生成用于构建反洗钱模型的基础数据特征;其中,每一所述样本数据表包括若干数据样本,且每一数据样本均设置有用户ID以及样本生成时间;所述对若干参与节点的样本数据表中各数据特征进行特征对齐,生成用于构建反洗钱模型的基础数据特征,具体包括:取各参与节点的样本数据表中的各数据特征的特征交集,获得若干第一基础数据特征;逐一计算除所述第一基础数据特征外的各数据特征的全局有效率;将全局有效率超过第一预设阈值的数据特征,作为第二基础数据特征;将所有所述第一基础数据特征以及所有所述第二基础数据特征作为所述用于构建反洗钱模型的基础数据特征;其中,通过以下公式计算一数据特征的全局有效率: gr为一数据特征的全局有效率、M为参与节点的数量,IrM为数据特征在第M个参与节点的局部有效率、nM为第M个参与节点的数据样本的数量;所述样本同步模块,用于根据用户ID以及样本生成时间对各所述参与节点的样本数据表进行样本同步;其中,在进行样本同步时,将当前参与节点中一选定数据样本的用户ID和样本生成时间发送至未拥有所述选定数据样本但拥有与所述选定数据样本用户ID相同的数据样本的参与节点;

所述时序特征构造模块,用于向各所述参与节点下发时序特征构造指令,以使各所述参与节点在接收所述时序特征构造指令时,根据所述时序构造指令所包含的统计时间维度信息,所需的基础数据特征的特征名称以及计算方式,计算所需构造的时序特征的基础特征值;根据各所述基础特征值,基于样本同步后的样本数据表计算所述时序特征的最终特征值;

所述反洗钱识别模块,用于将所述时序特征的最终特征值下发至各所述参与节点,以使各所述参与节点根据所述时序特征的最终特征值以及自身的数据特征的特征值,通过横向联邦学习生成反洗钱识别模型并根据所述反洗钱识别模型进行反洗钱识别。

3.一种基于横向联邦学习的反洗钱识别系统,其特征在于,包括:中心节点以及若干参与节点;其中,所述中心节点包括如权利要求2所述的基于横向联邦学习的反洗钱识别装置。

说明书 :

一种基于横向联邦学习的反洗钱识别方法、装置及系统

技术领域

[0001] 本发明涉及计算机技术领域,尤其涉及一种基于横向联邦学习的反洗钱识别方法、装置及系统。

背景技术

[0002] 现有基于机器学习的反洗钱判断,由各证券公司利用各自的交易数据单独训练模型,然后进行反洗钱判断;在反洗钱模型构造过程中,所需要的数据主要分为两类;一类是单一特征,这类特征值依赖于当前记录,例如客户的年纪或职业特征;另一类为时序特征,这一类特征依赖于多条记录。例如某个客户最近一个月的交易数量,这个特征就需要对客户近一个月内所有交易记录进行汇总后得到;而同一个客户在不同公司可能有不同的交易数据,不同公司的数据具有保密性无法互通,那么若仅依靠单个公司的数据来构造反洗钱模型,会因为数据不全面导致所构造的时序特征不准确,进而导致模型的准确性较低的问题,此外单个公司的历史洗钱案件数量很少,仅由一个公司的数据所构造的模型,存在过拟合现象,误差较大,

发明内容

[0003] 本发明实施例提供一种基于横向联邦学习的反洗钱识别方法、装置及系统,能够提高反洗钱识别的准确性。
[0004] 本发明一实施例提供一种基于横向联邦学习的反洗钱识别方法,包括:
[0005] 对若干参与节点的样本数据表中各数据特征进行特征对齐,生成用于构建反洗钱模型的基础数据特征;其中,每一所述样本数据表包括若干数据样本,且每一数据样本均设置有用户ID以及样本生成时间;
[0006] 根据用户ID以及样本生成时间对各所述参与节点的样本数据表进行样本同步;其中,在进行样本同步时,将当前参与节点中一选定数据样本的用户ID和样本生成时间发送至未拥有所述选定数据样本但拥有与所述选定数据样本用户ID相同的数据样本的参与节点;
[0007] 向各所述参与节点下发时序特征构造指令,以使各所述参与节点在接收所述时序特征构造指令时,根据所述时序构造指令所包含的统计时间维度信息,所需的基础数据特征的特征名称以及计算方式,基于样本同步后的样本数据表计算所需构造的时序特征的基础特征值;根据各所述基础特征值,计算所述时序特征的最终特征值;
[0008] 将所述时序特征的最终特征值下发至各所述参与节点,以使各所述参与节点根据所述时序特征的最终特征值以及自身的数据特征的特征值,通过横向联邦学习生成反洗钱识别模型并根据所述反洗钱识别模型进行反洗钱识别。
[0009] 进一步的,所述对若干参与节点的样本数据表中各数据特征进行特征对齐,生成用于构建反洗钱模型的基础数据特征,具体包括:
[0010] 取各参与节点的样本数据表中的各数据特征的特征交集,获得若干第一基础数据特征;
[0011] 逐一计算除所述第一基础数据特征外的各数据特征的全局有效率;将全局有效率超过第一预设阈值的数据特征,作为第二基础数据特征;
[0012] 将所有所述第一基础数据特征以及所有所述第二基础数据特征作为所述用于构建反洗钱模型的基础数据特征。
[0013] 进一步的,通过以下公式计算一数据特征的全局有效率:
[0014]
[0015] 其中,gr为一数据特征的全局有效率、M为参与节点的数量,IrM为数据特征在第M个参与节点的局部有效率、nM为第M个参与节点的数据样本的数量。
[0016] 在上述方法项实施例的基础上,本发明对应提供了装置项实施例。
[0017] 本发明一实施例提供了一种基于横向联邦学习的反洗钱识别装置,包括特征对齐模块、样本同步模块、时序特征构造模块以及反洗钱识别模块;
[0018] 所述特征对齐模块,用于对若干参与节点的样本数据表中各数据特征进行特征对齐,生成用于构建反洗钱模型的基础数据特征;其中,每一所述样本数据表包括若干数据样本,且每一数据样本均设置有用户ID以及样本生成时间;
[0019] 所述样本同步模块,用于根据用户ID以及样本生成时间对各所述参与节点的样本数据表进行样本同步;其中,在进行样本同步时,将当前参与节点中一选定数据样本的用户ID和样本生成时间发送至未拥有所述选定数据样本但拥有与所述选定数据样本用户ID相同的数据样本的参与节点;
[0020] 所述时序特征构造模块,用于向各所述参与节点下发时序特征构造指令,以使各所述参与节点在接收所述时序特征构造指令时,根据所述时序构造指令所包含的统计时间维度信息,所需的基础数据特征的特征名称以及计算方式,样本同步后的样本数据表计算所需构造的时序特征的基础特征值;根据各所述基础特征值,计算所述时序特征的最终特征值;
[0021] 所述反洗钱识别模块,用于将所述时序特征的最终特征值下发至各所述参与节点,以使各所述参与节点根据所述时序特征的最终特征值以及自身的数据特征的特征值,通过横向联邦学习生成反洗钱识别模型并根据所述反洗钱识别模型进行反洗钱识别。
[0022] 进一步的,所述特征对齐模块,对若干参与节点的样本数据表中各数据特征进行特征对齐,生成用于构建反洗钱模型的基础数据特征,具体包括:
[0023] 取各参与节点的样本数据表中的各数据特征的特征交集,获得若干第一基础数据特征;
[0024] 逐一计算除所述第一基础数据特征外的各数据特征的全局有效率;将全局有效率超过第一预设阈值的数据特征,作为第二基础数据特征;
[0025] 将所有所述第一基础数据特征以及所有所述第二基础数据特征作为所述用于构建反洗钱模型的基础数据特征。
[0026] 进一步的,所述特征对齐模块,通过以下公式计算一数据特征的全局有效率:
[0027]
[0028] 其中,gr为一数据特征的全局有效率、M为参与节点的数量,IrM为数据特征在第M个参与节点的局部有效率、nM为第M个参与节点的数据样本的数量。
[0029] 在上述装置项实施例的基础上,本发明提供了一种基于横向联邦学习的反洗钱识别系统,所述系统包括中心节点以及若干参与节点;所述中心节点包括本发明上述任意一项所述的基于横向联邦学习的反洗钱识别装置。
[0030] 通过实施本发明实施例具有如下有益效果:
[0031] 本发明实施例提供了一种基于横向联邦学习的反洗钱识别方法、装置及系统,所述方法先对各参与节点所提供的数据特征进行特征对齐,提取出用于构建反洗钱模型的基础数据特征,然后根据各参与节点所上传的各数据样本的用户ID以及样本生成时间进行样本同步,紧接着向各参与节点下发时序特征构造指令,使得各参与节点根据时序特征构造指令,基于样本同步后的样本数据表计算出所需构造的时序特征的基础特征值;紧接着获取各个参与节点的基础特征值,然后根据各参与节点的基础特征值计算出所需构造的时序特征的最终值,然后下发至各个参与节点,然后各个参与节点根据获取的时序特征值结合自身的数据特征的特征值,通过横向联邦学习构建出反洗钱识别模型,最终根据所构建的反洗钱模型进行反洗钱识别。相比与现有技术本发明联合各个参与节点的数据进行时序特征的构造,避免了因数据不全面导致所构造的时序特征不准确的问题,并且通过横向联邦学习扩大了样本数量,进而提高了所构建的反洗钱模型的准确度,使其能够更准确的进行反洗钱识别。

附图说明

[0032] 图1是本发明一实施例提供的一种基于横向联邦学习的反洗钱识别方法的流程示意图。
[0033] 图2是本发明一实施例提供的一种基于横向联邦学习的反洗钱识别装置的结构示意图。
[0034] 图3是本发明一实施例提供的一种基于横向联邦学习的反洗钱识别系统的系统架构图。

具体实施方式

[0035] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0036] 如图1所示,本发明实施例提供了一种基于横向联邦学习的反洗钱识别方法,至少包括:
[0037] 步骤S101:对若干参与节点的样本数据表中各数据特征进行特征对齐,生成用于构建反洗钱模型的基础数据特征;其中,每一所述样本数据表包括若干数据样本,且每一数据样本均设置有用户ID以及样本生成时间。
[0038] 步骤S102:根据用户ID以及样本生成时间对各所述参与节点的样本数据表进行样本同步;其中,在进行样本同步时,将当前参与节点中一选定数据样本的用户ID和样本生成时间发送至未拥有所述选定数据样本但拥有与所述选定数据样本用户ID相同的数据样本的参与节点。
[0039] 步骤S103:向各所述参与节点下发时序特征构造指令,以使各所述参与节点在接收所述时序特征构造指令时,根据所述时序构造指令所包含的统计时间维度信息,所需的基础数据特征的特征名称以及计算方式,基于样本同步后的样本数据表计算所需构造的时序特征的基础特征值;根据各所述基础特征值,计算所述时序特征的最终特征值。
[0040] 步骤S104:将所述时序特征的最终特征值下发至各所述参与节点,以使各所述参与节点根据所述时序特征的最终特征值以及自身的数据特征的特征值,通过横向联邦学习生成反洗钱识别模型并所述反洗钱识别模型进行反洗钱识别。
[0041] 首先需要说明的是本本发明所述基于横向联邦学习的反洗钱识别方法适用于在中心节点运行。
[0042] 对于步骤S101:在一个优选的实施例中,所述对若干参与节点的样本数据表中各数据特征进行特征对齐,生成用于构建反洗钱模型的基础数据特征,具体包括:
[0043] 取各参与节点的样本数据表中的各数据特征的特征交集,获得若干第一基础数据特征;逐一计算除所述第一基础数据特征外的各数据特征的全局有效率;将全局有效率超过第一预设阈值的数据特征,作为第二基础数据特征;将所有所述第一基础数据特征以及所有所述第二基础数据特征作为所述用于构建反洗钱模型的基础数据特征。
[0044] 具体的,在证券行业的反洗钱场景中,常常面临各个参与节点样本量不足的问题,因此引入横向联邦学习来解决该问题。在横向联邦学习中,各个参与节点往往具有不同的样本,但各方所持有的特征却有很大的重叠。因此在开展联邦学习之前,要先对各个参与节点进行特征对齐,筛选出各方共同的特征来进行训练。然而在经典的横向联邦学习场景中,在进行特征对齐的时候,是直接使用各个参与节点的特征交集来进行的。这样一来,如果某些特征只存在于部分参与节点,即使该特征的填充率很高,依然会被放弃使用。针对这个问题,本发明采用新的数据特征对齐方式,来进行数据特征对齐,以下进行详细说明。
[0045] 首先每个参与节点的样本数据表中都包含有若干条数据样本,每条数据样本都记录有若干数据项(即上述数据特征项);每个数据项包括数据项名称以及对应的数值;每个参与节点所包含的具体数据项可能有差异,但大体包括:用户的基本信息、用户历史交易信息以及用户历史非交易信息;用户的基本信息:例如用户的年龄、职位、年收入、性别、国籍、居住地等;用户历史交易信息为用户历史的证券委托记录,例如:委托价格、标的等;用户历史非交易信息为用户在证券公司进行的一些无关交易的行为的记录,例如:变更存款银行的记录以及资金转入、转出记录等。
[0046] 在进行数据特征对齐时,各参与节点将自身样本数据表内的各个数据项的字段名上传至中心节点;中心节点接收后首先求各个参与节点所上传的数据项的交集,将参与节点均具备的数据项作为第一基础数据特征;
[0047] 根据剩余数据项,在各参与节点的局部有效率计算其余各数据项的全局有效率,将全局有效率达到预设阈值的数据项提取出来,获得若干第二基础数据特征,将第一基础数据特征和第二基础数据特征合并,得到最终用于构建反洗钱模型的基础数据特征,完成特征对齐:
[0048] 一数据项在单个参与节点的局部有效率可以用该数据项在单个参与节点的填充率进行表征,填充率越高,局部有效率越高;若一参与节点的样本数据表中无该数据项,那么该数据项在该参与节点的局部有效率为0;
[0049] 局部有效率用Ir表示,用于表征单个参与节点所持有的该数据特征的有效率。
[0050] 全局有效率用gr表示,用于表征该数据特征在所有参与节点的整体有效率,该有效率决定特征是否参与后续的联邦学习训练过程。
[0051] 全局有效率的计算可以采用如下方式:
[0052]
[0053] 式中,gr为一数据特征的全局有效率、M为参与节点的数量,IrM为数据特征在第M个参与节点的局部有效率、nM为第M个参与节点的数据样本的数量。
[0054] 采用上述公式计算出剩余的各数据项的全局有效性,若全局有效性gr大于第一预设阈值gth;那么则将该数据特征作为第二基础数据特征,用于后续反洗钱模型的训练,采用本发明上述所提供的特征对齐方法能够提高反洗钱识别模型的效果,其中第一预设阈值gth可在后续横向联邦学习模型训练中,作为超参数来确定。
[0055] 对于步骤S102;反洗钱场景是一个典型的时序类场景,所构造的数据样本往往带有时间信息的(即上述样本生成时间),因为同一个客户在不同时间可能有不同的洗钱风险。因而不同客户在不同的时间,会被看作是不同的样本。而同一个客户有可能会在不同参与节点进行交易;因此各不同参与节点样本数据表中的数据样本可能具有相同的数据样本(以用户ID和样本生成时间作为判别标准,用户ID和样本生成时间均相同则认为数据样本相同);也可能具有用户ID相同但是样本生成时间不同的样本
[0056] 如表1所示,表示提供了三个不同参与节点所持有的数据样本:
[0057]
[0058] 表1
[0059] 从表1可以看出里可以看到,参与节点m1和m3拥有相同的数据样本,即 和参与节点m1和m2所持有的数据样本虽然各不相同,但样本 和 都为用户U1的。由于各个参与节点的客户有重叠,因而在对各参与节点进行特征构造时,往往可以利用其它参与节点所包含同个客户的数据来提升模型效果。因此,在证券行业反洗钱场景建模时,不仅要进行特征对齐,同时也要进行样本同步。样本同步的方式具体如下:
[0060] 首先各参与节点使用ins_sync报文将各自的数据样本发送給中心节点,所发送的数据样本仅包含用户ID以及样本生成时间,中心节点在接收到各个参与节点发来的ins_sync报文后,进行整合。随后进行各个参与节点的样本同步。具体同步方式为:针对某个参与节点的某一个样本,将其用户ID和样本生成时间发给未拥有该样本但拥有与该样本相同用户ID的样本的各个参与节点。进行样本同步后各参与节点所持有的样本如表2所示:
[0061]
[0062] 表2
[0063] 从表2可以看出经过样本同步后,参与节点m1多了 的用户ID和样本生成时间,参与节点m2多了 的用户ID和样本生成时间;参与节点m3;多了 的用户ID和样本生成时间。需要说明的是在进行样本同步时,只对用户ID和样本生成时间进行了同步,并没有数据样本中各数据项的数值进行同步;例如上述参与节点m1在进行样本同步后,m1的样本数据表中增加了一条用户ID为U1,样本生成时间为20201010的数据样本,但是该数据样本中各数据项的值均为空。
[0064] 对于步骤S103,在特征对齐和样本同步之后,即可开始进行训练反洗钱模型所需要的时序特征的构造过程,如上述背景技术所提及的,时序类特征的构造需要用到历史数据,同个客户的历史数据可能散落在各个参与节点。因此针对这类特征,需要各个参与节点借助中心节点来构造。以下针对一些常见的时序类特征,在保证基础数据安全性的前提下,设计了通信协议来进行特征构造。其他更复杂的特征构造方式可以在这些常见的时序类构造方式的基础上通过组合或修改得来。
[0065] 下面详述给定样本s,求其在时间窗w内,数据列c上的各类特征构造相关的通信协议。
[0066] 1:求和类时序特征构造(例如求某个用户最近一个月的交易金额)
[0067] 以w_sum_trx_amt_3m特征的构造为例,该特征含义为客户在样本日期前三个月内的总交易金额。要构造该特征,首先中心节点通过window_sum_cal报文,向各个参与节点发送求和类时序特征构造指令。window_sum_cal报文的格式如表3所示
[0068] proto_type(协议类型) window_sum_calfe_name(特征名称) w_sum_trx_amt_3m
W(时间窗长度) 3个月
C(数据列) Trx_amt
[0069] 表3
[0070] 表3中proto_type协议类型对应本发明上述时序构造指令所包含的计算方式,W(时间窗长度)对应本发明上述时序构造指令所包含的统计时间维度信息,C(数据列)对应本发明上述时序构建值指令所包含的所需的基础数据特征的特征名称。
[0071] 各个参与节点收到window_sum_cal报文后,针对自己所持有的样本,直接计算出每条样本在对应的时间窗口内的数据列c的值的和 然后通过window_sum_result报文将其发送给中心节点。window_sum_result报文格式如
[0072] 表4所示:
[0073]
[0074] 表4
[0075] 中心节点在接收到来自各个参与节点的window_sum_result协议后,直接对各个参与节点的基础特征值求和即得到该特征的最终特征值。然后通过window_sum_notify将最终特征值发送回各参与节点。
[0076] 例如:假设此时Trx_amt为交易金额,数据样本为;那么当参与节点m1、m2、m3,接收到w_sum_trx_amt_3m这一报文时,针对数据样本,基于自身的样本数据表,提取客户ID1在20200925‑20201225这个时间段内“交易金额”这一数据项的数据值进行求和,得到求和后的值(即上述所需构造的时序特征的基础特征值);然后各参与节点将求和后的值以及对应样本的用户ID和样本生成时间一起发送至中心节点;中心节点对所有参与节求和后的值再次进行求和得到最终数值(即上述时序特征的最终特征值)。这个最终数值为,客户ID1在2020/12/25前3个月内(即2020/09/25–2020/12/25)交易金额的总和的值。在计算出这个值后,中心节点将最终的特征值发送回各个参与节点。
[0077] 2、最值类时序特征构造:针对此类特征,可以构造方式与上述求和类特征类似,针对每个样本,由其所属参与节点计算该样本在时间窗w内,数据列c的值的最大值/最小值,并将结果发送给中心节点。
[0078] 3、平均值类时序特征构造:以w_avg_trx_amt_3m特征的构造为例,该特征含义为客户在样本日期前三个月内的平均交易金额(总交易金额除以总交易笔数)。要构造该特征,首先,中心节点通过window_avg_cal报文向各个参与节点下达指示。报文格式如表5所示。
[0079]
[0080] 表5
[0081] 在接收到window_avg_cal报文后,每个参与节点针对每个样本计算出在时间窗w内的数据列c的和 然后将每个参与节点的每个样本在时间窗w内数据量和和计算得出的 通过window_avg_result报文发送给中心节点。window_avg_result报文格式如表6所示:
[0082]
[0083]
[0084] 表6
[0085] 中间节点在接收到各个参与节点发来的数据后,通过以下公式可以计算出各个样本在时间窗w内数据列c的平均值 然后发送回各个参与节点。
[0086]
[0087] 4、标准差类时序特征构造:以w_std_trx_amt_3m特征的构造为例,该特征含义为客户在样本日期前三个月内的交易金额的标准差,用来表征客户近期每笔交易金额的离散程度。给定样本s,为求其在时间窗w内,数据列c的标准差特征 中心节点首先通过window_std_cal报文向各个参与节点下达指示。报文格式如表7所示:
[0088]
[0089] 表7
[0090] 进而通过前述平均值类特征构造流程,中心节点可以求得样本s在时间窗w内,数据列c的全局平均值 然后中心节点通过window_mss_cal报文将该平均值发往持有该样本的所有参与节点。报文格式如表8所示。
[0091]
[0092] 表8参与节点在接收到该协议请求之后,通过以下公式计算出MSS值。
[0093]
[0094] 上式中, 表示参与节点m中,样本s在其时间窗w中所包含的数据记录集。Vm,r,c表示参与节点m中,数据记录r的列c的值。然后各参与节点通过window_mss_result报文将自己的 和计算得到的 值发给中心节点。报文格式如表9所示:
[0095]
[0096] 表9
[0097] 中心节点根据接收到的数据即可按照下面的公式计算出每个样本的特征值。并将特征值发送给原本持有该样本的参与节点。
[0098]
[0099] 按上述各种时序特征的构造方式,构造出各时序特征及对应的最终特征值。
[0100] 对于步骤S104、中心节点将各时序特征的最终特征值下发至各个参与节点,各参与节点根据所下发时序特征的最终特征值结合自身的数据项的数值训练初步的反洗钱识别模型并将得到的梯度信息发送至中心节点,中心节点将各参与节点发送的梯度信息进行聚合,生成联合梯度信息并将联合梯度信息下发至各参与节点,以使各参与节点根据联合梯度信息对初步反洗钱识别模型进行迭代更新,最终的反洗钱识别模型;然后基于最终训练得到的反洗钱模型进行反洗钱识别。
[0101] 需要说明的是本发明上述中心节点与各参与节点均可理解为服务器。
[0102] 在上述方法项实施例的基础上本发明对应提供了装置项实施例;
[0103] 如图2所示,本发明一实施例提供了一种基于横向联邦学习的反洗钱识别装置包括:特征对齐模块、样本同步模块、时序特征构造模块以及特征分发模块;
[0104] 所述特征对齐模块,用于对若干参与节点的样本数据表中各数据特征进行特征对齐,生成用于构建反洗钱模型的基础数据特征;其中,每一所述样本数据表包括若干数据样本,且每一数据样本均设置有用户ID以及样本生成时间;
[0105] 所述样本同步模块,用于根据用户ID以及样本生成时间对各所述参与节点的样本数据表进行样本同步;其中,在进行样本同步时,将当前参与节点中一选定数据样本的用户ID和样本生成时间发送至未拥有所述选定数据样本但拥有与所述选定数据样本用户ID相同的数据样本的参与节点;
[0106] 所述时序特征构造模块,用于向各所述参与节点下发时序特征构造指令,以使各所述参与节点在接收所述时序特征构造指令时,根据所述时序构造指令所包含的统计时间维度信息,所需的基础数据特征的特征名称以及计算方式,计算所需构造的时序特征的基础特征值;根据各所述基础特征值,基于样本同步后的样本数据表计算所述时序特征的最终特征值;
[0107] 所述反洗钱识别模块,用于将所述时序特征的最终特征值下发至各所述参与节点,以使各所述参与节点根据所述时序特征的最终特征值以及自身的数据特征的特征值,通过横向联邦学习生成反洗钱识别模型并根据所述反洗钱识别模型进行反洗钱识别。
[0108] 在一个优选的实施例中,所述特征对齐模块,对若干参与节点的样本数据表中各数据特征进行特征对齐,生成用于构建反洗钱模型的基础数据特征,具体包括:取各参与节点的样本数据表中的各数据特征的特征交集,获得若干第一基础数据特征;逐一计算除所述第一基础数据特征外的各数据特征的全局有效率;将全局有效率超过第一预设阈值的数据特征,作为第二基础数据特征;将所有所述第一基础数据特征以及所有所述第二基础数据特征作为所述用于构建反洗钱模型的基础数据特征。
[0109] 在一个优选的实施例中,所述特征对齐模块,通过以下公式计算一数据特征的全局有效率:
[0110]
[0111] 其中,gr为一数据特征的全局有效率、M为参与节点的数量,IrM为数据特征在第M个参与节点的局部有效率、nM为第M个参与节点的数据样本的数量。
[0112] 需说明的是,上述装置项实施例是是与本发明方法项实施例相对应的,其能够实现本发明任意一项所述的基于横向联邦学习的反洗钱识别方法;另,所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0113] 在上述装置项实施例的基础上,本发明对应提供了系统项实施例;
[0114] 如图3所示,本发明一实施例提供了一种基于横向联邦学习的反洗钱识别系统,包括中心节点以及若干参与节点;其中,所述中心节点包括本发明上述任意一项所述的基于横向联邦学习的反洗钱识别装置。
[0115] 通过实施本发明实施例具有如下有益效果:
[0116] 本发明实施例通过对各参与节点的数据进行特征同步以及样本同步,然后联合各个参与节点的数据进行时序特征的构造,避免了因数据不全面导致所构造的时序特征不准确的问题,从而提高了反洗钱识别模型的准确度,另外通过横向联邦学习扩大了样本数量,进一步提高了所构建的反洗钱模型的准确度。最终使构建的模型能够更加准确的进行反洗钱识别。
[0117] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。