训练事件预测模型、评估操作事件的方法及装置转让专利

申请号 : CN201910916976.6

文献号 : CN110659744B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 宋博文朱勇椿陈帅顾曦

申请人 : 支付宝(杭州)信息技术有限公司

摘要 :

本说明书实施例提供一种训练事件预测模型以及进行事件评估的方法和装置。在训练方法中,首先获取训练样本集,其中包括大量源域样本和少量目标域样本;将各个样本输入事件预测模型,该模型包括源域提取器、目标域提取器、共享提取器,其中,对于源域样本,采用源域提取器和共享提取器进行处理,对于目标域样本,采用目标域提取器和共享提取器进行处理。然后,基于处理得到的样本特征向量,预测当前样本的分类类别,并据此得到分类损失。另一方面,还根据各源域样本在模型特定网络层的第一表征,以及目标域样本在该网络层的第二表征,确定域适应损失。于是,在分类损失和域适应损失构成的总损失减小的方向,更新和训练事件预测模型。

权利要求 :

1.一种训练事件预测模型的方法,所述方法包括:获取训练样本集,其中包括第一数目的源域样本和第二数目的目标域样本,所述第一数目大于第二数目,各个样本具有对应的分类标签;每个源域样本包括多个源域事件构成的源域事件序列,每个目标域样本包括多个目标域事件构成的目标域事件序列;其中,所述源域事件和目标域事件均为用户操作事件;

将各个样本作为当前样本,输入事件预测模型,所述事件预测模型至少包括源域特征提取器、目标域特征提取器、共享特征提取器和分类器,其中,当所述当前样本为源域样本时,采用所述源域特征提取器对该源域样本进行特征提取,得到源域特征表示;采用所述共享特征提取器,对该源域样本进行特征提取,得到第一特征表示;根据所述源域特征表示和第一特征表示,得到源域样本的样本特征向量;

当所述当前样本为目标域样本时,采用所述目标域特征提取器对该目标域样本进行特征提取,得到目标域特征表示;采用所述共享特征提取器,对该目标域样本进行特征提取,得到第二特征表示;根据所述目标域特征表示和第二特征表示,得到目标域样本的样本特征向量;

利用所述分类器,基于所述当前样本的样本特征向量,预测当前样本的事件类别,得到预测结果;

根据各个样本的预测结果和对应的分类标签,确定分类损失;

根据各个源域样本在所述事件预测模型的特定网络层的第一表征,以及各个目标域样本在该特定网络层的第二表征,确定域适应损失;

根据所述分类损失和所述域适应损失,确定总损失;

在总损失减小的方向,更新所述事件预测模型。

2.根据权利要求1所述的方法,其中,所述源域事件具有第一多项属性;所述目标域事件具有第二多项属性,其中第一多项属性和第二多项属性存在交集;

所述源域特征提取器用于在所述第一多项属性对应的第一特征空间中进行特征提取;

所述目标域特征提取器用于在所述第二多项属性对应的第二特征空间中进行特征提取;

所述共享特征提取器用于在共享特征空间中进行特征提取,其中,所述共享特征空间对应于所述第一多项属性和第二多项属性的并集。

3.根据权利要求2所述的方法,其中,采用所述共享特征提取器,对该源域样本进行特征提取,得到第一特征表示,包括:将所述源域样本中各个源域事件的第一多项属性的属性值填入所述共享特征空间中与所述第一多项属性对应的字段,用缺省值填充其余字段,得到源域事件在共享特征空间中的第一属性表示,根据所述第一属性表示进行特征提取;

采用所述共享特征提取器,对该目标域样本进行特征提取,得到第二特征表示,包括:将所述目标域样本中各个目标域事件的第二多项属性的属性值填入所述共享特征空间中与所述第二多项属性对应的字段,用缺省值填充其余字段,得到目标域事件在共享特征空间中的第二属性表示,根据所述第二属性表示进行特征提取。

4.根据权利要求1所述的方法,其中,所述源域特征提取器、目标域特征提取器和共享特征提取器为参数不同,结构相同的双层特征提取器,所述双层特征提取器包括编码层,第一嵌入层和第二嵌入层;其中,

所述编码层用于,针对输入的当前样本所对应的当前事件序列中的每个事件,将该事件的多项属性信息编码为对应的多个编码向量;

第一嵌入层用于,对各个事件的所述多个编码向量进行第一组合,得到各个事件对应的各个事件向量;

第二嵌入层用于,将所述各个事件向量进行第二组合,得到所述当前事件序列对应的特征表示。

5.根据权利要求4所述的方法,其中,所述第一组合包括,涉及N个编码向量相乘的N阶向量间组合运算,其中N>=2。

6.根据权利要求4所述的方法,其中,所述第二嵌入层包括基于时序的神经网络,用于依次迭代处理所述各个事件向量,得到所述当前事件序列对应的特征表示。

7.根据权利要求4所述的方法,其中,所述第二组合包括,涉及M个事件向量相乘的M阶向量间组合运算,其中M>=2。

8.根据权利要求1所述的方法,其中,根据所述源域特征表示和第一特征表示,得到源域样本的样本特征向量包括,利用第一权重分配因子,对所述源域特征表示和第一特征表示进行加权组合,得到所述源域样本的样本特征向量;

根据所述目标域特征表示和第二特征表示,得到目标域样本的样本特征向量包括,利用第二权重分配因子,对所述目标域特征表示和第二特征表示进行加权组合,得到所述目标域样本的样本特征向量。

9.根据权利要求1所述的方法,其中,根据各个源域样本在所述事件预测模型的特定网络层的第一表征,以及各个目标域样本在该特定网络层的第二表征,确定域适应损失,包括:

根据具有各个分类标签的各个源域样本在所述特定网络层的第一表征,以及具有对应分类标签的各个目标域样本在该特定网络层的第二表征之间的分布差异,确定域适应损失。

10.根据权利要求9所述的方法,其中,所述确定域适应损失,包括:获取具有任意的第一分类标签的各个源域样本在所述特定网络层的第一表征;

获取具有该第一分类标签的各个目标域样本在所述特定网络层的第二表征;

根据所述第一表征和第二表征的分布差异,确定第一分类对应的同类距离;

将所述域适应损失确定为,正比于各个分类对应的同类距离之和。

11.根据权利要求10所述的方法,其中,所述特定网络层为所述分类器中的预测值输出层,所述第一表征为第一预测值,所述第二表征为第二预测值;

根据所述第一表征和第二表征的分布差异,确定第一分类对应的同类距离,包括:确定具有第一分类标签的各个源域样本的各个第一预测值的第一均值;

确定具有该第一分类标签的各个目标域样本的各个第二预测值的第二均值;

根据第一均值和第二均值之差,确定所述第一分类对应的同类距离。

12.根据权利要求10所述的方法,其中,所述第一表征为第一向量表征;所述第二表征为第二向量表征;

根据所述第一表征和第二表征的分布差异,确定第一分类对应的同类距离,包括:确定具有第一分类标签的各个源域样本的各个第一向量表征的第一平均向量;

确定具有该第一分类标签的各个目标域样本的各个第二向量表征的第二平均向量;

根据第一平均向量和第二平均向量的范数距离,确定所述第一分类对应的同类距离。

13.根据权利要求10所述的方法,其中,所述确定域适应损失,还包括:获取具有第二分类标签的各个目标域样本在所述特定网络层的第三表征,所述第二分类标签不同于第一分类标签;

根据所述第一表征和第三表征的分布差异,确定第一分类和第二分类之间的类间距离;

将所述域适应损失确定为,反比于各个不同分类之间的类间距离之和。

14.一种对用户操作事件进行评估的方法,所述方法包括:获取第一事件序列,所述第一事件序列包括有待评估的当前操作事件,以及至少一个历史操作事件,每个操作事件为目标域事件;

获取根据权利要求1的方法训练得到的事件预测模型,其中包括经过训练的源域特征提取器,目标域特征提取器,共享特征提取器以及分类器;

采用所述目标域特征提取器,对该第一事件序列进行特征提取,得到目标域特征表示;

采用所述共享特征提取器,对该第一事件序列进行特征提取,得到共享特征表示;

根据所述目标域特征表示和共享特征表示,得到所述第一事件序列的序列特征向量;

利用所述分类器,基于所述序列特征向量,预测所述第一事件序列中当前操作事件的事件类别。

15.根据权利要求14所述的方法,其中,根据所述目标域特征表示和共享特征表示,得到所述第一事件序列的序列特征向量,包括:利用权重分配因子,对所述目标域特征表示和所述共享特征表示进行加权组合,得到所述序列特征向量;

所述方法还包括,输出所述权重分配因子,以指示所述目标域特征提取器和共享特征提取器对预测结果的影响。

16.根据权利要求15所述的方法,其中,所述权重分配因子通过所述事件预测模型的训练过程而确定。

17.一种训练事件预测模型的装置,所述装置包括:样本集获取单元,配置为获取训练样本集,其中包括第一数目的源域样本和第二数目的目标域样本,所述第一数目大于第二数目,各个样本具有对应的分类标签;每个源域样本包括多个源域事件构成的源域事件序列,每个目标域样本包括多个目标域事件构成的目标域事件序列;其中,所述源域事件和目标域事件均为用户操作事件;

处理单元,配置为将各个样本作为当前样本,输入事件预测模型,所述事件预测模型至少包括源域特征提取器、目标域特征提取器、共享特征提取器和分类器,其中,当所述当前样本为源域样本时,采用所述源域特征提取器对该源域样本进行特征提取,得到源域特征表示;采用所述共享特征提取器,对该源域样本进行特征提取,得到第一特征表示;根据所述源域特征表示和第一特征表示,得到源域样本的样本特征向量;

当所述当前样本为目标域样本时,采用所述目标域特征提取器对该目标域样本进行特征提取,得到目标域特征表示;采用所述共享特征提取器,对该目标域样本进行特征提取,得到第二特征表示;根据所述目标域特征表示和第二特征表示,得到目标域样本的样本特征向量;

预测单元,配置为利用所述分类器,基于所述当前样本的样本特征向量,预测当前样本的事件类别,得到预测结果;

第一损失确定单元,配置为根据各个样本的预测结果和对应的分类标签,确定分类损失;

第二损失确定单元,配置为根据各个源域样本在所述事件预测模型的特定网络层的第一表征,以及各个目标域样本在该特定网络层的第二表征,确定域适应损失;

总损失确定单元,配置为根据所述分类损失和所述域适应损失,确定总损失;

更新单元,配置为在总损失减小的方向,更新所述事件预测模型。

18.一种对用户操作事件进行评估的装置,所述装置包括:事件序列获取单元,配置为获取第一事件序列,所述第一事件序列包括有待评估的当前操作事件,以及至少一个历史操作事件,每个操作事件为目标域事件;

模型获取单元,配置为获取根据权利要求17的装置训练得到的事件预测模型,其中包括经过训练的源域特征提取器,目标域特征提取器,共享特征提取器以及分类器;

特征提取单元,配置为采用所述目标域特征提取器,对该第一事件序列进行特征提取,得到目标域特征表示;采用所述共享特征提取器,对该第一事件序列进行特征提取,得到共享特征表示;

向量获取单元,配置为根据所述目标域特征表示和共享特征表示,得到所述第一事件序列的序列特征向量;

预测单元,配置为利用所述分类器,基于所述序列特征向量,预测所述第一事件序列中当前操作事件的事件类别。

19.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1‑16中任一项的所述的方法。

20.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1‑16中任一项所述的方法。

说明书 :

训练事件预测模型、评估操作事件的方法及装置

技术领域

[0001] 本说明书一个或多个实施例涉及机器学习领域,尤其涉及利用机器学习训练事件预测模型,以及利用该模型评估操作事件的方法和装置。

背景技术

[0002] 在许多场景下,需要对用户操作行为或操作事件进行分析和处理。例如,为了识别出有可能威胁网络安全或用户信息安全的高风险操作行为,例如盗取账户、流量攻击、欺诈
交易等等,可以评估用户操作行为的风险程度,以便进行风险防控。
[0003] 为了评估某项操作行为的风险度,可以基于该项操作行为本身的特征进行分析。进一步地,还可以更全面地考虑用户的行为序列。行为序列是用户在日常操作使用中产生
的一系列点击、访问、购买等事件的发生过程,可表示为事件集合的时间序列,它蕴含了用
户的细粒度习惯偏好等特点,便于更全面地分析用户的操作历史和操作模式。然而,不管是
操作事件还是行为序列数据,都面临特征表征和特征刻画的问题,也就是,要从巨大的特征
空间中抽取出有代表性的聚集性特征,用于刻画操作事件的风险度。特征抽取的工作往往
由业务人员根据经验来进行。然而,可以理解,人工特征工程耗费极大的人力和时间,且效
果严重依赖于人工的业务经验和效率,并且还存在安全性泄露的风险。
[0004] 在一些方案中,提出将特征抽取的工作也通过机器学习来完成,也就是,将大量相关特征都输入到模型中,通过有标注的数据来进行模型训练,自动学习特征的提取和组合。
这对模型设计提出了很高的要求。并且,在标注数据稀少的领域,很难进行这样的模型训
练。
[0005] 因此,希望能有改进的方案,更为准确有效地对操作事件进行分析处理,以便于进行风险防控。

发明内容

[0006] 本说明书一个或多个实施例描述了训练事件预测模型,以及评估操作事件的方法和装置,其中利用数据较为丰富的源域样本以及相对稀少的目标域样本,训练得到同时适
用于源域和目标域的事件预测模型,全面提高事件分类预测的准确性和效率。
[0007] 根据第一方面,提供了一种训练事件预测模型的方法,所述方法包括:
[0008] 获取训练样本集,其中包括第一数目的源域样本和第二数目的目标域样本,所述第一数目大于第二数目,各个样本具有对应的分类标签;每个源域样本包括多个源域事件
构成的源域事件序列,每个目标域样本包括多个目标域事件构成的目标域事件序列;
[0009] 将各个样本作为当前样本,输入事件预测模型,所述事件预测模型至少包括源域特征提取器、目标域特征提取器、共享特征提取器和分类器,其中,当所述当前样本为源域
样本时,采用所述源域特征提取器对该源域样本进行特征提取,得到源域特征表示;采用所
述共享特征提取器,对该源域样本进行特征提取,得到第一特征表示;根据所述源域特征表
示和第一特征表示,得到源域样本的样本特征向量;
[0010] 当所述当前样本为目标域样本时,采用所述目标域特征提取器对该目标域样本进行特征提取,得到目标域特征表示;采用所述共享特征提取器,对该目标域样本进行特征提
取,得到第二特征表示;根据所述目标域特征表示和第二特征表示,得到目标域样本的样本
特征向量;
[0011] 利用所述分类器,基于所述当前样本的样本特征向量,预测当前样本的事件类别,得到预测结果;
[0012] 根据各个样本的预测结果和对应的分类标签,确定分类损失;
[0013] 根据各个源域样本在所述事件预测模型的特定网络层的第一表征,以及各个目标域样本在该特定网络层的第二表征,确定域适应损失;
[0014] 根据所述分类损失和所述域适应损失,确定总损失;
[0015] 在总损失减小的方向,更新所述事件预测模型。
[0016] 在一个实施例中,每个源域事件具有第一多项属性;每个目标域事件具有第二多项属性,其中第一多项属性和第二多项属性存在交集;
[0017] 在这样的情况下,源域特征提取器用于在所述第一多项属性对应的第一特征空间中进行特征提取;目标域特征提取器用于在所述第二多项属性对应的第二特征空间中进行
特征提取;
[0018] 共享特征提取器,则用于在共享特征空间中进行特征提取,其中,共享特征空间对应于所述第一多项属性和第二多项属性的并集。
[0019] 在一个进一步的实施例中,共享特征提取器对源域样本的特征提取过程可以包括:
[0020] 将所述源域样本中各个源域事件的第一多项属性的属性值填入所述共享特征空间中与所述第一多项属性对应的字段,用缺省值填充其余字段,得到源域事件在共享特征
空间中的第一属性表示,根据所述第一属性表示进行特征提取;
[0021] 所述共享特征提取器对目标域样本进行特征提取的过程可以包括:
[0022] 将所述目标域样本中各个目标域事件的第二多项属性的属性值填入所述共享特征空间中与所述第二多项属性对应的字段,用缺省值填充其余字段,得到目标域事件在共
享特征空间中的第二属性表示,根据所述第二属性表示进行特征提取。
[0023] 根据一种实现方式,源域特征提取器、目标域特征提取器和共享特征提取器为参数不同,结构相同的双层特征提取器,所述双层特征提取器包括编码层,第一嵌入层和第二
嵌入层;其中,
[0024] 所述编码层用于,针对输入的当前样本所对应的当前事件序列中的每个事件,将该事件的多项属性信息编码为对应的多个编码向量;
[0025] 第一嵌入层用于,对各个事件的所述多个编码向量进行第一组合,得到各个事件对应的各个事件向量;
[0026] 第二嵌入层用于,将所述各个事件向量进行第二组合,得到所述当前事件序列对应的特征表示。
[0027] 进一步的,在一个实施例中,第一嵌入层进行的第一组合包括,涉及N个编码向量相乘的N阶向量间组合运算,其中N>=2。
[0028] 在一个实施例中,上述第二嵌入层包括基于时序的神经网络,用于依次迭代处理所述各个事件向量,得到所述当前事件序列对应的特征表示。
[0029] 在另一实施例中,第二嵌入层采用的第二组合包括,涉及M个事件向量相乘的M阶向量间组合运算,其中M>=2。
[0030] 根据一种实施方式,通过以下方式得到源域样本的样本特征向量:利用第一权重分配因子,对所述源域特征表示和第一特征表示进行加权组合,得到所述源域样本的样本
特征向量;
[0031] 通过以下方式得到目标域样本的样本特征向量:利用第二权重分配因子,对所述目标域特征表示和第二特征表示进行加权组合,得到所述目标域样本的样本特征向量。
[0032] 在一种实施方式中,如下确定域适应损失:
[0033] 根据具有各个分类标签的各个源域样本在所述特定网络层的第一表征,以及具有对应分类标签的各个目标域样本在该特定网络层的第二表征之间的分布差异,确定域适应
损失。
[0034] 进一步的,在一个实施例中,确定域适应损失包括:
[0035] 获取具有任意的第一分类标签的各个源域样本在所述特定网络层的第一表征;
[0036] 获取具有该第一分类标签的各个目标域样本在所述特定网络层的第二表征;
[0037] 根据所述第一表征和第二表征的分布差异,确定第一分类对应的同类距离;
[0038] 将所述域适应损失确定为,正比于各个分类对应的同类距离之和。
[0039] 更进一步的,在一个示例中,上述特定网络层为分类器中的预测值输出层,所述第一表征为第一预测值,所述第二表征为第二预测值;在这样的情况下,根据所述第一表征和
第二表征的分布差异,确定第一分类对应的同类距离,具体可以包括:
[0040] 确定具有第一分类标签的各个源域样本的各个第一预测值的第一均值;
[0041] 确定具有该第一分类标签的各个目标域样本的各个第二预测值的第二均值;
[0042] 根据第一均值和第二均值之差,确定所述第一分类对应的同类距离。
[0043] 在另一示例中,上述第一表征为第一向量表征;第二表征为第二向量表征;在这样的情况下,根据所述第一表征和第二表征的分布差异,确定第一分类对应的同类距离,具体
可以包括:
[0044] 确定具有第一分类标签的各个源域样本的各个第一向量表征的第一平均向量;
[0045] 确定具有该第一分类标签的各个目标域样本的各个第二向量表征的第二平均向量;
[0046] 根据第一平均向量和第二平均向量的范数距离,确定所述第一分类对应的同类距离。
[0047] 在一个实施例中,确定域适应损失还可以包括:
[0048] 获取具有第二分类标签的各个目标域样本在所述特定网络层的第三表征,所述第二分类标签不同于第一分类标签;
[0049] 根据所述第一表征和第三表征的分布差异,确定第一分类和第二分类之间的类间距离;
[0050] 将所述域适应损失确定为,反比于各个不同分类之间的类间距离之和。
[0051] 根据第二方面,提供了一种对用户操作事件进行评估的方法,所述方法包括:
[0052] 获取第一事件序列,所述第一事件序列包括有待评估的当前操作事件,以及至少一个历史操作事件,每个操作事件为目标域事件;
[0053] 获取根据第一方面的方法训练得到的事件预测模型,其中包括经过训练的源域特征提取器,目标域特征提取器,共享特征提取器以及分类器;
[0054] 采用所述目标域特征提取器,对该第一事件序列进行特征提取,得到目标域特征表示;采用所述共享特征提取器,对该第一事件序列进行特征提取,得到共享特征表示;
[0055] 根据所述目标域特征表示和共享特征表示,得到所述第一事件序列的序列特征向量;
[0056] 利用所述分类器,基于所述序列特征向量,预测所述第一事件序列中当前操作事件的事件类别。
[0057] 在一个实施例中,如下得到所述第一事件序列的序列特征向量:利用权重分配因子,对所述目标域特征表示和所述共享特征表示进行加权组合,得到所述序列特征向量;
[0058] 所述方法还可以包括,输出所述权重分配因子,以指示所述目标域特征提取器和共享特征提取器对预测结果的影响。
[0059] 进一步的,在一个实施例中,上述权重分配因子通过所述事件预测模型的训练过程而确定。
[0060] 根据第三方面,提供了一种训练事件预测模型的装置,所述装置包括:
[0061] 样本集获取单元,配置为获取训练样本集,其中包括第一数目的源域样本和第二数目的目标域样本,所述第一数目大于第二数目,各个样本具有对应的分类标签;每个源域
样本包括多个源域事件构成的源域事件序列,每个目标域样本包括多个目标域事件构成的
目标域事件序列;
[0062] 处理单元,配置为将各个样本作为当前样本,输入事件预测模型,所述事件预测模型至少包括源域特征提取器、目标域特征提取器、共享特征提取器和分类器,其中,
[0063] 当所述当前样本为源域样本时,采用所述源域特征提取器对该源域样本进行特征提取,得到源域特征表示;采用所述共享特征提取器,对该源域样本进行特征提取,得到第
一特征表示;根据所述源域特征表示和第一特征表示,得到源域样本的样本特征向量;
[0064] 当所述当前样本为目标域样本时,采用所述目标域特征提取器对该目标域样本进行特征提取,得到目标域特征表示;采用所述共享特征提取器,对该目标域样本进行特征提
取,得到第二特征表示;根据所述目标域特征表示和第二特征表示,得到目标域样本的样本
特征向量;
[0065] 预测单元,配置为利用所述分类器,基于所述当前样本的样本特征向量,预测当前样本的事件类别,得到预测结果;
[0066] 第一损失确定单元,配置为根据各个样本的预测结果和对应的分类标签,确定分类损失;
[0067] 第二损失确定单元,配置为根据各个源域样本在所述事件预测模型的特定网络层的第一表征,以及各个目标域样本在该特定网络层的第二表征,确定域适应损失;
[0068] 总损失确定单元,配置为根据所述分类损失和所述域适应损失,确定总损失;
[0069] 更新单元,配置为在总损失减小的方向,更新所述事件预测模型。
[0070] 根据第四方面,提供了一种对用户操作事件进行评估的装置,所述装置包括:
[0071] 事件序列获取单元,配置为获取第一事件序列,所述第一事件序列包括有待评估的当前操作事件,以及至少一个历史操作事件,每个操作事件为目标域事件;
[0072] 模型获取单元,配置为获取第三方面的装置训练得到的事件预测模型,其中包括经过训练的源域特征提取器,目标域特征提取器,共享特征提取器以及分类器;
[0073] 特征提取单元,配置为采用所述目标域特征提取器,对该第一事件序列进行特征提取,得到目标域特征表示;采用所述共享特征提取器,对该第一事件序列进行特征提取,
得到共享特征表示;
[0074] 向量获取单元,配置为根据所述目标域特征表示和共享特征表示,得到所述第一事件序列的序列特征向量;
[0075] 预测单元,配置为利用所述分类器,基于所述序列特征向量,预测所述第一事件序列中当前操作事件的事件类别。
[0076] 根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面和第二方面的方法。
[0077] 根据第六方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面和第二方面
的方法。
[0078] 根据本说明书实施例提供的方法和装置,在目标域样本较少的情况下,利用迁移学习的方式,利用样本数据丰富的源域样本,进行有区分的统一训练,得到适用于源域和目
标域的事件预测模型。具体的,在事件预测模型中包含有源域模型部分,共享模型部分和目
标域模型部分。在训练过程中,由于源域样本比较丰富,因此源域模型部分可以快速建立起
适用的模型参数。共享模型部分既处理源域样本,又处理目标域样本,可以将针对源域数据
训练得到的模型参数传递到目标域部分。结合针对源域和目标域表征设置的域适应损失,
可以使得目标域模型部分得到与源域类似的特征表征,如此使得基于少量的目标域数据,
训练得到适用的事件预测模型。该事件预测模型,可以用于对源域或目标域操作事件进行
评估。

附图说明

[0079] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本
领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的
附图。
[0080] 图1为本说明书披露的一个实施例的实施场景示意图;
[0081] 图2示出根据一个实施例的训练事件预测模型的方法流程图;
[0082] 图3示出根据一个实施例的事件预测模型的结构示意图;
[0083] 图4示出根据一个实施例的双层特征提取器的结构示意图;
[0084] 图5示出根据另一实施例的双层特征提取器的结构示意图;
[0085] 图6示出根据一个实施例对用户操作事件进行评估的方法;
[0086] 图7示出根据一个实施例的训练事件预测模型的装置的示意性框图;
[0087] 图8示出根据一个实施例的评估操作事件的装置的示意性框图。

具体实施方式

[0088] 下面结合附图,对本说明书提供的方案进行描述。
[0089] 如前所述,为了对操作事件进行评估,其特征刻画和表征非常重要。为了避免人工特征工程的弊端,开始通过建模和模型训练,来学习特征刻画和事件评估。然而,如本领域
技术人员所知,模型训练依赖于大量的标注数据。在一些标注数据稀少的领域,很难进行这
样的模型训练和学习。
[0090] 考虑到以上问题,在本说明书的实施例中,利用迁移学习的方式,借助数据量更为丰富的相似领域的标注数据,来进行模型训练,使得训练得到的模型可以用于数据量较少
的领域。一般地,可以将数据量更为丰富的领域称为源域,将有待进行分析和学习,但是数
据量较少的领域称为目标域。
[0091] 例如,在一个场景中,需要分析用户在客服平台中的交互事件。假定热线客服平台已经启用较长时间,积累了大量的数据,而有待分析的在线客服平台由于上线不久,数据较
为稀少,而两者的数据具有一定相似性,那么可以将热线客服平台作为源域,将在线客服平
台作为目标域。又例如,在另一场景中,需要分析某一服务平台中不同区域用户的操作事
件。假定华东地区启用该服务时间较长,积累数据较多,而有待分析的华北地区则开通该服
务不久,数据稀少,那么可以将华东地区作为源域,将华北地区作为目标域。
[0092] 由于源域数据比较丰富,常规迁移学习中,往往基于源域数据训练一个模型,然后通过生成对抗等方式,使得目标域数据拟合源域数据,通过多步骤多阶段训练,得到适于目
标域的模型。与上述常规迁移学习不同的,在本说明书公开的实施例中,将源域数据和目标
域数据进行有区分地统一训练,从而快速高效地得到适用于源域和目标域两者的事件预测
模型。
[0093] 图1示出根据一个实施例的实施场景示意图。如图1所示,采集来自源域和目标域的历史数据作为训练样本集,训练事件预测模型。更具体的,训练样本集中包括大量的源域
样本和相对少量的目标域样本,每个样本包括对应域的历史事件构成的事件序列。
[0094] 事件预测模型可以划分为源域部分,共享部分,目标域部分。
[0095] 在训练过程中,对于源域样本,将其输入到源域部分和共享部分进行综合处理,对于目标域样本,将其输入共享部分和目标域部分进行综合处理,根据两个域样本的综合处
理的结果,得到预测损失,并据此训练整个事件预测模型。
[0096] 在这个过程中,由于源域样本比较丰富,因此源域部分可以快速建立起适用的模型参数。共享部分既处理源域样本,又处理目标域样本,因此可以起到将针对源域数据训练
得到的模型参数传递到目标域部分的作用,使得基于少量的目标域数据,训练得到适用于
目标域的模型。
[0097] 在通过以上训练方式训练得到事件预测模型后,该模型即可用于对目标域中待评估的事件序列进行分析和评估。具体地,可以将待评估的目标域事件序列输入到事件预测
模型的共享部分和目标域部分,根据这两个部分的综合处理结果,输出得到针对该事件序
列的事件评估结果,例如事件分类结果,更具体的,可以是风险度分类结果。
[0098] 下面具体描述以上事件预测模型的训练过程和模型结构。
[0099] 图2示出根据一个实施例的训练事件预测模型的方法流程图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示,训练过程
至少包括以下步骤。
[0100] 首先,在步骤201,获取训练样本集,其中包括第一数目的源域样本和第二数目的目标域样本,第一数目大于第二数目。
[0101] 可以理解,源域和目标域可以基于要分析的业务场景而定。一般地,源域是数据较为丰富的领域,目标域则是有待分析、但是数据较为稀少的领域。例如,在一个例子中,源域
是热线服务平台,目标域是在线服务平台;或者,在另一例子中,源域是华东地区数据,目标
域是华北地区数据。
[0102] 由于源域的数据来源更为丰富,因此,通过样本采集而形成的训练样本集中,源域样本的数目,即第一数目,一般来说远远大于目标域样本的第二数目。典型的,第一数目的
大小会是第二数目的N倍,例如N在5‑15之间。更具体的,在一个例子中,源域样本的数目为
目标域样本的10倍。
[0103] 为训练事件预测模型,每个训练样本包括,预定数量(例如10件或20件)的历史事件构成的事件序列,以及针对该事件序列标注的分类标签。分类标签可以是
针对整个事件序列,或针对事件序列中最后一个事件En的事件类别进行的标注,事件类别
例如可以是,欺诈事件或非欺诈事件的分类类别,事件风险度级别的分类类别,等等。
[0104] 更具体的,每个源域样本包括由多个源域事件构成的源域事件序列S,即,序列S中每个历史事件 均为源域事件;而每个目标域样本包括
由多个目标域事件构成的目标域事件序列T,即, 序列T中每个历
史事件 均为目标域事件。
[0105] 每个事件可以具有多项与事件有关的属性信息。为了事件评估的全面性,可以获取各个事件的细粒度的全面的属性信息以供后续处理。这些属性信息可以包括,用户操作
行为的行为类型(例如,登录操作,充值操作,支付操作,交易操作等),行为时间,用户操作
所使用的设备信息(例如设备型号、MAC地址,IP地址等等),所使用的软件方面的信息,例如
浏览器类型,app版本,等等。如果操作行为是交易行为,属性信息还可以包括交易行为的涉
及金额,付款渠道,交易对象,等等。在一个实施例中,事件属性信息还可以包括,历史操作
事件的操作结果,例如操作成功,失败,超时,等等。
[0106] 一般地,源域事件和目标域事件的属性信息数据具有一定的相似性。在一个实施例中,源域事件和目标域事件具有完全相同的属性字段,只是某些属性字段的属性值分布
有差异。例如,源域事件和目标域事件均包含属性ABCDE,其中属性A为用户年龄,属性B为使
用设备型号,等等。如果源域事件和目标域事件来自不同的用户群体,那么两类事件在属性
A和属性B的属性值分布上存在差异。
[0107] 在一个实施例中,源域事件和目标域事件具有部分相同的属性字段,还具有部分独有的属性字段。具体的,源域事件可以具有第一多项属性,例如属性ABCDE,目标域事件具
有第二多项属性,例如属性CDEFG,其中第一多项属性和第二多项属性存在交集,例如CDE。
更具体的,在源域事件为华东地区服务事件,目标域事件为华北地区服务事件的例子中,源
域事件和目标域事件的属性交集(例如CDE)可以是两个地区服务事件共有的属性,例如用
户设备信息,事件发生时间,等等;源域事件独有的属性(例如属性AB)可以与仅在华东地区
提供的服务内容有关,而目标域事件独有的属性(例如属性FG)可以与仅在华北地区提供的
服务内容有关。
[0108] 如此,采集源域事件序列中各个源域事件的属性信息,形成样本特征,并结合该源域事件序列的分类标签,形成源域样本。类似的,采集目标域事件序列中各个目标域事件的
属性信息,形成样本特征,并结合该目标域事件序列的分类标签,形成目标域样本。第一数
目的源域样本和第二数目的目标域样本共同构成训练样本集。
[0109] 接着,在步骤202,将上述训练样本集中的各个样本依次作为当前样本,输入到事件预测模型。
[0110] 图3示出根据一个实施例的事件预测模型的结构示意图。如图3所示,事件预测模型至少包括源域特征提取器31,共享特征提取器32,目标域特征提取器33,源域注意力层
34,目标域注意力层35,以及分类器36。下面结合图3的结构图,描述训练过程中的后续步
骤。
[0111] 对于输入到事件预测模型的当前样本,如图2步骤203所示,需要区分该样本为源域样本或是目标域样本。
[0112] 如果当前样本为源域样本,则在步骤204,将其输入到源域特征提取器31和共享特征提取器32。具体地,采用源域特征提取器31对该源域样本进行特征提取,得到源域特征表
示;采用共享特征提取器32,对该源域样本进行特征提取,得到第一特征表示;通过源域注
意力层34,根据上述源域特征表示和第一特征表示,得到源域样本的样本特征向量。
[0113] 如果当前样本为目标域样本,则在步骤205,将其输入到共享特征提取器32和目标域特征提取器33。具体地,采用目标域特征提取器33对该目标域样本进行特征提取,得到目
标域特征表示;采用共享特征提取器32,对该目标域样本进行特征提取,得到第二特征表
示;通过目标域注意力层35,根据所述目标域特征表示和第二特征表示,得到目标域样本的
样本特征向量。
[0114] 在一个实施例中,上述源域特征提取器31,共享特征提取器32和目标域特征提取器33,各自在其对应的特征空间中进行特征提取。
[0115] 进一步的,在一个例子中,源域事件和目标域事件具有完全相同的属性字段,例如属性ABCDE。在这样的情况下,源域源域特征提取器31,共享特征提取器32和目标域特征提
取器33,均在与属性ABCDE对应的特征空间中进行特征提取,只是进行提取运算时采取的模
型参数可能有所不同。
[0116] 在另一例子中,如前所述,源域事件与目标域事件具有部分共有属性,在此之外还具有部分独有的属性。具体的,源域事件具有第一多项属性,例如属性ABCDE,目标域事件具
有第二多项属性,例如属性CDEFG,第一多项属性和第二多项属性存在交集,例如CDE。在这
样的情况下,源域特征提取器31可以在第一多项属性对应的第一特征空间中进行特征提
取;目标域特征提取器33可以在第二多项属性对应的第二特征空间中进行特征提取。而共
享特征提取器32,则可以在共享特征空间中进行特征提取,其中,共享特征空间对应于第一
多项属性和第二多项属性的并集,例如该并集为ABCDEFG。
[0117] 更具体的,在步骤204中,采用共享特征提取器32对源域样本进行特征提取时,可以采用以下处理方式。首先,将源域样本中各个源域事件的第一多项属性(例如ABCDE)的属
性值(例如abcde)填入共享特征空间(对应于ABCDEFG)中与第一多项属性对应的字段(例如
前5个字段),用缺省值(例如0)填充其余字段,得到源域事件在共享特征空间中的第一属性
表示(例如abcde00)。然后,通过共享特征提取器32,对该第一属性表示进行特征提取操作。
[0118] 类似的,在步骤205中,采用共享特征提取器32对目标域样本进行特征提取时,可以采用以下处理方式。将目标域样本中各个目标域事件的第二多项属性(例如CDEFG)的属
性值(例如cdefg)填入共享特征空间(对应于ABCDEFG)中与第二多项属性对应的字段(例如
后5个字段),用缺省值(例如0)填充其余字段,得到目标域事件在共享特征空间中的第二属
性表示(例如00cdefg)。然后,通过共享特征提取器32,对该第二属性表示进行特征提取操
作。
[0119] 从特征提取操作所采用的处理过程而言,在一个实施例中,源域特征提取器31,共享特征提取器32和目标域特征提取器33可以为参数不同,结构相同的特征提取器,采用同
样的提取算法进行特征提取。例如,上述三个特征提取器31,32和33,可以采用层数相同、算
法相同的深度神经网络DNN来实现。
[0120] 更具体的,在一个实施例中,源域特征提取器31,共享特征提取器32和目标域特征提取器33采用结构相同的双层特征提取器进行特征提取。
[0121] 图4示出根据一个实施例的双层特征提取器的结构示意图。如图4所示,该双层特征提取器至少包括,编码层41,第一嵌入层42和第二嵌入层43。
[0122] 当将当前样本(源域样本或目标域样本)输入到图4所示的双层特征提取器,编码层41就针对当前样本所对应的当前事件序列中的每个事件Ei(源域事件或目
标域事件),将该事件的多项属性信息编码为对应的多个编码向量。
[0123] 属性信息的编码处理可以与特征提取器的特征空间相对应,即,将输入事件的属性信息编码为与特征空间的维度对应的多个编码向量。
[0124] 例如,当应用于源域特征提取器时,针对每个源域事件,编码层41将源域事件的第一多项属性的属性信息编码为第一多个编码向量;当应用于目标域特征提取器时,针对每
个目标域事件,编码层41将目标域事件的第二多项属性的属性信息编码为第二多个编码向
量。当应用于共享特征提取器时,针对每个事件,不管是目标域还是源域,编码层41将该事
件的属性信息编码为与共享特征空间的维度对应的多个编码向量。
[0125] 编码层41可以采用多种编码方式进行编码。
[0126] 在一个实施例中,在编码层41中预先构造一个映射表或查找表,其中记录各个属性下不同属性值与编码向量的映射关系。对于输入事件的各项属性,根据具体的属性值查
找该映射表,得到对应的编码向量。
[0127] 在一个实施例中,编码层41可以采用独热one‑hot编码方式将一项属性信息编码为一个编码向量。One‑hot编码方式适合于属性值为有限多个的属性信息。
[0128] 对于属性取值不限的属性信息,例如包含有文字描述的属性字段,在一个实施例中,编码层41还可以采用更为复杂的神经网络进行词嵌入,以得到属性信息对应的编码向
量。
[0129] 通过采用各种编码方式,编码层41将各个事件Ei的多项属性信息编码为对应的多个编码向量。
[0130] 然后,第一嵌入层42对各个事件的所述多个编码向量进行第一组合,得到各个事件对应的各个事件向量。
[0131] 在一个实施例中,上述第一组合包括多个编码向量的加权线性组合。
[0132] 根据一种实施方式,上述第一组合还包括,涉及N个编码向量相乘的N阶向量间组合运算,其中N>=2。
[0133] 可以理解,常规神经网络中对特征向量的组合一般是采用线性组合的方式。然而,在事件包含多项属性信息的情况下,属性信息之间有时候并非完全独立,而是存在一定的
依赖关系或关联关系,而简单的线性组合却不足以发现和处理这样的关联关系。因此,在一
个实施例中,借鉴FM(Factorization Machine)因子分解机的框架,在第一嵌入层42中引入
高阶向量间组合运算。
[0134] N阶向量间组合运算涉及N个编码向量的相乘运算,从而可以表征N个编码向量之间的关联关系。其中,阶数N为预设的超参数,例如,可以设置为2,或3,或4。
[0135] 例如,在一个具体例子中,第一嵌入层42在线性组合的基础上,还通过2阶向量组合和3阶向量组合,对事件Ei中各个编码向量fi进行运算,得到如以下公式(1)所示的事件向
量Ai。
[0136]
[0137] 在以 上公 式 ( 1) 中 , 为 n 个 编码 向 量的 线 性 组 合 ,为2阶向量间组合运算,其中涉及2个编码向量的相乘,
为3阶向量组合运算,其中涉及3个编码向量的相乘。高
阶运算中编码向量的相乘可以采取按位相乘的方式进行,其结果仍然是一个向量。并且,需
要理解,以上公式(1)中的各项权重系数,包括线性权重系数wi,2阶权重系数wij,3阶权重系
数wijk,均通过神经网络的训练而确定。
[0138] 在一个实施例中,还可以对以上例如公式(1)示出的第一向量组合方式进行修改,例如省略其中的线性组合项,或者省略其中的部分高阶向量间组合项,得到第一向量组合
方式的更多变换实施方案。
[0139] 在第一嵌入层42针对事件序列中各个事件Ei得到对应的事件向量Ai的基础上,第二嵌入层43将各个事件向量Ai进行第二组合,得到当前事件序列对应的特征
表示。
[0140] 在一个实施例中,第二嵌入层43采用线性组合的方式,对各个事件向量A1,A2,…,An进行线性加权叠加,得到当前事件序列对应的特征表示Y。
[0141] 在另一个实施例中,第二嵌入层43采用基于时序的神经网络,对各个事件向量进行时序处理。具体的,上述基于时序的神经网络可以是,循环神经网络RNN,或者长短期记忆
神经网络LSTM。于是,可以将上述各个事件向量A1,A2,…,An按照事件发生时间的先后顺序,
依次输入RNN或LSTM。RNN或LSTM神经网络于是依次迭代处理该多个事件向量构成的向量序
列,得到事件序列的特征表示Y。更具体的,RNN或LSTM可以将处理完最后一个事件向量An时
得到的隐含向量,作为序列的特征表示。
[0142] 在又一实施例中,第二嵌入层43也可以对输入的多个事件向量A1,A2,…,An进行组合运算,其中包括线性组合和高阶向量间组合,由此得到当前事件序列的特征表示Y。具体
地,可以预设第二嵌入层43中高阶组合运算的阶数M,其中M>=2,该阶数M与第一嵌入层42
中的阶数N是互相独立的超参数,可以相同,也可以不同。于是,在第二嵌入层43中,可以对
第一嵌入层42输出的多个事件向量A1,A2,…,An进行线性组合运算,以及进行M阶之内的向
量间组合运算,基于各组合运算的求和,得到序列特征表示Y。具体运算过程与前述对第一
嵌入层42的描述相似,不再赘述。
[0143] 如此,根据图4所示的实施例,第二嵌入层43对输入事件序列中各个事件对应的事件向量直接进行组合,得到序列特征表示Y。
[0144] 图5示出根据另一实施例的双层特征提取器的结构示意图。图5中的编码层51,第一嵌入层52与图4所示的对应相同,只是第二嵌入层53的处理方式与图4不同。在图5中,第
二嵌入层53对于事件序列中最后一个事件En进行特殊处理。这是因为,在使用事件预测模
型进行事件评估时,是将待评估的事件与之前的历史事件构成一个序列输入到模型中进行
评估,因此待评估的事件是输入序列中最后一个事件。相应的,在模型训练所使用的训练样
本中,分类标签往往是针对事件序列中最后一个事件进行标注的。因此,事件序列中最后一
个事件,或者作为待评估的对象,或者作为标注的对象,具有与其他事件不同的性质。
[0145] 考虑到以上特点,在图5的实施例中,第二嵌入层53首先对事件序列中除最后一个事件的其他事件对应的事件向量A1,A2,…,An‑1进行第三组合,得到一个组合向量。第三组合
的组合方式可以与结合图4的第二嵌入层所述的第二组合方式相同。然后,将最后一个事件
对应的事件向量An与前述组合向量进行第四组合,得到最终的事件序列的特征表示Y。其
中,第四组合可以是线性加权组合,或者是直接拼接。
[0146] 以上以图4和图5的双层特征提取器为例,描述了图3中源域特征提取器31,共享特征提取器32和目标域特征提取器33的特征提取过程。可以理解,源域特征提取器31,共享特
征提取器32和目标域特征提取器33还可以采用其他方式进行特征提取,但是,要求这三个
提取器为结构和算法相同的特征提取器。
[0147] 由此,如图2中步骤204所示,当把源域样本输入到源域特征提取器31和共享特征提取器32,源域特征提取器31即对该源域样本对应的源域事件序列进行特征提取,得到源
域特征表示Ys;共享特征提取器32也对该源域事件序列进行特征提取,得到第一特征表示
Y1。然后,源域注意力层34根据源域特征表示Ys和第一特征表示Y1,得到源域样本的样本特
征向量V。具体地,源域注意力层34可以利用第一权重分配因子,对源域特征表示Ys和第一
特征表示Y1进行加权组合,得到样本特征向量V,其中第一权重分配因子可以预先设置,也
可以通过训练而确定。在其他实施例中,源域注意力层34还可以通过其他方式对源域特征
表示Ys和第一特征表示Y1进行组合,例如进行拼接,线性变换等等,得到源域样本的样本特
征向量V。
[0148] 另一方面,如图2中步骤205所示,当把目标域样本输入到目标域特征提取器33和共享特征提取器32,目标域特征提取器33即对该目标域样本对应的目标域事件序列进行特
征提取,得到目标域特征表示Yt;共享特征提取器32也对该目标域事件序列进行特征提取,
得到第二特征表示Y2。然后,目标域注意力层35根据目标域特征表示Yt和第二特征表示Y2,
得到目标域样本的样本特征向量V。类似的,目标域注意力层35可以利用第二权重分配因
子,对源域特征表示Yt和第二特征表示Y2进行加权组合,得到样本特征向量V,其中第二权
重分配因子可以预先设置,也可以通过训练而确定。或者,目标域注意力层35还可以通过其
他方式对目标域特征表示Yt和第二特征表示Y2进行组合,得到目标域样本的样本特征向量
V。
[0149] 由此,对于输入到事件预测模型的当前样本,通过源域特征提取器31,共享特征提取器32,目标域特征提取器33,以及对应的注意力层,得到当前样本的样本特征向量V。
[0150] 继续参看图2和图3。接着,在步骤206,将上述样本特征向量V输入到事件预测模型中的分类器36。分类器36根据该样本特征向量V,预测当前样本的事件类别,得到预测结果。
[0151] 具体地,分类器36可以采用多层感知机(MLP),对样本特征向量进行进一步处理,最后施加诸如softmax的函数运算,得到针对当前样本的预测结果。该预测结果可以体现
为,预测的分类类别,或者当前样本属于各个分类的概率。
[0152] 对于训练样本集中的各个样本,均可以采用上述步骤203到步骤206的处理。于是,可以得到各个样本的预测结果。
[0153] 于是,在步骤207,根据各个样本的预测结果和对应的分类标签,确定分类损失。具体地,可以采用多种形式的损伤函数,例如交叉熵,L2误差,等等,根据预测结果和分类标签
的比对,确定分类损失。分类损失可以记为C Loss。
[0154] 此外,在步骤208,根据各个源域样本在事件预测模型的特定网络层的第一表征,以及各个目标域样本在该特定网络层的第二表征,确定域适应(Domain Adaptation)损失,
记为DA Loss。
[0155] 域适应损失DA Loss可以用于衡量,不同域的样本在模型中表征的差异。在一个实施例中,可以在事件预测模型中选取一特定网络层,例如源域/目标域注意力层,或者分类
器中的某一层,获取各个源域样本和各个目标域样本在该网络层的表征。具体的,在一个例
子中,上述表征可以是向量表征。如此,一定数量的多个源域样本在网络层的第一表征构成
第一矩阵,同样数量的目标域样本在该网络层的第二表征构成第二矩阵,可以根据第一矩
阵和第二矩阵之间的相似度或距离,确定上述域适应损失DA Loss。如此,当以损失减小为
目标训练事件预测模型时,将会使得源域样本和目标域样本获得相似的表征。
[0156] 进一步的,在一个实施例中,基于事件类别对样本的表征衡量进行细化,使得同一事件类别的源域样本和目标域样本具有相似的表征。也就是说,在步骤208中,根据具有各
个分类标签的各个源域样本在特定网络层的第一表征,以及具有对应分类标签的各个目标
域样本在该特定网络层的第二表征之间的分布差异,确定域适应损失。
[0157] 更具体的,在一个实施例中,可以根据同一事件类别下源域样本和目标域样本的表征差异,定义同类距离,并基于该同类距离确定域适应损失DA Loss。
[0158] 如前所述,训练样本集中各个样本均具有分类标签,例如欺诈事件或非欺诈事件的标签(二分类),或者事件风险等级的标签(可以是多分类)。对于其中任意的第一分类标
签c1,可以获取具有该标签c1的各个源域样本i在某个特定网络层的第一表征 还获取同
样具有该分类标签c1的各个目标域样本j在该特定网络层的第二表征 于是可以根据上
述第一表征和第二表征的分布差异,确定第一分类c1对应的同类距离。
[0159] 在一个具体例子中,分类c1对应的同类距离d(c1)可以定义为:
[0160]
[0161] 其中,上标s表示源域,t表示目标域; 是具有分类标签c1的源域样本数, 是中各个源域样本i的第一表征; 是具有分类标签c1的目标域样本数, 是 中各
个目标域样本j的第二表征。
[0162] 在一个具体例子中,上述特定网络层为分类器中的预测值输出层,例如softmax层。此时,第一表征和第二表征均为预测值,例如为属于对应事件类别的概率值。
[0163] 在这样的情况下,在公式(2)中, 表示具有第一分类标签c1的各个源域样本i的各个预测值的均值,称为第一均值; 表示具有该标签c1的各个目标域
样本j的预测值的均值,称为第二均值。针对第一分类c1的同类距离d(c1),即为第一均值和
第二均值的差的绝对值。
[0164] 在另一具体例子中,上述特定网络层是事件预测模型中的一个中间层,例如,注意力层34/35,或者分类器中的某一层;该中间层输出向量表示。在这样的情况下,第一表征和
第二表征均为向量表征,称为第一向量表征和第二向量表征。
[0165] 相应的,根据公式(2), 表示具有第一分类标签c1的各个源域样本i的各个第一向量表征的第一平均向量; 表示具有该标签c1的各个目标域样本j的
各个第二向量表征的第二平均向量。针对第一分类c1的同类距离d(c1),即为第一平均向量
和第二平均向量的范数距离。
[0166] 如此,同类距离反映了,同一分类类别下,源域样本和目标域样本的表征差异。在如此定义某个分类的同类距离的基础上,可以将域适应损失确定为,正比于各个分类对应
的同类距离之和。
[0167] 例如,在一个例子中,根据以下公式(3)确定域适应损失DA loss:
[0168] DA Loss=∑cid(ci)   (3)
[0169] 如此,当以损失减小为目标训练事件预测模型时,将会使得,同类距离减小,也就是,同一分类类别下,源域样本和目标域样本的表征更加相似,从而拉近同一分类下两个域
样本的特征表示的距离。
[0170] 在一个实施例中,在以上基础上,还进一步定义类间距离。
[0171] 具体的,对于任意的第一分类标签c1,可以类似的获取具有该标签c1的各个源域样本i在某个特定网络层的第一表征;此外,还获取具有另一分类标签c2的各个目标域样本
j在该特定网络层的第三表征。于是可以根据上述第一表征和第三表征的分布差异,确定第
一分类c1和第二分类c2之间的类间距离。
[0172] 在一个具体例子中,分类c1和分类c2的类间距离d(c1,c2)可以定义为:
[0173]
[0174] 其中, 是具有分类标签c1的源域样本数, 是 中各个源域样本i的第一表征; 是具有分类标签c2的目标域样本数, 是 中各个目标域样本j的第三表征。
[0175] 需要说明的是,公式(4)中类间距离d(c1,c2)为,源域样本属于第一分类c1,目标域样本属于第二分类c2时,两个分类c1和c2的样本特征距离;如果交换c1和c2,可以得到不
同的距离值,也就是说,d(c2,c1)可能不同于d(c1,c2)。
[0176] 相应的,在一个实施例中,可以将域适应损失确定为,反比于各个不同分类之间的类间距离之和。
[0177] 例如,在一个例子中,根据以下公式(5)确定域适应损失DA loss:
[0178]
[0179] 根据以上公式(5),域适应损失正比于同类距离之和,反比于不同分类的类间距离之和。如此,当以损失减小为目标训练事件预测模型时,将会使得,同类距离减小,而类间距
离增大,也就是,使得同一分类下两个域样本的特征表示更加相似,不同分类下两个域样本
的特征表示互相远离。如此,在不同分类的细粒度上,进行域间迁移学习。
[0180] 以上,在步骤207确定了分类损失,在步骤208确定出了域适应损失,于是,在接下来的步骤209,根据上述分类损失和域适应损失,确定总损失。在一个实施例中,为分类损失
和域适应损失设置各自的权重α和β,如此,总损失L可以表示为:
[0181] L=αL1+βL2   (6)
[0182] 其中,L1为分类损失,L2为域适应损失DA Loss。
[0183] 由此,在步骤210,在总损失减小的方向,更新事件预测模型。具体的,可以采用反向传播、梯度下降等方式,调整事件预测模型中各个模块的模型参数,从而训练和更新事件
预测模型。
[0184] 综合以上,基于图2的训练过程和图3的网络结构,在目标域样本较少的情况下,可以利用迁移学习的方式,利用样本数据丰富的源域样本,进行有区分的统一训练。具体的,
在事件预测模型中包含有源域模型部分,共享模型部分和目标域模型部分。在训练过程中,
由于源域样本比较丰富,因此源域模型部分可以快速建立起适用的模型参数。共享模型部
分既处理源域样本,又处理目标域样本,可以将针对源域数据训练得到的模型参数传递到
目标域部分。结合针对源域和目标域表征设置的域适应损失,可以使得目标域模型部分得
到与源域类似的特征表征,如此使得基于少量的目标域数据,训练得到适用于源域和目标
域两者的模型。
[0185] 在训练得到事件预测模型的基础上,就可以使用该事件预测模型,针对目标域的事件进行评估和预测。
[0186] 图6示出根据一个实施例对用户操作事件进行评估的方法。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图6所示,该方法至少
包括以下步骤。
[0187] 在步骤61,获取目标域的第一事件序列,所述第一事件序列包括有待评估的当前操作事件,以及至少一个历史操作事件。一般的,可以针对有待评估的当前操作事件,向前
回溯预定数目的事件或者预定时间内的事件,得到至少一个历史操作事件。将历史操作事
件与当前操作事件按照时间顺序排列,即可得到上述第一事件序列。此处,第一事件序列为
目标域的事件序列,也就是说,其中的每个操作事件,包括当前操作事件和历史操作事件,
均为目标域事件。
[0188] 另一方面,在步骤62,获取根据图2的方法训练得到的事件预测模型。如图3所示,事件预测模型至少包括,经过训练的源域特征提取器,目标域特征提取器,共享特征提取器
以及分类器。
[0189] 于是,在步骤63,采用目标域特征提取器,对该第一事件序列进行特征提取,得到目标域特征表示;并采用共享特征提取器,对该第一事件序列进行特征提取,得到共享特征
表示。其中各个特征提取器的结构和特征提取方式参见前述对图4和图5的描述,不再赘述。
[0190] 然后,在步骤64,根据上述目标域特征表示和共享特征表示,得到该第一事件序列的序列特征向量。具体的,在一个实施例中,可以利用权重分配因子,对目标域特征提取器
得到的目标域特征表示和共享特征提取器得到的共享特征表示进行加权组合,得到序列特
征向量。在一个例子中,上述权重分配因子可以是预设的超参数。在另一例子中,上述权重
分配因子可以是图3中的目标域注意力层中的模型参数,通过对图3模型的训练过程而确
定。
[0191] 在得到第一事件序列的序列特征向量的基础上,在步骤65,利用事件预测模型中的分类器,基于上述序列特征向量,预测该第一事件序列中当前操作事件的事件类别。如
此,实现了对当前操作事件的事件类别进行评估。
[0192] 例如,当前操作事件可以是发生在目标域的请求进行转账的事件。通过图6的评估过程,可以对该事件进行评估,例如评估该事件是否为欺诈(套现)事件,或者评估该事件的
风险级别。如此,可以针对该当前操作事件,进行后续的防护决策,例如是否允许该转账,是
否对该转账事件进行备案,等等。
[0193] 在一个实施例中,还可以输出事件预测模型中的相关权重参数,使得事件类别的评估结果具有更强的可解释性。例如,在特征提取器采取双层特征提取的情况下,可以输出
在得到上述序列特征向量过程中,事件中各个属性的权重,以及序列中各个事件的权重。此
外,还可以输出步骤64中采用的权重分配因子,即目标域特征提取器和共享特征提取器的
相对权重。如此,便于分析人员了解,得出步骤65的事件评估结果,不同层次的因素,包括
域、事件、属性,所起到的影响和作用。
[0194] 以上图6示出使用训练好的事件预测模型,预测目标域的当前操作事件的过程。可以看到,在这个过程中,仅使用了目标域特征提取器和共享特征提取器,而不必使用源域特
征提取器。源域特征提取器主要用于在训练过程中,帮助目标域特征提取器更快地建立起
适用的模型参数。
[0195] 当然,也可以使用以上的事件预测模型,来预测源域的待评估事件。在这样的情况下,与训练时类似的,可以将包含源域待评估事件的源域事件序列输入到源域特征提取器
和共享特征提取器,而不使用目标域特征提取器,最后通过分类器进行事件类别的预测。
[0196] 综合以上,通过图2的训练过程,可以基于很少量的目标域样本,训练得到事件预测模型,该事件预测模型对于源域待评估事件和目标域待评估事件,均可以进行准确的评
估和预测。
[0197] 根据另一方面的实施例,提供了一种训练事件预测模型的装置,该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。图7示出根据一个实施例的训练事
件预测模型的装置的示意性框图。如图7所示,该训练装置700包括:
[0198] 样本集获取单元71,配置为获取训练样本集,其中包括第一数目的源域样本和第二数目的目标域样本,所述第一数目大于第二数目,各个样本具有对应的分类标签;每个源
域样本包括多个源域事件构成的源域事件序列,每个目标域样本包括多个目标域事件构成
的目标域事件序列;
[0199] 处理单元72,配置为将各个样本作为当前样本,输入事件预测模型,所述事件预测模型至少包括源域特征提取器、目标域特征提取器、共享特征提取器和分类器,其中,
[0200] 当所述当前样本为源域样本时,采用所述源域特征提取器对该源域样本进行特征提取,得到源域特征表示;采用所述共享特征提取器,对该源域样本进行特征提取,得到第
一特征表示;根据所述源域特征表示和第一特征表示,得到源域样本的样本特征向量;
[0201] 当所述当前样本为目标域样本时,采用所述目标域特征提取器对该目标域样本进行特征提取,得到目标域特征表示;采用所述共享特征提取器,对该目标域样本进行特征提
取,得到第二特征表示;根据所述目标域特征表示和第二特征表示,得到目标域样本的样本
特征向量;
[0202] 预测单元73,配置为利用所述分类器,基于所述当前样本的样本特征向量,预测当前样本的事件类别,得到预测结果;
[0203] 第一损失确定单元74,配置为根据各个样本的预测结果和对应的分类标签,确定分类损失;
[0204] 第二损失确定单元75,配置为根据各个源域样本在所述事件预测模型的特定网络层的第一表征,以及各个目标域样本在该特定网络层的第二表征,确定域适应损失;
[0205] 总损失确定单元76,配置为根据所述分类损失和所述域适应损失,确定总损失;
[0206] 更新单元77,配置为在总损失减小的方向,更新所述事件预测模型。
[0207] 在一个实施例中,每个源域事件具有第一多项属性;每个目标域事件具有第二多项属性,其中第一多项属性和第二多项属性存在交集;
[0208] 在这样的情况下,源域特征提取器用于在所述第一多项属性对应的第一特征空间中进行特征提取;目标域特征提取器用于在所述第二多项属性对应的第二特征空间中进行
特征提取;
[0209] 共享特征提取器,则用于在共享特征空间中进行特征提取,其中,共享特征空间对应于所述第一多项属性和第二多项属性的并集。
[0210] 在一个进一步的实施例中,共享特征提取器对源域样本的特征提取过程可以包括:
[0211] 将所述源域样本中各个源域事件的第一多项属性的属性值填入所述共享特征空间中与所述第一多项属性对应的字段,用缺省值填充其余字段,得到源域事件在共享特征
空间中的第一属性表示,根据所述第一属性表示进行特征提取;
[0212] 所述共享特征提取器对目标域样本进行特征提取的过程可以包括:
[0213] 将所述目标域样本中各个目标域事件的第二多项属性的属性值填入所述共享特征空间中与所述第二多项属性对应的字段,用缺省值填充其余字段,得到目标域事件在共
享特征空间中的第二属性表示,根据所述第二属性表示进行特征提取。
[0214] 根据一种实现方式,源域特征提取器、目标域特征提取器和共享特征提取器为参数不同,结构相同的双层特征提取器,所述双层特征提取器包括编码层,第一嵌入层和第二
嵌入层;其中,
[0215] 所述编码层用于,针对输入的当前样本所对应的当前事件序列中的每个事件,将该事件的多项属性信息编码为对应的多个编码向量;
[0216] 第一嵌入层用于,对各个事件的所述多个编码向量进行第一组合,得到各个事件对应的各个事件向量;
[0217] 第二嵌入层用于,将所述各个事件向量进行第二组合,得到所述当前事件序列对应的特征表示。
[0218] 进一步的,在一个实施例中,第一嵌入层进行的第一组合包括,涉及N个编码向量相乘的N阶向量间组合运算,其中N>=2。
[0219] 在一个实施例中,上述第二嵌入层包括基于时序的神经网络,用于依次迭代处理所述各个事件向量,得到所述当前事件序列对应的特征表示。
[0220] 在另一实施例中,第二嵌入层采用的第二组合包括,涉及M个事件向量相乘的M阶向量间组合运算,其中M>=2。
[0221] 根据一种实施方式,在处理单元72中,通过以下方式得到源域样本的样本特征向量:利用第一权重分配因子,对所述源域特征表示和第一特征表示进行加权组合,得到所述
源域样本的样本特征向量;
[0222] 通过以下方式得到目标域样本的样本特征向量:利用第二权重分配因子,对所述目标域特征表示和第二特征表示进行加权组合,得到所述目标域样本的样本特征向量。
[0223] 在一种实施方式中,第二损失确定单元75配置为:
[0224] 根据具有各个分类标签的各个源域样本在所述特定网络层的第一表征,以及具有对应分类标签的各个目标域样本在该特定网络层的第二表征之间的分布差异,确定域适应
损失。
[0225] 进一步的,在一个实施例中,第二损失确定单元75如下确定域适应损失:
[0226] 获取具有任意的第一分类标签的各个源域样本在所述特定网络层的第一表征;
[0227] 获取具有该第一分类标签的各个目标域样本在所述特定网络层的第二表征;
[0228] 根据所述第一表征和第二表征的分布差异,确定第一分类对应的同类距离;
[0229] 将所述域适应损失确定为,正比于各个分类对应的同类距离之和。
[0230] 更进一步的,在一个示例中,上述特定网络层为分类器中的预测值输出层,所述第一表征为第一预测值,所述第二表征为第二预测值;在这样的情况下,第二损失确定单元75
如下确定第一分类对应的同类距离:
[0231] 确定具有第一分类标签的各个源域样本的各个第一预测值的第一均值;
[0232] 确定具有该第一分类标签的各个目标域样本的各个第二预测值的第二均值;
[0233] 根据第一均值和第二均值之差,确定所述第一分类对应的同类距离。
[0234] 在另一示例中,上述第一表征为第一向量表征;第二表征为第二向量表征;在这样的情况下,第二损失确定单元75如下确定第一分类对应的同类距离:
[0235] 确定具有第一分类标签的各个源域样本的各个第一向量表征的第一平均向量;
[0236] 确定具有该第一分类标签的各个目标域样本的各个第二向量表征的第二平均向量;
[0237] 根据第一平均向量和第二平均向量的范数距离,确定所述第一分类对应的同类距离。
[0238] 在一个实施例中,第二损失确定单元75还配置为:
[0239] 获取具有第二分类标签的各个目标域样本在所述特定网络层的第三表征,所述第二分类标签不同于第一分类标签;
[0240] 根据所述第一表征和第三表征的分布差异,确定第一分类和第二分类之间的类间距离;
[0241] 将所述域适应损失确定为,反比于各个不同分类之间的类间距离之和。
[0242] 根据又一方面的实施例,提供了一种评估操作事件的装置,该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。图8示出根据一个实施例的评估操作事
件的装置的示意性框图。如图8所示,该评估装置800包括:
[0243] 事件序列获取单元81,配置为获取第一事件序列,所述第一事件序列包括有待评估的当前操作事件,以及至少一个历史操作事件,每个操作事件为目标域事件;
[0244] 模型获取单元82,配置为获取根据图7的装置训练得到的事件预测模型,其中包括经过训练的源域特征提取器,目标域特征提取器,共享特征提取器以及分类器;
[0245] 特征提取单元83,配置为采用所述目标域特征提取器,对该第一事件序列进行特征提取,得到目标域特征表示;采用所述共享特征提取器,对该第一事件序列进行特征提
取,得到共享特征表示;
[0246] 向量获取单元84,配置为根据所述目标域特征表示和共享特征表示,得到所述第一事件序列的序列特征向量;
[0247] 预测单元85,配置为利用所述分类器,基于所述序列特征向量,预测所述第一事件序列中当前操作事件的事件类别。
[0248] 在一个实施例中,向量获取单元84具体配置为:利用权重分配因子,对所述目标域特征表示和所述共享特征表示进行加权组合,得到所述序列特征向量;
[0249] 所述装置800还可以包括权重输出单元(未示出)配置为,输出所述权重分配因子,以指示所述目标域特征提取器和共享特征提取器对预测结果的影响。
[0250] 进一步的,在一个实施例中,上述权重分配因子通过所述事件预测模型的训练过程而确定。
[0251] 通过以上装置,利用数据较为丰富的源域样本数据以及相对稀少的目标域样本数据,训练得到同时适用于源域和目标域的事件预测模型,并可以利用该事件预测模型对目
标域待评估事件进行准确而有效的评估。
[0252] 根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2和图6所描述的方法。
[0253] 根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2和图6所述的方法。
[0254] 本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能
存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
[0255] 以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明
的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应
包括在本发明的保护范围之内。