事件序列数据的处理方法、装置、电子设备转让专利
申请号 : CN202010011446.X
文献号 : CN111242312B
文献日 : 2021-08-17
发明人 : 赖清泉 , 侯宪龙 , 徐莎 , 贾佳 , 方俊 , 陈侃 , 陈知己 , 曾小英 , 冯力国
申请人 : 支付宝(杭州)信息技术有限公司
摘要 :
权利要求 :
1.一种事件序列数据的处理方法,所述方法包括:从事件序列数据集合中依次读取事件序列数据,并计算与读取到的所述事件序列数据对应的共现矩阵;其中,所述共现矩阵为基于所述事件序列数据中包含的各事件之间的共现概率生成的矩阵;所述事件序列数据集合包括正常的事件序列数据集合和异常的事件序列数据集合;所述共现矩阵包括与从正常的事件序列数据集合中读取到的事件序列数据对应的第一共现矩阵,和与从异常的事件序列数据集合中读取到的事件序列数据对应的第二共现矩阵;
为预设的事件集中包含的各事件,分别生成与所述第一共现矩阵对应的初始化特征向量、与所述第二共现矩阵对应的初始化特征向量;
将所述共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述事件集中包含的各事件对应的输入特征向量;
基于与所述事件集所包含的各事件对应的输入特征向量,对所述事件序列数据进行编码;其中,编码完成的事件序列数据用于作为输入数据输入至机器学习模型进行计算。
2.根据权利要求1所述的方法,所述共现概率,为事件序列数据所包含的各目标事件,与所述各目标事件以外的各其它事件,在所述事件序列数据中共同出现的概率;
所述共现矩阵的行对应各目标事件,所述共现矩阵的列对应各目标事件以外的各其它事件;或者,所述共现矩阵的列对应各目标事件,所述共现矩阵的行对应各目标事件以外的各其它事件。
3.根据权利要求2所述的方法,所述各目标事件包括,将预设大小的滑动窗口在所述事件序列数据中进行滑动时,所述滑动窗口的中心事件;
所述方法还包括:
将预设大小的滑动窗口在所述事件序列数据中进行滑动,并确定每次滑动时所述滑动窗口的中心事件;
依次计算所述滑动窗口的中心事件,与所述事件序列数据中包含的所述中心事件以外的各其它事件,在所述事件序列数据中的共现概率。
4.根据权利要求3所述的方法,所述依次计算所述滑动窗口的中心事件,与所述事件序列数据中包含的所述中心事件以外的各其它事件,在所述事件序列数据中的共现概率,包括:
统计所述事件序列数据中包含的各中心事件以外的各其它事件,与所述中心事件的事件距离;
基于所述各其它事件与所述中心事件的事件距离,依次计算所述各其它事件与所述中心事件的共现概率。
5.根据权利要求4所述的方法,利用所述各其它事件与所述中心事件的事件距离的倒数,表征所述各其它事件与所述中心事件的共现概率。
6.根据权利要求1所述的方法,所述为预设的事件集中包含的各事件,分别生成与所述第一共现矩阵对应的初始化特征向量、与所述第二共现矩阵对应的初始化特征向量,包括:为预设的事件集中包含的各事件,分别随机生成与所述第一共现矩阵对应的初始化特征向量、与所述第二共现矩阵对应的初始化特征向量。
7.根据权利要求1所述的方法,所述将所述共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述事件集中包含的各事件对应的输入特征向量,包括:迭代执行以下训练步骤,直到得到与所述事件集中包含的各事件对应的输入特征向量:
将所述共现概率相关的事件对应的初始化特征向量,输入至以所述共现概率作为约束的损失函数,计算所述损失函数的输出值;其中,所述损失函数表征,与所述共现概率相关的事件对应初始化特征向量,逼近所述共现概率的程度;
调整所述初始化特征向量,求解所述损失函数的输出值的最小值;将求解出所述最小值时,输入至所述损失函数的调整后的所述初始化特征向量,确定为与所述共现概率相关的事件对应输入特征向量。
8.根据权利要求7所述的方法,所述损失函数表征,与所述共现概率相关的事件对应初始化特征向量的内积,逼近所述共现概率的对数的程度;
所述将所述共现概率相关的事件对应的初始化特征向量,输入至以所述共现概率作为约束的损失函数,计算所述损失函数的输出值,包括:计算与所述共现概率相关的事件对应的初始化特征向量内积,并将计算出的所述内积输入至以所述共现概率的对数作为约束的损失函数,计算所述损失函数的输出值。
9.根据权利要求8所述的方法,所述损失函数基于以下公式表征:其中,J表示损失函数的输出值;i和j表示所述事件集中任意的两个事件; 表示事件i与事件j分别对应的初始化特征向量的内积;C(i,j)表示事件i和j在所述共现矩阵中2
的共现概率;E的取值大小为M ;M表示所述事件集包含的各事件的类别总数;f(x)表示权重函数。
10.根据权利要求9所述的方法,所述f(x)为以所述共现矩阵中包含的C(i,j)为变量的区间函数。
11.根据权利要求10所述的方法,所述f(x)基于以下公式表征:其中,d表示0或者趋于0的极小值;S表示与所述共现矩阵中包含的C(i,j)对应的阈值。
12.根据权利要求1所述的方法,所述基于与所述事件集所包含的各事件对应的输入特征向量,对所述事件序列数据进行编码,包括:基于与所述事件集所包含的各事件对应的输入特征向量,按照所述事件序列数据中的各事件的排列顺序进行向量拼接,得到与所述事件序列数据对应的事件序列向量。
13.根据权利要求1所述的方法,所述事件包括用户针对用户账户的操作行为事件;所述机器学习模型为针对用户账户进行风险识别的风险识别模型。
14.根据权利要求1所述的方法,所述将所述共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述事件集中包含的各事件对应的输入特征向量,包括:基于预设的与所述第一共现矩阵对应的第一损失函数,以所述第一共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述第一共现矩阵对应的所述事件集中包含的各事件对应的第一输入特征向量;
基于预设的与所述第二共现矩阵对应预设的第二损失函数,以所述第二共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述第二共现矩阵对应的所述事件集中包含的各事件对应的第二输入特征向量;
将第一输入特征向量和第二输入特征向量,拼接生成与所述事件集中包含的各事件对应的输入特征向量。
15.根据权利要求14所述的方法,所述将第一输入特征向量和第二输入特征向量,拼接生成与所述事件集中包含的各事件对应的输入特征向量,包括:将第一输入特征向量和第二输入特征向量,纵向拼接生成与所述事件集中包含的各事件对应的输入特征向量。
16.一种事件序列数据的处理装置,所述装置包括:计算模块,从事件序列数据集合中依次读取事件序列数据,并计算与读取到的所述事件序列数据对应的共现矩阵;其中,所述共现矩阵为基于所述事件序列数据中包含的各事件之间的共现概率生成的矩阵;所述事件序列数据集合包括正常的事件序列数据集合和异常的事件序列数据集合;所述共现矩阵包括与从正常的事件序列数据集合中读取到的事件序列数据对应的第一共现矩阵,和与从异常的事件序列数据集合中读取到的事件序列数据对应的第二共现矩阵;
生成模块,为预设的事件集中包含的各事件,分别生成与所述第一共现矩阵对应的初始化特征向量、与所述第二共现矩阵对应的初始化特征向量;
训练模块,将所述共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述事件集中包含的各事件对应的输入特征向量;
编码模块,基于与所述事件集所包含的各事件对应的输入特征向量,对所述事件序列数据进行编码;其中,编码完成的事件序列数据用于作为输入数据输入至机器学习模型进行计算。
17.根据权利要求16所述的装置,所述共现概率,为事件序列数据所包含的各目标事件,与所述各目标事件以外的各其它事件,在所述事件序列数据中共同出现的概率;
所述共现矩阵的行对应各目标事件,所述共现矩阵的列对应各目标事件以外的各其它事件;或者,所述共现矩阵的列对应各目标事件,所述共现矩阵的行对应各目标事件以外的各其它事件。
18.根据权利要求17所述的装置,所述各目标事件包括,将预设大小的滑动窗口在所述事件序列数据中进行滑动时,所述滑动窗口的中心事件;
所述计算模块进一步:
将预设大小的滑动窗口在所述事件序列数据中进行滑动,并确定每次滑动时所述滑动窗口的中心事件;
依次计算所述滑动窗口的中心事件,与所述事件序列数据中包含的所述中心事件以外的各其它事件,在所述事件序列数据中的共现概率。
19.根据权利要求18所述的装置,所述计算模块进一步:统计所述事件序列数据中包含的各中心事件以外的各其它事件,与所述中心事件的事件距离;
基于所述各其它事件与所述中心事件的事件距离,依次计算所述各其它事件与所述中心事件的共现概率。
20.根据权利要求19所述的装置,利用所述各其它事件与所述中心事件的事件距离的倒数,表征所述各其它事件与所述中心事件的共现概率。
21.根据权利要求16所述的装置,所述生成模块进一步:为预设的事件集中包含的各事件,分别随机生成与所述第一共现矩阵对应的初始化特征向量、与所述第二共现矩阵对应的初始化特征向量。
22.根据权利要求16所述的装置,所述训练模块进一步:迭代执行以下训练步骤,直到得到与所述事件集中包含的各事件对应的输入特征向量:
将所述共现概率相关的事件对应的初始化特征向量,输入至以所述共现概率作为约束的损失函数,计算所述损失函数的输出值;其中,所述损失函数表征,与所述共现概率相关的事件对应初始化特征向量,逼近所述共现概率的程度;
调整所述初始化特征向量,求解所述损失函数的输出值的最小值;
将求解出所述最小值时,输入至所述损失函数的调整后的所述初始化特征向量,确定为与所述共现概率相关的事件对应输入特征向量。
23.根据权利要求22所述的装置,所述损失函数表征,与所述共现概率相关的事件对应初始化特征向量的内积,逼近所述共现概率的对数的程度;
所述训练模块进一步:
计算与所述共现概率相关的事件对应的初始化特征向量内积,并将计算出的所述内积输入至以所述共现概率的对数作为约束的损失函数,计算所述损失函数的输出值。
24.根据权利要求23所述的装置,所述损失函数基于以下公式表征:其中,J表示损失函数的输出值;i和j表示所述事件集中任意的两个事件; 表示事件i与事件j分别对应的初始化特征向量的内积;C(i,j)表示事件i和j在所述共现矩阵中2
的共现概率;E的取值大小为M ;M表示所述事件集包含的各事件的类别总数;f(x)表示权重函数。
25.根据权利要求24所述的装置,所述f(x)为以所述共现矩阵中包含的C(i,j)为变量的区间函数。
26.根据权利要求24所述的装置,所述f(x)基于以下公式表征:其中,d表示0或者趋于0的极小值;S表示与所述共现矩阵中包含的C(i,j)对应的阈值。
27.根据权利要求16所述的装置,所述编码模块进一步:基于与所述事件集所包含的各事件对应的输入特征向量,按照所述事件序列数据中的各事件的排列顺序进行向量拼接,得到与所述事件序列数据对应的事件序列向量。
28.根据权利要求16所述的装置,所述事件包括用户针对用户账户的操作行为事件;所述机器学习模型为针对用户账户进行风险识别的风险识别模型。
29.根据权利要求16所述的装置,所述训练模块进一步:基于预设的与所述第一共现矩阵对应的第一损失函数,以所述第一共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述第一共现矩阵对应的所述事件集中包含的各事件对应的第一输入特征向量;
基于预设的与所述第二共现矩阵对应预设的第二损失函数,以所述第二共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述第二共现矩阵对应的所述事件集中包含的各事件对应的第二输入特征向量;
将第一输入特征向量和第二输入特征向量,拼接生成与所述事件集中包含的各事件对应的输入特征向量。
30.根据权利要求29所述的装置,所述训练模块进一步:将第一输入特征向量和第二输入特征向量,纵向拼接生成与所述事件集中包含的各事件对应的输入特征向量。
31.一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行如权利要求1至15任一项所述的方法。
说明书 :
事件序列数据的处理方法、装置、电子设备
技术领域
背景技术
模型本质上就是一种算法,该算法试图从数据中学习潜在模式和关系,而不是通过代码构
建一成不变的规则。
例如,用户可以通过支付宝应用,进行支付、转账、商户签约等业务对应的业务操作。
发明内容
的共现概率生成的矩阵;
的输入特征向量;
外的各其它事件。
入特征向量,包括:
相关的事件对应初始化特征向量,逼近所述共现概率的程度;
2
述共现矩阵中的共现概率;E的取值大小为M ;M表示所述事件集包含的各事件的类别总数;
f(x)表示权重函数。
第二共现矩阵;
的各事件对应的输入特征向量,包括:
特征向量进行训练,得到与所述第一共现矩阵对应的所述事件集中包含的各事件对应的第
一输入特征向量;
始化特征向量进行训练,得到与所述第二共现矩阵对应的所述事件集中包含的各事件对应
的第二输入特征向量;
各事件之间的共现概率生成的矩阵;
各事件对应的输入特征向量;
型进行计算。
外的各其它事件。
相关的事件对应初始化特征向量,逼近所述共现概率的程度;
2
述共现矩阵中的共现概率;E的取值大小为M ;M表示所述事件集包含的各事件的类别总数;
f(x)表示权重函数。
第二共现矩阵;
特征向量进行训练,得到与所述第一共现矩阵对应的所述事件集中包含的各事件对应的第
一输入特征向量;
始化特征向量进行训练,得到与所述第二共现矩阵对应的所述事件集中包含的各事件对应
的第二输入特征向量;
数据对应的共现矩阵;其中,所述共现矩阵为基于所述事件序列数据中包含的各事件之间
的共现概率生成的矩阵;将所述共现矩阵中包含的共现概率作为约束,对所述事件集中包
含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述事件集中包
含的各事件对应的输入特征向量;基于与所述事件集所包含的各事件对应的输入特征向
量,对所述事件序列数据进行编码;其中,编码完成的事件序列数据用于作为输入数据输入
至机器学习模型进行计算;一方面,提高了事件编码对用户正常行为和异常行为的双层表
征的信息密度,并克服了稀疏编码带来的低信息密度和维度灾难;另一方面,仅需少量事件
序列数据可以进行事件及事件序列数据的编码计算,提高了编码效率。
附图说明
具体实施方式
中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附
权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包
含一个或多个相关联的列出项目的任何或所有可能组合。
本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第
一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……
时”或“响应于确定”。
台可以基于机器学习技术构建的风险识别模型,对用户进行风险识别。例如,基于搭载的机
器学习模型作为对用户账户进行风险识别的风险识别模型,并进行模型训练,应用后台基
于训练完成的风险识别模型进行风险识别,从而预测出操作行为异常的用户账户。
位数包括1、2、3、...N。定义“用户登陆”事件对应的事件编码的位数1的值对应为1,定义“修
改密码”事件为对应的事件编码的位数2的值对应为1,以此类推。基于One‑hot编码输出的N
个类别事件(用户登陆、修改密码、提现、创建二维码、...、退出登录) 分别对应的事件编
码,请参见以下表1示例:
录”事件,...,[00000…1]表征“退出登录”事件。
多,在后续计算中也会增大风险识别模型的输入层的复杂度。
One‑hot编码的信息密度是相当低的;
除记录、...、退出登录)中的上下文(该单个事件前后发生的其它事件),因此,基于One‑hot
编码方式的事件编码,无法表征某单个事件在事件序列中和其他事件的关联语义。
连续数据的一种计算方法,其广泛应用在自然语言处理、生物信息学等领域中。Embedding
编码方式的核心本质为,一种利用机器学习的方法从序列中学习每一个序列元素的低维高
密度特征的编码方法。具体基于Embedding编码方式进行编码的原理过程,请参见
Embedding 编码方式相关的技术文档,这里不再赘述。
集合所分别包含的事件序列,以及,与事件序列分别对应的标签(标签指示事件序列是否为
真实用户行为,比如:是真实用户行为的事件序列,则对应标签值为1,否则,对应标签值为
0),作为训练样本输入到对应事件编码模型中,并以标签值作为约束进行训练,从而得到基
于 Embedding编码的事件编码。基于以上描述的基于Embedding编码的事件编码过程相比
基于One‑hot编码的事件编码过程可以较大地降低事件编码的维度以及提升事件编码的信
息密度,然而存在仅基于用户正常行为对应的正常事件序列的进行采样及编码的缺点,无
法表征用户异常行为对应的异常事件序列的特征及事件关联;以及,存在需要额外的机器
学习模型进行间接学习输出事件编码的编码效率较低的问题。
特征向量进行向量训练,并对事件序列数据进行编码的技术方案,以使编码完成的具有表
征用户的正常及异常的双层行为特征的事件序列数据用于作为输入数据输入至机器学习
模型进行快速计算。
共现矩阵;其中,所述共现矩阵为基于所述事件序列数据中包含的各事件之间的共现概率
生成的矩阵。
各事件对应的输入特征向量;
型进行计算。
列数据对应的共现矩阵;其中,所述共现矩阵为基于所述事件序列数据中包含的各事件之
间的共现概率生成的矩阵;将所述共现矩阵中包含的共现概率作为约束,对所述事件集中
包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述事件集中
包含的各事件对应的输入特征向量;基于与所述事件集所包含的各事件对应的输入特征向
量,对所述事件序列数据进行编码;其中,编码完成的事件序列数据用于作为输入数据输入
至机器学习模型进行计算;一方面,提高了事件编码对用户正常行为和异常行为的双层表
征的信息密度,并克服了稀疏编码带来的低信息密度和维度灾难;另一方面,仅需少量事件
序列数据可以进行事件及事件序列数据的编码计算,提高了编码效率。
事件之间的共现概率生成的矩阵。
事件对应的输入特征向量。
进行计算。
{“用户登陆”、“修改密码”、“提现”、“创建二维码”、“删除记录”、...、“退出登录”}。
列数据可以包括多个上述事件,按任意组合及数量所构建的事件序列,比如:上述事件序列
数据可以包括:[EA、EB]、 [EA、EB、EC]、[EB、EC、ED、EE、EN]、[EA、EN]或者[EA、EB、EC、 ED、
EE、...、EN]、[EA、ED、EC、EC、EE、EC、EE、EC、EE]中的任意一个。
明书中,不作具体限定。
的任意一个,则上述事件序列数据集合可以为{[EA、EB]、[EA、EB、EC]、[EB、EC、ED、EE、 EN]、
[EA、EN]、[EA、EB、EC、ED、EE、...、EN]、[EA、ED、EC、EC、 EE、EC、EE、EC、EE]}或者任意数量的
上述事件序列数据的集合。
中的每个上述事件序列数据的序列内容),在本说明书中,不作具体限定。
对应正常的事件序列数据集合;
常的事件序列数据集合。
特征向量,对应可以为{“用户登陆”对应的初始化特征向量EA_IV、“修改密码”对应的初始
化特征向量EB_IV、“提现”对应的初始化特征向量EC_IV、“创建二维码”对应的初始化特征
向量ED_IV、“删除记录”对应的初始化特征向量EE_IV、...、“退出登录”对应的初始化特征
向量EN_IV}。
成对应的初始化特征向量。
化特征向量,对应可以为{“用户登陆”对应的初始化特征向量EA_IV、“修改密码”对应的初
始化特征向量EB_IV、“提现”对应的初始化特征向量EC_IV、“创建二维码”对应的初始化特
征向量ED_IV、“删除记录”对应的初始化特征向量EE_IV、...、“退出登录”对应的初始化特
征向量EN_IV};其中,EA_IV、EB_IV、EC_IV、ED_IV、 EE_IV、...、及EC_IV,分别对应的向量内
容为随机值。
EE表征“删除记录”事件、...、 EN表征“退出登录”事件;上述事件序列数据集合中读取到的
上述事件序列数据可以包括:{[EA、EB]、[EA、EB、EC]、[EB、EC、ED、EE、EN]、 [EA、EN]、[EA、
EB、EC、ED、EE、...、EN]、[EA、ED、EC、EC、EE、 EC、EE、EC、EE]};则上述共现概率为{EA、EB、EC、
ED、EE、...、EN} 事件集中的任意两个事件,在事件序列数据集合中读取到的事件序列数
据: {[EA、EB]、[EA、EB、EC]、[EB、EC、ED、EE、EN]、[EA、EN]、[EA、 EB、EC、ED、EE、...、EN]、
[EA、ED、EC、EC、EE、EC、EE、EC、EE]} 中,同时出现的概率。
的各其它事件B,上述共现概率为各事件A与各其它事件B在上述事件序列数据中共同出现
的概率。
EE、EC、EE),当目标事件为该事件序列数据中的最左侧的EA时,则该目标事件以外的各其它
事件包括除EA以外的事件(ED、EC、EC、EE、EC、EE、EC、EE),该目标事件与该目标事件以外的
各其它事件的共现概率为:“最左侧的EA”,分别与“ED、EC、EC、EE、EC、EE、EC、EE”中的每个事
件同时出现的概率;
以外的各其它事件的共现概率为:“最左侧的ED”,分别与“EA、EC、EC、EE、EC、EE、EC、EE”中的
每个事件同时出现的概率;
件序列数据中的从左数第三个EC、EE、该事件序列数据中的从左数第四个EC、EE),该目标事
件与该目标事件以外的各其它事件的共现概率为:“最左侧的EC”,分别与“EA、ED、该事件序
列数据中的从左数第二个EC、EE、该事件序列数据中的从左数第三个EC、 EE、该事件序列数
据中的从左数第四个EC、EE”中的每个事件同时出现的概率。
各目标事件以外的各其它事件,在该事件序列数据中共同出现的概率;具体过程与以上示
例类似,不再赘述。
EN]、[EA、EN]、[EA、EB、 EC、ED、EE、...、EN]、[EA、ED、EC、EC、EE、EC、EE、EC、EE]}为基础的背
景下进行示例,则上述共现矩阵,请参见如下表2 所示示例:
MultiEventSeqData中同时出现的共现概率,例如:EA&EA 共现概率,表征EA与EA在
MultiEventSeqData中同时出现的共现概率,类似地,表2 中具有“xx&xx共现概率”样式的
其它单元格表征:上述事件集为{EA、EB、EC、ED、EE、...、EN}中的任意两个事件,在
MultiEventSeqData 中同时出现的共现概率,具体不再赘述。
计算与读取到的所述事件序列数据对应的共现矩阵。
示例的共现矩阵。
述共现矩阵的列对应为读取到的事件序列数据所包含的各目标事件以外的各其它事件。
如表2 所示的共现矩阵的列对应读取到的事件序列数据MultiEventSeqData中的每个事件
序列数据的中心事件以外的各其它事件,进行共现概率计算。
述共现矩阵的行对应为读取到的事件序列数据所包含的各目标事件以外的各其它事件,进
行共现概率计算。
件,如表2 所示的共现矩阵的行对应为读取到的事件序列数据MultiEventSeqData中的每
个事件序列数据的中心事件以外的各其它事件,进行共现概率计算。
处理端读取到的事件序列数据所包含的每个事件序列数据中的除目标事件以外的其它事
件。重点关注的是,上述各其它事件与上述各目标事件的事件类型可以相同或不同。
EC、EE]为例进行说明,事件序列数据EventSeqData1中的目标事件,是指预设大小(比如:窗
口长度为7)的滑动窗口在事件序列数据EventSeqData1进行滑动时,该滑动窗口的中心事
件为:该滑动窗口长度为窗口中心位置所对应的事件。
EventSeqData1的滑动窗口为如图2所示的虚线框所示,该滑动窗口的窗口长度为7,也即,
该滑动窗口在滑动时对应事件序列数据EventSeqData1中的7个事件。
事件序列数据EventSeqData1的事件EE 为滑动窗口的中心事件(如图2中带斜线的EE)。
侧的EC。
的中心事件以外的各其它事件。比如:如图2所示,当事件序列数据EventSeqData1的滑动窗
口的中心事件为EE(带斜线的EE) 时,中心事件EE(带斜线的EE)以外的其它事件包括如图2
所示滑动窗口中的除EE(带斜线的EE)外其它事件,具体包括:如图2所示滑动窗口中的EE
(带斜线的EE)左侧的ED、EC、EC,如图2所示滑动窗口中的EE (带斜线的EE)右侧的EC、EE(不
带斜线的EE)、EC。
事件序列数据中进行滑动,依次计算上述滑动窗口的中心事件,与上述事件序列数据中包
含的上述中心事件以外的各其它事件,在上述事件序列数据中的共现概率。
据中包含的上述中心事件以外的各其它事件,在事件序列数据EventSeqData1中的共现概
率。
心事件以外的各其它事件,在该事件序列数据中的共现概率。
心事件、滑动窗口的中心事件以外的各其它事件。
的过程中,上述事件序列数据处理端统计上述事件序列数据中包含的各中心事件以外的各
其它事件,与上述中心事件的事件距离;基于上述各其它事件与上述中心事件的事件距离,
依次计算上述各其它事件与上述中心事件的共现概率。
见图2,当滑动窗口在事件序列数据 EventSeqData1进行从左到右的滑动的过程中,上述事
件序列数据处理端在该滑动窗口每次滑动时确定该滑动窗口的中心事件;以及,与各事件
序列数据中包含的上述中心事件以外的各其它事件;接着,统计该各其它事件与该中心事
件的事件距离;然后,基于该其它事件与该中心事件的事件距离,分别计算该其它事件与该
中心事件的共现概率。
据也进行类似处理,统计每个事件序列数据中各自包含的中心事件以外的各其它事件,与
中心事件的事件距离,基于各其它事件与中心事件的事件距离,分别依次计算各其它事件
与中心事件的共现概率。
的EE)左侧的ED、EC(带斜线的EE左侧的最左侧EC)、EC(带斜线的EE左侧的左侧紧挨着的
EC),如图2所示滑动窗口中的EE(带斜线的EE)右侧的EC(带斜线的EE右侧的紧挨着的 EC)、
EE(不带斜线的EE)、EC(带斜线的EE右侧的最右侧EC)。
3、2、1。如图2所示滑动窗口中的EE(带斜线的EE)右侧的EC(带斜线的EE右侧的紧挨着的
EC)、 EE(不带斜线的EE)、EC(带斜线的EE右侧的最右侧EC),与中心事件 (带斜线的EE)的
事件距离分别为1、2、3。
述其它事件与上述中心事件的事件距离的倒数,表征上述其它事件与上述中心事件的共现
概率。
件(带斜线的EE)的事件距离分别为 3、2、1,则对应的事件距离的倒数分别为1/3、1/2、1。
件距离分别为1、2、3,则对应的事件距离的倒数分别为1、1/2、1/3。
计算上述各其它事件与上述中心事件的共现概率的过程中,上述事件序列数据处理端可以
以上述各其它事件与上述中心事件的事件距离的倒数之和,作为在上述滑动窗口的一个滑
动位置上的上述各其它事件与上述中心事件的共现概率。
的所有4个EC)分别与中心事件(带斜线的EE)的事件距离的倒数之和(1+1/2+1+1/3=
2.83),也即,中心事件 (带斜线的EE)与EC(包括:滑动窗口中的所有4个EC)的共现概率为
2.83。
(1/3=0.33),也即,中心事件(带斜线的 EE)与ED(包括:滑动窗口中的所有1个ED)的共现
概率为0.33。
斜线的EE)的事件距离的倒数之和 (1/2=0.5),也即,中心事件(带斜线的EE)与EE(包括:
滑动窗口中的除带斜线的EE外的所有1个EE)的共现概率为0.5。
理端需要将滑动窗口滑动时计算得到的读取到的上述事件序列数据中的每个事件序列数
据中所有滑动窗口滑动位置的事件i与事件j的计算得到的共现概率相加求和,得到每个事
件序列数据的事件i与事件j的共现概率1、共现概率2、...、共现概率N;以及,进一步地,将
读取到的上述事件序列数据中的每个事件序列数据,计算得到每个事件序列数据的事件i
与事件j的所有共现概率(包括共现概率1、共现概率2、...、共现概率N)进行相加,得到事件
i与事件j在读取到的上述事件序列数据中的共现概率;其中,事件i与事件j为属于上述事
件集的任意事件;进一步地,上述事件序列数据处理端基于计算出的事件i与事件j的共现
概率生成与读取到的上述事件序列数据对应的共现矩阵(上述共现矩阵,比如请参见如表2
所示)。
中包含的与上述共现概率相关的事件对应的初始化特征向量进行训练,得到与上述事件集
中包含的各事件对应的输入特征向量。
对应的初始化特征向量进行训练的损失函数;
2
上述共现矩阵(比如:如表2 所示的共现矩阵)中的共现概率;E的取值大小为M ;M表示上述
事件集包含的各事件的类别总数;f (x)表示以C(i,j)作为参数x的权重函数;
或等于100时,f(C(i,j)) =1。
对,掩盖了共现概率的值为较小的事件对,提高了对上述事件集中包含的共现概率相关的
事件对应的初始化特征向量进行训练得到上述事件集中包含的各事件对应的输入特征向
量的信息密度。
度,也即,上述损失函数的公式除了基于以上示出的
表征外,还可以以上上述共现矩阵中包含的共现概率相关的事件对应初始化特征向量的内
积,逼近上述共现矩阵中包含的共现概率的除对数函数外的其它函数的程度。
述事件集中包含的各事件对应的输入特征向量的过程中,上述事件序列数据处理端迭代执
行以下训练步骤,直到得到与上述事件集中包含的各事件对应的输入特征向量:
述损失函数比如为以上描述公式 对应的
损失函数J时,上述事件序列数据处理端计算上述将共现矩阵中包含的共现概率相关的事
件对应初始化特征向量内积,并将计算出的该内积输入至以上述共现矩阵中包含的共现概
率的对数作为约束的损失函数J,计算损失函数J的输出值。
量。
初始化特征向量求解损失函数J的最小值,并将求解出损失函数J的最小值时,输入至损失
函数J的迭代调整后的初始化特征向量,确定为上述共现矩阵中包含的共现概率相关的事
件对应输入特征向量。
型。
事件序列数据进行编码;其中,编码完成的上述事件序列数据用于作为输入数据输入至上
述机器学习模型进行计算。
序列数据进行编码;将编码完成的事件序列数据用于作为输入数据输入至上述机器学习模
型进行风险预测及评估,输出与目标用户的对应风险评分或分类,以使业务系统进行进一
步分析和决策,比如:禁止目标用户作为支付宝业务系统的商户签约支付宝;或者,限制目
标用户作为支付宝业务系统的签约商户的支付宝商户的相关权限等。
集所包含的各事件对应的输入特征向量,按照上述事件序列数据中的各事件的排列顺序进
行向量拼接,得到与上述事件序列数据对应的事件序列向量。
wEN_Vector),则读取到的事件序列数据MultiEventSeqData中的一个事件序列数据
EventSeqData1 为:
EventSeqData1对应的事件序列向量,也即,该事件序列向量的编码为以下向量的顺序拼接
(用“+”表示):
征向量,按照每个事件序列数据中的各事件的排列顺序,进行向量拼接,得到与读取到的所
有事件序列数据中的每个事件序列数据分别对应的事件序列向量。
合还可以包括多种用户行为类型分别对应的多个事件序列数据集合。
据集合;
为可以包括:“反复登录支付宝”‑>“给 100个用户在预设时间内多次转账”‑>“退出支付”。
限定。
件序列数据集合中读取到的事件序列数据集合对应的第一共现矩阵,和与从上述异常的事
件序列数据集合中读取到的事件序列数据集合对应的第二共现矩阵。
第一共现矩阵对应的初始化特征向量和与第二共现矩阵对应的初始化特征向量。
事件集中包含的各事件对应的输入特征向量时,上述事件序列数据处理端可以基于预设的
与上述第一共现矩阵对应的第一损失函数,以上述第一共现矩阵中包含的共现概率作为约
束,对上述事件集中包含的与上述共现概率相关的事件对应的初始化特征向量进行训练,
得到与上述第一共现矩阵对应的上述事件集中包含的各事件对应的第一输入特征向量;
与上述共现概率相关的事件对应的初始化特征向量进行训练,得到与上述第二共现矩阵对
应的上述事件集中包含的各事件对应的第二输入特征向量。
描述的上述事件集中包含的各事件对应的输入特征向量(比如,请参见以上示例描述的上
述事件集所包含的事件{EA、EB、 EC、ED、EE、...、EN}分别一一对应的输入特征向量为
{wEA_Vector、 wEB_Vector、wEC_Vector、wED_Vector、wEE_Vector、…、wEN_Vector})类似,这里不再赘述。
数据处理端将上述第一输入特征向量和上述第二输入特征向量,纵向拼接生成与上述事件
集中包含的各事件对应的输入特征向量。
的与上述事件集中包含的各事件对应的输入特征向量,使用以下公式3表征:
二输入特征向量。
的纵向拼接向量。
入特征向量和上述第二输入特征向量横向拼接生成。
的该输入特征向量,对上述事件序列数据集合中的各事件序列数据进行编码;其中,编码完
成的事件序列数据用于作为输入数据输入至上述机器学习模型进行计算。
行编码过程,与以上描述的读取到的事件序列数据 MultiEventSeqData仅对应一个共现矩
阵进行编码的过程类似,具体不再赘述。
息,避免使用真伪序列判别的方式来间接学习行为事件的共现特征表达,从而只需要少量
序列数据就能达到预期的效果,提高了事件序列数据的编码效率。
列数据对应的共现矩阵;其中,所述共现矩阵为基于所述事件序列数据中包含的各事件之
间的共现概率生成的矩阵;将所述共现矩阵中包含的共现概率作为约束,对所述事件集中
包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述事件集中
包含的各事件对应的输入特征向量;基于与所述事件集所包含的各事件对应的输入特征向
量,对所述事件序列数据进行编码;其中,编码完成的事件序列数据用于作为输入数据输入
至机器学习模型进行计算;一方面,提高了事件编码对用户正常行为和异常行为的双层表
征的信息密度,并克服了稀疏编码带来的低信息密度和维度灾难;另一方面,仅需少量事件
序列数据可以进行事件及事件序列数据的编码计算,提高了编码效率。
可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一
个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机
程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书的事件序列
数据的处理装置所在电子设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、
以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功
能,还可以包括其他硬件,对此不再赘述。
的各事件之间的共现概率生成的矩阵;
的各事件对应的输入特征向量;
模型进行计算。
外的各其它事件。
相关的事件对应初始化特征向量,逼近所述共现概率的程度;
2
所述共现矩阵中的共现概率;E的取值大小为M ;M表示所述事件集包含的各事件的类别总
数;f(x)表示权重函数。
第二共现矩阵;
特征向量进行训练,得到与所述第一共现矩阵对应的所述事件集中包含的各事件对应的第
一输入特征向量;
始化特征向量进行训练,得到与所述第二共现矩阵对应的所述事件集中包含的各事件对应
的第二输入特征向量;
说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以
不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的
需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付
出创造性劳动的情况下,即可以理解并实施。
以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放
器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的
任意几种设备的组合。
部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他
设备或者部件进行通信。该电子设备,通过读取并执行所述存储器存储的与上述方法实施
例对应的事件序列数据的处理的控制逻辑对应的机器可执行指令,所述处理器被促使执行
该机器可执行指令。
用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未公开的本技术领域中
的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和
精神由下面的权利要求指出。
制。
围之内。