数据异常识别方法、装置、存储介质以及电子设备转让专利

申请号 : CN202011166127.2

文献号 : CN112221156B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈观钦陈健柯何施慧陈远王摘星刘恩吏

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本发明公开了一种数据异常识别方法、装置、存储介质以及电子设备。其中,该方法包括:获取数据识别请求;响应数据识别请求,获取与日志数据对应的属性统计特征以及行为序列数据,其中,属性统计特征包括对目标账号在目标时间段内关联的多个属性参数的参数变化分别进行统计后得到的特征,行为序列数据包括目标账号控制的虚拟对象在目标时间段内执行的行为的时序数据;将属性统计特征输入转换模型,以获得转换模型输出的属性组合特征;将属性组合特征、属性统计特征以及行为序列数据输入识别模型,以获得识别模型输出的数据识别结果。本发明解决了数据异常识别的准确性较低的技术问题。

权利要求 :

1.一种数据异常识别方法,其特征在于,包括:获取数据识别请求,其中,所述数据识别请求用于请求确认目标游戏应用中的目标账号在目标时间段内生成的日志数据是否异常;

响应所述数据识别请求,获取与所述日志数据对应的属性统计特征以及行为序列数据,其中,所述属性统计特征包括对所述目标账号在所述目标时间段内关联的多个属性参数的参数变化分别进行统计后得到的特征,所述行为序列数据包括所述目标账号控制的虚拟对象在所述目标时间段内执行的行为的时序数据;

将所述属性统计特征输入转换模型,以获得所述转换模型输出的属性组合特征,其中,所述转换模型用于将输入特征转换为具有决策树特性的属性组合特征;

将所述属性组合特征、所述属性统计特征以及所述行为序列数据输入识别模型,以获得所述识别模型输出的数据识别结果,其中,所述数据识别结果用于指示所述日志数据是否异常,所述识别模型中包括用于融合所述属性组合特征与所述属性统计特征以获得第一融合特征的第一融合结构,用于融合所述第一融合特征与所述行为序列数据以获得第二融合特征的第二融合结构,以及用于利用所述第二融合特征识别所述日志数据是否异常的识别结构。

2.根据权利要求1所述的方法,其特征在于,所述将所述属性组合特征、所述属性统计特征以及所述行为序列数据输入识别模型,以获得所述识别模型输出的数据识别结果,包括:

将所述属性组合特征输入第一子网络,以获得第一输出特征,其中,所述识别模型包括所述第一子网络;

将所述属性统计特征输入第二子网络,以获得第二输出特征,其中,所述识别模型包括所述第二子网络;

将所述第一输出特征、所述第二输出特征输入第一全连接层,以获得所述第一融合特征,其中,在所述第一全连接层中融合所述第一输出特征、以及所述第二输出特征,所述第一融合结构包括所述第一全连接层;

将所述行为序列数据输入第三子网络,以获得第三输出特征,其中,所述识别模型包括所述第三子网络;

将所述第三输出特征、所述第一融合特征输入第二全连接层,以获得所述第二融合特征,其中,所述第二融合结构包括所述第二全连接层;

将所述第二融合特征输入所述第二全连接层的分类层,以获得所述数据识别结果,其中,所述识别结构包括所述分类层。

3.根据权利要求2所述的方法,其特征在于,所述将所述属性组合特征输入第一子网络,以获得第一输出特征,包括:将所述属性组合特征输入所述第一子网络的嵌入层,以获得M个属性组合向量,其中,所述属性组合向量与所述属性组合特征对应,所述M为大于等于1的正整数;

基于注意力机制,融合所述M个属性组合向量,以获得目标属性融合向量,并将所述目标属性融合向量作为所述第一输出特征。

4.根据权利要求2所述的方法,其特征在于,所述将所述属性统计特征输入第二子网络,以获得第二输出特征,包括:将所述属性统计特征输入所述第二子网络的嵌入层,以获得目标维度的属性统计向量,其中,所述目标维度与所述第二子网络相匹配,所述属性统计向量为与所述属性统计特征相对应的分布式向量;

将所述属性统计向量输入所述第二子网络,以获得所述第二输出特征。

5.根据权利要求4所述的方法,其特征在于,所述将所述属性统计向量输入所述第二子网络,以获得所述第二输出特征,包括:根据所述属性统计向量与所述属性统计特征的特征值的目标乘积,获取一阶输出向量,其中,所述一阶输出向量为对所述目标乘积做加权计算后得到的向量;

对所述属性统计向量进行两两组合,以获得二阶输出向量;

将所述一阶输出向量、所述二阶输出向量输入所述第二子网络的第三全连接层,以获得第三融合特征,其中,所述第三融合特征用于表示所述一阶输出向量与所述二阶输出向量的融合特征。

6.根据权利要求2所述的方法,其特征在于,所述将所述行为序列数据输入第三子网络,以获得第三输出特征,包括:在所述第三子网络的嵌入层中,对所述行为序列数据执行向量映射,以获得第一行为序列向量;

在所述第三子网络的卷积层中,对所述第一行为序列向量执行特征提取,以获得第二行为序列向量;

在所述第三子网络的池化层中,对所述第二行为序列向量执行特征融合,以获得第三行为序列向量;

在所第三子网络的转换层中,对所述第三行为序列向量执行高层特征的保留以及融合,以获得第四行为序列向量;

在所述第三子网络的第四全连接层中,对所述第四行为序列向量执行特征转换和特征降维,以获得第五行为序列向量;

将所述第五行为序列向量作为所述第三输出特征。

7.根据权利要求3所述的方法,其特征在于,所述将所述属性统计特征输入转换模型,以获得所述转换模型输出的属性组合特征,包括:将所述属性统计特征输入所述转换模型;

利用所述转换模型中M个决策树的树结构,分别预测所述属性统计特征对应的M个属性组合子特征,其中,每个所述属性组合子特征为一个树结构的叶子节点对应的编码特征;

将所述M个属性组合子特征作为所述属性组合特征。

8.根据权利要求1所述的方法,其特征在于,所述响应所述数据识别请求,获取与所述日志数据对应的属性统计特征,包括:从所述日志数据中提取初始属性统计特征,其中,所述初始属性统计特征包括连续数值特征以及离散类别特征;

将所述连续数值特征做归一化处理,将所述离散类别特征做过滤编码处理,以获得所述属性统计特征。

9.根据权利要求1所述的方法,其特征在于,所述响应所述数据识别请求,获取与所述日志数据对应的行为序列数据,包括:从所述日志数据中提取初始行为序列数据,其中,所述初始行为序列数据包括N个行为数据,所述N个行为数据与N个时刻相对应,所述目标时间段包括所述N个时刻,所述N为大于

0的整数;

按照所述N个时刻的生成顺序,对所述N个行为数据进行统计以及排序,以获得行为数据序列。

10.根据权利要求1所述的方法,其特征在于,在所述获取数据识别请求之前,包括:使用第一样本集合中的第一样本特征对所述转换模型进行训练,其中,所述第一样本特征包括以下至少之一:携带有异常标签的连续样本特征、携带有所述异常标签的离散样本特征,所述异常标签用于表示是否属于异常状态;

确定输出结果满足第一收敛条件的所述转换模型为所述转换模型。

11.根据权利要求1所述的方法,其特征在于,在所述获取数据识别请求之前,包括:使用第二样本集合中的第二样本特征对所述识别模型进行训练,其中,所述第二样本特征包括以下至少之一:携带有异常标签的样本属性统计特征、携带有所述异常标签的样本属性组合特征以及携带有所述异常标签的样本行为序列数据,所述异常标签用于表示是否属于异常状态;确定输出结果满足第二收敛条件的所述识别模型为所述识别模型。

12.一种数据异常识别装置,其特征在于,包括:获取单元,用于获取数据识别请求,其中,所述数据识别请求用于请求确认目标游戏应用中的目标账号在目标时间段内生成的日志数据是否异常;

响应单元,用于响应所述数据识别请求,获取与所述日志数据对应的属性统计特征以及行为序列数据,其中,所述属性统计特征包括对所述目标账号在所述目标时间段内关联的多个属性参数的参数变化分别进行统计后得到的特征,所述行为序列数据包括所述目标账号控制的虚拟对象在所述目标时间段内执行的行为的时序数据;

第一输入单元,用于将所述属性统计特征输入转换模型,以获得所述转换模型输出的属性组合特征,其中,所述转换模型用于将输入特征转换为具有决策树特性的特征组合信息的输出特征;

第二输入单元,用于将所述属性组合特征、所述属性统计特征以及所述行为序列数据输入识别模型,以获得所述识别模型输出的数据识别结果,其中,所述数据识别结果用于指示所述日志数据是否异常,所述识别模型中包括用于融合所述属性组合特征与所述属性统计特征以获得第一融合特征的第一融合结构,用于融合所述第一融合特征与所述行为序列数据以获得第二融合特征的第二融合结构,以及用于利用所述第二融合特征识别所述日志数据是否异常的识别结构。

13.根据权利要求12所述的装置,其特征在于,所述第二输入单元,包括:第一输入模块,用于将所述属性组合特征输入第一子网络,以获得第一输出特征,其中,所述识别模型包括所述第一子网络;

第二输入模块,用于将所述属性统计特征输入第二子网络,以获得第二输出特征,其中,所述识别模型包括所述第二子网络;

第三输入模块,用于将所述第一输出特征、所述第二输出特征输入第一全连接层,以获得所述第一融合特征,其中,在所述第一全连接层中融合所述第一输出特征、以及所述第二输出特征,所述第一融合结构包括所述第一全连接层;

第四输入模块,用于将所述行为序列数据输入第三子网络,以获得第三输出特征,其中,所述识别模型包括所述第三子网络;

第五输入模块,用于将所述第三输出特征、所述第一融合特征输入第二全连接层,以获得所述第二融合特征,其中,所述第二融合结构包括所述第二全连接层;

第六输入模块,用于将所述第二融合特征输入所述第二全连接层的分类层,以获得所述数据识别结果,其中,所述识别结构包括所述分类层。

14.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至11任一项中所述的方法。

15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。

说明书 :

数据异常识别方法、装置、存储介质以及电子设备

技术领域

[0001] 本发明涉及计算机领域,具体而言,涉及一种数据异常识别方法、装置、存储介质以及电子设备。

背景技术

[0002] 在很多游戏应用中,为了保证游戏的公平性,常常会基于判断不同玩家的历史游戏行为产生的日志数据是否异常,进而来确定该游戏玩家是否为异常玩家。
[0003] 而相关技术面对上述日志数据的异常识别,通常是通过对业务知识的理解,人工设计一些特征并做经过特征选择后得到固定维度的特征,然后基于设计好的特征,通过构
建机器学习模型的形式来学习数据中高质量玩家的特点。
[0004] 但人工设计的特征,无法考虑到玩家属性变化之间的组合特征,以及玩家时序行为之间的序列特征,进而导致存在对日志数据的异常识别存在准确性较低的问题。
[0005] 针对上述的问题,目前尚未提出有效的解决方案。

发明内容

[0006] 本发明实施例提供了一种数据异常识别方法、装置、存储介质以及电子设备,以至少解决数据异常识别的准确性较低的技术问题。
[0007] 根据本发明实施例的一个方面,提供了一种数据异常识别方法,包括:获取数据识别请求,其中,上述数据识别请求用于请求确认目标游戏应用中的目标账号在目标时间段
内生成的日志数据是否异常;响应上述数据识别请求,获取与上述日志数据对应的属性统
计特征以及行为序列数据,其中,上述属性统计特征包括对上述目标账号在上述目标时间
段内关联的多个属性参数的参数变化分别进行统计后得到的特征,上述行为序列数据包括
上述目标账号控制的虚拟对象在上述目标时间段内执行的行为的时序数据;将上述属性统
计特征输入转换模型,以获得上述转换模型输出的属性组合特征,其中,上述转换模型用于
将输入特征转换为具有决策树特性的特征组合信息的输出特征;将上述属性组合特征、上
述属性统计特征以及上述行为序列数据输入识别模型,以获得上述识别模型输出的数据识
别结果,其中,上述数据识别结果用于指示上述日志数据是否异常,上述识别模型中包括用
于融合上述属性组合特征与上述属性统计特征以获得第一融合特征的第一融合结构,用于
融合上述第一融合特征与上述行为序列数据以获得第二融合特征的第二融合结构,以及用
于利用上述第二融合特征识别上述日志数据是否异常的识别结构。
[0008] 根据本发明实施例的另一方面,还提供了一种数据异常识别装置,包括:获取单元,用于获取数据识别请求,其中,上述数据识别请求用于请求确认目标游戏应用中的目标
账号在目标时间段内生成的日志数据是否异常;响应单元,用于响应上述数据识别请求,获
取与上述日志数据对应的属性统计特征以及行为序列数据,其中,上述属性统计特征包括
对上述目标账号在上述目标时间段内关联的多个属性参数的参数变化分别进行统计后得
到的特征,上述行为序列数据包括上述目标账号控制的虚拟对象在上述目标时间段内执行
的行为的时序数据;第一输入单元,用于将上述属性统计特征输入转换模型,以获得上述转
换模型输出的属性组合特征,其中,上述转换模型用于将输入特征转换为具有决策树特性
的特征组合信息的输出特征;第二输入单元,用于将上述属性组合特征、上述属性统计特征
以及上述行为序列数据输入识别模型,以获得上述识别模型输出的数据识别结果,其中,上
述数据识别结果用于指示上述日志数据是否异常,上述识别模型中包括用于融合上述属性
组合特征与上述属性统计特征以获得第一融合特征的第一融合结构,用于融合上述第一融
合特征与上述行为序列数据以获得第二融合特征的第二融合结构,以及用于利用上述第二
融合特征识别上述日志数据是否异常的识别结构。
[0009] 根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述数据
异常识别方法。
[0010] 根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行
上述的数据异常识别方法。
[0011] 在本发明实施例中,获取数据识别请求,其中,上述数据识别请求用于请求确认目标游戏应用中的目标账号在目标时间段内生成的日志数据是否异常;响应上述数据识别请
求,获取与上述日志数据对应的属性统计特征以及行为序列数据,其中,上述属性统计特征
包括对上述目标账号在上述目标时间段内关联的多个属性参数的参数变化分别进行统计
后得到的特征,上述行为序列数据包括上述目标账号控制的虚拟对象在上述目标时间段内
执行的行为的时序数据;将上述属性统计特征输入转换模型,以获得上述转换模型输出的
属性组合特征,其中,上述转换模型用于将输入特征转换为具有决策树特性的特征组合信
息的输出特征;将上述属性组合特征、上述属性统计特征以及上述行为序列数据输入识别
模型,以获得上述识别模型输出的数据识别结果,其中,上述数据识别结果用于指示上述日
志数据是否异常,上述识别模型中包括用于融合上述属性组合特征与上述属性统计特征以
获得第一融合特征的第一融合结构,用于融合上述第一融合特征与上述行为序列数据以获
得第二融合特征的第二融合结构,以及用于利用上述第二融合特征识别上述日志数据是否
异常的识别结构,先利用转换模型以及获取的属性统计特征,以获得离散化和组合能力更
强的属性组合特征,同时融合属性统计特征以及属性组合特征,使得输出的第一融合特征
拥有属性统计特征特有的高相关性的优点,还因属性统计特征记录有原始特征信息,使得
获取的第一融合特征也避免了后续可能出现的信息损失的问题;进一步,再利用识别模型,
融合获取的行为序列数据以及第一融合特征,因行为序列数据对于判别数据异常具有关键
和丰富的语音特征,与第一融合特征互为补充,使得输出的第二融合特征结合了上述属性
统计特征的保留原始信息、属性组合特征的高相关性以及行为序列数据的丰富优势,进而
达到了使得用于获取数据识别结果的特征更健壮的目的,从而实现了提高数据异常识别的
准确性的效果,进而解决了数据异常识别的准确性较低的技术问题。

附图说明

[0012] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0013] 图1是根据本发明实施例的一种可选的数据异常识别方法的应用环境的示意图;
[0014] 图2是根据本发明实施例的一种可选的数据异常识别方法的流程图的示意图;
[0015] 图3是根据本发明实施例的一种可选的数据异常识别方法的示意图;
[0016] 图4是根据本发明实施例的另一种可选的数据异常识别方法的示意图;
[0017] 图5是根据本发明实施例的另一种可选的数据异常识别方法的示意图;
[0018] 图6是根据本发明实施例的另一种可选的数据异常识别方法的示意图;
[0019] 图7是根据本发明实施例的另一种可选的数据异常识别方法的示意图;
[0020] 图8是根据本发明实施例的另一种可选的数据异常识别方法的示意图;
[0021] 图9是根据本发明实施例的另一种可选的数据异常识别方法的示意图;
[0022] 图10是根据本发明实施例的另一种可选的数据异常识别方法的示意图;
[0023] 图11是根据本发明实施例的另一种可选的数据异常识别方法的示意图;
[0024] 图12是根据本发明实施例的另一种可选的数据异常识别方法的示意图;
[0025] 图13是根据本发明实施例的一种可选的数据异常识别装置的示意图;
[0026] 图14是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

[0027] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是
本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范
围。
[0028] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆
盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于
清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品
或设备固有的其它步骤或单元。
[0029] 在本申请实施例中,可以但不限于使用以下技术术语:
[0030] 人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的
理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了
解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智
能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0031] 人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0032] 机器学习(Machine Learning,简称ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的
学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机
器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个
领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学
习、式教学习等技术。
[0033] 卷积神经网络(Convolutional Neural Networks,简称CNN)是一类包含卷积计算具有深度结构的前馈神经网络,是深度学习算法之一。具有表征学习能力,能够按其阶层结
构对输入信息进行平移不变分类。其中,卷积神经网络的隐含层包含卷积层、池化层和全连
接层,卷积层中的卷积核包含权重系数。
[0034] 多尺度一维CNN结构:包括特征嵌入模块和CNN特征抽取模块的多尺度,表示从多种角度描述更加丰富和全面的特征信息。在特征嵌入模块中,把输入序列数据转换成的稠
密特征向量序列,然后合并成矩阵形式的特征信息,行代表每个序列点的向量表示,列代表
行为序列的长度。在CNN特征抽取模块中,分别采用不同宽度窗口(也可称作不同尺度)的卷
积提取n‑gram(卷积核)的特征,同时通过多层一维卷积CNN层次化地提炼出不同尺度的高
层关键特征。
[0035] 根据本发明实施例的一个方面,提供了一种数据异常识别方法,可选地,作为一种可选的实施方式,上述数据异常识别方法可以但不限于应用于如图1所示的硬件环境中的
数据异常识别系统中,其中,该数据异常识别系统可以包括但不限于终端设备102、网络
104、服务器106。终端设备102中运行有目标游戏应用客户端(如游戏应用客户端)。上述终
端设备102中包括人机交互屏幕1022,处理器1024及存储器1026。人机交互屏幕1022用于呈
现上述目标游戏应用客户端的应用界面(如游戏应用界面),还用于提供人机交互接口接收
对人机交互界面执行的人机交互操作;处理器1024用于响应上述人机交互操作得到人机交
互指令,并传递给服务器106。存储器108用于存储目标账号在该游戏应用中产生的日志数
据。
[0036] 此外,服务器106中包括数据库1062及处理引擎1064,数据库1062中用于存储各个账号的日志数据,与日志数据对应的属性统计特征以及行为序列数据。处理引擎1064用于
根据日志数据对属性统计特征以及行为序列数据进行准确识别。
[0037] 具体过程如以下步骤:假设终端设备(如移动终端)102中显示有游戏应用界面,如步骤S102‑S104,获取目标账号在该目标游戏应用中在目标时间段内产生的日志数据,并将
该日志数据通过网络发送给服务器106。其中,这里的日志数据中可以但不限于包括目标账
号在游戏应用中在目标时间段内执行交互行为所生成的行为记录,以及目标账号在游戏应
用中在目标时间段内的一个或多个属性值。
[0038] 然后服务器106将执行步骤S106‑S116:服务器106将从上述日志数据中提取上述目标账号在目标时间段内的属性统计特征以及行为序列数据。这里行为序列数据用于指示
交互行为在目标时间段内的时序特性,属性统计特征用于指示交互行为基于多个统计标签
分别进行统计后的统计结果。然后将属性统计特征输入预先训练好的转换模型,以获得转
换模型输出的属性组合特征;再将属性组合特征、属性统计特征以及行为序列数据输入识
别模型,以获得识别模型输出的数据识别结果,并将其通过网络104将数据识别结果发送至
终端设备102,以使得终端设备102可以展示出上述数据识别结果,便于分析目标账号是否
为异常。
[0039] 需要说明的是,在本实施例中,基于属性组合特征、属性统计特征以及行为序列数据所构建的多塔模型,从目标账号的日志数据中提取出行为序列数据和属性统计特征,并
基于训练好的转换模型获取与属性统计特征相匹配的属性组合特征,以融合上述三个输入
数据或特征得到用于指示日志数据是否异常的数据识别结果。也就是说,通过融合具有高
相关性的属性组合特征、具有原始数据的属性统计特征以及高纬度的行为序列数据,来提
高用于确定数据识别结果的特征的健壮性,进而提高数据识别结果的获取准确性,进而克
服相关技术中数据异常识别的准确性较低的技术问题。
[0040] 可选地,在本实施例中,上述终端设备可以是配置有目标游戏应用的客户端的终端设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、
平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智
能电视等。目标游戏应用的客户端可以是游戏客户端、视频客户端、即时通信客户端、浏览
器客户端、教育客户端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线
网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网
络。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服
务器。上述仅是一种示例,本实施例中对此不作任何限定。
[0041] 可选地,作为一种可选的实施方式,如图2所示,数据异常识别方法包括:
[0042] S202,获取数据识别请求,其中,数据识别请求用于请求确认目标游戏应用中的目标账号在目标时间段内生成的日志数据是否异常;
[0043] S204,响应数据识别请求,获取与日志数据对应的属性统计特征以及行为序列数据,其中,属性统计特征包括对目标账号在目标时间段内关联的多个属性参数的参数变化
分别进行统计后得到的特征,行为序列数据包括目标账号控制的虚拟对象在目标时间段内
执行的行为的时序数据;
[0044] S206,将属性统计特征输入转换模型,以获得转换模型输出的属性组合特征,其中,转换模型用于将输入特征转换为具有决策树特性的属性组合特征;
[0045] S208,将属性组合特征、属性统计特征以及行为序列数据输入识别模型,以获得识别模型输出的数据识别结果,其中,数据识别结果用于指示日志数据是否异常,识别模型中
包括用于融合属性组合特征与属性统计特征以获得第一融合特征的第一融合结构,用于融
合第一融合特征与行为序列数据以获得第二融合特征的第二融合结构,以及用于利用第二
融合特征识别日志数据是否异常的识别结构。
[0046] 可选地,在本实施例中,上述数据异常识别方法可以但不限于应用于识别并打击游戏应用中的异常行为或异常用户,以净化游戏应用环境的场景。通过本申请实施例中提
供的上述步骤,根据用户在客户端中所执行的人机交互行为所生成的行为记录,以及用户
的账号或用户所控制的虚拟角色的属性值,来提取各个账号的行为序列数据以及属性统计
特征,以及基于训练好的转换模型以及上述属性统计特征,进一步获取与异常数据相关性
更高的属性组合特征,以便于融合上述三种数据/特征对用户进行异常判断,得到用于指示
用户行为或属性值是否异常的数据识别结果,从而达到准确地识别出异常用户,进而对异
常用户进行一定程度的管制,以净化游戏环境。此外,通过本申请实施例中提供的上述步
骤,在运营方实际使用时,还可以但不限于通过设定概率阈值的方式,根据数据识别结果找
到一定数量的高可疑异常用户进行有效打击,而根据数据识别结果找到的低可疑异常用户
则执行导入目标名单的操作,可以但不限于对其进行更严格的人工判断,以降低游戏安全
运营的成本。
[0047] 需要说明的是,先利用转换模型以及获取的属性统计特征,以获得离散化和组合能力更强的属性组合特征,同时融合属性统计特征以及属性组合特征,使得输出的第一融
合特征拥有属性统计特征特有的高相关性的优点,还因属性统计特征记录有原始特征信
息,使得获取的第一融合特征也避免了后续可能出现的信息损失的问题;可选的,属性组合
特征可以但不限于为特征组合信息的输出特征。
[0048] 进一步,再利用识别模型融合获取的行为序列数据以及第一融合特征,其中,因行为序列数据对于判别数据异常具有关键和丰富的语音特征,与第一融合特征互为补充,使
得输出的第二融合特征结合了上述属性统计特征的保留原始信息、属性组合特征的高相关
性以及行为序列数据的丰富优势,从而保证了识别模型输出的特征的高健壮性,而高健壮
性的输出特征则保证了最终输出的数据识别结果具有较高的识别准确性,进而克服了相关
技术中存在的数据异常识别准确性较低的技术问题。
[0049] 可选地,在本实施例中,上述行为序列数据可以但不限于是基于目标账号在目标游戏应用中执行交互行为的活跃行为序列确定得到。这里的活跃行为序列可以但不限于是
单维度的行为序列。如从用户日志得到目标时间段内(如一天)目标账号使用目标游戏应用
执行交互行为的时间点序列,按照固定时间段分片的形式,把上述时间点序列的时间点转
换为便于机器训练的序列特征。如以一天为例,一天24个小时可以划分得到24个分片,每个
小时分片的游戏时长(0‑60分钟),构成一个长度为24的行为序列数据。
[0050] 此外,假设在每一个时间点用编号信息表示当前交互行为,则对行为序列长度为L的行为序列数据,每个序列编号下的交互行为还可以通过参数的分布式向量表示。例如,对
序列长度为L的行为序列数据中的每一个ID编号分别做ID Embedding,得到M维向量序列,
合并成单通道的特征矩阵,如输出的数据将是行为序列对应的矩阵(L,M)。
[0051] 可选地,在本实施例中,上述属性统计特征包括对目标账号在目标时间段内关联的多个属性参数的参数变化分别进行统计后得到的特征,具体的,属性统计特征还可以但
不限于是对目标账号执行的交互行为和/或目标账号的属性值,基于多个统计标签分别统
计的统计结果。例如,以游戏应用为例,上述统计标签可以包括但不限于:游戏类型偏好、游
戏活跃数量、活跃时段分布、组队发言等多维度标签。这里属性统计特征可以包括但不限
于:连续数值特征、类别型特征。进一步可以对上述属性统计特征进一步处理:如对连续数
值特征的数值进行归一化处理,对离散类别特征进行独热编码(one‑hot)处理,其中,可选
的,one‑hot编码可以但不限于称为一位有效编码主要是采用N位状态寄存器对N个状态进
行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。然后对上述处理
后的特征再进行过滤,以去除冗余特征,剔除其他满足条件的参考特征,如对特征进行单变
量验证,然后剔除数值方差极小和信息值(Information Value,简称IV)较小的变量,或通
过相关系数找到相关性较高的变量等。
[0052] 可选的,上述目标账号执行的交互行为可以但不限于为目标账号控制的虚拟角色在目标游戏应用中执行的交互操作,例如售卖虚拟商品、攻击敌方虚拟角色、接收虚拟任务
等;
[0053] 可选的,上述目标账号的属性值可以但不限于为目标账号自身的属性值,例如会员等级、账号登录时长、账号名下虚拟角色数量、付费数、付费率等,目标账号的属性值还可
以但不限于为目标账号控制的虚拟角色在目标游戏应用中的属性值,例如虚拟角色的等
级、虚拟货币、虚拟物品、收益率、登录时长、游戏收益等。上述为示例,本实施例中对此不作
任何限定。
[0054] 可选地,在本实施例中,可以但不限于采用结合转换网络以及多塔结构的识别模型,来将获取的属性统计特征以及行为序列数据进行融合,以得到健壮性较高的输出特征,
进而获取输出的数据识别结果;
[0055] 其中,多塔结构的识别模型可以但不限于包括第一融合结构、第二融合结构以及识别结构,进一步举例说明,可选的例如图3所示,将属性统计特征输入转换模型302以获得
输出的属性组合特征,以及直接获取的属性统计特征以及行为序列数据,输入多塔结构的
识别模型304,并在识别模型304中,基于第一融合结构3042将属性组合特征以及属性统计
特征融合,以获得第一融合特征,以及基于第二融合结构3044将第一融合特征以及行为序
列数据融合,以获得健壮性较高的第二融合特征,进而将第二融合特征输入识别结构3046,
以获得数据识别结果。
[0056] 可选地,在本实施例中,为了从众多行为序列中识别出关键行为序列特征,在识别模型中,还可以但不限于配置有卷积神经网络(Convolutional Neural Networks,简称
CNN),进而将输入的行为序列数据转换为对应的行为序列特征,且上述CNN中可以包括但不
限于包括:嵌入层(Embedding)、卷积层、门控过滤层,其中,上述卷积层可以但不限于为A层
B尺度卷积结构,A、B为正整数。上述门控过滤层可以但不限于为门控过滤结构,如Highway
结构。可选的,在行为序列数据的长度小于预设长度的情况下(不定长),通过补“0”的方式,
将该行为序列数据的长度补为上述预设长度。
[0057] 需要说明的是,结合上述转换网络以及上述多塔结构的识别模型的设计目的主要出于以下考量:
[0058] 对于属性统计特征使用两种不同的特征转换技术自动进行特征转换。其中一种是基于预训练好的转换模型在预测时做特征的转换,即把每棵树中从根节点到每个叶子节点
的路径构造一种新的特征,多棵树的预测叶节点构成属性组合特征,所以属性组合特征相
当于具有决策树特性的特征组合信息。另一种是多塔结构的识别模型中的融合结构对属性
组合特征以及属性统计特征做自适应融合。结合树模型离散化和组合特征的特点以及神经
网络自适应融合原始统计特征的优点,两者互为补充,使得特征提取更加全面和健壮,有利
于提高泛化性能和效果。
[0059] 此外,结合基于行为序列数据提取得到的关键语义向量,通过多塔结构的识别模型中配置的全连接层结合分类损失函数做端到端的模型输出。
[0060] 可选的,在运行效率上结合上述转换网络以及上述多塔结构的识别模型的设计,对属性组合特征、属性统计特征以及行为序列数据的网络结构都是轻量级的,除了预训练
的转换模型,对于属性统计特征的特征转换和融合相当于几层的全连接层,对于行为序列
数据的特征转换可以但不限于使用能够并行的CNN结构,所以模型整体的运行效率较高,能
够满足多款游戏业务同时部署的要求。在预测效果上,由于结合上述转换网络以及上述多
塔结构的识别模型的设计能够更加全面地提取属性统计特征和行为序列数据的关键信息
以及对两者做自适应的融合,进而提高了模型的预测性能。
[0061] 总之,结合上述转换网络以及上述多塔结构的识别模型的设计,避免了繁琐的规则和特征设计,同时兼顾模型的运行效率和优秀的预测效果,具有较高的可扩展性和通用
性。对于不同的游戏,结合上述转换网络以及上述多塔结构的识别模型的设计能够适配不
同维度的统计游戏属性特征和不定长的行为序列数据,所以能够快速低成本地移植到其他
游戏的玩家异常判别任务中。
[0062] 可选地,在本实施例中,为了对特征做一些交叉组合以及高级融合以得到更丰富和重要的特征,上述识别模型还可以但不限于包括多阶特征融合结构,这里多阶特征融合
结构可以包括但不限于:用于提取属性统计特征中的一阶特征的一阶特征提取结构、用于
提取属性统计特征中的二阶特征的二阶特征提取结构及用于提取属性统计特征中的高阶
特征的高阶特征提取结构。这里为是示例,本实施例中对此不作任何限定。
[0063] 可选地,在本实施例中,上述转换模型可以但不限用于将输入特征转换为具有决策树特性的特征组合信息的输出特征,换言之,转换模型可以但不限于为一种决策树模型,
例如转换模型可以但不限于为分类数模型、回归树模型、XGBoost模型、深度森林
(gcForest)模型等。可选的,决策树(Decision Tree)可以但不限于为一种基本的分类与回
归方法,当决策树用于分类时称为分类数,用于回归时称为回归树。决策树可以但不限于由
节点和有向边组成,节点可以但不限分为两类,即内部节点和叶子节点,其中,内部节点标
识一个特征或属性,叶子节点表示一个类,可选的,一颗决策树包含一个根节点、若干内部
节点和若干叶子节点,叶子节点对应决策结果,其他每个节点则对应一个属性册数,每个节
点包含的样本集合根据属性测试的结果被划分到子节点中,根节点包含样本合集,从根节
点到每个叶子节点的路径对应了一个预定测试序列,换言之,一个预定测试序列中包括从
根节点到每个叶子节点的路径,而从根节点到每个叶子节点的路径包括路径下叶子节点对
应的编码,其中,一个叶子节点对应的编码对应一个编码特征。
[0064] 可选地,在本实施例中,训练好的转换模型通过决策树的特征分割方式和梯度提升的学习形式,学习了用户原始游戏属性特征(即属性统计特征)的各种不同组合关系,这
些从根节点到叶子节点灵活分割的组合特征与目标账号是否异常的目标存在高度相关。这
些通过树模型自动化组合形成的特征能够补充人工设计特征的不足,减少了人工对用户游
戏属性特征的组合探索分析。同时,转换模型预测各树叶子节点特征是对特征值的任意离
散化分割和多个特征节点组合形成,能够进一步补充属性统计特征的不全面。
[0065] 可选的,在本实施例中,将属性统计特征输入转换模型以获得属性组合特征可以但不限例如图4所示,其中,转换模型402中包括m棵树结构,分别为树1、树2(图中未示
出)……树m,将属性统计特征分别输入上述m棵树结构中,进而获取每棵树预测的叶子节点
的路径编码作为该树的输出编码特征,例如m棵树的叶子节点的路径编码数量为n,则在树1
中,带有虚线箭头的叶子节点的路径,即为树1预测的叶子节点的路径编码2,而在树m中,带
有虚线箭头的叶子节点的路径,即为树1预测的叶子节点的路径编码(n‑1)。换言之,m颗树
分别输出与各自预测的路径编码对应的编码特征,以获得m个编码特征,进而将m个编码特
征作为属性组合特征输出。
[0066] 可选地,在本实施例中,在获得识别模型输出的数据识别结果之后,可以但不限基于数据识别结果以确定对目标游戏应用中的目标账号的处理指令,其中,处理指令用于指
示封停目标账号,例如封停目标账号,可选的,封停的时长可以但不限于与数据识别结果所
表示的该目标账号的异常程度呈正相关;此外,处理指令还可以但不限用于负面调整目标
账号的权限,例如降低上述低信用玩家的收益、提高上述低信用分玩家在游戏中的发言/私
聊/加好友等交互行为的门槛、限制上述低信用分玩家交易或取消上述低信用分玩家的游
戏测试资格、体验服资格或活动资格等。或者,在数据识别结果指示目标账号非异常的情况
下,为补偿因异常识别对该目标账号造成的负面影响,处理指令还可以但不限用于正面调
整目标账号的权限,例如提供使用特权或福利等,如提供游戏测试资格、体验服资格或活动
资格等。上述为示例,本实施例对此不作任何限定。
[0067] 进一步举例说明,在数据识别结果指示目标账号为异常的情况下,生成与数据识别结果对应的处理指令;响应处理指令,封停目标账号,并向目标账号所在的客户端发送提
示信息,其中,提示信息可以但不限例如图5所示,用于提示目标账号存在违规游戏行为,且
该账号已被封停的时长,此外,可选的,提示信息还可以但不限于携带有以下至少之一的信
息:封停时长、封停原因、解封时间、上诉链接等。
[0068] 通过本申请提供的实施例,获取数据识别请求,其中,数据识别请求用于请求确认目标游戏应用中的目标账号在目标时间段内生成的日志数据是否异常;响应数据识别请
求,获取与日志数据对应的属性统计特征以及行为序列数据,其中,属性统计特征包括对目
标账号在目标时间段内关联的多个属性参数的参数变化分别进行统计后得到的特征,行为
序列数据包括目标账号控制的虚拟对象在目标时间段内执行的行为的时序数据;将属性统
计特征输入转换模型,以获得转换模型输出的属性组合特征,其中,转换模型用于将输入特
征转换为具有决策树特性的属性组合特征;将属性组合特征、属性统计特征以及行为序列
数据输入识别模型,以获得识别模型输出的数据识别结果,其中,数据识别结果用于指示日
志数据是否异常,识别模型中包括用于融合属性组合特征与属性统计特征以获得第一融合
特征的第一融合结构,用于融合第一融合特征与行为序列数据以获得第二融合特征的第二
融合结构,以及用于利用第二融合特征识别日志数据是否异常的识别结构,先利用转换模
型以及获取的属性统计特征,以获得离散化和组合能力更强的属性组合特征,同时融合属
性统计特征以及属性组合特征,使得输出的第一融合特征拥有属性统计特征特有的高相关
性的优点,还因属性统计特征记录有原始特征信息,使得获取的第一融合特征也避免了后
续可能出现的信息损失的问题;进一步,再利用识别模型,融合获取的行为序列数据以及第
一融合特征,因行为序列数据对于判别数据异常具有关键和丰富的语音特征,与第一融合
特征互为补充,使得输出的第二融合特征结合了上述属性统计特征的保留原始信息、属性
组合特征的高相关性以及行为序列数据的丰富优势,进而达到了使得用于获取数据识别结
果的特征更健壮的目的,从而实现了提高数据异常识别的准确性的效果。
[0069] 作为一种可选的方案,将属性组合特征、属性统计特征以及行为序列数据输入识别模型,以获得识别模型输出的数据识别结果,包括:
[0070] S1,将属性组合特征输入第一子网络,以获得第一输出特征,其中,识别模型包括第一子网络;
[0071] S2,将属性统计特征输入第二子网络,以获得第二输出特征,其中,识别模型包括第二子网络;
[0072] S3,将第一输出特征、第二输出特征输入第一全连接层,以获得第一融合特征,其中,在第一全连接层中融合第一输出特征、以及第二输出特征,第一融合结构包括第一全连
接层;
[0073] S4,将行为序列数据输入第三子网络,以获得第三输出特征,其中,识别模型包括第三子网络;
[0074] S5,将第三输出特征、第一融合特征输入第二全连接层,以获得第二融合特征,其中,第二融合结构包括第二全连接层;
[0075] S6,将第二融合特征输入第二全连接层的分类层,以获得数据识别结果,其中,识别结构包括分类层。
[0076] 需要说明的是,将属性统计特征、属性组合特征以及行为序列数据输入多塔网络结构的识别模型中,利用识别模型中的第一子网络,将属性统计特征转换为第一输出特征,
利用识别模型中的第二子网络,将属性组合特征转换为第二输出特征,利用识别模型中的
第三子网络,将行为序列数据转换为第三输出特征;
[0077] 进一步,利用识别模型中的第一全连接层,将基于第一子网络以及第二子网络获取到的第一输出特征以及第二输出特征,输入至第一全连接层,以获取融合了属性统计特
征以及属性组合特征各自优势的第一融合特征,以及利用识别模型中的第二全连接层,将
基于第一全连接层以及第三子网络获取到的第一融合特征以及第三输出特征,输入至第二
全连接层,以获取融合了多种维度特征的第二融合特征;
[0078] 再者,第二全连接层中还配置有分类层,该分类层将第二全连接层融合获取到第二融合特征转换为数据识别结果,并基于数据识别结果执行按天离线预测或者实时在线预
测,并返回目标账号的异常可疑概率。
[0079] 进一步举例说明,识别模型的网络架构可选的例如图6所示,具体的,将属性统计特征、属性组合特征以及行为序列数据输入多塔网络结构的识别模型602中,利用识别模型
602中的第一子网络604,将属性统计特征转换为第一输出特征,利用识别模型602中的第二
子网络606,将属性组合特征转换为第二输出特征,利用识别模型602中的第三子网络610,
将行为序列数据转换为第三输出特征;
[0080] 进一步,利用识别模型602中的第一全连接层608,将基于第一子网络604以及第二子网络606获取到的第一输出特征以及第二输出特征,输入至第一全连接层608,以获取融
合了属性统计特征以及属性组合特征各自优势的第一融合特征,以及利用识别模型602中
的第二全连接层612,将基于第一全连接层608以及第三子网络610获取到的第一融合特征
以及第三输出特征,输入至第二全连接层612,以获取融合了多种维度特征的第二融合特
征,其中,第二全连接层612中可以但不限于配置有融合层6122,融合层6122用于将输入至
第二全连接层612的输入特征融合;
[0081] 再者,第二全连接层612中还配置有分类层6124,该分类层6124将第二全连接层612融合获取到第二融合特征转换为数据识别结果。
[0082] 通过本申请提供的实施例,将属性组合特征输入第一子网络,以获得第一输出特征,其中,识别模型包括第一子网络;将属性统计特征输入第二子网络,以获得第二输出特
征,其中,识别模型包括第二子网络;将第一输出特征、第二输出特征输入第一全连接层,以
获得第一融合特征,其中,在第一全连接层中融合第一输出特征、以及第二输出特征,第一
融合结构包括第一全连接层;将行为序列数据输入第三子网络,以获得第三输出特征,其
中,识别模型包括第三子网络;将第三输出特征、第一融合特征输入第二全连接层,以获得
第二融合特征,其中,第二融合结构包括第二全连接层;将第二融合特征输入第二全连接层
的分类层,以获得数据识别结果,其中,识别结构包括分类层,达到了利用多塔网络结构的
识别模型,以输出拥有较高健壮性的输出特征的目的,实现了提高基于输出特征获取的数
据识别结果的准确性的效果。
[0083] 作为一种可选的方案,将属性组合特征输入第一子网络,以获得第一输出特征,包括:
[0084] S1,将属性组合特征输入第一子网络的嵌入层,以获得M个属性组合向量,其中,属性组合向量与属性组合特征对应,M为大于等于1的正整数;
[0085] S2,基于注意力机制,融合M个属性组合向量,以获得目标属性融合向量,并将目标属性融合向量作为第一输出特征。
[0086] 可选的,注意力机制(Attention Mechanism)可以但不限于分为两个方面,分别是决定需要关注输入的部分,以及分配有限的信息处理资源给重要的部分。可选的,注意力机
制可以但不限于使得神经网络具有专注于其输入(或特征)子集的能力:选择特定的输入。
注意力机制可以但不限于应用在任何类型的输入而不管其形状如何。在计算能力有限的情
况下,注意力机制可以但不限于是解决信息超载问题的主要手段的一种资源分配方案,将
计算资源分配给更重要的任务。
[0087] 可选的,在本实施例中,把转换模型预测各棵树叶子节点得到的属性组合特征通过第一子网络的嵌入层,以ID Embedding的形式映射成分布式的向量表示,其中,第一子网
络的嵌入层的计算原理如下公式(1)所示。
[0088] Exgb_i=IDtree_leafiWxgb_wmbed
[0089] 其中,Wxgb_embed是转换模型所有树叶子节点构成的编号特征矩阵,当转换模型的叶子节点数是C和第一子网络的嵌入层的向量维度是r,可学习参数的编号矩阵大小是(C,r)。
IDtree_leafi表示编号为i的叶子节点,Exgb_i表示叶子节点i映射得到的特征向量。假设第一子
网络的嵌入层一共有m棵树,能够得到m个特征向量(属性组合特征),进而第一子网络的嵌
入层输出结果维度应是(m,r)。
[0090] 进一步举例说明,可选的转换模型可以但不限于是基于梯度提升的方法以及通过节点分裂和不断叠加更多树的结构来优化学习形成的,所以同一转换模型的预测结果中不
同树的叶子节点有一定的相关关系,而且不同树中叶节点的特征重要性是不同的,即不同
的属性组合特征其重要性不同。可以但不限于通过注意力机制加权融合各个叶子节点的特
征向量(M个属性组合向量),自适应建模各个叶子表示向量的融合关系,突出重要的叶子节
点特征。叶子节点向量加权注意力机制具体原理如下公式(2)以及公式(3)所示。
[0091] a=softmax(VTtanh(WHT))             (2)
[0092] Pxgb=sum(a*H)                      (3)
[0093] 其中,H是前面叶子节点Embedding层的输出特征矩阵(m,r),W和V是可学习的参数,能学习到矩阵中每一行的权重值,构成注意力权重向量a。上述公式(3)表示注意力权重
向量a和原输入矩阵H的每行做相乘和求和操作得到特征向量Pxgb。因此,注意力机制能够对
叶子节点特征向量做加权融合,得到转换模型的融合表示向量,其最终输出的特征向量Pxgb
维度是r。
[0094] 在本实施例中,可选的例如图7所示,将属性组合特征作为第一子网络702的输入,利用第一子网络702的嵌入层7022将属性组合特征转化并融合为目标属性融合向量,进而
将上述目标属性融合向量作为第一子网络702的第一输出特征。
[0095] 通过本申请提供的实施例,将属性组合特征输入第一子网络的嵌入层,以获得M个属性组合向量,其中,属性组合向量与属性组合特征对应,M为大于等于1的正整数;基于注
意力机制,融合M个属性组合向量,以获得目标属性融合向量,并将目标属性融合向量作为
第一输出特征,通过树模型自动化组合形成的特征能够补充人工设计特征的不足,达到了
减少了人工对用户游戏属性特征的组合探索分析的目的,实现了提高数据异常识别的效率
的效果。
[0096] 作为一种可选的方案,将属性统计特征输入第二子网络,以获得第二输出特征,包括:
[0097] S1,将属性统计特征输入第二子网络的嵌入层,以获得目标维度的属性统计向量,其中,目标维度与第二子网络相匹配,属性统计向量为与属性统计特征相对应的分布式向
量;
[0098] S2,将属性统计向量输入第二子网络,以获得第二输出特征。
[0099] 可选的,在本实施例中,不管是战率、收益、游戏时长等连续数值特征还是用户游戏等级等类别离散特征,都把属性统计特征看作是一个独立的维度信息,而不同维度的特
征编号可以但不限于通过向量嵌入的形式得到属于不同特征的分布式向量表示,例如是通
过ID Embedding的形式映射为特定维度的分布式向量表示。
[0100] 通过本申请提供的实施例,将属性统计特征输入第二子网络的嵌入层,以获得目标维度的属性统计向量,其中,目标维度与第二子网络相匹配,属性统计向量为与属性统计
特征相对应的分布式向量;将属性统计向量输入第二子网络,以获得第二输出特征,达到了
获得第二子网络输出的相同维度特征的目的,实现了提高特征的处理效率的效果。
[0101] 作为一种可选的方案,将属性统计向量输入第二子网络,以获得第二输出特征,包括:
[0102] S1,根据属性统计向量与属性统计特征的特征值的目标乘积,获取一阶输出向量,其中,一阶输出向量为对目标乘积做加权计算后得到的向量;
[0103] S2,对属性统计向量进行两两组合,以获得二阶输出向量;
[0104] S3,将一阶输出向量、二阶输出向量输入第二子网络的第三全连接层,以获得第三融合特征,其中,第三融合特征用于表示一阶输出向量与二阶输出向量的融合特征。
[0105] 可选地,在本实施例中,上述第二子网络用于对属性统计特征进行处理,以得到第二输出特征。其中需要通过多阶特征融合结构提取不同阶的特征,再进行融合,以得到第二
输出特征。其中,属性统计特征可以包括但不限于:类型偏好、活跃数量、时段分布、组队发
言等多个维度。
[0106] 下面将结合图8所示内容来说明其特征分布式表示以及多阶特征融合,说明如下:
[0107] 由于属性统计特征是根据多个统计标签的统计结果得到的不同维度的特征,这里可以通过向量嵌入(Embedding)的形式得到不同特征的分布式向量表示,然后再结合自身
的特征值做一个加权,得到统计特征的多维度向量表示。这里多维度向量可以但不限于是
可学习的参数,随着目标函数做优化,并作为给后续统计特征模块的输入。
[0108] 需要说明的是,这里的属性统计特征中包括连续数值特征和离散类别特征,其中离散类别特征是离散特征。如图8所示,将各个离散特征(如特征1至特征F中的特征)看作是
一个独立维度的信息,通过ID嵌入向量(如Embedding)的形式映射为特定维度的分布式向
量表示,然后再与自身的特征数值相乘,得到每个特征的多维向量表示。
[0109] 具体可以如公式(4),这里Ei是embedding后得到的向量。其中,OneHoti表示图8中所示特征i(i∈[1,2,...F])的编号,Wembed是嵌入矩阵参数。上述统计特征包括F个特征,嵌
入向量为K维度,所以输出向量的维度是(F,K),Ei表示特征域嵌入的结果。在公式(5)中,xi
是特征i的原始特征值,Embedingi表示特征通过Embedding层结果。
[0110] Ei=OneHotiWembed                 (4)
[0111] Embedingi=Ei*xi                  (5)
[0112] 此外,需要说明的是,在本实施例中,上述属性统计特征的原始特征信息很关键。一些不同维度特征的组合能够更好地描述用户账号执行的交互行为的真实性。例如,其可
以通过网络结构的形式,自动学习二阶交叉特征的权重。再者,对于所有属性统计特征的多
层非线性转换能够抽取到人工无法刻画的一些高阶融合特征。
[0113] 因此,在属性统计特征抽取方面,在本实施例中,将使用两种不同的特征提取结构分别抽取属性统计特征的一阶特征(使用第一特征提取结构提取的第一阶特征)和二阶特
征(使用第二特征提取结构的第二阶特征),然后再进一步融合得到第三融合特征。这里原
理和推荐系统中的Deep FM模型的原理类似,采用多种结构来丰富多阶融合原始特征。第二
子网络的具体操作方式如下:
[0114] 第一种特征提取结构是对上一层Embedding后的属性统计特征的属性统计向量做两两交叉组合,得到二阶组合特征(如上述第二阶特征)。如图8右侧所示,将特征1至特征F
经过Embedding处理后的所有特征向量中的两两特征向量进行对应元素相乘,然后再做对
应元素相加的操作。然后再经过带Tanh激活函数的全连接层的转换。其作用是对不同域的
特征做二阶的特征交叉。
[0115] 对于二阶交叉特征的计算原理,如下公式(6)所示,其中xi和xj表示原始特征值,Ei和Ej表示统计特征的嵌入向量,F表示特征的个数。⊙表示对应元素相乘。也即是对所有特
征向量两两对应元素相乘后,再对应元素求和。
[0116]
[0117] 为了提高运算效率,可对二阶交叉特征的计算方法做进一步的优化,二阶交叉特征的乘法计算量由O(n2)降为O(n)。其原理和推荐系统中经典算法NFM和Deep FM中输入特
征的二阶交叉求解方法类似,其等价公式如下公式(7)。直接对所有属性统计向量对应元素
求和再求平方和先平方再求和的操作,避免了特征交叉计算需要两次循环遍历所有特征的
操作。
[0118]
[0119] 第二种特征提取结构是对上一层Embedding后的属性统计特征的属性统计向量进行对应元素相加求和SUM,再通过多层的非线性映射层,逐步学习一阶线性加权特征的高阶
特征(如上述第二阶特征)。如图8中间所示,将特征1至特征F经过Embedding处理后对全部
属性统计特征的属性统计向量做多种维度的线性加权求和,得到多维向量输出。然后再经
过两层包含致密层和Relu函数的非线性全连接层,对特征做进一步的转换。从而实现将原
始特征在多种不同权重参数的一阶线加权映射得到M维度特征向量(也即通过Embedding层
再求和得到的M维向量),再通过多层的非线性映射层,逐步学习一阶线性加权特征的高阶
特征,自动学习原始统计特征之间的高阶关系。
[0120] 需要说明的是,这里第一种和第二种特征提取结构都是共享Embedding层。
[0121] 第三种特征提取结构是对属性统计特征的特征值按照预设权重进行缩放和直接拼接(如上述第一阶特征)。如图8左侧所示,将特征1至特征F进行一阶拼接,相当于逻辑回
归的线性层,突出重要的原始,特征避免原始一阶特征的过多损失。从另一个角度讲,这也
相当于线性残差连接的作用。
[0122] 然后,把上述特征提取结构得到的一阶特征和二阶特征的特征向量(例如一阶输出向量、二阶输出向量等)直接拼接(合并(concat))在一起,并通过包含致密层和Relu函数
的非线性全连接层进一步融合不同阶的特征向量,得到统计特征的全局特征向量。
[0123] 通过本申请提供的实施例,根据属性统计向量与属性统计特征的特征值的目标乘积,获取一阶输出向量,其中,一阶输出向量为对目标乘积做加权计算后得到的向量;对属
性统计向量进行两两组合,以获得二阶输出向量;将一阶输出向量、二阶输出向量输入第二
子网络的第三全连接层,以获得第三融合特征,其中,第三融合特征用于表示一阶输出向量
与二阶输出向量的融合特征,达到了获得第二子网络输出的高阶特征的目的,实现了提高
输出特征的健壮性的效果。
[0124] 作为一种可选的方案,将行为序列数据输入第三子网络,以获得第三输出特征,包括:
[0125] S1,在第三子网络的嵌入层中,对行为序列数据执行向量映射,以获得第一行为序列向量;
[0126] S2,在第三子网络的卷积层中,对第一行为序列向量执行特征提取,以获得第二行为序列向量;
[0127] S3,在第三子网络的池化层中,对第二行为序列向量执行特征融合,以获得第三行为序列向量;
[0128] S4,在所第三子网络的转换层中,对第三行为序列向量执行高层特征的保留以及融合,以获得第四行为序列向量;
[0129] S5,在第三子网络的第四全连接层中,对第四行为序列向量执行特征转换和特征降维,以获得第五行为序列向量;
[0130] S6,将第五行为序列向量作为第三输出特征。
[0131] 可选地,在本实施例中,上述第三子网络用于对行为序列数据进行处理,以得到第三输出特征。其中需要通过多尺度卷积结构(如M层N尺度卷积结构)进行一维卷积的滑动卷
积操作,以得到N个候选行为片段特征矩阵。抽取各个片段特征分别进行最大池化处理,以
得到目标用户账号的N个关键行为片段特征向量。
[0132] 需要说明的是,由于关键行为片段的长度是不定的,所以需要使用多种尺度的一维卷积操作,同时抓取多个片段的特征。再者,由于CNN结构有逐层抽象特征的作用,而且多
层结构,可以扩大感受野,增大片段的长度,看到更长的行为片段。因此,在本申请实施例
中,可以但不限于采用多尺度的三层一维卷积结构来抽取行为序列特征。其具体操作原理
可以结合图9所示内容,说明如下:
[0133] 假设在获取矩阵中的L个序列变量之后,执行Embedding处理,然后合并矩阵,以获取到行为序列特征对应的矩阵为(L,M)。对其执行3层N种不同宽度的一维卷积操作,而且每
种宽度的卷积核也有多个卷积核(例如本实施例中选择取用32个卷积核),每种宽度的卷积
操作是分别单独进行的,不同参数的卷积核能够提取不同方面的特征。
[0134] 这里通过第一层的卷积层(如图9所示“第一层”)对上述特征矩阵按照行做一维滑动卷积操作,提取浅层的特征。其中一维卷积核使用了多种不同宽度(即多尺度)的卷积窗
口。例如,如图9所示,假设N=7,也就是采用了conv1到conv7代表7种不同宽度的一维卷积
操作,分别提取1~Ngram的特征。这里每种宽度的卷积核能够得到32种长度为L特征序列。
或者说是长度为L的32维特征向量,一共有N种宽度,所以第一层的卷积层的输出结果是(N,
L,32)。
[0135] 第二层的卷积层(如图9所示“第二层”)执行的卷积操作是叠加在第一层的卷积层的输出结果的基础上,对第一层的卷积层的输出的(N,L,32)特征做进一步的特征提取,同
时也是分别对第一层同种宽度的卷积层的输出(L,32)继续采用32个同种宽度的一维卷积
核进行滑动卷积操作,所以第二层的卷积层的输出结果也是(N,L,32)。
[0136] 第三层的卷积层(如图9所示“第三层”)执行的卷积操作是叠加在第二层卷积的输出结果的基础上,其卷积操作和第二层的卷积操作相同。需要说明的是,这里通过多层叠加
的卷积操作,层次化地进行特征的抽象,得到高层的序列特征。其中,第三层的卷积层的输
出结果是(N,L,32)。
[0137] 然后对每种尺度的第三层的卷积层的输出特征分别做进一步的特征过滤,突出关键的行为片段特征。这里对第三层每种宽度的卷积输出,序列长度为L的32维特征向量,基
于序列长度L做最大池化处理,以得到32维度的输出向量。由于有N种不同宽度的卷积类型,
所以输出是N个32维度的向量,如图9所示为7*32的关键行为片段特征向量。
[0138] 下面将以2‑gram的卷积方式为例来详细说明一维CNN模块的具体操作过程:先是对行为序列通道顺序相连的两个ID嵌入向量(如图9所示Embedding层的输出结果)进行卷
积并相加操作,如公式(8):
[0139]
[0140] 其中,W1和W2分别表示两个相邻的ID嵌入向量Ti和Ti+1做对应元素相乘再相加的操作时所使用的权重参数。然后对各个元素相加求和得到一个实数值
[0141] 接着,由于一层卷积结构有32组不同的卷积核参数,所以有32个输出值。通过如下公式(9),把卷积操作得到的元素值分别经过激励函数Relu,得到32维度的输出向量Ci。
[0142]
[0143] 至此,第一层卷积层的操作完成,一共得到了序列长度为L的32维度的输出向量。
[0144] 后续CNN卷积层以前一层的卷积输出矩阵作为输入,其卷积操作和输出结果和公式(8)和公式(9)相同,其中下标i表示序列的长度L,下标j表示使用的卷积核个数。
[0145] 在完成三层卷积操作之后,对于第三层的卷积层的输出结果进行最大池化处理,也就是基于序列长度L这一维度取元素的最大值,定义如下公式(10),所以每一种尺度中32
个卷积核的卷积输出经过最大池化处理后,将输出32维度的向量。
[0146]
[0147] 可选地,在本实施例中,上述门控过滤结构可以但不限于采用Highway结构,可选的,Highway结构可以但不限于是一种可学习的门限机制,在此机制下,一些信息流没有衰
减的通过一些网络层,是用于随机梯度下降(SGD)法,Highway结构可以但不限于为一种解
决深层次网络训练困难的网络框架。
[0148] 需要说明的是,对于上述M层N尺度卷积结构执行的一维卷积操作,将从行为序列数据提取到多个候选行为片段特征矩阵,其多个尺度可以根据实际场景需要进行设置。这
里N个关键行为片段特征向量还需要单独提取的,并做进一步的融合。在本实施例中,
HighWay结构能够更好地融合多个候选片段特征,并通过门控机制加强突出一些重要的活
跃行为片段。因此,HighWay结构可以对上层卷积结构抽取的N个关键行为片段特征向量做
进一步融合和转换,得到固定维度的全局行为向量。
[0149] 这里对N个关键行为片段特征向量做元素级别的门控过滤和全局的特征融合,其相当于把每一个卷积核的输出结果做进一步门控过滤和特征转换。这里不同的卷积窗口宽
度是超参数,这样能够进一步自适应地融合多尺度的特征和每一维的特征元素,使结果更
稳健些。这里借鉴HighWay网络结构,其公式可以参考如下公式(11)、公式(12)、公式(13),
其中是Input表示输入向量,也即是N*32维的特征向量, 和 是权重参数。
[0150]
[0151]
[0152] output=trans*gate+Input*(1‑gate)       (13)
[0153] 通过本申请提供的实施例,在第三子网络的嵌入层中,对行为序列数据执行向量映射,以获得第一行为序列向量;在第三子网络的卷积层中,对第一行为序列向量执行特征
提取,以获得第二行为序列向量;在第三子网络的池化层中,对第二行为序列向量执行特征
融合,以获得第三行为序列向量;在所第三子网络的转换层中,对第三行为序列向量执行高
层特征的保留以及融合,以获得第四行为序列向量;在第三子网络的第四全连接层中,对第
四行为序列向量执行特征转换和特征降维,以获得第五行为序列向量;将第五行为序列向
量作为第三输出特征,达到了提高第三子网络输出的第三输出特征的全局性的目的,实现
了提高基于第三输出特征获取的特征的健壮性的效果。
[0154] 作为一种可选的方案,将属性统计特征输入转换模型,以获得转换模型输出的属性组合特征,包括:
[0155] S1,将属性统计特征输入转换模型;
[0156] S2,利用转换模型中M个决策树的树结构,分别预测属性统计特征对应的M个属性组合子特征,其中,每个属性组合子特征为一个树结构的叶子节点对应的编码特征;
[0157] S3,将M个属性组合子特征作为属性组合特征。
[0158] 可选地,在本实施例中,例如图4所示,转换模型402中包括M个数结构,分别为树1、树2(图中未示出)……树m,每棵数分别预测属性统计特征对应的属性组合子特征,总计获
取M个属性组合子特征,例如树1预测出的属性组合子特征(编码2)为虚线箭头所指示的树1
的叶子节点对应的编码特征。
[0159] 通过本申请提供的实施例,将属性统计特征输入转换模型;利用转换模型中M个决策树的树结构,分别预测属性统计特征对应的M个属性组合子特征,其中,每个属性组合子
特征为一个树结构的叶子节点对应的编码特征;将M个属性组合子特征作为属性组合特征,
通过转换模型中每棵树从根节点分割到叶子节点路径构造大量重要的属性组合子特征,达
到了提高后续模型的降低参数优化的难度和泛化性能的目的,实现了提高模型输出数据识
别结果的效率的效果。
[0160] 作为一种可选的方案,响应数据识别请求,获取与日志数据对应的属性统计特征,包括:
[0161] S1,从日志数据中提取初始属性统计特征,其中,初始属性统计特征包括连续数值特征以及离散类别特征;
[0162] S2,将连续数值特征做归一化处理,将离散类别特征做过滤编码处理,以获得属性统计特征。
[0163] 可选地,在本实施例中,获得属性统计特征包括:从初始属性统计特征中剔除冗余特征;对剔除冗余特征后的连续数值特征进行归一化处理,并对剔除冗余特征后的离散类
别特征进行一位编码处理,得到中间属性统计特征;对中间属性统计特征中满足目标剔除
条件的参考特征进行剔除,以得到最终的属性统计特征。
[0164] 可选地,在本实施例中,对于上述获取与日志数据对应的属性统计特征可以但不限于通过以下方式:在结合业务的理解和根据多种日志信息(如图10所示用户活跃日志
1002‑1、用户发言日志1002‑2、用户组队日志1002‑3及用户收藏日志1002‑4等)转换得到的
初始特征1004(如类型偏好、活跃数量、活跃时段分布、组队发言等多维度的特征信息)后,
可以执行步骤S1002‑1进行特征转化,如从用户活跃日志中得到目标用户账号在目标时间
段内使用目标应用的时间点序列,按照固定时间段分片的形式,把时间点序列的时间点转
换为用于指示目标用户账号执行交互行为的时序特性的行为序列特征(例如时序特征
1010)。
[0165] 通过简单的特征工程保留重要的少量统计特征,剔除不相关和冗余的特征,以减少模型训练的时间,提高模型的精度。然后对统计特征执行步骤S1002‑2做标准化预处理,
以得到预处理特征1006:对连续数值特征进行数值的归一化处理;对类别型特征进行独热
编码处理。然后,如图10所示基于统计标签对统计特征执行步骤S1004特征选择,主要是对
所有特征进行单变量验证,剔除数值方差极小和IV较小的变量。并通过相关系数找到相关
性较高的变量,进行随机剔除。最后基于随机森林建模的方式对特征做进一步的过滤和补
充,最终得到F个特征(如图10所示属性统计特征1008),其中包含连续数值特征和离散类别
特征。
[0166] 通过本申请提供的实施例,从日志数据中提取初始属性统计特征,其中,初始属性统计特征包括连续数值特征以及离散类别特征;将连续数值特征做归一化处理,将离散类
别特征做过滤编码处理,以获得属性统计特征,对多个维度特征进行选择,达到了减少模型
处理量的目的,实现了识别模型的处理效率的效果。
[0167] 作为一种可选的方案,响应数据识别请求,获取与日志数据对应的行为序列数据,包括:
[0168] S1,从日志数据中提取初始行为序列数据,其中,初始行为序列数据包括N个行为数据,N个行为数据与N个时刻相对应,目标时间段包括N个时刻,N为大于0的整数;
[0169] S2,按照N个时刻的生成顺序,对N个行为数据进行统计以及排序,以获得行为数据序列。
[0170] 可选地,在本实施例中,上述行为序列数据可以但不限于是基于目标用户账号在目标应用中执行交互行为的活跃行为序列确定得到。这里的活跃行为序列可以但不限于是
单维度的行为序列。如从用户日志得到目标时间段内(如一天)目标用户账号使用目标应用
执行交互行为的时间点序列,按照固定时间段分片的形式,把上述时间点序列的时间点转
换为便于机器训练的序列特征。如以一天为例,一天24个小时可以划分得到24个分片,每个
小时分片的游戏时长(0‑60分钟),构成一个长度为24的行为序列数据。
[0171] 此外,假设在每一个时间点用编号信息表示当前交互行为,则对行为序列长度为L的行为序列数据,每个序列编号下的交互行为还可以通过参数的分布式向量表示。例如,对
序列长度为L的行为序列数据中的每一个ID编号分别做ID Embedding,得到M维向量序列,
合并成单通道的特征矩阵,如输出的数据将是行为序列对应的矩阵(L,M)。
[0172] 可选地,在本实施例中,对于行为序列数据的处理,从游戏用户行为日志数据中,按照时间先后顺序把用户(目标账号)的行为序列数据转换为行为编号的序列形式,例如这
里的游戏行为名称是拾取物品,把用户游戏中拾取到的物品编号ID按照时间的先后顺序构
成有序的行为序列数据,例如“23,34,56,1,1,2,34,55,65,34,1,2,123,23,45,34,34,324,
42,34,434,43,23,4”形式的行为序列数据,每个编号代表一个物品类型。由于每个用户的
行为序列不尽相同,因为玩家有可能只玩1小时,也有可能玩10小时甚至20小时等,所以用
户的行为序列长度是不一致。基于序列长度、运行效率和预测性能的综合考虑,对每个用户
的行为序列数据截取最大长度的行为序列,一般根据行为序列数据的长度分布,取能够覆
盖用户行为序列长度分布中90%的序列长度作为最大长度。
[0173] 最后,对已经提取到统计特征和行为序列特征的用户编号和已有的用户黑名单和白名单库做关联,从而把特征数据打上黑白标签,按照一定的黑白比例(例如1:2)构造训练
集数据。用户游戏日志数据经过特征转换处理后的训练数据格式是“用户id|属性统计特征
|属性组合特征|行为编号序列(行为序列数据)|标签(黑名单和白名单)”,其中,可选的在
模型预测时不带标签这一列。
[0174] 通过本申请提供的实施例,从日志数据中提取初始行为序列数据,其中,初始行为序列数据包括N个行为数据,N个行为数据与N个时刻相对应,目标时间段包括N个时刻,N为
大于0的整数;按照N个时刻的生成顺序,对N个行为数据进行统计以及排序,以获得行为数
据序列,达到了快速确定带有时序属性的行为序列数据的目的,实现了提高行为序列数据
的获取效率的效果。
[0175] 作为一种可选的方案,在获取数据识别请求之前,包括:
[0176] S1,使用第一样本集合中的第一样本特征对转换模型进行训练,其中,第一样本特征包括以下至少之一:携带有异常标签的连续样本特征、携带有异常标签的离散样本特征,
异常标签用于表示是否属于异常状态;
[0177] S2,确定输出结果满足第一收敛条件的转换模型为转换模型。
[0178] 可选地,在本实施例中,异常标签可以但不限于与已有的用户黑名单和白名单库做关联,其中,黑名单可以但不限于表示异常,白名单可以但不限于表示正常。
[0179] 需要说明的是,使用第一样本集合中的第一样本特征对转换模型进行训练,其中,第一样本特征包括以下至少之一:携带有异常标签的连续样本特征、携带有异常标签的离
散样本特征,异常标签用于表示是否属于异常状态;确定输出结果满足第一收敛条件的转
换模型为转换模型。
[0180] 可选地,在本实施例中,利用多个样本用户日志,对初始化的转换模型进行多次训练,以得到转换模型;
[0181] 上述所使用的多个样本用户日志中的特征可以但不限于需要经过一下处理操作:数据采集、特征设计和特征选择三个阶段。下文以游戏应用为例进行说明:在数据采集阶
段,为了训练出来的模型能够在全游戏更通用,在休闲、第一人称射击游戏(First Person 
Shooting Game,简称FPS)、多人在线战术竞技游戏(Multiplayer Online Battle Arena简
称为MOBA)、大型多人在线角色扮演的网络游戏(Massive Multiplayer Online Role‑
Playing Game,简称MMPRPG)等多个游戏品类分别选取代表性游戏,根据业务理解提取高质
量活跃样本。比如MMORPG类游戏,通过是否有正常的社交行为、进行核心玩法活动及收益表
现等维度来判断是否为高质量活跃。在FPS游戏中则通过击杀数、救援数及逃跑比例等维度
来判断是否为高质量活跃。通过以上的筛选方式,得到一批高质量的正样本用户日志及非
高质量的负样本用户日志。尽可能多的取到不同的活跃相关数据,包括近期活跃游戏的时
长、类型、数量等。
[0182] 通过本申请提供的实施例,使用第一样本集合中的第一样本特征对转换模型进行训练,其中,第一样本特征包括以下至少之一:携带有异常标签的连续样本特征、携带有异
常标签的离散样本特征,异常标签用于表示是否属于异常状态;确定输出结果满足第一收
敛条件的转换模型为转换模型,达到了将训练好的转换模型融合至多塔网络结构的识别模
型的目的,实现了提高多塔网络结果的识别模型输出的特征与异常的相关性的效果。
[0183] 作为一种可选的方案,在获取数据识别请求之前,包括:
[0184] S1,使用第二样本集合中的第二样本特征对识别模型进行训练,其中,第二样本特征包括以下至少之一:携带有异常标签的样本属性统计特征、携带有异常标签的样本属性
组合特征以及携带有异常标签的样本行为序列数据,异常标签用于表示是否属于异常状
态;
[0185] S2,确定输出结果满足第二收敛条件的识别模型为识别模型。
[0186] 需要说明的是,这里多塔结构的识别模型的训练,是基于二分类交叉熵目标函数做优化,优化方式是采用Adam算法优化模型的各层参数,学习速率可以但不限于设置为
0.0001。为了避免过拟合,对最后的全连接层权重参数可以但不限于添加L2正则化。
[0187] 可选地,在本实施例中,利用多个样本用户日志,对初始化的识别网络模型进行多次训练,以得到目标识别网络模型包括:将多个样本用户日志依次输入训练中的识别网络
模型,得到对应的训练结果;基于二分类交叉熵目标函数对训练中的识别网络模型中的权
重参数进行调整,其中,权重参数包括第一识别子网络中多尺度卷积结构关联的第一权重
参数集合和门控过滤结构关联的第二权重参数集合,第二识别子网络中多阶特征融合结构
关联的第三权重参数集合。
[0188] 需要说明的是,在本实施例中,上述所使用的多个样本用户日志中的特征可以但不限于需要经过一下处理操作:数据采集、特征设计和特征选择三个阶段。下文以游戏应用
为例进行说明:
[0189] 在数据采集阶段,为了训练出来的模型能够在全游戏更通用,在休闲、第一人称射击游戏(First Person Shooting Game,简称FPS)、多人在线战术竞技游戏(Multiplayer 
Online Battle Arena简称为MOBA)、大型多人在线角色扮演的网络游戏(Massive 
Multiplayer Online Role‑Playing Game,简称MMPRPG)等多个游戏品类分别选取代表性
游戏,根据业务理解提取高质量活跃样本。比如MMORPG类游戏,通过是否有正常的社交行
为、进行核心玩法活动及收益表现等维度来判断是否为高质量活跃。在FPS游戏中则通过击
杀数、救援数及逃跑比例等维度来判断是否为高质量活跃。通过以上的筛选方式,得到一批
高质量的正样本用户日志及非高质量的负样本用户日志。尽可能多的取到不同的活跃相关
数据,包括近期活跃游戏的时长、类型、数量等。此外,在特征的设计选择阶段,可以参考上
述实施例,本实施例中对此不再赘述。
[0190] 通过本申请提供的实施例,使用第二样本集合中的第二样本特征对识别模型进行训练,其中,第二样本特征包括以下至少之一:携带有异常标签的样本属性统计特征、携带
有异常标签的样本属性组合特征以及携带有异常标签的样本行为序列数据,异常标签用于
表示是否属于异常状态;确定输出结果满足第二收敛条件的识别模型为识别模型,通过利
用多维度的丰富特征,来训练得到能够准确识别用户的目标账号是否异常的识别模型。
[0191] 具体结合图11所示示例进行说明:假设以以下环境为例实施本申请方案:采用的硬件平台是Core(TM)i7‑8700 CPU@3.6GHz的处理器,14G内存,256G固态硬盘,STRIX‑
GTX1080TI‑11G显卡。采用的软件平台是基于window10的64位操作系统,python2.7,
Tensorflow1.8。
[0192] 基于图11中基于多塔神经网络结构适配用户游戏属性和行为序列的用户异常判别模型架构,各模块的参数和输出维度说明如下。把单个用户游戏日志提取到的特征作为
输入样例,其中提取到的行为序列长度为L,原始用户游戏属性统计特征数目是N,XGBoost
叶子节点特征数目是M,整个网络的具体结构参数和输出结果如下表1~4。其中表1是基于
注意力机制的序列CNN模块的网络结构参数表。表2是原始游戏属性特征的多阶特征提取,
表3是基于XGBoost叶子节点的注意力特征融合模块的网络结构参数表。表4是融合两种统
计特征向量和行为序列特征向量的分类网络参数表。(一些避免过拟合的Drop Out和正则
化辅助操作以及激活函数等不在下面的表格中体现)。
[0193]
[0194] 表1
[0195]
[0196] 表1(续)
[0197]
[0198] 表2
[0199]
[0200] 表2(续)
[0201]
[0202] 表3
[0203]
[0204] 表4
[0205]
[0206] 表4(续)
[0207] 进一步,具体结合图12所示示例进行说明:
[0208] 可选的,具体步骤例如图12所示:首先利用通用的序列预处理脚本从日志数据中提取行为序列数据(例如打任务、金币收益、拾取物品ID等的行为序列),转化得到不定长的
ID行为序列特征。同时,利用通用的统计脚本从日志数据中统计得到用户游戏属性特征(属
性统计特征),并进一步通过数值归一化得到用户游戏属性的原始特征以及通过与训练好
的XGBoost模型预测得到从每棵树中根节点到叶子节点路径构成的组合特征编号,多棵树
的组合特征编号构成Multi‑Hot特征。然后,通过模型预处理脚本读取三种特征数据自动化
生成相应的模型配置文件,调度本文提出的多塔分类模型做模型的训练,并保存验证集合
中效果最优的模型。不管是哪一款游戏,上述方法能够通过通用的预处理脚本自适应地生
成原始特征、Multi‑Hot特征以及行为序列特征的训练数据,然后结合多塔模型做自动化的
模型训练,自适应地学习特征和用户是否异常标签之间的关系。由于特征提取部分使用的
是游戏中的用户通用特征,上述方法能够做到不因游戏种类变化而变动的特征转换和模型
训练的一体化和流程化。再者,对于进一步需要使用一些特殊用户游戏属性特征建模的游
戏,只需要修改从日志源数据中提取特征提取的方式,特征转换和模型训练部分能够自适
应适配特征的种类和维度进行自动化的训练。所以上述方法能够较方便地从一款游戏迁移
到另一款游戏的用户异常判别中。
[0209] 最后,在本实施例中,在线上预测系统的部署也是流程化的,只要通过配置文件的形式选择需要加载的模型文件名和预测方式,就能够通过通用的特征处理和模型预测程序
完成用户日志的特征转换和执行按天离线预测或者实时在线预测,并返回用户的可疑概
率。运营侧能够方便地结合模型的概率阈值对一定数量的高可疑用户进行管制。
[0210] 进一步,基于图12所示的特征提取流程,在MMORPG类某款游戏的用户游戏日志中提取到用户游戏属性特征、XGBoost树节点特征和行为序列构成训练数据集,对多个模型做
模型的训练。然后在黑白样本比是37843:250436的测试数据中对各个模型做效果对比,从
模型效果评估表5中能够证明本发明模型的优良性能。对于表5中的模型名称,其中XGBSUM
表示对于XGBoost预测叶子节点做Embedding后直接对所有树的叶子节点对应元素维度求
和(也即对叶子节点特征做OneHot编码后再通过全连接层映射成特征向量),XGBATT和
XGBSUM的操作类似,把求和操作变成上文介绍的注意力加权操作。NFM表示上文介绍的基于
用户游戏属性特征的多阶特征融合网络结构模块。CNNATT表示上文介绍的结合注意力机制
的多尺度CNN行为序列特征提取结构;CNNMAX和CNNATT类似,把CNN输出结果的压缩处理使
用最大池化的操作替换注意力机制。SELFATT表示transformer架构中encoder部分的2层
self‑attention结构。“merge“表示merge前后名称的模型是单独训练,然后基于概率做平
均。没有merge表示模型名称表示”_“之间名称的模块是通过网络结构连接起来的,能够进
行端到端训练的模型。例如XGBATT_NFM_CNNATT的模型名称表示上述介绍的本发明模型。从
表5中可以看出,在都含有CNNMAX模块的模型中,XGBATT_NFM_CNNMAX模型效果最好,其比只
含有XGBATT和NFM其中一个模块的效果要更优,证明了XGBATT_NFM统计特征转换结构的有
效性,能够更加全面地自适应提取和融合用户游戏属性特征。这从XGBATT_NFM、XGBATT和
NFM这3个模型对比中也可以看出双重的用户游戏属性特征结构更有效。同时,XGBATT和
XGBATT_NFM_CNNMAX模型效果分别比XGBSUM和XGBSUM_NFM_CNNMAX效果更好,说明XGBATT结
构比XGBSUM结构更优秀,证明本实施例的结合注意力机制来融合XGBoost叶子节点的方案
比直接求和更有效。
[0211]
[0212] 表5
[0213] 上述结论也可以从实验中获取的ROC曲线效果对比中得到进一步的验证。再者,可以看出无论行为序列特征提取是使用CNNMAX还是CNNAT或者是SELFATT,同时含有行为特征
很统计特征的模型比同等只含有统计特征的模型效果都有1%左右的提升,也比同等只含
有行为序列特征的模型效果有1.5%左右的提升,这说明统计特征和行为序列特征结合的
重要性。更进一步,在同时含有统计和序列特征的模型中,无论行为序列特征提取是使用
CNNMAX还是CNNAT或者是SELFATT,端到端的模型比基于概率集成(含有“merge”)的模型效
果好一些。同时,本申请记载的模型XGBATT_NFM_CNNATT比XGBSUM_NFM_CNNMAX效果要好,比
XGBATT_NFM_SELFATT还差一点,但是比其运行效率快。而且从实验中获取的ROC曲线对比中
发现,XGBATT_NFM_CNNATT模型的测试集合评估AUC值是0.9884,而XGBATT_NFM_SELFATT的
AUC值是0.9881,说明两者不相伯仲。
[0214] 最后,综合多个模型在测试集的效果表现,说明了本实施例的模型效果性能优秀。由于本实施例的方案的简单易用性,能够自适应地充分挖掘用户游戏属性特征的各种组合
特征以及支持对不定长的行为序列数据的融合建模。基于图12中的处理流程,只需要提高
原始的用户游戏属性特征和游戏行为序列数据,本实施例就能够低成本和高效地训练模
型,然后通过选择加载已训练好模型的方式,就能进行在线预测。因此,本方案降低了异常
用户判别的建模成本和预测成本,而且通过融合多源特征的多塔网络结构进一步提高了异
常用户的判别准确率。在运营方实际使用时,可以通过设定概率阈值的方式,根据用户异常
判别模型的预测概率找到一定数量的高可疑异常用户,对其进行一定程度的管制。总之,本
实施例有效地打击了异常玩家,净化了游戏环境,降低游戏安全运营的成本。
[0215] 需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为
依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知
悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明
所必须的。
[0216] 根据本发明实施例的另一个方面,还提供了一种用于实施上述数据异常识别方法的数据异常识别装置。如图13所示,该装置包括:
[0217] 获取单元1302,用于获取数据识别请求,其中,数据识别请求用于请求确认目标游戏应用中的目标账号在目标时间段内生成的日志数据是否异常;
[0218] 响应单元1304,用于响应数据识别请求,获取与日志数据对应的属性统计特征以及行为序列数据,其中,属性统计特征包括对目标账号在目标时间段内关联的多个属性参
数的参数变化分别进行统计后得到的特征,行为序列数据包括目标账号控制的虚拟对象在
目标时间段内执行的行为的时序数据;
[0219] 第一输入单元1306,用于将属性统计特征输入转换模型,以获得转换模型输出的属性组合特征,其中,转换模型用于将输入特征转换为具有决策树特性的特征组合信息的
输出特征;
[0220] 第二输入单元1308,用于将属性组合特征、属性统计特征以及行为序列数据输入识别模型,以获得识别模型输出的数据识别结果,其中,数据识别结果用于指示日志数据是
否异常,识别模型中包括用于融合属性组合特征与属性统计特征以获得第一融合特征的第
一融合结构,用于融合第一融合特征与行为序列数据以获得第二融合特征的第二融合结
构,以及用于利用第二融合特征识别日志数据是否异常的识别结构。
[0221] 可选地,在本实施例中,上述数据异常识别装置可以但不限于应用于人机交互应用(即目标游戏应用)中,如游戏应用、即时通信应用、视频播放应用等应用。通过本申请实
施例中提供的上述步骤,根据用户在客户端中所执行的人机交互行为所生成的行为记录,
以及用户的账号或用户所控制的虚拟角色的属性值,来提取各个账号的行为序列数据以及
属性统计特征,以及基于训练好的转换模型以及上述属性统计特征,进一步获取与异常数
据相关性更高的属性组合特征,以便于融合上述三种数据/特征对用户进行异常判断,得到
用于指示用户行为或属性值是否异常的数据识别结果,从而达到准确地识别出异常用户,
进而对异常用户进行一定程度的管制,以净化游戏环境。此外,通过本申请实施例中提供的
上述步骤,在运营方实际使用时,还可以但不限于通过设定概率阈值的方式,根据数据识别
结果找到一定数量的高可疑异常用户进行有效打击,而根据数据识别结果找到的低可疑异
常用户则执行导入目标名单的操作,可以但不限于对其进行更严格的人工判断,以降低游
戏安全运营的成本。
[0222] 需要说明的是,先利用转换模型以及获取的属性统计特征,以获得离散化和组合能力更强的属性组合特征,同时融合属性统计特征以及属性组合特征,使得输出的第一融
合特征拥有属性统计特征特有的高相关性的优点,还因属性统计特征记录有原始特征信
息,使得获取的第一融合特征也避免了后续可能出现的信息损失的问题;
[0223] 进一步,再利用识别模型融合获取的行为序列数据以及第一融合特征,其中,因行为序列数据对于判别数据异常具有关键和丰富的语音特征,与第一融合特征互为补充,使
得输出的第二融合特征结合了上述属性统计特征的保留原始信息、属性组合特征的高相关
性以及行为序列数据的丰富优势,从而保证了识别模型输出的特征的高健壮性,而高健壮
性的输出特征则保证了最终输出的数据识别结果具有较高的识别准确性,进而克服了相关
技术中存在的数据异常识别准确性较低的技术问题。
[0224] 可选地,在本实施例中,上述行为序列数据可以但不限于是基于目标账号在目标游戏应用中执行交互行为的活跃行为序列确定得到。这里的活跃行为序列可以但不限于是
单维度的行为序列。如从用户日志得到目标时间段内(如一天)目标账号使用目标游戏应用
执行交互行为的时间点序列,按照固定时间段分片的形式,把上述时间点序列的时间点转
换为便于机器训练的序列特征。如以一天为例,一天24个小时可以划分得到24个分片,每个
小时分片的游戏时长(0‑60分钟),构成一个长度为24的行为序列数据。
[0225] 此外,假设在每一个时间点用编号信息表示当前交互行为,则对行为序列长度为L的行为序列数据,每个序列编号下的交互行为还可以通过参数的分布式向量表示。例如,对
序列长度为L的行为序列数据中的每一个ID编号分别做ID Embedding,得到M维向量序列,
合并成单通道的特征矩阵,如输出的数据将是行为序列对应的矩阵(L,M)。
[0226] 可选地,在本实施例中,上述属性统计特征包括对目标账号在目标时间段内关联的多个属性参数的参数变化分别进行统计后得到的特征,具体的,属性统计特征还可以但
不限于是对目标账号执行的交互行为和/或目标账号的属性值,基于多个统计标签分别统
计的统计结果。例如,以游戏应用为例,上述统计标签可以包括但不限于:游戏类型偏好、游
戏活跃数量、活跃时段分布、组队发言等多维度标签。这里属性统计特征可以包括但不限
于:连续数值特征、类别型特征。进一步可以对上述属性统计特征进一步处理:如对连续数
值特征的数值进行归一化处理,对离散类别特征进行独热编码(one‑hot)处理。然后对上述
处理后的特征再进行过滤,以去除冗余特征,剔除其他满足条件的参考特征,如对特征进行
单变量验证,然后剔除数值方差极小和信息值(Information Value,简称IV)较小的变量,
或通过相关系数找到相关性较高的变量等。
[0227] 可选的,上述目标账号执行的交互行为可以但不限于为目标账号控制的虚拟角色在目标游戏应用中执行的交互操作,例如售卖虚拟商品、攻击敌方虚拟角色、接收虚拟任务
等;
[0228] 可选的,上述目标账号的属性值可以但不限于为目标账号自身的属性值,例如会员等级、账号登录时长、账号名下虚拟角色数量、付费数、付费率等,目标账号的属性值还可
以但不限于为目标账号控制的虚拟角色在目标游戏应用中的属性值,例如虚拟角色的等
级、虚拟货币、虚拟物品、收益率、登录时长、游戏收益等。上述为示例,本实施例中对此不作
任何限定。
[0229] 可选地,在本实施例中,可以但不限于采用结合转换网络以及多塔结构的识别模型,来将获取的属性统计特征以及行为序列数据进行融合,以得到健壮性较高的输出特征,
进而获取输出的数据识别结果。
[0230] 通过本申请提供的实施例,获取数据识别请求,其中,数据识别请求用于请求确认目标游戏应用中的目标账号在目标时间段内生成的日志数据是否异常;响应数据识别请
求,获取与日志数据对应的属性统计特征以及行为序列数据,其中,属性统计特征包括对目
标账号在目标时间段内关联的多个属性参数的参数变化分别进行统计后得到的特征,行为
序列数据包括目标账号控制的虚拟对象在目标时间段内执行的行为的时序数据;将属性统
计特征输入转换模型,以获得转换模型输出的属性组合特征,其中,转换模型用于将输入特
征转换为具有决策树特性的特征组合信息的输出特征;将属性组合特征、属性统计特征以
及行为序列数据输入识别模型,以获得识别模型输出的数据识别结果,其中,数据识别结果
用于指示日志数据是否异常,识别模型中包括用于融合属性组合特征与属性统计特征以获
得第一融合特征的第一融合结构,用于融合第一融合特征与行为序列数据以获得第二融合
特征的第二融合结构,以及用于利用第二融合特征识别日志数据是否异常的识别结构,先
利用转换模型以及获取的属性统计特征,以获得离散化和组合能力更强的属性组合特征,
同时融合属性统计特征以及属性组合特征,使得输出的第一融合特征拥有属性统计特征特
有的高相关性的优点,还因属性统计特征记录有原始特征信息,使得获取的第一融合特征
也避免了后续可能出现的信息损失的问题;进一步,再利用识别模型,融合获取的行为序列
数据以及第一融合特征,因行为序列数据对于判别数据异常具有关键和丰富的语音特征,
与第一融合特征互为补充,使得输出的第二融合特征结合了上述属性统计特征的保留原始
信息、属性组合特征的高相关性以及行为序列数据的丰富优势,进而达到了使得用于获取
数据识别结果的特征更健壮的目的,从而实现了提高数据异常识别的准确性的效果。
[0231] 具体实施例可以参考上述数据异常识别方法中所示示例,本示例中在此不再赘述。
[0232] 作为一种可选的方案,第二输入单元1308,包括:
[0233] 第一输入模块,用于将属性组合特征输入第一子网络,以获得第一输出特征,其中,识别模型包括第一子网络;
[0234] 第二输入模块,用于将属性统计特征输入第二子网络,以获得第二输出特征,其中,识别模型包括第二子网络;
[0235] 第三输入模块,用于将第一输出特征、第二输出特征输入第一全连接层,以获得第一融合特征,其中,在第一全连接层中融合第一输出特征、以及第二输出特征,第一融合结
构包括第一全连接层;
[0236] 第四输入模块,用于将行为序列数据输入第三子网络,以获得第三输出特征,其中,识别模型包括第三子网络;
[0237] 第五输入模块,用于将第三输出特征、第一融合特征输入第二全连接层,以获得第二融合特征,其中,第二融合结构包括第二全连接层;
[0238] 第六输入模块,用于将第二融合特征输入第二全连接层的分类层,以获得数据识别结果,其中,识别结构包括分类层。
[0239] 具体实施例可以参考上述数据异常识别方法中所示示例,本示例中在此不再赘述。
[0240] 作为一种可选的方案,第一输入模块,包括:
[0241] 第一输入子模块,用于将属性组合特征输入第一子网络的嵌入层,以获得M个属性组合向量,其中,属性组合向量与属性组合特征对应,M为大于等于1的正整数;
[0242] 融合子模块,用于基于注意力机制,融合M个属性组合向量,以获得目标属性融合向量,并将目标属性融合向量作为第一输出特征。
[0243] 具体实施例可以参考上述数据异常识别方法中所示示例,本示例中在此不再赘述。
[0244] 作为一种可选的方案,第二输入模块,包括:
[0245] 第二输入子模块,用于将属性统计特征输入第二子网络的嵌入层,以获得目标维度的属性统计向量,其中,目标维度与第二子网络相匹配,属性统计向量为与属性统计特征
相对应的分布式向量;
[0246] 第三输入子模块,用于将属性统计向量输入第二子网络,以获得第二输出特征。
[0247] 具体实施例可以参考上述数据异常识别方法中所示示例,本示例中在此不再赘述。
[0248] 作为一种可选的方案,第三输入子模块,包括:
[0249] 获取子单元,用于根据属性统计向量与属性统计特征的特征值的目标乘积,获取一阶输出向量,其中,一阶输出向量为对目标乘积做加权计算后得到的向量;
[0250] 组合子单元,用于对属性统计向量进行两两组合,以获得二阶输出向量;
[0251] 第四输入子模块,用于将一阶输出向量、二阶输出向量输入第二子网络的第三全连接层,以获得第三融合特征,其中,第三融合特征用于表示一阶输出向量与二阶输出向量
的融合特征。
[0252] 具体实施例可以参考上述数据异常识别方法中所示示例,本示例中在此不再赘述。
[0253] 作为一种可选的方案,第四输入模块,包括:
[0254] 第一执行子模块,用于在第三子网络的嵌入层中,对行为序列数据执行向量映射,以获得第一行为序列向量;
[0255] 第二执行子模块,用于在第三子网络的卷积层中,对第一行为序列向量执行特征提取,以获得第二行为序列向量;
[0256] 在第三子网络的池化层中,对第二行为序列向量执行特征融合,以获得第三行为序列向量;
[0257] 第三执行子模块,用于在所第三子网络的转换层中,对第三行为序列向量执行高层特征的保留以及融合,以获得第四行为序列向量;
[0258] 第四执行子模块,用于在第三子网络的第四全连接层中,对第四行为序列向量执行特征转换和特征降维,以获得第五行为序列向量;
[0259] 第五执行子模块,用于将第五行为序列向量作为第三输出特征。
[0260] 具体实施例可以参考上述数据异常识别方法中所示示例,本示例中在此不再赘述。
[0261] 作为一种可选的方案,第一输入单元1306,包括:
[0262] 第七输入模块,用于将属性统计特征输入转换模型;
[0263] 预测模块,用于利用转换模型中M个决策树的树结构,分别预测属性统计特征对应的M个属性组合子特征,其中,每个属性组合子特征为一个树结构的叶子节点对应的编码特
征;
[0264] 将M个属性组合子特征作为属性组合特征。
[0265] 具体实施例可以参考上述数据异常识别方法中所示示例,本示例中在此不再赘述。
[0266] 作为一种可选的方案,响应单元1304,包括:
[0267] 第一提取模块,用于从日志数据中提取初始属性统计特征,其中,初始属性统计特征包括连续数值特征以及离散类别特征;
[0268] 第一处理模块,用于将连续数值特征做归一化处理,将离散类别特征做过滤编码处理,以获得属性统计特征。
[0269] 具体实施例可以参考上述数据异常识别方法中所示示例,本示例中在此不再赘述。
[0270] 作为一种可选的方案,响应单元1304,包括:
[0271] 第二提取模块,用于从日志数据中提取初始行为序列数据,其中,初始行为序列数据包括N个行为数据,N个行为数据与N个时刻相对应,目标时间段包括N个时刻,N为大于0的
整数;
[0272] 第二处理模块,用于按照N个时刻的生成顺序,对N个行为数据进行统计以及排序,以获得行为数据序列。
[0273] 具体实施例可以参考上述数据异常识别方法中所示示例,本示例中在此不再赘述。
[0274] 作为一种可选的方案,包括:
[0275] 第一训练单元,用于在获取数据识别请求之前,使用第一样本集合中的第一样本特征对转换模型进行训练,其中,第一样本特征包括以下至少之一:携带有异常标签的连续
样本特征、携带有异常标签的离散样本特征,异常标签用于表示是否属于异常状态;
[0276] 第一确定单元,用于在获取数据识别请求之前,确定输出结果满足第一收敛条件的转换模型为转换模型。
[0277] 具体实施例可以参考上述数据异常识别方法中所示示例,本示例中在此不再赘述。
[0278] 作为一种可选的方案,包括:
[0279] 第二训练单元,用于在获取数据识别请求之前,使用第二样本集合中的第二样本特征对识别模型进行训练,其中,第二样本特征包括以下至少之一:携带有异常标签的样本
属性统计特征、携带有异常标签的样本属性组合特征以及携带有异常标签的样本行为序列
数据,异常标签用于表示是否属于异常状态;
[0280] 第二确定单元,用于在获取数据识别请求之前,确定输出结果满足第二收敛条件的识别模型为识别模型。
[0281] 具体实施例可以参考上述数据异常识别方法中所示示例,本示例中在此不再赘述。
[0282] 根据本发明实施例的又一个方面,还提供了一种用于实施上述数据异常识别方法的电子设备,如图14所示,该电子设备包括存储器1402和处理器1404,该存储器1402中存储
有计算机程序,该处理器1404被设置为通过计算机程序执行上述任一项方法实施例中的步
骤。
[0283] 可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
[0284] 可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
[0285] S1,获取数据识别请求,其中,数据识别请求用于请求确认目标游戏应用中的目标账号在目标时间段内生成的日志数据是否异常;
[0286] S2,响应数据识别请求,获取与日志数据对应的属性统计特征以及行为序列数据,其中,属性统计特征包括对目标账号在目标时间段内关联的多个属性参数的参数变化分别
进行统计后得到的特征,行为序列数据包括目标账号控制的虚拟对象在目标时间段内执行
的行为的时序数据;
[0287] S3,将属性统计特征输入转换模型,以获得转换模型输出的属性组合特征,其中,转换模型用于将输入特征转换为具有决策树特性的特征组合信息的输出特征;
[0288] S4,将属性组合特征、属性统计特征以及行为序列数据输入识别模型,以获得识别模型输出的数据识别结果,其中,数据识别结果用于指示日志数据是否异常,识别模型中包
括用于融合属性组合特征与属性统计特征以获得第一融合特征的第一融合结构,用于融合
第一融合特征与行为序列数据以获得第二融合特征的第二融合结构,以及用于利用第二融
合特征识别日志数据是否异常的识别结构。
[0289] 可选地,本领域普通技术人员可以理解,图14所示的结构仅为示意,电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备
(Mobile Internet Devices,MID)、PAD等终端设备。图14其并不对上述电子设备的结构造
成限定。例如,电子设备还可包括比图14中所示更多或者更少的组件(如网络接口等),或者
具有与图14所示不同的配置。
[0290] 其中,存储器1402可用于存储软件程序以及模块,如本发明实施例中的数据异常识别方法和装置对应的程序指令/模块,处理器1404通过运行存储在存储器1402内的软件
程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据异常识别方法。存
储器1402可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储
装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1402可进一步包括相对
于处理器1404远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的
实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1402具
体可以但不限于用于存储数据识别请求、属性组合特征、属性统计特征、行为序列数据以及
数据识别结果等信息。作为一种示例,如图14所示,上述存储器1402中可以但不限于包括上
述数据异常识别装置中的获取单元1302、响应单元1304、第一输入单元1306及第二输入单
元1308。此外,还可以包括但不限于上述数据异常识别装置中的其他模块单元,本示例中不
再赘述。
[0291] 可选地,上述的传输装置1406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1406包括一个网络适配器
(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而
可与互联网或局域网进行通讯。在一个实例中,传输装置1406为射频(Radio Frequency,
RF)模块,其用于通过无线方式与互联网进行通讯。
[0292] 此外,上述电子设备还包括:显示器1408,用于显示上述数据识别请求、属性组合特征、属性统计特征、行为序列数据以及数据识别结果等信息;和连接总线1410,用于连接
上述电子设备中的各个模块部件。
[0293] 在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通
信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(Peer To Peer,简称
P2P)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网
络而成为该区块链系统中的一个节点。
[0294] 根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算
机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使
得该计算机设备执行上述数据异常识别方法,其中,该计算机程序被设置为运行时执行上
述任一项方法实施例中的步骤。
[0295] 可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
[0296] S1,获取数据识别请求,其中,数据识别请求用于请求确认目标游戏应用中的目标账号在目标时间段内生成的日志数据是否异常;
[0297] S2,响应数据识别请求,获取与日志数据对应的属性统计特征以及行为序列数据,其中,属性统计特征包括对目标账号在目标时间段内关联的多个属性参数的参数变化分别
进行统计后得到的特征,行为序列数据包括目标账号控制的虚拟对象在目标时间段内执行
的行为的时序数据;
[0298] S3,将属性统计特征输入转换模型,以获得转换模型输出的属性组合特征,其中,转换模型用于将输入特征转换为具有决策树特性的特征组合信息的输出特征;
[0299] S4,将属性组合特征、属性统计特征以及行为序列数据输入识别模型,以获得识别模型输出的数据识别结果,其中,数据识别结果用于指示日志数据是否异常,识别模型中包
括用于融合属性组合特征与属性统计特征以获得第一融合特征的第一融合结构,用于融合
第一融合特征与行为序列数据以获得第二融合特征的第二融合结构,以及用于利用第二融
合特征识别日志数据是否异常的识别结构。
[0300] 可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于
一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read‑Only MeMory,
ROM)、随机存取器(RandoM Access MeMory,RAM)、磁盘或光盘等。
[0301] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0302] 上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技
术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软
件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一
台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方
法的全部或部分步骤。
[0303] 在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0304] 在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻
辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以
集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的
耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可
以是电性或其它的形式。
[0305] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
[0306] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0307] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应
视为本发明的保护范围。