数据异常识别方法、装置、存储介质以及电子设备转让专利
申请号 : CN202011166127.2
文献号 : CN112221156B
文献日 : 2021-07-27
发明人 : 陈观钦 , 陈健柯 , 何施慧 , 陈远 , 王摘星 , 刘恩吏
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种数据异常识别方法,其特征在于,包括:获取数据识别请求,其中,所述数据识别请求用于请求确认目标游戏应用中的目标账号在目标时间段内生成的日志数据是否异常;
响应所述数据识别请求,获取与所述日志数据对应的属性统计特征以及行为序列数据,其中,所述属性统计特征包括对所述目标账号在所述目标时间段内关联的多个属性参数的参数变化分别进行统计后得到的特征,所述行为序列数据包括所述目标账号控制的虚拟对象在所述目标时间段内执行的行为的时序数据;
将所述属性统计特征输入转换模型,以获得所述转换模型输出的属性组合特征,其中,所述转换模型用于将输入特征转换为具有决策树特性的属性组合特征;
将所述属性组合特征、所述属性统计特征以及所述行为序列数据输入识别模型,以获得所述识别模型输出的数据识别结果,其中,所述数据识别结果用于指示所述日志数据是否异常,所述识别模型中包括用于融合所述属性组合特征与所述属性统计特征以获得第一融合特征的第一融合结构,用于融合所述第一融合特征与所述行为序列数据以获得第二融合特征的第二融合结构,以及用于利用所述第二融合特征识别所述日志数据是否异常的识别结构。
2.根据权利要求1所述的方法,其特征在于,所述将所述属性组合特征、所述属性统计特征以及所述行为序列数据输入识别模型,以获得所述识别模型输出的数据识别结果,包括:
将所述属性组合特征输入第一子网络,以获得第一输出特征,其中,所述识别模型包括所述第一子网络;
将所述属性统计特征输入第二子网络,以获得第二输出特征,其中,所述识别模型包括所述第二子网络;
将所述第一输出特征、所述第二输出特征输入第一全连接层,以获得所述第一融合特征,其中,在所述第一全连接层中融合所述第一输出特征、以及所述第二输出特征,所述第一融合结构包括所述第一全连接层;
将所述行为序列数据输入第三子网络,以获得第三输出特征,其中,所述识别模型包括所述第三子网络;
将所述第三输出特征、所述第一融合特征输入第二全连接层,以获得所述第二融合特征,其中,所述第二融合结构包括所述第二全连接层;
将所述第二融合特征输入所述第二全连接层的分类层,以获得所述数据识别结果,其中,所述识别结构包括所述分类层。
3.根据权利要求2所述的方法,其特征在于,所述将所述属性组合特征输入第一子网络,以获得第一输出特征,包括:将所述属性组合特征输入所述第一子网络的嵌入层,以获得M个属性组合向量,其中,所述属性组合向量与所述属性组合特征对应,所述M为大于等于1的正整数;
基于注意力机制,融合所述M个属性组合向量,以获得目标属性融合向量,并将所述目标属性融合向量作为所述第一输出特征。
4.根据权利要求2所述的方法,其特征在于,所述将所述属性统计特征输入第二子网络,以获得第二输出特征,包括:将所述属性统计特征输入所述第二子网络的嵌入层,以获得目标维度的属性统计向量,其中,所述目标维度与所述第二子网络相匹配,所述属性统计向量为与所述属性统计特征相对应的分布式向量;
将所述属性统计向量输入所述第二子网络,以获得所述第二输出特征。
5.根据权利要求4所述的方法,其特征在于,所述将所述属性统计向量输入所述第二子网络,以获得所述第二输出特征,包括:根据所述属性统计向量与所述属性统计特征的特征值的目标乘积,获取一阶输出向量,其中,所述一阶输出向量为对所述目标乘积做加权计算后得到的向量;
对所述属性统计向量进行两两组合,以获得二阶输出向量;
将所述一阶输出向量、所述二阶输出向量输入所述第二子网络的第三全连接层,以获得第三融合特征,其中,所述第三融合特征用于表示所述一阶输出向量与所述二阶输出向量的融合特征。
6.根据权利要求2所述的方法,其特征在于,所述将所述行为序列数据输入第三子网络,以获得第三输出特征,包括:在所述第三子网络的嵌入层中,对所述行为序列数据执行向量映射,以获得第一行为序列向量;
在所述第三子网络的卷积层中,对所述第一行为序列向量执行特征提取,以获得第二行为序列向量;
在所述第三子网络的池化层中,对所述第二行为序列向量执行特征融合,以获得第三行为序列向量;
在所第三子网络的转换层中,对所述第三行为序列向量执行高层特征的保留以及融合,以获得第四行为序列向量;
在所述第三子网络的第四全连接层中,对所述第四行为序列向量执行特征转换和特征降维,以获得第五行为序列向量;
将所述第五行为序列向量作为所述第三输出特征。
7.根据权利要求3所述的方法,其特征在于,所述将所述属性统计特征输入转换模型,以获得所述转换模型输出的属性组合特征,包括:将所述属性统计特征输入所述转换模型;
利用所述转换模型中M个决策树的树结构,分别预测所述属性统计特征对应的M个属性组合子特征,其中,每个所述属性组合子特征为一个树结构的叶子节点对应的编码特征;
将所述M个属性组合子特征作为所述属性组合特征。
8.根据权利要求1所述的方法,其特征在于,所述响应所述数据识别请求,获取与所述日志数据对应的属性统计特征,包括:从所述日志数据中提取初始属性统计特征,其中,所述初始属性统计特征包括连续数值特征以及离散类别特征;
将所述连续数值特征做归一化处理,将所述离散类别特征做过滤编码处理,以获得所述属性统计特征。
9.根据权利要求1所述的方法,其特征在于,所述响应所述数据识别请求,获取与所述日志数据对应的行为序列数据,包括:从所述日志数据中提取初始行为序列数据,其中,所述初始行为序列数据包括N个行为数据,所述N个行为数据与N个时刻相对应,所述目标时间段包括所述N个时刻,所述N为大于
0的整数;
按照所述N个时刻的生成顺序,对所述N个行为数据进行统计以及排序,以获得行为数据序列。
10.根据权利要求1所述的方法,其特征在于,在所述获取数据识别请求之前,包括:使用第一样本集合中的第一样本特征对所述转换模型进行训练,其中,所述第一样本特征包括以下至少之一:携带有异常标签的连续样本特征、携带有所述异常标签的离散样本特征,所述异常标签用于表示是否属于异常状态;
确定输出结果满足第一收敛条件的所述转换模型为所述转换模型。
11.根据权利要求1所述的方法,其特征在于,在所述获取数据识别请求之前,包括:使用第二样本集合中的第二样本特征对所述识别模型进行训练,其中,所述第二样本特征包括以下至少之一:携带有异常标签的样本属性统计特征、携带有所述异常标签的样本属性组合特征以及携带有所述异常标签的样本行为序列数据,所述异常标签用于表示是否属于异常状态;确定输出结果满足第二收敛条件的所述识别模型为所述识别模型。
12.一种数据异常识别装置,其特征在于,包括:获取单元,用于获取数据识别请求,其中,所述数据识别请求用于请求确认目标游戏应用中的目标账号在目标时间段内生成的日志数据是否异常;
响应单元,用于响应所述数据识别请求,获取与所述日志数据对应的属性统计特征以及行为序列数据,其中,所述属性统计特征包括对所述目标账号在所述目标时间段内关联的多个属性参数的参数变化分别进行统计后得到的特征,所述行为序列数据包括所述目标账号控制的虚拟对象在所述目标时间段内执行的行为的时序数据;
第一输入单元,用于将所述属性统计特征输入转换模型,以获得所述转换模型输出的属性组合特征,其中,所述转换模型用于将输入特征转换为具有决策树特性的特征组合信息的输出特征;
第二输入单元,用于将所述属性组合特征、所述属性统计特征以及所述行为序列数据输入识别模型,以获得所述识别模型输出的数据识别结果,其中,所述数据识别结果用于指示所述日志数据是否异常,所述识别模型中包括用于融合所述属性组合特征与所述属性统计特征以获得第一融合特征的第一融合结构,用于融合所述第一融合特征与所述行为序列数据以获得第二融合特征的第二融合结构,以及用于利用所述第二融合特征识别所述日志数据是否异常的识别结构。
13.根据权利要求12所述的装置,其特征在于,所述第二输入单元,包括:第一输入模块,用于将所述属性组合特征输入第一子网络,以获得第一输出特征,其中,所述识别模型包括所述第一子网络;
第二输入模块,用于将所述属性统计特征输入第二子网络,以获得第二输出特征,其中,所述识别模型包括所述第二子网络;
第三输入模块,用于将所述第一输出特征、所述第二输出特征输入第一全连接层,以获得所述第一融合特征,其中,在所述第一全连接层中融合所述第一输出特征、以及所述第二输出特征,所述第一融合结构包括所述第一全连接层;
第四输入模块,用于将所述行为序列数据输入第三子网络,以获得第三输出特征,其中,所述识别模型包括所述第三子网络;
第五输入模块,用于将所述第三输出特征、所述第一融合特征输入第二全连接层,以获得所述第二融合特征,其中,所述第二融合结构包括所述第二全连接层;
第六输入模块,用于将所述第二融合特征输入所述第二全连接层的分类层,以获得所述数据识别结果,其中,所述识别结构包括所述分类层。
14.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至11任一项中所述的方法。
15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。
说明书 :
数据异常识别方法、装置、存储介质以及电子设备
技术领域
背景技术
建机器学习模型的形式来学习数据中高质量玩家的特点。
发明内容
内生成的日志数据是否异常;响应上述数据识别请求,获取与上述日志数据对应的属性统
计特征以及行为序列数据,其中,上述属性统计特征包括对上述目标账号在上述目标时间
段内关联的多个属性参数的参数变化分别进行统计后得到的特征,上述行为序列数据包括
上述目标账号控制的虚拟对象在上述目标时间段内执行的行为的时序数据;将上述属性统
计特征输入转换模型,以获得上述转换模型输出的属性组合特征,其中,上述转换模型用于
将输入特征转换为具有决策树特性的特征组合信息的输出特征;将上述属性组合特征、上
述属性统计特征以及上述行为序列数据输入识别模型,以获得上述识别模型输出的数据识
别结果,其中,上述数据识别结果用于指示上述日志数据是否异常,上述识别模型中包括用
于融合上述属性组合特征与上述属性统计特征以获得第一融合特征的第一融合结构,用于
融合上述第一融合特征与上述行为序列数据以获得第二融合特征的第二融合结构,以及用
于利用上述第二融合特征识别上述日志数据是否异常的识别结构。
账号在目标时间段内生成的日志数据是否异常;响应单元,用于响应上述数据识别请求,获
取与上述日志数据对应的属性统计特征以及行为序列数据,其中,上述属性统计特征包括
对上述目标账号在上述目标时间段内关联的多个属性参数的参数变化分别进行统计后得
到的特征,上述行为序列数据包括上述目标账号控制的虚拟对象在上述目标时间段内执行
的行为的时序数据;第一输入单元,用于将上述属性统计特征输入转换模型,以获得上述转
换模型输出的属性组合特征,其中,上述转换模型用于将输入特征转换为具有决策树特性
的特征组合信息的输出特征;第二输入单元,用于将上述属性组合特征、上述属性统计特征
以及上述行为序列数据输入识别模型,以获得上述识别模型输出的数据识别结果,其中,上
述数据识别结果用于指示上述日志数据是否异常,上述识别模型中包括用于融合上述属性
组合特征与上述属性统计特征以获得第一融合特征的第一融合结构,用于融合上述第一融
合特征与上述行为序列数据以获得第二融合特征的第二融合结构,以及用于利用上述第二
融合特征识别上述日志数据是否异常的识别结构。
异常识别方法。
上述的数据异常识别方法。
求,获取与上述日志数据对应的属性统计特征以及行为序列数据,其中,上述属性统计特征
包括对上述目标账号在上述目标时间段内关联的多个属性参数的参数变化分别进行统计
后得到的特征,上述行为序列数据包括上述目标账号控制的虚拟对象在上述目标时间段内
执行的行为的时序数据;将上述属性统计特征输入转换模型,以获得上述转换模型输出的
属性组合特征,其中,上述转换模型用于将输入特征转换为具有决策树特性的特征组合信
息的输出特征;将上述属性组合特征、上述属性统计特征以及上述行为序列数据输入识别
模型,以获得上述识别模型输出的数据识别结果,其中,上述数据识别结果用于指示上述日
志数据是否异常,上述识别模型中包括用于融合上述属性组合特征与上述属性统计特征以
获得第一融合特征的第一融合结构,用于融合上述第一融合特征与上述行为序列数据以获
得第二融合特征的第二融合结构,以及用于利用上述第二融合特征识别上述日志数据是否
异常的识别结构,先利用转换模型以及获取的属性统计特征,以获得离散化和组合能力更
强的属性组合特征,同时融合属性统计特征以及属性组合特征,使得输出的第一融合特征
拥有属性统计特征特有的高相关性的优点,还因属性统计特征记录有原始特征信息,使得
获取的第一融合特征也避免了后续可能出现的信息损失的问题;进一步,再利用识别模型,
融合获取的行为序列数据以及第一融合特征,因行为序列数据对于判别数据异常具有关键
和丰富的语音特征,与第一融合特征互为补充,使得输出的第二融合特征结合了上述属性
统计特征的保留原始信息、属性组合特征的高相关性以及行为序列数据的丰富优势,进而
达到了使得用于获取数据识别结果的特征更健壮的目的,从而实现了提高数据异常识别的
准确性的效果,进而解决了数据异常识别的准确性较低的技术问题。
附图说明
具体实施方式
本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范
围。
的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆
盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于
清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品
或设备固有的其它步骤或单元。
理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了
解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智
能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机
器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个
领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学
习、式教学习等技术。
构对输入信息进行平移不变分类。其中,卷积神经网络的隐含层包含卷积层、池化层和全连
接层,卷积层中的卷积核包含权重系数。
密特征向量序列,然后合并成矩阵形式的特征信息,行代表每个序列点的向量表示,列代表
行为序列的长度。在CNN特征抽取模块中,分别采用不同宽度窗口(也可称作不同尺度)的卷
积提取n‑gram(卷积核)的特征,同时通过多层一维卷积CNN层次化地提炼出不同尺度的高
层关键特征。
数据异常识别系统中,其中,该数据异常识别系统可以包括但不限于终端设备102、网络
104、服务器106。终端设备102中运行有目标游戏应用客户端(如游戏应用客户端)。上述终
端设备102中包括人机交互屏幕1022,处理器1024及存储器1026。人机交互屏幕1022用于呈
现上述目标游戏应用客户端的应用界面(如游戏应用界面),还用于提供人机交互接口接收
对人机交互界面执行的人机交互操作;处理器1024用于响应上述人机交互操作得到人机交
互指令,并传递给服务器106。存储器108用于存储目标账号在该游戏应用中产生的日志数
据。
根据日志数据对属性统计特征以及行为序列数据进行准确识别。
该日志数据通过网络发送给服务器106。其中,这里的日志数据中可以但不限于包括目标账
号在游戏应用中在目标时间段内执行交互行为所生成的行为记录,以及目标账号在游戏应
用中在目标时间段内的一个或多个属性值。
交互行为在目标时间段内的时序特性,属性统计特征用于指示交互行为基于多个统计标签
分别进行统计后的统计结果。然后将属性统计特征输入预先训练好的转换模型,以获得转
换模型输出的属性组合特征;再将属性组合特征、属性统计特征以及行为序列数据输入识
别模型,以获得识别模型输出的数据识别结果,并将其通过网络104将数据识别结果发送至
终端设备102,以使得终端设备102可以展示出上述数据识别结果,便于分析目标账号是否
为异常。
基于训练好的转换模型获取与属性统计特征相匹配的属性组合特征,以融合上述三个输入
数据或特征得到用于指示日志数据是否异常的数据识别结果。也就是说,通过融合具有高
相关性的属性组合特征、具有原始数据的属性统计特征以及高纬度的行为序列数据,来提
高用于确定数据识别结果的特征的健壮性,进而提高数据识别结果的获取准确性,进而克
服相关技术中数据异常识别的准确性较低的技术问题。
平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智
能电视等。目标游戏应用的客户端可以是游戏客户端、视频客户端、即时通信客户端、浏览
器客户端、教育客户端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线
网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网
络。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服
务器。上述仅是一种示例,本实施例中对此不作任何限定。
分别进行统计后得到的特征,行为序列数据包括目标账号控制的虚拟对象在目标时间段内
执行的行为的时序数据;
包括用于融合属性组合特征与属性统计特征以获得第一融合特征的第一融合结构,用于融
合第一融合特征与行为序列数据以获得第二融合特征的第二融合结构,以及用于利用第二
融合特征识别日志数据是否异常的识别结构。
供的上述步骤,根据用户在客户端中所执行的人机交互行为所生成的行为记录,以及用户
的账号或用户所控制的虚拟角色的属性值,来提取各个账号的行为序列数据以及属性统计
特征,以及基于训练好的转换模型以及上述属性统计特征,进一步获取与异常数据相关性
更高的属性组合特征,以便于融合上述三种数据/特征对用户进行异常判断,得到用于指示
用户行为或属性值是否异常的数据识别结果,从而达到准确地识别出异常用户,进而对异
常用户进行一定程度的管制,以净化游戏环境。此外,通过本申请实施例中提供的上述步
骤,在运营方实际使用时,还可以但不限于通过设定概率阈值的方式,根据数据识别结果找
到一定数量的高可疑异常用户进行有效打击,而根据数据识别结果找到的低可疑异常用户
则执行导入目标名单的操作,可以但不限于对其进行更严格的人工判断,以降低游戏安全
运营的成本。
合特征拥有属性统计特征特有的高相关性的优点,还因属性统计特征记录有原始特征信
息,使得获取的第一融合特征也避免了后续可能出现的信息损失的问题;可选的,属性组合
特征可以但不限于为特征组合信息的输出特征。
得输出的第二融合特征结合了上述属性统计特征的保留原始信息、属性组合特征的高相关
性以及行为序列数据的丰富优势,从而保证了识别模型输出的特征的高健壮性,而高健壮
性的输出特征则保证了最终输出的数据识别结果具有较高的识别准确性,进而克服了相关
技术中存在的数据异常识别准确性较低的技术问题。
单维度的行为序列。如从用户日志得到目标时间段内(如一天)目标账号使用目标游戏应用
执行交互行为的时间点序列,按照固定时间段分片的形式,把上述时间点序列的时间点转
换为便于机器训练的序列特征。如以一天为例,一天24个小时可以划分得到24个分片,每个
小时分片的游戏时长(0‑60分钟),构成一个长度为24的行为序列数据。
序列长度为L的行为序列数据中的每一个ID编号分别做ID Embedding,得到M维向量序列,
合并成单通道的特征矩阵,如输出的数据将是行为序列对应的矩阵(L,M)。
不限于是对目标账号执行的交互行为和/或目标账号的属性值,基于多个统计标签分别统
计的统计结果。例如,以游戏应用为例,上述统计标签可以包括但不限于:游戏类型偏好、游
戏活跃数量、活跃时段分布、组队发言等多维度标签。这里属性统计特征可以包括但不限
于:连续数值特征、类别型特征。进一步可以对上述属性统计特征进一步处理:如对连续数
值特征的数值进行归一化处理,对离散类别特征进行独热编码(one‑hot)处理,其中,可选
的,one‑hot编码可以但不限于称为一位有效编码主要是采用N位状态寄存器对N个状态进
行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。然后对上述处理
后的特征再进行过滤,以去除冗余特征,剔除其他满足条件的参考特征,如对特征进行单变
量验证,然后剔除数值方差极小和信息值(Information Value,简称IV)较小的变量,或通
过相关系数找到相关性较高的变量等。
等;
以但不限于为目标账号控制的虚拟角色在目标游戏应用中的属性值,例如虚拟角色的等
级、虚拟货币、虚拟物品、收益率、登录时长、游戏收益等。上述为示例,本实施例中对此不作
任何限定。
进而获取输出的数据识别结果;
输出的属性组合特征,以及直接获取的属性统计特征以及行为序列数据,输入多塔结构的
识别模型304,并在识别模型304中,基于第一融合结构3042将属性组合特征以及属性统计
特征融合,以获得第一融合特征,以及基于第二融合结构3044将第一融合特征以及行为序
列数据融合,以获得健壮性较高的第二融合特征,进而将第二融合特征输入识别结构3046,
以获得数据识别结果。
CNN),进而将输入的行为序列数据转换为对应的行为序列特征,且上述CNN中可以包括但不
限于包括:嵌入层(Embedding)、卷积层、门控过滤层,其中,上述卷积层可以但不限于为A层
B尺度卷积结构,A、B为正整数。上述门控过滤层可以但不限于为门控过滤结构,如Highway
结构。可选的,在行为序列数据的长度小于预设长度的情况下(不定长),通过补“0”的方式,
将该行为序列数据的长度补为上述预设长度。
的路径构造一种新的特征,多棵树的预测叶节点构成属性组合特征,所以属性组合特征相
当于具有决策树特性的特征组合信息。另一种是多塔结构的识别模型中的融合结构对属性
组合特征以及属性统计特征做自适应融合。结合树模型离散化和组合特征的特点以及神经
网络自适应融合原始统计特征的优点,两者互为补充,使得特征提取更加全面和健壮,有利
于提高泛化性能和效果。
的转换模型,对于属性统计特征的特征转换和融合相当于几层的全连接层,对于行为序列
数据的特征转换可以但不限于使用能够并行的CNN结构,所以模型整体的运行效率较高,能
够满足多款游戏业务同时部署的要求。在预测效果上,由于结合上述转换网络以及上述多
塔结构的识别模型的设计能够更加全面地提取属性统计特征和行为序列数据的关键信息
以及对两者做自适应的融合,进而提高了模型的预测性能。
性。对于不同的游戏,结合上述转换网络以及上述多塔结构的识别模型的设计能够适配不
同维度的统计游戏属性特征和不定长的行为序列数据,所以能够快速低成本地移植到其他
游戏的玩家异常判别任务中。
结构可以包括但不限于:用于提取属性统计特征中的一阶特征的一阶特征提取结构、用于
提取属性统计特征中的二阶特征的二阶特征提取结构及用于提取属性统计特征中的高阶
特征的高阶特征提取结构。这里为是示例,本实施例中对此不作任何限定。
例如转换模型可以但不限于为分类数模型、回归树模型、XGBoost模型、深度森林
(gcForest)模型等。可选的,决策树(Decision Tree)可以但不限于为一种基本的分类与回
归方法,当决策树用于分类时称为分类数,用于回归时称为回归树。决策树可以但不限于由
节点和有向边组成,节点可以但不限分为两类,即内部节点和叶子节点,其中,内部节点标
识一个特征或属性,叶子节点表示一个类,可选的,一颗决策树包含一个根节点、若干内部
节点和若干叶子节点,叶子节点对应决策结果,其他每个节点则对应一个属性册数,每个节
点包含的样本集合根据属性测试的结果被划分到子节点中,根节点包含样本合集,从根节
点到每个叶子节点的路径对应了一个预定测试序列,换言之,一个预定测试序列中包括从
根节点到每个叶子节点的路径,而从根节点到每个叶子节点的路径包括路径下叶子节点对
应的编码,其中,一个叶子节点对应的编码对应一个编码特征。
些从根节点到叶子节点灵活分割的组合特征与目标账号是否异常的目标存在高度相关。这
些通过树模型自动化组合形成的特征能够补充人工设计特征的不足,减少了人工对用户游
戏属性特征的组合探索分析。同时,转换模型预测各树叶子节点特征是对特征值的任意离
散化分割和多个特征节点组合形成,能够进一步补充属性统计特征的不全面。
出)……树m,将属性统计特征分别输入上述m棵树结构中,进而获取每棵树预测的叶子节点
的路径编码作为该树的输出编码特征,例如m棵树的叶子节点的路径编码数量为n,则在树1
中,带有虚线箭头的叶子节点的路径,即为树1预测的叶子节点的路径编码2,而在树m中,带
有虚线箭头的叶子节点的路径,即为树1预测的叶子节点的路径编码(n‑1)。换言之,m颗树
分别输出与各自预测的路径编码对应的编码特征,以获得m个编码特征,进而将m个编码特
征作为属性组合特征输出。
示封停目标账号,例如封停目标账号,可选的,封停的时长可以但不限于与数据识别结果所
表示的该目标账号的异常程度呈正相关;此外,处理指令还可以但不限用于负面调整目标
账号的权限,例如降低上述低信用玩家的收益、提高上述低信用分玩家在游戏中的发言/私
聊/加好友等交互行为的门槛、限制上述低信用分玩家交易或取消上述低信用分玩家的游
戏测试资格、体验服资格或活动资格等。或者,在数据识别结果指示目标账号非异常的情况
下,为补偿因异常识别对该目标账号造成的负面影响,处理指令还可以但不限用于正面调
整目标账号的权限,例如提供使用特权或福利等,如提供游戏测试资格、体验服资格或活动
资格等。上述为示例,本实施例对此不作任何限定。
示信息,其中,提示信息可以但不限例如图5所示,用于提示目标账号存在违规游戏行为,且
该账号已被封停的时长,此外,可选的,提示信息还可以但不限于携带有以下至少之一的信
息:封停时长、封停原因、解封时间、上诉链接等。
求,获取与日志数据对应的属性统计特征以及行为序列数据,其中,属性统计特征包括对目
标账号在目标时间段内关联的多个属性参数的参数变化分别进行统计后得到的特征,行为
序列数据包括目标账号控制的虚拟对象在目标时间段内执行的行为的时序数据;将属性统
计特征输入转换模型,以获得转换模型输出的属性组合特征,其中,转换模型用于将输入特
征转换为具有决策树特性的属性组合特征;将属性组合特征、属性统计特征以及行为序列
数据输入识别模型,以获得识别模型输出的数据识别结果,其中,数据识别结果用于指示日
志数据是否异常,识别模型中包括用于融合属性组合特征与属性统计特征以获得第一融合
特征的第一融合结构,用于融合第一融合特征与行为序列数据以获得第二融合特征的第二
融合结构,以及用于利用第二融合特征识别日志数据是否异常的识别结构,先利用转换模
型以及获取的属性统计特征,以获得离散化和组合能力更强的属性组合特征,同时融合属
性统计特征以及属性组合特征,使得输出的第一融合特征拥有属性统计特征特有的高相关
性的优点,还因属性统计特征记录有原始特征信息,使得获取的第一融合特征也避免了后
续可能出现的信息损失的问题;进一步,再利用识别模型,融合获取的行为序列数据以及第
一融合特征,因行为序列数据对于判别数据异常具有关键和丰富的语音特征,与第一融合
特征互为补充,使得输出的第二融合特征结合了上述属性统计特征的保留原始信息、属性
组合特征的高相关性以及行为序列数据的丰富优势,进而达到了使得用于获取数据识别结
果的特征更健壮的目的,从而实现了提高数据异常识别的准确性的效果。
接层;
利用识别模型中的第二子网络,将属性组合特征转换为第二输出特征,利用识别模型中的
第三子网络,将行为序列数据转换为第三输出特征;
征以及属性组合特征各自优势的第一融合特征,以及利用识别模型中的第二全连接层,将
基于第一全连接层以及第三子网络获取到的第一融合特征以及第三输出特征,输入至第二
全连接层,以获取融合了多种维度特征的第二融合特征;
测,并返回目标账号的异常可疑概率。
602中的第一子网络604,将属性统计特征转换为第一输出特征,利用识别模型602中的第二
子网络606,将属性组合特征转换为第二输出特征,利用识别模型602中的第三子网络610,
将行为序列数据转换为第三输出特征;
合了属性统计特征以及属性组合特征各自优势的第一融合特征,以及利用识别模型602中
的第二全连接层612,将基于第一全连接层608以及第三子网络610获取到的第一融合特征
以及第三输出特征,输入至第二全连接层612,以获取融合了多种维度特征的第二融合特
征,其中,第二全连接层612中可以但不限于配置有融合层6122,融合层6122用于将输入至
第二全连接层612的输入特征融合;
征,其中,识别模型包括第二子网络;将第一输出特征、第二输出特征输入第一全连接层,以
获得第一融合特征,其中,在第一全连接层中融合第一输出特征、以及第二输出特征,第一
融合结构包括第一全连接层;将行为序列数据输入第三子网络,以获得第三输出特征,其
中,识别模型包括第三子网络;将第三输出特征、第一融合特征输入第二全连接层,以获得
第二融合特征,其中,第二融合结构包括第二全连接层;将第二融合特征输入第二全连接层
的分类层,以获得数据识别结果,其中,识别结构包括分类层,达到了利用多塔网络结构的
识别模型,以输出拥有较高健壮性的输出特征的目的,实现了提高基于输出特征获取的数
据识别结果的准确性的效果。
制可以但不限于使得神经网络具有专注于其输入(或特征)子集的能力:选择特定的输入。
注意力机制可以但不限于应用在任何类型的输入而不管其形状如何。在计算能力有限的情
况下,注意力机制可以但不限于是解决信息超载问题的主要手段的一种资源分配方案,将
计算资源分配给更重要的任务。
络的嵌入层的计算原理如下公式(1)所示。
IDtree_leafi表示编号为i的叶子节点,Exgb_i表示叶子节点i映射得到的特征向量。假设第一子
网络的嵌入层一共有m棵树,能够得到m个特征向量(属性组合特征),进而第一子网络的嵌
入层输出结果维度应是(m,r)。
同树的叶子节点有一定的相关关系,而且不同树中叶节点的特征重要性是不同的,即不同
的属性组合特征其重要性不同。可以但不限于通过注意力机制加权融合各个叶子节点的特
征向量(M个属性组合向量),自适应建模各个叶子表示向量的融合关系,突出重要的叶子节
点特征。叶子节点向量加权注意力机制具体原理如下公式(2)以及公式(3)所示。
向量a和原输入矩阵H的每行做相乘和求和操作得到特征向量Pxgb。因此,注意力机制能够对
叶子节点特征向量做加权融合,得到转换模型的融合表示向量,其最终输出的特征向量Pxgb
维度是r。
将上述目标属性融合向量作为第一子网络702的第一输出特征。
意力机制,融合M个属性组合向量,以获得目标属性融合向量,并将目标属性融合向量作为
第一输出特征,通过树模型自动化组合形成的特征能够补充人工设计特征的不足,达到了
减少了人工对用户游戏属性特征的组合探索分析的目的,实现了提高数据异常识别的效率
的效果。
量;
征编号可以但不限于通过向量嵌入的形式得到属于不同特征的分布式向量表示,例如是通
过ID Embedding的形式映射为特定维度的分布式向量表示。
特征相对应的分布式向量;将属性统计向量输入第二子网络,以获得第二输出特征,达到了
获得第二子网络输出的相同维度特征的目的,实现了提高特征的处理效率的效果。
输出特征。其中,属性统计特征可以包括但不限于:类型偏好、活跃数量、时段分布、组队发
言等多个维度。
的特征值做一个加权,得到统计特征的多维度向量表示。这里多维度向量可以但不限于是
可学习的参数,随着目标函数做优化,并作为给后续统计特征模块的输入。
一个独立维度的信息,通过ID嵌入向量(如Embedding)的形式映射为特定维度的分布式向
量表示,然后再与自身的特征数值相乘,得到每个特征的多维向量表示。
入向量为K维度,所以输出向量的维度是(F,K),Ei表示特征域嵌入的结果。在公式(5)中,xi
是特征i的原始特征值,Embedingi表示特征通过Embedding层结果。
以通过网络结构的形式,自动学习二阶交叉特征的权重。再者,对于所有属性统计特征的多
层非线性转换能够抽取到人工无法刻画的一些高阶融合特征。
征(使用第二特征提取结构的第二阶特征),然后再进一步融合得到第三融合特征。这里原
理和推荐系统中的Deep FM模型的原理类似,采用多种结构来丰富多阶融合原始特征。第二
子网络的具体操作方式如下:
经过Embedding处理后的所有特征向量中的两两特征向量进行对应元素相乘,然后再做对
应元素相加的操作。然后再经过带Tanh激活函数的全连接层的转换。其作用是对不同域的
特征做二阶的特征交叉。
征向量两两对应元素相乘后,再对应元素求和。
征的二阶交叉求解方法类似,其等价公式如下公式(7)。直接对所有属性统计向量对应元素
求和再求平方和先平方再求和的操作,避免了特征交叉计算需要两次循环遍历所有特征的
操作。
特征(如上述第二阶特征)。如图8中间所示,将特征1至特征F经过Embedding处理后对全部
属性统计特征的属性统计向量做多种维度的线性加权求和,得到多维向量输出。然后再经
过两层包含致密层和Relu函数的非线性全连接层,对特征做进一步的转换。从而实现将原
始特征在多种不同权重参数的一阶线加权映射得到M维度特征向量(也即通过Embedding层
再求和得到的M维向量),再通过多层的非线性映射层,逐步学习一阶线性加权特征的高阶
特征,自动学习原始统计特征之间的高阶关系。
归的线性层,突出重要的原始,特征避免原始一阶特征的过多损失。从另一个角度讲,这也
相当于线性残差连接的作用。
的非线性全连接层进一步融合不同阶的特征向量,得到统计特征的全局特征向量。
性统计向量进行两两组合,以获得二阶输出向量;将一阶输出向量、二阶输出向量输入第二
子网络的第三全连接层,以获得第三融合特征,其中,第三融合特征用于表示一阶输出向量
与二阶输出向量的融合特征,达到了获得第二子网络输出的高阶特征的目的,实现了提高
输出特征的健壮性的效果。
积操作,以得到N个候选行为片段特征矩阵。抽取各个片段特征分别进行最大池化处理,以
得到目标用户账号的N个关键行为片段特征向量。
层结构,可以扩大感受野,增大片段的长度,看到更长的行为片段。因此,在本申请实施例
中,可以但不限于采用多尺度的三层一维卷积结构来抽取行为序列特征。其具体操作原理
可以结合图9所示内容,说明如下:
种宽度的卷积核也有多个卷积核(例如本实施例中选择取用32个卷积核),每种宽度的卷积
操作是分别单独进行的,不同参数的卷积核能够提取不同方面的特征。
口。例如,如图9所示,假设N=7,也就是采用了conv1到conv7代表7种不同宽度的一维卷积
操作,分别提取1~Ngram的特征。这里每种宽度的卷积核能够得到32种长度为L特征序列。
或者说是长度为L的32维特征向量,一共有N种宽度,所以第一层的卷积层的输出结果是(N,
L,32)。
时也是分别对第一层同种宽度的卷积层的输出(L,32)继续采用32个同种宽度的一维卷积
核进行滑动卷积操作,所以第二层的卷积层的输出结果也是(N,L,32)。
的卷积操作,层次化地进行特征的抽象,得到高层的序列特征。其中,第三层的卷积层的输
出结果是(N,L,32)。
于序列长度L做最大池化处理,以得到32维度的输出向量。由于有N种不同宽度的卷积类型,
所以输出是N个32维度的向量,如图9所示为7*32的关键行为片段特征向量。
积并相加操作,如公式(8):
个卷积核的卷积输出经过最大池化处理后,将输出32维度的向量。
减的通过一些网络层,是用于随机梯度下降(SGD)法,Highway结构可以但不限于为一种解
决深层次网络训练困难的网络框架。
里N个关键行为片段特征向量还需要单独提取的,并做进一步的融合。在本实施例中,
HighWay结构能够更好地融合多个候选片段特征,并通过门控机制加强突出一些重要的活
跃行为片段。因此,HighWay结构可以对上层卷积结构抽取的N个关键行为片段特征向量做
进一步融合和转换,得到固定维度的全局行为向量。
度是超参数,这样能够进一步自适应地融合多尺度的特征和每一维的特征元素,使结果更
稳健些。这里借鉴HighWay网络结构,其公式可以参考如下公式(11)、公式(12)、公式(13),
其中是Input表示输入向量,也即是N*32维的特征向量, 和 是权重参数。
提取,以获得第二行为序列向量;在第三子网络的池化层中,对第二行为序列向量执行特征
融合,以获得第三行为序列向量;在所第三子网络的转换层中,对第三行为序列向量执行高
层特征的保留以及融合,以获得第四行为序列向量;在第三子网络的第四全连接层中,对第
四行为序列向量执行特征转换和特征降维,以获得第五行为序列向量;将第五行为序列向
量作为第三输出特征,达到了提高第三子网络输出的第三输出特征的全局性的目的,实现
了提高基于第三输出特征获取的特征的健壮性的效果。
取M个属性组合子特征,例如树1预测出的属性组合子特征(编码2)为虚线箭头所指示的树1
的叶子节点对应的编码特征。
特征为一个树结构的叶子节点对应的编码特征;将M个属性组合子特征作为属性组合特征,
通过转换模型中每棵树从根节点分割到叶子节点路径构造大量重要的属性组合子特征,达
到了提高后续模型的降低参数优化的难度和泛化性能的目的,实现了提高模型输出数据识
别结果的效率的效果。
别特征进行一位编码处理,得到中间属性统计特征;对中间属性统计特征中满足目标剔除
条件的参考特征进行剔除,以得到最终的属性统计特征。
1002‑1、用户发言日志1002‑2、用户组队日志1002‑3及用户收藏日志1002‑4等)转换得到的
初始特征1004(如类型偏好、活跃数量、活跃时段分布、组队发言等多维度的特征信息)后,
可以执行步骤S1002‑1进行特征转化,如从用户活跃日志中得到目标用户账号在目标时间
段内使用目标应用的时间点序列,按照固定时间段分片的形式,把时间点序列的时间点转
换为用于指示目标用户账号执行交互行为的时序特性的行为序列特征(例如时序特征
1010)。
以得到预处理特征1006:对连续数值特征进行数值的归一化处理;对类别型特征进行独热
编码处理。然后,如图10所示基于统计标签对统计特征执行步骤S1004特征选择,主要是对
所有特征进行单变量验证,剔除数值方差极小和IV较小的变量。并通过相关系数找到相关
性较高的变量,进行随机剔除。最后基于随机森林建模的方式对特征做进一步的过滤和补
充,最终得到F个特征(如图10所示属性统计特征1008),其中包含连续数值特征和离散类别
特征。
别特征做过滤编码处理,以获得属性统计特征,对多个维度特征进行选择,达到了减少模型
处理量的目的,实现了识别模型的处理效率的效果。
单维度的行为序列。如从用户日志得到目标时间段内(如一天)目标用户账号使用目标应用
执行交互行为的时间点序列,按照固定时间段分片的形式,把上述时间点序列的时间点转
换为便于机器训练的序列特征。如以一天为例,一天24个小时可以划分得到24个分片,每个
小时分片的游戏时长(0‑60分钟),构成一个长度为24的行为序列数据。
序列长度为L的行为序列数据中的每一个ID编号分别做ID Embedding,得到M维向量序列,
合并成单通道的特征矩阵,如输出的数据将是行为序列对应的矩阵(L,M)。
里的游戏行为名称是拾取物品,把用户游戏中拾取到的物品编号ID按照时间的先后顺序构
成有序的行为序列数据,例如“23,34,56,1,1,2,34,55,65,34,1,2,123,23,45,34,34,324,
42,34,434,43,23,4”形式的行为序列数据,每个编号代表一个物品类型。由于每个用户的
行为序列不尽相同,因为玩家有可能只玩1小时,也有可能玩10小时甚至20小时等,所以用
户的行为序列长度是不一致。基于序列长度、运行效率和预测性能的综合考虑,对每个用户
的行为序列数据截取最大长度的行为序列,一般根据行为序列数据的长度分布,取能够覆
盖用户行为序列长度分布中90%的序列长度作为最大长度。
集数据。用户游戏日志数据经过特征转换处理后的训练数据格式是“用户id|属性统计特征
|属性组合特征|行为编号序列(行为序列数据)|标签(黑名单和白名单)”,其中,可选的在
模型预测时不带标签这一列。
大于0的整数;按照N个时刻的生成顺序,对N个行为数据进行统计以及排序,以获得行为数
据序列,达到了快速确定带有时序属性的行为序列数据的目的,实现了提高行为序列数据
的获取效率的效果。
异常标签用于表示是否属于异常状态;
散样本特征,异常标签用于表示是否属于异常状态;确定输出结果满足第一收敛条件的转
换模型为转换模型。
段,为了训练出来的模型能够在全游戏更通用,在休闲、第一人称射击游戏(First Person
Shooting Game,简称FPS)、多人在线战术竞技游戏(Multiplayer Online Battle Arena简
称为MOBA)、大型多人在线角色扮演的网络游戏(Massive Multiplayer Online Role‑
Playing Game,简称MMPRPG)等多个游戏品类分别选取代表性游戏,根据业务理解提取高质
量活跃样本。比如MMORPG类游戏,通过是否有正常的社交行为、进行核心玩法活动及收益表
现等维度来判断是否为高质量活跃。在FPS游戏中则通过击杀数、救援数及逃跑比例等维度
来判断是否为高质量活跃。通过以上的筛选方式,得到一批高质量的正样本用户日志及非
高质量的负样本用户日志。尽可能多的取到不同的活跃相关数据,包括近期活跃游戏的时
长、类型、数量等。
常标签的离散样本特征,异常标签用于表示是否属于异常状态;确定输出结果满足第一收
敛条件的转换模型为转换模型,达到了将训练好的转换模型融合至多塔网络结构的识别模
型的目的,实现了提高多塔网络结果的识别模型输出的特征与异常的相关性的效果。
组合特征以及携带有异常标签的样本行为序列数据,异常标签用于表示是否属于异常状
态;
0.0001。为了避免过拟合,对最后的全连接层权重参数可以但不限于添加L2正则化。
模型,得到对应的训练结果;基于二分类交叉熵目标函数对训练中的识别网络模型中的权
重参数进行调整,其中,权重参数包括第一识别子网络中多尺度卷积结构关联的第一权重
参数集合和门控过滤结构关联的第二权重参数集合,第二识别子网络中多阶特征融合结构
关联的第三权重参数集合。
为例进行说明:
Online Battle Arena简称为MOBA)、大型多人在线角色扮演的网络游戏(Massive
Multiplayer Online Role‑Playing Game,简称MMPRPG)等多个游戏品类分别选取代表性
游戏,根据业务理解提取高质量活跃样本。比如MMORPG类游戏,通过是否有正常的社交行
为、进行核心玩法活动及收益表现等维度来判断是否为高质量活跃。在FPS游戏中则通过击
杀数、救援数及逃跑比例等维度来判断是否为高质量活跃。通过以上的筛选方式,得到一批
高质量的正样本用户日志及非高质量的负样本用户日志。尽可能多的取到不同的活跃相关
数据,包括近期活跃游戏的时长、类型、数量等。此外,在特征的设计选择阶段,可以参考上
述实施例,本实施例中对此不再赘述。
有异常标签的样本属性组合特征以及携带有异常标签的样本行为序列数据,异常标签用于
表示是否属于异常状态;确定输出结果满足第二收敛条件的识别模型为识别模型,通过利
用多维度的丰富特征,来训练得到能够准确识别用户的目标账号是否异常的识别模型。
GTX1080TI‑11G显卡。采用的软件平台是基于window10的64位操作系统,python2.7,
Tensorflow1.8。
输入样例,其中提取到的行为序列长度为L,原始用户游戏属性统计特征数目是N,XGBoost
叶子节点特征数目是M,整个网络的具体结构参数和输出结果如下表1~4。其中表1是基于
注意力机制的序列CNN模块的网络结构参数表。表2是原始游戏属性特征的多阶特征提取,
表3是基于XGBoost叶子节点的注意力特征融合模块的网络结构参数表。表4是融合两种统
计特征向量和行为序列特征向量的分类网络参数表。(一些避免过拟合的Drop Out和正则
化辅助操作以及激活函数等不在下面的表格中体现)。
ID行为序列特征。同时,利用通用的统计脚本从日志数据中统计得到用户游戏属性特征(属
性统计特征),并进一步通过数值归一化得到用户游戏属性的原始特征以及通过与训练好
的XGBoost模型预测得到从每棵树中根节点到叶子节点路径构成的组合特征编号,多棵树
的组合特征编号构成Multi‑Hot特征。然后,通过模型预处理脚本读取三种特征数据自动化
生成相应的模型配置文件,调度本文提出的多塔分类模型做模型的训练,并保存验证集合
中效果最优的模型。不管是哪一款游戏,上述方法能够通过通用的预处理脚本自适应地生
成原始特征、Multi‑Hot特征以及行为序列特征的训练数据,然后结合多塔模型做自动化的
模型训练,自适应地学习特征和用户是否异常标签之间的关系。由于特征提取部分使用的
是游戏中的用户通用特征,上述方法能够做到不因游戏种类变化而变动的特征转换和模型
训练的一体化和流程化。再者,对于进一步需要使用一些特殊用户游戏属性特征建模的游
戏,只需要修改从日志源数据中提取特征提取的方式,特征转换和模型训练部分能够自适
应适配特征的种类和维度进行自动化的训练。所以上述方法能够较方便地从一款游戏迁移
到另一款游戏的用户异常判别中。
完成用户日志的特征转换和执行按天离线预测或者实时在线预测,并返回用户的可疑概
率。运营侧能够方便地结合模型的概率阈值对一定数量的高可疑用户进行管制。
模型的训练。然后在黑白样本比是37843:250436的测试数据中对各个模型做效果对比,从
模型效果评估表5中能够证明本发明模型的优良性能。对于表5中的模型名称,其中XGBSUM
表示对于XGBoost预测叶子节点做Embedding后直接对所有树的叶子节点对应元素维度求
和(也即对叶子节点特征做OneHot编码后再通过全连接层映射成特征向量),XGBATT和
XGBSUM的操作类似,把求和操作变成上文介绍的注意力加权操作。NFM表示上文介绍的基于
用户游戏属性特征的多阶特征融合网络结构模块。CNNATT表示上文介绍的结合注意力机制
的多尺度CNN行为序列特征提取结构;CNNMAX和CNNATT类似,把CNN输出结果的压缩处理使
用最大池化的操作替换注意力机制。SELFATT表示transformer架构中encoder部分的2层
self‑attention结构。“merge“表示merge前后名称的模型是单独训练,然后基于概率做平
均。没有merge表示模型名称表示”_“之间名称的模块是通过网络结构连接起来的,能够进
行端到端训练的模型。例如XGBATT_NFM_CNNATT的模型名称表示上述介绍的本发明模型。从
表5中可以看出,在都含有CNNMAX模块的模型中,XGBATT_NFM_CNNMAX模型效果最好,其比只
含有XGBATT和NFM其中一个模块的效果要更优,证明了XGBATT_NFM统计特征转换结构的有
效性,能够更加全面地自适应提取和融合用户游戏属性特征。这从XGBATT_NFM、XGBATT和
NFM这3个模型对比中也可以看出双重的用户游戏属性特征结构更有效。同时,XGBATT和
XGBATT_NFM_CNNMAX模型效果分别比XGBSUM和XGBSUM_NFM_CNNMAX效果更好,说明XGBATT结
构比XGBSUM结构更优秀,证明本实施例的结合注意力机制来融合XGBoost叶子节点的方案
比直接求和更有效。
很统计特征的模型比同等只含有统计特征的模型效果都有1%左右的提升,也比同等只含
有行为序列特征的模型效果有1.5%左右的提升,这说明统计特征和行为序列特征结合的
重要性。更进一步,在同时含有统计和序列特征的模型中,无论行为序列特征提取是使用
CNNMAX还是CNNAT或者是SELFATT,端到端的模型比基于概率集成(含有“merge”)的模型效
果好一些。同时,本申请记载的模型XGBATT_NFM_CNNATT比XGBSUM_NFM_CNNMAX效果要好,比
XGBATT_NFM_SELFATT还差一点,但是比其运行效率快。而且从实验中获取的ROC曲线对比中
发现,XGBATT_NFM_CNNATT模型的测试集合评估AUC值是0.9884,而XGBATT_NFM_SELFATT的
AUC值是0.9881,说明两者不相伯仲。
特征以及支持对不定长的行为序列数据的融合建模。基于图12中的处理流程,只需要提高
原始的用户游戏属性特征和游戏行为序列数据,本实施例就能够低成本和高效地训练模
型,然后通过选择加载已训练好模型的方式,就能进行在线预测。因此,本方案降低了异常
用户判别的建模成本和预测成本,而且通过融合多源特征的多塔网络结构进一步提高了异
常用户的判别准确率。在运营方实际使用时,可以通过设定概率阈值的方式,根据用户异常
判别模型的预测概率找到一定数量的高可疑异常用户,对其进行一定程度的管制。总之,本
实施例有效地打击了异常玩家,净化了游戏环境,降低游戏安全运营的成本。
依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知
悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明
所必须的。
数的参数变化分别进行统计后得到的特征,行为序列数据包括目标账号控制的虚拟对象在
目标时间段内执行的行为的时序数据;
输出特征;
否异常,识别模型中包括用于融合属性组合特征与属性统计特征以获得第一融合特征的第
一融合结构,用于融合第一融合特征与行为序列数据以获得第二融合特征的第二融合结
构,以及用于利用第二融合特征识别日志数据是否异常的识别结构。
施例中提供的上述步骤,根据用户在客户端中所执行的人机交互行为所生成的行为记录,
以及用户的账号或用户所控制的虚拟角色的属性值,来提取各个账号的行为序列数据以及
属性统计特征,以及基于训练好的转换模型以及上述属性统计特征,进一步获取与异常数
据相关性更高的属性组合特征,以便于融合上述三种数据/特征对用户进行异常判断,得到
用于指示用户行为或属性值是否异常的数据识别结果,从而达到准确地识别出异常用户,
进而对异常用户进行一定程度的管制,以净化游戏环境。此外,通过本申请实施例中提供的
上述步骤,在运营方实际使用时,还可以但不限于通过设定概率阈值的方式,根据数据识别
结果找到一定数量的高可疑异常用户进行有效打击,而根据数据识别结果找到的低可疑异
常用户则执行导入目标名单的操作,可以但不限于对其进行更严格的人工判断,以降低游
戏安全运营的成本。
合特征拥有属性统计特征特有的高相关性的优点,还因属性统计特征记录有原始特征信
息,使得获取的第一融合特征也避免了后续可能出现的信息损失的问题;
得输出的第二融合特征结合了上述属性统计特征的保留原始信息、属性组合特征的高相关
性以及行为序列数据的丰富优势,从而保证了识别模型输出的特征的高健壮性,而高健壮
性的输出特征则保证了最终输出的数据识别结果具有较高的识别准确性,进而克服了相关
技术中存在的数据异常识别准确性较低的技术问题。
单维度的行为序列。如从用户日志得到目标时间段内(如一天)目标账号使用目标游戏应用
执行交互行为的时间点序列,按照固定时间段分片的形式,把上述时间点序列的时间点转
换为便于机器训练的序列特征。如以一天为例,一天24个小时可以划分得到24个分片,每个
小时分片的游戏时长(0‑60分钟),构成一个长度为24的行为序列数据。
序列长度为L的行为序列数据中的每一个ID编号分别做ID Embedding,得到M维向量序列,
合并成单通道的特征矩阵,如输出的数据将是行为序列对应的矩阵(L,M)。
不限于是对目标账号执行的交互行为和/或目标账号的属性值,基于多个统计标签分别统
计的统计结果。例如,以游戏应用为例,上述统计标签可以包括但不限于:游戏类型偏好、游
戏活跃数量、活跃时段分布、组队发言等多维度标签。这里属性统计特征可以包括但不限
于:连续数值特征、类别型特征。进一步可以对上述属性统计特征进一步处理:如对连续数
值特征的数值进行归一化处理,对离散类别特征进行独热编码(one‑hot)处理。然后对上述
处理后的特征再进行过滤,以去除冗余特征,剔除其他满足条件的参考特征,如对特征进行
单变量验证,然后剔除数值方差极小和信息值(Information Value,简称IV)较小的变量,
或通过相关系数找到相关性较高的变量等。
等;
以但不限于为目标账号控制的虚拟角色在目标游戏应用中的属性值,例如虚拟角色的等
级、虚拟货币、虚拟物品、收益率、登录时长、游戏收益等。上述为示例,本实施例中对此不作
任何限定。
进而获取输出的数据识别结果。
求,获取与日志数据对应的属性统计特征以及行为序列数据,其中,属性统计特征包括对目
标账号在目标时间段内关联的多个属性参数的参数变化分别进行统计后得到的特征,行为
序列数据包括目标账号控制的虚拟对象在目标时间段内执行的行为的时序数据;将属性统
计特征输入转换模型,以获得转换模型输出的属性组合特征,其中,转换模型用于将输入特
征转换为具有决策树特性的特征组合信息的输出特征;将属性组合特征、属性统计特征以
及行为序列数据输入识别模型,以获得识别模型输出的数据识别结果,其中,数据识别结果
用于指示日志数据是否异常,识别模型中包括用于融合属性组合特征与属性统计特征以获
得第一融合特征的第一融合结构,用于融合第一融合特征与行为序列数据以获得第二融合
特征的第二融合结构,以及用于利用第二融合特征识别日志数据是否异常的识别结构,先
利用转换模型以及获取的属性统计特征,以获得离散化和组合能力更强的属性组合特征,
同时融合属性统计特征以及属性组合特征,使得输出的第一融合特征拥有属性统计特征特
有的高相关性的优点,还因属性统计特征记录有原始特征信息,使得获取的第一融合特征
也避免了后续可能出现的信息损失的问题;进一步,再利用识别模型,融合获取的行为序列
数据以及第一融合特征,因行为序列数据对于判别数据异常具有关键和丰富的语音特征,
与第一融合特征互为补充,使得输出的第二融合特征结合了上述属性统计特征的保留原始
信息、属性组合特征的高相关性以及行为序列数据的丰富优势,进而达到了使得用于获取
数据识别结果的特征更健壮的目的,从而实现了提高数据异常识别的准确性的效果。
构包括第一全连接层;
相对应的分布式向量;
的融合特征。
征;
整数;
样本特征、携带有异常标签的离散样本特征,异常标签用于表示是否属于异常状态;
属性统计特征、携带有异常标签的样本属性组合特征以及携带有异常标签的样本行为序列
数据,异常标签用于表示是否属于异常状态;
有计算机程序,该处理器1404被设置为通过计算机程序执行上述任一项方法实施例中的步
骤。
进行统计后得到的特征,行为序列数据包括目标账号控制的虚拟对象在目标时间段内执行
的行为的时序数据;
括用于融合属性组合特征与属性统计特征以获得第一融合特征的第一融合结构,用于融合
第一融合特征与行为序列数据以获得第二融合特征的第二融合结构,以及用于利用第二融
合特征识别日志数据是否异常的识别结构。
(Mobile Internet Devices,MID)、PAD等终端设备。图14其并不对上述电子设备的结构造
成限定。例如,电子设备还可包括比图14中所示更多或者更少的组件(如网络接口等),或者
具有与图14所示不同的配置。
程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据异常识别方法。存
储器1402可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储
装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1402可进一步包括相对
于处理器1404远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的
实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1402具
体可以但不限于用于存储数据识别请求、属性组合特征、属性统计特征、行为序列数据以及
数据识别结果等信息。作为一种示例,如图14所示,上述存储器1402中可以但不限于包括上
述数据异常识别装置中的获取单元1302、响应单元1304、第一输入单元1306及第二输入单
元1308。此外,还可以包括但不限于上述数据异常识别装置中的其他模块单元,本示例中不
再赘述。
(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而
可与互联网或局域网进行通讯。在一个实例中,传输装置1406为射频(Radio Frequency,
RF)模块,其用于通过无线方式与互联网进行通讯。
上述电子设备中的各个模块部件。
信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(Peer To Peer,简称
P2P)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网
络而成为该区块链系统中的一个节点。
机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使
得该计算机设备执行上述数据异常识别方法,其中,该计算机程序被设置为运行时执行上
述任一项方法实施例中的步骤。
进行统计后得到的特征,行为序列数据包括目标账号控制的虚拟对象在目标时间段内执行
的行为的时序数据;
括用于融合属性组合特征与属性统计特征以获得第一融合特征的第一融合结构,用于融合
第一融合特征与行为序列数据以获得第二融合特征的第二融合结构,以及用于利用第二融
合特征识别日志数据是否异常的识别结构。
一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read‑Only MeMory,
ROM)、随机存取器(RandoM Access MeMory,RAM)、磁盘或光盘等。
术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软
件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一
台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方
法的全部或部分步骤。
辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以
集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的
耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可
以是电性或其它的形式。
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
视为本发明的保护范围。