一种防刷机设备指纹相似度识别方法和装置转让专利
申请号 : CN202111618802.5
文献号 : CN113989859B
文献日 : 2022-05-06
发明人 : 乐正宜 , 王滕滕
申请人 : 江苏苏宁银行股份有限公司
摘要 :
权利要求 :
1.一种防刷机设备指纹相似度识别方法,其特征在于,包括如下步骤:收集设备指纹的特征字段,所述特征字段为从用户登陆行为数据中提取的包括简单统计量、集合型特征和带时间戳集合型特征的字段;
计算两两设备指纹的各特征字段间的相似性分数;
根据预设的相似性分数阈值,判断两两设备指纹是否为同一设备,并添加标签,所述标签包括是、否或未知;
采用是或否标签对应的设备指纹相似性分数构建监督学习模型并输出;
将未知标签对应的设备指纹相似性分数输入监督学习模型中进行识别,获得识别结果;
其中,所述带时间戳集合型特征为在集合型特征的历史取值基础上附上对应的时间,设两两设备指纹的带时间戳集合型特征分别为:;
则所述带时间戳集合型特征的相似性分数根据特征类型分为:时间规律相似性:
;
上式中, 和 分别为设备指纹i和设备指纹j的带时间戳集合型特征,… 为 中第1至n个元素, …为 中第1至m个元素, 为Test相似性函数;
连续事件相似度:
上式中, 为连续事件对个数。
2.根据权利要求1所述的防刷机设备指纹相似度识别方法,其特征在于,所述简单统计量为根据设备指纹记录计算出的数值统计量;
所述集合型特征为将页面浏览记录、交易信息和IP解析地理信息进行关联匹配后,结合设备指纹记录的所有历史取值。
3.根据权利要求2所述的防刷机设备指纹相似度识别方法,其特征在于,所述两两设备指纹为被同一用户使用过的设备指纹对,则所述简单统计量的相似性分数的计算公式包括:差值: ;
差值绝对值: ;
平方差: ;
比例: ;
其中, 、 分别为两两设备指纹的数值型特征。
4.根据权利要求2所述的防刷机设备指纹相似度识别方法,其特征在于,设所述两两设备指纹的集合型特征分别为 , ;
则所述集合型特征的相似性分数根据特征类型分为8种,分别为:Jaccard相似性:
取值比例相似性:
其中,OccSimilarity( )为取值比例相似性,Eucliden Distance( )为Eucliden距离函数, 为集合 、 中各元素出现比例集合, 为集合 、中出现k个不同元素, 为元素k1在集合 中出现次数占总集合中的比例;
Welch’s T‑Test相似性:Mann Whiteny U‑Test 相似性:User Agent 序列相似性:其中, 为比较两条User Agent 和 的相似性函数, 和 分别为设备指纹i和设备指纹j中所有User Agent的集合;
IP地址相似性:
其中, 为第i段IP地址的OccSimilarity相似性;
ScreenResolution 相似性:其中, 和 分别为屏幕分辨率中高度、宽度的相似性;
文本相似性:
其中, 为设备指纹i和设备指纹j之间的文本相似性,Occ()为OccSimilarity相似性分数。
5.根据权利要求1所述的防刷机设备指纹相似度识别方法,其特征在于,在所述收集设备指纹的特征字段之后,还包括对所述特征字段进行变量平方差筛选和随机森林模型筛选;
所述变量平方差筛选为去掉特征相似性分数平方差为0的特征字段;
所述随机森林模型筛选包括利用随机森林的每棵树的树节点将特征字段的数据集分割成两类,每个树节点对应一个筛选条件,将相似的一类特征字段放在一起,以减少模型的不纯度,通过计算减少每棵树不纯度的平均值。
6.根据权利要求1所述的防刷机设备指纹相似度识别方法,其特征在于,所述构建监督学习模型,包括:将设备指纹相似性分数分别输入逻辑回归、随机森林、梯度下降树和Xgboost模型中,利用5‑fold Cross Validation评估方法确定监督学习模型为梯度下降树模型。
7.一种防刷机设备指纹相似度识别装置,其特征在于,包括如下步骤:特征收集模块,用于收集设备指纹的特征字段,所述特征字段为从用户登陆行为数据中提取的包括简单统计量、集合型特征和带时间戳集合型特征的字段;
相似性分数计算模块,用于计算两两设备指纹的各特征字段间的相似性分数;
设备判断模块,用于根据预设的相似性分数阈值,判断两两设备指纹是否为同一设备,并添加标签,所述标签包括是、否或未知;
模型构建模块,用于采用是或否标签对应的设备指纹相似性分数构建监督学习模型并输出;
识别模块,用于将未知标签对应的设备指纹相似性分数输入监督学习模型中进行识别,获得识别结果;
其中,所述带时间戳集合型特征为在集合型特征的历史取值基础上附上对应的时间,设两两设备指纹的带时间戳集合型特征分别为:;
则所述带时间戳集合型特征的相似性分数根据特征类型分为:时间规律相似性:
;
上式中, 和 分别为设备指纹i和设备指纹j的带时间戳集合型特征, … 为 中第1至n个元素, …为 中第1至m个元素, 为Test相似性函数;
连续事件相似度:
上式中, 为连续事件对个数。
说明书 :
一种防刷机设备指纹相似度识别方法和装置
技术领域
背景技术
也给新时代企业销售带来新的挑战。在推广的效果追踪、业务防欺诈、运营效果评估等领
域,企业迫切需要一种新的设备设别与追踪技术,来区分有价值的用户、恶意用户甚至欺诈
团伙,来保障企业整体盈利,并最大程度提高市场推广和业务运营的ROI。
不同的设备;稳定性是指设备指纹不会发生变更,即一个设备只对应一个设备指纹。现实中
黑产会通过改机软件或模拟器修改设备参数、定位、IP等信息,目的是直接破坏设备指纹生
成的稳定性,黑产再迫使企业服务器不断产生新的唯一设备指纹伪装成新用户,让我们无
法追踪黑产用户,达到伪装成新用户突破风控防线实施欺诈的目的。
为单一,因此识别准确率低下。
赋予唯一的设备指纹ID,用以标识该终端设备。从实现的技术方法可以分为主动式的设备
指纹与被动式的设备指纹两种技术路线。
组合,通过特定hash算法得到一个设备指纹的ID值,作为该设备唯一的标识,一般还会结合
其它的持久化存储技术,将设备指纹ID长期保存起来进行维护。然而,该主动式设备指纹的
缺陷在于,不同的浏览器中,以及Web和App之间,会生成不同设备指纹ID,无法实现Web和
App间,不同浏览器之间的设备关联。再者依赖于客户端代码,指纹在反欺诈的场景中对抗
性较弱。
和跟踪具体的终端设备。其由于不需要在设备终端嵌入用于收集设备特征信息的JS代码或
SDK,其所需要的设备特征都是从数据报文中提取,因此更为简单直接,被业界相关技术厂
商广泛采用。然而,被动式设备指纹技术可以很好的解决主动式设备指纹技术的设备关联
问题,但是由于要使用复杂的机器学习算法来识别,占用处理资源较多,响应时延过长。
发明内容
时扩大了设备指纹技术的适用范围。
提取的包括简单统计量、集合型特征和带时间戳集合型特征的字段;计算两两设备指纹的
各特征字段间的相似性分数;根据预设的相似性分数阈值,判断两两设备指纹是否为同一
设备,并添加标签,所述标签包括是、否或未知;采用是或否标签对应的设备指纹相似性分
数构建监督学习模型并输出;将未知标签对应的设备指纹相似性分数输入监督学习模型中
进行识别,获得识别结果。
取值基础上附上对应的时间。
;平方差: ;比例: ;其中,
、 分别为两两设备指纹的数值型特征。
不同元素, 为元素k1在集合 中出现次数占总集合中的比例;
差为0的特征字段;所述随机森林模型筛选包括利用随机森林的每棵树的树节点将特征字
段的数据集分割成两类,每个树节点对应一个筛选条件,将相似的一类特征字段放在一起,
以减少模型的不纯度,通过计算减少每棵树不纯度的平均值。
确定监督学习模型为梯度下降树模型。
简单统计量、集合型特征和带时间戳集合型特征的字段;相似性分数计算模块,用于计算两
两设备指纹的各特征字段间的相似性分数;设备判断模块,用于根据预设的相似性分数阈
值,判断两两设备指纹是否为同一设备,并添加标签,所述标签包括是、否或未知;模型构建
模块,用于采用是或否标签对应的设备指纹相似性分数构建监督学习模型并输出;识别模
块,用于将未知标签对应的设备指纹相似性分数输入监督学习模型中进行识别,获得识别
结果。
纹特征字段,计算两两设备指纹各特征间的相似性分数结合两两设备指纹是否为同一设备
的标签,再通过监督学习得到各特征间相似性分数和是否为同一设备标签的关系。实现了
在硬件数据不完全可得,有些数据不能获得的情况下,纳入行为时序数据和含行为排序相
关性在内的14种相似度算法的方法,最终通过模型训练得到两个设备的相似性。通过对比
逻辑回归、随机森林模型、梯度下降树模型和Xgboost模型后选择效果最好的梯度下降树模
型,可在保证精确度的同时,有效控制计算成本,提高处理速度。本发明采用混合式设备指
纹处理技术,有效规避了主动式和被动式设备指纹技术的缺点,解决了庞杂的数据处理时
长问题,平衡了成本和有效性,取得了较好效果。
附图说明
具体实施方式
附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发
明技术方案的限定或限制。
(Clustering Algorithm),如 K‑means, Gaussian Mixture, Hirachical Clustring等算
法。
指纹的特征难以符合该要求。
实际业务需求表现无法保证一致,
务场景数据,分别为软硬件信息、网络和地理位置、关联会员、综合行为信息(Event_Code)
和交易相关信息。
户的浏览记录。
到的两两设备相似性分数几乎全为1,导致该特征相似性分数平方差取0,这种本身几乎没
有变化的特征变量对于模型是没有任何共享的,因此会首先去掉平方差为0的特征相似性
分数。
于选择最优分割的准则是模型不纯度,对于分类模型,常使用Gini不纯度来作为衡量标准,
故当训练一棵树的时候,可以计算各特征减少了这棵树的多少不纯度。对于整个随机森林,
可以计算特征减少每棵树不纯度的平均值。故随机森林训练完毕后,会输出各特征的重要
值,即该特征减少了此森林的多少不纯度。
量集合特征中取值和取值频率的差异性,如想要考察设备进行某些行为比例差异、设备购
买商品种类和频次差异等。
绝原假设(均值相等),即认为这两个集合相似性越小,反之越接近1时认为越相似。适用于
度量集合特征中取值分布差异性,如想要考察设备每日活跃时段差异、购买商品金额差异
等。
对样本正态分布假设。
两两比较相似性分数的平均值。
OccSimilarity相似性均值。
浏览行为,手机WAP对应的设备指纹和个人电脑对应的设备指纹的时间规律是不同的。所以
对于两个设备指纹 、 定义TimePatternSimilarity算法如下:
使用设备指纹ID1进行登陆,随后王先生在10点11分使用设备指纹ID2进行下单,则设备指
纹ID1和设备指纹ID2很有可能属于同一设备。
和Xgboost模型中,利用5‑fold Cross Validation评估方法确定监督学习模型为梯度下降
树模型。模型选择的实例数据清单如表1所示:
练样本数列中,第一行为总的样本数,标签1样本数为该训练数据中标签为同一设备的设备
指纹对,标签0样本数为该训练数据中标签为不同设备的设备指纹对;测试1数据名列为实
际测试数据存储在集群中名称(区别表明不同训练数据可能使用同一测试1数据);测试1数
据样本数为测试1数据中样本总数。
使用50个精心挑选的特征时,达到最优的表现(测试集捕获率0.87,误杀率0.13)。随着模型
复杂度的升高,随机取样比例变大,特征适当选组,模型表现越好。同时当模型复杂度达到
树深15、60棵树时,训练集表现和测试集表现开始出现一点过拟合现象,说明在本方案中,
梯度下降树模型能够满足复杂度需求,通过有限的字段与行为模式捕捉,聚类用户相似的
设备指纹,减少用户使用的设备指纹个数,以合理的计算资源取得了十分不错的输出成果。
洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过
程,在此不再赘述。
上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形
式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算
机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部
或部分步骤。而前述的存储介质包括 :U 盘、移动硬盘、只读存储器(ROM,Read‑Only
Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程
序代码的介质。
字段,计算两两设备指纹各特征间的相似性分数结合两两设备指纹是否为同一设备的标
签,再通过监督学习得到各特征间相似性分数和是否为同一设备标签的关系。实现了在硬
件数据不完全可得,有些数据不能获得的情况下,纳入行为时序数据和含行为排序相关性
在内的14种相似度算法的方法,最终通过模型训练得到两个设备的相似性。通过对比逻辑
回归、随机森林模型、梯度下降树模型和Xgboost模型后选择效果最好的梯度下降树模型,
可在保证精确度的同时,有效控制计算成本,提高处理速度。本发明采用混合式设备指纹处
理技术,有效规避了主动式和被动式设备指纹技术的缺点,解决了庞杂的数据处理时长问
题,平衡了成本和有效性,取得了较好效果。
单、拦截风险,以有效降低资损。
当属于本发明的保护范围内。