基于层次化聚类的欺诈检测方法及系统转让专利

申请号 : CN201811522918.7

文献号 : CN109886284B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 蒋昌俊闫春钢丁志军刘关俊张亚英张友军

申请人 : 同济大学

摘要 :

一种基于层次化聚类的欺诈检测方法及系统,获取并分析交易特征信息得特征分析数据,根据特征分析数据选取聚类模型;获取样本数据集,根据聚类模型层次化聚类样本数据集以构造一树形结构,并划分样本数据集至树形结构的叶子节点中;分类叶子节点以获取节点类型数据;根据节点类型数据处理聚类树模型中的叶子节点,完成欺诈交易检测,解决了现有技术存在的性能考虑不全面、检测精确率低和类别不均衡的技术问题。

权利要求 :

1.一种基于层次化聚类的欺诈检测方法,其特征在于,包括:获取并分析交易特征信息得特征分析数据,根据所述特征分析数据选取聚类模型;

获取样本数据集,根据所述聚类模型层次化聚类所述样本数据集以构造一树形结构,并划分所述样本数据集至所述树形结构的叶子节点中;

分类所述叶子节点以获取节点类型数据;

根据所述节点类型数据处理聚类树模型中的所述叶子节点,完成欺诈交易检测;

其中,所述获取样本数据集,根据所述聚类模型层次化聚类所述样本数据集以构造一树形结构,并划分所述样本数据集至所述树形结构的叶子节点中,包括:创建所述树形结构;

获取所述样本数据集及叶子节点的节点条件数据并保存,所述节点条件数据包括数据集Dataset、叶节点的均衡比BRate、叶节点最少样本数Msize及通过所述数据集Dataset、所述叶节点的均衡比BRate、所述叶节点最少样本数Msize计算数据集Dataset的正负样本数,所述数据集Dataset的正负样本数分别保存在N1和N0中;

根据所述节点条件数据选取当前所述叶子节点的适用处理逻辑,所述适用处理逻辑包括,判断当前所述数据集Dataset是否符合所述叶节点的三个条件,所述三个条件如下:若所述数据集Dataset的N1或者N0的值为0,则满足单类别叶节点条件,需使用直接返回当前所述叶节点中数据子集的类别来处理当前所述叶节点,若所述数据集Dataset的N1与N0的比值小于所述叶节点的均衡比Brate,则满足类别均衡叶节点条件,需使用支持向量机分离器对当前所述叶节点中的所述数据子集进行分类,若所述数据集Dataset的N1与N0的总数小于所述叶节点最少样本数Msize,则满足含有异常样本叶节点条件,需使用K近邻模型对当前所述叶节点中的所述数据子集进行异常检测,若所述数据集Dataset均未满足,则当前所述节点为非叶子节点,需使用K-Means聚类模型或者高斯混合模型对当前所述节点中的数据集进行聚类,并对划分到每个簇中的数据子集递归调用当前过程,其结果将作为当前所述节点的子树;

根据所述适用处理逻辑层次化聚类,将当前节点划分入所述树形结构;

迭代至所述样本数据集完全划分为所述树形结构中的所述叶子节点。

2.根据权利要求1所述的方法,其特征在于,所述获取并分析交易特征信息得特征分析数据,根据所述特征分析数据选取聚类模型包括:获取实际数据集,提取所述实际数据集中的交易特征信息;

基于所述交易特征信息的可分离性分析得所述特征分析数据;

将所述特征分析数据处理为分布判断数据;

根据所述分布判断数据选取所述聚类模型。

3.根据权利要求1所述的方法,其特征在于,所述分类所述叶子节点以获取节点类型数据,包括:获取所述树形结构中的所有所述叶子节点;

提取所述叶子节点的类别信息、均衡比数据及样本数信息;

根据所述类别信息、所述均衡比数据及所述样本数信息对当前叶子节点进行分类;

获取当前所述叶子节点的所述节点类型数据,循环执行直至将所有所述叶子节点分类为单类别叶节点、类别均衡叶节点和含有异常样本叶节点。

4.根据权利要求1所述的方法,其特征在于,所述根据所述节点类型数据处理聚类树模型中的所述叶子节点,完成欺诈交易检测,包括:获取所述节点类型数据,根据所述节点类型数据选取节点的适用处理方式,所述适用处理方式包括结合聚类模型、异常检测方法以及决策树分类模型的思想,通过层次化聚类的方式构建一棵决策树模型;

根据所述适用处理方式遍历处理所述树形结构中的所述叶子节点。

5.根据权利要求4所述的方法,其特征在于,所述根据所述适用处理方式遍历处理所述树形结构中的所述叶子节点,包括以下步骤:S1’、根据所述节点类型数据判断当前所述叶子节点的类型;

S2’、若当前所述叶子节点为单类别节点,则直接返回所述叶子节点的类型;

S3’、若当前所述叶子节点为类别均衡节点,则使用预设分类方法训练所述叶子节点中的所述样本;

S4’、若当前所述叶子节点为含有异常样本叶节点,则使用预设异常检测逻辑检测所述叶子节点;

对所述树形结构中的所述叶子节点执行步骤S1’至S4’的操作。

6.一种基于层次化聚类的欺诈检测系统,其特征在于,包括:聚类模型选取模块、树结构模块、叶节点分类模块和欺诈检测模块;

所述聚类模型选取模块,用于获取并分析交易特征信息得特征分析数据,根据所述特征分析数据选取聚类模型;

所述树结构模块,用于获取样本数据集,根据所述聚类模型层次化聚类所述样本数据集以构造一树形结构,并划分所述样本数据集至所述树形结构的叶子节点中;

所述叶节点分类模块,用于分类所述叶子节点以获取节点类型数据;

所述欺诈检测模块,用于根据所述节点类型数据处理聚类树模型中的所述叶子节点,完成欺诈交易检测;

其中,所述树结构模块,包括:类聚树创建模块、节点条件获取模块、处理逻辑选取模块、划分入树模块和样本数据迭代模块,所述节点条件获取模块,用于以所述获取所述样本数据集及叶子节点的节点条件数据并保存,所述节点条件数据包括数据集Dataset、叶节点的均衡比BRate、叶节点最少样本数Msize及通过所述数据集Dataset、所述叶节点的均衡比BRate、所述叶节点最少样本数Msize计算数据集Dataset的正负样本数,所述数据集Dataset的正负样本数分别保存在N1和N0中;

所述处理逻辑选取模块,用于根据所述节点条件数据选取当前所述叶子节点的适用处理逻辑,所述适用处理逻辑包括,判断当前所述数据集Dataset是否符合所述叶节点的三个条件,所述三个条件如下:若所述数据集Dataset的N1或者N0的值为0,则满足单类别叶节点条件,需使用直接返回当前所述叶节点中数据子集的类别来处理当前所述叶节点,若所述数据集Dataset的N1与N0的比值小于所述叶节点的均衡比Brate,则满足类别均衡叶节点条件,需使用支持向量机分离器对当前所述叶节点中的所述数据子集进行分类,若所述数据集Dataset的N1与N0的总数小于所述叶节点最少样本数Msize,则满足含有异常样本叶节点条件,需使用K近邻模型对当前所述叶节点中的所述数据子集进行异常检测,若所述数据集Dataset均未满足,则当前所述节点为非叶子节点,需使用K-Means聚类模型或者高斯混合模型对当前所述节点中的数据集进行聚类,并对划分到每个簇中的数据子集递归调用当前过程,其结果将作为当前所述节点的子树;

所述划分入树模块,用于根据所述适用处理逻辑层次化聚类,将当前节点划分入所述树形结构;

所述样本数据迭代模块,用于迭代至所述样本数据集完全划分为所述树形结构中的所述叶子节点。

7.根据权利要求6所述的系统,其特征在于,所述聚类模型选取模块,包括:交易特征提取模块、特征分析模块、分析数据处理模块和模型选定模块;

所述交易特征提取模块,用于获取实际数据集,提取所述实际数据集中的交易特征信息;

所述特征分析模块,用于基于所述交易特征信息的可分离性分析得所述特征分析数据;

所述分析数据处理模块,用于处理所述特征分析数据为分布判断数据;

所述模型选定模块,用于根据所述分布判断数据选取所述聚类模型。

8.根据权利要求6所述的系统,其特征在于,所述叶节点分类模块,包括:叶节点获取模块、节点数据提取模块、当前节点分类模块和节点类别遍历模块;

所述叶节点获取模块,用于获取所述树形结构中的所有所述叶子节点;

所述节点数据提取模块,用于提取所述叶子节点的类别信息、均衡比数据及样本数信息;

所述当前节点分类模块,用于根据所述类别信息、所述均衡比数据及所述样本数信息对当前叶子节点进行分类;

所述节点类别遍历模块,用于获取当前所述叶子节点的所述节点类型数据,循环执行直至将所有所述叶子节点分类为单类别叶节点、类别均衡叶节点和含有异常样本叶节点。

9.根据权利要求6所述的系统,其特征在于,所述欺诈检测模块,包括:适用方式选取模块和遍历检测模块;

所述适用方式选取模块,用于获取所述节点类型数据,根据所述节点类型数据选取节点的适用处理方式,所述适用处理方式包括结合聚类模型、异常检测方法以及决策树分类模型的思想,通过层次化聚类的方式构建一棵决策树模型;

所述遍历检测模块,用于根据所述适用处理方式遍历处理所述树形结构中的所述叶子节点。

10.根据权利要求9所述的系统,其特征在于,所述遍历检测模块包括:节点类型判断模块、单类别返回模块、均衡节点训练模块、异常节点检测模块和树结构遍历检测模块;

所述节点类型判断模块,用于执行步骤S1’,根据所述节点类型数据判断当前所述叶子节点的类型;

所述单类别返回模块,用于执行步骤S2’,在当前所述叶子节点为单类别节点时,直接返回所述叶子节点的类型;

所述均衡节点训练模块,用于执行步骤S3’,在当前所述叶子节点为类别均衡节点时,使用预设分类方法训练所述叶子节点中的所述样本;

所述异常节点检测模块,用于执行步骤S4’,在当前所述叶子节点为含有异常样本叶节点时,使用预设异常检测逻辑检测所述叶子节点;

所述树结构遍历检测模块,用于对所述树形结构中的所述叶子节点执行步骤S1’至S4’操作。

说明书 :

基于层次化聚类的欺诈检测方法及系统

技术领域

[0001] 本发明涉及一种金融欺诈检测系统,特别是涉及基于层次化聚类的欺诈检测方法及系统。

背景技术

[0002] 随着电子商务的飞速发展,在线交易量的急剧增加,交易欺诈事件频发。由于互联网环境的开放性,欺诈者可以掌握诸如钓鱼网站、电话诈骗等多种欺诈手段;同时,由于付款方式的多样性、匿名性等特性,欺诈模式不断变化。面对这些问题,金融公司难以通过传统的基于规则的专家系统来检测欺诈性交易,这给公司和个人造成严重的经济损失。因此,研究如何建立一套有效的交易欺诈检测模型有着十分重要的现实意义。
[0003] 为解决日益严峻的交易欺诈问题,很多机器学习模型被应用于欺诈交易检测中,其中包括支持向量机(SVM,Support Vector  Machine)、K-最近邻(KNN,K-NearestNeighbor)、随机森林等分类模型。然而,由于交易数据集中的合法交易样本数要远多于欺诈交易样本数,即存在类别不均衡现象,这会很大程度上降低传统模型的分类性能,产生此问题主要有四个因素:不均衡比,样本规模,可分离性和类内子聚类。现有的改进方法主要是通过两个方面来减少类别不均衡现象对传统分类模型性能的负面影响,即数据层面和算法层面。数据层面,主要基于数据重采样的方法,以达到改变数据集中的正负样本比的目的,但这种方式会造成欠拟合或过拟合的风险;算法层面,主要通过修改已有分类模型结构,或者引入代价敏感函数等方式,以使得模型在训练过程中更加偏向于对少数类样本的学习,但这种方式却没有普适性,同时具有高复杂性。同时,从本质上看,它们只考虑了不均衡比这一个本质因素,而忽略了其他三个因素。
[0004] 综上,现有技术存在性能考虑不全面、检测精确率低和类别不均衡的技术问题。

发明内容

[0005] 鉴于以上现有技术的缺点,本发明的目的在于提供一种基于层次化聚类的欺诈检测方法及系统,解决了现有技术中存在的性能考虑不全面、检测精确率低和类别不均衡的技术问题。一种基于层次化聚类的欺诈检测方法,包括:获取并分析交易特征信息得特征分析数据,根据特征分析数据选取聚类模型;获取样本数据集,根据聚类模型层次化聚类样本数据集以构造一树形结构,并划分样本数据集至树形结构的叶子节点中;分类叶子节点以获取节点类型数据;根据节点类型数据处理聚类树模型中的叶子节点,完成欺诈交易检测。
[0006] 于本发明的一实施方式中,获取并分析交易特征信息得特征分析数据,根据特征分析数据选取聚类模型包括:获取实际数据集,提取实际数据集中的交易特征信息;基于交易特征信息的可分离性分析得特征分析数据;将特征分析数据处理为分布判断数据;根据分布判断数据选取聚类模型。
[0007] 于本发明的一实施方式中,获取样本数据集,根据聚类模型层次化聚类样本数据集以构造一树形结构,并划分样本数据集至树形结构的叶子节点中,包括:创建树形结构;获取样本数据集及叶子节点的节点条件数据并保存;根据节点条件数据选取当前叶子节点的适用处理逻辑;根据适用处理逻辑层次化类聚,将当前节点划分入树形结构;迭代前述步骤至样本数据集完全划分为树形结构中的叶子节点。
[0008] 于本发明的一实施方式中,分类叶子节点以获取节点类型数据,包括:获取树形结构中的所有叶子节点;提取叶子节点的类别信息、均衡比数据及样本数信息;根据类别信息、均衡比数据及样本数信息对当前叶子节点进行分类;获取当前叶子节点的节点类型数据,循环执行前述步骤直至将所有叶子节点分类为单类别叶节点、类别均衡叶节点和含有异常样本叶节点。
[0009] 于本发明的一实施方式中,根据节点类型数据处理聚类树模型中的叶子节点,完成欺诈交易检测,包括:获取节点类型数据,根据节点类型数据选取节点的适用处理方式;根据适用处理方式遍历处理树形结构中的叶子节点。
[0010] 于本发明的一实施方式中,根据适用处理方式遍历处理树形结构中的叶子节点,包括:根据节点类型数据判断当前叶子节点的类型;若当前叶子节点为单类别节点,则直接返回叶子节点的类型;若当前叶子节点为类别均衡节点,则使用预设分类方法训练叶子节点中的样本;若当前叶子节点为含有异常样本叶节点,则使用预设异常检测逻辑检测叶子节点;对树形结构中的叶子节点执行前述操作。
[0011] 于本发明的一实施方式中,一种基于层次化聚类的欺诈检测系统,其特征在于,包括:聚类模型选取模块、树结构模块、叶节点分类模块和欺诈检测模块;聚类模型选取模块,用于获取并分析交易特征信息得特征分析数据,根据特征分析数据选取聚类模型;树结构模块,用于获取样本数据集,根据聚类模型层次化聚类样本数据集以构造一树形结构,并划分样本数据集至树形结构的叶子节点中,树结构模块与聚类模型选取模块连接;叶节点分类模块,用于分类叶子节点以获取节点类型数据,叶节点分类模块与树结构模块连接;欺诈检测模块,用于根据节点类型数据处理聚类树模型中的叶子节点,完成欺诈交易检测,欺诈检测模块与叶节点分类模块连接。
[0012] 于本发明的一实施方式中,聚类模型选取模块,包括:交易特征提取模块、特征分析模块、分析数据处理模块和模型选定模块;交易特征提取模块,用于获取实际数据集,提取实际数据集中的交易特征信息;特征分析模块,用于基于交易特征信息的可分离性分析得特征分析数据,交易特征提取模块与特征分析模块连接;分析数据处理模块,用于处理特征分析数据为分布判断数据,分析数据处理模块与特征分析模块连接;模型选定模块,用于根据分布判断数据选取聚类模型,模型选定模块与分析数据处理模块连接。
[0013] 于本发明的一实施方式中,树结构模块,包括:类聚树创建模块、节点条件获取模块、处理逻辑选取模块、划分入树模块和样本数据迭代模块;类聚树创建模块,用于创建树形结构;节点条件获取模块,用于以获取样本数据集及叶子节点的节点条件数据并保存,节点条件获取模块与类聚树创建模块连接;处理逻辑选取模块,用于根据节点条件数据选取当前叶子节点的适用处理逻辑,处理逻辑选取模块与节点条件获取模块连接;划分入树模块,用于根据适用处理逻辑层次化类聚,将当前节点划分入树形结构,划分入树模块与处理逻辑选取模块连接;样本数据迭代模块,用于迭代前述步骤至样本数据集完全划分为树形结构中的叶子节点,样本数据迭代模块与划分入树模块连接。
[0014] 于本发明的一实施方式中,叶节点分类模块,包括:叶节点获取模块、节点数据提取模块、当前节点分类模块和节点类别遍历模块;叶节点获取模块,用于获取树形结构中的所有叶子节点;节点数据提取模块,用于提取叶子节点的类别信息、均衡比数据及样本数信息,叶节点提取模块与叶节点获取模块连接;当前节点分类模块,用于根据类别信息、均衡比数据及样本数信息对当前叶子节点进行分类,当前节点分类模块与节点数据提取模块连接;节点类别遍历模块,用于获取当前叶子节点的节点类型数据,循环执行前述步骤直至将所有叶子节点分类为单类别叶节点、类别均衡叶节点和含有异常样本叶节点,节点类别遍历模块与当前节点分类模块连接。
[0015] 于本发明的一实施方式中,欺诈检测模块,包括:适用方式选取模块和遍历检测模块;适用方式选取模块,用于获取节点类型数据,根据节点类型数据选取节点的适用处理方式;遍历检测模块,用于根据适用处理方式遍历处理树形结构中的叶子节点,遍历检测模块与使用方式选取模块连接。
[0016] 于本发明的一实施方式中,遍历检测模块包括:节点类型判断模块、单类别返回模块、均衡节点训练模块、异常节点检测模块和树结构遍历检测模块;节点类型判断模块,用于根据节点类型数据判断当前叶子节点的类型;单类别返回模块,用于在当前叶子节点为单类别节点时,直接返回叶子节点的类型,单类别返回模块与节点类型判断模块连接;均衡节点训练模块,用于在当前叶子节点为类别均衡节点时,使用预设分类方法训练叶子节点中的样本,均衡节点训练模块与节点类型判断模块连接;异常节点检测模块,用于在当前叶子节点为含有异常样本叶节点时,使用预设异常检测逻辑检测叶子节点,异常节点检测模块与节点类型判断模块连接;树结构遍历检测模块,用于对树形结构中的叶子节点执行前述操作,树结构遍历检测模块与节点类型判断模块连接。
[0017] 如上所述,本发明提供的基于层次化聚类的欺诈检测方法及系统,具有以下有益效果:综合考虑了影响分类性能的四个本质因素:不均衡比,样本规模,可分离性和类内子聚类,弥补了现有技术只考虑不均衡比单个因素的缺陷。使用无监督的聚类模型进行层次化聚类,将类别不均衡的大数据集划分成多个具有三种特征的数据子集,分而治之,化繁为简,从一个新的角度解决了类别不均衡问题。
[0018] 综上,本发明解决了现有技术中存在的性能考虑不全面、检测精确率低和类别不均衡的技术问题。

附图说明

[0019] 图1显示本发明的基于层次化聚类的欺诈检测方法步骤示意图。
[0020] 图2显示为图1中步骤S1在一实施例中的具体流程图。
[0021] 图3显示为图1中步骤S2在一实施例中的具体流程图。
[0022] 图4显示为本发明的类聚树结构示意图。
[0023] 图5显示为图1中步骤S3在一实施例中的具体流程图。
[0024] 图6显示为图1中步骤S4在一实施例中的具体流程图。
[0025] 图7显示为图1中步骤S42在一实施例中的具体流程图。
[0026] 图8显示为本发明的一种基于层次化聚类的欺诈检测系统模块示意图。
[0027] 图9显示为图8中聚类模型选取模块11在一实施例中的具体模块示意图。
[0028] 图10显示为图8中树结构模块12在一实施例中的具体模块示意图。
[0029] 图11显示为图8中叶节点分类模块13在一实施例中的具体模块示意图。
[0030] 图12显示为图8中欺诈检测模块14在一实施例中的具体模块示意图。
[0031] 图13显示为图8中遍历检测模块142在一实施例中的具体模块示意图。
[0032] 元件标号说明
[0033] 1   基于层次化聚类的欺诈检测系统
[0034] 11  聚类模型选取模块
[0035] 12   树结构模块
[0036] 13   叶节点分类模块
[0037] 14   欺诈检测模块
[0038] 111  交易特征提取模块
[0039] 112  特征分析模块
[0040] 113  分析数据处理模块
[0041] 114  模型选定模块
[0042] 121  类聚树创建模块
[0043] 122  节点条件获取模块
[0044] 123  处理逻辑选取模块
[0045] 124  划分入树模块
[0046] 125  样本数据迭代模块
[0047] 131  叶节点获取模块
[0048] 132  节点数据提取模块
[0049] 133  当前节点分类模块
[0050] 134  节点类别遍历模块
[0051] 141  适用方式选取模块
[0052] 142  遍历检测模块
[0053] 1421 节点类型判断模块
[0054] 1422 单类别返回模块
[0055] 1423 均衡节点训练模块
[0056] 1424 异常节点检测模块
[0057] 1425 树结构遍历检测模块
[0058] 步骤标号说明
[0059] 图1 S1~S4
[0060] 图2 S11~S14
[0061] 图3 S21~S25
[0062] 图5 S31~S34
[0063] 图6 S41~S42
[0064] 图7 S421~S425

具体实施方式

[0065] 以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
[0066] 请参阅图1至图12,须知,本说明书所附图式所绘示的结构,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本实用新型所能产生的功效及所能达成的目的下,均应仍落在本实用新型所揭示的技术内容所能涵盖的范围内。同时,本说明书中所引用的如”上”、”下”、”左”、”右”、”中间”及”一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
[0067] 请参阅图1,显示本发明的基于层次化聚类的欺诈检测方法步骤示意图,如图1所示,一种基于层次化聚类的欺诈检测方法,包括:
[0068] S1、获取并分析交易特征信息得特征分析数据,根据特征分析数据选取聚类模型,针对欺诈交易检测中存在的类别不均衡问题,提出一种基于层次化聚类的欺诈检测模型;
[0069] S2、获取样本数据集,根据聚类模型层次化聚类样本数据集以构造一树形结构,并划分样本数据集至树形结构的叶子节点中,可选的,该树形结构为聚类树,欺诈检测模型将通过层次化聚类的方式形成一棵聚类树,在此过程中,原始数据集经过多次迭代会被划分到聚类树的各个叶子节点中;
[0070] S3、分类叶子节点以获取节点类型数据,可选的,每个叶子节点即为一个数据子集;
[0071] S4、根据节点类型数据处理聚类树模型中的叶子节点,完成欺诈交易检测,最终,只需针对各个叶节点中的数据子集进行相应的处理,检测出每个数据子集中的异常交易样本即可。
[0072] 请参阅图2,显示为图1中步骤S1在一实施例中的具体流程图,如图2所示,步骤S1、获取并分析交易特征信息得特征分析数据,根据特征分析数据选取聚类模型包括:
[0073] S11、获取实际数据集,提取实际数据集中的交易特征信息,针对影响分类性能的四个本质因素,就样本规模而言,类别不均衡数据集可用作本模型的输入,无需任何重采样预处理,这使得样本规模等于整个数据集的大小,对于不均衡比而言,本模型在层次聚类过程中自动过滤多数类样本,最终,构造出一些类别均衡的叶节点,换而言之,本模型可以自动调整数据集中类别不均衡比;
[0074] S12、基于交易特征信息的可分离性分析得特征分析数据,对于可分离性而言,为了在层次聚类过程中过滤更多的多数样本,可以根据数据集的特征选择合适的聚类模型;
[0075] S13、将特征分析数据处理为分布判断数据,基于可分离性选择合适的聚类模型,如果数据集满足高斯分布的特征,模型将使用高斯混合模型(GMM),如果异常样本在欧式空间中间具有聚集性,则将使用K-Means,可选的,本模型将基于某金融公司的真实交易数据构建其对应的聚类树模型。首先,需要基于可分离性对真实数据集的特征进行分析,来选取最合适的聚类模型。我们可以在欧式空间中找到数据集的分布特征,对于可视化,需要通过PCA方法对数据集进行降维处理,以便在二维空间中获得更直观的散点图;
[0076] S14、根据分布判断数据选取聚类模型,对于类内子聚类,由于本模型是基于无监督的聚类算法构建的,因此可以大大降低类内子聚类对分类性能的影响。可选的,通过图形可以发现,数据集在欧式空间中具有聚合分布现象。对于这种情况,则可以选择K-Means作为聚类模型。
[0077] 请参阅图3和图4,显示为图1中步骤S2在一实施例中的具体流程图和本发明的类聚树结构示意图,如图3和图4所示,步骤S2、获取样本数据集,根据聚类模型层次化聚类样本数据集以构造一树形结构,并划分样本数据集至树形结构的叶子节点中,包括:
[0078] S21、创建树形结构,整个模型中最重要的部分则是通过层次化聚类构建聚类树的算法,构建算法过程说明:此算法是一个递归调用算法;
[0079] S22、获取样本数据集及叶子节点的节点条件数据并保存,算法开始需要输入数据集Dataset、叶节点的均衡比BRate、叶节点最少样本数MSize,然后分别计算Dataset中的正负样本数,分别保存在N1和N0中;
[0080] S23、根据节点条件数据选取当前叶子节点的适用处理逻辑,可选的,之后需要依次判断当前Dataset是否符合叶节点的三个条件,如果N1或者N0的值为0,则满足单类别叶节点条件,需要使用“SingleLable”(直接返回此叶节点中数据子集的类别)来处理当前叶节点;如果N1与N0的比值小于BRate,则满足类别均衡叶节点条件,需要使用“SVM”(支持向量机分离器)对当前叶节点中的数据子集进行分类;如果N1与N0的总数小于MSize,则满足含有异常样本叶节点条件,需要使用“KNN”(K近邻模型)对当前叶节点中的数据子集进行异常检测。当三种叶节点的条件均为满足时,当前节点则作为非叶子节点,需要使用“KMeans”(K-Means聚类模型)或者GMM(高斯混合模型)对当前节点中的数据集进行聚类,并对划分到每个簇中的数据子集递归调用当前过程,其结果将作为当前节点的子树;
[0081] S24、根据适用处理逻辑层次化类聚,将当前节点划分入树形结构,使用选中的聚类模型通过不停迭代构造一棵树形结构,可选的,在每个叶节点中,“cluster number”表示当前节点在上一层聚类操作后所属的簇的ID号,“normal”表示正常样本的数量,“abnormal”表示异常样本的数量,“model”表示处理当前节点中数据子集所使用的模型;
[0082] S25、迭代前述步骤至样本数据集完全划分为树形结构中的叶子节点,数据集将会在这个过程中不断被划分到叶子节点中。
[0083] 请参阅图5,显示为图1中步骤S3在一实施例中的具体流程图,如图5所示,步骤S3、分类叶子节点以获取节点类型数据,包括:
[0084] S31、获取树形结构中的所有叶子节点;
[0085] S32、提取叶子节点的类别信息、均衡比数据及样本数信息,综合考虑影响分类性能的四个本质因素:不均衡比,样本规模,可分离性和类内子聚类;
[0086] S33、根据类别信息、均衡比数据及样本数信息对当前叶子节点进行分类,可选的,最终会形成三种叶子节点:单类别叶节点、类别均衡叶节点和含有异常样本叶节点;
[0087] S34、获取当前叶子节点的节点类型数据,循环执行前述步骤直至将所有叶子节点分类为单类别叶节点、类别均衡叶节点和含有异常样本叶节点。
[0088] 请参阅图6,显示为图1中步骤S4在一实施例中的具体流程图,如图6所示,步骤S4、根据节点类型数据处理聚类树模型中的叶子节点,完成欺诈交易检测,包括:
[0089] S41、获取节点类型数据,根据节点类型数据选取节点的适用处理方式,结合聚类模型、异常检测方法以及决策树分类模型的思想,通过层次化聚类的方式构建一棵决策树模型,即聚类树;
[0090] S42、根据适用处理方式遍历处理树形结构中的叶子节点,针对这三种叶子节点,分别采用三种处理方式,对此过程中产生的不同叶节点进行不同的处理,以检测出更多的欺诈交易样本。
[0091] 请参阅图7,显示为图1中步骤S42在一实施例中的具体流程图,如图7所示,步骤S42、根据适用处理方式遍历处理树形结构中的叶子节点,包括:
[0092] S421、根据节点类型数据判断当前叶子节点的类型;
[0093] S422、若当前叶子节点为单类别节点,则直接返回叶子节点的类型,单类别叶节点,此叶节点中的数据子集都属于同一个类,可选的,对于单类别叶节点,直接返回叶节点中样本所属的类型即可,对于聚类树模型的评价,将首先根据欺诈检测的结果,计算得到其混淆矩阵,如表1所示。
[0094] 表1:二分类任务的混淆矩阵
[0095]
[0096] 然后依据表1,计算得到召回率(Recall)、精确率(Precision)以及两者的加权平均值(F1),其计算公式如下所示。
[0097]
[0098]
[0099]
[0100] 最终,我们将使用五种常用的欺诈检测模型在相同数据上进行检测,并在这三个指标上进行对比。实验结果如表2所示。
[0101] 表2:实验结果
[0102] Model F1 Precision RecallClustering.Tree 0.807 0.712 0.932
AdaBoosting 0.752 0.608 0.985
Random Forest 0.747 0.607 0.971
Decision Tree 0.661 0.502 0.965
SVM 0.657 0.494 0.981
Logistic Regression 0.651 0.487 0.979
[0103] 通过表2可以发现,相比于其他模型,本文提出的模型在精确率指标上相比于第二名的AdaBoosting提高了10%,而召回率仅降低了5%,并在F1指标上有明显提升;
[0104] S423、若当前叶子节点为类别均衡节点,则使用预设分类方法训练叶子节点中的样本,类别均衡叶节点,此叶节点中的样本子集已达到类别均衡比,即多数类样本数与少数类样本数的比值达到预先设置的均衡比,可选的,对于类别均衡叶节点,使用决策树、SVM、随机森林等传统的分类方法对此叶节点中的数据集进行模型训练;
[0105] S424、若当前叶子节点为含有异常样本叶节点,则使用预设异常检测逻辑检测叶子节点,含有异常样本叶节点,此叶节点不满足前两种叶节点的条件,但样本总数少于预先设置的单个节点允许的最少样本数,这样做可以防止模型过拟合的现象发生,可选的,对于含有异常样本叶节点,使用异常检测方法进行处理,例如基于距离的异常检测方法等;
[0106] S425、对树形结构中的叶子节点执行前述操作。
[0107] 请参阅图8,显示为本发明的一种基于层次化聚类的欺诈检测系统模块示意图,如图8所示,一种基于层次化聚类的欺诈检测系统1,其特征在于,包括:聚类模型选取模块11、树结构模块12、叶节点分类模块13和欺诈检测模块14;聚类模型选取模块11,用于获取并分析交易特征信息得特征分析数据,根据特征分析数据选取聚类模型,根据特征分析数据选取聚类模型,针对欺诈交易检测中存在的类别不均衡问题,提出一种基于层次化聚类的欺诈检测模型;树结构模块12,用于获取样本数据集,根据聚类模型层次化聚类样本数据集以构造一树形结构,并划分样本数据集至树形结构的叶子节点中,可选的,该树形结构为聚类树,欺诈检测模型将通过层次化聚类的方式形成一棵聚类树,在此过程中,原始数据集经过多次迭代会被划分到聚类树的各个叶子节点中,树结构模块12与聚类模型选取模块11连接;叶节点分类模块13,用于分类叶子节点以获取节点类型数据,可选的,每个叶子节点即为一个数据子集,叶节点分类模块13与树结构模块12连接;欺诈检测模块14,用于根据节点类型数据处理聚类树模型中的叶子节点,完成欺诈交易检测,最终,只需针对各个叶节点中的数据子集进行相应的处理,检测出每个数据子集中的异常交易样本即可,欺诈检测模块14与叶节点分类模块13连接。
[0108] 请参阅图9,显示为图8中聚类模型选取模块11在一实施例中的具体模块示意图,如图9所示,聚类模型选取模块11,包括:交易特征提取模块111、特征分析模块112、分析数据处理模块113和模型选定模块114;交易特征提取模块111,用于获取实际数据集,提取实际数据集中的交易特征信息,针对影响分类性能的四个本质因素,就样本规模而言,类别不均衡数据集可用作本模型的输入,无需任何重采样预处理,这使得样本规模等于整个数据集的大小,对于不均衡比而言,本模型在层次聚类过程中自动过滤多数类样本,最终,构造出一些类别均衡的叶节点,换而言之,本模型可以自动调整数据集中类别不均衡比;特征分析模块112,用于基于交易特征信息的可分离性分析得特征分析数据,对于可分离性而言,为了在层次聚类过程中过滤更多的多数样本,可以根据数据集的特征选择合适的聚类模型,交易特征提取模块112与特征分析模块111连接;分析数据处理模块113,用于处理特征分析数据为分布判断数据,基于可分离性选择合适的聚类模型,如果数据集满足高斯分布的特征,模型将使用高斯混合模型(GMM),如果异常样本在欧式空间中间具有聚集性,则将使用K-Means,可选的,本模型将基于某金融公司的真实交易数据构建其对应的聚类树模型。首先,需要基于可分离性对真实数据集的特征进行分析,来选取最合适的聚类模型。我们可以在欧式空间中找到数据集的分布特征,对于可视化,需要通过PCA方法对数据集进行降维处理,以便在二维空间中获得更直观的散点图,分析数据处理模块113与特征分析模块112连接;模型选定模块114,用于根据分布判断数据选取聚类模型,对于类内子聚类,由于本模型是基于无监督的聚类算法构建的,因此可以大大降低类内子聚类对分类性能的影响。可选的,通过图形可以发现,数据集在欧式空间中具有聚合分布现象。对于这种情况,则可以选择K-Means作为聚类模型,模型选定模块114与分析数据处理模块113连接。
[0109] 请参阅图10,显示为图8中树结构模块12在一实施例中的具体模块示意图,如图10所示,树结构模块12,包括:类聚树创建模块121、节点条件获取模块122、处理逻辑选取模块123、划分入树模块124和样本数据迭代模块125;类聚树创建模块121,用于创建树形结构,整个模型中最重要的部分则是通过层次化聚类构建聚类树的算法,构建算法过程说明:此算法是一个递归调用算法;节点条件获取模块122,用于以获取样本数据集及叶子节点的节点条件数据并保存,算法开始需要输入数据集Dataset、叶节点的均衡比BRate、叶节点最少样本数MSize,然后分别计算Dataset中的正负样本数,分别保存在N1和N0中,节点条件获取模块122与类聚树创建模块121连接;处理逻辑选取模块123,用于根据节点条件数据选取当前叶子节点的适用处理逻辑,可选的,之后需要依次判断当前Dataset是否符合叶节点的三个条件,如果N1或者N0的值为0,则满足单类别叶节点条件,需要使用“SingleLable”(直接返回此叶节点中数据子集的类别)来处理当前叶节点;如果N1与N0的比值小于BRate,则满足类别均衡叶节点条件,需要使用“SVM”(支持向量机分离器)对当前叶节点中的数据子集进行分类;如果N1与N0的总数小于MSize,则满足含有异常样本叶节点条件,需要使用“KNN”(K近邻模型)对当前叶节点中的数据子集进行异常检测。当三种叶节点的条件均为满足时,当前节点则作为非叶子节点,需要使用“KMeans”(K-Means聚类模型)或者GMM(高斯混合模型)对当前节点中的数据集进行聚类,并对划分到每个簇中的数据子集递归调用当前过程,其结果将作为当前节点的子树,处理逻辑选取模块123与节点条件获取模块122连接;划分入树模块124,用于根据适用处理逻辑层次化类聚,将当前节点划分入树形结构,使用选中的聚类模型通过不停迭代构造一棵树形结构,可选的,在每个叶节点中,“cluster number”表示当前节点在上一层聚类操作后所属的簇的ID号,“normal”表示正常样本的数量,“abnormal”表示异常样本的数量,“model”表示处理当前节点中数据子集所使用的模型,划分入树模块124与处理逻辑选取模块123连接;样本数据迭代模块125,用于迭代前述步骤至样本数据集完全划分为树形结构中的叶子节点,样本数据迭代模块125与划分入树模块124连接。
[0110] 请参阅图11,显示为图8中叶节点分类模块13在一实施例中的具体模块示意图,如图11所示,叶节点分类模块13,包括:叶节点获取模块131、节点数据提取模块132、当前节点分类模块133和节点类别遍历模块134;叶节点获取模块131,用于获取树形结构中的所有叶子节点;节点数据提取模块132,用于提取叶子节点的类别信息、均衡比数据及样本数信息,综合考虑影响分类性能的四个本质因素:不均衡比,样本规模,可分离性和类内子聚类,叶节点提取模块132与叶节点获取模块131连接;当前节点分类模块133,用于根据类别信息、均衡比数据及样本数信息对当前叶子节点进行分类,可选的,最终会形成三种叶子节点:单类别叶节点、类别均衡叶节点和含有异常样本叶节点,当前节点分类模块133与节点数据提取模块132连接;节点类别遍历模块134,用于获取当前叶子节点的节点类型数据,循环执行前述步骤直至将所有叶子节点分类为单类别叶节点、类别均衡叶节点和含有异常样本叶节点,节点类别遍历模块134与当前节点分类模块133连接。
[0111] 请参阅图12,显示为图8中欺诈检测模块14在一实施例中的具体模块示意图,如图12所示,欺诈检测模块14,包括:适用方式选取模块141和遍历检测模块142;适用方式选取模块141,用于获取节点类型数据,根据节点类型数据选取节点的适用处理方式,结合聚类模型、异常检测方法以及决策树分类模型的思想,通过层次化聚类的方式构建一棵决策树模型,即聚类树;遍历检测模块142,用于根据适用处理方式遍历处理树形结构中的叶子节点,针对这三种叶子节点,分别采用三种处理方式,对此过程中产生的不同叶节点进行不同的处理,以检测出更多的欺诈交易样本,遍历检测模块142与使用方式选取模块141连接。
[0112] 请参阅图13,显示为图8中遍历检测模块142在一实施例中的具体模块示意图,如图13所示,遍历检测模块142包括:节点类型判断模块1421、单类别返回模块1422、均衡节点训练模块1423、异常节点检测模块1424和树结构遍历检测模块1425;节点类型判断模块1421,用于根据节点类型数据判断当前叶子节点的类型;单类别返回模块1422,用于在当前叶子节点为单类别节点时,直接返回叶子节点的类型,单类别叶节点,此叶节点中的数据子集都属于同一个类,可选的,对于单类别叶节点,直接返回叶节点中样本所属的类型即可,对于聚类树模型的评价,将首先根据欺诈检测的结果,计算得到其混淆矩阵,计算得到召回率(Recall)、精确率(Precision)以及两者的加权平均值(F1),最终,我们将使用五种常用的欺诈检测模型在相同数据上进行检测,并在这三个指标上进行对比,相比于其他模型,本文提出的模型在精确率指标上相比于第二名的AdaBoosting提高了10%,而召回率仅降低了5%,并在F1指标上有明显提升单类别返回模块1422与节点类型判断模块1421连接;均衡节点训练模块1423,用于在当前叶子节点为类别均衡节点时,使用预设分类方法训练叶子节点中的样本,类别均衡叶节点,此叶节点中的样本子集已达到类别均衡比,即多数类样本数与少数类样本数的比值达到预先设置的均衡比,可选的,对于类别均衡叶节点,使用决策树、SVM、随机森林等传统的分类方法对此叶节点中的数据集进行模型训练,均衡节点训练模块1423与节点类型判断模块1421连接;异常节点检测模块1424,用于在当前叶子节点为含有异常样本叶节点时,使用预设异常检测逻辑检测叶子节点,此叶节点不满足前两种叶节点的条件,但样本总数少于预先设置的单个节点允许的最少样本数,这样做可以防止模型过拟合的现象发生,可选的,对于含有异常样本叶节点,使用异常检测方法进行处理,例如基于距离的异常检测方法等,异常节点检测模块1424与节点类型判断模块1421连接;树结构遍历检测模块1425,用于对树形结构中的叶子节点执行前述操作,树结构遍历检测模块1425与节点类型判断模块1421连接。
[0113] 综上所述,本发明提供的基于层次化聚类的欺诈检测方法及系统。本发明具有以下有益效果:本发明提出的基于层次化聚类的欺诈检测检测模型综合考虑了影响分类性能的四个因素,并在一定程度上避免了以上两大类方法的局限性。本发明针对欺诈交易检测中存在的类别不均衡问题,提出一种基于层次化聚类的欺诈检测模型。此模型将通过层次化聚类的方式形成一棵聚类树,在此过程中,原始数据集经过多次迭代会被划分到聚类树的各个叶子节点中,每个叶子节点即为一个数据子集。最终,只需针对各个叶节点中的数据子集进行相应的处理,检测出每个数据子集中的异常交易样本即可综上,本发明解决了现有技术中存在的使用无监督的聚类模型进行层次化聚类,将类别不均衡的大数据集划分成多个具有三种特征的数据子集,分而治之,化繁为简,从一个新的角度解决了类别不均衡问题的技术问题,综合考虑了影响分类性能的四个本质因素:不均衡比,样本规模,可分离性和类内子聚类,弥补了现有技术只考虑不均衡比单个因素的缺陷。使用无监督的聚类模型进行层次化聚类,将类别不均衡的大数据集划分成多个具有三种特征的数据子集,分而治之,化繁为简,从一个新的角度解决了类别不均衡问题,具有较好的认证安全性和准确性,具有很高的商业价值和实用性。