基于用户隐私保护的电信欺诈检测系统及方法转让专利

申请号 : CN201710081905.X

文献号 : CN106851633B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 阮娜贾维嘉赵铭

申请人 : 上海交通大学

摘要 :

本发明提供一种基于用户隐私保护的电信欺诈检测系统及方法,能够提供一种多个运营商系统合作来检测诈骗的新方式,由此借助参考运营商系统中的已知诈骗者数据,能够找出隐藏在其他运营商系统中的可能诈骗者;而且通过LDA模型以及MMD计算方式,既可以找出传统的电信诈骗者,也可以找出变化多端的电信诈骗者,检测准确率大大提高;此外,还应用了差分隐私的方式来保证在检测诈骗者的同时限制多个运营商系统之间的数据传阅,从而不会泄露某些特殊用户账号的隐私记录和数据。

权利要求 :

1.一种基于用户隐私保护的电信欺诈检测系统,其特征在于,包括:

数据提取模块,用于从参考运营商系统的数据库中提取已知诈骗者账户对应的CDR数据及相关数据,以及从待检测运营商系统的用户数据库中提取待检测用户账户对应的CDR数据及相关数据;

CDR分析模块,用于根据所述数据提取模块提取的所述已知诈骗者账户对应的CDR数据及相关数据,来形成所述已知诈骗者账户及其诈骗行为和习惯的特征描述文件,以及用于根据所述数据提取模块提取的所述待检测用户账户对应的CDR数据及相关数据,来形成所述待检测用户账户及其行为和习惯的特征描述文件,所述CDR分析模块包括LDA单元,用于基于接收的每个账户的CDR数据和相关数据来使用LDA模型描述所述账户的行为和习惯,以生成所述账户的特征描述文件,具体过程包括:首先,输入LDA模型需要的泊松分布的参数ξ、参数α和β,α为在潜在类上的优先狄利克雷分布的参数,β为K*V的矩阵,每一行表示多项分布的参数,K为潜在类的数量,V为特征的数目;然后,随机选取迭代次数N,N服从以ξ为参数的泊松分布;接着,随机选取狄利克雷随机参数θ用于生成账号,参数θ服从关于参数α的狄利克雷分布;然后,按照LDA模型对参数θ进行N次迭代,且对于每次迭代i,i=1~N,均进行以下操作:首先,选取第i个类zi,zi服从关于参数θ的多项分布;接着,从概率p(a|zi,β)中选择特征ai;最后,输出迭代N次后,所有的特征ai组成的特征向量a,以生成所述账户的特征描述文件P,所述LDA模型对每个账户的描述公式为:其中,aLDA表示一个账户,cn表示这个账户的拨号,γin表示自由变化的参数,γkn表示i=k时自由变化的参数,θ为k维的狄利克雷随机参数,K为潜在类的数量,p为概率分布函数;

匹配检测模块,用于计算所述CDR分析模块中所述待检测用户账户的特征描述文件和所述已知诈骗者账户的特征描述文件之间的MMD,以确定所述待检测用户账户是否是所述待检测运营商系统中的可能诈骗者;

结果输出模块,用于输出所述匹配检测模块确定的所述待检测运营商系统中的可能诈骗者信息;

用户隐私保护模块,用于在所述匹配检测模块向所述CDR分析模块请求己知诈骗者账户的特征描述文件时,加入噪声,实现差分隐私,以限制所述CDR分析模块的数据输出;

其中,所述CDR数据为所述已知诈骗者账户的个人拨号数据记录;所述LDA模型是一个对于具体数据集生成概率的模型,所述LDA模型能寻找一个短描述来处理大集合,同时保留重要的数据关系;所述MMD为最大平均差异。

2.如权利要求1所述的电信欺诈检测系统,其特征在于,所述数据提取模块包括参考数据提取模块和检测数据提取模块,其中,参考数据提取模块用于从参考运营商系统的数据库中提取已知诈骗者列表以及列表中所有的已知诈骗者账户的CDR数据及相关数据,并发送至CDR分析模块;检测数据提取模块用于从待检测运营商系统的用户数据库中提取一个或多个或所有用户账户的CDR数据及相关数据并发送至CDR分析模块。

3.如权利要求1所述的电信欺诈检测系统,其特征在于,所述匹配检测模块包括MMD单元和匹配单元,其中,所述MMD单元用于向所述CDR分析模块请求当前检测的所述待检测运营商系统中的用户账户的特征描述文件以及相应的所述参考运营商系统中的已知诈骗者账户的特征描述文件,并计算所述当前检测的用户账户的特征描述文件与获取到的所有的所述参考运营商系统中的已知诈骗者的特征描述文件之间的MMD;所述匹配单元用于根据所述MMD单元计算出的所述当前检测的用户账户对应的所有MMD,来判断所述当前检测的用户账户是否是隐藏在所述待检测运营商系统中的可能诈骗者。

4.如权利要求3所述的电信欺诈检测系统,其特征在于,所述MMD单元计算两个账户的特征描述文件之间的MMD公式为:其中,F为函数类,是再生核希尔伯特空间中的一个单位球,f为函数类F中的目击函数,Px和Py分别为两个账户的特征描述文件,Px:=[x1,x2,...xm],Py:=[y1,y2,...yn],m为在特征描述文件Px中的样本数量,n为在特征描述文件Py中的样本数量,xi为在特征描述文件Px中的第i个样本,yi为在特征描述文件Py中的第i个样本,当且仅当Px=Py时,MMD[F,Px,Py]=

0,目击函数f及其经验估计定义如下:

式中,k为高斯核心函数,xc为核心函数的中心,σ为核心函数的宽度,用于控制它的影响域。

5.如权利要求4所述的电信欺诈检测系统,其特征在于,所述用户隐私保护模块向所述MMD单元加入拉普拉斯算子噪声来实现差分隐私,噪声加入公式如下:式中,Γ表示Gamma函数,σ表示近似核心宽度,n为随机变量数目,Gi和Hi是独立的Gamma分布随机变量,L是拉普拉斯分布随机变量。

6.如权利要求1所述的电信欺诈检测系统,其特征在于,所述结果输出模块以列表的形式输出所述匹配检测模块确定出的所述待检测运营商系统中所有的可能诈骗者账户。

7.一种基于用户隐私保护的电信欺诈检测方法,其特征在于,包括以下步骤:

从参考运营商系统的数据库中提取已知诈骗者账户对应的CDR数据及相关数据,以及从待检测运营商系统的用户数据库中提取待检测用户账户对应的CDR数据及相关数据;

根据提取的所述已知诈骗者账户对应的CDR数据及相关数据,来形成所述已知诈骗者账户及其诈骗行为和习惯的特征描述文件,以及根据提取的所述待检测用户账户对应的CDR数据及相关数据,来形成所述待检测用户账户及其行为和习惯的特征描述文件,其中,根据提取的每个账户的CDR数据和相关数据,使用LDA模型描述所述账户的行为和习惯,以生成所述账户的特征描述文件,具体过程包括:首先,输入LDA模型需要的泊松分布的参数ξ、参数α和β,α为在潜在类上的优先狄利克雷分布的参数,β为K*V的矩阵,每一行表示多项分布的参数,K为潜在类的数量,V为特征的数目;

然后,随机选取迭代次数N,N服从以ξ为参数的泊松分布;

接着,随机选取狄利克雷随机参数θ用于生成账号,参数θ服从关于参数α的狄利克雷分布;

然后,按照LDA模型对参数θ进行N次迭代,且对于每次迭代i,i=1~N,均进行以下操作:首先,选取第i个类zi,zi服从关于参数θ的多项分布;接着,从概率p(a|zi,β)中选择特征ai;

最后,输出迭代N次后,所有的特征ai组成的特征向量a,以生成所述账户的特征描述文件P,所述LDA模型对每个账户的描述公式为:其中,aLDA表示一个账户,cn表示这个账户的拨号,γin表示自由变化的参数,γkn表示i=k时自由变化的参数,θ为k维的狄利克雷随机参数,K为潜在类的数量,p为概率分布函数;

计算所述待检测用户账户的特征描述文件和所述已知诈骗者账户的特征描述文件之间的MMD,并向MMD计算结果中加入噪声;

根据所述待检测用户账户对应的所有加入噪声后的MMD计算结果,确定所述待检测用户账户是否是所述待检测运营商系统中的可能诈骗者;

其中,所述CDR数据为所述已知诈骗者账户的个人拨号数据记录;所述LDA模型是一个对于具体数据集生成概率的模型,所述LDA模型能寻找一个短描述来处理大集合,同时保留重要的数据关系;所述MMD为最大平均差异。

8.如权利要求7所述的电信欺诈检测方法,其特征在于,计算两个账户的特征描述文件之间的MMD公式为:其中,F为函数类,是再生核希尔伯特空间中的一个单位球,f为函数类F中的目击函数,Px和Py分别为两个账户的特征描述文件,Px:=[x1,x2,...xm],Py:=[y1,y2,...yn],m为在特征描述文件Px中的样本数量,n为在特征描述文件Py中的样本数量,xi为在特征描述文件Px中的第i个样本,yi为在特征描述文件Py中的第i个样本,当且仅当Px=Py时,MMD[F,Px,Py]=

0,目击函数f及其经验估计定义如下:

式中,k为高斯核心函数,xc为核心函数的中心,σ为核心函数的宽度,用于控制它的影响域。

9.如权利要求8所述的电信欺诈检测方法,其特征在于,向所述MMD计算结果加入拉普拉斯算子噪声来实现差分隐私,所述噪声加入公式如下:式中,Γ表示Gamma函数,σ表示近似核心宽度,n为随机变量数目,Gi和Hi是独立的Gamma分布随机变量,L是拉普拉斯分布随机变量。

10.如权利要求7所述的电信欺诈检测方法,其特征在于,通过为所述待检测用户账户计算出的所有的MMD,当所述所有的MMD中最小的MMD小于一设定值时,确定所述待检测用户账户是一个隐藏在所述待检测运营商系统中的可能诈骗者。

11.如权利要求7所述的电信欺诈检测方法,其特征在于,以列表的形式展示从所述待检测运营商系统中检测出的所有的可能诈骗者账户。

说明书 :

基于用户隐私保护的电信欺诈检测系统及方法

技术领域

[0001] 本发明涉及电信欺诈检测技术领域,尤其涉及一种基于用户隐私保护的电信欺诈检测系统及方法。

背景技术

[0002] 随着移动运营商的用户数量激增,电信诈骗对用户以及运营商都造成了严重的损失。为了检测出电信诈骗活动,许多研究学者提出了很多诸如机器学习、数据模型以及其他方式来解决问题,例如Bolton R.J.【Bolton R.J.,Hand D.J.,Statistical fraud detection:A review,Statisticalscience,2002:235-249】描述了如何使用数据模型来帮助运营商检测诈骗;Weatherford M.【Weatherford M.,Mining for fraud,IEEE Intelligent Systems,2002,17(4):4-6】专注于使用神经网络模型并结合历史记录生成正常用户长期的使用模式来检测电信诈骗活动。而目前更有许多公司开发了相应的软件来检测电信诈骗,例如TransNexus公司开发了一个叫做NexOSS的软件系统,该软件系统使用VoIP网络来检测诈骗活动。
[0003] 随着移动运营商的服务范围的扩大,检测和识别移动运营商中的诈骗者及其行为也越来越重要,由此使得学术界对于检测和识别移动运营商中的诈骗者也越来越感兴趣,并且提出了许多策略来防止诈骗者的攻击和诈骗活动,例如Becker R.A.【Becker R.A.,Volinsky C.,Wilks A.R.,Fraud detection in telecommunications:History and lessons learned,Technometrics,2012】提出的多种电信诈骗检测方法中的一种为Early Threshold-Based Alerting检测方法,该检测方法使用历史数据来找到一个界限来区分正常用户和诈骗用户,然而现实场景中由于用户有着许多不同的行为,导致此种检测方法会错误地将正常用户界定为诈骗用户;Becker R.A.【Becker R.A.,Volinsky C.,Wilks A.R.,Fraud detection in telecommunications:History and lessons learned,Technometrics,2012】提出的另一种电信诈骗检测方法为Signature-Based Alerting检测方法,它的基本思路是描述移动运营商用户的行为,并根据用户行为找到一个界限来区分正常用户和诈骗用户,这就需要一种能够准确且高效的描述方式。另外,Yusoff M.I.M.【Yusoff M.I.M.,Mohamed I.,Bakar M.R.A.,Fraud detection in telecommunication industry using Gaussian mixed model,2013International Conference on Research and Innovation in Information Systems(ICRIIS).IEEE,2013:27-32】提出了使用诸如Gaussian Mixed Model等数据模型,来描述用户,以检测和识别移动运营商中的诈骗者。
[0004] 尽管目前已有很多检测和识别电信诈骗的技术,但是在此领域中依然存在许多挑战:
[0005] 1、诈骗者总是倾向于隐藏他们的身份,以及通过多个移动运营商来实施诈骗活动,这使得先前的一些检测诈骗的方法无法检测出他们奇怪的行为模式,准确率下降,检测的成本变高。基于此,Olszewski D.【Olszewski D.,A probabilistic approach to fraud detection in telecommunications,Knowledge-Based Systems,2012,26:246-258)提出了使用LDA(latent Dirichlet Allocation】来描述用户,他们建立了一个自动的界限来检测单一运营商中的诈骗者,但几乎无法检测到隐藏在多个运营商中的诈骗者。
[0006] 2、在移动运营商中,有大量的数据需要被同时分析,但是仅仅只有少数的诈骗电话样本以供本实施例中学习他们的行为模式。例如,Henecka W.【Henecka W.,Roughan M.,Privacy-Preserving Fraud Detection Across Multiple Phone Record Databases,IEEE Transactions on Dependable and Secure Computing,2015,12(6):640-651】提出了一个基于多个数据库的诈骗检测方式,但是他们仅仅使用了用户的一个特征来描述用户,并且他们的匹配策略只关注两个特征的距离,因此他们的模型准确率有待提高。
[0007] 3、如果通过多个运营商合作来检测诈骗,他们势必会交换数据。因此在检测欺诈者过程中,攻击者有机会得到单个用户的私人电话数据,这会对一般用户的隐私安全造成巨大的威胁。
[0008] 因此,需要一种新的电信欺诈检测策略,能够检测多个移动运营商中诈骗者,提高检测准确率,同时保护用户的数据隐私。

发明内容

[0009] 本发明的目的在于提供一种基于用户隐私保护的电信欺诈检测系统及方法,能够检测多个移动运营商中诈骗者,提高检测准确率,同时保护用户的数据隐私。
[0010] 为解决上述问题,本发明提出一种基于用户隐私保护的电信欺诈检测系统,包括:
[0011] 本发明提出的一种基于用户隐私保护的电信欺诈检测系统,包括:
[0012] 数据提取模块,用于从参考运营商系统的数据库中提取已知诈骗者账户对应的CDR数据及相关数据,以及从待检测运营商系统的用户数据库中提取待检测用户账户对应的CDR数据及相关数据;
[0013] CDR分析模块,用于根据所述数据提取模块提取的所述已知诈骗者账户对应的CDR数据及相关数据,来形成所述已知诈骗者账户及其诈骗行为和习惯的特征描述文件,以及用于根据所述数据提取模块提取的所述待检测用户账户对应的CDR数据及相关数据,来形成所述待检测用户账户及其行为和习惯的特征描述文件;
[0014] 匹配检测模块,用于计算所述CDR分析模块中所述待检测用户账户的特征描述文件和所述已知诈骗者账户的特征描述文件之间的MMD,以确定所述待检测用户账户是否是所述待检测运营商系统中的可能诈骗者;
[0015] 结果输出模块,用于输出所述匹配检测模块确定的所述待检测运营商系统中的可能诈骗者信息;
[0016] 用户隐私保护模块,用于在所述匹配检测模块向所述CDR分析模块请求描述数据时,限制所述CDR分析模块的数据输出。
[0017] 进一步的,所述数据提取模块包括参考数据提取模块和检测数据提取模块,其中,参考数据提取模块用于从参考运营商系统的数据库中提取已知诈骗者列表以及列表中所有的已知诈骗者账户的CDR数据及相关数据,并发送至CDR分析模块;检测数据提取模块用于从待检测运营商系统的用户数据库中提取一个或多个或所有用户账户的CDR数据及相关数据并发送至CDR分析模块。
[0018] 进一步的,所述CDR分析模块包括LDA单元,用于基于接收的每个账户的CDR数据和相关数据来使用LDA模型描述所述账户的行为和习惯,以生成所述账户的特征描述文件。
[0019] 进一步的,所述LDA模型对每个账户的描述公式为:
[0020]
[0021] 其中,aLDA表示一个账户,cn表示这个账户的拨号,γin表示自由变化的参数,θ为k维的狄利克雷随机参数,K为潜在类的数量。
[0022] 进一步的,所述匹配检测模块包括MMD单元和匹配单元,其中,所述MMD单元用于向所述CDR分析模块请求当前检测的所述待检测运营商系统中的用户账户的特征描述文件以及相应的所述参考运营商系统中的已知诈骗者账户的特征描述文件,并计算所述当前检测的用户账户的特征描述文件与获取到的所有的所述参考运营商系统中的已知诈骗者的特征描述文件之间的MMD;所述匹配单元用于根据所述MMD单元计算出的所述当前检测的用户账户对应的所有MMD,来判断所述当前检测的用户账户是否是隐藏在所述待检测运营商系统中的可能诈骗者。
[0023] 进一步的,所述MMD单元计算两个账户的特征描述文件之间的MMD公式为:
[0024]
[0025] 其中,F为函数类,是再生核希尔伯特空间中的一个单位球,f为函数类F中的目击函数,Px和Py分别为两个账户的特征描述文件,xi为在特征描述文件Px中的第i个样本,yi为在特征描述文件Py中的第i个样本,当且仅当Px=Py时,MMD[F,Px,Py]=0,目击函数f及其经验估计定义如下:
[0026]
[0027]
[0028] 式中,k为高斯核心函数,xc为核心函数的中心,σ为核心函数的宽度,用于控制它的影响域。
[0029] 进一步的,所述用户隐私模块向所述MMD单元加入拉普拉斯算子噪声来实现差分隐私,公式如下:
[0030]
[0031]
[0032] 式中,Γ表示Gamma函数,σ表示近似核心宽度,n为随机变量数目。
[0033] 进一步的,所述结果输出模块以列表的形式输出所述匹配检测模块确定出的所述待检测通信系统中所有的可能诈骗者账户。
[0034] 本发明还提供一种基于用户隐私保护的电信欺诈检测方法,包括以下步骤:
[0035] 从参考运营商系统的数据库中提取已知诈骗者账户对应的CDR数据及相关数据,以及从待检测运营商系统的用户数据库中提取待检测用户账户对应的CDR数据及相关数据;
[0036] 根据提取的所述已知诈骗者账户对应的CDR数据及相关数据,来形成所述已知诈骗者账户及其诈骗行为和习惯的特征描述文件,以及根据提取的所述待检测用户账户对应的CDR数据及相关数据,来形成所述待检测用户账户及其行为和习惯的特征描述文件;
[0037] 计算所述待检测用户账户的特征描述文件和所述已知诈骗者账户的特征描述文件之间的MMD,并向MMD计算结果中加入噪声;
[0038] 根据所述待检测用户账户对应的所有加入噪声后的MMD计算结果,确定所述待检测用户账户是否是所述待检测运营商系统中的可能诈骗者。
[0039] 进一步的,根据提取的每个账户的CDR数据和相关数据,使用LDA模型描述所述账户的行为和习惯,以生成所述账户的特征描述文件,具体过程包括:
[0040] 首先,输入LDA模型需要的泊松分布的参数ξ、参数α和β,α为在潜在类上的优先狄利克雷分布的参数,β为K*V的矩阵,每一行表示多项分布的参数,K为潜在类的数量,V为特征的数目;
[0041] 然后,随机选取迭代次数N,N服从以ξ为参数的泊松分布;
[0042] 接着,随机选取狄利克雷随机参数θ用于生成账号,参数θ服从关于参数α的狄利克雷分布;
[0043] 然后,按照LDA模型对参数θ进行N次迭代,且对于每次迭代i(i=1~N),均进行以下操作:首先,选取第i个类zi,zi服从关于参数θ的多项分布;接着,从概率p(a|zi,β)中选择特征ai;
[0044] 最后,输出迭代N次后,所有的特征ai组成的特征向量a,以生成所述账户的特征描述文件P。
[0045] 进一步的,所述LDA模型对每个账户的描述公式为:
[0046]
[0047] 其中,aLDA表示一个账户,cn表示这个账户的拨号,γin表示自由变化的参数,θ为k维的狄利克雷随机参数,K为潜在类的数量,p为概率分布函数。
[0048] 进一步的,计算两个账户的特征描述文件之间的MMD公式为:
[0049]
[0050] 其中,F为函数类,是再生核希尔伯特空间中的一个单位球,f为函数类F中的目击函数,Px和Py分别为两个账户的特征描述文件,xi为在特征描述文件Px中的第i个样本,yi为在特征描述文件Py中的第i个样本,当且仅当Px=Py时,MMD[F,Px,Py]=0,目击函数f及其经验估计定义如下:
[0051]
[0052]
[0053] 式中,k为高斯核心函数,xc为核心函数的中心,σ为核心函数的宽度,用于控制它的影响域。
[0054] 进一步的,向所述MMD计算结果加入拉普拉斯算子噪声来实现差分隐私,所述噪声加入公式如下:
[0055]
[0056]
[0057] 式中,Γ表示Gamma函数,σ表示近似核心宽度,n为随机变量数目。
[0058] 进一步的,通过为所述待检测用户账户计算出的所有的MMD,当所述所有的MMD中最小的MMD小于一设定值时,确定所述待检测用户账户是一个隐藏在所述待检测运营商系统中的可能诈骗者。
[0059] 进一步的,以列表的形式展示从所述待检测通信系统中检测出的所有的可能诈骗者账户。
[0060] 与现有技术相比,本发明的技术方案具有以下有益效果:
[0061] 1、提供一种多个运营商系统合作检测诈骗的方式,可以借助参考运营商系统中的已知诈骗者数据,能够找出隐藏在其他运营商系统中的可能诈骗者;
[0062] 2、通过LDA模型以及MMD计算方式,既可以找出传统的电信诈骗者,也可以找出变化多端的电信诈骗者,检测准确率大大提高;
[0063] 3、应用了差分隐私的方式来保证在检测诈骗者的同时,多个运营商系统之间的数据传阅限制,从而不会泄露某些特殊用户账号的隐私记录和数据。

附图说明

[0064] 图1是本发明的基于用户隐私保护的电信欺诈检测系统及方法的应用场景示意图;
[0065] 图2是本发明的基于用户隐私保护的电信欺诈检测系统的框图;
[0066] 图3是本发明具体实施例的LDA单元中使用的LDA模型示意图;
[0067] 图4是本发明的基于用户隐私保护的电信欺诈检测系统的具体实验的AUROC结果图;
[0068] 图5是本发明的具体实验结果与现有的Henecka W.的检测结果的ROC曲线比较图;
[0069] 图6是本发明的具体实验中第5个实验的结果与Olszewski D.的检测结果的ROC曲线比较图;
[0070] 图7A至图7F是不同的因素对本发明的基于用户隐私保护的电信欺诈检测系统的检测结果的影响评估曲线图;
[0071] 图8是本发明的用户隐私保护模块中加入的噪声对检测结果的影响评估曲线图。

具体实施方式

[0072] 为使本发明的目的、特征更明显易懂,下面结合附图对本发明的具体实施方式作进一步的说明,然而,本发明可以用不同的形式实现,不应只是局限在所述的实施例。
[0073] 为了有效且准确的检测出诈骗者,本发明提出了一个基于多运营商合作的技术方案,具体应用场景请参考图1,本发明的技术方案能够使得多个运营商系统协同合作,其中一个运营商系统作为参考运营商系统,它包含了一个已知的诈骗列表以及一个包含了用户数据的数据库,即该参考运营商系统至少包括一个已知诈骗数据库,而其他的运营商系统作为待检测运营商系统,可以通过应用本发明的技术方案,来分析他们自己的用户数据库中的相关数据,从中检测出诈骗账户列表(即可能的诈骗者列表),依据生成的诈骗账户列表来找出他们自己的用户数据库中隐藏的诈骗者。
[0074] 由于在目前的各个通信运营商系统中,其用户数据库通常会包含各个用户(即账户、账号)的个人拨号数据记录(称为call data record,CDR)。因此,本发明的技术方案中,会使用描述方法(包括例如目的地、时段、类型、消费等等特征数据)来描述各个用户账户的行为以及习惯。对于传统的电信诈骗场景,诈骗者通常会给非常广泛的正常个体用户拨出电话,来引诱正常用户产生额外的费用或者使用其他的诈骗方式,在这种类型的诈骗中,潜在的诈骗者总是有着不正常的行为和特征,比如有很高的可疑电话拨打率,大范围的电话目的地,显然,诈骗者账户的特征描述文件通常是和正常用户账户不同,而且诈骗者不会改变诈骗模式,该类诈骗者的账户或者所有的特征描述文件在任何运营商系统中都完全相同,所以依据参考运营商系统中的已知诈骗列表,可以很容易地从待检测运营商系统的用户数据库中检测出传统的电信诈骗者。然而,有经验的诈骗者会通过改变他们诈骗模式,例如改变账户(可能会在另一个运营商系统中注册一个新的账户)、设备或服务来隐藏他们的诈骗行为,但是相同类型的诈骗者总是使用相似的模式来实施诈骗,不失一般性的,即当一个诈骗者在参考运营商系统和待检测运营商上都有账户时,其账户对应的特征描述文件虽然不完全相同,但是会非常相似,因此在本发明的技术方案中,使用基于MMD(Maximum Mean Discrepancy,最大平均差异)的方法比较待检测运营商系统中的各个用户账户的特征描述文件和参考运营商系统中的诈骗者账户的特征描述文件之间的MMD,确定账户之间的相似性,最终可以检测出待检测运营商系统中的诈骗者账户。
[0075] 本发明的技术方案包括一种基于用户隐私保护的电信欺诈检测系统和一种基于用户隐私保护的电信欺诈检测方法。
[0076] 请参考图2,本发明提出的一种基于用户隐私保护的电信欺诈检测系统,包括:
[0077] 数据提取模块20,用于从参考运营商系统10的数据库(即图2中的已知诈骗者数据库101)中提取已知诈骗者账户对应的CDR数据及相关数据,以及从待检测运营商系统11的用户数据库111中提取待检测用户账户对应的CDR数据及相关数据;
[0078] CDR分析模块21,用于根据所述数据提取模块20提取的所述已知诈骗者账户对应的CDR数据及相关数据,来形成所述已知诈骗者账户及其诈骗行为和习惯的特征描述文件,以及用于根据所述数据提取模块20提取的所述待检测用户账户对应的CDR数据及相关数据,来形成所述待检测用户账户及其行为和习惯的特征描述文件;
[0079] 匹配检测模块23,用于计算所述CDR分析模块21中所述待检测用户账户的特征描述文件和所述已知诈骗者账户的特征描述文件之间的MMD,以确定所述待检测用户账户是否是所述待检测运营商系统11中的可能诈骗者;
[0080] 结果输出模块24,用于输出所述匹配检测模块23确定的所述待检测运营商系统11中的可能诈骗者信息;
[0081] 用户隐私保护模块22,用于在所述匹配检测模块23向所述CDR分析模块21请求描述数据时,限制所述CDR分析模块21的数据输出。
[0082] 本实施例中,参考运营商系统10至少包括一已知诈骗者账户数据库,该数据库中包括参考运营商系统10的已知诈骗者账户列表(即参考运营商系统10已经确定是诈骗者的账户列表)以及每个已知诈骗者账户的CDR数据(包括例如目的地、时段、类型、消费等等。)及相关数据。所述数据提取模块20包括参考数据提取模块201和检测数据提取模块202,其中,参考数据提取模块201用于从参考运营商系统10的已知诈骗者数据库101中提取所有的已知诈骗者账户的CDR数据及相关数据,并发送至CDR分析模块21;检测数据提取模块202用于从待检测运营商系统11的用户数据库中提取一个或多个或所有用户账户的CDR数据及相关数据并发送至CDR分析模块21。
[0083] 所述CDR分析模块21包括LDA单元,用于基于接收的每个账户的CDR数据和相关数据来使用LDA模型描述所述账户的行为和习惯,以生成所述账户的特征描述文件。其中LDA(Latent Dirichlet Allocation)模型是一个对于具体数据集生成概率的模型,它的根本目标是寻找一个短描述,来处理大集合,同时保留重要的数据关系。在本发明的技术方案中,每个账户可以被表示为潜在类的有限混合,这些类被一个多项分布所表示,由此本发明中使用的LDA模型是一个三层贝叶斯概率模型,可以表示成如图3所示的概率图模型,α为在潜在类上的优先Dirichlet(狄利克雷)分布的参数,β为K*V的矩阵,每一行表示多项分布的参数,K为潜在类的数量,V为特征的数目,变量θ为狄利克雷随机参数,变量z和w表示类。本发明的LDA单元,通过LDA模型为每个账户生成特征描述文件的过程具体如下:
[0084] 1、输入泊松分布的参数ξ、参数α和β;
[0085] 2、随机选取迭代次数N,N服从以ξ为参数的泊松分布;
[0086] 3、随机选取参数θ用于生成账号,参数θ服从关于参数α的狄利克雷分布;
[0087] 4、对于每次迭代i(i=1~N):
[0088] (4.1)选取第i个类zi,zi服从关于参数θ的多项分布;
[0089] (4.2)从概率p(a|zi,β)中选择特征ai;
[0090] 5、输出迭代N次后,所有的特征ai组成的特征向量a。
[0091] 其中,隐藏的参数θ和z使用近似估计,一个k维的狄利克雷随机参数θ能够在(k-1)单纯形(simplex)中取值,它满足以下条件:
[0092]
[0093] 并且有以下的概率密度:
[0094]
[0095] 其中Γ表示Gamma函数。
[0096] 本发明的LDA模型中的α、β参数通过EM算法(Expectation Maximization Algorithm,最大期望算法,又译期望最大化算法)来估计,给出参数α、β以及一个θ和z的联合分布,则V个特征形成的特征向量a可以由以下联合概率分布公式给出:
[0097]
[0098] 然后,本实施例中定义一个运营商账户的边缘分布如下:
[0099]
[0100] 对于每个账户,本实施例中可以按如下方法计算分布:
[0101]
[0102] 其中,aLDA表示一个账户,cn表示这个账户的拨号,γin表示自由变化的参数。
[0103] 每个账户的CDR数据及相关数据经过上述的LDA单元的分析后,可以形成每个账户及其对应的特征描述文件Pi,该特征描述文件Pi中包含可以描述各个用户账户的行为以及习惯。其中,包括参考运营商系统中所有的已知诈骗者账户及每个诈骗者账户对应的描述文件,以及待检测运营商系统中的每个用户账户及其对应的描述文件。
[0104] 接下来,需要匹配检测模块23比较对应于所述待检测运营商系统11中的某个用户账户的描述文件和对应于所述参考运营商系统10中的所有已知诈骗者账户的描述文件之间的差异,来判断是否是同类的用户,从而找到所述待检测运营商系统11中与所述参考运营商系统10中的某个已知诈骗者账户相同或相似的用户账户,该用户账户即是隐藏在所述待检测运营商系统11中的可能诈骗者。
[0105] 所述匹配检测模块23包括MMD单元231和匹配单元232,其中,所述MMD单元231用于向所述CDR分析模块21请求当前检测的所述待检测运营商系统11中的用户账户的特征描述文件以及相应的所述参考运营商系统10中的已知诈骗者账户的特征描述文件,并计算所述当前检测的用户账户的特征描述文件与获取到的所有的所述参考运营商系统10中的已知诈骗者的特征描述文件之间的MMD;所述匹配单元232用于根据所述MMD单元231计算出的所述当前检测的用户账户对应的所有MMD,来判断所述当前检测的用户账户是否是隐藏在所述待检测运营商系统11中的可能诈骗者。
[0106] 所述MMD单元231使用基于MMD(Maximum Mean Discrepancy,最大平均差异)的方法比较待检测运营商系统11中的各个用户账户的特征描述文件和参考运营商系统中的已知诈骗者账户的特征描述文件之间的MMD,具体过程如下:
[0107] 首先,选取两个特征描述文件:
[0108] Px:=[x1,x2,...xm],Py:=[y1,y2,...yn]  (式6)
[0109] 其中,xi为在特征描述文件Px中的第i个样本,i可以选取不同的时间量,如1/12/2016到5/12/2016,yi为在特征描述文件Py中的第i个样本。
[0110] 接着,通过非具体的函数类F中的函数f来度量Px和Py之间的不同,Px和Py之间MMD计算如下:
[0111]
[0112] 为了估计Px和Py之间MMD,函数类F必须要足够丰富以能够区分Px和Py是否相同,同时也必须足够严格以提供有用的优先样本估计,进而使得Px和Py之间MMD满足定理1:
[0113] 定理1:令函数类F是再生核希尔伯特空间(RKHS H)中的一个单位球,所述再生核希尔伯特空间是在紧致度量空间X上定义的以k为再生核的函数空间,则当且仅当Px=Py时,MMD[F,Px,Py]=0。
[0114] 在MMD单元231中,为了表示出Px和Py两个分布之间的最大差异MMD,需要一个目击函数f,且目击函数f和它的经验估计定义如下:
[0115]
[0116]
[0117] 在MMD单元231中,为了规范化Px和Py之间的MMD,还需要一个综合核心函数k(即RKHS H的再生核),具体地可选择Gaussian Radial Basis Function(RBF,高斯径向基函数)Kernel(核函数),即高斯核心函数,定义如下:
[0118]
[0119] 其中,xc为核心函数的中心,σ为核心函数的宽度,用于控制它的影响域。
[0120] 在MMD单元231中,为了确保MMD的准确度,需要一个近似核心宽度σ,当将σ设置为0或者无穷大时,那么经验MMD将为0,不失一般性的,而当将σ设置为所有向量P中点对的中间距离时,可以避免极端情况。
[0121] 此外,在核心函数中,向量P的每一维的值都应该属于相同的范围[0,1]。然而在本实施例中的应用场景中,时段被记录为秒,它远远大于其他特征,这会使得其他的特征失去影响,所以在MMD单元231中使用Min(最小值)-Max(最大值)规范化两个描述文件之间的MMD,如下式所示:
[0122]
[0123] 由此,MMD单元231可以将待检测运营商系统11中的每个用户账户的特征描述文件分别与参考运营商系统10中的所有已知诈骗者账户的特征描述文件对比而求出相应的MMD。
[0124] 匹配单元232可以分析MMD单元231为待检测运营商系统11中的每个用户账户计算出的所有的MMD,如果为某个用户账户计算出的最小的MMD小于一设定值,那么可以预测该用户账户是一个隐藏在待检测运营商系统11中的可能诈骗者,具体匹配过程如下:
[0125] 1、输入参考运营商系统10的已知诈骗者列表FraudA、FraudA中的每个已知诈骗者账户的特征描述文件Pj、待检测运营商系统的每个用户账户的特征描述文件Pi以及设定值threshold(即控制MMD计算的容忍度参数);
[0126] 2、设置最小值minimum的初始值等于无穷大;
[0127] 3、对于待检测运营商系统11的每个用户账户i,计算其特征描述文件Pi与FraudA中的每个已知诈骗者账户的特征描述文件Pj之间的MMD,如果MMD小于minimum,则更新minimum;
[0128] 4、如果用户账户i的最终的minimum(即用户账户i的特征描述文件Pi与FraudA中所有已知诈骗者账户的特征描述文件Pj之间的MMD中的最小值)小于等于设定值threshold,则用户账户i为待检测运营商系统11中的可能诈骗者;
[0129] 5、输出匹配出的待检测运营商系统11的可能诈骗者列表FraudB。
[0130] 正如上面所讲的,为了计算待检测运营商系统11和参考运营商系统10账户之间的MMD,两个运营商系统需要相互直接展示账户特征描述文件的信息。然而,各个运营商系统也需要保护各自用户的隐私,例如需要待检测运营商系统11不能取得参考运营商系统10中某一个用户账户的特征描述文件。因此,在本发明的技术方案中,在MMD单元231需要借助参考运营商系统10的相应已知诈骗者账户的特征描述文件来检测待检测运营商系统11的各个用户账户时,要求MMD单元231不能直接展示所述已知诈骗者账户的特征描述文件来计算,具体通过用户隐私保护模块22在MMD单元231向CDR分析模块21请求参考运营商系统10的已知诈骗者账户的特征描述文件时,加入噪声,实现差分隐私,以此来保证当隐私攻击者作为待检测运营商系统11时不能得到参考运营商系统10各个账户的具体电话记录等数据,具体过程如下:
[0131] 首先,MMD单元231展示MMD的目击函数的估计可以被表示为数据的表达式:
[0132]
[0133] 正如上面所提到的,本实施例中在MMD单元231中设置σ为所有点对的中间距离值,因为待检测运营商系统11不知道Yk的具体值,待检测运营商系统11把所有的Xi当做P。如果待检测运营商系统11中的账号是和参考运营商系统10中已知诈骗者账户相同的账户,那么Yi和Xj的距离有很大的可能在所有的Xi和Xj之间。因此对于所有的Yk:
[0134] ||Yk-Xj||≤1  (式12)
[0135] 考虑线性扩展:
[0136]
[0137] 考虑一个函数r(t):
[0138]
[0139] 本实施例中使用了每个用户账户的K个特征,式9中的核心函数k可以被转换成:
[0140]
[0141] 用户隐私保护模块22向MMD单元231加入的噪声满足以下定理:
[0142] 定理1:对于目击函数f:D≤Rd,将拉普拉斯分布随机变量L~Lap(0,σ)作为噪声L加入到核函数Kf中,由此给出了差分隐私Δf/σ,其中,
[0143]
[0144] 定理2:令每个Mi均提供ε的差分隐私,M(M1(D),M2(D),…,Mn(D))提供 ε的差分隐私(即聚合噪声)。
[0145] 其中,拉普拉斯分布随机变量L~Lap(0,σ)可以通过2n个随机变量的和来模拟:
[0146]
[0147] 式中,Gi和Hi是独立的伽马(Gamma)分布随机变量,且遵循以下密度公[0148]
[0149] 其中,Γ表示Gamma函数。
[0150] 根据上述定理1,参考运营商系统10和待检测运营商系统11中能够加入伽马噪声,使得MMD单元231中的聚合噪声是拉普拉斯算子噪声。
[0151] 本实施例中使用Mathematica、MATLAB、Python以及C++对本发明的技术方案进行了一系列的实验和模拟。下面会详细介绍本实施例中的评估以及展示评估的结果。本实施例中也将此工作与其他的方法进行了比较,并且评估了数据集中不同特征产生的影响。下面先介绍评估的设置:
[0152] 本实施例中使用基于不同数据范围的CDR,设置了六组实验,并考虑数据集和账户的数量多少,同时在CDR的模拟过程中,使用不同参数的相同分布来评估这个因素的影响。账户的数目细节如下表所示
[0153]N Numa Numf Numc Numt Nums
1 1000 15 100 15 5
2 1000 30 100 15 5
3 2000 15 100 15 5
4 1000 15 200 15 5
5 1000 15 200 5 5
6 1000 15 200 15 3
[0154] 其中,N表示实验数目,Numa表示账户数目,Numf表示诈骗账户数目,Numc表示一个账户中平均CDR数目,Numt表示诈骗账户的类型,Nums表示账户中特征的数目。
[0155] 同时考虑特征数量的影响,本实施例中设置了不同特征,如下表所示:
[0156]
[0157] 其中,N表示实验数目,duration为持续时间,type为类型,time为时段,cost为消费,dial or answer为拨打或应答。
[0158] 在本实施例中的实验中,本实施例中使用第4个实验的数据来设置模拟,以评估MMD单元231的MMD结果中加入噪声后的影响,其中参数如下表所示:
[0159]
[0160] 本实施例中使用ROC(Receiver Operating Characteristic,受试者工作特征)曲线和AUROC(Area Under Receiver Operating Characteristic,受试者工作特征下面积)的值来进行评估,具体地评估结果如下:
[0161] 首先,6个实验的AUROC值如图4和下表所示:
[0162]1 2 3 4 5 6
0.966 0.969 0.953 0.987 0.984 0.947
[0163] 6个实验的AUROC值显示实验1和实验2有相似的结果,略高于标准线AUROC=0.966,实验4和实验5有更好的表现,实验3和实验6并不是很好,略低于标准线AUROC=
0.966,但6个实验的AUROC平均值高于标准线AUROC=0.966,因此本发明的检测系统的准确率更高。
[0164] 然后,本实施例中将获得ROC曲线与Henecka W.的工作进行了对比,如图5所示,Henecka W.分别使用了不同的描述文件和匹配方法,包括重叠(overlap)法、Hellinger距离法以及数据切块(dice)法,显然本发明的检测系统表现更好。
[0165] 接着,本实施例中使用第5个实验结果来与Olszewski D.的工作进行了效果比较,Olszewski D.的工作是只有一个运营商的LDA方法,因为第5个实验的数据范围与他们相似。图6中展示了本发明和现有技术的ROC曲线,从图6中可以看出,当检测率相同时,本发明的检测系统的错误率更低,当错误率相同时,本发明的检测系统的检测率(AUROC=0.987)比Dominik的工作(AUROC=0.967)更高。
[0166] 最后,本实施例中评估了数据的不同因素的影响,其中第1个实验和第2个实验只有一个特征有差异,但第1个实验的AUROC为0.966,而第2个实验的AUROC为0.969,比第1个实验的高。图7A至7F的曲线图依次展示了特征数量、CDR数据量、账户数量、用户中的诈骗账户率、诈骗账户数量以及诈骗类型不同对检测结果的影响
[0167] 在本实施例中的评估中,会向MMD计算结果中加入噪声来避免攻击者获取私人的CDR数据,但是噪声的加入可能影响MMD计算结果的准确性,因此本实施例中做了一个模拟来评估加入的噪声对于MMD计算结果准确率的影响。本实施例中根据拉普拉斯分布选择噪声(noise),评估结果如图8所示,可见,如果y从0到1变化,强噪声对于MMD计算的结果有更强的影响,因此运营商需要控制噪声/Σyk,使之低于0.1,以此保证MMD计算结果的准确性。
[0168] 综上所述,本发明的基于用户隐私保护的电信欺诈检测系统及方法,能够通过多个运营商系统合作方式提高诈骗者检测效率,同时可以检测出传统的电信诈骗和订阅式电信诈骗,并在检测过程中保护用户隐私。
[0169] 显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。