一种基于纳税人利益关联网络的可疑纳税人识别方法转让专利

申请号 : CN201410328391.X

文献号 : CN104103011B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘均李晨玮郑庆华张未展吕彦章

申请人 : 西安交通大学

摘要 :

本发明公开了一种基于纳税人利益关联网络的可疑纳税人识别方法,基于纳税人利益关联网络(TPIN)的拓扑特征识别可疑纳税人。整体工作流程为:首先,对纳税人利益关联网络 进行拓扑特征的分析。采用Motif方法寻找频繁子图,并根据度中心度和聚集系数拓扑指标寻找正常和可疑纳税人的差异;其次,选择拓扑特征,使用C4.5分类器实验,从而实现自动识别可疑纳税人的功能。本发明的贡献在于:①将纳税人和利益关系作为网络进行关系识别。并将拓扑方法中的Motif、聚集系数、度中心度特性应用于纳税人利益关联网络。②正常和可疑纳税人之间的差异性为检测可疑纳税行为提供可信的方法和依据。

权利要求 :

1.一种基于纳税人利益关联网络的可疑纳税人识别方法,其特征在于,包括以下步骤:步骤一:对纳税人利益关联网络进行拓扑特征分析

首先,对纳税人利益关系网络进行3-Motif分析,得到13维Motif特征向量;然后采用度中心度和聚集系数分别进行拓扑特征分析,得到另外两维特征向量;最终构建得到15维表示网络节点的特征向量;

所述的对纳税人利益关联网络进行拓扑特征分析,构建得到15维特征向量,具体包括以下步骤:

1)定义纳税人利益关联网络TPIN=

其中,V={vi}n,表示节点集合,每个节点表示一个纳税人; E表示TPIN中所有边的集合,eij∈E表示节点vi和节点vj之间存在利益关联;

2)采用3-Motif方法找出频繁出现的3节点子图,并通过Z-Score值来衡量每一种Motif的显著性,定义Motif显著性的计算方法为:其中,freqk指第k种Motif在TPIN中出现的频率;α是与TPIN同节点规模的随机网络中第k种Motif出现频率的期望值;β是与TPIN同节点规模的随机网络中第k种Motif出现的标准差;

3)纳税人利益关联网络一共有13种3-Motif模式,节点i属于相同或不同的Motif子图,定义节点i的特征为:其中,Mik表示节点i是否属于第k个子图模式;根据节点i的13维Motif特征值表示出该节点的13维Motif特征向量为(Mi1,Mi2,...,Mi13);

4)采用度中心度进行拓扑特征分析,得到1维的度中心度特征向量,如式(3):其中,Cdeg(vi)是指节点vi的度中心度;deg(vi)是指节点vi的度;

5)采用聚集系数进行拓扑特征分析,得到1维的聚集系数特征向量,如式(4):其中,GΔ(vi)表示TPIN中包含vi的闭三点组的数量,G∧(vi)表示TPIN中包含vi的开三点组的数量,闭三点组指网络中任意两两相连的三个节点,开三点组指网络中被两条边连接起来的三个节点;

6)使用13维的Motif特征向量、1维的度中心度特征向量及1维的聚集系数特征向量形成15维表示网络节点i的特征向量,得到(Mi1,Mi2,...,Mi13,C(vi),Cdeg(vi)),其中,k=

1,2,...,13,Mik表示节点i是否属于第k个子图模式;C(vi)表示聚集系数值;Cdeg(vi)表示度中心度的大小;

步骤二:分类识别可疑纳税人

首先,对纳税人利益关联网络的节点类型进行人工标注,为判别正常和可疑纳税人提供类标签;

其次,对步骤一构建得到的15维特征向量,采用C4.5分类器对不同网络的特征进行分类;

最后,将分类结果与人工标注结果进行比对,使用准确率、召回率和F值衡量结果,识别出可疑纳税人。

说明书 :

一种基于纳税人利益关联网络的可疑纳税人识别方法

技术领域

[0001] 本发明涉及计算机科学与技术中的数据挖掘、自然语言处理、舆情分析、税务应用领域,具体涉及一种基于纳税人利益关联网络的可疑纳税人识别方法。

背景技术

[0002] 现实生活中,企业偷税漏税均采用人工分析的方式,且税务数据跨地区存储存在很多问题,难以发现纳税人的很多隐式利益关联。对税务数据进行分析,通过税务文档以及纳税人利益关联网络发现并最终打击可疑纳税人显得很有必要,并成为税务系统分析的难点。
[0003] 对税务系统的分析中,可疑纳税人和不良纳税行为的检测和分析已有不少研究成果和专利。专利“电子衡税收监控系统和监控方法”,CN101777232A描述了一种电子衡税收监控方法,包括:由称重显示控制器的称重控制模块获取电子衡的测量读数;称重控制模块将所述测量读数传送到一电子衡税控装置;电子衡税控装置将测量读数和其统计信息加密存储在其内部的税控存储器之中;电子衡税控装置将测量读数发送至企业端的称重管理系统,同时将测量读数数据加密转发到税务端的税控管理服务器;企业端的称重管理系统产生报税信息并送至税务端的税控管理服务器;税务端的税控管理服务器将来自企业称重管理系统的所述报税信息和来自电子衡税控装置的信息进行比对,从而进行税收监控。
[0004] 专利“网络生成税务发票方法、发票物联网监管系统及电子图章”CN102117523A介绍了一种网络生成税务发票方法、发票物联网监管系统及电子图章:由用户的票据财务计算机向税务管理网络中心申请带有编码的电子税务发票;税务管理网络中心发放带有编码的电子税务发票;用户在电子税务发票上按发票填写要求,录入交易内容与金额;财务人员专用电子卡放 在发票章电子印台的台面上,读取财务人员电子卡信息;票据财务计算机在电子税务发票上自动生成双方交易信息及财务人员印章;票据财务计算机通过税控发票打印机打印出纸质税务发票;将纸质税务发票在放在发票章电子印台台面上,加盖单位发票电子图章;发票电子图章的信息送给票据财务计算机;票据财务计算机在电子税务发票上自动增加发票专用章图,并向由税务管理网络中心备案管理。

发明内容

[0005] 本发明的目的在于提供一种基于纳税人利益关联网络的可疑纳税人识别方法,该方法根据纳税人之间的关系构建利益关联网络(TPIN),通过对网络结构和特征的分析识别可疑纳税人。
[0006] 本发明是通过以下技术方案来实现:
[0007] 一种基于纳税人利益关联网络的可疑纳税人识别方法,包括以下步骤:
[0008] 步骤一:对纳税人利益关联网络进行拓扑特征分析
[0009] 首先,对纳税人利益关系网络进行3-Motif分析,得到13维Motif特征向量;然后采用度中心度和聚集系数分别进行拓扑特征分析,得到另外两维特征向量;最终构建得到15维表示网络节点的特征向量;
[0010] 步骤二:分类识别可疑纳税人
[0011] 首先,对纳税人利益关联网络的节点类型进行人工标注,为判别正常和可疑纳税人提供类标签;
[0012] 其次,对步骤一构建得到的15维特征向量,采用C4.5分类器对不同网络的特征进行分类;
[0013] 最后,将分类结果与人工标注结果进行比对,使用准确率、召回率和F值衡量结果,识别出可疑纳税人。
[0014] 步骤一中所述的对纳税人利益关联网络进行拓扑特征分析,构建得到15维特征向量,具体包括以下步骤:
[0015] 1)定义纳税人利益关联网络TPIN=<V,E>;
[0016] 其中,V={vi}n,表示节点集合,每个节点表示一个纳税人; E表示TPIN中所有边的集合,eij∈E表示节点vi和节点vj之间存在利益关联;
[0017] 2)采用3-Motif方法找出频繁出现的3节点子图,并通过Z-Score值来衡量每一种Motif的显著性,定义Motif显著性的计算方法为:
[0018]
[0019] 其中,freqk指第k种Motif在TPIN中出现的频率;α是与TPIN同节点规模的随机网络中第k种Motif出现频率的期望值;β是与TPIN同节点规模的随机网络中第k种Motif出现的标准差;
[0020] 3)纳税人利益关联网络一共有13种3-Motif模式,节点i属于相同或不同的Motif子图,定义节点i的特征为:
[0021]
[0022] 其中,Mik表示节点i是否属于第k个子图模式;根据节点i的13维Motif特征值表示出该节点的13维Motif特征向量为(Mi1,Mi2,...,Mi13);
[0023] 4)采用度中心度进行拓扑特征分析,得到1维的度中心度特征向量,如式(3):
[0024]
[0025] 其中,Cdeg(vi)是指节点vi的度中心度;deg(vi)是指节点vi的度;
[0026] 5)采用聚集系数进行拓扑特征分析,得到1维的聚集系数特征向量,如式(4):
[0027]
[0028] 其中,GΔ(vi)表示TPIN中包含vi的闭三点组的数量,G^(vi)表示TPIN中包含vi的开三点组的数量,闭三点组指网络中任意两两相连的三个节点,开三点组指网络中被两条边连接起来的三个节点;
[0029] 6)使用13维的Motif特征向量、1维的度中心度特征向量及1维的聚集系数特征向量形成15维表示网络节点i的特征向量,得到(Mi1,Mi2,...,Mi13,C(vi),Cdeg(vi)),其中,k=1,2,...,13,Mik表示节点i是否属于第k个子图模式;C(vi)表示聚集系数值;Cdeg(vi)表示度中心度的大小。
[0030] 与现有技术相比,本发明具有以下有益的技术效果:
[0031] 本发明方法从大量的税务文档以及纳税人利益关联网络中识别能够有效区分正常纳税人和可疑纳税人的不同特征。首先,对纳税人的利益关联网络进行拓扑特征分析,根据Motif发现网络中不同的频繁子图,并根据子图特性挖掘不同纳税人的行为规律,同时,采用度中心度和聚集系数刻画纳税人的不同。其次,根据这些特征差异进行选择,并采用分类算法对正常和可疑纳税人分类。该方法利用纳税人利益关系的拓扑特征,挖掘纳税人之间的不同类型。不仅简化了复杂的纳税人利益关系网络,同时提升了正常和可疑纳税人识别并区分的精度和效率。本发明的贡献在于:①将纳税人和利益关系作为网络进行关系识别。并将拓扑方法中的Motif、聚集系数、度中心度特性应用于纳税人利益关联网络。②正常和可疑纳税人之间的差异性为检测可疑纳税行为提供可信的方法和依据。

附图说明

[0032] 图1为是13种3-Motif模式示意图。

具体实施方式

[0033] 下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
[0034] 基于纳税人利益关联网络的可疑纳税人识别方法是本专利进行纳税人 关系分析以及偷税漏税识别的基础。
[0035] 本发明方法的具体实施方案,分为如下步骤:
[0036] 1、对纳税人利益关联网络进行拓扑特征分析
[0037] 包括纳税人利益关联网络Motif特性、度中心度及聚类系数的拓扑特征分析;
[0038] 2、基于不同特征的正常和可疑纳税人分类。
[0039] 具体描述如下:
[0040] 1、纳税人利益关联网络的拓扑特性分析:
[0041] 纳税人利益关联网络TPIN=<V,E>,V={vi}n表示节点集合,每个节点表示一个纳税人; E表示TPIN中所有边的集合,eij∈E表示节点vi和节点vj之间存在利益关联。作为一种复杂网络,TPIN具有一般网络特性。因此正常和可疑纳税人在聚集系数等复杂网络参数上呈现不同的特征。本发明采用拓扑特征如下:
[0042] 第一:Motif特性分析
[0043] 现实的关系网络中,实体和实体间的关系并不单一,每种关系都构成一个关系网络,这种关系网络的集合称为异质网络。纳税人利益关联网络存在不同的节点和边类型,也是一种异质网络。异质网络中存在不同关系链,而关系链的分析类似于数据挖掘中关联规则的发现,一般是在大量的关系链中找出一些频繁的或者有意义的模式,用来分析网络中隐藏的有意义的信息。
[0044] Motif定义为一种网络连接方式,即一种子图。这种子图在真实网络中大量出现的次数远远高于同规模随机网络中的次数,这种特征反应了网络微观结构的组成,进而突出该网络子图的独特性。
[0045] 本发明对3‐Motif的分析发现网络中独有的节点模式,对研究纳税人利 益关联网络的潜在关系和形成模式具有重要意义。
[0046] 复杂网络中有很多不同类型的子图模式,但并不是网络中频繁出现的子图都是3-Motif,而是要与同节点规模的随机网络比较来判断。一般情况下,通过计算Z-Score值来衡量Motif的显著性。Z-Score的分值体现了异质网络与同规模随机网络中频繁子图出现的频率差异。频繁子图的Z-Score分值越大,说明该频繁子图越是独特,越能作为局部特征。
[0047] 这里我们定义一种Motif的显著性计算方法为:
[0048]
[0049] 其中,freqk指第k种Motif在TPIN中出现的频率;α是与TPIN同节点规模的随机网络中第k种Motif出现频率的期望值;β是与TPIN同节点规模的随机网络中第k种Motif出现的标准差;Z-Score的分值体现了异质网络与同规模随机网络中Motif出现的频率差异:
[0050] 采用已有的成熟分析工具FANMOD生成大量的同规模随机网络数据。该工具能够较快的生成指定个数的随机网络,对不同类型的节点进行着色区分。
[0051] 纳税人利益关联网络共有13种3-Motif模式,具体如附图1所示。节点i可能同时属于不同的Motif子图,因此,定义节点i的Motif特征为:
[0052]
[0053] 根据节点i的13维Motif特征值可以表示出该节点的Motif特征向量(Mi1,Mi2,...,Mi13)。
[0054] 第二:度中心度拓扑特征分析
[0055] 度中心度用来描述节点在TPIN的中心程度,表征的是TPIN的集中或者集权程度。指出单个节点或一组节点在网络中的位置、重要程度及影响。度中心度能够有效刻画利益关系网络中利益关联程度大的节点。采用度中心度刻画节点的差别,度中心度描述节点在TPIN的重要性:
[0056]
[0057] 其中,Cdeg(vi)是指节点vi的度中心度;deg(vi)是指节点vi的度。
[0058] 第三:聚集系数拓扑特征分析。
[0059] 聚集系数用来描述一个图中的顶点之间结集成团程度的系数,即评价衡量各个纳税人之间的相互连接的程度。利用聚集系数衡量不同纳税人之间的彼此连接程度,不同纳税人的利益关联程度存在差异,导致聚集系数的不同。不同节点的聚集系数将作为判断节点类型的特征之一。
[0060]
[0061] 其中,GΔ(vi)表示TPIN中包含vi的闭三点组的数量,G^(vi)为表示TPIN中包含vi的开三点组的数量。闭三点组指网络中任意两两相连的三个节点,开三点组指网络中被两条边连接起来的三个节点。
[0062] 第四:利益关联网络的特征向量
[0063] 使用13维的Motif特征向量、1维(第14维)的度中心度和1维(第15维)聚集系数形成15维表示网络节点i的特征向量:(Mi1,Mi2,...,Mi13,C(vi),Cdeg(vi)),其中Mik表示该节点i是否属于第k个Motif子图模式;C(vi)表示聚集系数值;Cdeg(vi)表示度中心度的大小。
[0064] 2、分类识别可疑纳税人:
[0065] 根据纳税人利益关联网络的Motif、聚集系数等网络特征区分不同的纳税人类型。首先,对纳税人利益关联网络的节点类型进行人工标注,为判别正常和可疑纳税人提供类标签;其次,采用C4.5分类器对特征选择后的多维特征向量进行分类,将分类结果与标注结果比对,使用准确率,召回率和F值衡量结果,从而实现基于纳税人利益关联网络的可疑纳税人识别功能。