一种基于大数据的审计方法转让专利

申请号 : CN201910308318.9

文献号 : CN110032607A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 聂蛟

申请人 : 成都市审计局成都智审数据有限公司

摘要 :

本发明公开了一种基于大数据的审计方法,其包括:采集每一对象单位的历年交易数据、历年开票数据和历年审计结果数据;将每一对象单位的历年交易数据进行分类,得到多种交易分类数据,将每一对象单位的历年开票数据进行分类,得到多种开票分类数据;将每一对象单位的历年审计结果数据进行分类,得到多种审计结论分类数据;将所有交易分类数据、开票分类数据和审计结论分类数据作为训练样本,并利用朴素贝叶斯算法进行训练,得到分类器;通过分类器对新采集到的目标单位的交易数据和开票数据进行分类检测,得到目标单位的审计结论分类结果。本发明能够突破审计部门对数据质量的依赖,并且有效提升审计部门检出问题单位的成功率、可靠性和效率。

权利要求 :

1.一种基于大数据的审计方法,其特征在于,包括以下步骤:

S1:采集每一对象单位的历年交易数据、历年开票数据和历年审计结果数据,并导入数据仓库中;

S2:将每一对象单位的历年交易数据按照第一预设经济分类方式进行分类,得到多种交易分类数据,以及将每一对象单位的历年开票数据按照第二预设经济分类方式进行分类,得到多种开票分类数据;

S3:将每一对象单位的历年审计结果数据按照预设审计结论分类方式进行分类,得到多种审计结论分类数据;

S4:将所有交易分类数据、开票分类数据和审计结论分类数据作为训练样本,并利用朴素贝叶斯算法对所述训练样本进行训练,得到分类器;

S5:将新采集到的目标单位的交易数据和开票数据带入所述分类器,通过所述分类器对所述目标单位的交易数据和开票数据进行分类检测,得到所述目标单位的审计结论分类结果。

2.根据权利要求1所述的审计方法,其特征在于,所述审计方法还包括:S6:将审计结论分类结果为不正常的目标单位标注为重点待查单位。

3.根据权利要求2所述的审计方法,其特征在于,所述交易分类数据包括预算支出总额、实际支出总额和实际支出明细额,所述开票分类数据包括支出开票总额,所述审计结论分类数据包括正常、账实不符、账账不符和账票不符,其中,账实不符表示预算支出总额和实际支出总额不符,账账不符表示实际支出总额和实际支出明细额不符,账票不符表示实际支出总额与支出开票总额不符。

4.根据权利要求3所述的审计方法,其特征在于,所述利用朴素贝叶斯算法对所述训练样本进行训练,得到分类器的步骤具体包括:S41:设x={a1,a2,...,am}为待分类项,其中,x代表对象单位,a作为x的特征属性,为对象单位的交易分类数据和开票分类数据,m为自然数;

S42:设C={y1,y2,...,yn}为类别集合,其中,y为C的审计结论分类,n为自然数;

S43:利用朴素贝叶斯算法计算条件概率P(y1|x),P(y2|x),...,P(yn|x),其中,朴素贝叶斯算法的计算式为: P(B|A)表示在特征B发生的时候,特征A发生的概率。P(A)表示特征A发生的概率;

S44:根据条件概率的计算结果得到分类器,其中,分类器表示为:如果P(yk|x)=max{P(y1|x),P(y2|x),...,P(yn|x)},则x∈yi,k小于或等于n。

5.根据权利要求4所述的审计方法,其特征在于,所述步骤S43具体包括:步骤S431:选取指定待分类项和指定类别集合作为训练集合;

步骤S432:统计得到在各审计结论分类下各个特征属性的条件概率,即:步骤S433:假设各个特征属性是条件独立的,则根据贝叶斯定理计算条件概率,计算式为:其中,

6.根据权利要求3所述的审计方法,其特征在于,所述第一预设经济分类方式为预算支出总额分类方式、实际支出总额分类方式和实际支出明细额分类方式中的一种或多种,所述第二预设经济分类方式为支出开票总额分类方式,所述预设审计结论分类方式为正常分类方式、账实不符分类方式、账账不符分类方式和账票不符分类方式中的一种或多种。

说明书 :

一种基于大数据的审计方法

技术领域

[0001] 本发明涉及计算机技术领域,尤其是一种基于大数据的审计方法。

背景技术

[0002] 现有技术主要采用传统SQL数据库技术对单位数据进行审计,并利用SQL语句进行关联查询,此种方法存在的问题主要表现在两方面:
[0003] 一是依赖于收集到的单位数据的质量,需要不同的数据在关联的时候以某一个特殊主键为标识,只有当标识完全一致时才能进行关联,而实际的情况是数据往往来源于多个不同的数据系统,每种数据系统的字段定义和类型会存在差异,导致在用SQL语句进行强关联的时候会漏掉部分数据,最后导致得出的审计结论并不严谨。
[0004] 二是通常只能基于单位提供的财务数据进行判断,缺乏其他的佐证。

发明内容

[0005] 本发明的发明目的在于:针对上述存在的问题,提供一种实景地图的生成方法,能够突破审计部门对数据质量的依赖,并且有效提升审计部门检出问题单位的成功率、可靠性和效率。
[0006] 为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于大数据的审计方法,S1:采集每一对象单位的历年交易数据、历年开票数据和历年审计结果数据,并导入数据仓库中;S2:将每一对象单位的历年交易数据按照第一预设经济分类方式进行分类,得到多种交易分类数据,以及将每一对象单位的历年开票数据按照第二预设经济分类方式进行分类,得到多种开票分类数据;S3:将每一对象单位的历年审计结果数据按照预设审计结论分类方式进行分类,得到多种审计结论分类数据;S4:将所有交易分类数据、开票分类数据和审计结论分类数据作为训练样本,并利用朴素贝叶斯算法对所述训练样本进行训练,得到分类器;S5:将新采集到的目标单位的交易数据和开票数据带入所述分类器,通过所述分类器对所述目标单位的交易数据和开票数据进行分类检测,得到所述目标单位的审计结论分类结果。
[0007] 优选地,所述审计方法还包括:S6:将审计结论分类结果为不正常的目标单位标注为重点待查单位。
[0008] 优选的,所述交易分类数据包括预算支出总额、实际支出总额和实际支出明细额,所述开票分类数据包括支出开票总额,所述审计结论分类数据包括正常、账实不符、账账不符和账票不符,其中,账实不符表示预算支出总额和实际支出总额不符,账账不符表示实际支出总额和实际支出明细额不符,账票不符表示实际支出总额与支出开票总额不符。
[0009] 优选的,所述利用朴素贝叶斯算法对所述训练样本进行训练,得到分类器的步骤具体包括:
[0010] S41:设x={a1,a2,...,am}为待分类项,其中,x代表对象单位,a作为x的特征属性,为对象单位的交易分类数据和开票分类数据,m为自然数;
[0011] S42:设C={y1,y2,...,yn}为类别集合,其中,y为C的审计结论分类,n为自然数;
[0012] S43:利用朴素贝叶斯算法计算条件概率P(y1|x),P(y2|x),...,P(yn|x),其中,朴素贝叶斯算法的计算式为: P(B|A)表示在特征B发生的时候,特征A发生的概率。P(A)表示特征A发生的概率;
[0013] S44:根据条件概率的计算结果得到分类器,其中,分类器表示为:
[0014] 如果P(yk|x)=max{P(y1|x),P(y2|x),...,P(yn|x)},则 k小于或等于n。
[0015] 优选的,所述步骤S43具体包括:
[0016] 步骤S431:选取指定待分类项和指定类别集合作为训练集合;
[0017] 步骤S432:统计得到在各审计结论分类下各个特征属性的条件概率,即:
[0018] P(a1y1),P(a2|y1),...,P(am|y1);P(a1|y2),P(a2|y2),...,P(am|y2);...;P(a1|yn),P(a2|yn),...,P(an|yn);
[0019] 步骤S433:假设各个特征属性是条件独立的,则根据贝叶斯定理计算条件概率,计算式为:
[0020]
[0021] 其中,
[0022] 优选的,所述第一预设经济分类方式为预算支出总额分类方式、实际支出总额分类方式和实际支出明细额分类方式中的一种或多种,所述第二预设经济分类方式为支出开票总额分类方式,所述预设审计结论分类方式为正常分类方式、账实不符分类方式、账账不符分类方式和账票不符分类方式中的一种或多种。
[0023] 综上所述,由于采用了上述技术方案,本发明的基于大数据的审计方法通过利用大数据技术代替传统SQL数据库处理审计数据,利用弱关联代替传统的强关联来分析单位数据,利用机器学习的方法解决审计结论合理性的问题,从而能够突破审计部门对数据质量的依赖,并且有效提升审计部门检出问题单位的成功率、可靠性和效率。

附图说明

[0024] 图1是本发明实施例的基于大数据的审计方法的流程示意图。

具体实施方式

[0025] 本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
[0026] 本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
[0027] 如图1所示,在本发明实施例中,基于大数据的审计方法包括以下步骤:
[0028] S1:采集每一对象单位的历年交易数据、历年开票数据和历年审计结果数据,并导入数据仓库中。
[0029] 其中,对象单位为已经审计过的单位,每一对象的历年交易数据、历年开票数据和历年审计结果数据导入数据仓库后,可以方便实时提取并分析,数据仓库例如为常见的Hive,它是基于Hadoop的一个数据仓库工具。
[0030] S2:将每一对象单位的历年交易数据按照第一预设经济分类方式进行分类,得到多种交易分类数据,以及将每一对象单位的历年开票数据按照第二预设经济分类方式进行分类,得到多种开票分类数据。
[0031] S3:将每一对象单位的历年审计结果数据按照预设审计结论分类方式进行分类,得到多种审计结论分类数据。
[0032] 其中,可以利用Spark对历年交易数据、历年开票数据和历年审计结果数据进行分类,Spark是专为大规模数据处理而设计的快速通用的计算引擎。在本实施例中,交易分类数据包括预算支出总额、实际支出总额和实际支出明细额,开票分类数据包括支出开票总额,审计结论分类数据包括正常、账实不符、账账不符和账票不符,其中,账实不符表示预算支出总额和实际支出总额不符,账账不符表示实际支出总额和实际支出明细额不符,账票不符表示实际支出总额与支出开票总额不符。预算支出总额可以按照实际情况进一步分为工资支出预算总额、产品支出预算总额和其他支出预算总额,实际支出总额可以按照实际情况进一步分为工资实际支出总额、产品实际支出总额和其他实际支出总额,实际支出明细额也可以进一步分为工资实际支出明细额、产品实际支出明细额和其他实际支出明细额,工资实际支出明细额包括工资发放人数以及每人发放的工资。相应的,支出开票总额可以进一步分为工资支出开票总额、产品支出开票总额和其他支出开票总额。
[0033] 第一预设经济分类方式为预算支出总额分类方式、实际支出总额分类方式和实际支出明细额分类方式中的一种或多种,第二预设经济分类方式为支出开票总额分类方式,预设审计结论分类方式为正常分类方式、账实不符分类方式、账账不符分类方式和账票不符分类方式中的一种或多种。
[0034] S4:将所有交易分类数据、开票分类数据和审计结论分类数据作为训练样本,并利用朴素贝叶斯算法对训练样本进行训练,得到分类器。
[0035] S5:将新采集到的目标单位的交易数据和开票数据带入分类器,通过分类器对目标单位的交易数据和开票数据进行分类检测,得到目标单位的审计结论分类结果。
[0036] 其中,分类器对目标单位的交易数据和开票数据进行分类检测后,可以得到目标单位的审计结论分类,例如该目标单位属于账实不符。
[0037] 在本实施例中,审计方法还包括:
[0038] S6:将审计结论分类结果为不正常的目标单位标注为重点待查单位。
[0039] 其中,审计结论分类结果为不正常,那么目标单位的审计结论为不正常,不正常又包括账实不符、账账不符和账票不符三种情形,不论哪种情形,都表示该单位存在问题,标注为重点待查单位后,可以提示审计部门重点排查。
[0040] 在本实施例中,利用朴素贝叶斯算法对训练样本进行训练,得到分类器的步骤具体包括:
[0041] S41:设x={a1,a2,...,am}为待分类项,其中,x代表对象单位,a作为x的特征属性,为对象单位的交易分类数据和开票分类数据,m为自然数;
[0042] S42:设C={y1,y2,...,yn}为类别集合,其中,y为C的审计结论分类,n为自然数;
[0043] S43:利用朴素贝叶斯算法计算条件概率P(y1|x),P(y2|x),...,P(yn|x),其中,朴素贝叶斯算法的计算式为: P(B|A)表示在特征B发生的时候,特征A发生的概率。P(A)表示特征A发生的概率;
[0044] S44:根据条件概率的计算结果得到分类器,其中,分类器表示为:
[0045] 如果P(yk|x)=max{P(y1|x),P(y2|x),...,P(yn|x)},则x∈yk,k小于或等于n。
[0046] 在上述步骤中,步骤S43中的各个条件概率有多种方法可以计算,在本实施例中,步骤S43具体包括:
[0047] 步骤S431:选取指定待分类项和指定类别集合作为训练集合;
[0048] 步骤S432:统计得到在各审计结论分类下各个特征属性的条件概率,即:
[0049] P(a1y1),P(a2|y1),...,P(am|y1);P(a1|y2),P(a2|y2),...,P(am|y2);...;P(a1|yn),P(a2|yn),...,P(an|yn);
[0050] 步骤S433:假设各个特征属性是条件独立的,则根据贝叶斯定理计算条件概率,计算式为:
[0051]
[0052] 其中,
[0053] 在公式 中,因为分母对于所有结论分类为常数,只要将分子最大化即可,又因为各特征属性是条件独立的,所以可以得到:
[0054]
[0055] 本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。