一种用于对进销项商品种类差异进行度量的方法及系统转让专利

申请号 : CN201711157256.3

文献号 : CN110019798B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 舒南飞林文辉

申请人 : 航天信息股份有限公司

摘要 :

本发明公开了一种用于对进销项商品种类差异进行度量的方法,所述方法包括:根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型;根据预设周期内的商品的发票数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类的更新列表;根据进销项差异度量公式,按照更新的商品和服务分类的粗细分类程度计算企业的进销项商品的种类差异。本发明能够准确地反应企业的进货和出货商品和服务类别,从而识别出有异常经营行为的企业。同时,通过更正后的商品和服务分类编码对企业进项和销项进行分析,提高了分类的准确度并减小了计算的工作量。

权利要求 :

1.一种用于对进销项商品种类差异进行度量的方法,其特征在于,所述方法包括:根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型;其中所述规则集数据为:商品名称、描述关键字与商品和服务分类编码的对应关系数据;

根据预设周期内的商品的发票数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类编码更新列表;

根据进销项差异度量公式,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异;

其中,所述根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型,包括:将旧标准的商品和服务分类编码替换为新标准的商品和服务分类编码,对商品和服务分类编码进行更新;

利用历史发票数据中的商品和服务的属性信息确定属性信息到商品和服务分类编码的频次关系;

根据《商品和服务税收分类与编码》规定获取商品名称、描述关键字商品和服务分类编码的关系,确定规则集数据;

利用所述属性信息到商品和服务分类编码的频次关系和规则集数据建立商品和服务分类编码的分析识别模型。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型之前,对历史发票数据进行处理,去除非商品和服务名称文字描述的历史发票数据以及停用商品的历史发票数据。

3.根据权利要求1所述的方法,其特征在于,所述属性信息包括:商品和服务的名称进行分词所获得的单词组、商品和服务的名称、规格型号、单价、单位、企业的经营范围和企业的行业信息。

4.根据权利要求1所述的方法,其特征在于,所述进销项差异度量公式为:其中,Set(Buy)和Set(Sell)分别为购进和销售商品的分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数。

5.根据权利要求1所述的方法,其特征在于,所述按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异,包括:若使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码计算企业的进销项商品的种类差异;

若不使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码计算企业的进销项商品的种类差异。

6.一种用于对进销项商品种类差异进行度量的系统,其特征在于,所述系统包括:商品和服务分类编码的分析识别模型建立单元,用于根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型;其中所述规则集数据为:商品名称、描述关键字与商品和服务分类编码的对应关系数据;

商品和服务分类编码更新单元,用于根据预设周期内的商品的发票数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类编码更新列表;

进销项商品的种类差异计算单元,用于根据进销项差异度量公式,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异;

其中,所述商品和服务分类编码的分析识别模型建立单元,根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型,包括:将旧标准的商品和服务分类编码替换为新标准的商品和服务分类编码,对商品和服务分类编码进行更新;

利用历史发票数据中的商品和服务的属性信息确定属性信息到商品和服务分类编码的频次关系;

根据《商品和服务税收分类与编码》规定获取商品名称、描述关键字商品和服务分类编码的关系,确定规则集数据;

利用所述属性信息到商品和服务分类编码的频次关系和规则集数据建立商品和服务分类编码的分析识别模型。

7.根据权利要求6所述的系统,其特征在于,所述系统还包括:

根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型之前,对历史发票数据进行处理,去除非商品和服务名称文字描述的历史发票数据以及停用商品的历史发票数据。

8.根据权利要求6所述的系统,其特征在于,所述属性信息包括:商品和服务的名称进行分词所获得的单词组、商品和服务的名称、规格型号、单价、单位、企业的经营范围和企业的行业信息。

9.根据权利要求6所述的系统,其特征在于,所述进销项差异度量公式为:其中,Set(Buy)和Set(Sell)分别为购进和销售商品的分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数。

10.根据权利要求6所述的系统,其特征在于,所述进销项商品的种类差异计算单元,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异,包括:若使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码计算企业的进销项商品的种类差异;

若不使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码计算企业的进销项商品的种类差异。

说明书 :

一种用于对进销项商品种类差异进行度量的方法及系统

技术领域

[0001] 本发明涉及税务风险管理技术领域,并且更具体地,涉及一种用于对进销项商品种类差异进行度量的方法及系统。

背景技术

[0002] 2016年2月15日国家税务总局发布了《关于开展商品和服务税收分类与编码试点工作的通知》,并公布了《商品和服务税收分类与编码(试行)》的分类与编码标准文件,并要求在增值税发票系统升级版中增加了编码相关功能。在过去一年多商品和服务税收分类与编码的使用过程中,企业开票端在对所销售物品开具发票时,需要从4000余种分类编码中选择一种相应的编码。由于不同的开票企业,对商品和服务分类编码的理解不同,对同一名称的商品和服务,所选择的分类编码可能会不一致。而且,分类编码存在大类和小类之分,这也是造成分类编码不一致的一个因素,比如,企业开票员对最细的商品和服务分类编码拿不准,可能就会选择较准确,范围较宽的上一级商品和服务分类编码。除此之外,企业开票者,无论出于操作不便和开票随意的原因,也会出现随意选择分类编码的情况。这些不准确的分类编码的数据的产生,与国家税务总局开展商品和服务税收分类与编码试点工作的初衷不符,也不利用使用这些数据开展税务数据分析工作。
[0003] 由于企业在进货和销货时所开具的发票信息上的商品和服务名称存在不完全一致的情况,通过名称文本进行完全匹配的方式来度量差异,存在物品名称间差异度量不准确,比如:苹果笔记本和苹果笔记本电脑的一致程度度量;以及计算费时等情况,在海量发票数据,千万级企业规模的情况下,计算代价大。
[0004] 鉴于目前的含分类编码的发票数据的开具显示情况以及商品和服务名称在开票时无法做到名称文本描述完全一致的情况,不能准确地反应企业的进货商品和服务类别,出货商品服务和类别,识别出有异常经营行为的企业的情况,需要一种用于对进销项商品种类差异进行度量的方法。

发明内容

[0005] 本发明提供了一种用于对进销项商品种类差异进行度量的方法及系统,以解决不能准确地确定企业的进货和出货的商品和服务类别,从而识别有异常经营行为的商贸型企业的问题。
[0006] 为了解决上述问题,根据本发明的一个方面,提供了一种用于对进销项商品种类差异进行度量的方法,其特征在于,所述方法包括:
[0007] 根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型;其中所述规则集数据为:商品名称、描述关键字与商品和服务分类编码的对应关系数据;
[0008] 根据预设周期内的商品的发票数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类编码更新列表;
[0009] 根据进销项差异度量公式,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异。
[0010] 优选地,其中所述方法还包括:
[0011] 根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型之前,
[0012] 对历史发票数据进行处理,去除非商品和服务名称文字描述的历史发票数据以及停用商品的历史发票数据。
[0013] 优选地,其中所述根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型,包括:
[0014] 将旧标准的商品和服务分类编码替换为新标准的商品和服务分类编码,对商品和服务分类编码进行更新;
[0015] 利用历史发票数据中的商品和服务的属性信息确定属性信息到商品和服务分类编码的频次关系;
[0016] 根据《商品和服务税收分类与编码》规定获取商品名称、描述关键字商品和服务分类编码的关系,确定规则集数据;
[0017] 利用所述属性信息到商品和服务分类编码的频次关系和规则集数据建立商品和服务分类编码的分析识别模型。
[0018] 优选地,其中所述属性信息包括:商品和服务的名称进行分词所获得的单词组、商品和服务的名称、规格型号、单价、单位、企业的经营范围和企业的行业信息。
[0019] 优选地,其中所述进销项差异度量公式为:
[0020]
[0021] 其中,Set(Buy)和Set(Sell)分别为购进和销售商品的分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数。
[0022] 优选地,其中所述按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异,包括:
[0023] 若使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码计算企业的进销项商品的种类差异;
[0024] 若不使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码计算企业的进销项商品的种类差异。
[0025] 根据本发明的另一个方面,提供了一种用于对进销项商品种类差异进行度量的系统,其特征在于,所述系统包括:
[0026] 商品和服务分类编码的分析识别模型建立单元,用于根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型;其中所述规则集数据为:商品名称、描述关键字与商品和服务分类编码的对应关系数据;
[0027] 商品和服务分类编码更新单元,用于根据预设周期内的商品的发票数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类编码更新列表;
[0028] 进销项商品的种类差异计算单元,用于根据进销项差异度量公式,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异。
[0029] 优选地,其中所述系统还包括:
[0030] 根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型之前,
[0031] 对历史发票数据进行处理,去除非商品和服务名称文字描述的历史发票数据以及停用商品的历史发票数据。
[0032] 优选地,其中所述商品和服务分类编码的分析识别模型建立单元,根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型,包括:
[0033] 将旧标准的商品和服务分类编码替换为新标准的商品和服务分类编码,对商品和服务分类编码进行更新;
[0034] 利用历史发票数据中的商品和服务的属性信息确定属性信息到商品和服务分类编码的频次关系;
[0035] 根据《商品和服务税收分类与编码》规定获取商品名称、描述关键字商品和服务分类编码的关系,确定规则集数据;
[0036] 利用所述属性信息到商品和服务分类编码的频次关系和规则集数据建立商品和服务分类编码的分析识别模型。
[0037] 优选地,其中所述属性信息包括:商品和服务的名称进行分词所获得的单词组、商品和服务的名称、规格型号、单价、单位、企业的经营范围和企业的行业信息。
[0038] 优选地,其中所述进销项差异度量公式为:
[0039]
[0040] 其中,Set(Buy)和Set(Sell)分别为购进和销售商品的分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数。
[0041] 优选地,其中所述进销项商品的种类差异计算单元,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异,包括:
[0042] 若使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码计算企业的进销项商品的种类差异;
[0043] 若不使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码计算企业的进销项商品的种类差异。
[0044] 本发明提供了一种用于对进销项商品种类差异进行度量的方法及系统,利用含商品和服务分类编码的发票历史数据,以特定信息-商品和服务分类编码的频次为基础,建立商品和服务分类编码的分析识别模型;然后通过所建立的商品和服务分类编码的分析识别模型,对已开具发票数据中的商品和服务分类编码进行更新;按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异。本发明利用建立的商品和服务分类编码的分类识别模型对历史开票数据中的分类编码进行更正,然后利用更新后的分类的商品和服务分类编码来度量进销项商品的种类差异,能够准确地反应商贸型企业的进货和出货商品和服务类别,从而识别出有异常经营行为的企业。同时,通过更正后的分类商品和服务分类编码对企业进项和销项进行分析,相比直接使用进项和销项物品名称来分析比较,提高了分类的准确度并减小了计算的工作量。

附图说明

[0045] 通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
[0046] 图1为根据本发明实施方式的用于对进销项商品种类差异进行度量的方法100的流程图;
[0047] 图2为根据本发明实施方式的对进销项商品的种类差异进行度量的方法200的流程图;以及
[0048] 图3为根据本发明实施方式的用于对进销项商品种类差异进行度量的系统300的结构示意图。

具体实施方式

[0049] 现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
[0050] 除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
[0051] 图1为根据本发明实施方式的用于对进销项商品种类差异进行度量的方法100的流程图。本发明实施方式的用于对进销项商品种类差异进行度量的方法利用含商品和服务分类编码的发票历史数据,以特定信息-商品和服务分类编码的频次为基础,建立商品和服务分类编码的分析识别模型;然后通过所建立的商品和服务分类编码的分析识别模型,对已开具发票数据中的商品和服务分类编码进行更新;按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异。本发明主要针对商贸型企业进货物品和销售物品的差异程度,来识别商贸型企业的购进和销售物品种类不同的异常经营行为。而这种购进和卖出不一致的经营行为的相关企业,往往伴随着偷逃税。本发明能为税务执法部门抓获逃税企业提供决策支持同时,通过分类商品和服务分类编码对企业进项和销项进行分析,相比直接使用进项和销项物品名称来分析比较,提高了分类的准确度并减小了计算的工作量。本发明实施方式的用于对进销项商品种类差异进行度量的方法100从步骤101处开始,在步骤101根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型;其中所述规则集数据为:商品名称、描述关键字与商品和服务分类编码的对应关系数据。
[0052] 优选地,其中所述方法还包括:
[0053] 根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型之前,
[0054] 对历史发票数据进行处理,去除非商品和服务名称文字描述的历史发票数据以及停用商品的历史发票数据。
[0055] 优选地,其中所述根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型,包括:
[0056] 将旧标准的商品和服务分类编码替换为新标准的商品和服务分类编码,对商品和服务分类编码进行更新;
[0057] 利用历史发票数据中的商品和服务的属性信息确定属性信息到商品和服务分类编码的频次关系;
[0058] 根据《商品和服务税收分类与编码》规定获取商品名称、描述关键字商品和服务分类编码的关系,确定规则集数据;
[0059] 利用所述属性信息到商品和服务分类编码的频次关系和规则集数据建立商品和服务分类编码的分析识别模型。
[0060] 优选地,其中所述属性信息包括:商品和服务的名称进行分词所获得的单词组、商品和服务的名称、规格型号、单价、单位、企业的经营范围和企业的行业信息。
[0061] 在本发明的实施方式中,通过国家税务局的信息系统获取积累的海量的增值税发票商品和服务的发票明细数据,其中主要字段为商品和服务的名称、规格型号、单价、企业的经营范围、企业的行业信息、发票开具时开票人选择的商品和服务分类编码,开票日期等。经对含商品和服务名称以及商品和服务分类编码的历史发票数据进行分析后,在全量数据中发现在单张商品和服务的明细发票中商品和服务名称到商品和服务分类编码对应关系约有50%可以认为是正确的,也就是说有大约一半的发票数据中,企业开票员为商品和服务选择商品和服务分类编码时,选择了相对正确的商品和服务分类编码。另外,通过税务数据分析人员的业务员经验指定的商品和服务名称的规则,经数据清洗,删除历史发票数据中不进入模型训练的数据。比如,非常规物品和服务的名称有:仅由数字和字母组成的商品名称;没有实际意义的商品名称,比如,“详见销货清单”这类名称等。通过在模型中加入商品和服务的规格型号,商品和服务的单价,企业的经营范围等特征,能增加判定商品和服务的名称描述到特定分类编码的准确性。
[0062] 国家税务局在《商品和服务税收分类与编码(试行)》实施后,对分类编码和标准做了轻微的调整,也需要对历史数据中分类编码进行更正和补充。本发明实施方式的基于增值税发票商品和服务的发票明细历史数据所建立的商品和服务名称到商品和服务分类编码的分类识别模型,是建立在大数据基本思想下,所针对的商品和服务的开票几乎涵盖了所有的物品以及相信大多数企业开票员都是在开票时尽可能对相应物品选择较准确的商品和服务分类编码的前提下;其次,《商品和服务税收分类与编码(试行)》其中分类规则也是模型训练的重要输入,对历史数据中未出现的物品的分类做出补充。
[0063] 本发明的实施方式所提出的基于增值税发票商品和服务的发票明细历史数据所建立的商品和服务名称到商品和服务分类编码的分类识别模型,随着发票数据的不断增加,模型识别的准确性会不断提升。为了增加分类编码识别模型的鲁棒性,对某一商品和服务名称返回概率由大到小的多个商品和服务分类编码,降低返回单一商品和服务分类编码错分的可能性。
[0064] 优选地,在步骤102根据预设周期内的商品的发票数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类编码更新列表。
[0065] 在本发明的实施方式中,根据建立的商品和服务名称到商品和服务分类编码的分类识别模型,对待分析时间段的发票数据中商品和服务分类编码进行更新。预设周期,基于正常情况下,进的货物,会在周期时间一年内销售。在更新时,只需将商品和服务的名称,商品和服务的规格型号,商品的单价信息,开票企业的经营范围,开票企业的行业信息等作为输入,传递给分类识别模型,得出含概率大小的商品和服务分类编码列表。
[0066] 优选地,在步骤103根据进销项差异度量公式,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异。
[0067] 优选地,其中所述进销项差异度量公式为:
[0068]
[0069] 其中,Set(Buy)和Set(Sell)分别为购进和销售商品的分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数。
[0070] 优选地,其中所述按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异,包括:
[0071] 若使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码计算企业的进销项商品的种类差异;
[0072] 若不使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码计算企业的进销项商品的种类差异。
[0073] 图2为根据本发明实施方式的对进销项商品的种类差异进行度量的方法200的流程图。如图2所示,在步骤201通过开票日期,选取特定经营周期内的发票数据。
[0074] 在步骤202,利用商品和服务分类编码分析识别模型,获取更新后的商品和服务分类编码列表。
[0075] 在步骤203,对是否使用细粒度的商品和服务分类编码进行判断;其中[0076] 若使用细粒度的商品和服务分类编码,则进入步骤204按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码分别计算企业的进销项商品的编码集,然后进入步骤206;
[0077] 若不使用细粒度的商品和服务分类编码,则进入步骤205按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码分别计算企业的进销项商品的编码集,然后进入步骤206。
[0078] 在步骤206,根据计算的企业的进销项商品的编码集利用进销项差异度量公式计算企业的进销项商品的种类差异。
[0079] 在本发明的实施方式中,更正的物品分类编码为物品分类编码列表,为方便设定宽严程度不一的企业进销项种类差异度,在对企业进销项物品差异度进行度量时,计算一定的经营周期(通常时间跨度为1年以上,按月往前推算一定的时间周期)内购进物品的物品分类编码种类和销售物品的物品分类编码种类的差异。进销项差异度量公式为:
[0080]
[0081] 其中,Set(Buy)和Set(Sell)分别为购进和销售物品分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数,用于避免|Set(Buy)∪Set(Sell)|为0时,分母的除0操作。商品和服务分类编码分类表为根据物品分类编码的特点层级划分,从粗类到细类进行划分。如表1所示,为商品和服务分类编码的从粗类到细类的编码情况。
[0082] 表1物品分类编码列表
[0083]
[0084] 在判断企业进项和销项差异度较为严格时,使用更正后物品分类编码概率最大的种类作为物品分类编码;在判断企业进项和销项差异度较宽泛时,使用编码规则的“篇+类+章+节”来作为较粗粒度的商品和服务分类编码规则,在所返回的商品和服务分类编码列表中找出出现概率和最大的粗粒度商品和服务分类编码规则(由“篇+类+章+节”组成的编码规则)作为衡量物品差异度时的商品和服务分类编码。细粒度的商品和服务分类编码是最小的类,最低级别的类。不适用细粒度的商品和服务分类编码,指的将同一类大类的商品和服务分类编码推荐的概率求和,概率和的最大值为最终设定的商品和服务分类编码,然后再计算物品种类差异度。企业进项和销项差异度使用宽泛的,粗粒度的商品和服务分类编码规则时,实际情形是在这种宽泛标准下,计算出的企业进销项的差异度较大的企业,在同等数值下,要比使用细粒度的商品和服务分类编码规则的进项销项差异度来度量的企业的异常行为严重。本发明提出的两种物品差异度度量方法,可以同时使用,也可以根据业务需求,侧重于观察某种度量方法,用于商贸型企业的进销项种类差异这种异常经营行为的识别。
[0085] 图3为根据本发明实施方式的用于对进销项商品种类差异进行度量的系统300的结构示意图。如图3所示,本发明实施方式的用于对进销项商品种类差异进行度量的系统300包括:商品和服务分类编码的分析识别模型建立单元301、进销项商品的种类差异计算单元302和进销项商品的种类差异计算单元303。优选地,在商品和服务分类编码的分析识别模型建立单元301,根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型;其中所述规则集数据为:商品名称、描述关键字与商品和服务分类编码的对应关系数据。优选地,其中所述系统还包括:
[0086] 根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型之前,
[0087] 对历史发票数据进行处理,去除非商品和服务名称文字描述的历史发票数据以及停用商品的历史发票数据。
[0088] 优选地,其中所述商品和服务分类编码的分析识别模型建立单元301,根据包含商品和服务明细的历史发票数据与规则集数据建立商品和服务分类编码的分析识别模型,包括:
[0089] 将旧标准的商品和服务分类编码替换为新标准的商品和服务分类编码,对商品和服务分类编码进行更新;
[0090] 利用历史发票数据中的商品和服务的属性信息确定属性信息到商品和服务分类编码的频次关系;
[0091] 根据《商品和服务税收分类与编码》规定获取商品名称、描述关键字商品和服务分类编码的关系,确定规则集数据;
[0092] 利用所述属性信息到商品和服务分类编码的频次关系和规则集数据建立商品和服务分类编码的分析识别模型。
[0093] 优选地,其中所述属性信息包括:商品和服务的名称进行分词所获得的单词组、商品和服务的名称、规格型号、单价、单位、企业的经营范围和企业的行业信息。
[0094] 优选地,在商品和服务分类编码更新单元302,根据预设周期内的商品的发票数据的属性信息利用商品和服务分类编码的分析识别模型,确定商品和服务的以概率降序排列的商品和服务分类编码更新列表。
[0095] 优选地,在进销项商品的种类差异计算单元303,根据进销项差异度量公式,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异。
[0096] 优选地,其中所述进销项差异度量公式为:
[0097]
[0098] 其中,Set(Buy)和Set(Sell)分别为购进和销售商品的分类编码种类的集合,|Set(Buy)∩Set(Sell)|为在Set(Buy)和Set(Sell)中同时出现的商品和服务分类编码个数,|Set(Buy)∪Set(Sell)|为在Set(Buy)和Set(Sell)中出现过的商品和服务分类编码个数,δ为一个较小的浮点数。
[0099] 优选地,其中所述进销项商品的种类差异计算单元303,按照更新的商品和服务分类编码的粗细分类程度计算企业的进销项商品的种类差异,包括:
[0100] 若使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码计算企业的进销项商品的种类差异;
[0101] 若不使用细粒度的商品和服务分类编码,则按照更新的商品和服务分类编码的最大概率值对应的商品和服务分类编码和的上级商品的商品和服务分类编码计算企业的进销项商品的种类差异。
[0102] 本发明的实施例的用于对进销项商品种类差异进行度量的方法100与本发明的另一个实施例的用于对进销项商品种类差异进行度量的系统300相对应,在此不再赘述。
[0103] 已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
[0104] 通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。