一种单据审核处理方法及设备转让专利

申请号 : CN202311558292.6

文献号 : CN117273667B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李绍轩徐同明马士中任聪王金丽唐昌明

申请人 : 浪潮通用软件有限公司

摘要 :

本申请提供了一种单据审核处理方法及设备,属于数据处理技术领域。该方法获取并将待审核单据文本输入预先训练的语言模型,确定待审核单据文本对应的第一单据字段集合。确定单据提报主体的若干待定语义拼接文本信息,并将各待定语义拼接文本信息及第一单据字段集合输入预置的语义拼接模型,以确定第一单据字段集合中各第一单据字段对应的语义拼接文本子集。将第一单据字段集合及语义拼接文本子集输入语言模型,确定相应的第二单据字段集合。基于第二单据字段集合及语言模型,确定待审核单据文本对应的单据文本向量,以基于单据文本向量与预设审核向量比对集的比对结果,确定单据提报主体对应的待审核单据文本是否审核通过。

权利要求 :

1.一种单据审核处理方法,其特征在于,所述方法包括:

获取单据提报主体的待审核单据文本;

将所述待审核单据文本输入预先训练的语言模型,确定所述待审核单据文本对应的第一单据字段集合;

确定所述单据提报主体的若干待定语义拼接文本信息,并将各所述待定语义拼接文本信息及所述第一单据字段集合输入预置的语义拼接模型,以确定所述第一单据字段集合中各第一单据字段对应的语义拼接文本子集;其中,所述语义拼接文本子集包括用于对所述第一单据字段语义补充的短文本;

将所述第一单据字段集合及所述语义拼接文本子集输入所述语言模型,确定相应的第二单据字段集合;所述第二单据字段集合包括将所述第一单据字段与相应的所述短文本拼接后的第二单据字段;

基于所述第二单据字段集合及所述语言模型,确定所述待审核单据文本对应的单据文本向量,以基于所述单据文本向量与预设审核向量比对集的比对结果,确定所述单据提报主体对应的所述待审核单据文本是否审核通过;

其中,确定所述单据提报主体的若干待定语义拼接文本信息,具体包括:从所述单据提报主体指定的语义采集平台,获取所述单据提报主体对应的若干语义聊天文本;

从若干所述语义聊天文本中,按照预设时间间隔,确定预设时长内的多个语义聊天文本组;

确定所述第一单据字段集合中各字段是否在各所述语义聊天文本组中出现;

若出现,确定相应的所述语义聊天文本组中所述语义聊天文本为所述待定语义拼接文本信息;

其中,将各所述待定语义拼接文本信息及所述第一单据字段集合输入预置的语义拼接模型之前,所述方法还包括:从预设数据库中,采集若干历史单据提报主体的提报单据文本及相应的审核语义补充文本;

将各所述提报单据文本及相应的所述审核语义补充文本作为训练样本,输入所述语义拼接模型,以使所述语义拼接模型确定所述审核语义补充文本与所述提报单据文本对应的拼接属性,生成相应的拼接关系概率表,以便将所述审核语义补充文本与所述提报单据文本拼接,进行语义拼接训练,直至所述语义拼接模型的拼接准确率大于预定值;其中,所述拼接属性包括语序、词性、文本相似度;所述拼接关系概率表包括字段拼接概率、字段拼接位置概率、词元替换概率;

其中,将所述第一单据字段集合及所述语义拼接文本子集输入所述语言模型,确定相应的第二单据字段集合,具体包括:通过所述语言模型,分别将所述第一单据字段集合中第一待拼接字段与所述语义拼接文本子集中相应的第二待拼接字段拼接;以及确定拼接后的拼接字段中的词元数量是否大于字段阈值;

若是,将所述拼接字段作为所述第二单据字段,添加至所述第二单据字段集合。

2.根据权利要求1所述的一种单据审核处理方法,其特征在于,将所述待审核单据文本输入预先训练的语言模型,确定所述待审核单据文本对应的第一单据字段集合之前,所述方法还包括:获取来自所述单据提报主体对应单据提报系统的若干样本单据文本;

将若干所述样本单据文本输入待训练的所述语言模型,以构建相应的单据文本词汇表;其中,所述语言模型包括词嵌入模型;

基于所述单据文本词汇表的词元数量,确定所述语言模型输出的词向量维度,以基于所述单据文本词汇表及所述词向量维度,对所述语言模型进行训练。

3.根据权利要求2所述的一种单据审核处理方法,其特征在于,基于所述单据文本词汇表及所述词向量维度,对所述语言模型进行训练,具体包括:确定所述单据文本词汇表对应的各文本字段;其中,所述文本字段包括至少一个词元;

所述文本字段中的各所述词元用于表征同一语义;

将各所述文本字段的词元数量与字段阈值比较;

在所述文本字段的所述词元数量小于或等于所述字段阈值的情况下,确定所述文本字段对应的共现文本字段集合;

从所述共现文本字段集合随机筛选至少一个共现文本字段,并将所述共现文本字段与所述文本字段拼接,得到待定拼接文本字段;

根据所述待定拼接文本字段及历史单据审批记录,确定所述待定拼接文本字段对应的单据审批通过率,直至遍历完成与所述共现文本字段集合对应的各所述共现文本字段的所述待定拼接文本字段,生成所述单据审批通过率对应的通过率曲线;

确定所述通过率曲线中最大极大值对应的所述待定拼接文本字段,为拼接文本字段,并确定所述拼接文本字段的所述词元数量是否大于所述字段阈值;

若是,将所述拼接文本字段与所述词元数量大于所述字段阈值的各所述文本字段,作为训练样本字段,以将各所述训练样本字段输入所述语言模型进行模型训练。

4.根据权利要求3所述的一种单据审核处理方法,其特征在于,所述方法还包括:确定所述单据文本词汇表中各词元在由各所述样本单据文本构成的语料库中的出现频率;

计算预设词元频率阈值与所述出现频率的比值;

基于预设舍弃概率公式及所述比值,确定所述词元对应的舍弃概率值;

将所述舍弃概率值与预设舍弃概率阈值比较,以根据比较结果,确定是否将所述词元从所述单据文本词汇表中进行剔除。

5.根据权利要求1所述的一种单据审核处理方法,其特征在于,基于所述第二单据字段集合及所述语言模型,确定所述待审核单据文本对应的单据文本向量,具体包括:通过预置向量编码模型,将所述第二单据字段集合中各第二单据字段,按照预设词向量维度,进行向量编码,以得到所述单据文本向量;所述向量编码模型包括以下一种:跳字模型Skip‑Gram、连续词袋模型CBOW。

6.根据权利要求1所述的一种单据审核处理方法,其特征在于,基于所述单据文本向量与预设审核向量比对集的比对结果,确定所述单据提报主体对应的所述待审核单据文本是否审核通过,具体包括:获取预设数据库中存储的所述审核向量比对集;

计算所述单据文本向量与所述审核向量比对集中各审核比对向量的余弦相似度;

在存在至少一个所述余弦相似度大于相似度阈值的情况下,确定所述待审核单据文本审核通过,并将所述单据文本向量添加至所述审核向量比对集。

7.一种单据审核处理设备,其特征在于,所述设备包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述权利要求1‑6任一项所述的一种单据审核处理方法。

说明书 :

一种单据审核处理方法及设备

技术领域

[0001] 本申请涉及数据处理技术领域,尤其涉及一种单据审核处理方法及设备。

背景技术

[0002] 随着经济全球化和企业数字化的浪潮,越来越多的企业搭建了自己的财务共享中心,一个用于处理和共享财务信息的平台。每一天,财务共享中心都会收到海量的、并且种类繁多的单据,如何高效、准确、快速地处理这些单据对于合理的资金分配、库存管理和供应链优化至关重要。
[0003] 然而,传统的单据审核通常采用人工审核的方式,效率低下,即便采取构建的单据审核工具,也不能保证单据审核准确度及效率。如单据审核工具可使用独热向量编码(one‑hot encoding)和TF‑IDF向量化构建的小型语料库的向量化模型进行单据文本向量化,以输入文本向量至机器学习模型进行单据审核。
[0004] 上述审核方式已无法应对数据量暴增的单据,更多的单据提报人,也使得单据内容更冗杂。有些单据审核内容甚至需要线下与提报人沟通,才能获知单据是否可以被通过,这使得人工审核效率低下的弊端更明显。同时机器审核过分依赖于选取的训练样本集及训练程度,无法适应上述实时多变、复杂的单据内容审核场景,仍需要人工介入审核流程,对于提报人的单据审核效率较低。

发明内容

[0005] 为解决上述问题,本申请实施例提供了一种单据审核处理方法及设备。
[0006] 一方面,本申请实施例提供了一种单据审核处理方法,该方法包括:
[0007] 获取单据提报主体的待审核单据文本;
[0008] 将所述待审核单据文本输入预先训练的语言模型,确定所述待审核单据文本对应的第一单据字段集合;
[0009] 确定所述单据提报主体的若干待定语义拼接文本信息,并将各所述待定语义拼接文本信息及所述第一单据字段集合输入预置的语义拼接模型,以确定所述第一单据字段集合中各第一单据字段对应的语义拼接文本子集;其中,所述语义拼接文本子集包括用于对所述第一单据字段语义补充的短文本;
[0010] 将所述第一单据字段集合及所述语义拼接文本子集输入所述语言模型,确定相应的第二单据字段集合;所述第二单据字段集合包括将所述第一单据字段与相应的所述短文本拼接后的第二单据字段;
[0011] 基于所述第二单据字段集合及所述语言模型,确定所述待审核单据文本对应的单据文本向量,以基于所述单据文本向量与预设审核向量比对集的比对结果,确定所述单据提报主体对应的所述待审核单据文本是否审核通过。
[0012] 在本申请的一种实现方式中,将所述待审核单据文本输入预先训练的语言模型,确定所述待审核单据文本对应的第一单据字段集合之前,所述方法还包括:
[0013] 获取来自所述单据提报主体对应单据提报系统的若干样本单据文本;
[0014] 将若干所述样本单据文本输入待训练的所述语言模型,以构建相应的单据文本词汇表;其中,所述语言模型包括词嵌入模型;
[0015] 基于所述单据文本词汇表的词元数量,确定所述语言模型输出的词向量维度,以基于所述单据文本词汇表及所述词向量维度,对所述语言模型进行训练。
[0016] 在本申请的一种实现方式中,基于所述单据文本词汇表及所述词向量维度,对所述语言模型进行训练,具体包括:
[0017] 确定所述单据文本词汇表对应的各文本字段;其中,所述文本字段包括至少一个词元;所述文本字段中的各所述词元用于表征同一语义;
[0018] 将各所述文本字段的词元数量与字段阈值比较;
[0019] 在所述文本字段的所述词元数量小于或等于所述字段阈值的情况下,确定所述文本字段对应的共现文本字段集合;
[0020] 从所述共现文本字段集合随机筛选至少一个共现文本字段,并将所述共现文本字段与所述文本字段拼接,得到待定拼接文本字段;
[0021] 根据所述待定拼接文本字段及历史单据审批记录,确定所述待定拼接文本字段对应的单据审批通过率,直至遍历完成与所述共现文本字段集合对应的各所述共现文本字段的所述待定拼接文本字段,生成所述单据审批通过率对应的通过率曲线;
[0022] 确定所述通过率曲线中最大极大值对应的所述待定拼接文本字段,为拼接文本字段,并确定所述拼接文本字段的所述词元数量是否大于所述字段阈值;
[0023] 若是,将所述拼接文本字段与所述词元数量大于所述字段阈值的各所述文本字段,作为训练样本字段,以将各所述训练样本字段输入所述语言模型进行模型训练。
[0024] 在本申请的一种实现方式中,所述方法还包括:
[0025] 确定所述单据文本词汇表中各词元在由各所述样本单据文本构成的语料库中的出现频率;
[0026] 计算预设词元频率阈值与所述出现频率的比值;
[0027] 基于预设舍弃概率公式及所述比值,确定所述词元对应的舍弃概率值;
[0028] 将所述舍弃概率值与预设舍弃概率阈值比较,以根据比较结果,确定是否将所述词元从所述单据文本词汇表中进行剔除。
[0029] 在本申请的一种实现方式中,将各所述待定语义拼接文本信息及所述第一单据字段集合输入预置的语义拼接模型之前,所述方法还包括:
[0030] 从预设数据库中,采集若干历史单据提报主体的提报单据文本及相应的审核语义补充文本;
[0031] 将各所述提报单据文本及相应的所述审核语义补充文本作为训练样本,输入所述语义拼接模型,以使所述语义拼接模型确定所述审核语义补充文本与所述提报单据文本对应的拼接属性,生成相应的拼接关系概率表,以便将所述审核语义补充文本与所述提报单据文本拼接,进行语义拼接训练,直至所述语义拼接模型的拼接准确率大于预定值;其中,所述拼接属性包括语序、词性、文本相似度;所述拼接关系概率表包括字段拼接概率、字段拼接位置概率、词元替换概率。
[0032] 在本申请的一种实现方式中,确定所述单据提报主体的若干待定语义拼接文本信息,具体包括:
[0033] 从所述单据提报主体指定的语义采集平台,获取所述单据提报主体对应的若干语义聊天文本;
[0034] 从若干所述语义聊天文本中,按照预设时间间隔,确定预设时长内的多个语义聊天文本组;
[0035] 确定所述第一单据字段集合中各字段是否在各所述语义聊天文本组中出现;
[0036] 若出现,确定相应的所述语义聊天文本组中所述语义聊天文本为所述待定语义拼接文本信息。
[0037] 在本申请的一种实现方式中,将所述第一单据字段集合及所述语义拼接文本子集输入所述语言模型,确定相应的第二单据字段集合,具体包括:
[0038] 通过所述语言模型,分别将所述第一单据字段集合中第一待拼接字段与所述语义拼接文本子集中相应的第二待拼接字段拼接;以及
[0039] 确定拼接后的拼接字段中的词元数量是否大于字段阈值;
[0040] 若是,将所述拼接字段作为所述第二单据字段,添加至所述第二单据字段集合。
[0041] 在本申请的一种实现方式中,基于所述第二单据字段集合及所述语言模型,确定所述待审核单据文本对应的单据文本向量,具体包括:
[0042] 通过预置向量编码模型,将所述第二单据字段集合中各第二单据字段,按照预设词向量维度,进行向量编码,以得到所述单据文本向量;所述向量编码模型包括以下一种:跳字模型Skip‑Gram、连续词袋模型CBOW。
[0043] 在本申请的一种实现方式中,基于所述单据文本向量与预设审核向量比对集的比对结果,确定所述单据提报主体对应的所述待审核单据文本是否审核通过,具体包括:
[0044] 获取预设数据库中存储的所述审核向量比对集;
[0045] 计算所述单据文本向量与所述审核向量比对集中各审核比对向量的余弦相似度;
[0046] 在存在至少一个所述余弦相似度大于相似度阈值的情况下,确定所述待审核单据文本审核通过,并将所述单据文本向量添加至所述审核向量比对集。
[0047] 另一方面,本申请实施例还提供了一种单据审核处理设备,所述设备包括:
[0048] 至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
[0049] 获取单据提报主体的待审核单据文本;
[0050] 将所述待审核单据文本输入预先训练的语言模型,确定所述待审核单据文本对应的第一单据字段集合;
[0051] 确定所述单据提报主体的若干待定语义拼接文本信息,并将各所述待定语义拼接文本信息及所述第一单据字段集合输入预置的语义拼接模型,以确定所述第一单据字段集合中各第一单据字段对应的语义拼接文本子集;其中,所述语义拼接文本子集包括用于对所述第一单据字段语义补充的短文本;
[0052] 将所述第一单据字段集合及所述语义拼接文本子集输入所述语言模型,确定相应的第二单据字段集合;所述第二单据字段集合包括将所述第一单据字段与相应的所述短文本拼接后的第二单据字段;
[0053] 基于所述第二单据字段集合及所述语言模型,确定所述待审核单据文本对应的单据文本向量,以基于所述单据文本向量与预设审核向量比对集的比对结果,确定所述单据提报主体对应的所述待审核单据文本是否审核通过。
[0054] 通过上述技术方案,利用预先训练的语言模型,对待审核单据文本进行词嵌入处理,其中利用与单据提报主体的语义相关文本信息,对待审核单据文本进行语义补充处理,避免单据审核对内容的二次确认,从而加快了单据审核效率。并且,本申请提供了无需人工介入的单据审核处理方案,避免投入过多人力成本,解决了当前单据审核过程过分依赖于人工,人力成本高且审核效率低下的问题。

附图说明

[0055] 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0056] 图1为本申请实施例中一种单据审核处理方法的一种流程示意图;
[0057] 图2为本申请实施例中一种单据审核处理方法中的单据文本词汇表的一种示意图;
[0058] 图3为本申请实施例中一种单据审核处理设备的结构示意图。

具体实施方式

[0059] 为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0060] 传统单据审核已无法应对海量、种类繁多的单据,而且每个单据提报人的语言描述方式,如语序、惯用词汇等文本语言描述不同,进一步给传统单据审核方式带来困难。通常情况下,需要人工线下与单据提报人去对接,才能得知是否能够通过该单据。对于单据提报人而言,在完成单据填写后,可能认为描述内容足够单据审核人员审核,若审核人员线下再进行沟通,无疑增加了单据填写人员及审核人员的工作量,导致单据审核效率低下。目前,不能灵活且智能地进行单据审核,使得用户对单据审核流程的体验较差。
[0061] 基于此,本申请实施例提供了一种单据审核处理方法及设备,用于解决当前单据审核过程过分依赖于人工,人力成本高且审核效率低下的问题。
[0062] 以下结合附图,详细说明本申请的各个实施例。
[0063] 本申请实施例提供了一种单据审核处理方法,如图1所示,该方法可以包括步骤S101‑S105:
[0064] S101,服务器获取单据提报主体的待审核单据文本。
[0065] 需要说明的是,服务器作为单据审核处理方法的执行主体,仅为示例性存在,执行主体不仅限于服务器,本申请对此不作具体限定。
[0066] 单据提报主体可以理解为进行上传待审核的单据的对象,例如带有员工标识的用户终端,如员工的手机、电脑等设备。单据提报主体与单据提报人员一一对应。此外,用户也可以在进行单据提报时,主动添加待审核单据对应的对象,例如用户A用其手机为用户B提报待审核单据,可以添加用户B的标识在待审核单据中,服务器解析到用户B的标识后,便将该待审核单据与单据提报主体用户B进行绑定。待审核单据文本是指存储在数据库中的单据文本数据,
[0067] S102,服务器将待审核单据文本输入预先训练的语言模型,确定待审核单据文本对应的第一单据字段集合。
[0068] 在本申请实施例中,将待审核单据文本输入预先训练的语言模型,确定待审核单据文本对应的第一单据字段集合之前,可以对语言模型进行训练,方法还包括:
[0069] 服务器获取来自单据提报主体对应单据提报系统的若干样本单据文本。将若干样本单据文本输入待训练的语言模型,以构建相应的单据文本词汇表。其中,语言模型包括词嵌入模型。基于单据文本词汇表的词元数量,确定语言模型输出的词向量维度,以基于单据文本词汇表及词向量维度,对语言模型进行训练。
[0070] 单据提报系统如企业的财务共享中心,存在大量的单据数据,包括销售订单、采购订单、发票等不同类型的单据。这些数据全部来自企业的内部系统,按照单据的类型进行分类整理,然后将每个单据中的文本内容进行提取,整合成为一个包含样本单据文本的完整的语料库。
[0071] 其中,在内容整合时需要选择合适的数据源,尽可能包真正数据源中的数据涵盖当前任务所需的文本样本。删除噪声、错误或者不相关文本,提高语料库的质量。注意语料库规模,较大的语料库通常可以提供更全面和广泛的文本覆盖,有助于提高模型的泛化能力。如果数据不足,可以考虑使用数据增强技术或引入外部数据源。
[0072] 随后,通过语言模型进行样本单据文本的分词操作,并按照用户预先设定的词频阈值过滤词频较低的包含噪音或无效信息的词语。在构建词汇表的过程中,需要考虑到特殊词和标记,如未知词(UNK)标记、填充(PAD)标记、开始(BOS)和结束(EOS)标记等。这些标记可以帮助模型处理未见过的词语、对齐序列长度等问题。除此之外,还要考虑停用词、大小写敏感性等细节问题。完成上述操作后,便可以得到一个针对于单据文本向量化任务的语料库和词汇表。
[0073] 本申请语言模型包含嵌入于语言模型的词嵌入模型,词嵌入模型可以为Word2vec。服务器可以确定单据文本词汇表的大小,即词元数量,以及通过预设关系,获取用户指定的词向量维度。预设关系如下:
[0074]
[0075] 其中,为词向量维度, 为词元数量。词向量维度具体数值可以由用户指定,本申请对此不作具体限定。如图2所示,单据文本词汇表包含词元1‑词元N,词元1为第一个词元,词元N表示第 个词元;词向量维度为n。
[0076] 在本申请实施例中,上述基于单据文本词汇表及词向量维度,对语言模型进行训练,具体包括:
[0077] 首先,服务器确定单据文本词汇表对应的各文本字段。其中,文本字段包括至少一个词元。文本字段中的各词元用于表征同一语义。
[0078] 在单据文本词汇表中词元构成文本字段,且词元与语义有对应关系,该对应关系存储在服务器中。
[0079] 接着,服务器将各文本字段的词元数量与字段阈值比较。
[0080] 在文本字段的词元数量小于或等于字段阈值的情况下,确定文本字段对应的共现文本字段集合。
[0081] 字段阈值为用于比较词元数量的一阈值,例如5、6等,根据实际使用场景进行设定,本申请对此不作具体限定。在本申请实施例中,若一文本字段中的词元数量小于或等于字段阈值,那么服务器会从单据文本词汇表查找与该文本字段在语料库中共现过的文本字段,生成共现文本字段集合。
[0082] 从共现文本字段集合随机筛选至少一个共现文本字段,并将共现文本字段与文本字段拼接,得到待定拼接文本字段。根据待定拼接文本字段及历史单据审批记录,确定待定拼接文本字段对应的单据审批通过率,直至遍历完成与共现文本字段集合对应的各共现文本字段的待定拼接文本字段,生成单据审批通过率对应的通过率曲线。
[0083] 也就是说,服务器能够进行字段拼接,如将词元数量过少的文本字段与共现文本字段进行拼接,得到待定拼接文本字段,以便为文本字段增加词元数量。随后,服务器将通过历史单据审批记录,查询在待定拼接文本字段出现在单据时,该单据审批通过率是多少。具体可以通过将历史单据审批记录中,待定拼接文本字段出现在单据时的审核通过单据数量与待定拼接文本字段出现的单据数量总数的比值,计算得到单据审批通过率。服务器可以将共现文本字段集合中的各个共现文本字段与文本字段进行拼接,也可以将多个共现文本字段与文本字段进行拼接,遍历完成共现文本字段集合的各个共现文本字段。同时,生成通过率曲线,通过率曲线的横轴为待定拼接文本字段的编号,纵轴为单据审批通过率。
[0084] 随后,服务器确定通过率曲线中最大极大值对应的待定拼接文本字段,为拼接文本字段,并确定拼接文本字段的词元数量是否大于字段阈值。在确定拼接文本字段的词元数量大于字段阈值的情况下,将拼接文本字段与词元数量大于字段阈值的各文本字段,作为训练样本字段,以将各训练样本字段输入语言模型进行模型训练。
[0085] 换言之,服务器将通过率曲线中单据审批通过率的最大值对应的待定拼接文本字段的词元数量与字段阈值的比较结果,确定是否得到用于训练语言模型的训练样本字段,如果确定拼接文本字段的词元数量不大于字段阈值,那么服务器可以生成提示信息,并将提示信息发送至监管终端或用户终端,以让监管终端或用户终端选择剔除上述文本字段还是选择其他待定拼接文本字段继续执行拼接文本字段的词元数量是否大于字段阈值的比较。
[0086] 其中,选择其他待定拼接文本字段继续执行拼接文本字段的词元数量是否大于字段阈值的比较时,服务器将选择通过率曲线中单据审批通过率大于预设通过率阈值的待定拼接文本字段,进行相应的比较操作,并非将所有待定拼接文本字段的词元数量与字段阈值进行比较操作,防止在词元数量大于字段阈值,单据审批通过率不佳,导致训练语言模型的效果差。
[0087] 在本申请实施例中,方法还包括:
[0088] 服务器确定单据文本词汇表中各词元在由各样本单据文本构成的语料库中的出现频率。计算预设词元频率阈值与出现频率的比值。基于预设舍弃概率公式及比值,确定词元对应的舍弃概率值。将舍弃概率值与预设舍弃概率阈值比较,以根据比较结果,确定是否将词元从单据文本词汇表中进行剔除。
[0089] 上述舍弃概率公式如下:
[0090]
[0091] 其中, 表示对第 个词元 舍弃概率值, 表示词元 在语料库的频率,为最大值函数。
[0092] 服务器在计算得到舍弃概率值之后,将舍弃概率值与舍弃概率阈值进行比较,舍弃概率阈值由用户自行设定,本申请对此不作具体限定。舍弃概率值小于舍弃概率阈值时,意味着词元重复或无意义,即便词元与其他词元共现次数很多,服务器将会该词元进行删除。从而提高最终得到的词向量效果,并加快词嵌入模型的训练速度。而且通过上述max函数,可以保证舍弃概率值的非负性。
[0093] S103,服务器确定单据提报主体的若干待定语义拼接文本信息,并将各待定语义拼接文本信息及第一单据字段集合输入预置的语义拼接模型,以确定第一单据字段集合中各第一单据字段对应的语义拼接文本子集。
[0094] 其中,语义拼接文本子集包括用于对第一单据字段语义补充的短文本。
[0095] 在本申请实施例中,将各待定语义拼接文本信息及第一单据字段集合输入预置的语义拼接模型之前,方法还包括:
[0096] 从预设数据库中,采集若干历史单据提报主体的提报单据文本及相应的审核语义补充文本。将各提报单据文本及相应的审核语义补充文本作为训练样本,输入语义拼接模型,以使语义拼接模型确定审核语义补充文本与提报单据文本对应的拼接属性,生成相应的拼接关系概率表,以便将审核语义补充文本与提报单据文本拼接,进行语义拼接训练,直至语义拼接模型的拼接准确率大于预定值。其中,拼接属性包括语序、词性、文本相似度。拼接关系概率表包括字段拼接概率、字段拼接位置概率、词元替换概率。
[0097] 上述预设数据库可以是与服务器连接,用于存储单据相关数据的数据库。数据库中存储有若干历史单据提报主体历史提报单据的提报单据文本,以及对该提报单据文本的审核语义补充文本。例如提报单据文本为“费用A申请”,审核语义补充文本为“用户a申请订单B的费用A报销”或“用户a申请订单B的费用A”。语义拼接模型可以是神经网络模型,通过将提报单据文本、审核语义补充文本作为训练样本,以及数据库中存储的准确的拼接后文本作为训练标签,进行模型训练,直至能够得到提报单据文本与审核语义补充文本准确的拼接关系,得到拼接关系概率表。其中,通过模型训练能够按照拼接属性,如语序、词性、文本相似度,得到相应的字段拼接概率、字段拼接位置概率以及词元替换概率。其中词元替换概率可以理解为同义词替换,例如用户a在表达词元x时,通常用词元y表示,服务器可以根据词元x被用作词元y的次数以及词元x出现总次数,计算该词元x的词元替换概率。
[0098] 在本申请实施例中,上述确定单据提报主体的若干待定语义拼接文本信息,具体包括:
[0099] 服务器从单据提报主体指定的语义采集平台,获取单据提报主体对应的若干语义聊天文本。从若干语义聊天文本中,按照预设时间间隔,确定预设时长内的多个语义聊天文本组。确定第一单据字段集合中各字段是否在各语义聊天文本组中出现。若出现,确定相应的语义聊天文本组中语义聊天文本为待定语义拼接文本信息。
[0100] 也就是说,服务器可以从单据提报主体指定的语义采集平台,例如企业内部的沟通平台、单据提报主体的指定的论坛等沟通平台,采集单据提报主体发送的语义聊天文本。并根据语义聊天文本的时间戳,按照用户指定的时间间隔,采集预设时长内的多个语义聊天文本组。时间间隔例如5秒,预设时长为24小时,服务器可以比较24小时内各个相邻两个语义聊天文本的时间戳是否超过预设时间间隔,若未超过则添加至两个语义聊天文本至语义聊天文本组,若超过了预设时间间隔,则将两个语义聊天文本分别添加在两个语义聊天文本组。预设时间间隔由用户设定,本申请对此不作具体限定。
[0101] S104,服务器将第一单据字段集合及语义拼接文本子集输入语言模型,确定相应的第二单据字段集合。
[0102] 上述第二单据字段集合包括将第一单据字段与相应的短文本拼接后的第二单据字段。
[0103] 在本申请实施例中,将第一单据字段集合及语义拼接文本子集输入语言模型,确定相应的第二单据字段集合,具体包括:
[0104] 服务器通过语言模型,分别将第一单据字段集合中第一待拼接字段与语义拼接文本子集中相应的第二待拼接字段拼接。以及确定拼接后的拼接字段中的词元数量是否大于字段阈值。在确定拼接后的拼接字段中的词元数量大于字段阈值的情况下,将拼接字段作为第二单据字段,添加至第二单据字段集合。
[0105] 在本申请实施例中,语言模型可以是如循环神经网络语言模型嵌入有词嵌入模型而构成的模型。服务器基于语言模型,进行字段拼接,并验证拼接之后的拼接字段的词元数量是否满足大于用户预设的字段阈值的条件。如果满足条件,服务器将认定拼接字段为第二单据字段,并将第二单据字段添加至第二单据字段集合。从而对第一单据字段集合中字段进行语义补充,得到第二单据字段集合,可以为后续单据审核提供更有力的语义支持,避免单据审核时与提报人员二次确认造就的麻烦,加快单据审核效率。
[0106] S105,服务器基于第二单据字段集合及语言模型,确定待审核单据文本对应的单据文本向量,以基于单据文本向量与预设审核向量比对集的比对结果,确定单据提报主体对应的待审核单据文本是否审核通过。
[0107] 在本申请实施例中,基于第二单据字段集合及语言模型,确定待审核单据文本对应的单据文本向量,具体包括:
[0108] 服务器通过预置向量编码模型,将第二单据字段集合中各第二单据字段,按照预设词向量维度,进行向量编码,以得到单据文本向量。向量编码模型包括以下一种:跳字模型Skip‑Gram、连续词袋模型CBOW。
[0109] 换言之,用户可以预先选用跳字模型Skip‑Gram或连续词袋模型CBOW为向量编码模型,通过向量编码模型,按照上述预设的词向量维度进行向量编码,得到单据文本向量。
[0110] 在本申请实施例中,基于单据文本向量与预设审核向量比对集的比对结果,确定单据提报主体对应的待审核单据文本是否审核通过,具体包括:
[0111] 服务器获取预设数据库中存储的审核向量比对集。计算单据文本向量与审核向量比对集中各审核比对向量的余弦相似度。在存在至少一个余弦相似度大于相似度阈值的情况下,确定待审核单据文本审核通过,并将单据文本向量添加至审核向量比对集。
[0112] 余弦相似度计算公式如下:
[0113]
[0114] 其中, 表示第 个单据文本向量与第 个审核比对向量的余弦相似度; 为第 个单据文本向量; 为第 个审核比对向量。
[0115] 也就是说,审核向量比对集存储在数据库中,该审核向量比对集可以是用户预先设置的,包含审核通过单据的文本向量。服务器计算单据文本向量与审核向量比对集中各审核比对向量的余弦相似度,并通过余弦相似度与预设相似度阈值的比较结果,判断待审核单据文本是否能被审核通过。相似度阈值由用户根据实际使用场景进行设定,本申请对此不作具体限定。
[0116] 通过上述技术方案,利用预先训练的语言模型,对待审核单据文本进行词嵌入处理,其中利用与单据提报主体的语义相关文本信息,对待审核单据文本进行语义补充处理,避免单据审核对内容的二次确认,从而加快了单据审核效率。并且,本申请提供了无需人工介入的单据审核处理方案,避免投入过多人力成本,解决了当前单据审核过程过分依赖于人工,人力成本高且审核效率低下的问题。
[0117] 图3为本申请实施例提供的一种单据审核处理设备的结构示意图,如图3所示,设备包括:
[0118] 至少一个处理器;以及,与至少一个处理器通信连接的存储器。其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
[0119] 获取单据提报主体的待审核单据文本。将待审核单据文本输入预先训练的语言模型,确定待审核单据文本对应的第一单据字段集合。确定单据提报主体的若干待定语义拼接文本信息,并将各待定语义拼接文本信息及第一单据字段集合输入预置的语义拼接模型,以确定第一单据字段集合中各第一单据字段对应的语义拼接文本子集。其中,语义拼接文本子集包括用于对第一单据字段语义补充的短文本。将第一单据字段集合及语义拼接文本子集输入语言模型,确定相应的第二单据字段集合。第二单据字段集合包括将第一单据字段与相应的短文本拼接后的第二单据字段。基于第二单据字段集合及语言模型,确定待审核单据文本对应的单据文本向量,以基于单据文本向量与预设审核向量比对集的比对结果,确定单据提报主体对应的待审核单据文本是否审核通过。
[0120] 本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0121] 本申请实施例提供的设备与方法是一一对应的,因此,设备也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备的有益技术效果。
[0122] 还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0123] 以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。