一种生成单据摘要信息的方法、系统、设备和存储介质转让专利

申请号 : CN202310869486.1

文献号 : CN116595164B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨斌潘秀芹马士中王金丽任聪

申请人 : 浪潮通用软件有限公司

摘要 :

本发明涉及计算机应用技术领域,具体提供一种生成单据摘要信息的方法、系统、设备和存储介质,方法包括:根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集;根据所述训练数据集训练自回归模型,并通过所述测试数据集对所述自回归模型进行验证;以及响应于验证通过,将待生成摘要信息的单据输入所述自回归模型以得到摘要信息。本发明可以将原始字段内容进行概括,解决了人工和自动化生成单据无法编写和生成摘要的问题,使单据信息更加全面,避免没有逻辑和信息不准确的描述;通过使用自然语言生成技术,单据摘要编写过程可以被大大简化加速,从而在填写单据信息中提高效率合规。

权利要求 :

1.一种生成单据摘要信息的方法,其特征在于,包括如下步骤:

根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集;

根据所述训练数据集训练自回归模型,并通过所述测试数据集对所述自回归模型进行验证;以及响应于验证通过,将待生成摘要信息的单据输入所述自回归模型以得到摘要信息,所述根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集的步骤包括:根据字段对应数据的稳定性和可信度确定每个字段对应的权重,所述根据字段对应数据的稳定性和可信度确定每个字段对应的权重的步骤包括:计算所有历史单据中同一字段对应数据的平均值或中位数,并根据每个单据中对应字段对应数据与所述平均值或中位数的偏差情况对每个单据中的每个字段分配权重,所述根据每个单据中对应字段对应数据与所述平均值或中位数的偏差情况对每个单据中的每个字段分配权重的步骤包括:响应于单据中对应字段对应数据与所述平均值或中位数的偏差小于第一数值,分配第一权重;响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第一数值且小于第二数值,分配第二权重;以及响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值,分配第三权重,其中,所述第一权重大于所述第二权重,所述第二权重大于所述第三权重。

2.根据权利要求1所述的生成单据摘要信息的方法,其特征在于,所述根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集的步骤包括:根据业务需求确定单据中字段的重要性,并根据所述重要性对字段赋予对应的权重。

3.根据权利要求2所述的生成单据摘要信息的方法,其特征在于,所述根据业务需求确定单据中字段的重要性,并根据所述重要性对字段赋予对应的权重的步骤包括:根据业务需求确定单据中最重要的字段,并赋予所述最重要的字段最高的权重。

4.根据权利要求1所述的生成单据摘要信息的方法,其特征在于,所述响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值,分配第三权重的步骤包括:响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值且小于第三数值,分配第三权重;以及响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第三数值,将所述单据中对应字段对应数据删除。

5.根据权利要求1所述的生成单据摘要信息的方法,其特征在于,所述根据所述训练数据集训练自回归模型的步骤包括:根据单据中的每个字段的权重生成训练数据。

6.根据权利要求1所述的生成单据摘要信息的方法,其特征在于,所述根据所述训练数据集训练自回归模型的步骤包括:将所述训练数据集通过编码器进行编码,并利用解码网络将编码后的信息解码成摘要信息。

7.根据权利要求6所述的生成单据摘要信息的方法,其特征在于,所述将所述训练数据集通过编码器进行编码的步骤包括:采用自注意力机制技术将每个单据中各个字段编码成预设长度的向量。

8.根据权利要求7所述的生成单据摘要信息的方法,其特征在于,所述采用自注意力机制技术将每个单据中各个字段编码成预设长度的向量的步骤包括:根据上下文关系将输入的多个字段信息转换为输入序列。

9.根据权利要求8所述的生成单据摘要信息的方法,其特征在于,所述利用解码网络将编码后的信息解码成摘要信息的步骤包括:通过解码器将编码生成的预设长度的向量转换成自然语言生成序列。

10.根据权利要求9所述的生成单据摘要信息的方法,其特征在于,所述通过解码器将编码生成的预设长度的向量转换成自然语言生成序列的步骤包括:在每个时刻,解码器使用之前生成的文本信息和当前时间步的编码向量计算生成下一个单词或符号的概率分布;以及从所述概率分布中选择最优的单词或符号作为下一个输出。

11.根据权利要求10所述的生成单据摘要信息的方法,其特征在于,所述从所述概率分布中选择最优的单词或符号作为下一个输出的步骤包括:根据上下文和语法规则组合和生成单词和短语。

12.根据权利要求11所述的生成单据摘要信息的方法,其特征在于,所述根据上下文和语法规则组合和生成单词和短语的步骤包括:使用当前解码器状态和编码器隐藏状态之间的乘积来计算当前时刻的权重值;以及将当前时刻的权重值与编码器隐藏状态进行加权求和,得到加权后的编码向量。

13.根据权利要求1所述的生成单据摘要信息的方法,其特征在于,所述通过所述测试数据集对所述自回归模型进行验证的步骤包括:计算所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差;以及响应于所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差小于阈值,确认所述自回归模型符合要求。

14.根据权利要求13所述的生成单据摘要信息的方法,其特征在于,所述通过所述测试数据集对所述自回归模型进行验证的步骤还包括:响应于所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差大于等于阈值,调整编码器字段权重参数和预设长度参数。

15.一种生成单据摘要信息的系统,其特征在于,包括:

生成模块,用于根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集;

验证模块,用于根据所述训练数据集训练自回归模型,并通过所述测试数据集对所述自回归模型进行验证;以及执行模块,用于响应于验证通过,将待生成摘要信息的单据输入所述自回归模型以得到摘要信息,所述生成模块还用于:根据字段对应数据的稳定性和可信度确定每个字段对应的权重,所述生成模块还用于:计算所有历史单据中同一字段对应数据的平均值或中位数,并根据每个单据中对应字段对应数据与所述平均值或中位数的偏差情况对每个单据中的每个字段分配权重,所述生成模块还用于:响应于单据中对应字段对应数据与所述平均值或中位数的偏差小于第一数值,分配第一权重;响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第一数值且小于第二数值,分配第二权重;以及响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值,分配第三权重,其中,所述第一权重大于所述第二权重,所述第二权重大于所述第三权重。

16.一种电子设备,其特征在于,包括:

至少一个处理器;以及

存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1‑14任意一项所述方法的步骤。

17.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1‑14任意一项所述方法的步骤。

说明书 :

一种生成单据摘要信息的方法、系统、设备和存储介质

技术领域

[0001] 本发明涉及计算机应用技术领域,更具体地,特别是指一种生成单据摘要信息的方法、系统、设备和存储介质。

背景技术

[0002] ERP财务系统是一种集成了财务、会计、报表等财务管理模块功能的企业管理软件。它通过计算机网络技术将企业内部财务管理的各个环节以及与外部客户、供应商等的财务交互纳入统一的信息管理平台,通过从系统中填写报账单据与审批流转进行工作。手写单据时需要填写摘要信息,但填报人员的知识水平较难统一,因此难以对单据摘要进行准确描述。容易出现误解、疏漏、错误等问题,并且无法解决自动生成单据场景中摘要不能自动生成的问题。

发明内容

[0003] 有鉴于此,本发明实施例的目的在于提出一种生成单据摘要信息的方法、系统、电子设备及计算机可读存储介质,本发明可以将原始字段内容进行概括,解决了人工和自动化生成单据无法编写和生成摘要的问题,使单据信息更加全面,避免没有逻辑和信息不准确的描述;通过使用自然语言生成技术,单据摘要编写过程可以被大大简化加速,从而在填写单据信息中提高效率合规。
[0004] 基于上述目的,本发明实施例的一方面提供了一种生成单据摘要信息的方法,包括如下步骤:根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集;根据所述训练数据集训练自回归模型,并通过所述测试数据集对所述自回归模型进行验证;以及响应于验证通过,将待生成摘要信息的单据输入所述自回归模型以得到摘要信息。
[0005] 在一些实施方式中,所述根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集的步骤包括:根据业务需求确定单据中字段的重要性,并根据所述重要性对字段赋予对应的权重。
[0006] 在一些实施方式中,所述根据业务需求确定单据中字段的重要性,并根据所述重要性对字段赋予对应的权重的步骤包括:根据业务需求确定单据中最重要的字段,并赋予所述最重要的字段最高的权重。
[0007] 在一些实施方式中,所述根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集的步骤包括:根据字段对应数据的稳定性和可信度确定每个字段对应的权重。
[0008] 在一些实施方式中,所述根据字段对应数据的稳定性和可信度确定每个字段对应的权重的步骤包括:计算所有历史单据中同一字段对应数据的平均值或中位数,并根据每个单据中对应字段对应数据与所述平均值或中位数的偏差情况对每个单据中的每个字段分配权重。
[0009] 在一些实施方式中,所述根据每个单据中对应字段对应数据与所述平均值或中位数的偏差情况对每个单据中的每个字段分配权重的步骤包括:响应于单据中对应字段对应数据与所述平均值或中位数的偏差小于第一数值,分配第一权重;响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第一数值且小于第二数值,分配第二权重;以及响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值,分配第三权重,其中,所述第一权重大于所述第二权重,所述第二权重大于所述第三权重。
[0010] 在一些实施方式中,所述响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值,分配第三权重的步骤包括:响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值且小于第三数值,分配第三权重;以及响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第三数值,将所述单据中对应字段对应数据删除。
[0011] 在一些实施方式中,所述根据所述训练数据集训练自回归模型的步骤包括:根据单据中的每个字段的权重生成训练数据。
[0012] 在一些实施方式中,所述根据所述训练数据集训练自回归模型的步骤包括:将所述训练数据集通过编码器进行编码,并利用解码网络将编码后的信息解码成摘要信息。
[0013] 在一些实施方式中,所述将所述训练数据集通过编码器进行编码的步骤包括:采用自注意力机制技术将每个单据中各个字段编码成预设长度的向量。
[0014] 在一些实施方式中,所述采用自注意力机制技术将每个单据中各个字段编码成预设长度的向量的步骤包括:根据上下文关系将输入的多个字段信息转换为输入序列。
[0015] 在一些实施方式中,所述利用解码网络将编码后的信息解码成摘要信息的步骤包括:通过解码器将编码生成的预设长度的向量转换成自然语言生成序列。
[0016] 在一些实施方式中,所述通过解码器将编码生成的预设长度的向量转换成自然语言生成序列的步骤包括:在每个时刻,解码器使用之前生成的文本信息和当前时间步的编码向量计算生成下一个单词或符号的概率分布;以及从所述概率分布中选择最优的单词或符号作为下一个输出。
[0017] 在一些实施方式中,所述从所述概率分布中选择最优的单词或符号作为下一个输出的步骤包括:根据上下文和语法规则组合和生成单词和短语。
[0018] 在一些实施方式中,所述根据上下文和语法规则组合和生成单词和短语的步骤包括:使用当前解码器状态和编码器隐藏状态之间的乘积来计算当前时刻的权重值;以及将当前时刻的权重值与编码器隐藏状态进行加权求和,得到加权后的编码向量。
[0019] 在一些实施方式中,所述通过所述测试数据集对所述自回归模型进行验证的步骤包括:计算所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差;以及响应于所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差小于阈值,确认所述自回归模型符合要求。
[0020] 在一些实施方式中,所述通过所述测试数据集对所述自回归模型进行验证的步骤包括:响应于所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差大于等于阈值,调整编码器字段权重参数和预设长度参数。
[0021] 本发明实施例的另一方面,提供了一种生成单据摘要信息的系统,包括:生成模块,用于根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集;验证模块,用于根据所述训练数据集训练自回归模型,并通过所述测试数据集对所述自回归模型进行验证;以及执行模块,用于响应于验证通过,将待生成摘要信息的单据输入所述自回归模型以得到摘要信息。
[0022] 本发明实施例的又一方面,还提供了一种电子设备,包括:至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现如上方法的步骤。
[0023] 本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
[0024] 本发明具有以下有益技术效果:可以将原始字段内容进行概括,解决了人工和自动化生成单据无法编写和生成摘要的问题,使单据信息更加全面,避免没有逻辑和信息不准确的描述;通过使用自然语言生成技术,单据摘要编写过程可以被大大简化加速,从而在填写单据信息中提高效率合规。

附图说明

[0025] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
[0026] 图1为本发明提供的生成单据摘要信息的方法的实施例的示意图;
[0027] 图2为本发明提供的生成单据摘要信息的方法的流程图;
[0028] 图3为本发明提供的生成单据摘要信息的系统的实施例的示意图;
[0029] 图4为本发明提供的生成单据摘要信息的电子设备的实施例的硬件结构示意图;
[0030] 图5为本发明提供的生成单据摘要信息的计算机存储介质的实施例的示意图。

具体实施方式

[0031] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
[0032] 需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
[0033] 本发明实施例的第一个方面,提出了一种生成单据摘要信息的方法的实施例。图1示出的是本发明提供的生成单据摘要信息的方法的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
[0034] S1、根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集;
[0035] S2、根据所述训练数据集训练自回归模型,并通过所述测试数据集对所述自回归模型进行验证;以及
[0036] S3、响应于验证通过,将待生成摘要信息的单据输入所述自回归模型以得到摘要信息。
[0037] 根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集。根据业务需求从历史单据中挑选单据的多个字段与单据的摘要生成原始训练的数据和测试数据。历史单据摘要:描述单据的主要内容,用简洁的语言呈现出来的一段文字概述。单据摘要通常包含业务对象、单据类型、关键属性等信息。准备数据集:收集ERP历史单据数据,通过读取数据库中的表实现自动化方式的数据采集,对这些单据进行摘要文本字段、备注字段、说明字段、单据类型、财务信息、配送信息等的收集;处理数据:分为数据清洗和数据预处理,去除无用信息、对数据转换为多个字段、与摘要成组的数据。分为训练数据和测试数据,根据训练数据整理建立词表VoCab。
[0038] 在一些实施方式中,所述根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集的步骤包括:根据业务需求确定单据中字段的重要性,并根据所述重要性对字段赋予对应的权重。不同重要性的字段可以赋予不同的权重,越重要的字段赋予的权重越大。
[0039] 在一些实施方式中,所述根据业务需求确定单据中字段的重要性,并根据所述重要性对字段赋予对应的权重的步骤包括:根据业务需求确定单据中最重要的字段,并赋予所述最重要的字段最高的权重。根据业务需求,确定单据中最重要的字段,例如销售订单中的订单数量、采购订单中的物料价格等。这些字段可能需要赋予更高的权重,以便更好地满足业务需求。
[0040] 在一些实施方式中,所述根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集的步骤包括:根据字段对应数据的稳定性和可信度确定每个字段对应的权重。数据质量对单据字段的挑选也有一定的影响,如果某些单据字段的数据质量不稳定或不可信,可能需要降低这些字段的权重。
[0041] 在一些实施方式中,所述根据字段对应数据的稳定性和可信度确定每个字段对应的权重的步骤包括:计算所有历史单据中同一字段对应数据的平均值或中位数,并根据每个单据中对应字段对应数据与所述平均值或中位数的偏差情况对每个单据中的每个字段分配权重。例如,某些字段对应着具体的数值,可以通过字段对应数据的平均值或中位数来判断数据是否稳定。
[0042] 在一些实施方式中,所述根据每个单据中对应字段对应数据与所述平均值或中位数的偏差情况对每个单据中的每个字段分配权重的步骤包括:响应于单据中对应字段对应数据与所述平均值或中位数的偏差小于第一数值,分配第一权重;响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第一数值且小于第二数值,分配第二权重;以及响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值,分配第三权重,其中,所述第一权重大于所述第二权重,所述第二权重大于所述第三权重。例如,数据与平均值或中位数的偏差小于5%,则分配第一权重,数据与平均数或中位数的偏差大于等于5%且小于10%,则分配第二权重,数据与平均数或中位数的偏差大于等于10%,则分配第三权重。
[0043] 在一些实施方式中,所述响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值,分配第三权重的步骤包括:响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值且小于第三数值,分配第三权重;以及响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第三数值,将所述单据中对应字段对应数据删除。如果数据与平均数或中位数的偏差过大,则可以直接将数据剔除,例如,数据与平均数或中位数的偏差大于等于10%且小于15%,分配第三权重,数据与平均数或中位数的偏差大于等于15%,则可以直接将数据剔除。
[0044] 在一些实施方式中,可以在将偏差太大的数据剔除之后重新计算平均数或中位数以进一步优化数据范围。
[0045] 在其他的实施例中,可以将历史数据中不符合的字段和摘要进行选择性的剔除。
[0046] 根据所述训练数据集训练自回归模型,并通过所述测试数据集对所述自回归模型进行验证。训练出自回归模型使自回归模型支持根据单据的多个字段生成单据的摘要。
[0047] 在一些实施方式中,所述根据所述训练数据集训练自回归模型的步骤包括:根据单据中的每个字段的权重生成训练数据。使用Encoder‑Decoder(编码器‑解码器)结构对单据字段根据预处理后的权重进行加码生成训练数据。
[0048] 在一些实施方式中,所述根据所述训练数据集训练自回归模型的步骤包括:将所述训练数据集通过编码器进行编码,并利用解码网络将编码后的信息解码成摘要信息。定义Encoder部分,将输入文本中的各个字段(如订单号、客户名称、订单内容等)编码成一个固定长度的向量,以便后续的处理和分析。这里的编码可以理解为一种数据变换或压缩的方式,通过压缩输入信息并保留关键信息,将输入信息转化为机器能够理解的形式。
[0049] 在一些实施方式中,所述将所述训练数据集通过编码器进行编码的步骤包括:采用自注意力机制技术将每个单据中各个字段编码成预设长度的向量。为了提高模型对长序列的处理能力,在解码器中引入自注意力机制,用以对编码器捕获的信息进行加权,以此为基础对当前时刻的输入进行编码和解码。本发明实施例采用自注意力机制(Transfomer)的技术对输入文本进行编码。Transfomer通过一系列计算来实现对输入序列的建模,使得模型在处理输入序列时可以考虑到上下文关系,从而更好地捕捉语言中的连续性和时序性。Encoder在处理字字段时,可以利用Transfomer对其进行描述和编码,从而将输入信息转化为一个与输入长度无关的向量。
[0050] Decoder(解码器)是一个能够将Encoder生成的固定长度向量转换为自然语言生成序列的逆操作。因此,Decoder的主要作用是将Encoder编码的信息转化为摘要文本,生成最后的单据摘要。
[0051] 在一些实施方式中,所述采用自注意力机制技术将每个单据中各个字段编码成预设长度的向量的步骤包括:根据上下文关系将输入的多个字段信息转换为输入序列。
[0052] 在一些实施方式中,所述利用解码网络将编码后的信息解码成摘要信息的步骤包括:通过解码器将编码生成的预设长度的向量转换成自然语言生成序列。使用束搜索算法解决生成的语言流畅度问题,束搜索算法旨在消耗有限存储的情况下进行宽度优先遍历,找到最优解。在输出词序列时尽可能地减少重复和无用的信息。在每个时间步上保留多个生成分支,以保证实时性,并按照分支优先级概率选出下一个单词或符号。
[0053] 在一些实施方式中,所述通过解码器将编码生成的预设长度的向量转换成自然语言生成序列的步骤包括:在每个时刻,解码器使用之前生成的文本信息和当前时间步的编码向量计算生成下一个单词或符号的概率分布;以及从所述概率分布中选择最优的单词或符号作为下一个输出。在生成单据摘要的过程中,Decoder采用一种自注意力机制(Transfomer)模型,该模型接收Encoder编码向量作为输入,并生成单据摘要序列。具体来说,在每个时刻,Decoder模型都会使用之前生成的文本信息和当前时间步的Encoder编码向量来计算生成下一个单词或符号的概率分布,然后从概率分布中选择最优的单词或符号作为下一个输出。
[0054] 在一些实施方式中,所述从所述概率分布中选择最优的单词或符号作为下一个输出的步骤包括:根据上下文和语法规则组合和生成单词和短语。Decoder在生成单据摘要的过程中为了使生成的摘要具有足够的语义信息和流畅性,Decoder需要根据上下文和语法规则合理地组合和生成单词和短语。
[0055] 在一些实施方式中,所述根据上下文和语法规则组合和生成单词和短语的步骤包括:使用当前解码器状态和编码器隐藏状态之间的乘积来计算当前时刻的权重值;以及将当前时刻的权重值与编码器隐藏状态进行加权求和,得到加权后的编码向量。Attention(注意力)输出给Decoder来计算上下文的交互向量,使用当前Decoder状态和Encoder隐藏状态之间的乘积来计算当前时刻的权重值,然后将该权重值与Encoder隐藏状态进行加权求和,得到加权后的编码向量。这个编码向量捕捉了Encoder隐藏状态中与当前时刻最相关的信息,因此可以被认为是一个更精确和有针对性的表示避免出现重复和冲突。
[0056] 在一些实施方式中,所述通过所述测试数据集对所述自回归模型进行验证的步骤包括:计算所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差;以及响应于所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差小于阈值,确认所述自回归模型符合要求。
[0057] 在一些实施方式中,所述通过所述测试数据集对所述自回归模型进行验证的步骤包括:响应于所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差大于等于阈值,调整编码器字段权重参数和预设长度参数。
[0058] 使用训练集和验证集对模型进行训练,包括定义损失函数等参数设置。使用如上原理对模型进行训练和预测。通过微调模型和调整超参数等手段,不断优化模型性能,改善模型的生成摘要的效果。
[0059] 响应于验证通过,将待生成摘要信息的单据输入所述自回归模型以得到摘要信息。
[0060] 图2为本发明提供的生成单据摘要信息的方法的流程图,如图2所示,选取单据的多个字段与单据的摘要,使用Encoder(编码器)进行编号和压缩,使用Transfomer(自注意力机制)进行描述和编码,使用Decoder(解码器)将固定长度向量转换为自然语言使用Transfomer(自注意力机制)进行解码,还包括模型优化:Attention(注意力)用于影响Decoder(解码器)和Encoder(编码器)隐藏状态之间的乘积来计算当前时刻的权重值。
[0061] 本发明可以提高填单效率,节省人工成本,提高填单准确度;可以统一快速的生成单据摘要,保证信息的规范性和一致性尽可能地使用自动生成单据摘要的技术,可以提高工作效率和信息准确度,降低人工成本;在自动生成单据过程中对单据摘要字段的生成自动化,大大提高了业务流程的自动化程度。
[0062] 需要特别指出的是,上述生成单据摘要信息的方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于生成单据摘要信息的方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。
[0063] 基于上述目的,本发明实施例的第二个方面,提出了一种生成单据摘要信息的系统。如图3所示,系统200包括如下模块:生成模块,用于根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集;验证模块,用于根据所述训练数据集训练自回归模型,并通过所述测试数据集对所述自回归模型进行验证;以及执行模块,用于响应于验证通过,将待生成摘要信息的单据输入所述自回归模型以得到摘要信息。
[0064] 在一些实施方式中,所述生成模块用于:根据业务需求确定单据中字段的重要性,并根据所述重要性对字段赋予对应的权重。
[0065] 在一些实施方式中,所述生成模块用于:根据业务需求确定单据中最重要的字段,并赋予所述最重要的字段最高的权重。
[0066] 在一些实施方式中,所述生成模块用于:根据字段对应数据的稳定性和可信度确定每个字段对应的权重。
[0067] 在一些实施方式中,所述生成模块用于:计算所有历史单据中同一字段对应数据的平均值或中位数,并根据每个单据中对应字段对应数据与所述平均值或中位数的偏差情况对每个单据中的每个字段分配权重。
[0068] 在一些实施方式中,所述生成模块用于:响应于单据中对应字段对应数据与所述平均值或中位数的偏差小于第一数值,分配第一权重;响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第一数值且小于第二数值,分配第二权重;以及响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值,分配第三权重,其中,所述第一权重大于所述第二权重,所述第二权重大于所述第三权重。
[0069] 在一些实施方式中,所述生成模块用于:响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值且小于第三数值,分配第三权重;以及响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第三数值,将所述单据中对应字段对应数据删除。
[0070] 在一些实施方式中,所述验证模块用于:根据单据中的每个字段的权重生成训练数据。
[0071] 在一些实施方式中,所述验证模块用于:将所述训练数据集通过编码器进行编码,并利用解码网络将编码后的信息解码成摘要信息。
[0072] 在一些实施方式中,所述验证模块用于:采用自注意力机制技术将每个单据中各个字段编码成预设长度的向量。
[0073] 在一些实施方式中,所述验证模块用于:根据上下文关系将输入的多个字段信息转换为输入序列。
[0074] 在一些实施方式中,所述验证模块用于:通过解码器将编码生成的预设长度的向量转换成自然语言生成序列。
[0075] 在一些实施方式中,所述验证模块用于:在每个时刻,解码器使用之前生成的文本信息和当前时间步的编码向量计算生成下一个单词或符号的概率分布;以及从所述概率分布中选择最优的单词或符号作为下一个输出。
[0076] 在一些实施方式中,所述验证模块用于:根据上下文和语法规则组合和生成单词和短语。
[0077] 在一些实施方式中,所述验证模块用于:使用当前解码器状态和编码器隐藏状态之间的乘积来计算当前时刻的权重值;以及将当前时刻的权重值与编码器隐藏状态进行加权求和,得到加权后的编码向量。
[0078] 在一些实施方式中,所述验证模块用于:计算所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差;以及响应于所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差小于阈值,确认所述自回归模型符合要求。
[0079] 在一些实施方式中,所述验证模块用于:响应于所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差大于等于阈值,调整编码器字段权重参数和预设长度参数。
[0080] 基于上述目的,本发明实施例的第三个方面,提出了一种电子设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行以实现如下步骤:S1、根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集;S2、根据所述训练数据集训练自回归模型,并通过所述测试数据集对所述自回归模型进行验证;以及S3、响应于验证通过,将待生成摘要信息的单据输入所述自回归模型以得到摘要信息。
[0081] 在一些实施方式中,所述根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集的步骤包括:根据业务需求确定单据中字段的重要性,并根据所述重要性对字段赋予对应的权重。
[0082] 在一些实施方式中,所述根据业务需求确定单据中字段的重要性,并根据所述重要性对字段赋予对应的权重的步骤包括:根据业务需求确定单据中最重要的字段,并赋予所述最重要的字段最高的权重。
[0083] 在一些实施方式中,所述根据业务需求挑选历史单据的多个字段与对应的历史摘要信息生成训练数据集和测试数据集的步骤包括:根据字段对应数据的稳定性和可信度确定每个字段对应的权重。
[0084] 在一些实施方式中,所述根据字段对应数据的稳定性和可信度确定每个字段对应的权重包括:计算所有历史单据中同一字段对应数据的平均值或中位数,并根据每个单据中对应字段对应数据与所述平均值或中位数的偏差情况对每个单据中的每个字段分配权重。
[0085] 在一些实施方式中,所述根据每个单据中对应字段对应数据与所述平均值或中位数的偏差情况对每个单据中的每个字段分配权重包括:响应于单据中对应字段对应数据与所述平均值或中位数的偏差小于第一数值,分配第一权重;响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第一数值且小于第二数值,分配第二权重;以及响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值,分配第三权重,其中,所述第一权重大于所述第二权重,所述第二权重大于所述第三权重。
[0086] 在一些实施方式中,所述响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值,分配第三权重的步骤包括:响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第二数值且小于第三数值,分配第三权重;以及响应于单据中对应字段对应数据与所述平均值或中位数的偏差大于等于第三数值,将所述单据中对应字段对应数据删除。
[0087] 在一些实施方式中,所述根据所述训练数据集训练自回归模型包括:根据单据中的每个字段的权重生成训练数据。
[0088] 在一些实施方式中,所述根据所述训练数据集训练自回归模型包括:将所述训练数据集通过编码器进行编码,并利用解码网络将编码后的信息解码成摘要信息。
[0089] 在一些实施方式中,所述将所述训练数据集通过编码器进行编码包括:采用自注意力机制技术将每个单据中各个字段编码成预设长度的向量。
[0090] 在一些实施方式中,所述采用自注意力机制技术将每个单据中各个字段编码成预设长度的向量包括:根据上下文关系将输入的多个字段信息转换为输入序列。
[0091] 在一些实施方式中,所述利用解码网络将编码后的信息解码成摘要信息包括:通过解码器将编码生成的预设长度的向量转换成自然语言生成序列。
[0092] 在一些实施方式中,所述通过解码器将编码生成的预设长度的向量转换成自然语言生成序列包括:在每个时刻,解码器使用之前生成的文本信息和当前时间步的编码向量计算生成下一个单词或符号的概率分布;以及从所述概率分布中选择最优的单词或符号作为下一个输出。
[0093] 在一些实施方式中,所述从所述概率分布中选择最优的单词或符号作为下一个输出包括:根据上下文和语法规则组合和生成单词和短语。
[0094] 在一些实施方式中,所述根据上下文和语法规则组合和生成单词和短语包括:使用当前解码器状态和编码器隐藏状态之间的乘积来计算当前时刻的权重值;以及将当前时刻的权重值与编码器隐藏状态进行加权求和,得到加权后的编码向量。
[0095] 在一些实施方式中,所述通过所述测试数据集对所述自回归模型进行验证包括:计算所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差;以及响应于所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差小于阈值,确认所述自回归模型符合要求。
[0096] 在一些实施方式中,所述通过所述测试数据集对所述自回归模型进行验证包括:响应于所述自回归模型得到的预测结果与所述测试数据集中的真实数据的偏差大于等于阈值,调整编码器字段权重参数和预设长度参数。
[0097] 如图4所示,为本发明提供的上述生成单据摘要信息的电子设备的一个实施例的硬件结构示意图。
[0098] 以如图4所示的装置为例,在该装置中包括一个处理器301以及一个存储器302。
[0099] 处理器301和存储器302可以通过总线或者其他方式连接,图4中以通过总线连接为例。
[0100] 存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的生成单据摘要信息的方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现生成单据摘要信息的方法。
[0101] 存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据生成单据摘要信息的方法的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0102] 一个或者多个生成单据摘要信息的方法对应的计算机指令303存储在存储器302中,当被处理器301执行时,执行上述任意方法实施例中的生成单据摘要信息的方法。
[0103] 执行上述生成单据摘要信息的方法的电子设备的任何一个实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
[0104] 本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时执行生成单据摘要信息的方法的计算机程序。
[0105] 如图5所示,为本发明提供的上述生成单据摘要信息的计算机存储介质的一个实施例的示意图。以如图5所示的计算机存储介质为例,计算机可读存储介质401存储有被处理器执行时执行如上方法的计算机程序402。
[0106] 最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,生成单据摘要信息的方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
[0107] 以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
[0108] 应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
[0109] 上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
[0110] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0111] 所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。