应用于大数据分析中的文档解析处理方法、系统及装置转让专利

申请号 : CN201711080717.1

文献号 : CN108073678B

文献日 : 2020-08-28

本发明公开了一种文档解析处理方法、系统及装置，该方法包括：利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对不同格式的文档进行财务报表的定位处理；对财务报表内的数据进行定位处理后，记录财务数据及对应的指标名称和时间；对数值型数据进行单位换算后记录数据。该系统包括：构建单元、获取单元、第一定位单元、第二定位单元及换算单元。该装置包括存储器及处理器，当程序被处理器执行，令处理器实现所述文档解析处理方法。本发明能够快速、准确地对不同格式文档中的财务数据进行解析，提高解析方案的应用兼容性、全面性、准确度和处理效率。本发明作为文档解析处理方法、系统及装置可广泛应用于大数据解析技术领域中。

1.应用于大数据分析中的文档解析处理方法，其特征在于：该方法包括以下步骤：构建财务指标的正则表达式规则；

获取财务报表的起始特征指标和结束特征指标；

利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对不同格式的文档进行财务报表的定位处理；

对财务报表内的数据进行定位处理后，记录财务数据以及与财务数据对应的指标名称和时间；

对属于数值型的数据进行单位换算后，记录换算后得到的数据；

所述构建财务指标的正则表达式规则这一步骤，具体包括以下步骤：获取标准名称库，所述标准名称库中存储有财务指标的标准名称；

构建实际名称库，所述实际名称库中存储有从文档中提取得到的财务指标的实际名称；

建立实际名称库中的实际名称与标准名称库中的标准名称之间的名称映射关系；

根据名称映射关系，构建财务指标的正则表达式规则。

2.根据权利要求1所述应用于大数据分析中的文档解析处理方法，其特征在于：所述获取财务报表的起始特征指标和结束特征指标这一步骤，其具体包括：抽取多个包含财务报表的文档；

对每一个文档中的财务报表的起始内容进行指标提取，然后，根据提取出的指标的出现频次，按照从大到小的顺序，对指标进行排序，选取前m1个指标构建得到起始特征指标列表；

对每一个文档中的财务报表的结束内容进行指标提取，然后，根据提取出的指标的出现频次，按照从大到小的顺序，对指标进行排序，选取前m2个指标构建得到结束特征指标列表。

3.根据权利要求2所述应用于大数据分析中的文档解析处理方法，其特征在于：所述利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对不同格式的文档进行财务报表的定位处理这一步骤，其具体包括：根据财务报表表格出现的先后次序，为文档中的每一个财务报表表格配置对应的ID；

利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对文档中的每一个财务报表表格进行解析判断，从而定位得出起始表格和结束表格，其中，所述起始表格指的是处于财务报表起始位置的财务报表表格，所述结束表格指的是处于财务报表结束位置的财务报表表格；

根据起始表格的ID和结束表格的ID，将起始表格的ID和结束表格的ID之间的所有ID所对应的财务报表表格中的数据，均标记为对应财务报表类型的财务数据。

4.根据权利要求3所述应用于大数据分析中的文档解析处理方法，其特征在于：所述利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对文档中的每一个财务报表表格进行解析判断，从而定位得出起始表格和结束表格这一步骤，其具体包括：当表格的起始标志为假值时，利用财务指标的正则表达式规则，从当前的财务报表表格的起始内容中识别提取出n1个指标，然后，将识别提取出的n1个指标与起始特征指标列表中的指标进行匹配后，得到第一匹配率，接着，当第一匹配率大于第一阈值时，则判定当前的财务报表表格为起始表格；

当表格的起始标志为真值时，利用财务指标的正则表达式规则，从当前的财务报表表格的结束内容中识别提取出n2个指标，然后，将识别提取出的n2个指标与结束特征指标列表中的指标进行匹配后，得到第二匹配率，接着，当第二匹配率大于第二阈值时，则判定当前的财务报表表格为结束表格；

其中，n1

5.根据权利要求1-4任一项所述应用于大数据分析中的文档解析处理方法，其特征在于：所述对财务报表内的数据进行定位处理后，记录财务数据以及与财务数据对应的指标名称和时间这一步骤，其具体包括：建立财务报表表格中的数据所对应的指标名称与所在行数之间的第一映射关系；

建立财务报表表格中的数据所对应的时间信息与所在列数之间的第二映射关系；

利用财务报表表格中的数据所对应的行列数、第一映射关系及第二映射关系，记录财务数据以及与财务数据对应的指标名称和时间。

6.根据权利要求1-4任一项所述应用于大数据分析中的文档解析处理方法，其特征在于：所述对属于数值型的数据进行单位换算后，记录换算后得到的数据这一步骤，其具体包括：利用单位信息的正则表达式规则，识别得出财务报表的单位信息；

根据识别得出的单位信息，对属于数值型的数据进行单位换算处理，令属于数值型的数据换算为以元为单位的财务数据并记录下来。

7.根据权利要求6所述应用于大数据分析中的文档解析处理方法，其特征在于：所述利用单位信息的正则表达式规则，识别得出财务报表的单位信息这一步骤，其具体包括：对财务报表表格中的数据进行遍历，利用单位信息的正则表达式规则，判断识别财务报表表格中的数据是否存有单位信息，若是，则将从财务报表表格中识别得的单位信息作为所需识别得出的财务报表的单位信息，反之，则利用单位信息的正则表达式规则识别出财务报表的表标题后，在识别出的表标题后的n3个字符串内进行单位信息的匹配搜索，将搜索到的距离表标题最近的单位信息作为所需识别得出的财务报表的单位信息。

8.应用于大数据分析中的文档解析处理系统，其特征在于：该系统包括：构建单元，用于构建财务指标的正则表达式规则；

获取单元，用于获取财务报表的起始特征指标和结束特征指标；

第一定位单元，用于利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对不同格式的文档进行财务报表的定位处理；

第二定位单元，用于对财务报表内的数据进行定位处理后，记录财务数据以及与财务数据对应的指标名称和时间；

换算单元，用于对属于数值型的数据进行单位换算后，记录换算后得到的数据；

所述构建单元包括：

第一获取模块，用于获取标准名称库，所述标准名称库中存储有财务指标的标准名称；

第一构建模块，用于构建实际名称库，所述实际名称库中存储有从文档中提取得到的财务指标的实际名称；

第一建立模块，用于建立实际名称库中的实际名称与标准名称库中的标准名称之间的名称映射关系；

第二建立模块，用于根据名称映射关系，构建财务指标的正则表达式规则。

9.应用于大数据分析中的文档解析处理装置，其特征在于：该装置包括：至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7任一项所述应用于大数据分析中的文档解析处理方法。

应用于大数据分析中的文档解析处理方法、系统及装置

技术领域

[0001] 本发明涉及大数据解析技术，尤其涉及一种应用于大数据分析中的文档解析处理方法、系统及装置。

背景技术

[0002] 技术词解释：

[0003] 正则表达式：使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。

[0004] 资产负债表：表示企业在一定日期(通常为各会计期末)的财务状况(即资产、负债和业主权益的状况)的主要会计报表。

[0005] 利润表：反映企业在一定会计期间经营成果的报表。

[0006] 现金流量表：反映企业在一定会计期间现金和现金等价物流入和流出的报表。

[0007] 在企业财务大数据分析领域中，许多财务数据的获取需要从公司披露的年报或发债时发布的募集说明书等文档中进行提取，并且对提取得到的数据的准确性有很高的要求。目前，这些文档通常被保存为PDF格式，因此，目前对于对文档解析以实现数据提取的方案，其仅针对PDF文档做出了研究，也就是说，现有的文档解析方案仅能作用于PDF文档中。然而，实际上，除了PDF格式外，财务数据文档还会被保存为其它文档格式，如WORD格式、EXCEL格式等，而现有的文档解析方案却无法适用于除PDF格式外的其它格式文档中，这样则限制了文档解析的数据源的获取渠道，且降低了文档解析的应用兼容性和全面性。由此可见，设计一种可对多种不同格式的文档进行快速、准确解析处理的方案，是目前迫切需要解决的问题之一。

发明内容

[0008] 为了解决上述技术问题，本发明的目的是提供一种应用于大数据分析中的文档解析处理方法、系统及装置，可对多种不同格式的财务文档进行快速、准确的解析处理。

[0009] 本发明所采用的第一技术方案是：应用于大数据分析中的文档解析处理方法，该方法包括以下步骤：

[0010] 构建财务指标的正则表达式规则；

[0011] 获取财务报表的起始特征指标和结束特征指标；

[0012] 利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对不同格式的文档进行财务报表的定位处理；

[0013] 对财务报表内的数据进行定位处理后，记录财务数据以及与财务数据对应的指标名称和时间；

[0014] 对属于数值型的数据进行单位换算后，记录换算后得到的数据。

[0015] 本发明所采用的第二技术方案是：应用于大数据分析中的文档解析处理系统，该系统包括：

[0016] 构建单元，用于构建财务指标的正则表达式规则；

[0017] 获取单元，用于获取财务报表的起始特征指标和结束特征指标；

[0018] 第一定位单元，用于利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对不同格式的文档进行财务报表的定位处理；

[0019] 第二定位单元，用于对财务报表内的数据进行定位处理后，记录财务数据以及与财务数据对应的指标名称和时间；

[0020] 换算单元，用于对属于数值型的数据进行单位换算后，记录换算后得到的数据。

[0021] 本发明所采用的第三技术方案是：应用于大数据分析中的文档解析处理装置，该装置包括：

[0022] 至少一个处理器；

[0023] 至少一个存储器，用于存储至少一个程序；

[0024] 当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上述第一技术方案所述应用于大数据分析中的文档解析处理方法。

[0025] 本发明方法、系统及装置的有益效果是：本发明通过利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对不同格式的文档进行财务报表的定位处理，接着对财务报表内的数据进行定位处理后，记录财务数据以及与财务数据对应的指标名称和时间，并且对属于数值型的数据进行单位换算后，记录换算后得到的数据，由此可见，通过使用本发明，能够快速、准确地对不同格式文档中的财务数据进行解析，从而获得高准确度的财务数据以及对应的指标名称和时间，这样大大提高从文档中进行财务数据解析方案的应用兼容性、全面性，以及准确度和处理效率。

附图说明

[0026] 图1是本发明一种应用于大数据分析中的文档解析处理方法的步骤流程图；

[0027] 图2是本发明一种应用于大数据分析中的文档解析处理系统的结构框图；

[0028] 图3是本发明一种应用于大数据分析中的文档解析处理方法的一具体实施例步骤流程图。

具体实施方式

[0029] 实施例1

[0030] 如图1所示，本实施例提供一种应用于大数据分析中的文档解析处理方法，该方法包括以下步骤：

[0031] 构建财务指标的正则表达式规则；

[0032] 获取财务报表的起始特征指标和结束特征指标；

[0033] 利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对不同格式的文档进行财务报表的定位处理；

[0034] 对财务报表内的数据进行定位处理后，记录财务数据以及与财务数据对应的指标名称和时间；

[0035] 对属于数值型的数据进行单位换算后，记录换算后得到的数据。

[0036] 进一步作为本实施例的优选实施方式，所述构建财务指标的正则表达式规则这一步骤，其具体包括：

[0037] 获取标准名称库，所述标准名称库中存储有财务指标的标准名称；

[0038] 构建实际名称库，所述实际名称库中存储有从文档中提取得到的财务指标的实际名称；

[0039] 建立实际名称库中的实际名称与标准名称库中的标准名称之间的名称映射关系；

[0040] 根据名称映射关系，构建财务指标的正则表达式规则。

[0041] 进一步作为本实施例的优选实施方式，所述获取财务报表的起始特征指标和结束特征指标这一步骤，其具体包括：

[0042] 抽取多个包含财务报表的文档；

[0043] 对每一个文档中的财务报表的起始内容进行指标提取，然后，根据提取出的指标的出现频次，按照从大到小的顺序，对指标进行排序，选取前m1个指标构建得到起始特征指标列表；

[0044] 对每一个文档中的财务报表的结束内容进行指标提取，然后，根据提取出的指标的出现频次，按照从大到小的顺序，对指标进行排序，选取前m2个指标构建得到结束特征指标列表。

[0045] 进一步作为本实施例的优选实施方式，所述利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对不同格式的文档进行财务报表的定位处理这一步骤，其具体包括：

[0046] 根据财务报表表格出现的先后次序，为文档中的每一个财务报表表格配置对应的ID；

[0047] 利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对文档中的每一个财务报表表格进行解析判断，从而定位得出起始表格和结束表格，其中，所述起始表格指的是处于财务报表起始位置的财务报表表格，所述结束表格指的是处于财务报表结束位置的财务报表表格；

[0048] 根据起始表格的ID和结束表格的ID，将起始表格的ID和结束表格的ID之间的所有ID所对应的财务报表表格中的数据，均标记为对应财务报表类型的财务数据。

[0049] 进一步作为本实施例的优选实施方式，所述利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对文档中的每一个财务报表表格进行解析判断，从而定位得出起始表格和结束表格这一步骤，其具体包括：

[0050] 当表格的起始标志为假值时，利用财务指标的正则表达式规则，从当前的财务报表表格的起始内容中识别提取出n1个指标，然后，将识别提取出的n1个指标与起始特征指标列表中的指标进行匹配后，得到第一匹配率，接着，当第一匹配率大于第一阈值时，则判定当前的财务报表表格为起始表格；

[0051] 当表格的起始标志为真值时，利用财务指标的正则表达式规则，从当前的财务报表表格的结束内容中识别提取出n2个指标，然后，将识别提取出的n2个指标与结束特征指标列表中的指标进行匹配后，得到第二匹配率，接着，当第二匹配率大于第二阈值时，则判定当前的财务报表表格为结束表格；

[0052] 其中，n1

[0053] 进一步作为本实施例的优选实施方式，所述对财务报表内的数据进行定位处理后，记录财务数据以及与财务数据对应的指标名称和时间这一步骤，其具体包括：

[0054] 建立财务报表表格中的数据所对应的指标名称与所在行数之间的第一映射关系；

[0055] 建立财务报表表格中的数据所对应的时间信息与所在列数之间的第二映射关系；

[0056] 利用财务报表表格中的数据所对应的行列数、第一映射关系及第二映射关系，记录财务数据以及与财务数据对应的指标名称和时间。

[0057] 进一步作为本实施例的优选实施方式，所述对属于数值型的数据进行单位换算后，记录换算后得到的数据这一步骤，其具体包括：

[0058] 利用单位信息的正则表达式规则，识别得出财务报表的单位信息；

[0059] 根据识别得出的单位信息，对属于数值型的数据进行单位换算处理，令属于数值型的数据换算为以元为单位的财务数据并记录下来。

[0060] 进一步作为本实施例的优选实施方式，所述利用单位信息的正则表达式规则，识别得出财务报表的单位信息这一步骤，其具体包括：

[0061] 对财务报表表格中的数据进行遍历，利用单位信息的正则表达式规则，判断识别财务报表表格中的数据是否存有单位信息，若是，则将从财务报表表格中识别得的单位信息作为所需识别得出的财务报表的单位信息，反之，则利用单位信息的正则表达式规则识别出财务报表的表标题后，在识别出的表标题后的n3个字符串内进行单位信息的匹配搜索，将搜索到的距离表标题最近的单位信息作为所需识别得出的财务报表的单位信息。

[0062] 实施例2

[0063] 如图2所示，本实施例提供一种应用于大数据分析中的文档解析处理系统，该系统包括：

[0064] 构建单元，用于构建财务指标的正则表达式规则；

[0065] 获取单元，用于获取财务报表的起始特征指标和结束特征指标；

[0066] 第一定位单元，用于利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对不同格式的文档进行财务报表的定位处理；

[0067] 第二定位单元，用于对财务报表内的数据进行定位处理后，记录财务数据以及与财务数据对应的指标名称和时间；

[0068] 换算单元，用于对属于数值型的数据进行单位换算后，记录换算后得到的数据。

[0069] 进一步作为本实施例的优选实施方式，所述构建单元包括：

[0070] 第一获取模块，用于获取标准名称库，所述标准名称库中存储有财务指标的标准名称；

[0071] 第一构建模块，用于构建实际名称库，所述实际名称库中存储有从文档中提取得到的财务指标的实际名称；

[0072] 第一建立模块，用于建立实际名称库中的实际名称与标准名称库中的标准名称之间的名称映射关系；

[0073] 第二建立模块，用于根据名称映射关系，构建财务指标的正则表达式规则。

[0074] 进一步作为本实施例的优选实施方式，所述获取单元包括：

[0075] 第一抽取模块，用于抽取多个包含财务报表的文档；

[0076] 第一构建模块，用于对每一个文档中的财务报表的起始内容进行指标提取，然后，根据提取出的指标的出现频次，按照从大到小的顺序，对指标进行排序，选取前m1个指标构建得到起始特征指标列表；

[0077] 第二构建模块，用于对每一个文档中的财务报表的结束内容进行指标提取，然后，根据提取出的指标的出现频次，按照从大到小的顺序，对指标进行排序，选取前m2个指标构建得到结束特征指标列表。

[0078] 进一步作为本实施例的优选实施方式，所述第一定位单元包括：

[0079] 第一配置模块，用于根据财务报表表格出现的先后次序，为文档中的每一个财务报表表格配置对应的ID；

[0080] 第一定位模块，用于利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对文档中的每一个财务报表表格进行解析判断，从而定位得出起始表格和结束表格，其中，所述起始表格指的是处于财务报表起始位置的财务报表表格，所述结束表格指的是处于财务报表结束位置的财务报表表格；

[0081] 第一标记模块，用于根据起始表格的ID和结束表格的ID，将起始表格的ID和结束表格的ID之间的所有ID所对应的财务报表表格中的数据，均标记为对应财务报表类型的财务数据。

[0082] 进一步作为本实施例的优选实施方式，所述第一定位模块包括：

[0083] 第一处理模块，用于当表格的起始标志为假值时，利用财务指标的正则表达式规则，从当前的财务报表表格的起始内容中识别提取出n1个指标，然后，将识别提取出的n1个指标与起始特征指标列表中的指标进行匹配后，得到第一匹配率，接着，当第一匹配率大于第一阈值时，则判定当前的财务报表表格为起始表格；

[0084] 第二处理模块，用于当表格的起始标志为真值时，利用财务指标的正则表达式规则，从当前的财务报表表格的结束内容中识别提取出n2个指标，然后，将识别提取出的n2个指标与结束特征指标列表中的指标进行匹配后，得到第二匹配率，接着，当第二匹配率大于第二阈值时，则判定当前的财务报表表格为结束表格；

[0085] 其中，n1

[0086] 进一步作为本实施例的优选实施方式，所述第二定位单元包括：

[0087] 第三建立模块，用于建立财务报表表格中的数据所对应的指标名称与所在行数之间的第一映射关系；

[0088] 第四建立模块，用于建立财务报表表格中的数据所对应的时间信息与所在列数之间的第二映射关系；

[0089] 第一记录模块，用于利用财务报表表格中的数据所对应的行列数、第一映射关系及第二映射关系，记录财务数据以及与财务数据对应的指标名称和时间。

[0090] 进一步作为本实施例的优选实施方式，所述换算单元包括：

[0091] 第一识别模块，用于利用单位信息的正则表达式规则，识别得出财务报表的单位信息；

[0092] 第二记录模块，用于根据识别得出的单位信息，对属于数值型的数据进行单位换算处理，令属于数值型的数据换算为以元为单位的财务数据并记录下来。

[0093] 进一步作为本实施例的优选实施方式，所述第一识别模块具体用于对财务报表表格中的数据进行遍历，利用单位信息的正则表达式规则，判断识别财务报表表格中的数据是否存有单位信息，若是，则将从财务报表表格中识别得的单位信息作为所需识别得出的财务报表的单位信息，反之，则利用单位信息的正则表达式规则识别出财务报表的表标题后，在识别出的表标题后的n3个字符串内进行单位信息的匹配搜索，将搜索到的距离表标题最近的单位信息作为所需识别得出的财务报表的单位信息。

[0094] 实施例3

[0095] 本实施例提供一种应用于大数据分析中的文档解析处理装置，该装置包括：

[0096] 至少一个处理器；

[0097] 至少一个存储器，用于存储至少一个程序；

[0098] 当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上述实施例1所述的一种应用于大数据分析中的文档解析处理方法的步骤。

[0099] 实施例4

[0100] 如图3所示，一种应用于大数据分析中的文档解析处理方法，其具体包括以下步骤。

[0101] 步骤S1：构建财务指标的正则表达式规则。

[0102] 具体地，所述步骤S1优选包括有：

[0103] S101、获取标准名称库，所述标准名称库中存储有财务指标的标准名称；

[0104] 具体地，此步骤可优选将财政部的《企业会计准则》中的指标名称作为财务指标词库的标准名称库，也就是说，以财政部的《企业会计准则》中的指标名称作为财务指标的标准名称，并将这些财务指标的标准名称存储于所述标准名称库中；

[0105] S102、构建实际名称库，所述实际名称库中存储有从文档中提取得到的财务指标的实际名称；

[0106] 具体地，此步骤具体实现步骤包括有：首先，随机抽取若干个的包含实际财务报表的文档，然后，根据这些文档中所记载的财务指标用词来建立财务指标词库的实际名称库，也就是说，将包含实际财务报表的文档中用于表述财务指标的用词作为财务指标的实际名称，并将这些财务指标的实际名称存储于实际名称库中；

[0107] S103、建立实际名称库中的实际名称与标准名称库中的标准名称之间的名称映射关系；

[0108] 具体地，对于任一个财务指标，其在实际使用过程中会有一个或多个不同的实际名称，因此，需要先确定实际名称库中所有财务指标的实际名称所对应的标准名称；在确定过程中，若实际名称库中的实际名称所对应的财务指标，其在标准名称库中存有对应的名称，那么，该名称即为该财务指标所对应的标准名称；若实际名称库中的实际名称所对应的财务指标，其在标准名称库中不存有对应的名称，那么，则统计该财务指标所对应的所有实际名称的出现频次，接着，将出现频次最高的实际名称作为该财务指标所对应的标准名称，并将此标准名称添加至标准名称库中，例如，该财务指标所对应的实际名称包含有名称a1、名称a2和名称a3，而在随机抽取的文档中，名称a1出现了10次，名称a2出现了8次，名称a3出现了2次，此时，则将名称a1作为该财务指标所对应的标准名称，并且将名称a1添加至标准名称库中；跟着，便可根据实际名称库中的实际名称与标准名称库中的标准名称之间的对应关系，建立得到实际名称库中的实际名称与标准名称库中的标准名称之间的名称映射关系；由此可见，对于步骤S103，其优选包括以下步骤：

[0109] S1031、判断实际名称库中的实际名称所对应的财务指标，其在标准名称库中是否存有对应的名称，若有，则将该名称作为该财务指标所对应的标准名称；反之，则统计该财务指标所对应的每一个实际名称的出现频次，接着，将出现频次最高的实际名称作为该财务指标所对应的标准名称，并将此标准名称添加至标准名称库中；

[0110] S1032、当实际名称库中的每一个实际名称所对应的财务指标，其在标准名称库中均存有对应的标准名称时，则根据实际名称库中的实际名称与标准名称库中的标准名称之间的财务指标对应关系，建立得到实际名称库中的实际名称与标准名称库中的标准名称之间的名称映射关系，例如，财务指标A所对应的实际名称包含有名称a1、名称a2和名称a3，而财务指标A所对应的标准名称为b1，此时，则建立针对财务指标A，其实际名称与标准名称之间的映射关系；

[0111] S104、根据名称映射关系，构建财务指标的正则表达式规则；

[0112] 具体地，根据财务指标的实际名称与标准名称之间的名称映射关系，制定每一个财务指标的正则表达式规则，其中，所述财务指标的正则表达式规则，其指的是，基于正则表达式，对财务指标进行识别判断的识别规则。

[0113] 步骤S2：获取财务报表的起始特征指标和结束特征指标。

[0114] 具体地，所述步骤S2优选包括有：

[0115] S201、抽取多个包含财务报表的文档；

[0116] 具体地，所述财务报表的类型包含有资产负债表、利润表、现金流量表这三大类型的财务报表，因此，需要针对每一类型的财务报表，随机抽取若干个包含实际财务报表的文档，例如，针对资产负债表这一类型的财务报表，随机抽取若干个包含实际资产负债表的文档；

[0117] S202、对每一个文档中的财务报表的起始内容进行指标提取，然后，根据提取出的指标的出现频次(即出现次数)，按照从大到小的顺序，对提取出的指标进行排序，选取前m1个指标构建得到起始特征指标列表；例如，从这些文档中提取得到的指标有q1、q2、q3，而指标q1的出现次数为7、指标q2的出现次数为8、指标q3的出现次数为4，那么选取前2个指标构建得到起始特征指标列表，其即包含指标q2和q2；

[0118] 具体地，通过采用上述步骤S202，能够构建得到不同类型财务报表所对应的起始特征指标列表，例如，通过步骤S201，随机抽取若干个包含实际资产负债表的文档，然后对这些抽取的每一个文档中的资产负债表的起始内容进行指标提取，然后，根据提取出的指标的出现频次(即出现次数)，按照从大到小的顺序，对提取出的指标进行排序，选取前m1个指标构建得到资产负债表这一类型的财务报表所对应的起始特征指标列表；而对于利润表、现金流量表这两类型的财务报表所对应的起始特征指标列表，其构建方式与此相同；其中，对于构建得到的起始特征指标列表，其即为所需获取得到的财务报表的起始特征指标；

[0119] S203、对每一个文档中的财务报表的结束内容进行指标提取，然后，根据提取出的指标的出现频次，按照从大到小的顺序，对提取出的指标进行排序，选取前m2个指标构建得到结束特征指标列表；

[0120] 具体地，对于此步骤的结束特征指标列表的构建，其方式与上述起始特征指标列表的构建方式相类似，此处则不做详细阐述；因此，通过上述步骤S203，可构建得到资产负债表、利润表、现金流量表这三大类型的财务报表所对应的结束特征指标列表；其中，对于构建得到的结束特征指标列表，其即为所需获取得到的财务报表的结束特征指标。

[0121] 优选地，对于上述的m1和m2，它们的数值相同。

[0122] 步骤S3：利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对不同格式的文档进行财务报表的定位处理。

[0123] 具体地，所述步骤S3优选包括有：

[0124] S301、根据财务报表表格出现的先后次序，为文档中的每一个财务报表表格配置对应的ID；

[0125] 具体地，对于每一个文档，根据每一个财务报表表格在文档中出现的先后次序，为所有出现的财务报表表格建立递增的ID，也就是说，财务报表表格的ID表示了财务报表表格在文档中出现的次序，即相当于财务报表表格的ID表示了财务报表表格在文档中出现的先后位置，例如，按照每一个财务报表表格在文档中出现的先后次序，从先到后为每一个财务报表表格配置对应的ID，如ID1、ID2、ID3、ID4、ID5、……、IDK，可见，ID1的财务报表表格出现先于ID2的财务报表表格，也就是说，在文档中，ID1的财务报表表格位于ID2的财务报表表格之前；

[0126] S302、利用财务指标的正则表达式规则、起始特征指标和结束特征指标，对文档中的每一个财务报表表格进行解析判断，从而定位得出起始表格和结束表格，其中，所述起始表格指的是处于财务报表起始位置的财务报表表格，所述结束表格指的是处于财务报表结束位置的财务报表表格；

[0127] 具体地，所述步骤S302具体包括：

[0128] S3020、设资产负债表、利润表、现金流量表这三大类型的财务报表表格的起始标志分别为asset_begin_sign、profit_begin_sign、cash_begin_sign，并且初始值均为False(假值)；

[0129] S3021、当表格的起始标志为假值时，利用财务指标的正则表达式规则，从当前的财务报表表格的起始内容中识别提取出n1个指标，然后，将识别提取出的n1个指标与起始特征指标列表中的指标进行匹配后，得到第一匹配率，接着，当第一匹配率大于第一阈值时，则判定当前的财务报表表格为起始表格；

[0130] 具体地，当三大类型的财务报表表格的起始标志begin_sign的值均为False时，则利用财务指标的正则表达式规则，从当前的财务报表表格的起始内容中识别提取出n1个指标(n1

[0131] S3022、当表格的起始标志为真值时，利用财务指标的正则表达式规则，从当前的财务报表表格的结束内容中识别提取出n2个指标，然后，将识别提取出的n2个指标与结束特征指标列表中的指标进行匹配后，得到第二匹配率，接着，当第二匹配率大于第二阈值时，则判定当前的财务报表表格为结束表格；

[0132] 具体地，当三大类型的财务报表表格的起始标志begin_sign中有一个的值为True，那么，则利用财务指标的正则表达式规则，从当前的财务报表表格的结束内容中识别提取出n2个指标(n2

[0133] S303、根据财务报表的起始表格的ID和结束表格的ID，将起始表格的ID和结束表格的ID之间的所有ID(含起始表格的ID和结束表格的ID)所对应的财务报表表格中的数据，均标记为对应财务报表类型的财务数据；

[0134] 具体地，若ID1的财务报表表格为财务报表的起始表格，ID5的财务报表表格为财务报表的结束表格，那么则将ID为ID1至ID5的5个财务报表表格中的数据均标记为对应财务报表类型的财务数据，例如，标记为资产负债表的财务数据。

[0135] 优选地，对于上述的n1和n2，它们的数值相同。

[0136] 步骤S4：对财务报表内的数据进行定位处理后，记录财务数据以及与财务数据对应的指标名称和时间。

[0137] 具体地，对于财务报表中的数据，每个数据可由指标名称和时间来唯一确定；优选地，所述步骤S4包括有：

[0138] S401、建立财务报表表格中的数据所对应的指标名称与所在行数之间的第一映射关系，即，所述第一映射关系指的是数据所对应的指标名称与数据所在的行数之间的映射关系；

[0139] 其中，若所述数据所对应的指标名称，其所对应的财务指标在标准名称库中不存有对应的名称时，则将该指标名称添加至实际名称库和标准名称库中，并新增该财务指标的正则表达式规则；

[0140] S402、建立财务报表表格中的数据所对应的时间信息与所在列数之间的第二映射关系，即，所述第二映射关系指的是数据所对应的时间信息与数据所在的列数之间的映射关系；

[0141] S403、利用财务报表表格中的数据所对应的行列数、第一映射关系及第二映射关系，记录财务数据以及与财务数据对应的指标名称和时间；

[0142] 具体地，根据每个数据的行列数，以及通过“行数-指标名称”和“列数-时间信息”这两个映射关系，可确定数据所对应的指标名称和时间，那么利用数据的行列数、“行数-指标名称”和“列数-时间信息”这两个映射关系，便可对数据以及数据所对应的指标名称、时间进行记录。

[0143] 步骤S5：对属于数值型的数据进行单位换算后，记录换算后得到的数据。

[0144] 具体地，上述步骤S4中所记录的财务数据，其只是原始数据(即文档中呈现的数据)，其中，属于数值型的数据(简称为数值型数据)还需要进行单位换算，才能得到数据的真实值。因此，所述步骤S5优选包括有：

[0145] S500、构建单位信息的正则表达式规则；

[0146] 具体地，随机抽取若干个财务文档，分析里面涉及的单位信息表述方式，并针对这些不同的表述方式建立单位信息的正则表达式规则；

[0147] S501、利用单位信息的正则表达式规则，识别得出财务报表的单位信息；

[0148] 具体地，此步骤优选包括：

[0149] S5011、对财务报表表格中的数据进行遍历，利用单位信息的正则表达式规则，判断识别财务报表表格中的数据是否存有单位信息，若是，则将从财务报表表格中识别得的单位信息作为所需识别得出的财务报表的单位信息，反之，则利用单位信息的正则表达式规则识别出财务报表的表标题后，在识别出的表标题后的n3个字符串内进行单位信息的匹配搜索，将搜索到的距离表标题最近的单位信息作为所需识别得出的财务报表的单位信息；

[0150] S502、根据上述步骤识别得出的单位信息，对数值型数据进行单位换算处理，令数值型数据换算为以元为货币单位的财务数据，并将其替换换算前的数据记录下来。

[0151] 由上述可得，本发明所包括的优点有：1、以财务指标的实际名称与标准名称之间的映射关系，来构建得出财务指标的正则表达式规则，能实现对海量文档中财务指标名称的快速、准确的识别，提高对文档进行财务数据解析的处理效率和准确性；2、对多种不同格式的文档进行抽样统计分析，建立三大财务报表类型所对应的起始特征指标列表和结束特征指标列表，并根据列表中的指标内容在文档中准确快速地将表格的起始特征和结束特征识别出来，从而实现文档中财务报表表格的自动快速准确定位；3、建立财务报表表格内财务指标和行数的映射关系以及时间信息和列数的映射关系，这样便可通过“行数-指标”、“列数-时间”这两个映射关系来确定数据所对应的指标名称和时间，以实现财务报表内数据的指标和时间信息的自动快速定位并记录；4、建立单位信息的正则表达式规则，并根据这些正则表达式规则，来识别解析出财务报表的相关单位信息，这样，根据解析得到的单位信息，能快速、准确地对解析得出的财务数据进行对应的单位换算，得到准确度高的数据的真实值；5、随着解析文档数的增加，令名称库会更加完善和准确，从而进一步地提升文档内容的定位解析的效率和准确率。可见，对于本发明一种对含有财务报表的海量文档进行财务数据的自动解析方案，其通过构建财务指标的识别规则、单位信息的识别规则，并且基于此规则来自动定位出文档中财务报表表格的位置、财务报表表格内数据所对应的指标名称和时间信息，以及对数值型数据进行对应单位换算，得到数据的真实值，从而实现对海量不同格式的文档进行快速、准确的财务报表数据的解析，不仅处理效率、准确性高，而且具有高的可拓展性、应用兼容性和全面性，可适用于WORD、EXCEL、TXT等多种不同格式文档中。

[0152] 此外，对于本发明的文档解析处理方案，其适用于企业年报文档中的财务数据解析、发债募集说明书中的财务数据解析、发债跟踪评级报告中的财务数据解析等财务大数据解析领域中。

[0153] 本实施例中的所有技术内容均可任意拆分/组合地应用于上述实施例1～3中。

[0154] 以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

应用于大数据分析中的文档解析处理方法、系统及装置转让专利

申请号 : CN201711080717.1

文献号 : CN108073678B

文献日 : 2020-08-28

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 陈贤耿 , 纪晓阳 , 伍紫莹

申请人 : 广东广业开元科技有限公司

摘要 :

权利要求 :

说明书 :