表格元素识别方法、装置、计算机设备和存储介质转让专利

申请号 : CN202110875407.9

文献号 : CN115700827A

文献日 : 2023-02-07

相似专利: 请登录后查看

本发明公开了一种表格元素识别方法、装置、计算机设备和存储介质，其中，该方法包括：根据待处理表格的单元格构建中间处理图；根据预先训练的图卷积神经网络处理所述中间处理图以确定各所述单元格的表格元素。本发明实施例通过在表格元素识别过程保留原始的表格语义特征，可提高表格元素识别的准确性。

1.一种表格元素识别方法，其特征在于，所述方法包括：根据待处理表格的单元格构建中间处理图；

根据预先训练的图卷积神经网络处理所述中间处理图以确定各所述单元格的表格元素。

2.根据权利要求1所述的方法，其特征在于，所述图卷积神经网络的训练过程包括：为训练样本集内各样本表格构建对应的样本节点图，其中，所述训练样本集经过小样本学习生成；

生成各所述样本节点图对应的邻接矩阵和特征矩阵；

将各所述邻接矩阵和各所述特征矩阵输入到所述图卷积神经网络进行迭代训练，直到所述图卷积神经网络的损失函数满足预设条件。

3.根据权利要求2所述的方法，其特征在于，所述图卷积神经网络中每层使用的激活函数的连接公式如下：l+1 l l l

H ＝σ(AHW)，其中，W为l层的权重参数矩阵，σ(.)为激活函数，A为邻接矩阵，H为特征矩阵，初始状态时

4.根据权利要求2所述的方法，其特征在于，所述图卷积神经网络的频谱计算公式如下：其中，可以由输入的邻接矩阵和特征矩阵构成的输入信号矩阵，N表示中间处理图的节点数，f_{k‑1}表示图卷神经网络的输入维度，f_{k}表示图卷神经网络的输出维度，表示待学习参数组成的对角矩阵。

5.根据权利要求2所述的方法，其特征在于，所述图卷积神经网络的损失函数为下式：其中，x为输入参数，y为输出参数，fθ为图卷积神经网络的用于分类的映射函数。

6.根据权利要求2所述的方法，其特征在于，所述经过小样本学习生成所述训练样本集，包括：将原始训练样本集划分为支持集和查询集，其中，所述支持集包括的样本表格标记有表格元素标签；

使用预先训练的小样本学习网络按照所述支持集确定出所述查询集的表格元素标签；

将具有所述表格元素标签的所述查询集和所述支持集作为训练样本集。

7.根据权利要求6所述的方法，其特征在于，所述小样本学习网络包括以下至少一种：原型网络模型、关系网络模型、模型无关元学习模型、度量学习模型。

8.根据权利要求1所述的方法，其特征在于，所述根据待处理表格的单元格构建中间处理图，包括：获取所述待处理表格的各单元格的位置坐标；

根据所述位置坐标对各所述单元格划分到至少一条边；

针对各所述边连接属于相同行或列的所述单元格以构成中间处理图。

9.根据权利要求1所述的方法，其特征在于，所述根据预先训练的图卷积神经网络处理所述中间处理图以确定格所述单元格的表格元素，包括：生成所述中间处理图的邻接矩阵和特征矩阵，并将所述邻接矩阵和所述特征矩阵输入所述图卷积神经网络；

获取所述图卷积神经网络输出的分类结果图；

根据所述分类结果图的分类标签确定各所述单元格的表格元素。

10.根据权利要求1所述的方法，其特征在于，所述表格元素包括以下至少之一：列元素、元数据、标题元素、数据元素。

11.一种表格元素识别装置，其特征在于，所述装置包括：图构建模块，用于根据待处理表格的单元格构建中间处理图；

元素确定模块，根据预先训练的图卷积神经网络处理所述中间处理图以确定格所述单元格的表格元素。

12.一种计算机设备，其特征在于，所述计算机设备包括：一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1‑10中任一所述的表格元素识别方法。

13.一种计算机设备，其特征在于，所述计算机设备包括：一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1‑10中任一所述的表格元素识别方法。

表格元素识别方法、装置、计算机设备和存储介质

技术领域

[0001] 本发明实施例涉及计算机应用技术领域，尤其涉及一种表格元素识别方法、装置、计算机设备和存储介质。

背景技术

[0002] 表格是各类文档中场景信息承载对象，其作为信息化生活的重要数据组织和展示方式得到广泛应用，然而随着文档数目的爆炸性增长，如何高效的从文档中找到表格，并识别出表格的结构信息以及内容信息成为一个亟待解决的问题。其中，表格结构识别尤其成为业界研究的重点。

[0003] 表格结构检测是从页面中检测出表格所在的区域，在表格区域的基础上，识别表格的逻辑结构和内容，识别到的逻辑结构可以包括表格的行列和层次等。目前常见的表格逻辑结构识别主要通过光学字符识别(Optical Character Recognition，OCR)技术实现，例如，基于卷积神经网络的电子表格检测以及基于图神经网络的发票单据表检测、结合角点定位的表格检测、基于区域卷积神经网络的表检测等，然而上述方案常常需要对将表格数据转换为图像数据进行处理，使得表格数据失去了其本身的语义特征，导致表格元素识别的准确率较差。

发明内容

[0004] 本发明提供一种表格元素定位方法、装置、计算机设备和存储介质，以实现数据表格元素识别，保留数据表格的语义特征以及结构特征，可增强表格元素识别的准确性，便于后续表格数据的检测与处理。

[0005] 第一方面，本发明实施例还提供了一种表格元素识别方法，其中，该方法包括：

[0006] 根据待处理表格的单元格构建中间处理图；

[0007] 根据预先训练的图卷积神经网络处理所述中间处理图以确定格所述单元格的表格元素。

[0008] 第一方面，本发明实施例还提供了一种表格元素识别装置，其中，该装置包括：

[0009] 图构建模块，用于根据待处理表格的单元格构建中间处理图；

[0010] 元素确定模块，根据预先训练的图卷积神经网络处理所述中间处理图以确定格所述单元格的表格元素。

[0011] 第三方面，本发明实施例还提供了一种计算机设备，该计算机设备包括：

[0012] 一个或多个处理器；

[0013] 存储器，用于存储一个或多个程序，

[0014] 当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一所述的表格元素识别方法。

[0015] 第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明实施例中任一所述的表格元素识别方法。

[0016] 本发明实施例，通过生成待处理表格对应的中间处理图，基于预先训练的图卷积神经网络处理中间处理图，以确定出待处理表格中各单元格对应的表格元素，本发明实施例在表格元素识别过程保留原始的表格语义特征，可提高表格元素识别的准确性。

附图说明

[0017] 图1是本发明实施例一提供的一种表格元素识别方法的流程图；

[0018] 图2是本发明实施例一提供的一种中间处理图构建的示例图；

[0019] 图3是本发明实施例一提供的一种图卷积神经网络的结构示意图；

[0020] 图4是本发明实施例一提供的一种表格的结构示意图；

[0021] 图5是本发明实施例一提供的一种图卷积神经网络的训练流程图；

[0022] 图6是本发明实施例二提供的一种表格元素识别方法的流程图；

[0023] 图7是本发明实施例二提供的一种小样本学习的示例图；

[0024] 图8是本发明实施例二提供的一种图卷积神经网络的示例图；

[0025] 图9是本发明实施例三提供的一种表格元素识别装置的结构示意图；

[0026] 图10是本发明实施例四提供的一种计算机设备的结构示意图；

[0027] 图11是本发明实施例五提供的一种芯片的结构示意图。

具体实施方式

[0028] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构，此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

[0029] 实施例一

[0030] 图1是本发明实施例一提供的一种表格元素识别方法的流程图，本实施例可适用于海量文档中表格元素识别的情况，该方法可以由表格元素识别装置来执行，该装置可以采用硬件和/或软件的方式来实现，参见图1，本发明实施例提供的表格元素识别方法具体可以包括如下步骤：

[0031] 步骤110、根据待处理表格的单元格构建中间处理图。

[0032] 其中，待处理表格可以是文档文件中出现的表格信息，待处理表格可以位于不同格式的数据文档中，该数据文档可以包括图片、文字、音频、视频等其他数据元素，示例性的，待处理表格可以是Word文档中的数据表格。单元格可以是待处理表格的组成部分，单元格可以是待处理表格中行和列的交叉区域。中间处理图可以是有待处理表格转换生成的节点图，每个单元格可以是中间处理图中的一个节点，中间处理图可以通过邻接矩阵或者邻近链表的方式表示。

[0033] 在本发明实施例中，可以按照待处理表格中的单元格分别作为节点构建中间处理图。图2是本发明实施例一提供的一种中间处理图构建的示例图，参见图2，可以获取待处理表格中的单元格作为中间处理图的节点，以及单元格之间的相邻关系作为中间处理图的边。

[0034] 步骤120、根据预先训练的图卷积神经网络处理中间处理图以确定各单元格的表格元素。

[0035] 其中，图卷积神经网络(Graph Convolutional Network，GCN)可以是一种特征提取器，可以对图数据进行处理，图卷积网络可以对图数据进行节点分类、图分类、边预测等处理，在本发明实施例中，图卷积网络可以预先经过包含表格元素标签的图数据训练生成，可以对图数据进行分类，以确定出待处理表格中各单元格所属的表格元素。图3是本发明实施例一提供的一种图卷积神经网络的结构示意图，图3示出了一个两层的图卷积神经网络，该GCN可以包括一个全连接层，其中，邻居neighbors可以是中间处理图中选定的中心节点，并根据该中心节点确定的领域，每个节点可以选择固定数量的其他节点作为邻居，对于每个节点，可以从邻居处获取到该节点的特征信息，假设对每个节点使用Average函数进行处理，图中所有节点可以均进行相同的操作，可以将计算得到的平均值输入到图卷积神经网络的下一层。

[0036] 具体的，可以将中间处理图输入到预先训练的图卷积神经网络，通过图卷积神经网络对中间处理图中的节点进行分类，可以理解的是，中间处理图中的每个节点可以对应待处理表格中的一个单元格。可以根据中间处理图中各节点的分类结果分别确定出所属的表格元素，也就节点对应的单元格所属的表格元素。其中，图卷积神经网络可以经过使用标记有表格元素的样本表格训练生成。

[0037] 在本发明实施例中，表格元素可以是代表数据表结构的信息，可以包括表格、列、内容等元素，图4是本发明实施例一提供的一种表格的结构示意图，参见图4，数据表可以由列A、元数据M、表头H和数据D等元素组成。

[0038] 进一步的，在一个示例性的实施方式中，图卷积神经网络可以包括表格转换为图数据的处理过程，则可以直接将待处理表格输入到图卷积神经网络中进行节点分类以确定各单元格所属的表格元素。

[0039] 本发明实施例，通过生成待处理表格对应的中间处理图，基于预先训练的图卷积神经网络处理中间处理图，以确定出待处理表格中各单元格对应的表格元素，本发明实施例在表格元素识别过程保留原始的表格语义特征，可提高表格元素识别的准确性。

[0040] 进一步的，图5是本发明实施例一提供的一种图卷积神经网络的训练流程图，参见图5，在上述发明实施例的基础上，图卷积神经网络的训练过程包括如下步骤：

[0041] 步骤210、为训练样本集内各样本表格构建对应的样本节点图，其中，所述训练样本集经过小样本学习生成。

[0042] 其中，训练样本集可以是包括数据表格的文档文件，训练样本集中的文档格式可以多种多样，训练样本包括的数据表格的各单元格可以被对应的表格元素进行标记，可以用于训练和验证。小样本学习(Few‑Shot Learning)可以是一种机器学习问题，该机器学习问题可以由经验E、任务T和性能度量P指定，其中，E仅包含有限数量的具有目标T监督信息的示例，也就是通过小部分具有标记的样本进行机器学习训练的过程。

[0043] 具体的，可以通过小样本学习方法生成训练样本集，针对训练样本集中包括的样本表格构建多个样本节点图，训练样本集中每个样本表格可以生成各自对应的样本节点图，该样本节点图中的节点可以由样本表格的单元格组成，样本节点图中的边可以由样本表格的单元格之间的相邻关系组成。

[0044] 步骤220、生成各样本节点图对应的邻接矩阵和特征矩阵。

[0045] 在本发明实施例中，分别对各样本节点图进行处理，提取样本节点图中各节点的特征信息组成特征矩阵，其中，样本节点图中的特征信息包括但不限于文字内容特征和节点图像特征等。以及，分别针对各样本节点图进行处理，确定出各样本节点图中不同节点之间的相邻关系，并将该相邻关系转换为邻接矩阵，可以理解的是，每个样本节点图可以存在各自对于的邻接矩阵以及特征矩阵。

[0046] 步骤230、将各邻接矩阵和各特征矩阵输入到图卷积神经网络进行迭代训练，直到图卷积神经网络的损失函数满足预设条件。

[0047] 其中，损失函数可以是衡量图卷积神经网络训练效果的信息，预设条件可以是控制图神经网络训练过程的信息，准确预设条件的设置可以在保证图卷积神经网络训练效果的基础上提高训练效率，预设条件可以包括损失函数临界值或最大迭代次数，例如，当图卷积神经网络训练后的损失函数满足损失函数临界值，则确定训练完成，或者，当图卷积神经网络训练的迭代次数大于最大迭代次数，则确定训练完成。

[0048] 在本发明实施例中，可以将训练样本集内提取到的各邻接矩阵和各特征矩阵分别输入到图卷积神经网络中进行迭代训练，可以在每次训练后计算图卷积神经网络的损失函数，并将该损失函数与预设条件进行对比，若当前损失函数的取值符合预设条件，则确定图卷积神经网络训练完成，若当前损失函数的取值不符合预设条件，则继续将邻接矩阵和特征矩阵输入到图卷积神经网络中进行训练，重复上述过程直到图卷积神经网络的损失函数满足预设条件或者图卷积神经网络训练的迭代次数达到最大迭代次数。

[0049] 进一步的，在上述发明实施例的基础上，所述图卷积神经网络中每层使用的激活函数的连接公式如下：

[0050] Hl+1＝σ(AHlWl)，其中，Wl为l层的权重参数矩阵，σ(.)为激活函数，A 为邻接矩阵，H为特征矩阵，初始状态时

[0051] 本申请实施例中，图卷积神经网络可以由多层构成，每层可以存在各自的激活函l+1 l l l数，图卷积神经网络不同层之间的连接公式可以为H ＝σ(AHW)，其中，W为l层的权重参数矩阵，σ(.)为激活函数，A为邻接矩阵，该连接公式的可以由进行初始化，输入图
0
卷积神经网络的参数的特征矩阵H。

[0052] 进一步的，在上述申请实施例的基础上，所述图卷积神经网络的频谱计算公式如下：

[0053]

[0054] 其中，可以由输入的邻接矩阵和特征矩阵构成的输入信号矩阵，N表示中间处理图的节点数，f_{k‑1}表示图卷神经网络的输入维度，f_{k}表示图卷神经网络的输出维度，表示待学习参数组成的对角矩阵。

[0055] 具体的，图卷积神经网络的基于频谱的不同层的连接公式可以表示为：

[0056]

[0057] 其中，可以将图卷积神经网络输入的邻接矩阵和特征矩阵作为输入信号矩阵，N表示中间处理图的节点数，f_{k‑1}表示图卷神经网络的输入维度，f_{k}表示图卷神经网络的输出维度，表示待学习参数组成的对角矩阵，也就是图卷积神经网络的卷积核。

[0058] 进一步的，在上述申请实施例的基础上，所述图卷积神经网络的损失函数为下式：

[0059]

[0060] 其中，x为输入参数，y为输出参数，fθ为图卷积神经网络的用于分类的映射函数。

[0061] 实施例二

[0062] 图6是本发明实施例二提供的一种表格元素识别方法的流程图，本发明实施例是在上述发明实施例基础上的具体化，参见图2，本发明实施例提供的方法具体包括如下步骤：

[0063] 步骤310、为训练样本集内各样本表格构建对应的样本节点图，其中，所述训练样本集经过小样本学习生成。

[0064] 步骤320、生成各样本节点图对应的邻接矩阵和特征矩阵。

[0065] 步骤330、将各邻接矩阵和各特征矩阵输入到图卷积神经网络进行迭代训练，直到图卷积神经网络的损失函数满足预设条件。

[0066] 步骤340、获取待处理表格的各单元格的位置坐标。

[0067] 其中，位置坐标可以表示单元格之间的相对位置关系的信息，位置坐标可以待处理表格中的某一位置点作为坐标原点确定，例如，可以将待处理表格的左下角的单元格所在的位置设定为坐标原点，将其他单元格与该单元格的相对位置距离分别作为各自的位置坐标。

[0068] 在本发明实施例中，可以在待处理表格中确定坐标原点，并以坐标原点为基础确定出各单元格分别对于的位置坐标，该位置坐标可以用于表示单元格之间的相对位置关系。

[0069] 步骤350、根据位置坐标对各单元格划分到至少一条边。

[0070] 具体的，可以按照位置坐标将各单元格进行分类，确定出各单元格所属的边，可以理解的是，该边可以是待处理表格的行或列。在本发明实施例中，对单元格划分到各边时可以使用位置坐标的取值进行分类或者使用反向传播 (Back Propagation，BP)网络对单元格进行分类。

[0071] 步骤360、针对各边连接属于相同行或列的单元格以构成中间处理图。

[0072] 在本发明实施例中，在确定各单元格所属的边后，可以将各边中的单元格按照属于相同行或者相同列进行连接，使得各边连接成为中间处理图，可以理解的是，中间处理图可以为节点图，包括代表各单元格的节点以及代表各单元格相邻关系的边。

[0073] 步骤370、生成中间处理图的邻接矩阵和特征矩阵，并将邻接矩阵和特征矩阵输入图卷积神经网络。

[0074] 具体的，可以提取中间处理图的特征数据组成特征矩阵，以及提取中间处理图中各节点的邻接关系组成邻接矩阵，并将生成的邻接矩阵和特征矩阵输入到图卷积神经网络，由图卷积神经网络对中间处理图中的各节点进行分类。

[0075] 在本发明实施例中，提取中间处理图的特征数据的方式可以包括：使用卷积神经网络处理中间处理图以获取图像特征信息，按照嵌入运算处理中间处理图的节点文本以获取文本特征信息以及提取中间处理图中节点的相对位置作为位置特征信息等。

[0076] 步骤380、获取图卷积神经网络输出的分类结果图。

[0077] 其中，分类结果图可以是将中间处理图中包括的节点分类后生成的图数据，该图数据中不同节点分类可以存在各自的标签。

[0078] 在本发明实施例中，可以接收图卷积神经网络输出的图数据，可以将该图数据作为确定各单元格的表格元素的分类结果图。

[0079] 步骤390、根据分类结果图的分类标签确定各单元格的表格元素。

[0080] 具体的，可以在获取的分类结果图中确定出各节点分类对于的分类标签，该分类标签可以分别表示不同的表格元素，当一个单元格对应的节点属于一个节点分类时，则该节点分类所对应的表格元素则可以对应该单元格。按照各节点所属节点分类的分类标签，对各单元格进行分类，以确定各单元格所属的表格元素。

[0081] 进一步的，可以理解的是，图卷积神经网络可以训练为直接输出各单元格的分类标签的网络模型，图卷积神经网络可以根据生成的分类结果图直接对单元格进行分类，确定出各单元格所属的分类标签，进而确定出各单元格的表格元素。

[0082] 进一步的，在上述发明实施例的基础上，所述表格元素包括以下至少之一：列元素、元数据、标题元素、数据元素。

[0083] 本发明实施例，通过为小样本学习训练生成的样本训练集生成样本节点图，提取样本节点图的特征信息和标签信息作为特征向量和标签向量，基于特征向量和标签向量训练图神经网络，获取待处理表格的各单元格的位置坐标，按照位置坐标将各单元格划分到至少一条边，针对各边连接属于相同行或列的单元格以构成中间处理图，提取中间处理图的特征矩阵和邻接矩阵，输入特征矩阵和邻接矩阵到图卷积神经网络，并获取图卷积神经网络输出的分类结果图，按照分类结果图中的分类标签确定各单元格的表格元素，实现数据表格元素识别，保留数据表格的语义特征以及结构特征，可增强表格元素识别的准确性，便于后续表格数据的检测与处理。

[0084] 进一步的，在上述发明实施例的基础上，所述经过小样本学习生成所述训练样本集，包括：

[0085] 将原始训练样本集划分为支持集和查询集，其中，所述支持集包括的样本表格标记有表格元素标签；使用预先训练的小样本学习网络按照所述支持集确定出所述查询集的表格元素标签；将具有所述表格元素标签的所述查询集和所述支持集作为训练样本集。

[0086] 其中，原始训练样本集可以对部分数据进行表格元素标记的数据集，该数据集中只有少部分样本表格被表格元素标签标记。支持集可以包括具有标签的样本表格，查询集可以包括未进行标记的样本表格，表格元素标签可以用于标识单元格所属的表格元素，可以具体为数字、字母和特殊符号组成的标记数据。

[0087] 在本发明实施例中，可以对原始训练样本中的部分样本表格进行标记，可以将被标记的样本表格作为支持集，未被标记的样本表格作为查询集，可以通过小样本学习网络基于支持集对查询集进行分类，确定出格查询集内样本表格各自对应的表格元素标签，可以使用确定出的元素标签对查询集内的样本表格进行标记，可以将标记后的查询集和支持集作为训练样本集。其中，小样本学习网络可以是对只具有少量标记的数据集进行处理的网络，可以生成数据集内所有数据的数据标签，图7是本发明实施例二提供的一种小样本学习的示例图，参见图7，小样本学习网络可以为一个分类器，可以对小样本表格数据集进行特征提取，该特征提取可以使用长短期记忆人工神经网络(Long Sort‑Term Memory，LSTM)模型，以及对查询集数据进行分类的分类器，该分类器可以包括全连接层和支持向量机(Support Vector Machine，SVM)组成，可以基于支持集数据对查询集数据进行分类，利用相似性度量对查询集数据进行分类，以确定出各查询集对应的标签，为了使得表格元素识别的图神经网络具有更好的训练效果，LSTM模型可以由下式构成：

[0088] ft＝σ(Wf·[ht‑1,xt]+bf)

[0089] it＝σ(Wi·[ht‑1,xt]+bi)

[0090]

[0091]

[0092] ot＝σ(Wo[ht‑1,xt]+bo)

[0093] ht＝ot*tanh(Ct)

[0094] 从上到下可以分别为LSTM模型中的忘记门、输入门、临时状态、最终状态、输出门、输出层。

[0095] 进一步的，在上述发明实施例的基础上，所述小样本学习网络包括以下至少一种：原型网络模型、关系网络模型、模型无关元学习模型、度量学习模型。

[0096] 在一个示例性的实施方式中，图8是本发明实施例二提供的一种图卷积神经网络的示例图，参见图8，可以对excel表格或者excel表格图片等文件进行处理，方法的结果输出是单元格的节点、文本、单元Cell所对应的key‑value 值。本发明实施例使用的表格元素识别方法中的网络模型的处理由三部分组成。表格单元格的图Nodes表示和每个Node对应的边表示，单元格的文本表示，及表格的图片特征。第一步获取每个表格的单元格位置表示为图的节点,然后通过SVM分类器将相同类别的节点分为一个边，如果相同的行或列则为0，不同的行或列则为1。第二步获取单元格的文本特征，并将文本特征和位置特征一起构建GCN网络。第三步获取excel表格或表格的图片特征，使得图的每个节点包含图像特征、位置特征、文本特征。训练过程采用小样本预训练和fine‑tune 方法，并用BP算法对图神经网络进行优化。在上述图卷积神经网络的基础上，本发明实施例提供的表格元素识别方法可以包括如下步骤：

[0097] 1.依据表格的单元格node构建一个图网络表示：

[0098]

[0099]

[0100] 其中为Nodes的特征向量，COMBINE(l)、AGGREGATE(l)为表格图节点的更新函数。

[0101] 2.GCN模型不同层节点采用激活函数Relu连接如公式(2)。

[0102] Hl+1＝σ(AHlWl) 公式(2)

[0103] Wl为l层的权重参数矩阵,σ(.)为Relu。表格邻接矩阵A与特征H相乘。

[0104] 初始化时

[0105] 3.GCN模型频谱计算如公式(3)和(4)：

[0106]

[0107] 是输入的图信号所构成的矩阵,N表示图中结点的数目，f_{k‑1} 表示输入信号的维度,f_{k}表示输出信号的维度，是一个由待学习的参数所构成的对角矩阵,表示非线性变换.

[0108] GCN小样本方法损失函数：

[0109] 4.小样本学习以任务为单元参数更新方法，如公式(5)

[0110]

[0111] GCN算法的基本思路：对于每个节点，从它的所有邻居节点处获取其特征信息，该特征信息包括它自身的特征。假设使用average()函数，对所有的节点进行同样的操作。最后，将这些计算得到的平均值输入到神经网络中。

[0112] 实施例三

[0113] 图9是本发明实施例三提供的一种表格元素识别装置的结构示意图，可执行本发明任意实施例所提供的表格元素识别方法，具备执行方法相应的功能模块和有益效果。该装置可以由软件和/或硬件实现，具体包括：图构建模块401 和元素确定模块402。

[0114] 图构建模块401，用于根据待处理表格的单元格构建中间处理图。

[0115] 元素确定模块402，根据预先训练的图卷积神经网络处理所述中间处理图以确定格所述单元格的表格元素。

[0116] 本发明实施例，通过图构建模块生成待处理表格对应的中间处理图，元素确定模块基于预先训练的图卷积神经网络处理中间处理图，以确定出待处理表格中各单元格对应的表格元素，本发明实施例在表格元素识别过程保留原始的表格语义特征，可提高表格元素识别的准确性。

[0117] 进一步的，在上述发明实施例的基础上，所述装置还包括：图卷模型训练模块，用于为训练样本集内各样本表格构建对应的样本节点图，其中，所述训练样本集经过小样本学习生成；生成各所述样本节点图对应的邻接矩阵和特征矩阵；将各所述邻接矩阵和各所述特征矩阵输入到所述图卷积神经网络进行迭代训练，直到所述图卷积神经网络的损失函数满足预设条件。

[0118] 进一步的，在上述发明实施例的基础上，所述装置中图卷积神经网络中每层使用的激活函数的连接公式如下：

[0119] Hl+1＝σ(AHlWl)，其中，Wl为l层的权重参数矩阵，σ(.)为激活函数，A 为邻接矩阵，H为特征矩阵，初始状态时

[0120] 进一步的，在上述发明实施例的基础上，所述装置中图卷积神经网络的频谱计算公式如下：

[0121]

[0122] 其中，可以由输入的邻接矩阵和特征矩阵构成的输入信号矩阵， N表示中间处理图的节点数，f_{k‑1}表示图卷神经网络的输入维度，f_{k}表示图卷神经网络的输出维度，表示待学习参数组成的对角矩阵。

[0123] 进一步的，在上述发明实施例的基础上，所述装置中图卷积神经网络的损失函数为下式：

[0124]

[0125] 其中，x为输入参数，y为输出参数，fθ为图卷积神经网络的用于分类的映射函数。

[0126] 进一步的，在上述发明实施例的基础上，所述模型训练模块还包括：样本训练单元，用于将原始训练样本集划分为支持集和查询集，其中，所述支持集包括的样本表格标记有表格元素标签；使用预先训练的小样本学习网络按照所述支持集确定出所述查询集的表格元素标签；将具有所述表格元素标签的所述查询集和所述支持集作为训练样本集。

[0127] 进一步的，在上述发明实施例的基础上，所述样本训练单元中小样本学习网络包括以下至少一种：原型网络模型、关系网络模型、模型无关元学习模型、度量学习模型。

[0128] 进一步的，在上述发明实施例的基础上，图构建模块401包括：

[0129] 坐标获取单元，用于获取所述待处理表格的各单元格的位置坐标。

[0130] 表格分类单元，用于根据所述位置坐标对各所述单元格划分到至少一条边。

[0131] 图构建单元，用于针对各所述边连接属于相同行或列的所述单元格以构成中间处理图。

[0132] 进一步的，在上述发明实施例的基础上，元素确定模块402包括：

[0133] 特征提取单元，用于生成所述中间处理图的邻接矩阵和特征矩阵，并将所述邻接矩阵和所述特征矩阵输入所述图卷积神经网络。

[0134] 结果分类单元，用于获取所述图卷积神经网络输出的分类结果图。

[0135] 元素确定单元，用于根据所述分类结果图的分类标签确定各所述单元格的表格元素。

[0136] 进一步的，在上述发明实施例的基础上，所述装置中表格元素包括以下至少之一：列元素、元数据、标题元素、数据元素。

[0137] 实施例四

[0138] 图10是本发明实施例四提供的一种计算机设备的结构示意图，图10示出了适于用来实现本发明实施方式的计算机设备312的框图。图10显示的计算机设备312仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。设备312是典型的智能机器人地图的更新功能的计算设备。

[0139] 如图10所示，计算机设备312以通用计算设备的形式表现。计算机设备 312的组件可以包括但不限于：一个或者多个处理器316，存储装置328，连接不同系统组件(包括存储装置328和处理器316)的总线318。

[0140] 总线318表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构 (Industry Standard Architecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

[0141] 计算机设备312典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备312访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

[0142] 存储装置328可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)330和/或高速缓存存储器332。计算机设备312可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统334可以用于读写不可移动的、非易失性磁介质(图10未显示，通常称为“硬盘驱动器”)。尽管图10中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如只读光盘(Compact Disc‑Read Only Memory， CD‑ROM)、数字视盘(Digital Video Disc‑Read Only Memory，DVD‑ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存储装置328可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

[0143] 具有一组(至少一个)程序模块326的程序336，可以存储在例如存储装置328中，这样的程序模块326包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块326通常执行本发明所描述的实施例中的功能和/或方法。

[0144] 计算机设备312也可以与一个或多个外部设备314(例如键盘、指向设备、摄像头、显示器324等)通信，还可与一个或者多个使得用户能与该计算机设备312交互的设备通信，和/或与使得该计算机设备312能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口322进行。并且，计算机设备312还可以通过网络适配器320与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器320通过总线318与计算机设备312的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备312使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

[0145] 处理器316通过运行存储在存储装置328中的程序，从而执行各种功能应用以及数据处理，例如实现本发明上述实施例所提供的表格元素识别方法。

[0146] 实施例五

[0147] 图11是本发明实施例五提供的一种芯片的结构示意图，芯片900包括一个或多个处理器901以及接口电路902。可选的，芯片900还可以包含总线903。其中：

[0148] 处理器901可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、数字通信器(DSP)、专用集成电路((ASIC)、现场可编程门阵列((FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件、MCU、MPU、CPU或者协处理器中的一个或多个。可以实现或者执行本申请实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

[0149] 接口电路902可以用于数据、指令或者信息的发送或者接收，处理器901 可以利用接口电路902接收的数据、指令或者其它信息，进行加工，可以将加工完成信息通过接口电路902发送出去。

[0150] 可选的，芯片还包括存储器，存储器可以包括只读存储器和随机存取存储器，并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(NVRAM)。

[0151] 可选的，存储器存储了可执行软件模块或者数据结构，处理器可以通过调用存储器存储的操作指令(该操作指令可存储在操作系统中)，执行相应的操作。

[0152] 可选的，芯片可以使用在本申请实施例涉及的目标检测装置中。可选的，接口电路902可用于输出处理器901的执行结果。关于本申请的一个或多个实施例提供的目标检测方法可参考前述各个实施例，这里不再赘述。

[0153] 需要说明的，处理器901、接口电路902各自对应的功能既可以通过硬件设计实现，也可以通过软件设计来实现，还可以通过软硬件结合的方式来实现，这里不作限制。

[0154] 实施例六

[0155] 本发明实施例六提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理装置执行时实现如本发明实施例中的表格元素识别方法。本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、 RF(射频)等等，或者上述的任意合适的组合。

[0156] 在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText Transfer Protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

[0157] 上述计算机可读介质可以是上述计算机设备中所包含的；也可以是单独存在，而未装配入该计算机设备中。

[0158] 上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该计算机设备执行时，使得该计算机设备：根据待处理表格的单元格构建中间处理图；根据预先训练的图卷积神经网络处理所述中间处理图以确定各所述单元格的表格元素。

[0159] 可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言— 诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

[0160] 附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

[0161] 描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

[0162] 本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

[0163] 在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器 (EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

[0164] 注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

表格元素识别方法、装置、计算机设备和存储介质转让专利

申请号 : CN202110875407.9

文献号 : CN115700827A

文献日 : 2023-02-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 罗光圣

申请人 : 上海爱数信息技术股份有限公司

摘要 :

权利要求 :

说明书 :