模型训练方法、文本识别方法、装置、设备和介质转让专利

申请号 : CN202111464610.3

文献号 : CN113887535B

文献日 : 2022-04-12

本公开涉及模型训练方法、文本识别方法、装置、设备和介质，包括：利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支，得到训练后的第一目标分支，第一训练样本包括第一文本图像以及第一文本图像对应的文本字符，第二候选分支采用循环神经网络；基于训练后的第一目标分支和第三候选分支构建第二候选模型，并利用第二训练样本训练第二候选模型得到文本识别模型，第二训练样本包括第二文本图像以及第二文本图像对应的文本字符，第三候选分支采用图神经网络，实现快速准确的文本识别。

1.一种文本识别模型训练方法，其特征在于，包括：利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支，得到训练后的第一目标分支，其中，所述第一目标分支为所述第一候选分支训练后对应的分支，所述第一训练样本包括第一文本图像以及第一文本图像对应的文本字符，所述第二候选分支采用循环神经网络；

基于所述训练后的第一目标分支和第三候选分支构建第二候选模型，并利用第二训练样本训练所述第二候选模型得到所述文本识别模型，所述第二训练样本包括第二文本图像以及第二文本图像对应的文本字符，所述第三候选分支采用图神经网络；

其中，所述利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支，得到训练后的第一目标分支，包括：将所述第一训练样本中的第一文本图像输入所述第一候选模型，得到第一预测结果；

基于第一预设损失函数，根据所述第一预测结果和所述第一训练样本中的与所述第一文本图像对应的文本字符，对所述第一候选模型中的第一候选分支和第二候选分支进行训练，获得第一候选分支经训练后对应的第一目标分支；

其中，所述利用第二训练样本训练所述第二候选模型得到所述文本识别模型，包括：将所述第二训练样本中的第二文本图像输入第二候选模型，得到第二预测结果；

基于第二预设损失函数，根据所述第二预测结果和所述第二训练样本中的与所述第二文本图像对应的文本字符，对所述第二候选模型中的第三候选分支进行训练，获得训练后的第三目标分支；

基于所述第一目标分支和所述第三目标分支，生成所述文本识别模型。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一训练样本中的第一文本图像输入所述第一候选模型，得到第一预测结果，包括：通过所述第一候选模型中的第一候选分支对所述第一文本图像进行第一特征提取，得到第一文本图像对应的第一图像特征，其中，所述第一图像特征为经过残差网络提取的特征映射图；

通过所述第一候选模型的第二候选分支对所述第一图像特征进行第二特征提取，得到第二图像特征，并对所述第二图像特征进行解码转录，得到第一预测文本字符，其中，所述第二图像特征为经过双向长短期记忆神经网络提取的特征映射图。

3.根据权利要求2所述的方法，其特征在于，所述第一候选分支包括残差网络，所述残差网络包括依次串联的N个残差块，其中，N为大于1的正整数；

所述通过所述第一候选模型中的第一候选分支对所述第一文本图像进行第一特征提取，得到第一文本图像对应的第一图像特征，包括：拼接前N‑1个残差块输出的特征映射，获得拼接特征映射；

将所述拼接特征映射与第N个残差块提取的特征映射进行逐点相加，得到所述第一图像特征。

4.根据权利要求2所述的方法，其特征在于，所述第二候选分支包括双向长短期记忆网络、自注意力层和门控循环网络；

所述通过所述第一候选模型的第二候选分支对所述第一图像特征进行第二特征提取，得到第二图像特征，并对所述第二图像特征进行解码转录，得到第一预测文本字符，包括：通过所述第二候选分支的双向长短期记忆网络对所述第一图像特征进行第二特征提取，得到与所述第一图像特征对应的第二图像特征；

通过所述第二候选分支的自注意力层和门控循环网络对所述第二图像特征进行解码转录，得到第一预测文本字符。

5.根据权利要求1所述的方法，其特征在于，所述基于第一预设损失函数，根据所述第一预测结果和所述第一训练样本中的与所述第一文本图像对应的文本字符，对所述第一候选模型中的第一候选分支和第二候选分支进行训练，获得第一候选分支经训练后对应的第一目标分支，包括：

基于第一预设损失函数，根据所述第一预测结果和所述第一训练样本中与所述第一文本图像对应的文本字符，确定第一损失值；

根据所述第一损失值调整所述第一候选模型中的第一候选分支的参数和所述第二候选分支的参数，直至第一候选模型收敛，获得所述第一目标分支。

6.根据权利要求1所述的方法，其特征在于，所述将所述第二训练样本中的第二文本图像输入第二候选模型，得到第二预测结果，包括：通过所述第二候选模型的第一目标分支对所述第二文本图像进行第三特征提取，得到与所述第二文本图像对应的第三图像特征，其中，所述第三图像特征为经过残差网络提取的特征映射图；

通过所述第二候选模型的第三候选分支对所述第三图像特征进行第四特征提取，得到第四图像特征，并对所述第四图像特征进行解码转录，得到第二预测文本字符，其中，所述第四图像特征为经过图神经网络提取的特征映射图。

7.根据权利要求6所述的方法，其特征在于，所述第三候选分支还包括字符转录模块；

所述通过所述第二候选模型的第三候选分支对所述第三图像特征进行第四特征提取，得到第四图像特征，并对所述第四图像特征进行解码转录，得到第二预测文本字符，包括：通过所述第三候选分支的图神经网络模块对所述第三图像特征进行第四特征提取，得到与所述第三图像特征对应的第四图像特征；

通过所述第三候选分支的字符转录模块对所述第四图像特征进行解码转录，得到第二预测文本字符。

8.根据权利要求7所述的方法，其特征在于，所述通过所述第三候选分支的图神经网络模块对所述第三图像特征进行第四特征提取，得到与所述第三图像特征对应的第四图像特征，包括：

利用所述图神经网络模块针对所述第三图像特征中的每个像素点，求取该像素点相对其它所有像素点的余弦特征相似度，得到相似度矩阵；

对所述相似度矩阵进行图卷积处理，得到第四图像特征。

9.根据权利要求1所述的方法，其特征在于，所述基于第二预设损失函数，根据所述第二预测结果和所述第二训练样本中的与所述第二文本图像对应的文本字符，对所述第二候选模型中的第三候选分支进行训练，获得训练后的第三目标分支，包括：基于第二预设损失函数，根据所述第二预测结果和所述第二训练样本中的与所述第二文本图像对应的文本字符，确定第二损失值；

根据所述第二损失值调整所述第二候选模型中的第三候选分支的参数，直至第二候选模型收敛，获得训练后的第三目标分支。

10.根据权利要求1所述的方法，其特征在于，利用第二训练样本训练所述第二候选模型时保持所述第一目标分支的参数不变。

11.一种文本识别方法，其特征在于，所述方法包括：获取待识别的文本图像；

将所述待识别的文本图像输入文本识别模型中，并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息；

其中，所述文本识别模型基于如权利要求1至10任一项所述的方法训练得到。

12.一种文本识别模型训练装置，其特征在于，包括：第一目标分支确定模块，用于利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支，得到训练后的第一目标分支，其中，所述第一目标分支为所述第一候选分支训练后对应的分支，所述第一训练样本包括第一文本图像以及第一文本图像对应的文本字符，所述第二候选分支采用循环神经网络；

文本识别模型确定模块，用于基于所述训练后的第一目标分支和第三候选分支构建第二候选模型，并利用第二训练样本训练所述第二候选模型得到所述文本识别模型，所述第二训练样本包括第二文本图像以及第二文本图像对应的文本字符，所述第三候选分支采用图神经网络；

其中，第一目标分支确定模块包括：第一预测结果获取单元，用于将第一训练样本中的第一文本图像输入第一候选模型，得到第一预测结果；

第一目标分支确定单元，用于基于第一预设损失函数，根据第一预测结果和第一训练样本中的与第一文本图像对应的文本字符，对第一候选模型中的第一候选分支和第二候选分支进行训练，获得第一候选分支经训练后对应的第一目标分支；

其中，文本识别模型确定模块包括：第二预测结果获取单元，用于将第二训练样本中的第二文本图像输入第二候选模型，得到第二预测结果；

第三目标分支获取单元，用于基于第二预设损失函数，根据第二预测结果和第二训练样本中的与第二文本图像对应的文本字符，对第二候选模型中的第三候选分支进行训练，获得训练后的第三目标分支；

文本识别模型生成单元，用于基于第一目标分支和第三目标分支，生成文本识别模型。

13.一种文本识别装置，其特征在于，包括：文本图像获取模块，用于获取待识别的文本图像；

文本信息获取模块，用于将所述待识别的文本图像输入文本识别模型中，并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息；其中，所述文本识别模型基于如权利要求1至10任一项所述的方法训练得到。

14.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1‑10中任一项所述的模型训练方法，或者执行权利要求11中所述的文本识别方法。

15.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1‑10中任一项所述的模型训练方法，或者执行权利要求

11中所述的文本识别方法。

模型训练方法、文本识别方法、装置、设备和介质

技术领域

[0001] 本公开涉及文本识别技术领域，尤其涉及模型训练方法、文本识别方法、装置、设备和介质。

背景技术

[0002] 当前文本识别技术应用范围广泛，是很多计算机视觉任务的前置步骤，例如图像识别、文字识别、身份识别等，文本识别的主要目的是定位文本行或字符在图像中的位置。
相较于通用第二识别而言，文本具有多方向、不规则形状、极端长宽比、字体、颜色、背景多
样等特点，因此对文本的精准定位既十分重要又具有挑战性。

[0003] 目前常见的文本检测方法大致包括两类，一类方案是基于自底向上的策略，将识别问题拆分为字符检测、字符识别和字符组合，逐个解决，该方法的优点是识别结果准确，
缺点是需要字符级别的标注，即每个字符在输入图像上的位置、以及信息都需要标注，需要
耗费大量的人工成本；另一类方案是基于整体分析的策略，即序列到序列的方法，先将图像
编码，然后进行序列解码直接得出整个字符串，该方法的优点是标注简单，只需要转录字符
串即可，缺点是存在识别结果多识别字符或漏识别字符的情况。

[0004] 现有的文本识别方法，难以满足实际应用场景的速度需求和精度要求。

发明内容

[0005] 为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种模型训练方法、文本识别方法、装置、设备和介质。

[0006] 第一方面，本公开提供了文本识别模型训练方法，包括：

[0007] 利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支，得到训练后的第一目标分支，所述第一训练样本包括第一文本图像以及第一文本图像对应的文本
字符，所述第二候选分支采用循环神经网络；

[0008] 基于所述训练后的第一目标分支和第三候选分支构建第二候选模型，并利用第二训练样本训练所述第二候选模型得到所述文本识别模型，所述第二训练样本包括第二文本
图像以及第二文本图像对应的文本字符，所述第三候选分支采用图神经网络。

[0009] 第二方面，本公开提供了一种文本识别方法，所述方法包括：

[0010] 获取待识别的文本图像；

[0011] 将所述待识别的文本图像输入文本识别模型中，并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息；

[0012] 其中，所述文本识别模型基于如第一方面任一项所述的方法训练得到。

[0013] 第三方面，本公开提供了一种文本识别模型训练装置，包括：

[0014] 第一目标分支和第二目标分支确定模块，用于利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支，得到训练后的第一目标分支和第二目标分支，所述
第一训练样本包括第一文本图像以及第一文本图像对应的文本字符，所述第二候选分支采
用循环神经网络；

[0015] 文本识别模块确定模块，用于基于所述训练后的第一目标分支和第三候选分支构建第二候选模型，并利用第二训练样本训练所述第二候选模型得到所述文本识别模型，所
述第二训练样本包括第二文本图像以及第二文本图像对应的文本字符，所述第三候选分支
采用图神经网络。

[0016] 第四方面，本公开实施例提供一种文本识别装置，包括：

[0017] 文本图像获取模块，用于获取待识别的文本图像；

[0018] 文本信息获取模块，用于将所述待识别的文本图像输入文本识别模型中，并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息；其中，所述文本识
别模型基于如第一方面任一项所述的方法训练得到。

[0019] 第五方面，本公开还提供了一种电子设备，包括：

[0020] 一个或多个处理器；

[0021] 存储装置，用于存储一个或多个程序，

[0022] 当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一项所述的模型训练方法，或者执行第二方面中所述的文本识别方
法。

[0023] 第六方面，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面中任一项所述的模型训练方法，或者
执行第二方面中所述的识别方法。

[0024] 本公开实施例提供的技术方案与现有技术相比具有如下优点：

[0025] 本公开实施例提供的文本识别模型训练方法、文本识别方法、装置、设备和介质，利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支，得到训练后的第
一目标分支，第二候选分支采用循环神经网络；基于训练后的第一目标分支和第三候选分
支构建第二候选模型，并利用第二训练样本训练第二候选模型得到文本识别模型，第二候
选分支采用循环神经网络。由于循环神经网络对具有序列特性的数据，能挖掘数据中的时
序信息以及语义信息，因此在文本识别上其识别精度较好，但也因为其可以解决序列问题，
即当前输出不仅由当前时刻输入层决定，还由上一输出决定，是一个串行处理过程，因此在
处理速度上不占优势，而图神经网络在处理速度上更有利，因此将第一候选分支与循环神
经网络结合进行训练以调整第一候选分支的参数获得的第一目标分支，将有较好的识别精
度，再基于第一目标分支和采用图神经网络的第三候选分支构建第二候选模型来进行训练
得到的文本识别模型，既能保证识别精度，也能保证识别速度。

附图说明

[0026] 此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

[0027] 为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而
言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

[0028] 图1是本公开实施例提供的一种文本识别模型训练方法的流程示意图；

[0029] 图2是本公开实施例提供的另一种文本识别模型训练方法的流程示意图；

[0030] 图3是本公开实施例提供的又一种文本识别模型训练方法的流程示意图；

[0031] 图4是本公开实施例提供的又一种文本识别模型训练方法的流程示意图；

[0032] 图5是本公开实施例提供的又一种文本识别模型训练方法的流程示意图；

[0033] 图6是本公开实施例提供的又一种文本识别模型训练方法的流程示意图；

[0034] 图7是本公开实施例提供的又一种文本识别模型训练方法的流程示意图；

[0035] 图8是本公开实施例提供的一种文本识别方法的流程示意图；

[0036] 图9是本公开实施例提供的一种文本识别模型训练装置的结构示意图；

[0037] 图10是本公开实施例提供的一种文本识别装置的结构示意图；

[0038] 图11是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

[0039] 为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可
以相互组合。

[0040] 在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施
例，而不是全部的实施例。

[0041] 下面参照附图描述本公开的方案。

[0042] 图1是本公开实施例提供的一种文本识别模型训练方法的流程示意图。本实施例方法可由文本识别模型训练装置来执行，该装置可采用硬件/或软件的方式来实现，并可配
置于电子设备中。可实现本申请任意实施例所述的文本识别模型训练方法。如图1所示，该
方法具体包括如下：

[0043] S10、利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支，得到训练后的第一目标分支。

[0044] 其中，第一训练样本包括第一文本图像以及第一文本图像对应的文本字符，第二候选分支采用循环神经网络。

[0045] 此外，利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支，得到训练后的第一目标分支以外，还包括第二目标分支，第一目标分支为第一候选分支训
练后对应的分支，第二目标分支为第二候选分支训练后对应的分支。

[0046] 第一训练样本为样本集中的文本图像，其中文本图像中的文本包括直文本、倾斜文本和弯曲文本等，通过对第一训练样本中的文本图像进行标注得到与第一文本图像对应
的文本字符。

[0047] 需要说明的是，上述实施例提供的第一训练样本中，各文本图像的尺寸大小一致。

[0048] S20、基于训练后的第一目标分支和第三候选分支构建第二候选模型，并利用第二训练样本训练所述第二候选模型得到文本识别模型。

[0049] 其中，第二训练样本包括第二文本图像以及第二文本图像对应的文本字符，第三候选分支采用图神经网络。

[0050] 需要说明的是，上述实施例中，对第一候选模型进行训练的过程中，采用第一预设损失函数更新第一候选分支和第二候选分支的参数梯度，而将训练后的第一目标分支和第
三候选分支构成第二候选模型后，第二候选模型进行训练的过程中，第二预设损失函数负
责更新第三候选分支的参数梯度。

[0051] 本公开实施例提供的文本识别模型训练方法，利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支，得到训练后的第一目标分支，第二候选分支采用循
环神经网络；基于训练后的第一目标分支和第三候选分支构建第二候选模型，并利用第二
训练样本训练第二候选模型得到文本识别模型，第二候选分支采用循环神经网络。由于循
环神经网络对具有序列特性的数据，能挖掘数据中的时序信息以及语义信息，因此在文本
识别上其识别精度较好，但也因为其可以解决序列问题，即当前输出不仅由当前时刻输入
层决定，还由上一输出决定，是一个串行处理过程，因此在处理速度上不占优势，而图神经
网络在处理速度上更有利，因此将第一候选分支与循环神经网络结合进行训练以调整第一
候选分支的参数获得的第一目标分支，将有较好的识别精度，再基于第一目标分支和采用
图神经网络的第三候选分支构建第二候选模型来进行训练得到的文本识别模型，既能保证
识别精度，也能保证识别速度。

[0052] 在本申请的一些实施例中，如图2所示，步骤S10包括：

[0053] S11、将第一训练样本中的第一文本图像输入第一候选模型，得到第一预测结果。

[0054] 其中，第一候选模型包括级联的第一候选分支和第二候选分支，第一候选模型可独立处理不同数据获得文本识别结果。

[0055] 在本申请的一些实施例中，第一候选分支包括残差网络，第二候选分支包括两层双向长短期记忆网络（Long Short‑Term Memory，LSTM）、一层自注意力层和一层门控循环
网络（Gated Recurrent Unit networks，GRU）。

[0056] S12、基于第一预设损失函数，根据第一预测结果和第一训练样本中的与第一文本图像对应的文本字符，对第一候选模型中的第一候选分支和第二候选分支进行训练，获得
第一候选分支经训练后对应的第一目标分支。

[0057] 具体的，可将第一候选模型输出的第一预测结果与第一样本中的与第一文本图像对应的文本字符进行验证，当第一预设损失函数的损失值满足要求时，获得第一候选分支
经训练后对应的第一目标分支。

[0058] 第一预设损失函数可使用多分类交叉熵损失函数；通过第一预设损失函数使第一候选模型达到收敛状态，减少第一候选模型预测值的误差。

[0059] 在本申请的一些实施例中，如图3所示，步骤S11的具体实现方式包括：

[0060] S110、通过第一候选模型中的第一候选分支对第一文本图像进行第一特征提取，得到第一文本图像对应的第一图像特征。

[0061] 其中，第一候选分支包括残差网络，残差网络包括依次串联的N个残差块，其中，N为大于1的正整数，第一图像特征为经过残差网络提取的特征映射图。

[0062] 具体的，通过第一候选模型中的第一候选分支对第一文本图像进行第一特征提取，得到第一文本图像对应的第一图像特征，包括：

[0063] 拼接前N‑1个残差块输出的特征映射，获得拼接特征映射；将拼接特征映射与第N个残差块提取的特征映射进行逐点相加，得到第一图像特征。

[0064] 示例性的，残差网络包括依次串联的4个残差块，将第一训练样本中的第一文本图像输入第一候选模型后，依次获取4个残差块输出的特征映射，例如获取第一个残差块输出
的特征映射通道数为X的特征映射，第二残差块输出的特征映射通道数为X的特征映射，第
三残差块输出的特征映射通道数为2X的特征映射，以及第四残差块输出的特征映射通道数
为4X的特征映射。

[0065] 将第一个残差块、第二个残差块和第三个残差块输出的特征映射进行拼接后，与第四个残差块提取的特征映射进行逐点相加，得到第一图像特征。

[0066] 其中，每个残差块由若干卷积层、归一化和池化层组成，可提取图像的高级语义特征，且残差块提取的特征映射通道数越多，从输入的文本图像中提取的图像特征越多。

[0067] 需要说明的是，上述实施例中，当残差网络为Resnet18网络时，第一残差块输出特征映射通道数为128的特征映射，对应的，第二残差块输出特征映射通道数为128的特征映
射，第三残差块输出特征映射通道数为256的特征映射，第四残差块输出特征映射通道数为
512的特征映射。

[0068] S111、通过第一候选模型的第二候选分支对第一图像特征进行第二特征提取，得到第二图像特征，并对第二图像特征进行解码转录，得到第一预测文本字符。

[0069] 其中，第二候选分支包括双向长短期记忆网络、自注意力层和门控循环网络，第二图像特征为经过双向长短期记忆神经网络提取的特征映射图。

[0070] 具体的，通过第二候选模型的第二候选分支对第一图像特征进行第二特征提取，得到第二图像特征，并对第二图像特征进行解码转录，得到第一预测文本字符，包括：

[0071] 通过第二候选分支的双向长短期记忆网络对第一图像特征进行第二特征提取，得到与第一图像特征对应的第二图像特征。

[0072] 第一候选模型的第二候选分支的第一个子部分为常规的两层双向LSTM，它的输入为第一部分输出的第一图像特征，设定其时间步长度为H*W，对每个像素点位置处的第一图
像特征做一次特征变换，然后将其输出重新组成（H*W）*512通道的第二图像特征。

[0073] 其中，H为第一训练样本中第一文本图像对应的高度，W为第一训练样本中第一文本图像对应的宽度。

[0074] 通过第二候选分支的自注意力层和门控循环网络对第二图像特征进行解码转录，得到第一预测文本字符。

[0075] 第一候选模型的第二候选分支的第二个子部分使用一个注意力层和一个门控循环网络，其输入接双向长短期记忆网络的输出，对双向长短期记忆网络的输出的第二图像
特征进行解码转录，得到第一预测文本字符。

[0076] 其中，上述实施例中，第一图像特征和第二图像特征可为能够表征第一文本图像的具体语义信息的高维抽象向量。

[0077] 在本申请的一些实施例中，如图4所示，步骤S12的一种具体可实现方式包括：

[0078] S120、基于第一预设损失函数，根据第一预测结果和第一训练样本中与第一文本图像对应的文本字符，确定第一损失值。

[0079] 第一训练样本中与第一文本图像对应的文本字符为当对训练样本中的第一文本图像进行标注，得到第一标注文本图像后，从第一标注文本图像中获取与当前第一标注文
本图像对应的文本字符。

[0080] 当将训练样本中的第一文本图像输入第一候选模型得到第一预测结果后，判断第一预测结果与第一训练样本中与第一文本图像的文本字符之间的相似度，即基于第一预设
损失函数计算第一预测结果和第一训练样本中与第一文本图像对应的文本字符之间的第
一损失值。

[0081] S121、根据第一损失值调整第一候选模型中的第一候选分支的参数和第二候选分支的参数，直至第一候选模型收敛，获得第一目标分支。

[0082] 根据确定的第一损失值，调整第一候选模型中的第一候选分支的参数和第二候选分支的参数，直至第一候选模型收敛的具体过程为，通过第一预设损失函数计算第一预测
结果与第一文本图像对应的文本字符之间的相似性，当第一预测结果与第一文本图像对应
的文本字符之间的相似性满足预设阈值时，则表明第一候选模型收敛，此时第一候选模型
收敛时对应的第一候选分支为第一目标分支。

[0083] 通过第一预设损失值调整第一候选模型的参数，直至模型收敛，提高识别精度。

[0084] 在本申请的一些实施例中，如图5所示，步骤S20的一种可实现方式包括：

[0085] S21、将第二训练样本中的第二文本图像输入第二候选模型，得到第二预测结果。

[0086] 第二候选模型由第一目标分支和第三候选分支组成。

[0087] 其中，第三候选分支包括一层图神经网络模块和一层字符转录模块。

[0088] 利用第一候选模型收敛时得到的第一目标分支与第三候选分支构成第二候选模型，将第二训练样本中的第二文本图像输入第二候选模型，得到第二预测结果。

[0089] 其中，第二训练样本可以为与第一训练样本相同的样本集，也可以为不同的样本集，本公开实施例不对此进行具体限定。

[0090] S22、基于第二预设损失函数，根据第二预测结果和第二训练样本中的与第二文本图像对应的文本字符，对第二候选模型中的第三候选分支进行训练，获得训练后的第三目
标分支。

[0091] 由于采用第一候选模型识别结果准确率较好，但识别速率较慢，为实现识别准确率的基础上提高识别效率。本申请中当利用第一训练样本训练第一候选模型中的第一候选
分支和第二候选分支得到第一目标分支后，将第一候选模型收敛时得到的第一目标分支与
第三候选分支构建第二候选模型，对第二候选模型中的第三候选分支进行训练，获得训练
后的第三目标分支。

[0092] 其中，对第二候选模型进行训练时保持第二候选模型中的第一目标分支参数不变。

[0093] 第二预设损失函数为第二候选模型是否训练合格的衡量标准，从而，有效保证训练得到的文本识别模型在满足识别精度的同时识别速度。

[0094] 可将第二候选模型输出的第二预测结果和第二训练样本中的与第二文本图像对应的文本字符进行验证，当第二预设损失函数的损失值满足要求时，得到训练后的第三目
标分支。

[0095] 第二预设损失函数可使用CTC损失函数；通过第二预设损失函数使第二候选模型达到收敛状态，减少第二候选模型预测值的误差。

[0096] S23、基于第一目标分支和第三目标分支，生成文本识别模型。

[0097] 此时，生成的文本识别模型由第一目标分支和第三目标分支组成。

[0098] 图6是本公开实施例提供的又一种文本识别模型训练方法的流程示意图，本公开实施例是在图5对应的实施例的基础上，如图6所示，步骤S21的具体可实现方式包括：

[0099] S210、通过第二候选模型的第一目标分支对第二文本图像进行第三特征提取，得到与第二文本图像对应的第三图像特征。

[0100] 其中，第三图像特征为经过残差网络提取的特征映射图。

[0101] 具体的，通过第二候选模型的第一目标分支对第二文本图像进行第三特征提取的过程与通过第一候选模型的第一候选分支对第一文本图像进行第一特征提取的过程相同，
此处不再一一赘述。

[0102] S211、通过第二候选模型的第三候选分支对第三图像特征进行第四特征提取，得到第四图像特征，并对第四图像特征进行解码转录，得到第二预测文本字符。

[0103] 其中，第三候选分支包括图神经网络模块和字符转录模块，第四图像特征为经过图神经网络模块提取的特征映射图。

[0104] 具体的，通过第二候选模型的第三候选分支对第三图像特征进行第四特征提取，得到第四图像特征，并对第四图像特征进行解码转录，得到第二预测文本字符，包括：

[0105] 通过第三候选分支的图神经网络模块对第三图像特征进行第四特征提取，得到与第三图像特征对应的第四图像特征；通过第三候选分支的字符转录模块对第四图像特征进
行解码转录，得到第二预测文本字符。

[0106] 具体的，通过对第三图像特征中的每个像素点求取该像素点相对其它所有像素点的余弦特征相似度得到相似度矩阵，对特征相似度矩阵进行图卷积处理，得到第四图像特
征。

[0107] 将第三图像特征中每个位置作为一个像素点，每个像素点对应的特征为一个512维的向量，每个像素点与其它像素点对应的特征向量计算一次余弦相似度，得到一个相似
度值，最终得到一个（H*W）*（H*W）大小的相似度矩阵，然后将这个矩阵作为拉普拉斯矩阵，
进行两次图卷积操作，具体的图卷积操作公式为：h1=sigmoid（L*h0*w0），L指拉普拉斯矩
阵，h0指原始的第三图像特征，w0指权重参数，得到一组仍是512通道的特征映射，然后将其
拉平为（H*W）*512通道的特征映射，即第四图像特征。

[0108] 通过第三候选分支的字符转录模块对第四图像特征进行解码转录，得到第二预测文本字符。

[0109] 在本申请的一些实施例中，如图7所示，步骤S22的具体可实现方式包括：

[0110] S220、基于第二预设损失函数，根据第二预测结果和第二训练样本中的与第二文本图像对应的文本字符，确定第二损失值。

[0111] 第二训练样本中与第二文本图像对应的文本字符为当对训练样本中的第二文本图像进行标注，得到第二标注文本图像后，从第二标注文本图像中获取与当前第二标注文
本图像对应的文本字符。

[0112] 当将训练样本中的第二文本图像输入第二候选模型得到第二预测结果后，判断第二预测结果与第二训练样本中与第二文本图像的文本字符之间的相似度，即基于第二预设
损失函数计算第二预测结果和第二训练样本中与第二文本图像对应的文本字符之间的第
二损失值。

[0113] S221、根据第二损失值调整第二候选模型中的第三候选分支的参数，直至第二候选模型收敛，获得训练后的第三目标分支。

[0114] 根据确定的第二损失值，调整第二候选模型中的第三候选分支的参数，直至第二候选模型收敛的具体过程为，通过第二预设损失函数计算第二预测结果与第二文本图像对
应的文本字符之间的相似性，当第二预测结果与第二文本图像对应的文本字符之间的相似
性满足预设阈值时，则表明第二候选模型收敛，此时第二候选模型收敛时对应的第一候选
分支为第三目标分支。

[0115] 通过第二预设损失值调整第二候选模型中第三候选分支的参数，以训练出识别速度快的第三目标分支。

[0116] 图8是本公开实施例提供的一种文本识别方法的流程示意图。本实施例方法可由文本识别装置来执行，该装置可采用硬件/或软件的方式来实现，并可配置于电子设备中。
可实现本申请任意实施例所述的文本识别方法。如图8所示，该方法具体包括如下：

[0117] S100、获取待识别的文本图像。

[0118] S200、将待识别的文本图像输入文本识别模型中，并根据文本识别模型的输出结果确定待识别的文本图像的文本信息，其中，文本识别模型是由图1到图7任一所示方法训
练得到。

[0119] 本公开实施例提供的文本识别方法，能够快速准确的实现文本识别。

[0120] 图9是本公开实施例提供的一种文本识别模型训练装置的结构示意图，文本识别模型训练装置包括：

[0121] 第一目标分支确定模块001，用于利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支，得到训练后的第一目标分支，第一训练样本包括第一文本图像
以及第一文本图像对应的文本字符，第二候选分支采用循环神经网络；

[0122] 文本识别模块确定模块002，用于基于训练后的第一目标分支和第三候选分支构建第二候选模型，并利用第二训练样本训练所述第二候选模型得到文本识别模型，第二训
练样本包括第二文本图像以及第二文本图像对应的文本字符，第三候选分支采用图神经网
络。

[0123] 可选的，第一目标分支确定模块包括：

[0124] 第一预测结果获取单元，用于将第一训练样本中的第一文本图像输入第一候选模型，得到第一预测结果；

[0125] 第一目标分支确定单元，用于基于第一预设损失函数，根据第一预测结果和第一训练样本中的与第一文本图像对应的文本字符，对第一候选模型中的第一候选分支和第二
候选分支进行训练，获得第一候选分支经训练后对应的第一目标分支。

[0126] 可选的，第一预测结果获取单元包括：

[0127] 第一图像特征提取单元，用于通过第一候选模型中的第一候选分支对所述第一文本图像进行第一特征提取，得到第一文本图像对应的第一图像特征，其中，第一图像特征为
经过残差网络提取的特征映射图；

[0128] 第一预测文本字符获取单元，用于通过第一候选模型的第二候选分支对第一图像特征进行第二特征提取，得到第二图像特征，并对第二图像特征进行解码转录，得到第一预
测文本字符，其中，第二图像特征为经过双向长短期记忆神经网络提取的特征映射图。

[0129] 可选的，第一图像特征提取单元具体用于：

[0130] 拼接前N‑1个残差块输出的特征映射，获得拼接特征映射；

[0131] 将拼接特征映射与第N个残差块提取的特征映射进行逐点相加，得到第一图像特征。

[0132] 可选的，第一预测文本字符获取单元具体用于：

[0133] 通过第二候选分支的双向长短期记忆网络对所述第一图像特征进行第二特征提取，得到与第一图像特征对应的第二图像特征；

[0134] 通过第二候选分支的自注意力层和门控循环网络对第二图像特征进行解码转录，得到第一预测文本字符。

[0135] 可选的，第一目标分支确定单元包括：

[0136] 第一损失值确定单元，用于基于第一预设损失函数，根据第一预测结果和第一训练样本中与第一文本图像对应的文本字符，确定第一损失值；

[0137] 第一目标分支获取单元，用于根据第一损失值调整第一候选模型中的第一候选分支的参数和第二候选分支的参数，直至第一候选模型收敛，获得第一目标分支。

[0138] 可选的，文本识别模型确定模块包括：

[0139] 第二预测结果获取单元，用于将第二训练样本中的第二文本图像输入第二候选模型，得到第二预测结果；

[0140] 第三目标分支获取单元，用于基于第二预设损失函数，根据第二预测结果和第二训练样本中的与第二文本图像对应的文本字符，对第二候选模型中的第三候选分支进行训
练，获得训练后的第三目标分支；

[0141] 文本识别模型生成单元，用于基于第一目标分支和第三目标分支，生成文本识别模型。

[0142] 可选的，第二预测结果获取单元包括：

[0143] 第三图像特征提取单元，用于通过第二候选模型的第一目标分支对第二文本图像进行第三特征提取，得到与第二文本图像对应的第三图像特征，其中，第三图像特征为经过
残差网络提取的特征映射图；

[0144] 第二预测文本字符获取单元，用于通过第二候选模型的第三候选分支对第三图像特征进行第四特征提取，得到第四图像特征，并对第四图像特征进行解码转录，得到第二预
测文本字符，其中，第四图像特征为经过图神经网络提取的特征映射图。

[0145] 可选的，第二预测文本字符获取单元具体用于：

[0146] 通过第三候选分支的图神经网络模块对第三图像特征进行第四特征提取，得到与第三图像特征对应的第四图像特征；

[0147] 通过第三候选分支的字符转录模块对第四图像特征进行解码转录，得到第二预测文本字符。

[0148] 可选的，通过第三候选分支的图神经网络模块对第三图像特征进行第四特征提取，得到与第三图像特征对应的第四图像特征的具体过程包括：

[0149] 利用图神经网络模块针对第三图像特征中的每个像素点，求取该像素点相对其它所有像素点的余弦特征相似度，得到相似度矩阵；

[0150] 对相似度矩阵进行图卷积处理，得到第四图像特征。

[0151] 可选的，第三目标分支获取单元具体用于：

[0152] 基于第二预设损失函数，根据第二预测结果和所述第二训练样本中的与第二文本图像对应的文本字符，确定第二损失值；

[0153] 根据第二损失值调整所述第二候选模型中的第三候选分支的参数，直至第二候选模型收敛，获得训练后的第三目标分支。

[0154] 本发明实施例所提供的模型训练装置可执行本发明任意实施例所提供的模型训练方法，具备执行方法相应的功能模块和有益效果。

[0155] 图10是本公开实施例提供的一种文本识别装置的结构示意图，如图10所示，文本识别装置包括：

[0156] 文本图像获取模块003，用于获取待识别的文本图像；

[0157] 文本信息获取模块004，用于将待识别的文本图像输入文本识别模型中，并根据文本识别模型的输出结果确定待识别的文本图像的文本信息。

[0158] 通过本发明实施例的文本识别装置，一方面保证文本识别的识别精度，另一方面保证文本识别的识别效率。

[0159] 本发明实施例所提供的文本识别装置可执行本发明任意实施例所提供的文本识别方法，具备执行方法相应的功能模块和有益效果。

[0160] 本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机
程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公
开实施例的方法。

[0161] 本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开
实施例的方法。

[0162] 本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

[0163] 参考图11，现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数
字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀
片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装
置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所
示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述
的和/或者要求的本公开的实现。

[0164] 如图11所示，电子设备600包括计算单元601，其可以根据存储在只读存储器（ROM）602中的计算机程序或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序，
来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数
据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也
连接至总线604。

[0165] 电子设备600中的多个部件连接至I/O接口605，包括：输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型
的设备，输入单元606可以接收输入的数字或字符信息，以及产生与电子设备的用户设置
和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备，并
且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元
604可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机
网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、
网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设
备、蜂窝通信设备和/或类似物。

[0166] 计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工
智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及
任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。
例如，在一些实施例中，文本识别模型训练方法或者文本识别方法可被实现为计算机软件
程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的
部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。
在一些实施例中，计算单元601可以通过其他任何适当的方式（例如，借助于固件）而被配置
为执行方法文本识别模型训练方法或者文本识别方法。

[0167] 用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处
理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

[0168] 在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM
或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD‑ROM）、光学储存设备、磁储存设备、或
上述内容的任何合适组合。

[0169] 如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光
盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。

[0170] 为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视
器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的
反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用
任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

[0171] 可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算
系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网
（LAN）、广域网（WAN）和互联网。

[0172] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计
算机程序来产生客户端和服务器的关系。

模型训练方法、文本识别方法、装置、设备和介质转让专利

申请号 : CN202111464610.3

文献号 : CN113887535B

文献日 : 2022-04-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 秦勇

申请人 : 北京世纪好未来教育科技有限公司

摘要 :

权利要求 :

说明书 :