文本识别模型训练方法、文本识别方法、装置及电子设备转让专利

申请号 : CN202111560929.6

文献号 : CN113963359B

文献日 : 2022-03-18

本公开涉及一种文本识别模型训练方法、文本识别方法、装置及电子设备。文本识别模型训练方法包括：获取多对第一文本图像；通过多对第一文本图像，以及多对第一文本图像中每对第一文本图像所对应的文本相似度标签，基于对比学习，获得目标特征提取网络；获取多张第二文本图像；通过多张第二文本图像，以及多张第二文本图像中每张第二文本图像所对应的字符序列标注信息，对包括目标特征提取网络和目标编解码网络的初始文本识别模型进行训练，获得目标文本识别模型。本公开提供的文本识别模型训练方法、文本识别方法、装置及电子设备能够提高目标文本识别模型的可靠性。

1.一种文本识别模型训练方法，其特征在于，包括：获取多对第一文本图像，以及所述多对第一文本图像中每对第一文本图像所对应的文本相似度标签；

针对所述多对第一文本图像中的每一对第一文本图像，将所述一对第一文本图像分别输入初始对比学习网络中的第一初始特征提取网络和第二初始特征提取网络，以供所述第一初始特征提取网络输出第一特征图像，所述第二初始特征提取网络输出第二特征图像，并将所述第一特征图像和所述第二特征图像输入所述初始对比学习网络中的多层全连接层，所述第二初始特征提取网络与所述第一初始特征提取网络具有相同的模型参数；

获取所述多层全连接层输出的对比结果表征标签，其中，所述对比结果表征标签用于表征所述一对第一文本图像的文本相似程度预测结果；

根据所述文本相似度标签和所述对比结果表征标签，调整所述第一初始特征提取网络、所述第二初始特征提取网络和所述多层全连接层的模型参数，目标特征提取网络为经过模型参数调整之后的所述第一初始特征提取网络或所述第二初始特征提取网络；

获取多张第二文本图像，以及所述多张第二文本图像中每张第二文本图像所对应的字符序列标注信息；

通过所述多张第二文本图像，以及所述多张第二文本图像中每张第二文本图像所对应的字符序列标注信息，对包括所述目标特征提取网络和目标编解码网络的初始文本识别模型进行训练，获得目标文本识别模型。

2.根据权利要求1所述的文本识别模型训练方法，其特征在于，所述获取多对第一文本图像，以及所述多对第一文本图像中每对第一文本图像所对应的文本相似度标签之前，所述文本识别模型训练方法还包括：

获取多张基础文本图像；

对所述多张基础文本图像中的至少部分基础文本图像进行局部遮挡处理，获得多张目标文本图像；

将所述多张目标文本图像中的每张目标文本图像与对应的基础文本图像组成一对文本相似的第一文本图像，以获得多对文本相似的第一文本图像；

为所述多对文本相似的第一文本图像中的每对第一文本图像添加对应的文本相似度标签。

3.根据权利要求1所述的文本识别模型训练方法，其特征在于，所述通过所述多张第二文本图像，以及所述多张第二文本图像中每张第二文本图像所对应的字符序列标注信息，对包括所述目标特征提取网络和目标编解码网络的初始文本识别模型进行训练，获得目标文本识别模型之前，所述文本识别模型训练方法还包括：获取多个训练用字符序列；

根据所述多个训练用字符序列，获得多个序列词向量；

通过所述多个序列词向量，对初始编解码网络进行训练，获得所述目标编解码网络。

4.根据权利要求3所述的文本识别模型训练方法，其特征在于，所述通过所述多个序列词向量，对初始编解码网络进行训练，获得所述目标编解码网络之前，所述文本识别模型训练方法还包括：

将所述初始编解码网络中的初始编码器的输出模式配置为仅输出一个特征向量，和/或将所述初始编解码网络中的初始解码器中的自注意力子层配置为不添加掩膜。

5.根据权利要求3或4所述的文本识别模型训练方法，其特征在于，所述通过所述多个序列词向量，对初始编解码网络进行训练，获得所述目标编解码网络，包括：针对所述多个序列词向量中的每个序列词向量，将所述序列词向量输入所述初始编解码网络中的初始编码器，以供所述初始编码器输出目标特征向量，并将所述目标特征向量输入所述初始编解码网络中的初始解码器；

获取所述初始解码器输出的具有固定长度的第一特征表示；

根据所述第一特征表示，以及所述第一特征表示所对应的序列词向量，调整所述初始编码器和所述初始解码器的模型参数，以对所述初始编解码网络进行训练。

6.根据权利要求1所述的文本识别模型训练方法，其特征在于，所述目标编解码网络中包括目标编码器和目标解码器；

对所述初始文本识别模型进行训练的过程中，所述目标特征提取网络的学习率大于所述目标编码器的学习率，所述目标编码器的学习率大于所述目标解码器的学习率。

7.一种文本识别方法，其特征在于，包括：获取待识别图像，所述待识别图像中携带有待识别字符序列；

将所述待识别图像输入目标文本识别模型中的文本特征提取网络，以通过所述文本特征提取网络对所述待识别图像进行特征提取，获得第一图像特征矩阵，并将所述第一图像特征矩阵输入所述目标文本识别模型中的文本编解码网络，所述文本编解码网络根据所述第一图像特征矩阵，输出所述待识别图像的文本识别结果，其中，所述目标文本识别模型通过权利要求1 6中任意一项所述的文本识别模型训练方法获得。

8.一种文本识别模型训练装置，其特征在于，包括：第一训练数据获取模块，用于获取多对第一文本图像，以及所述多对第一文本图像中每对第一文本图像所对应的文本相似度标签；

第一训练模块，用于针对所述多对第一文本图像中的每一对第一文本图像，将所述一对第一文本图像分别输入初始对比学习网络中的第一初始特征提取网络和第二初始特征提取网络，以供所述第一初始特征提取网络输出第一特征图像，所述第二初始特征提取网络输出第二特征图像，并将所述第一特征图像和所述第二特征图像输入所述初始对比学习网络中的多层全连接层，所述第二初始特征提取网络与所述第一初始特征提取网络具有相同的模型参数；获取所述多层全连接层输出的对比结果表征标签，其中，所述对比结果表征标签用于表征所述一对第一文本图像的文本相似程度预测结果；根据所述文本相似度标签和所述对比结果表征标签，调整所述第一初始特征提取网络、所述第二初始特征提取网络和所述多层全连接层的模型参数，目标特征提取网络为经过模型参数调整之后的所述第一初始特征提取网络或所述第二初始特征提取网络；

第二训练数据获取模块，用于获取多张第二文本图像，以及所述多张第二文本图像中每张第二文本图像所对应的字符序列标注信息；

第二训练模块，用于通过所述多张第二文本图像，以及所述多张第二文本图像中每张第二文本图像所对应的字符序列标注信息，对包括所述目标特征提取网络和目标编解码网络的初始文本识别模型进行训练，获得目标文本识别模型。

9.一种文本识别装置，其特征在于，包括：图像获取模块，用于获取待识别图像，所述待识别图像中携带有待识别字符序列；

文本识别模块，用于将所述待识别图像输入目标文本识别模型中的文本特征提取网络，以通过所述文本特征提取网络对所述待识别图像进行特征提取，获得第一图像特征矩阵，并将所述第一图像特征矩阵输入所述目标文本识别模型中的文本编解码网络，所述文本编解码网络根据所述第一图像特征矩阵，输出所述待识别图像的文本识别结果，其中，所述目标文本识别模型通过权利要求8所述的文本识别模型训练装置获得。

10.一种电子设备，包括：

处理器；以及

存储器，所述存储器上存储有计算机程序；

其中，所述计算机程序包括指令，所述指令在由所述处理器执行时，使所述处理器执行权利要求1 6中任意一项所述的文本识别模型训练方法，或使所述处理器执行权利要求7所~

述的文本识别方法。

11.一种非瞬时计算机可读存储介质，其特征在于，存储有计算机指令，所述计算机指令用于使计算机执行权利要求1 6中任意一项所述的文本识别模型训练方法，或使所述计~

算机执行权利要求7所述的文本识别方法。

文本识别模型训练方法、文本识别方法、装置及电子设备

技术领域

[0001] 本公开涉及自然语言处理领域，尤其涉及一种文本识别模型训练方法、文本识别方法、装置及电子设备。

背景技术

[0002] 自然语言处理领域中，自然场景文字识别是指从携带有字符序列的图像中识别出字符序列的过程。现有技术中，字符序列的识别方法通常是基于整体分析的策略，也即，字
符序列到字符序列的方法，首先，对图像进行编码，然后，再进行字符序列的解码，而直接获
得整个字符序列。

发明内容

[0003] 本公开的目的在于，提供一种文本识别模型训练方法、文本识别方法、装置及电子设备，以解决通过现有技术训练，获得的目标文本识别模型可靠性较低的问题。

[0004] 本公开的第一方面提供的文本识别模型训练方法，包括：

[0005] 获取多对第一文本图像，以及多对第一文本图像中每对第一文本图像所对应的文本相似度标签；

[0006] 通过多对第一文本图像，以及多对第一文本图像中每对第一文本图像所对应的文本相似度标签，基于对比学习，获得目标特征提取网络；

[0007] 获取多张第二文本图像，以及多张第二文本图像中每张第二文本图像所对应的字符序列标注信息；

[0008] 通过多张第二文本图像，以及多张第二文本图像中每张第二文本图像所对应的字符序列标注信息，对包括目标特征提取网络和目标编解码网络的初始文本识别模型进行训
练，获得目标文本识别模型。

[0009] 本公开的第二方面提供的文本识别方法，包括：

[0010] 获取待识别图像，待识别图像中携带有待识别字符序列；

[0011] 将待识别图像输入目标文本识别模型中的文本特征提取网络，以通过文本特征提取网络对待识别图像进行特征提取，获得第一图像特征矩阵，并将第一图像特征矩阵输入
目标文本识别模型中的文本编解码网络，文本编解码网络根据第一图像特征矩阵，输出待
识别图像的文本识别结果，其中，目标文本识别模型通过本公开的第一方面所提供的文本
识别模型训练方法获得。

[0012] 本公开第三方面提供的文本识别模型训练装置，包括：

[0013] 第一训练数据获取模块，用于获取多对第一文本图像，以及多对第一文本图像中每对第一文本图像所对应的文本相似度标签；

[0014] 第一训练模块，用于通过多对第一文本图像，以及多对第一文本图像中每对第一文本图像所对应的文本相似度标签，基于对比学习，获得目标特征提取网络；

[0015] 第二训练数据获取模块，用于获取多张第二文本图像，以及多张第二文本图像中每张第二文本图像所对应的字符序列标注信息；

[0016] 第二训练模块，用于通过多张第二文本图像，以及多张第二文本图像中每张第二文本图像所对应的字符序列标注信息，对包括目标特征提取网络和目标编解码网络的初始
文本识别模型进行训练，获得目标文本识别模型。

[0017] 本公开第四方面提供的文本识别装置，包括：

[0018] 图像获取模块，用于获取待识别图像，待识别图像中携带有待识别字符序列；

[0019] 文本识别模块，用于将待识别图像输入目标文本识别模型中的文本特征提取网络，以通过文本特征提取网络对待识别图像进行特征提取，获得第一图像特征矩阵，并将第
一图像特征矩阵输入目标文本识别模型中的文本编解码网络，文本编解码网络根据第一图
像特征矩阵，输出待识别图像的文本识别结果，其中，目标文本识别模型通过本公开的第三
方面所提供的文本识别模型训练装置获得。

[0020] 本公开的第五方面提供的电子设备，包括：

[0021] 处理器；以及

[0022] 存储器，存储器上存储有计算机程序；

[0023] 其中，计算机程序包括指令，指令在由处理器执行时，使处理器执行本公开的第一方面所提供的文本识别模型训练方法，或使处理器执行本公开的第二方面所提供的文本识
别方法。

[0024] 本公开的第六方面还提供了一种非瞬时计算机可读存储介质，其特征在于，存储有计算机指令，计算机指令用于使计算机执行本公开的第一方面所提供的文本识别模型训
练方法，或使计算机执行本公开的第二方面所提供的文本识别方法。

[0025] 本公开的第七方面还提供了一种计算机程序产品，其特征在于，包括计算机程序，计算机程序在被处理器执行时实现本公开的第一方面所提供的文本识别模型训练方法，或
实现处理器执行本公开的第二方面所提供的文本识别方法。

[0026] 本公开提供的一个或多个技术方案中，首先，通过多对第一文本图像，以及多对第一文本图像中每对第一文本图像所对应的文本相似度标签，基于对比学习，获得目标特征
提取网络，也即，目标特征提取网络是预先经过训练的，可靠性已经处于较高水平，而目标
特征提取网络又是包含于初始文本识别模型的，因此，能够有效提高后续初始文本识别模
型的训练有效性，那么，训练初始文本识别模型所获得的目标文本识别模型也就同样具有
较高的可靠性。

附图说明

[0027] 在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

[0028] 图1示出了本公开示例性实施例提供的一种文本识别模型训练方法的流程图；

[0029] 图2示出了本公开示例性实施例提供的一种第二文本图像；

[0030] 图3示出了本公开示例性实施例提供的一种初始文本识别模型的示意性框图；

[0031] 图4示出了本公开示例性实施例提供的文本识别模型训练方法的另一种流程图；

[0032] 图5示出了本公开示例性实施例提供的一种目标文本图像；

[0033] 图6示出了本公开示例性实施例提供的文本识别模型训练方法的另一种流程图；

[0034] 图7示出了本公开示例性实施例提供的一种初始对比学习网络的示意性框图；

[0035] 图8示出了本公开示例性实施例提供的文本识别模型训练方法的另一种流程图；

[0036] 图9示出了本公开示例性实施例提供的一种初始编解码网络的示意性框图；

[0037] 图10示出了本公开示例性实施例提供的一种文本识别模型训练装置的示意性框图；

[0038] 图11示出了本公开示例性实施例提供的一种文本识别方法的流程图；

[0039] 图12示出了本公开示例性实施例提供的一种文本识别装置的示意性框图；

[0040] 图13示出了能够用于实现本公开实施例的示例性电子设备的示意性结构框图。

具体实施方式

[0041] 下面将结合附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而，应当理解的是，本公开可以通过各种形式来实现，且不应该被解释为限于这
里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开，此外，本公
开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

[0042] 还应当理解的是，本公开的方法实施例中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤，
本公开的范围在此方面不受限制。

[0043] 本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”，术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”，术语“另一实施例”表示
“至少一个另外的实施例”，术语“一些实施例”表示“至少一些实施例”，其他术语的相关定
义将在下文描述中给出。此外，需要说明的是，本公开示例性实施例中提及的“第一”、“第
二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单
元所执行的功能的顺序或相互依存关系。

[0044] 需要说明的是，本公开示例性实施例中提及的“一个”、“多个”的修饰是示意性，而非限制性的，本领域技术人员应当理解的是，除非在上下文另有明确指出，否则应该理解为
“一个或多个”。

[0045] 此外，还需要说明的是，本公开实施方式中的多个装置之间所交互的消息或信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

[0046] 以下结合附图描述本公开示例性实施例提供的一种文本识别模型训练方法、文本识别方法、装置及电子设备。

[0047] 请参阅图1，本公开示例性实施例提供的一种文本识别模型训练方法包括步骤S110、步骤S120、步骤S130和步骤S140。

[0048] 步骤S110，获取多对第一文本图像，以及多对第一文本图像中每对第一文本图像所对应的文本相似度标签。

[0049] 本公开示例性实施例中，多对第一文本图像集合而成的多张第一文本图像可以具有相同尺寸，且第一文本图像为携带有样本字符序列的图像。此外，本公开示例性实施例
中，样本字符序列可以是多种语言的字符序列，例如，中文字符序列、英文字符序列等，其
中，字符序列可以理解为包括至少一个字符的字符串，且对于中文，一个字符便是一个汉
字，对于英文，一个字符便是一个字母。

[0050] 应当理解，本公开示例性实施例中，若一对第一文本图像携带有相似的样本字符序列，则该对第一文本图像属于一对相似的第一文本图像，也即，该对第一文本图像为一对
正样本对，则该对第一文本图像所对应的文本相似度标签可以为“1”，若一对第一文本图像
携带有不相似的样本字符序列，则该对第一文本图像属于一对不相似的第一文本图像，也
即，该对第一文本图像为一对负样本对，则该对第一文本图像所对应的文本相似度标签可
以为“0”。

[0051] 步骤S120，通过多对第一文本图像，以及多对第一文本图像中每对第一文本图像所对应的文本相似度标签，基于对比学习，获得目标特征提取网络。

[0052] 本公开示例性实施例中，针对多对第一文本图像中的每对第一文本图像，可以将该对第一文本图像输入初始对比学习网络，再获取初始对比网络输出的对比结果表征标
签，以用于表征该对第一文本图像的文本相似程度预测结果。例如，该对第一文本图像的相
似程度超过预设相似度阈值，则对比结果表征标签为“1”，该对第一文本图像的相似程度未
超过预设相似度阈值，则对比结果表征标签为“0”。此后，根据该对第一文本图像的文本相
似度标签和对比结果表征标签，调整初始对比学习网络的模型参数，以对初始对比学习网
络进行训练，最终，获得包括目标特征提取网络的目标对比学习网络。

[0053] 应当理解的是，本公开示例性实施例中，目标特征提取网络可以是初始对比学习网络中经过训练的任意一个初始特征提取网络。

[0054] 此外，需要说明的是，本公开示例性实施例中，可以通过三元组损失函数（Triplet Loss）对初始对比学习网络进行训练。

[0055] 步骤S130，获取多张第二文本图像，以及多张第二文本图像中每张第二文本图像所对应的字符序列标注信息。

[0056] 本公开示例性实施例中，多张第二文本图像可以具有相同尺寸，且第二文本图像为携带有样本字符序列的图像，而对于某张第二文本图像而言，其对应的字符序列标注信
息即为该张第二文本图像携带的样本字符序列本身。

[0057] 以图2所示的第二文本图像为例，其对应的字符序列标注信息为“好好学习天天向上”。

[0058] 步骤S140，通过多张第二文本图像，以及多张第二文本图像中每张第二文本图像所对应的字符序列标注信息，对包括目标特征提取网络和目标编解码网络的初始文本识别
模型进行训练，获得目标文本识别模型。

[0059] 本公开示例性实施例中，目标编解码网络可以是未经过训练的Transformer模型，也可以是经过训练的Transformer模型，本公开示例性实施例对此不作具体限制。

[0060] 此外，本公开示例性实施例中，多张第二文本图像可以完全等同于多对第一文本图像集合而成的多张第一文本图像，也可以完全不同于多对第一文本图像集合而成的多张
第一文本图像，还可以与多对第一文本图像集合而成的多张第一文本图像部分相同，本公
开示例性实施例对此不作具体限制。

[0061] 请结合图3，在初始文本识别模型的训练过程中，针对多张第二文本图像中的每张第二文本图像，可以将该张第二文本图像输入目标特征提取网络，以供目标特征提取网络
对该张第二文本图像进行特征提取，并输出词向量形式的第二图像特征矩阵，再将第二图
像特征矩阵输入目标编解码网络，以获取目标编解码网络输出的第二特征表示，用于表征
该张第二文本图像所对应的字符序列标注信息的识别结果，此后，根据该张第二文本图像
所对应的字符序列标注信息，以及该张第二文本图像所对应的字符序列标注信息的识别结
果，调整目标特征提取网络和目标编解码网络的模型参数，以实现对初始文本识别模型的
训练，最终，获得目标文本识别模型，其中，目标文本识别模型中的文本特征提取网络和文
本编解码网络。

[0062] 应当理解的是，本公开示例性实施例中，文本特征提取网络即为初始文本识别模型中经过训练的目标特征提取网络，文本编解码网络即为初始文本识别模型中经过训练的
目标编解码网络。

[0063] 此外，需要说明的是，本公开示例性实施例中，可以通过CTC损失函数对初始文本识别模型进行训练，其中，CTC损失函数的英文全称为Connectionist Temporal
Classification。

[0064] 现有技术中的字符序列的识别方法虽然同样标注简单，只需记录每张文本图像携带的样本字符序列，也即，同样只需要标注每张文本图像的字字符序列标注信息，但由于其
初始网络模型是未预先经过训练的，因此，最终获得的目标文本识别模型可靠性较低，可能
存在预测结果出现多识别字符或漏识别字符的情况。

[0065] 而本公开示例性实施例中，首先，通过多对第一文本图像，以及多对第一文本图像中每对第一文本图像所对应的文本相似度标签，基于对比学习，获得目标特征提取网络，也
即，目标特征提取网络是预先经过训练的，可靠性已经处于较高水平，而目标特征提取网络
又是包含于初始文本识别模型的，因此，能够有效提高后续初始文本识别模型的训练有效
性，那么，训练初始文本识别模型所获得的目标文本识别模型也就同样具有较高的可靠性。

[0066] 请结合图4，作为本公开的一种可选的实施方式，在执行步骤S110之前，本公开示例性实施例提供的文本识别模型训练方法还可以包括步骤S210、步骤S220、步骤S230和步
骤S240。

[0067] 步骤S210，获取多张基础文本图像。

[0068] 本公开示例性实施例中，多张基础文本图像可以具有相同尺寸，且基础文本图像为携带有样本字符序列的图像。此外，本公开示例性实施例中，可以通过网络下载，或自行
制作等方式，获取多张基础文本图像。

[0069] 步骤S220，对多张基础文本图像中的至少部分基础文本图像进行局部遮挡处理，获得多张目标文本图像。

[0070] 本公开示例性实施例中，对基础文本图像的遮挡方式可以是通过规则的、不规则的图案进行遮挡，其中，图案可以是纯色图案，也可以是花色图案，本公开示例性实施例对
此不作具体限制。

[0071] 以选取出的某张基础文本图像如图2所示为例，对其进行局部遮挡处理，可以获得如图5所示的目标文本图像。

[0072] 步骤S230，将多张目标文本图像中的每张目标文本图像与对应的基础文本图像组成一对文本相似的第一文本图像，以获得多对文本相似的第一文本图像。

[0073] 继续以选取出的某张基础文本图像如图2所示为例，若在对其进行局部遮挡处理之后，获得如图5所示的目标文本图像，那么，图5所示目标文本图像与图2所示的基础文本
图像便组成一对文本相似的第一文本图像，从而自动实现一对正样本对的制作。

[0074] 步骤S240，为多对文本相似的第一文本图像中的每对第一文本图像添加对应的文本相似度标签。

[0075] 也即，为多对文本相似的第一文本图像中的每对第一文本图像添加对应的文本相似度标签“1”。

[0076] 显然，基于上述实施方式，能够完成正样本对的自动化制作，从而有效减少训练数据集的制作时间成本、人力资源成本。

[0077] 请结合图6，作为本公开的一种可选的实施方式，步骤S120包括步骤S121、步骤S122和步骤S123。

[0078] 步骤S121，针对多对第一文本图像中的每一对第一文本图像，将一对第一文本图像分别输入初始对比学习网络中的第一初始特征提取网络和第二初始特征提取网络，以供
第一初始特征提取网络输出第一特征图像，第二初始特征提取网络输出第二特征图像，并
将第一特征图像和第二特征图像输入初始对比学习网络中的多层全连接层，第二初始特征
提取网络与第一初始特征提取网络具有相同的模型参数。

[0079] 请结合图7，本公开示例性实施例中，第一初始特征提取网络可以是Resnet18，Resnet18包括四个block块，四个block块中的每个block块又包括多个卷积神经网络
（Convolutional Neural Networks，CNN）。基于此，应当理解的是，本公开示例性实施例中，
第一初始特征提取网络用于对输入的第一文本图像进行下采样，且输出可以是该张第一文
本图像1/32倍尺寸的第一特征图像。同样，本公开示例性实施例中，第二初始特征提取网络
可以是Resnet18，Resnet18包括四个Block块，四个Block块中的每个Block块又包括多个
CNN。基于此，应当理解的是，本公开示例性实施例中，第二初始特征提取网络用于对输入的
第二文本图像进行下采样，且输出可以是该张第二文本图像1/32倍尺寸的第二特征图像。

[0080] 此外，本公开示例性实施例中，第二初始特征提取网络与第一初始特征提取网络具有相同的模型参数。

[0081] 步骤S122，获取多层全连接层输出的对比结果表征标签，其中，对比结果表征标签用于表征一对第一文本图像的文本相似程度预测结果。

[0082] 本公开示例性实施例中，多层全连接层中，首级全连接层用于对输入的第一特征图像和第二特征图像进行融合变换，获得整合的特征矩阵，并输入下一级全连接层，下一级
全连接层再对整合的特征矩阵进行空间变换，获得中间的特征矩阵，并继续输入再下一级
全连接层，以此类推，最终，通过末级全连接层输出对比结果表征标签，以用于表征输入的
一对第一文本图像的文本相似程度预测结果。基于此，应当理解的是，本公开示例性实施例
中，末级全连接层可以仅包括一个神经元节点。

[0083] 此外，需要说明的是，若初始对比学习网络中仅包括的两层全连接层（如图7所示），则两层全连接层中，首级全连接层用于对输入的第一特征图像和第二特征图像进行融
合变换，获得整合的特征矩阵，并输入末级全连接层，再通过末级全连接层输出对比结果表
征标签，其可以是用于表征一对第一文本图像的文本相似程度预测结果，例如，一对第一文
本图像的相似程度超过预设相似度阈值，则对比结果表征标签为“1”，一对第一文本图像的
相似程度未超过预设相似度阈值，则对比结果表征标签为“0”。

[0084] 步骤S123，根据文本相似度标签和对比结果表征标签，调整第一初始特征提取网络、第二初始特征提取网络和多层全连接层的模型参数，目标特征提取网络为经过模型参
数调整之后的第一初始特征提取网络或第二初始特征提取网络。

[0085] 基于步骤S121、步骤S122和步骤S123，应当理解，本公开示例性实施例中，对初始对比学习网络进行训练的过程，即为通过根据多对第一文本图像中每一对第一文本图像的
文本相似度标签和对比结果表征标签，调整初始对比学习网络中的第一初始特征提取网
络、第二初始特征提取网络和多层全连接层的模型参数的过程，而目标对比学习网络中的
目标特征提取网络即为完成训练之后的第一初始特征提取网络或第二初始特征提取网络。

[0086] 此外，需要说明的是，本公开示例性实施例中，在对初始对比学习网络进行训练的过程中，正样本对与负样本对的比例可以保持为小于1，例如，1/3，以有效提高初始对比学
习网络的训练有效性。

[0087] 进一步地，本公开示例性实施例中，同样可以通过三元组损失函数对初始对比学习网络进行训练。

[0088] 在上述实施方式中，初始对比学习网络仅包括第一初始特征提取网络、第二初始特征提取网络和多层全连接层，模型结构简单，因此，能够有效提高初始对比学习网络的训
练效率。

[0089] 请结合图8，作为本公开的一种可选的实施方式，在执行步骤S140之前，本公开示例性实施例提供的文本识别模型训练方法还可以包括步骤S310、步骤S320和步骤S330。

[0090] 步骤S310，获取多个训练用字符序列。

[0091] 本公开示例性实施例中，多个训练用字符序列可以是从网络小说、新闻、视频节目中爬取的文本字符串。

[0092] 步骤S320，根据多个训练用字符序列，获得多个序列词向量。

[0093] 本公开示例性实施例中，可以通过Word2vec或 Glove等编码工具对多个训练用字符序列中的每个训练用字符序列进行编码，获得多个个序列词向量，此处不作赘述.

[0094] 步骤S330，通过多个序列词向量，对初始编解码网络进行训练，获得目标编解码网络。

[0095] 请结合图9，本公开示例性实施例中，初始编解码网络可以包括一个未经过训练的Transformer模型，其包括初始编码器和初始解码器，其中，初始编码器可以包括六个基础
编码器，初始解码器可以包括六个基础解码器。但应当理解的是，本公开示例性实施例中，
初始编码器包括的基础编码器数量，以及初始解码器包括的基础解码器数量实质可以根据
实际应用需求而定，本公开示例性实施例对此不作具体限制。

[0096] 在初始编解码网络的训练过程中，针对多个序列词向量中的每个序列词向量，可以将该序列词向量输入初始编解码网络中的初始编码器，以供初始编码器对该序列词向量
进行编码，获得编码结果，并将编码结果输入初始编解码网络中的初始解码器，以供初始解
码器对该编码结果进行解码操作，获得第一特征表示，以用于表征输入的序列词向量所对
应训练用字符序列的识别结果，此后，根据输入的序列词向量所对应的训练用字符序列，以
及输入的序列词向量所对应训练用字符序列的识别结果，调整初始编码器和初始解码器的
模型参数，以实现对初始编解码网络的训练，最终，获得包括目标编码器和目标解码器的目
标编解码网络。

[0097] 此外，需要说明的是，本公开示例性实施例中，同样可以通过CTC损失函数对初始编解码网络进行训练。

[0098] 在上述实施方式中，首先，获取多个训练用字符序列，然后，再根据多个训练用字符序列，获得多个序列词向量，并通过多个序列词向量，对初始编解码网络进行训练，获得
目标编解码网络，那么，目标编解码网络是预先经过训练获得的，已经具有了一定的字符序
列识别能力，而目标编解码网络是包含于初始文本识别模型的，初始文本识别模型又是用
于获得目标文本识别模型的，因此，在后续对初始文本识别模型进行训练时，便能够进一步
提高训练的有效性，也就进一步提高了目标文本识别模型的可靠性。

[0099] 进一步地，作为本公开的一种可选的实施方式，在执行步骤S330之前，本公开示例性实施例提供的文本识别模型训练方法还可以包括步骤S410。

[0100] 步骤S410，将初始编解码网络中的初始编码器的输出模式配置为仅输出一个特征向量，和/或将初始编解码网络中的初始解码器中的自注意力子层配置为不添加掩膜。

[0101] 本公开示例性实施例中，初始编码器的输出模式可以配置为仅输出一个特征向量，例如，初始编码器包括六个基础编码器，那么，这六个基础编码器的输出模式可以都配
置为仅输出一个特征向量，且六个基础编码器中，末级基础编码器输出的特征向量为前述
用于表征序列词向量的编码结果，如此，便可以实现简化模型结构的目的，从而提高初始编
解码网络的训练效率。

[0102] 此外，本公开示例性实施例中，初始解码器中的自注意力子层可以配置为不添加掩膜，例如，初始解码器包括六个基础解码器，那么，这六个基础解码器中的自注意力子层
都配置为不添加掩膜。

[0103] 通常情况下，编解码网络中解码器添加掩膜的原因在于：在机器翻译任务中，例如，将“你是谁”翻译为“ who are you ”（和是设定的起止符），解码器会将
“你是谁”一次性编码，但是，解码器却是每次解码一个单词，同时，前面解码出来的单词会
是后面的输入，前面的单词又不能被后面的单词影响，这个时候就需要借助掩膜，将后面的
单词掩蔽。本公开实施例中，输入初始编码器的序列词向量是训练用字符序列编码而来的，
而训练用字符序列是具有语义的文本字符串，因此，初始解码器中的自注意力子层不添加
掩膜，那么，初始解码器在执行解码任务的过程中，前面单词的编码反而会受到后面的单词
影响，从而提高字符序列的预测准确率。

~~[0104] 最后，作为本公开的一种可选的实施方式，步骤S330包括步骤S331、步骤S332和步骤S333。~~

[0105] 步骤S331，针对多个序列词向量中的每个序列词向量，将序列词向量输入初始编解码网络中的初始编码器，以供初始编码器输出目标特征向量，并将目标特征向量输入初
始编解码网络中的初始解码器。

~~[0106] 步骤S332，获取初始解码器输出的具有固定长度的第一特征表示。~~

[0107] 基于步骤S332，应当理解的是，本公开示例性实施例中，在构建初始编解码网络时，可以根据实际应用需求，将初始编解码网络中解码器的超参数设置为一个固定长度L，
那么，初始解码器的第一特征向量便是一个长L*宽N的概率矩阵。

~~[0108] 步骤S333，根据第一特征表示，以及第一特征表示所对应的序列词向量，调整初始编码器和初始解码器的模型参数，以对初始编解码网络进行训练。~~

~~[0109] 训练完成之后，获得包括目标编码器和目标解码器的目标编解码网络。~~

[0110] 进一步地，本公开示例性实施例中，在获得包括目标编码器和目标解码器的目标编解码网络之后，通过多张第二文本图像，以及多张第二文本图像中每张第二文本图像所
对应的字符序列标注信息，对包括目标特征提取网络和目标编解码网络的初始文本识别模
型进行训练，获得目标文本识别模型的过程中，可以使得目标特征提取网络的学习率大于
目标编码器的学习率，而目标编码器的学习率又大于目标解码器的学习率，也即，越靠近输
入端的模型，学习率设置为越大，越靠近输出端的模型，学习率设置为越小。其中，学习率即
为超参数，其可以根据实际应用需求设定，且在模型训练阶段，用于控制模型参数调整的快
慢。

~~[0111] 例如，将目标特征提取网络的学习率设置为0.01，目标编码器的学习率设置为0.001，目标解码器的学习率设置为0.0001。~~

[0112] 在上述实施方式中，越靠近输入端的模型，学习率设置为越大，越靠近输出端的模型，学习率设置为越小，因此，靠近输入端的模型的优化效率相对于越靠近输出端的模型的
优化效率，从而提高初始文本识别模型的训练效果，以进一步提高目标文本识别模型的可
靠性。

[0113] 基于与上述文本识别模型训练方法相同的发明构思，本公开示例性实施例还提供了一种文本识别模型训练装置500。请参阅图10，本公开示例性实施例提供的文本识别模型
训练装置500包括第一训练数据获取模块510、第一训练模块520、第二训练数据获取模块
530和第二训练模块540。

~~[0114] 第一训练数据获取模块510，用于获取多对第一文本图像，以及多对第一文本图像中每对第一文本图像所对应的文本相似度标签。~~

[0115] 第一训练模块520，用于通过多对第一文本图像，以及多对第一文本图像中每对第一文本图像所对应的文本相似度标签，基于对比学习，获得目标特征提取网络。

~~[0116] 第二训练数据获取模块530，用于获取多张第二文本图像，以及多张第二文本图像中每张第二文本图像所对应的字符序列标注信息。~~

[0117] 第二训练模块540，用于通过多张第二文本图像，以及多张第二文本图像中每张第二文本图像所对应的字符序列标注信息，对包括目标特征提取网络和目标编解码网络的初
始文本识别模型进行训练，获得目标文本识别模型。

[0118] 作为本公开的一种可选的实施方式，文本识别模型训练装置500还可以包括基础文本图像获取模块、部分图像处理模块、样本对制作模块和标签添加模块。

~~[0119] 基础文本图像获取模块，用于获取多张基础文本图像。~~

~~[0120] 部分图像处理模块，用于对多张基础文本图像中的至少部分基础文本图像进行局部遮挡处理，获得多张目标文本图像。~~

[0121] 样本对制作模块，用于将多张目标文本图像中的每张目标文本图像与对应的基础文本图像组成一对文本相似的第一文本图像，以获得多对文本相似的第一文本图像。

~~[0122] 标签添加模块，用于为多对文本相似的第一文本图像中的每对第一文本图像添加对应的文本相似度标签。~~

~~[0123] 作为本公开的一种可选的实施方式，第一训练模块520包括对比训练图像输入单元、对比结果表征标签获取单元和第一模型参数调整单元。~~

[0124] 对比训练图像输入单元，用于针对多对第一文本图像中的每一对第一文本图像，将一对第一文本图像分别输入初始对比学习网络中的第一初始特征提取网络和第二初始
特征提取网络，以供第一初始特征提取网络输出第一特征图像，第二初始特征提取网络输
出第二特征图像，并将第一特征图像和第二特征图像输入初始对比学习网络中的多层全连
接层，第二初始特征提取网络与第一初始特征提取网络具有相同的模型参数。

[0125] 对比结果表征标签获取单元，用于获取多层全连接层输出的对比结果表征标签，其中，对比结果表征标签用于表征一对第一文本图像的文本相似程度预测结果。

[0126] 第一模型参数调整单元，用于根据文本相似度标签和对比结果表征标签，调整第一初始特征提取网络、第二初始特征提取网络和多层全连接层的模型参数，目标特征提取
网络为经过模型参数调整之后的第一初始特征提取网络或第二初始特征提取网络。

~~[0127] 作为本公开的一种可选的实施方式，文本识别模型训练装置500还包括训练用字符序列获取模块、词向量获取模块和第三训练模块。~~

~~[0128] 训练用字符序列获取模块，用于获取多个训练用字符序列。~~

~~[0129] 词向量获取模块，用于根据多个训练用字符序列，获得多个序列词向量。~~

~~[0130] 第三训练模块，用于通过多个序列词向量，对初始编解码网络进行训练，获得目标编解码网络。~~

~~[0131] 作为本公开的一种可选的实施方式，文本识别模型训练装置500还包括初始编解码网络构建模块。~~

~~[0132] 初始编解码网络构建模块，用于将初始编码器的输出模式配置为仅输出一个特征向量，和/或将初始解码器中的自注意力子层配置为不添加掩膜。~~

~~[0133] 作为本公开的一种可选的实施方式，第三训练模块包括序列词向量输入单元、第一特征表示获取单元和第二模型参数调整单元。~~

[0134] 序列词向量输入单元，用于针对多个序列词向量中的每个序列词向量，将序列词向量输入初始编解码网络中的初始编码器，以供初始编码器输出目标特征向量，并将目标
特征向量输入初始编解码网络中的初始解码器。

~~[0135] 第一特征表示获取单元，用于获取初始解码器输出的具有固定长度的第一特征表示。~~

[0136] 第二模型参数调整单元，用于根据第一特征表示，以及与第一特征表示所对应的序列词向量，调整初始编码器和初始解码器的模型参数，以对所述初始编解码网络进行训
练。

~~[0137] 作为本公开的一种可选的实施方式，目标编解码网络中包括目标编码器和目标解码器。~~

~~[0138] 目标特征提取网络的学习率大于目标编码器的学习率，目标编码器的学习率大于目标解码器的学习率。~~

~~[0139] 请参阅图11，本公开示例性实施例还提供了一种文本识别方法，包括步骤S610和步骤S620。~~

~~[0140] 步骤S610，获取待识别图像，待识别图像中携带有待识别字符序列。~~

[0141] 步骤S620，将待识别图像输入目标文本识别模型中的文本特征提取网络，以通过文本特征提取网络对待识别图像进行特征提取，获得第一图像特征矩阵，并将第一图像特
征矩阵输入目标文本识别模型中的文本编解码网络，文本编解码网络根据第一图像特征矩
阵，输出待识别图像的文本识别结果，其中，目标文本识别模型通过本公开示例性实施例提
供文本识别模型训练方法获得。

~~[0142] 应当理解，本公开示例性实施例中，文本识别结果为一个长L*宽N的概率矩阵。~~

[0143] 在获得的文本识别结果之后，可以通过贪心解码或集束解码（Beamsearch）的方式，对照预设的字典进行解码，从而获得可识别的结果字符串。其中，字典可以在文本识别
模型的训练阶段，在执行本公开示例性实施例提供文本识别模型训练方法中的步骤S210，
以获取多个训练用字符序列之后，基于多个训练用字符序列创建，此处不作赘述。

~~[0144] 基于与上述文本识别方法相同的发明构思，本公开示例性实施例还提供了一种文本识别装置700。~~

~~[0145] 请参阅图12，本公开示例性实施例提供的文本识别装置600包括图像获取模块610和文本识别模块720。~~

~~[0146] 图像获取模块710，用于获取待识别图像，待识别图像中携带有待识别字符序列。~~

[0147] 文本识别模块720，用于将待识别图像输入目标文本识别模型中的文本特征提取网络，以通过文本特征提取网络对待识别图像进行特征提取，获得第一图像特征矩阵，并将
第一图像特征矩阵输入目标文本识别模型中的文本编解码网络，文本编解码网络根据第一
图像特征矩阵，输出待识别图像的文本识别结果，其中，目标文本识别模型通过本公开示例
性实施例提供文本识别模型训练装置获得。

[0148] 由于本公开示例性实施例提供的文本识别装置700是基于与上述文本识别方法相同的发明构思实现的，因此，文本识别装置700中，每个软件模块的具体描述，均可参见本公
开示例性实施例提供文本识别方法实施例中对应步骤的相关描述，此处不作赘述。

[0149] 本公开示例性实施例还提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。存储器存储有能够被至少一个处理器执行的计算机程序，
计算机程序在被至少一个处理器执行时用于使电子设备执行本公开示例性实施例提供的
文本识别模型训练方法，或本公开示例性实施例提供的文本识别方法。

[0150] 本公开示例性实施例还提供一种非瞬时计算机可读存储介质，其上存储有计算机指令，计算机指令用于使计算机执行本公开示例性实施例提供的文本识别模型训练方法，
或本公开示例性实施例提供的文本识别方法。

[0151] 本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现本公开示例性实施例提供的文本识别模型训练方法，或本公开
示例性实施例提供的文本识别方法。

[0152] 请参阅图13，现将描述可以作为本公开的服务器或客户端的电子设备800的示意性结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种
形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、
服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式
的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装
置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制
本文中描述的和/或要求的本公开的实现。

[0153] 电子设备800包括计算单元810，其可以根据存储在只读存储器（Read‑Only Memory，ROM）820中的计算机程序或从存储单元880加载到随机访问存储器（Random Access
Memory，RAM）830中的计算机程序，来执行各种适当的动作和处理。在RAM 830中，还可存储
设备800操作所需的各种程序和数据。计算单元810、ROM 820以及RAM 830通过总线840彼此
相连。输入/输出（I/O）接口850也连接至总线840。

[0154] 电子设备800中的多个部件连接至I/O接口850，包括：输入单元860、输出单元870、存储单元880以及通信单元880。输入单元860可以是能向电子设备800输入信息的任何类型
的设备，输入单元860可以接收输入的数字或字符信息，以及产生与电子设备的用户设置
和/或功能控制有关的键信号输入。输出单元870可以是能呈现信息的任何类型的设备，并
且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元
850可以包括但不限于磁盘、光盘。通信单元880允许电子设备800通过诸如因特网的计算机
网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、
网卡、红外通信设备、无线通信收发机和/或芯片组，例如，蓝牙TM设备、WiFi设备、WiMax设
备、蜂窝通信设备和/或类似物。

[0155] 计算单元810可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元810的一些示例包括但不限于中央处理单元（Central Processing Unit，CPU）、图形处理
单元（Graphics Processing Unit，GPU）、各种专用的人工智能（Artificial
Intelligence，AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器
（Digital Signal Process，DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元
810执行上文所描述的各个方法和处理。例如，在一些实施例中，执行方法（例如，前述文本
识别模型训练方法中的步骤S110、步骤S120、步骤S130和步骤S140）可被实现为计算机软件
程序，其被有形地包含于机器可读介质，例如存储单元880。在一些实施例中，计算机程序的
部分或全部可以经由ROM 820和/或通信单元880而被载入和/或安装到电子设备800上。在
一些实施例中，计算单元810可以通过其他任何适当的方式（例如，借助于固件）而被配置为
执行方法（例如，前述文本识别模型训练方法中的步骤S110、步骤S120、步骤S130和步骤
S140）。

[0156] 用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处
理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

[0157] 在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或上述内容的任何合适
组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算
机盘、硬盘、RAM、ROM、可擦除可编程只读存储器（Erasable Programmable Read‑Only
Memory，EPROM）、光纤、便捷式紧凑盘只读存储器（CD‑ROM）、光学储存设备、磁储存设备、或
上述内容的任何合适组合。

[0158] 如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光
盘、存储器、可编程逻辑装置(Programmable Logic Device，PLD)，包括，接收作为机器可读
信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据
提供给可编程处理器的任何信号。

[0159] 为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，阴极射线管（Cathode Ray Tube，CRT）或液晶
显示器（Liquid Crystal Display，LCD）监视器）；以及键盘和指向装置（例如，鼠标或轨迹
球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用
于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反
馈、听觉反馈或触觉反馈）；并且可以用任何形式（包括声输入、语音输入或触觉输入）来接
收来自用户的输入。

[0160] 可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或包括中间件部件的计算系统（例如，应用服务器）或包括前端部件的计算系统
（例如，具有图形用户界面或网络浏览器的用户计算机，用户可以通过该图形用户界面或该
网络浏览器来与此处描述的系统和技术的实施方式交互）或包括这种后台部件、中间件部
件或前端部件的任何组合的计算系统中。可以通过任何形式或介质的数字数据通信（例如，
通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和
互联网。

[0161] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计
算机程序来产生客户端和服务器的关系。

文本识别模型训练方法、文本识别方法、装置及电子设备转让专利

申请号 : CN202111560929.6

文献号 : CN113963359B

文献日 : 2022-03-18

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李盼盼 , 秦勇

申请人 : 北京易真学思教育科技有限公司

摘要 :

权利要求 :

说明书 :