场景文字识别方法、装置、电子设备及存储介质转让专利

申请号 : CN202210063467.5

文献号 : CN114092931B

文献日 : 2022-04-29

本发明提供一种场景文字识别方法、装置、电子设备及存储介质，其中方法包括：获取待识别的场景图像；将场景图像输入至场景文字识别模型，得到场景文字识别模型输出的文字识别结果；其中，场景文字识别模型是额外采用文字掩码增强训练和插值查询增强训练得到的。本发明提供的方法和装置，通过文字掩码增强训练提高了模型对于文字区域的感知能力，通过插值查询增强训练提高了模型对于文字序列的感知能力，当模型对文字识别结果进行语言纠正时具有更高的准确率，通过将模型中视觉识别层和语言纠正层进行联合训练的方法，提高了模型在文字序列较长或者场景图像质量较低时对场景文字识别的准确率，提高了场景文字识别模型的鲁棒性和识别性能。

1.一种场景文字识别方法，其特征在于，包括：获取待识别的场景图像；

将所述场景图像输入至场景文字识别模型，得到所述场景文字识别模型输出的文字识别结果；

其中，所述场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的；

所述基础训练为基于样本场景图像，以及所述样本场景图像对应的文字识别标签对所述场景文字识别模型进行训练；

所述文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字，以及在所述样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签，基于擦除后的图像编码特征和擦除后的文字识别标签对所述场景文字识别模型进行训练；

所述插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值，以及在所述样本场景图像对应的文字识别标签中对所述若干对相邻文字的识别标签进行插值，基于插值后的查询向量和插值后的文字识别标签对所述场景文字识别模型进行训练；

所述场景文字识别模型是基于如下步骤训练得到的：基于每一样本场景图像的图像编码特征和各文字的查询向量，以及每一样本场景图像对应的文字识别标签，采用注意力机制对初始模型进行基础训练、文字掩码增强训练和插值查询增强训练，得到所述场景文字识别模型；

其中，任一样本场景图像中各文字的查询向量是基于各文字在所述任一样本场景图像中的识别次序和所述任一样本场景图像的图像编码特征的特征深度确定的；

所述基于每一样本场景图像的图像编码特征和各文字的查询向量，以及每一样本场景图像对应的文字识别标签，采用注意力机制对初始模型进行文字掩码增强训练，得到所述场景文字识别模型，包括：

在任一样本场景图像的图像编码特征中随机选择若干个文字进行擦除，得到擦除后的图像编码特征；

在所述任一样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签，得到擦除后的文字识别标签；

基于每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签，采用注意力机制对所述初始模型进行增强训练，得到所述场景文字识别模型；

所述基于每一样本场景图像的图像编码特征和各文字的查询向量，以及每一样本场景图像对应的文字识别标签，采用注意力机制对初始模型进行插值查询增强训练，得到所述场景文字识别模型，包括：

确定任一样本场景图像中若干对相邻文字的查询向量；任一对相邻文字包括第一文字和第二文字；

对于任一对相邻文字，基于第一文字的查询向量和第一插值权重，以及第二文字的查询向量和第二插值权重，确定所述任一对相邻文字的插值查询向量，并基于第一文字的识别标签和所述第一插值权重，以及第二文字的识别标签和所述第二插值权重，确定所述任一对相邻文字的插值识别标签；

基于每一样本场景图像中若干对相邻文字的插值查询向量和插值识别标签，采用注意力机制对所述初始模型进行增强训练，得到所述场景文字识别模型。

2.根据权利要求1所述的场景文字识别方法，其特征在于，所述将所述场景图像输入至场景文字识别模型，得到所述场景文字识别模型输出的文字识别结果，包括：将所述场景图像输入至所述场景文字识别模型的视觉识别层，得到所述视觉识别层输出的图像编码特征和初始识别结果；

将所述初始识别结果输入至所述场景文字识别模型的语言纠正层，得到所述语言纠正层输出的语言纠正特征；

将所述图像编码特征和所述语言纠正特征输入至所述场景文字识别模型的融合识别层，得到所述融合识别层输出的文字识别结果。

3.根据权利要求2所述的场景文字识别方法，其特征在于，所述将所述场景图像输入至所述场景文字识别模型的视觉识别层，得到所述视觉识别层输出的图像编码特征和初始识别结果，包括：

将所述场景图像输入至所述视觉识别层的特征编码层，得到所述特征编码层输出的图像编码特征；

将所述图像编码特征输入至所述视觉识别层的特征解码层，由所述特征解码层确定所述场景图像中各文字的查询向量，并基于各文字的查询向量和所述图像编码特征，确定所述场景图像的初始识别结果。

4.根据权利要求3所述的场景文字识别方法，其特征在于，所述特征编码层是基于ResNet50和Transformer确定的。

5.一种场景文字识别装置，其特征在于，包括：获取单元，用于获取待识别的场景图像；

识别单元，用于将所述场景图像输入至场景文字识别模型，得到所述场景文字识别模型输出的文字识别结果；

其中，所述场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的；

所述基础训练为基于样本场景图像，以及所述样本场景图像对应的文字识别标签对所述场景文字识别模型进行训练；

所述装置还包括：

增强训练单元，用于基于每一样本场景图像的图像编码特征和各文字的查询向量，以及每一样本场景图像对应的文字识别标签，采用注意力机制对初始模型进行基础训练、文字掩码增强训练和插值查询增强训练，得到所述场景文字识别模型；

所述增强训练单元具体用于：

在任一样本场景图像的图像编码特征中随机选择若干个文字进行擦除，得到擦除后的图像编码特征；

在所述任一样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签，得到擦除后的文字识别标签；

所述增强训练单元还具体用于：

确定任一样本场景图像中若干对相邻文字的查询向量；任一对相邻文字包括第一文字和第二文字；

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述场景文字识别方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述场景文字识别方法的步骤。

场景文字识别方法、装置、电子设备及存储介质

技术领域

[0001] 本发明涉及计算机视觉技术领域，尤其涉及一种场景文字识别方法、装置、电子设备及存储介质。

背景技术

[0002] 场景文字识别（Scene Text Recognition）是计算机视觉中的基本研究方向之一，通过提取图像中的文字转化为计算机可辨识和可操作的符号，在生活中也具有广泛的应
用，例如路牌识别、自动驾驶、场景翻译、信息检索等等。由于自然场景中的文字往往受到字
体丰富、形态不规则、遮挡干扰等因素的影响，图像的文字区域定位以及特征的判别性表达
仍是具有挑战性的任务。

[0003] 现有技术中，通过采用卷积神经网络或者递归神经网络等深度学习方法对复杂场景中的文字进行识别，当文字序列较长或者场景图像质量较低时，场景文字识别的准确率
差。

发明内容

[0004] 本发明提供一种场景文字识别方法、装置、电子设备及存储介质，用于解决现有技术中当文字序列较长或者场景图像质量较低时，场景文字识别的准确率差的技术问题。

[0005] 本发明提供一种场景文字识别方法，包括：

[0006] 获取待识别的场景图像；

[0007] 将所述场景图像输入至场景文字识别模型，得到所述场景文字识别模型输出的文字识别结果；

[0008] 其中，所述场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的；

[0009] 所述基础训练为基于样本场景图像，以及所述样本场景图像对应的文字识别标签对所述场景文字识别模型进行训练；

[0010] 所述文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字，以及在所述样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签，基于擦除
后的图像编码特征和擦除后的文字识别标签对所述场景文字识别模型进行训练；

[0011] 所述插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值，以及在所述样本场景图像对应的文字识别标签中对所述若干对相邻文字的识别标签
进行插值，基于插值后的查询向量和插值后的文字识别标签对所述场景文字识别模型进行
训练。

[0012] 根据本发明提供的场景文字识别方法，所述场景文字识别模型是基于如下步骤训练得到的：

[0013] 基于每一样本场景图像的图像编码特征和各文字的查询向量，以及每一样本场景图像对应的文字识别标签，采用注意力机制对初始模型进行基础训练、文字掩码增强训练
和插值查询增强训练，得到所述场景文字识别模型；

[0014] 其中，任一样本场景图像中各文字的查询向量是基于各文字在所述任一样本场景图像中的识别次序和所述任一样本场景图像的图像编码特征的特征深度确定的。

[0015] 根据本发明提供的场景文字识别方法，所述基于每一样本场景图像的图像编码特征和各文字的查询向量，以及每一样本场景图像对应的文字识别标签，采用注意力机制对
初始模型进行文字掩码增强训练，得到所述场景文字识别模型，包括：

[0016] 在任一样本场景图像的图像编码特征中随机选择若干个文字进行擦除，得到擦除后的图像编码特征；

[0017] 在所述任一样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签，得到擦除后的文字识别标签；

[0018] 基于每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签，采用注意力机制对所述初始模型进行增强训练，得到所述场景文字识别模型。

[0019] 根据本发明提供的场景文字识别方法，所述基于每一样本场景图像的图像编码特征和各文字的查询向量，以及每一样本场景图像对应的文字识别标签，采用注意力机制对
初始模型进行插值查询增强训练，得到所述场景文字识别模型，包括：

[0020] 确定任一样本场景图像中若干对相邻文字的查询向量；任一对相邻文字包括第一文字和第二文字；

[0021] 对于任一对相邻文字，基于第一文字的查询向量和第一插值权重，以及第二文字的查询向量和第二插值权重，确定所述任一对相邻文字的插值查询向量，并基于第一文字
的识别标签和所述第一插值权重，以及第二文字的识别标签和所述第二插值权重，确定所
述任一对相邻文字的插值识别标签；

[0022] 基于每一样本场景图像中若干对相邻文字的插值查询向量和插值识别标签，采用注意力机制对所述初始模型进行增强训练，得到所述场景文字识别模型。

[0023] 根据本发明提供的场景文字识别方法，所述将所述场景图像输入至场景文字识别模型，得到所述场景文字识别模型输出的文字识别结果，包括：

[0024] 将所述场景图像输入至所述场景文字识别模型的视觉识别层，得到所述视觉识别层输出的图像编码特征和初始识别结果；

[0025] 将所述初始识别结果输入至所述场景文字识别模型的语言纠正层，得到所述语言纠正层输出的语言纠正特征；

[0026] 将所述图像编码特征和所述语言纠正特征输入至所述场景文字识别模型的融合识别层，得到所述融合识别层输出的文字识别结果。

[0027] 根据本发明提供的场景文字识别方法，所述将所述场景图像输入至所述场景文字识别模型的视觉识别层，得到所述视觉识别层输出的图像编码特征和初始识别结果，包括：

[0028] 将所述场景图像输入至所述视觉识别层的特征编码层，得到所述特征编码层输出的图像编码特征；

[0029] 将所述图像编码特征输入至所述视觉识别层的特征解码层，由所述特征解码层确定所述场景图像中各文字的查询向量，并基于各文字的查询向量和所述图像编码特征，确
定所述场景图像的初始识别结果。

[0030] 根据本发明提供的场景文字识别方法，所述特征编码层是基于ResNet50和Transformer确定的。

[0031] 本发明提供一种场景文字识别装置，包括：

[0032] 获取单元，用于获取待识别的场景图像；

[0033] 识别单元，用于将所述场景图像输入至场景文字识别模型，得到所述场景文字识别模型输出的文字识别结果；

[0034] 其中，所述场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的；

[0035] 所述基础训练为基于样本场景图像，以及所述样本场景图像对应的文字识别标签对所述场景文字识别模型进行训练；

[0036] 所述文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字，以及在所述样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签，基于擦除
后的图像编码特征和擦除后的文字识别标签对所述场景文字识别模型进行训练；

[0037] 所述插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值，以及在所述样本场景图像对应的文字识别标签中对所述若干对相邻文字的识别标签
进行插值，基于插值后的查询向量和插值后的文字识别标签对所述场景文字识别模型进行
训练。

[0038] 本发明提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现所述场景文字识别方法的
步骤。

[0039] 本发明提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述场景文字识别方法的步骤。

[0040] 本发明提供的场景文字识别方法、装置、电子设备及存储介质，通过场景文字识别模型对场景图像进行识别得到文字识别结果，场景文字识别模型是通过基础训练、文字掩
码增强训练和插值查询增强训练得到的，其中，文字掩码增强训练可以提高场景文字识别
模型对于每一查询向量在场景图像中的文字区域的感知能力以及动态提升了查询向量的
全局感知视野，插值查询增强训练将离散化的查询向量进行连续化，更贴合图像的连续空
间，可以提高场景文字识别模型对于文字之间的序列关系的感知能力，两种增强训练方法
使得模型能够准确预测文字识别结果中的文字长度，当模型对文字识别结果进行语言纠正
时具有更高的准确率，提高了场景文字识别模型在文字序列较长或者场景图像质量较低时
对场景文字识别的准确率，提高了场景文字识别模型的鲁棒性和识别性能。

附图说明

[0041] 为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些
实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附
图获得其他的附图。

[0042] 图1是本发明提供的场景文字识别方法的流程示意图；

[0043] 图2是本发明提供的场景文字识别模型的训练示意图；

[0044] 图3是本发明提供的场景文字识别模型的结构示意图；

[0045] 图4是本发明提供的场景文字识别装置的结构示意图；

[0046] 图5是本发明提供的电子设备的结构示意图。

具体实施方式

[0047] 为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，
而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳
动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0048] 图1是本发明提供的场景文字识别方法的流程示意图，如图1所示，该方法包括：

[0049] 步骤110，获取待识别的场景图像。

[0050] 具体地，场景图像为包含待识别文字的图像。对场景图像进行识别，就是对场景图像中的文字进行识别。例如，场景图像可以为对道路两边的路牌进行拍照后得到的图像。对
这些图像中的文字进行识别，并根据文字的识别结果获取道路信息。

[0051] 需要说明的是，本发明中的文字可以为一个有语义的字符，也可以为无语义的字符，例如标点符号等。

[0052] 步骤120，将场景图像输入至场景文字识别模型，得到场景文字识别模型输出的文字识别结果；其中，场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强
训练得到的；

[0053] 基础训练为基于样本场景图像，以及样本场景图像对应的文字识别标签对场景文字识别模型进行训练；

[0054] 文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字，以及在样本场景图像对应的文字识别标签中擦除若干个文字的识别标签，基于擦除后的图像编码
特征和擦除后的文字识别标签对场景文字识别模型进行训练；

[0055] 插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值，以及在样本场景图像对应的文字识别标签中对若干对相邻文字的识别标签进行插值，基于
插值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。

[0056] 具体地，文字识别结果为对场景图像中的文字进行识别后得到的结果。例如，对于某路牌的图像进行识别后可以得到图像中的文字识别结果“高速入口”。

[0057] 可以通过深度学习的方法得到场景文字识别模型，场景文字识别模型用于对输入的场景图像进行识别，得到该场景图像对应的文字识别结果。具体可以通过基础训练得到
场景文字识别模型：

[0058] 首先，收集大量的样本场景图像；其次，对每一样本场景图像进行标注，确定每一样本场景图像对应的文字识别标签，也就是每一样本场景图像中的文字；再次，根据大量的
样本场景图像，以及每一样本场景图像对应的文字识别标签对初始模型进行训练，使得初
始模型能够学习到样本场景图像中文字所在的图像区域与文字识别标签之间的关联特性，
提高初始模型对于场景图像中文字的识别能力，得到场景文字识别模型。

[0059] 初始模型可以选择卷积神经网络模型、循环神经网络模型或者递归神经网络模型等，本发明实施例对于初始模型的选择不作具体限定。

[0060] 对于场景文字识别模型，可以在模型内部设置一个语言纠正层，用来利用文字之间存在的语言逻辑或者语法标准，对场景文字识别模型通过图像识别得到的结果进行纠
正。例如，对于场景图像中的词语“world”，若识别结果为“worid”或者“warld”，则可以通过
语言纠正层进行纠正。但是，如果场景文字识别模型出现漏识别或者额外识别等问题时，识
别结果会出现文字错位，无法对齐的问题，使得无法通过语言纠正层进行识别。例如，上述
词语中“l”漏识别时，得到的词语“word”也具有语言特性而无法纠正。因此，提高场景文字
识别模型对于场景图像中单个文字的位置，以及多个文字之间的序列关系的识别能力非常
重要。

[0061] 在基础训练之后，可以额外采用文字掩码增强训练和插值查询增强训练的方法，对场景文字识别模型进行增强训练。

[0062] 文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字，相应地，在样本场景图像对应的文字识别标签中擦除若干个文字的识别标签，根据擦除后的图
像编码特征和擦除后的文字识别标签对场景文字识别模型进行训练。

[0063] 插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值，相应地，在样本场景图像对应的文字识别标签中对若干对相邻文字的识别标签进行插值，
根据插值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。

[0064] 通过文字掩码增强训练，让场景文字识别模型可以感知到文字被擦除前后识别范围的变化，可以增强场景文字识别模型对于每一查询向量在场景图像中的文字区域的感知
能力；通过插值查询增强训练，将文字之间离散的位置关系转换为连续的位置关系，可以增
强场景文字识别模型对于文字之间的序列关系的感知能力。

[0065] 两种训练方法可以单独采用，也可以交替采用。例如，可以先采用文字掩码增强训练，先对样本场景图像的图像编码特征进行文字擦除，然后进行查询向量插值，采用插值查
询增强训练。

[0066] 本发明实施例提供的场景文字识别方法，通过场景文字识别模型对场景图像进行识别得到文字识别结果，场景文字识别模型是通过基础训练、文字掩码增强训练和插值查
询增强训练得到的，其中，文字掩码增强训练可以提高场景文字识别模型对于每一查询向
量在场景图像中的文字区域的感知能力以及动态提升了查询向量的全局感知视野，插值查
询增强训练将离散化的查询向量进行连续化，更贴合图像的连续空间，可以提高场景文字
识别模型对于文字之间的序列关系的感知能力，两种增强训练方法使得模型能够准确预测
文字识别结果中的文字长度，当模型对文字识别结果进行语言纠正时具有更高的准确率，
提高了场景文字识别模型在文字序列较长或者场景图像质量较低时对场景文字识别的准
确率，提高了场景文字识别模型的鲁棒性和识别性能。

[0067] 基于上述实施例，场景文字识别模型是基于如下步骤训练得到的：

[0068] 基于每一样本场景图像的图像编码特征和各文字的查询向量，以及每一样本场景图像对应的文字识别标签，采用注意力机制对初始模型进行基础训练、文字掩码增强训练
和插值查询增强训练，得到场景文字识别模型；

[0069] 其中，任一样本场景图像中各文字的查询向量是基于各文字在任一样本场景图像中的识别次序和任一样本场景图像的图像编码特征的特征深度确定的。

[0070] 具体地，场景文字识别模型可以采用并行注意力机制对场景图像进行识别。场景文字识别模型先对输入的场景图像进行特征提取，得到图像编码特征，其大小为
，其中分别为图像编码特征（特征图）的高度，宽度以及深度（维度）。

[0071] 可以将场景图像的图像编码特征作为注意力机制中的键特征图（key）和值特征图（value）。

[0072] 可以根据各文字在场景图像中的识别次序和该场景图像的图像编码特征的特征深度，按照三角函数位置编码确定各文字的查询向量，用公式表示为：

[0073]

[0074]

[0075]

[0076] 式中，为场景图像中的识别次序，为查询向量的特征深度（维度），为特征深度（维度）的序号。

[0077] 根据三角函数的性质，距离较近的文字的查询向量具有更高的相似度，距离较远的文字的查询向量具有较低的相似度，这满足空间的连续性性质。相比于具有离散性
性质的查询向量，具有相似性关系的查询向量具有序列关系明确的特点，更适用于解决较
长序列文字识别问题。

[0078] 根据注意力机制，可以确定各文字的注意力响应区域，用公式表示为：

[0079]

[0080] 式中，为图像编码特征的维度，为第个文字的查询向量，为第个文字的注意力响应区域，此公式中为转置运算符号。

[0081] 在此基础上，可以得到各文字的注意力输出特征，用公式表示为：

[0082]

[0083] 式中，为第个文字的注意力输出特征，为值特征图。

[0084] 不同于相关技术中采用函数用于计算注意力，本发明实施例中采用函数用于计算注意力。一方面，函数往往将响应区域归于一点，这个性
质不利于之后的文字掩码增强训练；另一方面，无需和其他文字的像素进行比
较，增强了查询向量的鲁棒性。

[0085] 场景文字识别模型的训练过程与识别过程相似，不同的是采用样本场景图像和样本场景图像对应的文字识别标签对初始模型进行训练。

[0086] 训练方式包括基础训练、文字掩码增强训练和插值查询增强训练。

[0087] 基于上述任一实施例，基于每一样本场景图像的图像编码特征和各文字的查询向量，以及每一样本场景图像对应的文字识别标签，采用注意力机制对初始模型进行文字掩
码增强训练，得到场景文字识别模型，包括：

[0088] 在任一样本场景图像中随机选择若干个文字进行擦除，得到擦除后的图像编码特征；

[0089] 在任一样本场景图像对应的文字识别标签中擦除若干个文字的识别标签，得到擦除后的文字识别标签；

[0090] 基于每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签，采用注意力机制对初始模型进行增强训练，得到场景文字识别模型。

[0091] 具体地，在基础训练中，该样本场景图像的键特征图与该样本场景图像的图像编码特征相同。

[0092] 进行文字掩码增强训练时，以任一样本场景图像为例，在任一样本场景图像的图像编码特征中随机选择若干个文字{ }进行擦除，为被擦除的文字的数量。
可以将擦除后的图像编码特征作为新的键特征图，进行增强训练。

[0093] 根据擦除前该样本场景图像的键特征图，可以得到擦除后的键特征图，用公式表示为：

[0094]

[0095] 式中，为被擦除的文字的注意力响应区域，。

[0096] 根据注意力机制，可以得到：

[0097]

[0098]

[0099] 式中，为擦除后的图像编码特征中第个文字的注意力响应区域，为擦除后的图像编码特征中第个文字的注意力输出特征。

[0100] 相应地，擦除前的文字识别标签为{ }，为文字识别标签中文字的数量，擦除后的文字识别标签为{ }‑{ }，各文字的识别标签按
照相应的识别序列排列。

[0101] 根据每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签，采用注意力机制对初始模型进行增强训练，得到场景文字识别模型。

[0102] 擦除操作后的训练为增强训练。经过擦除操作后，一方面，同一个在两次擦除前后中分别解码不同字符，增强了的动态响应范围。另一方面，经过擦除后完全抹去
文字次序{ }的特征使其在第二次解码中不被识别，从彻底擦除的角度，增强
了模型的识别注意力响应区域覆盖的完整性，提升了网络的识别性能。

[0103] 基于上述任一实施例，基于每一样本场景图像的图像编码特征和各文字的查询向量，以及每一样本场景图像对应的文字识别标签，采用注意力机制对初始模型进行插值查
询增强训练，得到场景文字识别模型，包括：

[0104] 确定任一样本场景图像中若干对相邻文字的查询向量；任一对相邻文字包括第一文字和第二文字；

[0105] 对于任一对相邻文字，基于第一文字的查询向量和第一插值权重，以及第二文字的查询向量和第二插值权重，确定任一对相邻文字的插值查询向量，并基于第一文字的识
别标签和第一插值权重，以及第二文字的识别标签和第二插值权重，确定任一对相邻文字
的插值识别标签；

[0106] 基于每一样本场景图像中若干对相邻文字的插值查询向量和插值识别标签，采用注意力机制对初始模型进行增强训练，得到场景文字识别模型。

[0107] 具体地，采用三角函数位置编码设计，使相邻文字的查询向量具有更高相似度，其本质仍为离散的查询向量。为了使查询向量具有与特征图同样的序列连续性，可以对
查询向量进行插值。

[0108] 以任一样本场景图像为例，选择若干对相邻文字的查询向量。为了方便表述，每一对相邻文字包括第一文字和第二文字。

[0109] 对于选取的对相邻文字中的第对相邻文字，，第一文字的查询向量为，第二文字的查询向量为，，H为样本场景图像中文字序列的
长度。采用动态随机概率作为第一插值权重，相应地，作为第二插值权重。采用线性
插值的方法，加权求和后确定该对相邻文字的插值查询向量，用公式表示为：

[0110]

[0111] 通过增强训练中的随机概率加权，查询向量从离散特征点连续化，以更充分地表示文字序列。

[0112] 对于插值查询向量，其识别过程可以用公式表示为：

[0113]

[0114]

[0115] 式中，为查询向量插值后的图像编码特征中第个文字的注意力响应区域，为查询向量插值后第个文字的注意力输出特征。

[0116] 其中，键特征图可以为基础训练过程中的图像编码特征。当采用文字掩码增强训练时，键特征图还可以为文字掩码增强训练中的擦除后的图像编码特征（对应上述实
施例中的键特征图）。

[0117] 由于查询向量的插值，其对应标签也同样进行插值，相应地，可以根据第一文字的识别结果和第一插值权重，以及第二文字的识别结果和第二插值权重
，确定插值查询向量的插值识别标签，用公式表示为：

[0118]

[0119] 以同样的概率加权，可以增强查询向量空间的连续性，一致性。

[0120] 相应地，插值前的文字识别标签为{ }，为文字识别标签中文字的数量，插值后的文字识别标签为{ }，各文字的识别标签按照相应的识别序
列排列。

[0121] 基于上述任一实施例，图2是本发明提供的场景文字识别模型的训练示意图，如图2所示，场景文字识别模型的训练流程包括：

[0122] 步骤一、对于输入的样本场景图像，提取图像编码特征；

[0123] 步骤二、基础训练

[0124] 根据图像编码特征，生成各文字的查询向量，利用注意力机制对初始模型进行基础训练。

[0125] 步骤三、插值查询增强训练

[0126] 以图像编码特征为键特征图，插值后得到插值后的查询向量，对初始模型进行插值查询增强训练。

[0127] 步骤四、文字掩码增强训练

[0128] 随机挑选键特征图的响应区域进行擦除，得到擦除后的图像编码特征作为键特征图，对初始模型进行文字掩码增强训练。

[0129] 步骤五、插值查询增强训练

[0130] 以键特征图作为图像编码特征，插值后得到查询向量，对初始模型进行插值查询增强训练。

[0131] 其中，步骤三、四和五为增强训练步骤，仅在模型的训练阶段执行。增强训练增强了模型对于文字序列特征的识别能力。

[0132] 基于上述任一实施例，步骤120包括：

[0133] 将场景图像输入至场景文字识别模型的视觉识别层，得到视觉识别层输出的图像编码特征和初始识别结果；

[0134] 将初始识别结果输入至场景文字识别模型的语言纠正层，得到语言纠正层输出的语言纠正特征；

[0135] 将图像编码特征和语言纠正特征输入至场景文字识别模型的融合识别层，得到融合识别层输出的文字识别结果。

[0136] 具体地，图3是本发明提供的场景文字识别模型的结构示意图，如图3所示，场景文字识别模型包括视觉识别层、语言纠正层和融合识别层。

[0137] 将场景图像输入至场景文字识别模型的视觉识别层，得到视觉识别层输出的图像编码特征和初始识别结果。

[0138] 将初始识别结果输入至场景文字识别模型的语言纠正层，得到语言纠正层输出的语言纠正特征G，用公式表示为：

[0139]

[0140] 式中，为语言纠正层，为嵌入操作。

[0141] 将图像编码特征和语言纠正特征G输入至场景文字识别模型的融合识别层，得到融合识别层输出的融合识别特征，用公式表示为：

[0142]

[0143] 式中，为融合识别层。

[0144] 融合识别特征经过融合识别层中的线性分类层后得到最终经过语言纠正后的文字识别结果。

[0145] 融合识别层可以采用双层的Transformer模型，先对图像编码特征和语言纠正特征G进行拼接得到concat ，利用自注意力模块的计算能力深度挖掘各个文字特征之
间的关系，自适应地调控图像编码特征和语言纠正特征的比重，获得鲁棒的识别精度。

[0146] 在对场景文字识别模型的各层进行联合训练前，可以对语言纠正层进行预训练。例如，采用在大规模无监督的文本数据上预训练语言纠正层。然后再对视觉识别层、语言纠
正层和融合识别层进行联合训练。

[0147] 由于采用了语言纠正层先单独训练，再联合训练场景文字识别模型的方法，可以利用语言纠正层对视觉识别层的结果纠错，获得具有语义关联信息的鲁棒结果。由于视觉
识别层的序列长度预测的准确性提升，极大地提升了语言纠正层的纠正能力。

[0148] 基于上述任一实施例，将场景图像输入至场景文字识别模型的视觉识别层，得到视觉识别层输出的图像编码特征和初始识别结果，包括：

[0149] 将场景图像输入至视觉识别层的特征编码层，得到特征编码层输出的图像编码特征；

[0150] 将图像编码特征输入至视觉识别层的特征解码层，由特征解码层确定场景图像中各文字的查询向量，并基于各文字的查询向量和图像编码特征，确定场景图像的初始识别
结果。

[0151] 具体地，视觉识别层可以包括特征编码层和特征解码层。特征编码层用于对场景图像进行特征提取，得到图像编码特征。特征解码层用于根据注意力机制，对图像编码特征
进行解码，得到初始识别结果。

[0152] 基于上述任一实施例，特征编码层是基于ResNet50和Transformer确定的。

[0153] 具体地，特征编码层需要从中学习到丰富的图像信息和具有判别力的特征表达。可以根据ResNet50和Transformer，确定特征编码层。

[0154] 对现有的ResNet50进行修改，在ResNet50的网络结构中，在stage‑1和stage‑2中保持原始的下采样策略，其余stage去除下采样策略，保持特征图的大小不变。

[0155] 在修改后的ResNet50后，串联3层Transformer模型，得到特征编码层。利用自注意力机制建模场景图像的长距离关系。由于文字区域通常跨度较大，像素级别的自注意力机
制可以有效增强特征编码层的感受野。

[0156] 基于上述任一实施例，图4是本发明提供的场景文字识别装置的结构示意图，如图4所示，该装置包括：

[0157] 获取单元410，用于获取待识别的场景图像；

[0158] 识别单元420，用于将场景图像输入至场景文字识别模型，得到场景文字识别模型输出的文字识别结果；

[0159] 其中，场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的；

[0160] 基础训练为基于样本场景图像，以及样本场景图像对应的文字识别标签对场景文字识别模型进行训练；

[0161] 文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字，以及在样本场景图像对应的文字识别标签中擦除若干个文字的识别结果，基于擦除后的图像编码
特征和擦除后的文字识别标签对场景文字识别模型进行训练；

[0162] 插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值，以及在样本场景图像对应的文字识别标签中对若干对相邻文字的识别结果进行插值，基于
插值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。

[0163] 本发明实施例提供的场景文字识别装置，通过场景文字识别模型对场景图像进行识别得到文字识别结果，场景文字识别模型是通过基础训练、文字掩码增强训练和插值查
询增强训练得到的，其中，文字掩码增强训练可以提高场景文字识别模型对于每一查询向
量在场景图像中的文字区域的感知能力以及动态提升了查询向量的全局感知视野，插值查
询增强训练将离散化的查询向量进行连续化，更贴合图像的连续空间，可以提高场景文字
识别模型对于文字之间的序列关系的感知能力，两种增强训练方法使得模型能够准确预测
文字识别结果中的文字长度，当模型对文字识别结果进行语言纠正时具有更高的准确率，
提高了场景文字识别模型在文字序列较长或者场景图像质量较低时对场景文字识别的准
确率，提高了场景文字识别模型的鲁棒性和识别性能。

[0164] 基于上述任一实施例，还包括：

[0165] 增强训练单元，用于基于每一样本场景图像的图像编码特征和各文字的查询向量，以及每一样本场景图像对应的文字识别标签，采用注意力机制对初始模型进行基础训
练、文字掩码增强训练和插值查询增强训练，得到场景文字识别模型；

[0166] 其中，任一样本场景图像中各文字的查询向量是基于各文字在任一样本场景图像中的识别次序和任一样本场景图像的图像编码特征的特征深度确定的。

[0167] 基于上述任一实施例，增强训练单元用于：

[0168] 在任一样本场景图像的图像编码特征中随机选择若干个文字进行擦除，得到擦除后的图像编码特征；

[0169] 在任一样本场景图像对应的文字识别标签中擦除若干个文字的识别标签，得到擦除后的文字识别标签；

[0170] 基于每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签，采用注意力机制对初始模型进行增强训练，得到场景文字识别模型。

[0171] 基于上述任一实施例，增强训练单元还用于：

[0172] 确定任一样本场景图像中若干对相邻文字的查询向量；任一对相邻文字包括第一文字和第二文字；

[0173] 对于任一对相邻文字，基于第一文字的查询向量和第一插值权重，以及第二文字的查询向量和第二插值权重，确定任一对相邻文字的插值查询向量，并基于第一文字的识
别标签和第一插值权重，以及第二文字的识别标签和第二插值权重，确定任一对相邻文字
的插值识别标签；

[0174] 基于每一样本场景图像中若干对相邻文字的插值查询向量和插值识别标签，采用注意力机制对初始模型进行增强训练，得到场景文字识别模型。

[0175] 基于上述任一实施例，识别单元包括：

[0176] 视觉识别单元，用于将场景图像输入至场景文字识别模型的视觉识别层，得到视觉识别层输出的图像编码特征和初始识别结果；

[0177] 将初始识别结果输入至场景文字识别模型的语言纠正层，得到语言纠正层输出的语言纠正特征；

[0178] 将图像编码特征和语言纠正特征输入至场景文字识别模型的融合识别层，得到融合识别层输出的文字识别结果。

[0179] 基于上述任一实施例，视觉识别单元用于：

[0180] 将场景图像输入至视觉识别层的特征编码层，得到特征编码层输出的图像编码特征；

[0181] 将图像编码特征输入至视觉识别层的特征解码层，由特征解码层确定场景图像中各文字的查询向量，并基于各文字的查询向量和图像编码特征，确定场景图像的初始识别
结果。

[0182] 基于上述任一实施例，特征编码层是基于ResNet50和Transformer确定的。

[0183] 基于上述任一实施例，图5为本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器（Processor）510、通信接口（Communications Interface）520、
存储器（Memory）530和通信总线（Communications Bus）540，其中，处理器510，通信接口
520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻
辑命令，以执行如下方法：

[0184] 获取待识别的场景图像；将场景图像输入至场景文字识别模型，得到场景文字识别模型输出的文字识别结果；其中，场景文字识别模型是基于基础训练、文字掩码增强训练
和插值查询增强训练得到的；基础训练为基于样本场景图像，以及样本场景图像对应的文
字识别标签对场景文字识别模型进行训练；文字掩码增强训练为在样本场景图像的图像编
码特征中擦除若干个文字，以及在样本场景图像对应的文字识别标签中擦除若干个文字的
识别标签，基于擦除后的图像编码特征和擦除后的文字识别标签对场景文字识别模型进行
训练；插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值，以
及在样本场景图像对应的文字识别标签中对若干对相邻文字的识别标签进行插值，基于插
值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。

[0185] 此外，上述的存储器530中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本
发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以
使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施
例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，
Read‑Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种
可以存储程序代码的介质。

[0186] 本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不
再赘述。

[0187] 本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：

[0188] 获取待识别的场景图像；将场景图像输入至场景文字识别模型，得到场景文字识别模型输出的文字识别结果；其中，场景文字识别模型是基于基础训练、文字掩码增强训练
和插值查询增强训练得到的；基础训练为基于样本场景图像，以及样本场景图像对应的文
字识别标签对场景文字识别模型进行训练；文字掩码增强训练为在样本场景图像的图像编
码特征中擦除若干个文字，以及在样本场景图像对应的文字识别标签中擦除若干个文字的
识别标签，基于擦除后的图像编码特征和擦除后的文字识别标签对场景文字识别模型进行
训练；插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值，以
及在样本场景图像对应的文字识别标签中对若干对相邻文字的识别标签进行插值，基于插
值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。

[0189] 本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，
此处不再赘述。

[0190] 以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单
元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下，即可以理解并实施。

[0191] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该
计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命
令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施
例或者实施例的某些部分所述的方法。

[0192] 最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可
以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；
而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。

场景文字识别方法、装置、电子设备及存储介质转让专利

申请号 : CN202210063467.5

文献号 : CN114092931B

文献日 : 2022-04-29

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王金桥 , 陈盈盈 , 谭颖韬

申请人 : 中科视语(北京)科技有限公司

摘要 :

权利要求 :

说明书 :