一种文字识别方法及系统转让专利

申请号 : CN202210012962.3

文献号 : CN114092930B

文献日 : 2022-05-03

本发明提供一种文字识别方法及系统，该方法包括：获取待识别的自然场景文字图像；将自然场景文字图像输入到文字识别模型中，得到文字内容；其中，文字识别模型是由视觉识别网络、视觉信息优化网络和语义信息优化网络构成的；视觉信息优化网络和语义信息优化网络，用于根据文字识别网络输出的字符特征，分别生成对应的文字识别补充信息，以供文字识别网络基于文字识别补充信息，对文字识别结果进行优化。本发明通过使用视觉信息优化网络和语义信息优化网络，在视觉特征和语言结果两个层面，获取全局信息，并将得到视觉和语义的线索，作为视觉识别网络迭代执行识别过程的补充信息，从而逐步获取更为鲁棒的识别结果，提高文字识别精度。

1.一种文字识别方法，其特征在于，包括：获取待识别的自然场景文字图像；

将所述自然场景文字图像输入到文字识别模型中，得到所述自然场景文字图像中的文字内容；

其中，所述文字识别模型是由视觉识别网络、视觉信息优化网络和语义信息优化网络构成的；所述视觉信息优化网络和所述语义信息优化网络，用于根据所述视觉识别网络输出的字符特征，分别生成对应的文字识别补充信息，以供所述视觉识别网络基于所述文字识别补充信息，对文字识别结果进行优化；

所述将所述自然场景文字图像输入到文字识别模型中，得到所述自然场景文字图像中的文字内容，包括：

步骤S1，通过所述视觉识别网络，对所述自然场景文字图像进行字符特征提取，得到所述自然场景文字图像中每个文字对应的视觉识别字符特征；

步骤S2，通过所述视觉信息优化网络，提取每个所述视觉识别字符特征之间的上下文信息，得到文字识别第一补充信息；

步骤S3，将所述视觉识别字符特征转化至预设语言空间，得到对应的字符语义特征；

步骤S4，通过所述语义信息优化网络，对所述字符语义特征进行上下文信息提取，得到全局感知语言特征，并将所述全局感知语言特征与所述视觉识别字符特征进行融合，得到文字识别第二补充信息；

步骤S5，将所述文字识别第一补充信息和所述文字识别第二补充信息，输入到所述视觉识别网络中，以供所述视觉识别网络结合所述文字识别第一补充信息和所述文字识别第二补充信息，对所述自然场景文字图像进行字符特征提取，得到信息补充后的视觉识别字符特征，重复步骤S2至步骤S5，直到满足预设识别条件，得到所述文字识别模型输出的所述自然场景文字图像中的文字内容。

2.根据权利要求1所述的文字识别方法，其特征在于，所述通过所述视觉信息优化网络，提取每个所述视觉识别字符特征之间的上下文信息，得到文字识别第一补充信息，包括：

获取每个视觉识别字符特征对应的识别准确率；

根据所述识别准确率，确定所述视觉识别字符特征中每个字符的掩码概率；

将所述视觉识别字符特征、所述掩码概率和所述视觉识别字符特征对应的空间位置，输入到所述视觉信息优化网络中，以供所述视觉信息优化网络识提取上下文信息，得到文字识别第一补充信息。

3.根据权利要求1所述的文字识别方法，其特征在于，所述视觉识别网络的编码器是通过卷积神经网络和Transformer网络构建得到的。

4.根据权利要求1所述的文字识别方法，其特征在于，所述视觉识别网络的解码器是通过并行注意力机制模型构建得到的。

5.根据权利要求1所述的文字识别方法，其特征在于，所述视觉信息优化网络是由2层Transformer网络构成的；所述语义信息优化网络是由4层Transformer网络构成的。

6.根据权利要求1至5任一项所述的文字识别方法，其特征在于，所述文字识别模型通过以下步骤训练得到：

步骤S11，将文字识别数据集中的样本文字图像输入到预训练视觉识别网络进行训练，得到由所述预训练视觉识别网络输出的样本文字图像中每个文字的视觉识别字符样本特征，其中，所述预训练视觉识别网络中解码器的查询向量为可调整向量；

步骤S12，将所述视觉识别字符样本特征输入到预训练视觉信息优化网络进行训练，得到由每个所述视觉识别字符样本特征之间的上下文信息构建的文字识别第一补充样本信息；

步骤S13，通过嵌入操作，将所述视觉识别字符样本特征转化至预设样本语言空间，并将转化后的视觉识别字符样本特征输入到预训练语义信息优化网络进行训练，得到由样本语言特征构建的文字识别第二补充样本信息，其中，所述样本语言特征是在所述预设样本语言空间中进行上下文信息提取得到的；

步骤S14，根据所述文字识别第一补充样本信息和所述文字识别第二补充样本信息，对所述预训练视觉识别网络中解码器的查询向量进行更新，以供所述预训练视觉识别网络根据新的查询向量，联合所述预训练视觉信息优化网络和所述预训练语义信息优化网络，重复步骤S11至步骤S14进行下一轮训练，直到满足预设训练条件，得到文字识别模型。

7.一种文字识别系统，其特征在于，包括：文字图像采集模块，用于获取待识别的自然场景文字图像；

文字内容识别模块，用于将所述自然场景文字图像输入到文字识别模型中，得到所述自然场景文字图像中的文字内容；

所述文字内容识别模块具体用于：

步骤S1，通过所述视觉识别网络，对所述自然场景文字图像进行字符特征提取，得到所述自然场景文字图像中每个文字对应的视觉识别字符特征；

步骤S2，通过所述视觉信息优化网络，提取每个所述视觉识别字符特征之间的上下文信息，得到文字识别第一补充信息；

步骤S3，将所述视觉识别字符特征转化至预设语言空间，得到对应的字符语义特征；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述文字识别方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文字识别方法的步骤。

一种文字识别方法及系统

技术领域

[0001] 本发明涉及计算机视觉技术领域，尤其涉及一种文字识别方法及系统。

背景技术

[0002] 文字识别是计算机视觉中的热门研究课题之一，也是基于视觉的模式识别应用的一个重要研究方向。文字识别技术需要将定位到的文字区域转化为计算机可辨识和操作的
符号，由于自然场景中的文字往往呈现多种不同的形态，因此识别得到的文字特征表示需
要有极强的表达能力和判别力。

[0003] 深度学习是近年来机器学习领域一个热门研究方向，已经在计算机视觉和自然语言处理等领域获得了巨大的成功，尤其是深度卷积神经网络，凭借局部感受野、共享权值以
及空间或时序的下采样这三大结构特点，能够从二维图像中提取出语义信息丰富和判别力
强的特征，在大规模图像分类和物体检测任务中均表现出优越的性能。

[0004] 然而，现有基于深度学习的文字识别技术，主要是利用递归神经网络进行文字的解码，在识别字符时，只能利用已经被识别出的文字信息，无法获取全局感知，导致文字识
别的准确率较低。

发明内容

[0005] 针对现有技术存在的问题，本发明提供一种文字识别方法及系统。

[0006] 本发明提供一种文字识别方法，包括：

[0007] 获取待识别的自然场景文字图像；

[0008] 将所述自然场景文字图像输入到文字识别模型中，得到所述自然场景文字图像中的文字内容；

[0009] 其中，所述文字识别模型是由视觉识别网络、视觉信息优化网络和语义信息优化网络构成的；所述视觉信息优化网络和所述语义信息优化网络，用于根据所述文字识别网
络输出的字符特征，分别生成对应的文字识别补充信息，以供所述文字识别网络基于所述
文字识别补充信息，对文字识别结果进行优化。

[0010] 根据本发明提供的一种文字识别方法，所述将所述自然场景文字图像输入到文字识别模型中，得到所述自然场景文字图像中的文字内容，包括：

[0011] 步骤S1，通过所述视觉识别网络，对所述自然场景文字图像进行字符特征提取，得到所述自然场景文字图像中每个文字对应的视觉识别字符特征；

[0012] 步骤S2，通过所述视觉信息优化网络，提取每个所述视觉识别字符特征之间的上下文信息，得到文字识别第一补充信息；

[0013] 步骤S3，将所述视觉识别字符特征转化至预设语言空间，得到对应的字符语义特征；

[0014] 步骤S4，通过所述语义信息优化网络，对所述字符语义特征进行上下文信息提取，得到全局感知语言特征，并将所述全局感知语言特征与所述视觉识别字符特征进行融合，
得到文字识别第二补充信息；

[0015] 步骤S5，将所述文字识别第一补充信息和所述文字识别第二补充信息，输入到所述视觉识别网络中，以供所述视觉识别网络结合所述文字识别第一补充信息和所述文字识
别第二补充信息，对所述自然场景文字图像进行字符特征提取，得到信息补充后的视觉识
别字符特征，重复步骤S2至步骤S5，直到满足预设识别条件，得到所述文字识别模型输出的
所述自然场景文字图像中的文字内容。

[0016] 根据本发明提供的一种文字识别方法，所述通过所述视觉信息优化网络，提取每个所述视觉识别字符特征之间的上下文信息，得到文字识别第一补充信息，包括：

[0017] 获取每个视觉识别字符特征对应的识别准确率；

[0018] 根据所述识别准确率，确定所述视觉识别字符特征中每个字符的掩码概率；

[0019] 将所述视觉识别字符特征、所述掩码概率和所述视觉识别字符特征对应的空间位置，输入到所述视觉信息优化网络中，以供所述视觉信息优化网络识提取上下文信息，得到
文字识别第一补充信息。

[0020] 根据本发明提供的一种文字识别方法，所述视觉识别网络的编码器是通过卷积神经网络和Transformer网络构建得到的。

[0021] 根据本发明提供的一种文字识别方法，所述视觉识别网络的解码器是通过并行注意力机制模型构建得到的。

[0022] 根据本发明提供的一种文字识别方法，所述视觉信息优化网络是由2层Transformer网络构成的；所述语义信息优化网络是由4层Transformer网络构成的。

[0023] 根据本发明提供的一种文字识别方法，所述文字识别模型通过以下步骤训练得到：

[0024] 步骤S11，将文字识别数据集中的样本文字图像输入到预训练视觉识别网络进行训练，得到由所述预训练视觉识别网络输出的样本文字图像中每个文字的视觉识别字符样
本特征，其中，所述预训练视觉识别网络中解码器的查询向量为可调整向量；

[0025] 步骤S12，将所述视觉识别字符样本特征输入到预训练视觉信息优化网络进行训练，得到由每个所述视觉识别字符样本特征之间的上下文信息构建的文字识别第一补充样
本信息；

[0026] 步骤S13，通过嵌入操作，将所述视觉识别字符样本特征转化至预设样本语言空间，并将转化后的视觉识别字符样本特征输入到预训练语义信息优化网络进行训练，得到
由样本语言特征构建的文字识别第二补充样本信息，其中，所述样本语言特征是在所述预
设样本语言空间中进行上下文信息提取得到的；

[0027] 步骤S14，根据所述文字识别第一补充样本信息和所述文字识别第二补充样本信息，对所述预训练视觉识别网络中解码器的查询向量进行更新，以供所述预训练视觉识别
网络根据新的查询向量，联合所述预训练视觉信息优化网络和所述预训练语义信息优化网
络，重复步骤S11至步骤S14进行下一轮训练，直到满足预设训练条件，得到文字识别模型。

[0028] 本发明还提供一种文字识别系统，包括：

[0029] 文字图像采集模块，用于获取待识别的自然场景文字图像；

[0030] 文字内容识别模块，用于将所述自然场景文字图像输入到文字识别模型中，得到所述自然场景文字图像中的文字内容；

[0031] 其中，所述文字识别模型是由视觉识别网络、视觉信息优化网络和语义信息优化网络构成的；所述视觉信息优化网络和所述语义信息优化网络，用于根据所述文字识别网
络输出的字符特征，分别生成对应的文字识别补充信息，以供所述文字识别网络基于所述
文字识别补充信息，对文字识别结果进行优化。

[0032] 本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文字识别方法
的步骤。

[0033] 本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文字识别方法的步骤。

[0034] 本发明提供的一种文字识别方法及系统，通过使用视觉信息优化网络和语义信息优化网络，在视觉特征和语言结果两个层面，获取全局信息，并将得到视觉和语义的线索，
作为视觉识别网络迭代执行识别过程的补充信息，从而逐步获取更为鲁棒的识别结果，提
高文字识别精度。

附图说明

[0035] 为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一
些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些
附图获得其他的附图。

[0036] 图1为本发明提供的文字识别方法的流程示意图；

[0037] 图2为本发明提供的视觉识别网络的编码器结构示意图；

[0038] 图3为本发明提供的视觉信息优化网络和语义信息优化网络的Transformer模块的编码器结构示意图；

[0039] 图4为本发明提供的文字识别过程的整体流程示意图；

[0040] 图5为本发明提供的文字识别系统的结构示意图；

[0041] 图6为本发明提供的电子设备的结构示意图。

具体实施方式

[0042] 为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，
而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳
动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0043] 传统手工设计的基于图像全局或局部特征的文字识别方法，难以准确提取到文字中具有极强表达能力和判别力的特征；另一方面，由于文字是一种特殊的图像内容，文字序
列中包含有丰富的语言知识，在识别文字内容时，可以通过语言知识对识别结果进行更正
以及补足，使其具有语言逻辑性，但传统方法往往忽略了文字序列间的语言关系。

[0044] 现有基于深度学习的文字识别技术，通过递归神经网络进行文字解码，字符依次输出，严重降低识别效率，并且在识别过程中无法获取全局感知；另外，在现在基于深度学
习的识别方法中，文字内容之间的语言信息往往被所忽略，而自然场景中的文本行，一般有
着明确的语言逻辑以及语法标准，在文字图像质量较低的情况，例如，光照不均匀，模糊干
扰和遮挡污渍等等，仅仅利用图像内容识别是十分困难的；最后，在一次识别过程中，往往
因为缺失所有字符的上下文信息难以得到准确的结果。因此，本发明利用语言信息，从另一
个角度缓解现有存在的问题，并且对于视觉识别结果进行修正，得到具有语义联系性的结
果，对于不规则排列文字图像和低质量文字图像等困难情况，均有鲁棒的适应性。

[0045] 图1为本发明提供的文字识别方法的流程示意图，如图1所示，本发明提供了一种文字识别方法，包括：

[0046] 步骤101，获取待识别的自然场景文字图像。

[0047] 在本发明中，自然场景中各种车辆车牌、路标、楼层、商场指示牌和标语等，通过图像采集装置，获取到相应的图像内容，将该图像内容作为待识别的自然场景文字图像，对其
中的文字内容进行识别。

[0048] 步骤102，将所述自然场景文字图像输入到文字识别模型中，得到所述自然场景文字图像中的文字内容；

[0049] 其中，所述文字识别模型是由视觉识别网络、视觉信息优化网络和语义信息优化网络构成的；所述视觉信息优化网络和所述语义信息优化网络，用于根据所述文字识别网
络输出的字符特征，分别生成对应的文字识别补充信息，以供所述文字识别网络基于所述
文字识别补充信息，对文字识别结果进行优化。

[0050] 在对文字图像中的文字内容进行识别时，图像中文本具有不同大小和排列方向，并且在拍摄图像时，抖动或焦距不合适也会导致拍摄得到文本模糊不清；另外，光照不均匀
或者场景文本与背景中的一些物体相连接（例如树叶、窗户等），这些情况均可能导致文字
识别错误。

[0051] 基于上述自然场景文字图像在实际识别过程中可能会遇到的问题，本发明构建了一种全新的神经网络结构和迭代优化策略，该神经网络结构中包括有视觉识别网络、视觉
信息优化网络和语义信息优化网络，首先通过视觉识别网络对自然场景文字图像进行文字
识别，对于视觉识别网络中并行注意力机制解码出的文字，分别使用视觉信息优化网络和
语义信息优化网络，在视觉特征和语言结果两个层面获取文字图像中的全局信息；并且，将
两个优化网络中额外得到视觉和语义的线索，作为视觉识别网络迭代执行识别的补充信
息，逐步获取更为鲁棒的识别结果，从而能够提取更加充分的文字特征表示，并且从语言角
度更正结果，有效提升文字识别精度。

[0052] 本发明提供的文字识别方法，通过使用视觉信息优化网络和语义信息优化网络，在视觉特征和语言结果两个层面，获取全局信息，并将得到视觉和语义的线索，作为视觉识
别网络迭代执行识别过程的补充信息，从而逐步获取更为鲁棒的识别结果，提高文字识别
精度。

[0053] 在上述实施例的基础上，所述将所述自然场景文字图像输入到文字识别模型中，得到所述自然场景文字图像中的文字内容，包括：

[0054] 步骤S1，通过所述视觉识别网络，对所述自然场景文字图像进行字符特征提取，得到所述自然场景文字图像中每个文字对应的视觉识别字符特征。

[0055] 在本发明中，通过视觉识别网络中的编码器，提取自然场景文字图像中的视觉特征，进而通过解码器，利用并行注意力机制进行文字内容的识别。本发明基于文字识别注意
力机制中的Query（查询向量）、Key（主键）和Value（键值）三要素分别建模，其中，Key和
Value来自视觉识别网络中编码器输出的图像特征信息，查询向量Query设置为可调整向
量。在初始状态（即第一轮文字识别过程），查询向量Query为通用可学习特征，随着视觉识
别网络每一轮的迭代识别过程，对查询向量Query进行动态调整，以补充自然场景文字图像
的全局信息，随着查询向量Query信息的补充，视觉识别网络将取得更准确的结果。

[0056] 在上述实施例的基础上，所述视觉识别网络的编码器是通过卷积神经网络和Transformer网络构建得到的，图2为本发明提供的视觉识别网络的编码器结构示意图，可
参考图2所示，本发明通过45层卷积神经网络及双层Transformer网络提取自然场景文字图
像的二维特征，与以往现有方法所提取的一维特征不同，本发明保留二维空间以适应文字
的多视角和弯曲等情况，避免使用额外的矫正网络，具体的卷积神经网络结构，如表1所示：

[0057] 表1

[0058]

[0059] 本发明在对图像中的二维特征进行提取时，使用了45层卷积神经网络和双层Transformer网络，其中，由于文字图像具有长宽特殊性，本发明更改了原始下采样的策略，
在第3阶段之后不再采用下采样，从而维持特征的空间完整性。

[0060] 进一步地，本发明将编码器提取的图像特征分为Key和Value两个分支，需要说明的是，在本发明中，对Key分支使用全卷积神经网络捕获文字的多尺度信息，并缩减维度，从
而减少解码过程中的计算复杂度。其中，在本发明中，全卷积神经网络分支的通道维度为
64，包含3个下采样层和3个上采样层，相同分辨率的特征图使用残差连接，从而增强特征的
多尺度表达能力；下采样层使用步长为2的卷积层实现，而上采样层采用双线性插值
（Bilinear Interpolation），用于倍增特征图长宽。

[0061] 在编码器中，每个卷积层之后先接一个BatchNorm（批标准化）层，这一层具体是由一个BatchNorm层和一个scale（缩放）层组成，其中，BatchNorm层用于对输入做0均值1方差
的归一化，scale层则用于对输入进行缩放和平移。在本发明中，BatchNorm层的均值和方差
来自于输入，而scale层的缩放和平移参数需要从数据中学习。Batch Norm层通过对卷积神
经网络输入进行归一化，有效的消除了卷积神经网络内部的协变量转移，加快了网络的收
敛；同时也是一种正则化机制，有效的防止了网络过拟合。进一步地，在BatchNorm层之后接
一个激活函数层，本发明采用的是ReLU激活函数。

[0062] 进一步地，所述视觉识别网络的解码器是通过并行注意力机制模型构建得到的。具体地，本发明通过编码器网络，提取出图像的视觉特征，而解码器网络使用并行注意力机
制，识别出特征图中的所有字符，从而提取出各个字符的视觉识别字符特征F。具体方式为：

[0063]

[0064]

[0065] 其中，t代表字符的次序，为特征图K的通道数目64，K和V分别代表Key特征图和Value特征图。

[0066] 本发明构建的视觉识别网络使用了编码器‑解码器结构，在编码器中，为了适应自然场景文字中复杂多变的文字排列形式，使用具有45层的卷积神经网络，结合双层
Transformer模块，在保持图像空间结构的同时，提升有效感受野，对于视角变化，倾斜和扭
曲的自然场景文字图像有很强的适应性，并且，在编码器结构中不额外设置矫正网络，在减
少计算量的同时保持识别性能，从而提取自然场景文字图像的视觉特征，并且建立长范围
的图像特征关联，输出Key和Value（简记K，V）两个特征图输入至解码器部分。

[0067] 在解码器中，本发明使用的并行注意力解码方式，相比于传统基于循环神经网络的解码机制，本发明所提出的并行解码具有更高的效率，使得视觉识别网络在前向过程识
别中，以通用查询向量在特征图中识别所有字符。本发明摒弃现有低效的循环神经网
络解码方式，通过一次前向过程解码所有文字，高效并行定位文字字符的准确位置，得到视
觉识别字符特征F。

[0068] 步骤S2，通过所述视觉信息优化网络，提取每个所述视觉识别字符特征之间的上下文信息，得到文字识别第一补充信息。

[0069] 在本发明中，视觉信息优化网络作用于视觉识别网络之后，通过视觉信息优化网络，对视觉识别网络提取得到的字符特征进行深入的上下文全局信息挖掘，通过自注意力
机制深度挖掘字符之间的联系，得到视觉线索，即文字识别第一补充信息，并作为视觉识别
网络下一轮迭代识别的补充信息。

[0070] 步骤S3，将所述视觉识别字符特征转化至预设语言空间，得到对应的字符语义特征；

[0071] 步骤S4，通过所述语义信息优化网络，对所述字符语义特征进行上下文信息提取，得到全局感知语言特征，并将所述全局感知语言特征与所述视觉识别字符特征进行融合，
得到文字识别第二补充信息。

[0072] 在本发明中，语义信息优化网络作用于视觉识别网络之后通过语义信息优化网络，对视觉识别网络的输出结果（即视觉识别字符特征F）进行语义信息的深度探索，从语言
的角度对输出结果进行纠错矫正，并得到语义线索，即文字识别第二补充信息，作为视觉识
别网络下一轮迭代识别的补充信息。

[0073] 具体地，首先通过嵌入操作（Embedding），将视觉识别网络的识别结果转化至预设语言空间，得到字符语义特征，用于表征文本内的语义连贯度，并输入至语义信息优化网络
的Transformer模块；然后，利用语义信息优化网络Transformer模块的全局自相关操作，将
视觉识别结果在预设语言空间中进行上下文探索，获得纠正后语言特征（即得到具有全局
感知能力的语言特征），通过在预设语言空间中进行上下文的探索，对于图像中存在的模糊
文字和遮挡文字等视觉识别网络难以处理的情况，可利用文字之间的语言特征信息进行识
别判断；并且，采用融合模块，将跨模态的视觉识别特征和纠正后语言特征进行结合，得到
最终识别结果，由于在融合时联合考虑了视觉特征和语言特征，让语言的纠正不会脱离图
像内容，从而在合理的范围内进行纠正；最后，再利用嵌入操作，将最终识别结果转化为
，在视觉识别网络下一轮的文字识别中，起到语义信息的补充作用。

[0074] 本发明构建的语义信息优化网络，与现有基于循环神经网络的隐式语义建模不同，提出了基于Transformer结构的子网络，用于专门处理语义逻辑性。本发明通过显式的
学习语言知识，得到语义纠正后的识别结果，使其更具鲁棒性。

[0075] 在上述实施例的基础上，所述视觉信息优化网络是由2层Transformer网络构成的；所述语义信息优化网络是由4层Transformer网络构成的。

[0076] 图3为本发明提供的视觉信息优化网络和语义信息优化网络的Transformer模块的编码器结构示意图，可参考图3所示，本发明中，通过Transformer模块，分别构建视觉信
息优化网络和语义信息优化网络的编码器模块，该编码器模块的通道深度为512，包含多头
自注意力模块以及线性前馈网络两个部分。

[0077] 进一步地，在自注意力模块中，查询向量（Query）为输入序列中某个元素，键向量（Key）和值向量（Value），构成为元素对应的一系列键值对。通过将Q、K、V经过不同的
全连接层，挖掘深层次关系，构成矩阵Q、K、V 来计算对应的自注意力响应。其中，自注意机
制的具体实现方式为：

[0078]

[0079] 基于自注意力机制，计算输入序列中每个元素与其他所有元素间的相互关系权重，从而自主学习序列中元素的编码表示，该编码表示同时包含元素本身的信息和输入序
列中其他元素与该元素之间的关系，即本发明中所有的文字信息。另外，本发明通过加入了
残差连接和层归一化计算方式，解决了深度学习模型的退化难题。

[0080] 进一步地，在本发明中，线性前馈网络使用双层中间维度为2048的全连接残差网络，通过中间维度扩增，拓展特征的丰富性。

[0081] 步骤S5，将所述文字识别第一补充信息和所述文字识别第二补充信息，输入到所述视觉识别网络中，以供所述视觉识别网络结合所述文字识别第一补充信息和所述文字识
别第二补充信息，对所述自然场景文字图像进行字符特征提取，得到信息补充后的视觉识
别字符特征，重复步骤S2至步骤S5，直到满足预设识别条件，得到所述文字识别模型输出的
所述自然场景文字图像中的文字内容。

[0082] 图4为本发明提供的文字识别过程的整体流程示意图，可参考图4所示，在本发明中，视觉信息优化网络（即视觉信息优化模块）的输入，为视觉识别网络的解码器输出的视
觉识别字符特征F，从视觉特征层面发掘深层次连接关系，从而得到字符特征之间的上下文
信息，即视觉线索；语义信息优化网络（即语义信息优化模块）的输入为视觉识别网络的识
别结果的嵌入（Embedding），从语义层面发掘深层次连接关系，从而对视觉识别结果进行纠
错矫正，进而通过视觉和语义共同作用对视觉识别网络解码器的Query进行补充，促进视觉
识别网络解码器后续的迭代识别过程，使得视觉识别网络的识别结果不断被优化，当迭代
轮数达到预定轮数，或者，连续两轮识别结果一致，终止识别过程，得到最终的联合识别结
果；相应的，视觉信息优化网络和语义信息优化网络，也会因此得到鲁棒的信息输入，给出
更为准确的线索（补充信息），形成正反馈的优化效应。

[0083] 在上述实施例的基础上，所述通过所述视觉信息优化网络，提取每个所述视觉识别字符特征之间的上下文信息，得到文字识别第一补充信息，包括：

[0084] 获取每个视觉识别字符特征对应的识别准确率；

[0085] 根据所述识别准确率，确定所述视觉识别字符特中每个字符的掩码概率；

[0086] 将所述视觉识别字符特征、所述掩码概率和所述视觉识别字符特征对应的空间位置，输入到所述视觉信息优化网络中，以供所述视觉信息优化网络识提取上下文信息，得到
文字识别第一补充信息。

[0087] 在本发明中，视觉信息优化网络由双层Transformer网络构成，其目的是对视觉识别网络的并行注意力识别得到的视觉识别字符特征F，进行字符间关联信息的提取。由于视
觉识别网络中并行注意力机制的存在，提取出的字符之间没有充分的联系，包括特征以及
空间位置的连续性。因此，本发明结合字符串中各个字符的文字特征和空间位置，作为视觉
信息优化网络的输入；并且，提出以视觉识别网络的识别准确率s作为输入的掩码概率。其
实现掩码方式具体为：

[0088]

[0089] 其中，和分别代表第t个字符的识别准确率以及注意力定位，为一个可学习掩码，其代表无意义的输入。代表的含义为第t个字符在视觉识别网络中
的准确率越高，其对应的视觉优化网络的输入越趋近于自身；准确率越低则输入越趋近无
意义的掩码。

[0090] 对于某个字符，其视觉识别准确率不够时，其特征往往是不准确的，为了让其在视觉信息优化网络的Transformer模块中不干扰整体信息，需要尽可能削弱不准确的输入；而
准确率高的字符可以作为基准点，带动其他字符的特征优化，使得视觉信息优化网络的
Transformer模块最终输出的视觉线索，对视觉识别网络下一轮的文字识别过程起到视
觉信息的补充作用。

[0091] 本发明对于空间序列性显著的自然场景文字图像，引入字符的空间位置联合计算，进一步提升文字之间的相互关联特性，通过掩码策略，以识别文字时的得分情况作为权
重，有效抑制错误识别字符对全局带来的负面影响，更利于完善文字识别所需的整体信息。

[0092] 在上述实施例的基础上，所述文字识别模型通过以下步骤训练得到：

[0093] 步骤S11，将文字识别数据集中的样本文字图像输入到预训练视觉识别网络进行训练，得到由所述预训练视觉识别网络输出的样本文字图像中每个文字的视觉识别字符样
本特征，其中，所述预训练视觉识别网络中解码器的查询向量为可调整向量。

[0094] 在本发明中，样本文字图像尺寸不一，包含在自然场景下（例如，路标、指示牌和车牌等）能见到的各种字体，并已完成文字标注，经过对样本文字图像进行一些图像预处理过
程之后，得到文字识别数据集。

[0095] 步骤S12，将所述视觉识别字符样本特征输入到预训练视觉信息优化网络进行训练，得到由每个所述视觉识别字符样本特征之间的上下文信息构建的文字识别第一补充样
本信息；

[0096] 步骤S13，通过嵌入操作，将所述视觉识别字符样本特征转化至预设样本语言空间，并将转化后的视觉识别字符样本特征输入到预训练语义信息优化网络进行训练，得到
由样本语言特征构建的文字识别第二补充样本信息，其中，所述样本语言特征是在所述预
设样本语言空间中进行上下文信息提取得到的；

[0097] 步骤S14，根据所述文字识别第一补充样本信息和所述文字识别第二补充样本信息，对所述预训练视觉识别网络中解码器的查询向量进行更新，以供所述预训练视觉识别
网络根据新的查询向量，联合所述预训练视觉信息优化网络和所述预训练语义信息优化网
络，重复步骤S11至步骤S14进行下一轮训练，直到满足预设训练条件，得到文字识别模型。

[0098] 在本发明中，文字识别模型的整个网络联合训练，其中，预训练视觉识别网络可以获得初步的视觉识别结果。随着获得预训练视觉信息优化网络对应的视觉线索，以及预
训练语义信息优化网络对应语义线索，结合原始的查询向量，从而补充下一轮训练
中预训练视觉识别网络的全局视觉‑语义信息，在满足预设训练次数之后，停止训练得到文
字识别模型。

[0099] 在一实施例中，可参考图4所示，对文字识别过程进行具体说明：

[0100] 步骤201，对于输入到视觉识别网络的文字图像，经由视觉识别网络中编码器的视觉信息提取，输出Key和Value两个特征图；

[0101] 步骤202，基于视觉识别网络中Attention机制的解码器，将编码器输出的Key和Value两个特征图，分别作为Attention机制中的键值对，而查询向量为：

[0102] ，识别轮数=1；

[0103] ，识别轮数>1;

[0104] 其中，在第一轮文字识别过程中，由于视觉识别网络识别的视觉识别字符特征的信息不全貌，仅由初始查询向量作为Query向量，从而得到初始识别结果，完成第一轮识
别；

[0105] 步骤203，视觉信息优化网络对当前识别轮数的视觉识别结果，进行字符前后文信息的挖掘，输出视觉线索，即文字识别第一补充信息；

[0106] 步骤204，语义信息优化网络对当前识别轮数的视觉识别结果，在预设语言空间中进行上下文信息提取，并将得到的语言特征与跨模态的视觉特征进行结合，并输出语言线
索，即文字识别第二补充信息。

[0107] 步骤205，将步骤203和步骤204得到的线索和，返回输入至视觉识别网络，作为额外的Query补充输入，进入下一轮识别，使得Query向量获得全局信息，取得更准确的
视觉识别结果；

[0108] 步骤206，重复步骤202至步骤205，识别过程执行多轮迭代，识别结果不断优化，整个过程遵循正反馈优化过程，直到迭代轮数到达预定轮数，或者连续两轮识别结果一致，终
止识别过程，输出最终的融合识别结果。

[0109] 本发明提供的文字识别方法，视觉识别网络中基于卷积神经网络和Transformer网络相结合构建的编码器结构，可保持空间的二维位置信息，以适应实际自然场景中多变
的文字形态，并且没有矫正网络的额外参数；解码器结构采用并行设计，可以避免长文本的
解码低效。并且，提出解耦注意力机制中的Query、Key和Value，分别单独建模，以提升网络
的鲁棒性；并将视觉识别网络中解码器的Query视为独立的输入，由于初始Query缺少部分
信息，而在之后的识别过程中将额外补充上下文信息增强识别性能，基于迭代优化的识别
策略，使得视觉识别网络经过额外信息的输入，文字识别结果被优化，从而获得更鲁棒的特
征。另外，本发明提供的视觉信息优化网络，通过挖掘文字整体的视觉联系，避免了传统解
码器结构的信息单向感知，为解码器提供视觉的全局信息；提供的语义信息优化网络，通过
显式的建模语义，使文字识别结果增加了语言逻辑性，并且为解码器提供语义的补充输入。

[0110] 下面对本发明提供的文字识别系统进行描述，下文描述的文字识别系统与上文描述的文字识别方法可相互对应参照。

[0111] 图5为本发明提供的文字识别系统的结构示意图，如图5所示，本发明提供了一种文字识别系统，包括文字图像采集模块501和文字内容识别模块502，其中，文字图像采集模
块501用于获取待识别的自然场景文字图像；文字内容识别模块502用于将所述自然场景文
字图像输入到文字识别模型中，得到所述自然场景文字图像中的文字内容；

[0112] 其中，所述文字识别模型是由视觉识别网络、视觉信息优化网络和语义信息优化网络构成的；所述视觉信息优化网络和所述语义信息优化网络，用于根据所述文字识别网
络输出的字符特征，分别生成对应的文字识别补充信息，以供所述文字识别网络基于所述
文字识别补充信息，对文字识别结果进行优化。

[0113] 在本发明中，自然场景中各种车辆车牌、路标、楼层、商场指示牌和标语等，通过文字图像采集模块501，获取到相应的图像内容，并将该图像内容作为待识别的自然场景文字
图像，输入到文字内容识别模块502，以供文字内容识别模块502对其中的文字内容进行识
别。

[0114] 进一步地，文字内容识别模块502在对文字图像中的文字内容进行识别时，图像中文本具有不同大小和排列方向，并且在拍摄图像时，抖动或焦距不合适也会导致拍摄得到
文本模糊不清；另外，光照不均匀或者场景文本与背景中的一些物体相连接（例如树叶、窗
户等），这些情况均可能导致文字识别错误。基于上述自然场景文字图像在实际识别过程中
可能会遇到的问题，文字内容识别模块502中的文字识别模型，是基于神经网络结构和迭代
优化策略构建得到的，该神经网络结构中包括有视觉识别网络、视觉信息优化网络和语义
信息优化网络。文字内容识别模块502首先通过视觉识别网络对自然场景文字图像进行文
字识别，对于视觉识别网络中并行注意力机制解码出的文字，分别使用视觉信息优化网络
和语义信息优化网络，在视觉特征和语言结果两个层面获取文字图像中的全局信息；并且，
将两个优化网络中额外得到视觉和语义的线索，作为视觉识别网络迭代执行识别的补充信
息，逐步获取更为鲁棒的识别结果，从而能够提取更加充分的文字特征表示，并且从语言角
度更正结果，有效提升文字识别精度。

[0115] 本发明提供的文字识别系统，通过使用视觉信息优化网络和语义信息优化网络，在视觉特征和语言结果两个层面，获取全局信息，并将得到视觉和语义的线索，作为视觉识
别网络迭代执行识别过程的补充信息，从而逐步获取更为鲁棒的识别结果，提高文字识别
精度。

[0116] 本发明提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

[0117] 图6为本发明提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器（Processor）601、通信接口（Communications Interface）602、存储器（Memory）603和
通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通
信。处理器601可以调用存储器603中的逻辑指令，以执行文字识别方法，该方法包括：获取
待识别的自然场景文字图像；将所述自然场景文字图像输入到文字识别模型中，得到所述
自然场景文字图像中的文字内容；其中，所述文字识别模型是由视觉识别网络、视觉信息优
化网络和语义信息优化网络构成的；所述视觉信息优化网络和所述语义信息优化网络，用
于根据所述文字识别网络输出的字符特征，分别生成对应的文字识别补充信息，以供所述
文字识别网络基于所述文字识别补充信息，对文字识别结果进行优化。

[0118] 此外，上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本
发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以
使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施
例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，
Read‑Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种
可以存储程序代码的介质。

[0119] 另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序
指令被计算机执行时，计算机能够执行上述各方法所提供的文字识别方法，该方法包括：获
取待识别的自然场景文字图像；将所述自然场景文字图像输入到文字识别模型中，得到所
述自然场景文字图像中的文字内容；其中，所述文字识别模型是由视觉识别网络、视觉信息
优化网络和语义信息优化网络构成的；所述视觉信息优化网络和所述语义信息优化网络，
用于根据所述文字识别网络输出的字符特征，分别生成对应的文字识别补充信息，以供所
述文字识别网络基于所述文字识别补充信息，对文字识别结果进行优化。

[0120] 又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的文字识别方法，该方法
包括：获取待识别的自然场景文字图像；将所述自然场景文字图像输入到文字识别模型中，
得到所述自然场景文字图像中的文字内容；其中，所述文字识别模型是由视觉识别网络、视
觉信息优化网络和语义信息优化网络构成的；所述视觉信息优化网络和所述语义信息优化
网络，用于根据所述文字识别网络输出的字符特征，分别生成对应的文字识别补充信息，以
供所述文字识别网络基于所述文字识别补充信息，对文字识别结果进行优化。

[0121] 以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单
元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下，即可以理解并实施。

[0122] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该
计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指
令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施
例或者实施例的某些部分所述的方法。

[0123] 最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可
以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；
而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。

一种文字识别方法及系统转让专利

申请号 : CN202210012962.3

文献号 : CN114092930B

文献日 : 2022-05-03

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王金桥 , 陈盈盈 , 谭颖韬

申请人 : 中科视语(北京)科技有限公司

摘要 :

权利要求 :

说明书 :