一种文字识别方法及系统转让专利
申请号 : CN202210012962.3
文献号 : CN114092930B
文献日 : 2022-05-03
发明人 : 王金桥 , 陈盈盈 , 谭颖韬
申请人 : 中科视语(北京)科技有限公司
摘要 :
权利要求 :
1.一种文字识别方法,其特征在于,包括:获取待识别的自然场景文字图像;
将所述自然场景文字图像输入到文字识别模型中,得到所述自然场景文字图像中的文字内容;
其中,所述文字识别模型是由视觉识别网络、视觉信息优化网络和语义信息优化网络构成的;所述视觉信息优化网络和所述语义信息优化网络,用于根据所述视觉识别网络输出的字符特征,分别生成对应的文字识别补充信息,以供所述视觉识别网络基于所述文字识别补充信息,对文字识别结果进行优化;
所述将所述自然场景文字图像输入到文字识别模型中,得到所述自然场景文字图像中的文字内容,包括:
步骤S1,通过所述视觉识别网络,对所述自然场景文字图像进行字符特征提取,得到所述自然场景文字图像中每个文字对应的视觉识别字符特征;
步骤S2,通过所述视觉信息优化网络,提取每个所述视觉识别字符特征之间的上下文信息,得到文字识别第一补充信息;
步骤S3,将所述视觉识别字符特征转化至预设语言空间,得到对应的字符语义特征;
步骤S4,通过所述语义信息优化网络,对所述字符语义特征进行上下文信息提取,得到全局感知语言特征,并将所述全局感知语言特征与所述视觉识别字符特征进行融合,得到文字识别第二补充信息;
步骤S5,将所述文字识别第一补充信息和所述文字识别第二补充信息,输入到所述视觉识别网络中,以供所述视觉识别网络结合所述文字识别第一补充信息和所述文字识别第二补充信息,对所述自然场景文字图像进行字符特征提取,得到信息补充后的视觉识别字符特征,重复步骤S2至步骤S5,直到满足预设识别条件,得到所述文字识别模型输出的所述自然场景文字图像中的文字内容。
2.根据权利要求1所述的文字识别方法,其特征在于,所述通过所述视觉信息优化网络,提取每个所述视觉识别字符特征之间的上下文信息,得到文字识别第一补充信息,包括:
获取每个视觉识别字符特征对应的识别准确率;
根据所述识别准确率,确定所述视觉识别字符特征中每个字符的掩码概率;
将所述视觉识别字符特征、所述掩码概率和所述视觉识别字符特征对应的空间位置,输入到所述视觉信息优化网络中,以供所述视觉信息优化网络识提取上下文信息,得到文字识别第一补充信息。
3.根据权利要求1所述的文字识别方法,其特征在于,所述视觉识别网络的编码器是通过卷积神经网络和Transformer网络构建得到的。
4.根据权利要求1所述的文字识别方法,其特征在于,所述视觉识别网络的解码器是通过并行注意力机制模型构建得到的。
5.根据权利要求1所述的文字识别方法,其特征在于,所述视觉信息优化网络是由2层Transformer网络构成的;所述语义信息优化网络是由4层Transformer网络构成的。
6.根据权利要求1至5任一项所述的文字识别方法,其特征在于,所述文字识别模型通过以下步骤训练得到:
步骤S11,将文字识别数据集中的样本文字图像输入到预训练视觉识别网络进行训练,得到由所述预训练视觉识别网络输出的样本文字图像中每个文字的视觉识别字符样本特征,其中,所述预训练视觉识别网络中解码器的查询向量为可调整向量;
步骤S12,将所述视觉识别字符样本特征输入到预训练视觉信息优化网络进行训练,得到由每个所述视觉识别字符样本特征之间的上下文信息构建的文字识别第一补充样本信息;
步骤S13,通过嵌入操作,将所述视觉识别字符样本特征转化至预设样本语言空间,并将转化后的视觉识别字符样本特征输入到预训练语义信息优化网络进行训练,得到由样本语言特征构建的文字识别第二补充样本信息,其中,所述样本语言特征是在所述预设样本语言空间中进行上下文信息提取得到的;
步骤S14,根据所述文字识别第一补充样本信息和所述文字识别第二补充样本信息,对所述预训练视觉识别网络中解码器的查询向量进行更新,以供所述预训练视觉识别网络根据新的查询向量,联合所述预训练视觉信息优化网络和所述预训练语义信息优化网络,重复步骤S11至步骤S14进行下一轮训练,直到满足预设训练条件,得到文字识别模型。
7.一种文字识别系统,其特征在于,包括:文字图像采集模块,用于获取待识别的自然场景文字图像;
文字内容识别模块,用于将所述自然场景文字图像输入到文字识别模型中,得到所述自然场景文字图像中的文字内容;
其中,所述文字识别模型是由视觉识别网络、视觉信息优化网络和语义信息优化网络构成的;所述视觉信息优化网络和所述语义信息优化网络,用于根据所述视觉识别网络输出的字符特征,分别生成对应的文字识别补充信息,以供所述视觉识别网络基于所述文字识别补充信息,对文字识别结果进行优化;
所述文字内容识别模块具体用于:
步骤S1,通过所述视觉识别网络,对所述自然场景文字图像进行字符特征提取,得到所述自然场景文字图像中每个文字对应的视觉识别字符特征;
步骤S2,通过所述视觉信息优化网络,提取每个所述视觉识别字符特征之间的上下文信息,得到文字识别第一补充信息;
步骤S3,将所述视觉识别字符特征转化至预设语言空间,得到对应的字符语义特征;
步骤S4,通过所述语义信息优化网络,对所述字符语义特征进行上下文信息提取,得到全局感知语言特征,并将所述全局感知语言特征与所述视觉识别字符特征进行融合,得到文字识别第二补充信息;
步骤S5,将所述文字识别第一补充信息和所述文字识别第二补充信息,输入到所述视觉识别网络中,以供所述视觉识别网络结合所述文字识别第一补充信息和所述文字识别第二补充信息,对所述自然场景文字图像进行字符特征提取,得到信息补充后的视觉识别字符特征,重复步骤S2至步骤S5,直到满足预设识别条件,得到所述文字识别模型输出的所述自然场景文字图像中的文字内容。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述文字识别方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文字识别方法的步骤。
说明书 :
一种文字识别方法及系统
技术领域
背景技术
符号,由于自然场景中的文字往往呈现多种不同的形态,因此识别得到的文字特征表示需
要有极强的表达能力和判别力。
及空间或时序的下采样这三大结构特点,能够从二维图像中提取出语义信息丰富和判别力
强的特征,在大规模图像分类和物体检测任务中均表现出优越的性能。
别的准确率较低。
发明内容
络输出的字符特征,分别生成对应的文字识别补充信息,以供所述文字识别网络基于所述
文字识别补充信息,对文字识别结果进行优化。
得到文字识别第二补充信息;
别第二补充信息,对所述自然场景文字图像进行字符特征提取,得到信息补充后的视觉识
别字符特征,重复步骤S2至步骤S5,直到满足预设识别条件,得到所述文字识别模型输出的
所述自然场景文字图像中的文字内容。
文字识别第一补充信息。
本特征,其中,所述预训练视觉识别网络中解码器的查询向量为可调整向量;
本信息;
由样本语言特征构建的文字识别第二补充样本信息,其中,所述样本语言特征是在所述预
设样本语言空间中进行上下文信息提取得到的;
网络根据新的查询向量,联合所述预训练视觉信息优化网络和所述预训练语义信息优化网
络,重复步骤S11至步骤S14进行下一轮训练,直到满足预设训练条件,得到文字识别模型。
络输出的字符特征,分别生成对应的文字识别补充信息,以供所述文字识别网络基于所述
文字识别补充信息,对文字识别结果进行优化。
的步骤。
作为视觉识别网络迭代执行识别过程的补充信息,从而逐步获取更为鲁棒的识别结果,提
高文字识别精度。
附图说明
些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些
附图获得其他的附图。
具体实施方式
而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳
动前提下所获得的所有其他实施例,都属于本发明保护的范围。
列中包含有丰富的语言知识,在识别文字内容时,可以通过语言知识对识别结果进行更正
以及补足,使其具有语言逻辑性,但传统方法往往忽略了文字序列间的语言关系。
习的识别方法中,文字内容之间的语言信息往往被所忽略,而自然场景中的文本行,一般有
着明确的语言逻辑以及语法标准,在文字图像质量较低的情况,例如,光照不均匀,模糊干
扰和遮挡污渍等等,仅仅利用图像内容识别是十分困难的;最后,在一次识别过程中,往往
因为缺失所有字符的上下文信息难以得到准确的结果。因此,本发明利用语言信息,从另一
个角度缓解现有存在的问题,并且对于视觉识别结果进行修正,得到具有语义联系性的结
果,对于不规则排列文字图像和低质量文字图像等困难情况,均有鲁棒的适应性。
中的文字内容进行识别。
络输出的字符特征,分别生成对应的文字识别补充信息,以供所述文字识别网络基于所述
文字识别补充信息,对文字识别结果进行优化。
或者场景文本与背景中的一些物体相连接(例如树叶、窗户等),这些情况均可能导致文字
识别错误。
信息优化网络和语义信息优化网络,首先通过视觉识别网络对自然场景文字图像进行文字
识别,对于视觉识别网络中并行注意力机制解码出的文字,分别使用视觉信息优化网络和
语义信息优化网络,在视觉特征和语言结果两个层面获取文字图像中的全局信息;并且,将
两个优化网络中额外得到视觉和语义的线索,作为视觉识别网络迭代执行识别的补充信
息,逐步获取更为鲁棒的识别结果,从而能够提取更加充分的文字特征表示,并且从语言角
度更正结果,有效提升文字识别精度。
别网络迭代执行识别过程的补充信息,从而逐步获取更为鲁棒的识别结果,提高文字识别
精度。
力机制中的Query(查询向量)、Key(主键)和Value(键值)三要素分别建模,其中,Key和
Value来自视觉识别网络中编码器输出的图像特征信息,查询向量Query设置为可调整向
量。在初始状态(即第一轮文字识别过程),查询向量Query为通用可学习特征,随着视觉识
别网络每一轮的迭代识别过程,对查询向量Query进行动态调整,以补充自然场景文字图像
的全局信息,随着查询向量Query信息的补充,视觉识别网络将取得更准确的结果。
参考图2所示,本发明通过45层卷积神经网络及双层Transformer网络提取自然场景文字图
像的二维特征,与以往现有方法所提取的一维特征不同,本发明保留二维空间以适应文字
的多视角和弯曲等情况,避免使用额外的矫正网络,具体的卷积神经网络结构,如表1所示:
在第3阶段之后不再采用下采样,从而维持特征的空间完整性。
而减少解码过程中的计算复杂度。其中,在本发明中,全卷积神经网络分支的通道维度为
64,包含3个下采样层和3个上采样层,相同分辨率的特征图使用残差连接,从而增强特征的
多尺度表达能力;下采样层使用步长为2的卷积层实现,而上采样层采用双线性插值
(Bilinear Interpolation),用于倍增特征图长宽。
的归一化,scale层则用于对输入进行缩放和平移。在本发明中,BatchNorm层的均值和方差
来自于输入,而scale层的缩放和平移参数需要从数据中学习。Batch Norm层通过对卷积神
经网络输入进行归一化,有效的消除了卷积神经网络内部的协变量转移,加快了网络的收
敛;同时也是一种正则化机制,有效的防止了网络过拟合。进一步地,在BatchNorm层之后接
一个激活函数层,本发明采用的是ReLU激活函数。
制,识别出特征图中的所有字符,从而提取出各个字符的视觉识别字符特征F。具体方式为:
Transformer模块,在保持图像空间结构的同时,提升有效感受野,对于视角变化,倾斜和扭
曲的自然场景文字图像有很强的适应性,并且,在编码器结构中不额外设置矫正网络,在减
少计算量的同时保持识别性能,从而提取自然场景文字图像的视觉特征,并且建立长范围
的图像特征关联,输出Key和Value(简记K,V)两个特征图输入至解码器部分。
别中,以通用查询向量 在特征图中识别所有字符。本发明摒弃现有低效的循环神经网
络解码方式,通过一次前向过程解码所有文字,高效并行定位文字字符的准确位置,得到视
觉识别字符特征F。
机制深度挖掘字符之间的联系,得到视觉线索,即文字识别第一补充信息,并作为视觉识别
网络下一轮迭代识别的补充信息。
得到文字识别第二补充信息。
的角度对输出结果进行纠错矫正,并得到语义线索,即文字识别第二补充信息,作为视觉识
别网络下一轮迭代识别的补充信息。
的Transformer模块;然后,利用语义信息优化网络Transformer模块的全局自相关操作,将
视觉识别结果在预设语言空间中进行上下文探索,获得纠正后语言特征(即得到具有全局
感知能力的语言特征),通过在预设语言空间中进行上下文的探索,对于图像中存在的模糊
文字和遮挡文字等视觉识别网络难以处理的情况,可利用文字之间的语言特征信息进行识
别判断;并且,采用融合模块,将跨模态的视觉识别特征和纠正后语言特征进行结合,得到
最终识别结果,由于在融合时联合考虑了视觉特征和语言特征,让语言的纠正不会脱离图
像内容,从而在合理的范围内进行纠正;最后,再利用嵌入操作,将最终识别结果转化为
,在视觉识别网络下一轮的文字识别中,起到语义信息的补充作用。
学习语言知识,得到语义纠正后的识别结果,使其更具鲁棒性。
息优化网络和语义信息优化网络的编码器模块,该编码器模块的通道深度为512,包含多头
自注意力模块以及线性前馈网络两个部分。
全连接层,挖掘深层次关系,构成矩阵Q、K、V 来计算对应的自注意力响应。其中,自注意机
制的具体实现方式为:
列中其他元素与该元素之间的关系,即本发明中所有的文字信息。另外,本发明通过加入了
残差连接和层归一化计算方式,解决了深度学习模型的退化难题。
别第二补充信息,对所述自然场景文字图像进行字符特征提取,得到信息补充后的视觉识
别字符特征,重复步骤S2至步骤S5,直到满足预设识别条件,得到所述文字识别模型输出的
所述自然场景文字图像中的文字内容。
觉识别字符特征F,从视觉特征层面发掘深层次连接关系,从而得到字符特征之间的上下文
信息,即视觉线索;语义信息优化网络(即语义信息优化模块)的输入为视觉识别网络的识
别结果的嵌入(Embedding),从语义层面发掘深层次连接关系,从而对视觉识别结果进行纠
错矫正,进而通过视觉和语义共同作用对视觉识别网络解码器的Query进行补充,促进视觉
识别网络解码器后续的迭代识别过程,使得视觉识别网络的识别结果不断被优化,当迭代
轮数达到预定轮数,或者,连续两轮识别结果一致,终止识别过程,得到最终的联合识别结
果;相应的,视觉信息优化网络和语义信息优化网络,也会因此得到鲁棒的信息输入,给出
更为准确的线索(补充信息),形成正反馈的优化效应。
文字识别第一补充信息。
觉识别网络中并行注意力机制的存在,提取出的字符之间没有充分的联系,包括特征以及
空间位置的连续性。因此,本发明结合字符串中各个字符的文字特征和空间位置,作为视觉
信息优化网络的输入;并且,提出以视觉识别网络的识别准确率s作为输入的掩码概率。其
实现掩码方式具体为:
的准确率越高,其对应的视觉优化网络的输入越趋近于自身;准确率越低则输入越趋近无
意义的掩码。
准确率高的字符可以作为基准点,带动其他字符的特征优化,使得视觉信息优化网络的
Transformer模块最终输出的视觉线索 ,对视觉识别网络下一轮的文字识别过程起到视
觉信息的补充作用。
重,有效抑制错误识别字符对全局带来的负面影响,更利于完善文字识别所需的整体信息。
本特征,其中,所述预训练视觉识别网络中解码器的查询向量为可调整向量。
程之后,得到文字识别数据集。
本信息;
由样本语言特征构建的文字识别第二补充样本信息,其中,所述样本语言特征是在所述预
设样本语言空间中进行上下文信息提取得到的;
网络根据新的查询向量,联合所述预训练视觉信息优化网络和所述预训练语义信息优化网
络,重复步骤S11至步骤S14进行下一轮训练,直到满足预设训练条件,得到文字识别模型。
训练语义信息优化网络对应语义线索 ,结合原始的查询向量 ,从而补充下一轮训练
中预训练视觉识别网络的全局视觉‑语义信息,在满足预设训练次数之后,停止训练得到文
字识别模型。
别;
索 ,即文字识别第二补充信息。
视觉识别结果;
止识别过程,输出最终的融合识别结果。
的文字形态,并且没有矫正网络的额外参数;解码器结构采用并行设计,可以避免长文本的
解码低效。并且,提出解耦注意力机制中的Query、Key和Value,分别单独建模,以提升网络
的鲁棒性;并将视觉识别网络中解码器的Query视为独立的输入,由于初始Query缺少部分
信息,而在之后的识别过程中将额外补充上下文信息增强识别性能,基于迭代优化的识别
策略,使得视觉识别网络经过额外信息的输入,文字识别结果被优化,从而获得更鲁棒的特
征。另外,本发明提供的视觉信息优化网络,通过挖掘文字整体的视觉联系,避免了传统解
码器结构的信息单向感知,为解码器提供视觉的全局信息;提供的语义信息优化网络,通过
显式的建模语义,使文字识别结果增加了语言逻辑性,并且为解码器提供语义的补充输入。
块501用于获取待识别的自然场景文字图像;文字内容识别模块502用于将所述自然场景文
字图像输入到文字识别模型中,得到所述自然场景文字图像中的文字内容;
络输出的字符特征,分别生成对应的文字识别补充信息,以供所述文字识别网络基于所述
文字识别补充信息,对文字识别结果进行优化。
图像,输入到文字内容识别模块502,以供文字内容识别模块502对其中的文字内容进行识
别。
文本模糊不清;另外,光照不均匀或者场景文本与背景中的一些物体相连接(例如树叶、窗
户等),这些情况均可能导致文字识别错误。基于上述自然场景文字图像在实际识别过程中
可能会遇到的问题,文字内容识别模块502中的文字识别模型,是基于神经网络结构和迭代
优化策略构建得到的,该神经网络结构中包括有视觉识别网络、视觉信息优化网络和语义
信息优化网络。文字内容识别模块502首先通过视觉识别网络对自然场景文字图像进行文
字识别,对于视觉识别网络中并行注意力机制解码出的文字,分别使用视觉信息优化网络
和语义信息优化网络,在视觉特征和语言结果两个层面获取文字图像中的全局信息;并且,
将两个优化网络中额外得到视觉和语义的线索,作为视觉识别网络迭代执行识别的补充信
息,逐步获取更为鲁棒的识别结果,从而能够提取更加充分的文字特征表示,并且从语言角
度更正结果,有效提升文字识别精度。
别网络迭代执行识别过程的补充信息,从而逐步获取更为鲁棒的识别结果,提高文字识别
精度。
通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通
信。处理器601可以调用存储器603中的逻辑指令,以执行文字识别方法,该方法包括:获取
待识别的自然场景文字图像;将所述自然场景文字图像输入到文字识别模型中,得到所述
自然场景文字图像中的文字内容;其中,所述文字识别模型是由视觉识别网络、视觉信息优
化网络和语义信息优化网络构成的;所述视觉信息优化网络和所述语义信息优化网络,用
于根据所述文字识别网络输出的字符特征,分别生成对应的文字识别补充信息,以供所述
文字识别网络基于所述文字识别补充信息,对文字识别结果进行优化。
发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以
使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施
例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,
Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
指令被计算机执行时,计算机能够执行上述各方法所提供的文字识别方法,该方法包括:获
取待识别的自然场景文字图像;将所述自然场景文字图像输入到文字识别模型中,得到所
述自然场景文字图像中的文字内容;其中,所述文字识别模型是由视觉识别网络、视觉信息
优化网络和语义信息优化网络构成的;所述视觉信息优化网络和所述语义信息优化网络,
用于根据所述文字识别网络输出的字符特征,分别生成对应的文字识别补充信息,以供所
述文字识别网络基于所述文字识别补充信息,对文字识别结果进行优化。
包括:获取待识别的自然场景文字图像;将所述自然场景文字图像输入到文字识别模型中,
得到所述自然场景文字图像中的文字内容;其中,所述文字识别模型是由视觉识别网络、视
觉信息优化网络和语义信息优化网络构成的;所述视觉信息优化网络和所述语义信息优化
网络,用于根据所述文字识别网络输出的字符特征,分别生成对应的文字识别补充信息,以
供所述文字识别网络基于所述文字识别补充信息,对文字识别结果进行优化。
元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下,即可以理解并实施。
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。