文本识别方法、装置、设备及介质转让专利
申请号 : CN202110816530.3
文献号 : CN113283427B
文献日 : 2021-10-01
发明人 : 周宏浩 , 秦勇
申请人 : 北京世纪好未来教育科技有限公司
摘要 :
权利要求 :
1.一种文本识别方法,包括:获取待识别文本图像;
将所述待识别文本图像输入至预先训练得到的文本识别模型;其中,所述文本识别模型包括特征编码器以及至少两个连续相连的特征解码器;
通过所述特征编码器对所述待识别文本图像进行特征提取,得到文本字符特征;
通过所述至少两个连续相连的特征解码器对所述文本字符特征进行多步迭代解析,得到文本识别结果;
其中,所述文本识别模型按照如下步骤训练得到:对预设的第一神经网络进行训练,得到首次训练好的特征编码器;
对预设的第二神经网络进行训练,得到首次训练好的特征解码器;
基于所述首次训练好的特征编码器以及至少两个连续相连的所述首次训练好的特征解码器构建初始的文本识别模型;
对所述初始的文本识别模型进行训练,得到训练好的文本识别模型;
所述对预设的第二神经网络进行训练,得到首次训练好的特征解码器的步骤,包括:获取字符串样本;
采用预设方式对所述字符串样本进行篡改处理,得到所述字符串样本对应的多个篡改字符串;其中,所述预设方式包括以下方式中的一种或多种:掩盖部分字符、删减部分字符、增添部分字符、调整字符顺序;
为每个所述篡改字符串标注与其对应的字符串样本,并采用标注后的所述篡改字符串对预设的第二神经网络进行训练,得到首次训练好的特征解码器。
2.如权利要求1所述的文本识别方法,其中,所述通过所述至少两个连续相连的特征解码器对所述文本字符特征进行多步迭代解析,得到文本识别结果的步骤,包括:通过所述至少两个连续相连的特征解码器对各自输入的目标特征进行依次解析,得到最后一个所述特征解码器的输出特征向量;其中,首个所述特征解码器输入的目标特征为所述文本字符特征;其余所述特征解码器输入的目标特征为前一个所述特征解码器的输出特征向量;
基于预先构建的词典,将最后一个所述特征解码器的输出特征向量转换为文本识别结果。
3.如权利要求1所述的文本识别方法,其中,所述对预设的第一神经网络进行训练,得到首次训练好的特征编码器的步骤,包括:获取第一文本图像样本;其中,所述第一文本图像样本标注有文本字符信息,且所述第一文本图像样本的图像背景为单一色;
通过所述第一文本图像样本以及预先训练好的特征提取网络对预设的第一神经网络进行训练,得到首次训练好的特征编码器。
4.如权利要求3所述的文本识别方法,其中,所述通过所述第一文本图像样本以及预先训练好的特征提取网络对预设的第一神经网络进行训练,得到首次训练好的特征编码器的步骤,包括:
将所述第一文本图像样本输入给预设的第一神经网络模型,得到所述第一神经网络模型的输出文本图像以及第一损失函数值;
将所述输出文本图像以及所述第一文本图像样本分别输入给预先训练好的特征提取网络,得到所述特征提取网络针对所述输出文本图像提取的第一特征以及针对所述第一文本图像样本提取的第二特征;
基于所述第一特征和所述第二特征,得到第二损失函数值;
基于所述第一损失函数值和所述第二损失函数值,对所述第一神经网络模型进行训练,得到首次训练好的特征编码器。
5.如权利要求1所述的文本识别方法,其中,所述基于所述首次训练好的特征编码器以及至少两个连续相连的所述首次训练好的特征解码器构建初始的文本识别模型的步骤,包括:
获取第二文本图像样本;其中,所述第二文本图像样本标注有文本字符信息;
利用所述第二文本图像样本对所述首次训练好的特征编码器的网络参数进行微调;
采用参数微调后的所述特征编码器以及至少两个连续相连的所述首次训练好的特征解码器构建初始的文本识别模型。
6.如权利要求5所述的文本识别方法,其中,所述利用所述第二文本图像样本对所述首次训练好的特征编码器的网络参数进行微调的步骤,包括:采用所述首次训练好的特征编码器构建CRNN模型;其中,所述CRNN模型包括CNN网络层和RNN网络层,且所述CNN网络层包括所述首次训练好的特征编码器;
利用所述第二文本图像样本以及CTC损失函数对所述CRNN模型进行训练,且在训练过程中,所述RNN网络层的参数更新次数与所述CNN网络层的参数更新次数呈预设比例,所述比例大于预设阈值;
在所述CTC损失函数收敛时结束训练,将训练后的所述CRNN模型中的特征编码器作为参数微调后的所述特征编码器。
7.如权利要求1至6任一项所述的文本识别方法,其中,所述特征编码器包括VAE模型中的编码器。
8.如权利要求1至6任一项所述的文本识别方法,其中,所述特征解码器包括Transformer模型。
9.如权利要求1所述的文本识别方法,其中,所述对所述初始的文本识别模型进行训练,得到训练好的文本识别模型的步骤,包括:获取第三文本图像样本;其中,所述第三文本图像样本标注有文本字符信息;
利用所述第三文本图像样本以及交叉熵损失函数对所述初始的文本识别模型进行训练,直至所述交叉熵损失函数收敛时得到训练好的文本识别模型。
10.一种文本识别装置,包括:图像获取模块,用于获取待识别文本图像;
模型输入模块,用于将所述待识别文本图像输入至预先训练得到的文本识别模型;其中,所述文本识别模型包括特征编码器以及至少两个连续相连的特征解码器;
特征提取模块,用于通过所述特征编码器对所述待识别文本图像进行特征提取,得到文本字符特征;
迭代解析模块,用于通过所述至少两个连续相连的特征解码器对所述文本字符特征进行多步迭代解析,得到文本识别结果;
所述装置还包括模型训练模块,包括:编码器训练单元,用于对预设的第一神经网络进行训练,得到首次训练好的特征编码器;
解码器训练单元,用于对预设的第二神经网络进行训练,得到首次训练好的特征解码器;
初始模型构建单元,用于基于所述首次训练好的特征编码器以及至少两个连续相连的所述首次训练好的特征解码器构建初始的文本识别模型;
模型训练单元,用于对所述初始的文本识别模型进行训练,得到训练好的文本识别模型;
所述解码器训练单元,具体用于:获取字符串样本;采用预设方式对所述字符串样本进行篡改处理,得到所述字符串样本对应的多个篡改字符串;其中,所述预设方式包括以下方式中的一种或多种:掩盖部分字符、删减部分字符、增添部分字符、调整字符顺序;为每个所述篡改字符串标注与其对应的字符串样本,并采用标注后的所述篡改字符串对预设的第二神经网络进行训练,得到首次训练好的特征解码器。
11.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1‑9中任一项所述的文本识别方法。
12.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1‑9中任一项所述的文本识别方法。
说明书 :
文本识别方法、装置、设备及介质
技术领域
背景技术
经研究发现,现有的文本识别技术的识别精度不高,容易出现字符错识别、漏识别等问题。
发明内容
特征编码器以及至少两个连续相连的特征解码器;通过所述特征编码器对所述待识别文本
图像进行特征提取,得到文本字符特征;通过所述至少两个连续相连的特征解码器对所述
文本字符特征进行多步迭代解析,得到文本识别结果。
本识别模型;其中,所述文本识别模型包括特征编码器以及至少两个连续相连的特征解码
器;特征提取模块,用于通过所述特征编码器对所述待识别文本图像进行特征提取,得到文
本字符特征;迭代解析模块,用于通过所述至少两个连续相连的特征解码器对所述文本字
符特征进行多步迭代解析,得到文本识别结果。
本识别方法。
征解码器;然后通过特征编码器对待识别文本图像进行特征提取,得到文本字符特征,以及
通过至少两个连续相连的特征解码器对文本字符特征进行多步迭代解析,得到文本识别结
果。上述方式可以对文本字符特征进行充分解析,能够改善相关技术中存在的字符漏识别、
错识别等问题,可有效提升文本识别精度及可靠性。
附图说明
言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的
是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
开的范围在此方面不受限制。
示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关
定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同
的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或
者相互依存关系。
以相互组合。
文本识别精度及可靠性,为便于理解,以下进行详细说明。
所示,该方法主要包括如下步骤S102 步骤S108:
~
少两个连续相连的特征解码器中的首个特征解码器相连,且特征编码器以及特征解码器均
可采用神经网络结构实现。
入给与其相连的下一个特征解码器,由下一个特征解码器再基于该解析结果进一步解析,
然后再将自身得到的解析结果输入给下一个特征解码器……依次类推,直至最后一个特征
解码器输出解析结果,并基于最后一个特征解码器的解析结果确定文本识别结果。通过多
个连续相连的特征解码器对文本字符特征进行多步迭代解析的方式,可以对文本字符特征
进行充分有效地解析,能够改善相关技术中存在的字符漏识别、错识别等问题,可有效提升
文本识别精度。
2:
本字符特征;其余特征解码器输入的目标特征为前一个特征解码器的输出特征向量。示例
性地,输出特征向量具体可以为字词向量,具体而言,是每个字词对应的字词向量。
然后将得到的所有字词进行去重处理,得到不包含重复字词的词典。在一些实施方式中,可
以从网络上爬取大量文本字符串,以便于得到的词典能够尽可能多的包含各种字词,应用
范围更广;在另一些实施方式中,可以从用于训练文本识别模型的文本图像样本中提取出
字符串进行分词,以保证文本识别模型能够将文本图像样本中的字词都识别出来。词典可
以指示出特征向量(字词向量)与字词之间的映射关系,可以在得到最后一个特征解码器的
输出特征向量后,基于该映射关系找到原字词,从而将字词组合得到文本识别结果。
型的结构示意图,示意出了特征编码器以及两个连续相连的特征解码器,其中,特征编码器
的输入为待识别文本图像,输出为文本字符特征;第一个特征解码器的输入即为该文本字
符特征,第一个特征解码器的输出为第一字词向量,第二特征解码器的输入为第一特征解
码器输出的第一字词向量,第二特征解码器的输出为第二字词向量,然后第二字词向量经
过词典解码,得到文本识别结果,该文本识别结果即为待识别文本图像中所包含的文本字
符串。发明人经研究发现,当特征解码器为两个时就可以达到较高的文本识别精度,而且结
构便于实现,可以较好地应用于各种文本识别场合,当然,如果特征解码器为两个以上时,
会进一步提升文本识别精度以及可靠性,具体可以根据实际情况灵活设置特征解码器的数
量,在此不进行限制。
在此不限制该网络结构。
在此不限制该网络结构。
器和/或特征解码器进一步处理,诸如,对特征编码器和/或特征解码器的参数进一步调整,
以进一步优化特征编码器和/或特征解码器的性能,然后再采用优化后的特征编码器和/或
特征解码器构建文本识别模型。
解码器组合在一起构成文本识别模型后,可以对文本识别模型进行微调训练,适当调整文
本识别模型的参数即可达到预期的文本识别效果,而且,各自预先训练好的特征编码器以
及特征解码器结合在一起共同训练后,可以更好地相互配合,进一步提升文本识别精度和
可靠性。
第一文本图像样本的数量可以为多个。可以基于第一文本图像样本中包含的文本字符对第
一文本图像样本进行标注,标注的文本字符信息也可以理解为第一文本图像样本携带的标
签,主要用于对第一神经网络进行有监督训练。在实际应用中,可以首先获取原始文本图像
样本,原始文本图像样本中通常都包含有背景信息和文字信息,不同的原始文本图像样本
的文本字符不同,但是背景却可能相同也可能不同,较为杂乱,为了不使文本图像样本的背
景信息对特征编码器对文本字符进行特征提取的过程造成干扰,本公开实施例可以从原始
文本图像样本中提取出文本字符,然后基于提取的文本字符构建背景单一的第一文本图像
样本。也即,第一文本图像样本与相应的原始文本图像样本上的文字内容相同,但是第一文
本图像样本不再携带有原始文本图像样本上的背景信息,所有第一文本图像样本的图像背
景均可统一为诸如白色等单一色,利用图像背景为单一色的第一文本图像样本进行网络训
练,有助于使特征编码器能够更多的关注待识别文本图像的文字内容信息,尽量忽略待识
别文本图像上的背景信息,从而更为有效地提取文本字符特征。
失函数收敛时确定训练结束。
(Visual Geometry Group,超分辨率测试序列)模型,当然也可以是其它特征提取模型,在
此不进行限制。在一些实施方式中,第一神经网络可以为生成式网络或者自编码网络,也
即,给其输入的是文本图像,其输出的也是文本图像;具体实现时,第一神经网络包括第一
编码器和第一解码器,第一编码器可用于对第一文本图像样本进行特征提取,然后将提取
出的文本字符特征输入给第一解码器,由第一解码器对文本字符特征进行解码,以尽量还
原第一文本图像样本,并输出解码后的文本图像。此时,在对第一神经网络进行首次训练之
后,可以直接采用首次训练后的第一神经网络中的第一编码器作为首次训练好的特征编码
器。
~
第一文本图像样本之间的差异确定。在一些实施方式中,第一损失函数值可以为L1损失函
数值。
本提取的第二特征。具体实施时,第一特征和第二特征可以是特征提取网络中相同特征映
射层针对输出文本图像以及第一文本图像样本分别提取得到的特征。
感受野损失函数值。
值的加权值作为总损失函数值,当总损失函数值收敛时确定第一神经网络模型训练结束,
基于训练结束时的第一神经网络模型得到首次训练好的特征编码器,诸如,将第一神经网
络模型中的编码器作为本公开实施例要获取的首次训练好的特征编码器。
用首次训练好的VAE模型的编码器。VAE模型是一种重要的生成式模型,可将输入内容通过
编码器进行编码,然后将编码结果输入给解码器,解码器针对编码结果进行解码,以还原输
入内容。诸如,将图像输入给VAE模型,VAE模型可输出与输入图像极为相近的还原图像,VAE
模型的输出图像与输入图像越接近,说明VAE模型的编码器提取图像特征的能力越强,能够
有效的实现图像特征提取。其中,VAE模型的编码器可以将输入数据(诸如输入的文本图像)
进行编码,得到的编码结果可以是某种分布的参数,也可以是特征图,诸如在本公开实施例
中,VAE模型的编码器可以将输入的文本图像进行图像特征提取,得到特征图,该特征图可
以理解为文本字符特征的表现形式。相比于其它的生成式模型,VAE模型的训练更稳定,而
且速度更快。VAE模型可参照相关技术实现,在此不进行限制,在一种具体的实施示例中,
VAE模型包括一个编码器和一个解码器,该编码器包括8个卷积层,解码器包括8个反卷积
层。当然,以上仅为一种示例,不应当被视为限制,实际应用中还可以根据需求而灵活设置
卷积层和反卷积层的数量。
先将第一文本图像样本输入给VAE模型,得到VAE模型的输出文本图像以及L1损失函数值
(前述第一损失函数值);然后将输出文本图像以及第一文本图像样本分别输入给预先训练
好的VGG模型,得到VGG模型针对输出文本图像提取的第一特征以及针对第一文本图像样本
提取的第二特征,基于第一特征和第二特征可得到感受野损失函数值,然后可基于L1损失
函数值以及感受野损失函数值对VAE模型进行训练,诸如计算L1损失函数值以及感2受野损
失函数值的加权值,将加权值作为总损失函数值,在总损失函数值收敛时确定训练结束,然
后选取训练结束时的VAE模型中的编码器作为首次训练得到的特征编码器。
调整特征编码器的参数,以提升特征编码器的特征提取性能。
提取出的字符串作为获取到的字符串样本。在另一些实施方式中,可以直接获取网络上公
开共享的字符串训练集。在另一些实施方式中,可以从网络上爬取大量小说的文字内容信
息,然后将小说中的每个句子作为一个字符串样本。本公开实施例对字符串样本的获取方
式在此不进行限制。
增添部分字符、调整字符顺序。
符串样本的长度保持不变,也即字符数量不变。而删减部分字符的方式可以是:按照一定比
例随机将字符串样本中的部分文本字符进行删减,该方式会缩短字符串样本的长度;增添
部分字符的方式可以是:按照一定比例随机在字符串样本中额外插入部分文本字符,该方
式会增加字符串样本的长度;调整字符顺序的方式可以是:随机调整字符串样本中部分字
符的顺序,也即改变部分字符在字符串样本中的位置。
部分字符的方式对一个字符串进行篡改处理时,通过随机改变字符串中的字符掩盖位置
和/或字符掩盖数量,就可以得到多个掩盖后的篡改字符串。
预设损失函数,在预设的该损失函数收敛时,确定训练结束,可以将训练结束时的第二神经
网络作为首次训练好的特征解码器。在一种具体的实施示例中,该损失函数可以为交叉熵
损失函数。
(也即,篡改之前的字符串样本),采用标注后的篡改字符串对预设的第二神经网络进行有
监督训练,得到首次训练好的特征解码器。通过这种方式进行训练所得的特征解码器,具有
更强的鲁棒性以及解析能力,诸如,字符串样本“你是谁”按照上述方式进行篡改,得到多个
篡改字符串:“你是”(随机删除了“谁”)、“你是谁呀”(额外增添了“呀”)、“是你谁”(“你”和
“是”的位置互换),通过上述篡改字符串对特征编码器进行训练后,该特征解码器不仅对字
符串“你是谁”进行解码还原,可输出“你是谁”,而且对字符串“你是”进行解码还原,还可以
输出“你是谁”,以及对字符串“你是谁呀”、“是你谁”等进行解码还原,都可以输出“你是
谁”。上述训练方式所得的特征解码器对于诸如漏字符、多字符、字符顺序错误等多种情况
都可以解析得到准确结果,采用多个上述特征解码器对文本字符特征进行多步迭代解析,
可以充分有效地提升特征解析能力,得到准确的文本识别结果,有助于进一步保障文本识
别精度和可靠性。
一,每个基础模块一主要包括多头自注意力层、跳跃连接、层归一化和前馈神经网络等网络
层,解码器包括多个基础模块二,基础模块二与基础模块一的不同之处在于:基础模块二包
括两层多头自注意力层,在一种具体的实施示例中,Transformer模型包括6个基础模块一
和6个基础模块二,此外,还可以根据实际需求灵活设置基础模块一和基础模块二的数量,
在此不进行限制。Transformer模型的具体工作原理可参照相关技术实现,在此不再赘述,
另外,在将Transformer模型应用在本公开实施例提供的文本识别场景中,上述基础模块二
中的多头自注意力层无需添加mask掩膜,原因在于Transformer模型的输出可以是一次性
直接输出,不用再看上下文(字符串中本身携带有上下文信息),也即,输出的是整个字符
串,而非是单独的字词。而在诸如机器翻译任务等相关场景中使用的Transformer模型需要
添加mask掩膜的原因是:虽然输入的是字符串,但解码器每次解码的是一个字词,同时前面
解码出来的词会是后面解码的输入,也即,对字符串后面的字词进行解码时会参考前面的
字词,但不参考之后的字词,所以需要将之后的字词进行mask掩膜。诸如,在机器翻译任务
中,Transformer模型需要将“你是谁”翻译为“
起止符,编码器会将“你是谁”一次编码,但是解码器却是每次解码一个词,且解码器在解码
前面的词(比如“are”)不能看到后面的词(比如“you”),只能看到再之前解码出来的词(比
如who),此时就需要借助掩膜把“you”挡住。
Transformer模型作为本公开实施例中的特征解码器,借助Transformer模型达到较好的文
字解析效果。
次训练好的特征编码器与至少两个连续相连的首次训练好的特征解码器构成初始的文本
识别模型。
靠性,上述步骤c,可参照如下步骤c1至c3实现:
基于第二文本图像样本中包含的文本字符对第二文本图像样本进行标注,标注的文本字符
信息也可以理解为第二文本图像样本携带的标签,主要用于对首次训练好的特征编码器再
次进行有监督训练。在一些实施方式中,上述第二文本图像样本可以是与首次训练特征编
码器时采用的第一文本图像样本一一对应,具体而言,第二文本图像样本所包含的文本字
符内容和第一文本图像样本所包含的文本字符内容相同,只是第二文本图像样本仍旧携带
有背景信息,图像背景可能并非是单一色,也即,第二文本图像样本可以为背景未处理的原
始文本图像,而第一文本图像样本是基于该原始文本图像中的文本字符内容重新构建的图
像背景单一的文本图像样本。
参数进一步微调优化即可。诸如,采用其它神经网络与特征编码器进行联合训练,然后特征
编码器与其它神经网络的参数按照一定比例进行交替迭代更新,诸如,假设其它神经网络
的参数更新1000次,特征编码器的参数更新1次,以此来实现特征编码器的参数微调。
括CNN(Convolutional Neural Network)卷积神经网络层和RNN(Recurrent Neural
Network)循环神经网络层,且CNN网络层包括首次训练好的特征编码器;具体实现时,可以
直接将首次训练好的特征编码器作为CRNN模型中的CNN网络层,还可以选用两层双向LSTM
(Long Short‑Term Memory,长短期记忆)网络作为RNN网络层;然后利用第二文本图像样本
以及CTC(Connectionist Temporal Classification,连接时序分类)损失函数对CRNN模型
进行训练,且在训练过程中,RNN网络层的参数更新次数与CNN网络层的参数更新次数呈预
设比例,比例大于预设阈值;该阈值可自行设置,诸如可以为100、500等。示例性地,RNN网络
层的参数更新1000次,而CNN网络层的参数更新1次。在CTC损失函数收敛时结束训练,将训
练后的CRNN模型中的特征编码器作为参数微调后的特征编码器。
络层用于对CNN网络层提取的特征进行序列预测,翻译层用于将RNN网络层输出的序列翻译
为字符串。通过将首次训练好的特征编码器作为CRNN模型中的CNN网络层,利用整个CRNN模
型进行文本识别训练,训练结束后的特征编码器的参数得以进一步优化。由于特征编码器
在之前已经训练过,因此特征编码器在作为CRNN模型中的一部分进行训练时,可以减少特
征编码器的参数更新次数,对特征编码器的参数进行微调优化即可。
训练好的特征解码器进一步优化参数,采用参数微调后的特征编码器以及至少两个连续相
连的参数优化后的特征解码器构成初始的文本识别模型。
像样本中包含的文本字符对第三文本图像样本进行标注,标注的文本字符信息也可以理解
为第三文本图像样本携带的标签,主要用于对初始的文本识别模型进行有监督训练。在一
些实施方式中,第三文本图像样本可直接选用前述第二文本图像样本(也即用于对首次训
练好的特征编码器的网络参数进行微调的图像样本)实现,具体实施时,可以从前述多个第
二文本图像样本中抽取少量的文本图像样本作为第三文本图像样本,从而采用第三文本图
像样本对文本识别模型的参数进行微调。
特征提取能力以及特征解析能力,结合在一起构成初始的文本识别模型后,通过第三文本
图像样本对其进一步训练,可进一步提升文本识别模型的文本识别精度和可靠性。
包括如下步骤S402 步骤S416:
~
练样本集中的文本图像样本相当于前述第二文本图像样本。此外,还可以将文本图像样本
标注的文本字符信息进行分词,得到词典。该词典可用于后续的文本识别过程。
为字符串样本。
本集中的文本图像样本一一对应,且第三训练样本集中的文本图像样本也都标注有文本字
符信息。具体而言,第三训练样本集中的文本图像样本与第一训练样本集中的文本图像样
本所包含的文字内容相同,但是背景不同,第一训练样本集中的文本图像样本中携带有背
景信息,背景较为杂乱,而第三训练样本集中的文本图像样本中的背景颜色统一(诸如均为
白色)。另外,第三训练样本集中的文本图像样本相当于前述第一文本图像样本。
器。VAE模型包括一个编码器和一个解码器,该编码器包括8个卷积层,该解码器包括8个反
卷积层。VAE模型的具体训练方式可参照前述相关内容,在此不再赘述。训练好的图像特征
提取器具有较强的特征提取能力,而且可以更多的关注文本图像中的文本字符信息,并尽
可能忽略文本图像中的背景信息。
进行训练,以优化VAE模型的参数。在训练过程中, RNN网络层的参数更新次数与CNN网络层
的参数更新次数的比值大于预设阈值,该预设阈值诸如可以为100、1000等预设值,在此不
进行限定;当CTC损失函数收敛时,训练结束。该步骤的目的在于进一步优化VAE模型的参
数,后续直接采用参数优化后的VAE模型即可。
识别模型。
始的文本识别模型进行训练,对模型参数进行微调的过程。
以充分有效地提取文本字符特征,特征解码器选用能够较好应用于seq2seq 任务(一个序
列映射到另一个序列的任务)的Transformer模型,而且采用篡改字符串训练所得的特征解
码器能够对多/漏字符等问题字符串也可以解析得到准确字符串,文本识别模型通过多个
依次相连的特征解码器还可以进行多次迭代解析,具有更强的特征解析能力。
集成在电子设备中。如图5所示,文本识别装置500包括:
向量;其中,首个所述特征解码器输入的目标特征为所述文本字符特征;其余所述特征解码
器输入的目标特征为前一个所述特征解码器的输出特征向量;基于预先构建的词典,将最
后一个所述图像特征解码器的输出特征向量转换为文本识别结果。
色;通过所述第一文本图像样本以及预先训练好的特征提取网络对预设的第一神经网络进
行训练,得到首次训练好的特征编码器。
值;将所述输出文本图像以及所述第一文本图像样本分别输入给预先训练好的特征提取网
络,得到所述特征提取网络针对所述输出文本图像提取的第一特征以及针对所述第一文本
图像样本提取的第二特征;基于所述第一特征和所述第二特征,得到第二损失函数值;基于
所述第一损失函数值和所述第二损失函数值,对所述第一神经网络模型进行训练,得到首
次训练好的特征编码器。
好的特征编码器的网络参数进行微调;采用参数微调后的所述特征编码器以及至少两个连
续相连的所述首次训练好的特征解码器构建初始的文本识别模型。
括所述首次训练好的特征编码器;利用所述第二文本图像样本以及CTC损失函数对所述
CRNN模型进行训练,且在训练过程中,所述RNN网络层的参数更新次数与所述CNN网络层的
参数更新次数呈预设比例,所述比例大于预设阈值;在所述CTC损失函数收敛时结束训练,
将训练后的所述CRNN模型中的特征编码器作为参数微调后的所述特征编码器。
预设方式包括以下方式中的一种或多种:掩盖部分字符、删减部分字符、增添部分字符、调
整字符顺序;为每个所述篡改字符串标注与其对应的字符串样本,并采用标注后的所述篡
改字符串对预设的第二神经网络进行训练,得到首次训练好的特征解码器。
对所述初始的文本识别模型进行训练,直至所述交叉熵损失函数收敛时得到训练好的文本
识别模型。
程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公
开实施例的方法。
实施例的方法。
Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程
序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软
件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备
或服务器上执行。
本识别方法。所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介
质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、
光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更
具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存
取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式
紧凑盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀
片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装
置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所
示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述
的和/或者要求的本公开的实现。
来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数
据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也
连接至总线604。
的设备,输入单元606可以接收输入的数字或字符信息,以及产生与电子设备的用户设置
和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备,并
且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元
604可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机
网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、
网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设
备、蜂窝通信设备和/或类似物。
智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及
任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。
例如,在一些实施例中,文本识别方法可被实现为计算机软件程序,其被有形地包含于机器
可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM
602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中,计算单元
601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本识别方法。
理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM
或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。
器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用
任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网
(LAN)、广域网(WAN)和互联网。
算机程序来产生客户端和服务器的关系。
间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在
涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些
要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设
备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除
在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开
将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一
致的最宽的范围。