模型训练方法、文本识别方法、装置、设备和介质转让专利
申请号 : CN202111464610.3
文献号 : CN113887535B
文献日 : 2022-04-12
发明人 : 秦勇
申请人 : 北京世纪好未来教育科技有限公司
摘要 :
权利要求 :
1.一种文本识别模型训练方法,其特征在于,包括:利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支,得到训练后的第一目标分支,其中,所述第一目标分支为所述第一候选分支训练后对应的分支,所述第一训练样本包括第一文本图像以及第一文本图像对应的文本字符,所述第二候选分支采用循环神经网络;
基于所述训练后的第一目标分支和第三候选分支构建第二候选模型,并利用第二训练样本训练所述第二候选模型得到所述文本识别模型,所述第二训练样本包括第二文本图像以及第二文本图像对应的文本字符,所述第三候选分支采用图神经网络;
其中,所述利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支,得到训练后的第一目标分支,包括:将所述第一训练样本中的第一文本图像输入所述第一候选模型,得到第一预测结果;
基于第一预设损失函数,根据所述第一预测结果和所述第一训练样本中的与所述第一文本图像对应的文本字符,对所述第一候选模型中的第一候选分支和第二候选分支进行训练,获得第一候选分支经训练后对应的第一目标分支;
其中,所述利用第二训练样本训练所述第二候选模型得到所述文本识别模型,包括:将所述第二训练样本中的第二文本图像输入第二候选模型,得到第二预测结果;
基于第二预设损失函数,根据所述第二预测结果和所述第二训练样本中的与所述第二文本图像对应的文本字符,对所述第二候选模型中的第三候选分支进行训练,获得训练后的第三目标分支;
基于所述第一目标分支和所述第三目标分支,生成所述文本识别模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一训练样本中的第一文本图像输入所述第一候选模型,得到第一预测结果,包括:通过所述第一候选模型中的第一候选分支对所述第一文本图像进行第一特征提取,得到第一文本图像对应的第一图像特征,其中,所述第一图像特征为经过残差网络提取的特征映射图;
通过所述第一候选模型的第二候选分支对所述第一图像特征进行第二特征提取,得到第二图像特征,并对所述第二图像特征进行解码转录,得到第一预测文本字符,其中,所述第二图像特征为经过双向长短期记忆神经网络提取的特征映射图。
3.根据权利要求2所述的方法,其特征在于,所述第一候选分支包括残差网络,所述残差网络包括依次串联的N个残差块,其中,N为大于1的正整数;
所述通过所述第一候选模型中的第一候选分支对所述第一文本图像进行第一特征提取,得到第一文本图像对应的第一图像特征,包括:拼接前N‑1个残差块输出的特征映射,获得拼接特征映射;
将所述拼接特征映射与第N个残差块提取的特征映射进行逐点相加,得到所述第一图像特征。
4.根据权利要求2所述的方法,其特征在于,所述第二候选分支包括双向长短期记忆网络、自注意力层和门控循环网络;
所述通过所述第一候选模型的第二候选分支对所述第一图像特征进行第二特征提取,得到第二图像特征,并对所述第二图像特征进行解码转录,得到第一预测文本字符,包括:通过所述第二候选分支的双向长短期记忆网络对所述第一图像特征进行第二特征提取,得到与所述第一图像特征对应的第二图像特征;
通过所述第二候选分支的自注意力层和门控循环网络对所述第二图像特征进行解码转录,得到第一预测文本字符。
5.根据权利要求1所述的方法,其特征在于,所述基于第一预设损失函数,根据所述第一预测结果和所述第一训练样本中的与所述第一文本图像对应的文本字符,对所述第一候选模型中的第一候选分支和第二候选分支进行训练,获得第一候选分支经训练后对应的第一目标分支,包括:
基于第一预设损失函数,根据所述第一预测结果和所述第一训练样本中与所述第一文本图像对应的文本字符,确定第一损失值;
根据所述第一损失值调整所述第一候选模型中的第一候选分支的参数和所述第二候选分支的参数,直至第一候选模型收敛,获得所述第一目标分支。
6.根据权利要求1所述的方法,其特征在于,所述将所述第二训练样本中的第二文本图像输入第二候选模型,得到第二预测结果,包括:通过所述第二候选模型的第一目标分支对所述第二文本图像进行第三特征提取,得到与所述第二文本图像对应的第三图像特征,其中,所述第三图像特征为经过残差网络提取的特征映射图;
通过所述第二候选模型的第三候选分支对所述第三图像特征进行第四特征提取,得到第四图像特征,并对所述第四图像特征进行解码转录,得到第二预测文本字符,其中,所述第四图像特征为经过图神经网络提取的特征映射图。
7.根据权利要求6所述的方法,其特征在于,所述第三候选分支还包括字符转录模块;
所述通过所述第二候选模型的第三候选分支对所述第三图像特征进行第四特征提取,得到第四图像特征,并对所述第四图像特征进行解码转录,得到第二预测文本字符,包括:通过所述第三候选分支的图神经网络模块对所述第三图像特征进行第四特征提取,得到与所述第三图像特征对应的第四图像特征;
通过所述第三候选分支的字符转录模块对所述第四图像特征进行解码转录,得到第二预测文本字符。
8.根据权利要求7所述的方法,其特征在于,所述通过所述第三候选分支的图神经网络模块对所述第三图像特征进行第四特征提取,得到与所述第三图像特征对应的第四图像特征,包括:
利用所述图神经网络模块针对所述第三图像特征中的每个像素点,求取该像素点相对其它所有像素点的余弦特征相似度,得到相似度矩阵;
对所述相似度矩阵进行图卷积处理,得到第四图像特征。
9.根据权利要求1所述的方法,其特征在于,所述基于第二预设损失函数,根据所述第二预测结果和所述第二训练样本中的与所述第二文本图像对应的文本字符,对所述第二候选模型中的第三候选分支进行训练,获得训练后的第三目标分支,包括:基于第二预设损失函数,根据所述第二预测结果和所述第二训练样本中的与所述第二文本图像对应的文本字符,确定第二损失值;
根据所述第二损失值调整所述第二候选模型中的第三候选分支的参数,直至第二候选模型收敛,获得训练后的第三目标分支。
10.根据权利要求1所述的方法,其特征在于,利用第二训练样本训练所述第二候选模型时保持所述第一目标分支的参数不变。
11.一种文本识别方法,其特征在于,所述方法包括:获取待识别的文本图像;
将所述待识别的文本图像输入文本识别模型中,并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息;
其中,所述文本识别模型基于如权利要求1至10任一项所述的方法训练得到。
12.一种文本识别模型训练装置,其特征在于,包括:第一目标分支确定模块,用于利用第一训练样本训练第一候选模型中的第一候选分支和第二候选分支,得到训练后的第一目标分支,其中,所述第一目标分支为所述第一候选分支训练后对应的分支,所述第一训练样本包括第一文本图像以及第一文本图像对应的文本字符,所述第二候选分支采用循环神经网络;
文本识别模型 确定模块,用于基于所述训练后的第一目标分支和第三候选分支构建第二候选模型,并利用第二训练样本训练所述第二候选模型得到所述文本识别模型,所述第二训练样本包括第二文本图像以及第二文本图像对应的文本字符,所述第三候选分支采用图神经网络;
其中,第一目标分支确定模块包括:第一预测结果获取单元,用于将第一训练样本中的第一文本图像输入第一候选模型,得到第一预测结果;
第一目标分支确定单元,用于基于第一预设损失函数,根据第一预测结果和第一训练样本中的与第一文本图像对应的文本字符,对第一候选模型中的第一候选分支和第二候选分支进行训练,获得第一候选分支经训练后对应的第一目标分支;
其中,文本识别模型确定模块包括:第二预测结果获取单元,用于将第二训练样本中的第二文本图像输入第二候选模型,得到第二预测结果;
第三目标分支获取单元,用于基于第二预设损失函数,根据第二预测结果和第二训练样本中的与第二文本图像对应的文本字符,对第二候选模型中的第三候选分支进行训练,获得训练后的第三目标分支;
文本识别模型生成单元,用于基于第一目标分支和第三目标分支,生成文本识别模型。
13.一种文本识别装置,其特征在于,包括:文本图像获取模块,用于获取待识别的文本图像;
文本信息获取模块,用于将所述待识别的文本图像输入文本识别模型中,并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息;其中,所述文本识别模型基于如权利要求1至10任一项所述的方法训练得到。
14.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1‑10中任一项所述的模型训练方法,或者执行权利要求11中所述的文本识别方法。
15.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1‑10中任一项所述的模型训练方法,或者执行权利要求
11中所述的文本识别方法。
说明书 :
模型训练方法、文本识别方法、装置、设备和介质
技术领域
背景技术
相较于通用第二识别而言,文本具有多方向、不规则形状、极端长宽比、字体、颜色、背景多
样等特点,因此对文本的精准定位既十分重要又具有挑战性。
缺点是需要字符级别的标注,即每个字符在输入图像上的位置、以及信息都需要标注,需要
耗费大量的人工成本;另一类方案是基于整体分析的策略,即序列到序列的方法,先将图像
编码,然后进行序列解码直接得出整个字符串,该方法的优点是标注简单,只需要转录字符
串即可,缺点是存在识别结果多识别字符或漏识别字符的情况。
发明内容
字符,所述第二候选分支采用循环神经网络;
图像以及第二文本图像对应的文本字符,所述第三候选分支采用图神经网络。
第一训练样本包括第一文本图像以及第一文本图像对应的文本字符,所述第二候选分支采
用循环神经网络;
述第二训练样本包括第二文本图像以及第二文本图像对应的文本字符,所述第三候选分支
采用图神经网络。
别模型基于如第一方面任一项所述的方法训练得到。
法。
执行第二方面中所述的识别方法。
一目标分支,第二候选分支采用循环神经网络;基于训练后的第一目标分支和第三候选分
支构建第二候选模型,并利用第二训练样本训练第二候选模型得到文本识别模型,第二候
选分支采用循环神经网络。由于循环神经网络对具有序列特性的数据,能挖掘数据中的时
序信息以及语义信息,因此在文本识别上其识别精度较好,但也因为其可以解决序列问题,
即当前输出不仅由当前时刻输入层决定,还由上一输出决定,是一个串行处理过程,因此在
处理速度上不占优势,而图神经网络在处理速度上更有利,因此将第一候选分支与循环神
经网络结合进行训练以调整第一候选分支的参数获得的第一目标分支,将有较好的识别精
度,再基于第一目标分支和采用图神经网络的第三候选分支构建第二候选模型来进行训练
得到的文本识别模型,既能保证识别精度,也能保证识别速度。
附图说明
言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
以相互组合。
例,而不是全部的实施例。
置于电子设备中。可实现本申请任意实施例所述的文本识别模型训练方法。如图1所示,该
方法具体包括如下:
练后对应的分支,第二目标分支为第二候选分支训练后对应的分支。
的文本字符。
三候选分支构成第二候选模型后,第二候选模型进行训练的过程中,第二预设损失函数负
责更新第三候选分支的参数梯度。
环神经网络;基于训练后的第一目标分支和第三候选分支构建第二候选模型,并利用第二
训练样本训练第二候选模型得到文本识别模型,第二候选分支采用循环神经网络。由于循
环神经网络对具有序列特性的数据,能挖掘数据中的时序信息以及语义信息,因此在文本
识别上其识别精度较好,但也因为其可以解决序列问题,即当前输出不仅由当前时刻输入
层决定,还由上一输出决定,是一个串行处理过程,因此在处理速度上不占优势,而图神经
网络在处理速度上更有利,因此将第一候选分支与循环神经网络结合进行训练以调整第一
候选分支的参数获得的第一目标分支,将有较好的识别精度,再基于第一目标分支和采用
图神经网络的第三候选分支构建第二候选模型来进行训练得到的文本识别模型,既能保证
识别精度,也能保证识别速度。
网络(Gated Recurrent Unit networks,GRU)。
第一候选分支经训练后对应的第一目标分支。
经训练后对应的第一目标分支。
的特征映射通道数为X的特征映射,第二残差块输出的特征映射通道数为X的特征映射,第
三残差块输出的特征映射通道数为2X的特征映射,以及第四残差块输出的特征映射通道数
为4X的特征映射。
射,第三残差块输出特征映射通道数为256的特征映射,第四残差块输出特征映射通道数为
512的特征映射。
像特征做一次特征变换,然后将其输出重新组成(H*W)*512通道的第二图像特征。
特征进行解码转录,得到第一预测文本字符。
本图像对应的文本字符。
损失函数计算第一预测结果和第一训练样本中与第一文本图像对应的文本字符之间的第
一损失值。
结果与第一文本图像对应的文本字符之间的相似性,当第一预测结果与第一文本图像对应
的文本字符之间的相似性满足预设阈值时,则表明第一候选模型收敛,此时第一候选模型
收敛时对应的第一候选分支为第一目标分支。
标分支。
分支和第二候选分支得到第一目标分支后,将第一候选模型收敛时得到的第一目标分支与
第三候选分支构建第二候选模型,对第二候选模型中的第三候选分支进行训练,获得训练
后的第三目标分支。
标分支。
此处不再一一赘述。
行解码转录,得到第二预测文本字符。
征。
度值,最终得到一个(H*W)*(H*W)大小的相似度矩阵,然后将这个矩阵作为拉普拉斯矩阵,
进行两次图卷积操作,具体的图卷积操作公式为:h1=sigmoid(L*h0*w0),L指拉普拉斯矩
阵,h0指原始的第三图像特征,w0指权重参数,得到一组仍是512通道的特征映射,然后将其
拉平为(H*W)*512通道的特征映射,即第四图像特征。
本图像对应的文本字符。
损失函数计算第二预测结果和第二训练样本中与第二文本图像对应的文本字符之间的第
二损失值。
应的文本字符之间的相似性,当第二预测结果与第二文本图像对应的文本字符之间的相似
性满足预设阈值时,则表明第二候选模型收敛,此时第二候选模型收敛时对应的第一候选
分支为第三目标分支。
可实现本申请任意实施例所述的文本识别方法。如图8所示,该方法具体包括如下:
练得到。
以及第一文本图像对应的文本字符,第二候选分支采用循环神经网络;
练样本包括第二文本图像以及第二文本图像对应的文本字符,第三候选分支采用图神经网
络。
候选分支进行训练,获得第一候选分支经训练后对应的第一目标分支。
经过残差网络提取的特征映射图;
测文本字符,其中,第二图像特征为经过双向长短期记忆神经网络提取的特征映射图。
练,获得训练后的第三目标分支;
残差网络提取的特征映射图;
测文本字符,其中,第四图像特征为经过图神经网络提取的特征映射图。
程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公
开实施例的方法。
实施例的方法。
字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀
片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装
置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所
示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述
的和/或者要求的本公开的实现。
来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数
据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也
连接至总线604。
的设备,输入单元606可以接收输入的数字或字符信息,以及产生与电子设备的用户设置
和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备,并
且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元
604可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机
网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、
网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设
备、蜂窝通信设备和/或类似物。
智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及
任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。
例如,在一些实施例中,文本识别模型训练方法或者文本识别方法可被实现为计算机软件
程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的
部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。
在一些实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置
为执行方法文本识别模型训练方法或者文本识别方法。
理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM
或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。
器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用
任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网
(LAN)、广域网(WAN)和互联网。
算机程序来产生客户端和服务器的关系。