文本识别模型训练方法、文本识别方法、装置及电子设备转让专利
申请号 : CN202111560929.6
文献号 : CN113963359B
文献日 : 2022-03-18
发明人 : 李盼盼 , 秦勇
申请人 : 北京易真学思教育科技有限公司
摘要 :
权利要求 :
1.一种文本识别模型训练方法,其特征在于,包括:获取多对第一文本图像,以及所述多对第一文本图像中每对第一文本图像所对应的文本相似度标签;
针对所述多对第一文本图像中的每一对第一文本图像,将所述一对第一文本图像分别输入初始对比学习网络中的第一初始特征提取网络和第二初始特征提取网络,以供所述第一初始特征提取网络输出第一特征图像,所述第二初始特征提取网络输出第二特征图像,并将所述第一特征图像和所述第二特征图像输入所述初始对比学习网络中的多层全连接层,所述第二初始特征提取网络与所述第一初始特征提取网络具有相同的模型参数;
获取所述多层全连接层输出的对比结果表征标签,其中,所述对比结果表征标签用于表征所述一对第一文本图像的文本相似程度预测结果;
根据所述文本相似度标签和所述对比结果表征标签,调整所述第一初始特征提取网络、所述第二初始特征提取网络和所述多层全连接层的模型参数,目标特征提取网络为经过模型参数调整之后的所述第一初始特征提取网络或所述第二初始特征提取网络;
获取多张第二文本图像,以及所述多张第二文本图像中每张第二文本图像所对应的字符序列标注信息;
通过所述多张第二文本图像,以及所述多张第二文本图像中每张第二文本图像所对应的字符序列标注信息,对包括所述目标特征提取网络和目标编解码网络的初始文本识别模型进行训练,获得目标文本识别模型。
2.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述获取多对第一文本图像,以及所述多对第一文本图像中每对第一文本图像所对应的文本相似度标签之前,所述文本识别模型训练方法还包括:
获取多张基础文本图像;
对所述多张基础文本图像中的至少部分基础文本图像进行局部遮挡处理,获得多张目标文本图像;
将所述多张目标文本图像中的每张目标文本图像与对应的基础文本图像组成一对文本相似的第一文本图像,以获得多对文本相似的第一文本图像;
为所述多对文本相似的第一文本图像中的每对第一文本图像添加对应的文本相似度标签。
3.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述通过所述多张第二文本图像,以及所述多张第二文本图像中每张第二文本图像所对应的字符序列标注信息,对包括所述目标特征提取网络和目标编解码网络的初始文本识别模型进行训练,获得目标文本识别模型之前,所述文本识别模型训练方法还包括:获取多个训练用字符序列;
根据所述多个训练用字符序列,获得多个序列词向量;
通过所述多个序列词向量,对初始编解码网络进行训练,获得所述目标编解码网络。
4.根据权利要求3所述的文本识别模型训练方法,其特征在于,所述通过所述多个序列词向量,对初始编解码网络进行训练,获得所述目标编解码网络之前,所述文本识别模型训练方法还包括:
将所述初始编解码网络中的初始编码器的输出模式配置为仅输出一个特征向量,和/或将所述初始编解码网络中的初始解码器中的自注意力子层配置为不添加掩膜。
5.根据权利要求3或4所述的文本识别模型训练方法,其特征在于,所述通过所述多个序列词向量,对初始编解码网络进行训练,获得所述目标编解码网络,包括:针对所述多个序列词向量中的每个序列词向量,将所述序列词向量输入所述初始编解码网络中的初始编码器,以供所述初始编码器输出目标特征向量,并将所述目标特征向量输入所述初始编解码网络中的初始解码器;
获取所述初始解码器输出的具有固定长度的第一特征表示;
根据所述第一特征表示,以及所述第一特征表示所对应的序列词向量,调整所述初始编码器和所述初始解码器的模型参数,以对所述初始编解码网络进行训练。
6.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述目标编解码网络中包括目标编码器和目标解码器;
对所述初始文本识别模型进行训练的过程中,所述目标特征提取网络的学习率大于所述目标编码器的学习率,所述目标编码器的学习率大于所述目标解码器的学习率。
7.一种文本识别方法,其特征在于,包括:获取待识别图像,所述待识别图像中携带有待识别字符序列;
将所述待识别图像输入目标文本识别模型中的文本特征提取网络,以通过所述文本特征提取网络对所述待识别图像进行特征提取,获得第一图像特征矩阵,并将所述第一图像特征矩阵输入所述目标文本识别模型中的文本编解码网络,所述文本编解码网络根据所述第一图像特征矩阵,输出所述待识别图像的文本识别结果,其中,所述目标文本识别模型通过权利要求1 6中任意一项所述的文本识别模型训练方法获得。
~
8.一种文本识别模型训练装置,其特征在于,包括:第一训练数据获取模块,用于获取多对第一文本图像,以及所述多对第一文本图像中每对第一文本图像所对应的文本相似度标签;
第一训练模块,用于针对所述多对第一文本图像中的每一对第一文本图像,将所述一对第一文本图像分别输入初始对比学习网络中的第一初始特征提取网络和第二初始特征提取网络,以供所述第一初始特征提取网络输出第一特征图像,所述第二初始特征提取网络输出第二特征图像,并将所述第一特征图像和所述第二特征图像输入所述初始对比学习网络中的多层全连接层,所述第二初始特征提取网络与所述第一初始特征提取网络具有相同的模型参数;获取所述多层全连接层输出的对比结果表征标签,其中,所述对比结果表征标签用于表征所述一对第一文本图像的文本相似程度预测结果;根据所述文本相似度标签和所述对比结果表征标签,调整所述第一初始特征提取网络、所述第二初始特征提取网络和所述多层全连接层的模型参数,目标特征提取网络为经过模型参数调整之后的所述第一初始特征提取网络或所述第二初始特征提取网络;
第二训练数据获取模块,用于获取多张第二文本图像,以及所述多张第二文本图像中每张第二文本图像所对应的字符序列标注信息;
第二训练模块,用于通过所述多张第二文本图像,以及所述多张第二文本图像中每张第二文本图像所对应的字符序列标注信息,对包括所述目标特征提取网络和目标编解码网络的初始文本识别模型进行训练,获得目标文本识别模型。
9.一种文本识别装置,其特征在于,包括:图像获取模块,用于获取待识别图像,所述待识别图像中携带有待识别字符序列;
文本识别模块,用于将所述待识别图像输入目标文本识别模型中的文本特征提取网络,以通过所述文本特征提取网络对所述待识别图像进行特征提取,获得第一图像特征矩阵,并将所述第一图像特征矩阵输入所述目标文本识别模型中的文本编解码网络,所述文本编解码网络根据所述第一图像特征矩阵,输出所述待识别图像的文本识别结果,其中,所述目标文本识别模型通过权利要求8所述的文本识别模型训练装置获得。
10.一种电子设备,包括:
处理器;以及
存储器,所述存储器上存储有计算机程序;
其中,所述计算机程序包括指令,所述指令在由所述处理器执行时,使所述处理器执行权利要求1 6中任意一项所述的文本识别模型训练方法,或使所述处理器执行权利要求7所~
述的文本识别方法。
11.一种非瞬时计算机可读存储介质,其特征在于,存储有计算机指令,所述计算机指令用于使计算机执行权利要求1 6中任意一项所述的文本识别模型训练方法,或使所述计~
算机执行权利要求7所述的文本识别方法。
说明书 :
文本识别模型训练方法、文本识别方法、装置及电子设备
技术领域
背景技术
符序列到字符序列的方法,首先,对图像进行编码,然后,再进行字符序列的解码,而直接获
得整个字符序列。
发明内容
练,获得目标文本识别模型。
目标文本识别模型中的文本编解码网络,文本编解码网络根据第一图像特征矩阵,输出待
识别图像的文本识别结果,其中,目标文本识别模型通过本公开的第一方面所提供的文本
识别模型训练方法获得。
文本识别模型进行训练,获得目标文本识别模型。
一图像特征矩阵输入目标文本识别模型中的文本编解码网络,文本编解码网络根据第一图
像特征矩阵,输出待识别图像的文本识别结果,其中,目标文本识别模型通过本公开的第三
方面所提供的文本识别模型训练装置获得。
别方法。
练方法,或使计算机执行本公开的第二方面所提供的文本识别方法。
实现处理器执行本公开的第二方面所提供的文本识别方法。
提取网络,也即,目标特征提取网络是预先经过训练的,可靠性已经处于较高水平,而目标
特征提取网络又是包含于初始文本识别模型的,因此,能够有效提高后续初始文本识别模
型的训练有效性,那么,训练初始文本识别模型所获得的目标文本识别模型也就同样具有
较高的可靠性。
附图说明
具体实施方式
里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开,此外,本公
开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
本公开的范围在此方面不受限制。
“至少一个另外的实施例”,术语“一些实施例”表示“至少一些实施例”,其他术语的相关定
义将在下文描述中给出。此外,需要说明的是,本公开示例性实施例中提及的“第一”、“第
二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单
元所执行的功能的顺序或相互依存关系。
“一个或多个”。
中,样本字符序列可以是多种语言的字符序列,例如,中文字符序列、英文字符序列等,其
中,字符序列可以理解为包括至少一个字符的字符串,且对于中文,一个字符便是一个汉
字,对于英文,一个字符便是一个字母。
正样本对,则该对第一文本图像所对应的文本相似度标签可以为“1”,若一对第一文本图像
携带有不相似的样本字符序列,则该对第一文本图像属于一对不相似的第一文本图像,也
即,该对第一文本图像为一对负样本对,则该对第一文本图像所对应的文本相似度标签可
以为“0”。
签,以用于表征该对第一文本图像的文本相似程度预测结果。例如,该对第一文本图像的相
似程度超过预设相似度阈值,则对比结果表征标签为“1”,该对第一文本图像的相似程度未
超过预设相似度阈值,则对比结果表征标签为“0”。此后,根据该对第一文本图像的文本相
似度标签和对比结果表征标签,调整初始对比学习网络的模型参数,以对初始对比学习网
络进行训练,最终,获得包括目标特征提取网络的目标对比学习网络。
息即为该张第二文本图像携带的样本字符序列本身。
模型进行训练,获得目标文本识别模型。
第一文本图像,还可以与多对第一文本图像集合而成的多张第一文本图像部分相同,本公
开示例性实施例对此不作具体限制。
对该张第二文本图像进行特征提取,并输出词向量形式的第二图像特征矩阵,再将第二图
像特征矩阵输入目标编解码网络,以获取目标编解码网络输出的第二特征表示,用于表征
该张第二文本图像所对应的字符序列标注信息的识别结果,此后,根据该张第二文本图像
所对应的字符序列标注信息,以及该张第二文本图像所对应的字符序列标注信息的识别结
果,调整目标特征提取网络和目标编解码网络的模型参数,以实现对初始文本识别模型的
训练,最终,获得目标文本识别模型,其中,目标文本识别模型中的文本特征提取网络和文
本编解码网络。
目标编解码网络。
Classification。
初始网络模型是未预先经过训练的,因此,最终获得的目标文本识别模型可靠性较低,可能
存在预测结果出现多识别字符或漏识别字符的情况。
即,目标特征提取网络是预先经过训练的,可靠性已经处于较高水平,而目标特征提取网络
又是包含于初始文本识别模型的,因此,能够有效提高后续初始文本识别模型的训练有效
性,那么,训练初始文本识别模型所获得的目标文本识别模型也就同样具有较高的可靠性。
骤S240。
制作等方式,获取多张基础文本图像。
此不作具体限制。
图像便组成一对文本相似的第一文本图像,从而自动实现一对正样本对的制作。
第一初始特征提取网络输出第一特征图像,第二初始特征提取网络输出第二特征图像,并
将第一特征图像和第二特征图像输入初始对比学习网络中的多层全连接层,第二初始特征
提取网络与第一初始特征提取网络具有相同的模型参数。
(Convolutional Neural Networks,CNN)。基于此,应当理解的是,本公开示例性实施例中,
第一初始特征提取网络用于对输入的第一文本图像进行下采样,且输出可以是该张第一文
本图像1/32倍尺寸的第一特征图像。同样,本公开示例性实施例中,第二初始特征提取网络
可以是Resnet18,Resnet18包括四个Block块,四个Block块中的每个Block块又包括多个
CNN。基于此,应当理解的是,本公开示例性实施例中,第二初始特征提取网络用于对输入的
第二文本图像进行下采样,且输出可以是该张第二文本图像1/32倍尺寸的第二特征图像。
全连接层再对整合的特征矩阵进行空间变换,获得中间的特征矩阵,并继续输入再下一级
全连接层,以此类推,最终,通过末级全连接层输出对比结果表征标签,以用于表征输入的
一对第一文本图像的文本相似程度预测结果。基于此,应当理解的是,本公开示例性实施例
中,末级全连接层可以仅包括一个神经元节点。
合变换,获得整合的特征矩阵,并输入末级全连接层,再通过末级全连接层输出对比结果表
征标签,其可以是用于表征一对第一文本图像的文本相似程度预测结果,例如,一对第一文
本图像的相似程度超过预设相似度阈值,则对比结果表征标签为“1”,一对第一文本图像的
相似程度未超过预设相似度阈值,则对比结果表征标签为“0”。
数调整之后的第一初始特征提取网络或第二初始特征提取网络。
文本相似度标签和对比结果表征标签,调整初始对比学习网络中的第一初始特征提取网
络、第二初始特征提取网络和多层全连接层的模型参数的过程,而目标对比学习网络中的
目标特征提取网络即为完成训练之后的第一初始特征提取网络或第二初始特征提取网络。
习网络的训练有效性。
练效率。
编码器,初始解码器可以包括六个基础解码器。但应当理解的是,本公开示例性实施例中,
初始编码器包括的基础编码器数量,以及初始解码器包括的基础解码器数量实质可以根据
实际应用需求而定,本公开示例性实施例对此不作具体限制。
进行编码,获得编码结果,并将编码结果输入初始编解码网络中的初始解码器,以供初始解
码器对该编码结果进行解码操作,获得第一特征表示,以用于表征输入的序列词向量所对
应训练用字符序列的识别结果,此后,根据输入的序列词向量所对应的训练用字符序列,以
及输入的序列词向量所对应训练用字符序列的识别结果,调整初始编码器和初始解码器的
模型参数,以实现对初始编解码网络的训练,最终,获得包括目标编码器和目标解码器的目
标编解码网络。
目标编解码网络,那么,目标编解码网络是预先经过训练获得的,已经具有了一定的字符序
列识别能力,而目标编解码网络是包含于初始文本识别模型的,初始文本识别模型又是用
于获得目标文本识别模型的,因此,在后续对初始文本识别模型进行训练时,便能够进一步
提高训练的有效性,也就进一步提高了目标文本识别模型的可靠性。
置为仅输出一个特征向量,且六个基础编码器中,末级基础编码器输出的特征向量为前述
用于表征序列词向量的编码结果,如此,便可以实现简化模型结构的目的,从而提高初始编
解码网络的训练效率。
都配置为不添加掩膜。
“你是谁”一次性编码,但是,解码器却是每次解码一个单词,同时,前面解码出来的单词会
是后面的输入,前面的单词又不能被后面的单词影响,这个时候就需要借助掩膜,将后面的
单词掩蔽。本公开实施例中,输入初始编码器的序列词向量是训练用字符序列编码而来的,
而训练用字符序列是具有语义的文本字符串,因此,初始解码器中的自注意力子层不添加
掩膜,那么,初始解码器在执行解码任务的过程中,前面单词的编码反而会受到后面的单词
影响,从而提高字符序列的预测准确率。
始编解码网络中的初始解码器。
那么,初始解码器的第一特征向量便是一个长L*宽N的概率矩阵。
对应的字符序列标注信息,对包括目标特征提取网络和目标编解码网络的初始文本识别模
型进行训练,获得目标文本识别模型的过程中,可以使得目标特征提取网络的学习率大于
目标编码器的学习率,而目标编码器的学习率又大于目标解码器的学习率,也即,越靠近输
入端的模型,学习率设置为越大,越靠近输出端的模型,学习率设置为越小。其中,学习率即
为超参数,其可以根据实际应用需求设定,且在模型训练阶段,用于控制模型参数调整的快
慢。
优化效率,从而提高初始文本识别模型的训练效果,以进一步提高目标文本识别模型的可
靠性。
训练装置500包括第一训练数据获取模块510、第一训练模块520、第二训练数据获取模块
530和第二训练模块540。
始文本识别模型进行训练,获得目标文本识别模型。
特征提取网络,以供第一初始特征提取网络输出第一特征图像,第二初始特征提取网络输
出第二特征图像,并将第一特征图像和第二特征图像输入初始对比学习网络中的多层全连
接层,第二初始特征提取网络与第一初始特征提取网络具有相同的模型参数。
网络为经过模型参数调整之后的第一初始特征提取网络或第二初始特征提取网络。
特征向量输入初始编解码网络中的初始解码器。
练。
征矩阵输入目标文本识别模型中的文本编解码网络,文本编解码网络根据第一图像特征矩
阵,输出待识别图像的文本识别结果,其中,目标文本识别模型通过本公开示例性实施例提
供文本识别模型训练方法获得。
模型的训练阶段,在执行本公开示例性实施例提供文本识别模型训练方法中的步骤S210,
以获取多个训练用字符序列之后,基于多个训练用字符序列创建,此处不作赘述。
第一图像特征矩阵输入目标文本识别模型中的文本编解码网络,文本编解码网络根据第一
图像特征矩阵,输出待识别图像的文本识别结果,其中,目标文本识别模型通过本公开示例
性实施例提供文本识别模型训练装置获得。
开示例性实施例提供文本识别方法实施例中对应步骤的相关描述,此处不作赘述。
计算机程序在被至少一个处理器执行时用于使电子设备执行本公开示例性实施例提供的
文本识别模型训练方法,或本公开示例性实施例提供的文本识别方法。
或本公开示例性实施例提供的文本识别方法。
示例性实施例提供的文本识别方法。
形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、
服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式
的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装
置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制
本文中描述的和/或要求的本公开的实现。
Memory,RAM)830中的计算机程序,来执行各种适当的动作和处理。在RAM 830中,还可存储
设备800操作所需的各种程序和数据。计算单元810、ROM 820以及RAM 830通过总线840彼此
相连。输入/输出(I/O)接口850也连接至总线840。
的设备,输入单元860可以接收输入的数字或字符信息,以及产生与电子设备的用户设置
和/或功能控制有关的键信号输入。输出单元870可以是能呈现信息的任何类型的设备,并
且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元
850可以包括但不限于磁盘、光盘。通信单元880允许电子设备800通过诸如因特网的计算机
网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、
网卡、红外通信设备、无线通信收发机和/或芯片组,例如,蓝牙TM设备、WiFi设备、WiMax设
备、蜂窝通信设备和/或类似物。
单元(Graphics Processing Unit,GPU)、各种专用的人工智能(Artificial
Intelligence,AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器
(Digital Signal Process,DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元
810执行上文所描述的各个方法和处理。例如,在一些实施例中,执行方法(例如,前述文本
识别模型训练方法中的步骤S110、步骤S120、步骤S130和步骤S140)可被实现为计算机软件
程序,其被有形地包含于机器可读介质,例如存储单元880。在一些实施例中,计算机程序的
部分或全部可以经由ROM 820和/或通信单元880而被载入和/或安装到电子设备800上。在
一些实施例中,计算单元810可以通过其他任何适当的方式(例如,借助于固件)而被配置为
执行方法(例如,前述文本识别模型训练方法中的步骤S110、步骤S120、步骤S130和步骤
S140)。
理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或上述内容的任何合适
组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算
机盘、硬盘、RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read‑Only
Memory,EPROM)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
盘、存储器、可编程逻辑装置(Programmable Logic Device,PLD),包括,接收作为机器可读
信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据
提供给可编程处理器的任何信号。
显示器(Liquid Crystal Display,LCD)监视器);以及键盘和指向装置(例如,鼠标或轨迹
球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用
于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反
馈、听觉反馈或触觉反馈);并且可以用任何形式(包括声输入、语音输入或触觉输入)来接
收来自用户的输入。
(例如,具有图形用户界面或网络浏览器的用户计算机,用户可以通过该图形用户界面或该
网络浏览器来与此处描述的系统和技术的实施方式交互)或包括这种后台部件、中间件部
件或前端部件的任何组合的计算系统中。可以通过任何形式或介质的数字数据通信(例如,
通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和
互联网。
算机程序来产生客户端和服务器的关系。