一种票据识别方法、装置、设备及计算机存储介质转让专利

申请号 : CN202211169110.1

文献号 : CN115273123B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 梅臻展召磊李琳周祥龙

申请人 : 山东豸信认证服务有限公司

摘要 :

本申请涉及图像处理技术领域,提供一种票据识别方法、装置、设备及计算机存储介质,在一定程度上解决了现有技术中对票据中文字信息识别精度低的问题,该方法包括:获取待识别票据图像;将待识别票据图像输入至已训练的生成器中进行处理,得到目标格式的目标票据图像,所述目标格式包括目标印章格式和目标字体格式;所述生成器包括印章分支网络和文字分支网络,所述印章分支网络用于将所述待识别票据图像中的印章格式转换为所述目标印章格式,所述文字分支网络用于将所述待识别票据图像中的文字格式转换为所述目标字体格式;对所述目标票据图像进行文字识别,得到所述待识别票据图像中的文字信息。

权利要求 :

1.一种票据识别方法,其特征在于,所述方法包括:

获取待识别票据图像;

将所述待识别票据图像输入至已训练的生成器中进行处理,得到目标格式的目标票据图像,所述目标格式包括目标印章格式和目标字体格式;

所述生成器包括印章分支网络和文字分支网络,所述印章分支网络用于将所述待识别票据图像中的印章格式转换为所述目标印章格式,所述印章分支网络包括依次连接的下采样层、多组依次连接的第三卷积层和第三归一化层、上采样层;所述文字分支网络用于将所述待识别票据图像中的文字格式转换为所述目标字体格式;所述文字分支网络包括依次连接的下采样层、中间层和上采样层,所述下采样层包括多组依次连接的第一卷积层、第一归一化层和局部注意力层,所述局部注意力层用于提取所述待识别票据图像中的局部特征信息;所述中间层包括多组依次连接的第二卷积层和第二归一化层;所述局部注意力层包括自注意力模块和局部空间掩码图像,所述第一归一化层的输出作为所述自注意力模块的输入,所述自注意力模块的输出与所述局部空间掩码图像的乘积作为所述局部注意力层的输出;其中,所述局部空间掩码图像的确定方法,包括:基于所述第一归一化层的输出确定与所述第一归一化层的输出对应的初始权重图像;根据所述初始权重图像的中心像素与所述中心像素的周围像素之间的距离,确定所述局部空间掩码图像;

对所述目标票据图像进行文字识别,得到所述待识别票据图像中的文字信息。

2.根据权利要求1所述的票据识别方法,其特征在于,所述印章分支网络的训练方法包括:

构建第一生成对抗网络初始模型,所述第一生成对抗网络初始模型包括第一初始生成器和第一初始判别器;

利用预设的第一训练集和预设的第一损失函数对所述第一生成对抗网络初始模型进行对抗训练,得到所述印章分支网络,其中,所述第一训练集包括多个印章图像样本;所述第一损失函数用于描述所述印章图像样本与第一预测图像之间的误差,所述第一预测图像为所述印章图像样本经所述第一初始生成器处理后得到的图像。

3.根据权利要求1所述的票据识别方法,其特征在于,所述文字分支网络的训练方法包括:

构建第二生成对抗网络初始模型,所述第二生成对抗网络初始模型包括第二初始生成器和第二初始判别器;

利用预设的第二训练集和预设的第二损失函数对所述第二生成对抗网络初始模型进行对抗训练,得到所述文字分支网络,其中,所述第二训练集包括多个文字图像样本;所述第二损失函数用于描述所述文字图像样本与第二预测图像之间的误差,所述第二预测图像为所述文字图像样本经所述第二初始生成器处理后得到的图像。

4.根据权利要求1‑3任一项所述的票据识别方法,其特征在于,所述对所述目标票据图像进行文字识别,得到所述待识别票据图像中的文字信息,包括:对所述目标票据图像中的印章进行去遮挡处理,得到去遮挡处理后的所述目标票据图像;

对所述去遮挡处理后的所述目标票据图像进行文字检测;

基于文字检测结果进行文字识别,得到所述待识别票据图像中的文字信息。

5.一种票据识别装置,其特征在于,所述装置包括:

获取单元,用于获取待识别票据图像;

处理单元,用于将所述待识别票据图像输入至已训练的生成器中进行处理,得到目标格式的目标票据图像,所述目标格式包括目标印章格式和目标字体格式;

所述生成器包括印章分支网络和文字分支网络,所述印章分支网络用于将所述待识别票据图像中的印章格式转换为所述目标印章格式,所述印章分支网络包括依次连接的下采样层、多组依次连接的第三卷积层和第三归一化层、上采样层;所述文字分支网络用于将所述待识别票据图像中的文字格式转换为所述目标字体格式;所述文字分支网络包括依次连接的下采样层、中间层和上采样层,所述下采样层包括多组依次连接的第一卷积层、第一归一化层和局部注意力层,所述局部注意力层用于提取所述待识别票据图像中的局部特征信息;所述中间层包括多组依次连接的第二卷积层和第二归一化层;所述局部注意力层包括自注意力模块和局部空间掩码图像,所述第一归一化层的输出作为所述自注意力模块的输入,所述自注意力模块的输出与所述局部空间掩码图像的乘积作为所述局部注意力层的输出;其中,所述局部空间掩码图像的确定方法,包括:基于所述第一归一化层的输出确定与所述第一归一化层的输出对应的初始权重图像;根据所述初始权重图像的中心像素与所述中心像素的周围像素之间的距离,确定所述局部空间掩码图像;

识别单元,用于对所述目标票据图像进行文字识别,得到所述待识别票据图像中的文字信息。

6.一种终端设备,其特征在于,所述设备包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中调用并运行所述计算机程序,使得所述设备执行权利要求1至4中任一项所述的方法。

7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行权利要求1至4中任一项所述的方法。

说明书 :

一种票据识别方法、装置、设备及计算机存储介质

技术领域

[0001] 本申请属于图像处理技术领域,尤其涉及一种票据识别方法、装置、设备及计算机存储介质。

背景技术

[0002] 在金融、财务、电子商务等领域,常利用光学字符识别(Optical Character Recognition,OCR)方法对票据中的文字信息进行检测并识别,以实现各类业务的快速办理。但是,在实际应用过程中,票据中的文字信息上往往会存在一些例如印章遮挡、文字书写连笔或涂抹等复杂情况,利用现有的OCR方法难以快速、准确地识别出票据中的文字信息。

发明内容

[0003] 本申请实施例的目的在于提供一种票据识别方法、装置、设备及计算机存储介质,在一定程度上解决了现有技术中对票据中文字信息识别精度低的问题。
[0004] 本申请实施例是这样实现的,第一方面,本申请实施例提供了一种票据识别方法,上述方法包括:获取待识别票据图像;
[0005] 将所述待识别票据图像输入至已训练的生成器中进行处理,得到目标格式的目标票据图像,所述目标格式包括目标印章格式和目标字体格式;
[0006] 所述生成器包括印章分支网络和文字分支网络,所述印章分支网络用于将所述待识别票据图像中的印章格式转换为所述目标印章格式,所述文字分支网络用于将所述待识别票据图像中的文字格式转换为所述目标字体格式;
[0007] 对所述目标票据图像进行文字识别,得到所述待识别票据图像中的文字信息。
[0008] 基于本申请提供的票据识别方法,在生成器中设置了印章分支网络和文字分支网络,利用印章分支网络将待识别票据图像中的印章格式转换为目标印章格式,利用文字分支网络将待识别票据图像中的字体格式转换为目标字体格式,以得到目标格式的目标票据图像,通过对目标票据图像进行文字识别获取到待识别票据图像中的文字信息。与现有的直接对待识别票据图像中的文字进行识别的方法相比,将待识别票据图像中的印章格式转换为目标印章格式,便于后续对目标印章格式的处理,避免因待识别票据图像中印章对文字遮挡而降低识别精度;将待识别票据图像中的字体格式转换为目标字体格式以使待识别票据中的文字均为相同的字体格式,提高对待识别票据图像中文字信息的识别精度。
[0009] 在其中一个实施例中,所述文字分支网络包括依次连接的下采样层、中间层和上采样层,所述下采样层包括多组依次连接的第一卷积层、第一归一化层和局部注意力层,所述局部注意力层用于提取所述待识别票据图像中的局部特征信息;所述中间层包括多组依次连接的第二卷积层和第二归一化层。
[0010] 在其中一个实施例中,所述局部注意力层包括自注意力模块和局部空间掩码图像,所述第一归一化层的输出作为所述自注意力模块的输入,所述自注意力模块的输出与所述局部空间掩码图像的乘积作为所述局部注意力层的输出。
[0011] 在其中一个实施例中,所述局部空间掩码图像的确定方法,包括:
[0012] 基于所述第一归一化层的输出确定与所述第一归一化层的输出对应的初始权重图像;
[0013] 根据所述初始权重图像的中心像素与所述中心像素的周围像素之间的距离,确定所述局部空间掩码图像。
[0014] 在其中一个实施例中,所述印章分支网络的训练方法包括:
[0015] 构建第一生成对抗网络初始模型,所述第一生成对抗网络初始模型包括第一初始生成器和第一初始判别器;
[0016] 利用预设的第一训练集和预设的第一损失函数对所述第一生成对抗网络初始模型进行对抗训练,得到所述印章分支网络,其中,所述第一训练集包括多个印章图像样本;所述第一损失函数用于描述所述印章图像样本与第一预测图像之间的误差,所述第一预测图像为所述印章图像样本经所述第一初始生成器处理后得到的图像。
[0017] 在其中一个实施例中,所述文字分支网络的训练方法包括:
[0018] 构建第二生成对抗网络初始模型,所述第二生成对抗网络初始模型包括第二初始生成器和第二初始判别器;
[0019] 利用预设的第二训练集和预设的第二损失函数对所述第二生成对抗网络初始模型进行对抗训练,得到所述文字分支网络,其中,所述第二训练集包括多个文字图像样本;所述第二损失函数用于描述所述文字图像样本与第二预测图像之间的误差,所述第二预测图像为所述文字图像样本经所述第二初始生成器处理后得到的图像。
[0020] 在其中一个实施例中,所述对所述目标票据图像进行文字识别,得到所述待识别票据图像中的文字信息,包括:
[0021] 对所述目标票据图像中的印章进行去遮挡处理,得到去遮挡处理后的所述目标票据图像;
[0022] 对所述去遮挡处理后的所述目标票据图像进行文字检测;
[0023] 基于文字检测结果进行文字识别,得到所述待识别票据图像中的文字信息。
[0024] 第二方面,本申请实施例提供了一种票据识别装置,该装置包括:
[0025] 获取单元,用于获取待识别票据图像;
[0026] 处理单元,用于将所述待识别票据图像输入至已训练的生成器中进行处理,得到目标格式的目标票据图像,所述目标格式包括目标印章格式和目标字体格式;
[0027] 所述生成器包括印章分支网络和文字分支网络,所述印章分支网络用于将所述待识别票据图像中的印章格式转换为所述目标印章格式,所述文字分支网络用于将所述待识别票据图像中的文字格式转换为所述目标字体格式;
[0028] 识别单元,用于对所述目标票据图像进行文字识别,得到所述待识别票据图像中的文字信息。
[0029] 第三方面,本申请实施例提供了一种终端设备,所述设备包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中调用并运行所述计算机程序,使得所述设备执行第一方面中任一项所述的方法。
[0030] 第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行第一方面中任一项所述的方法。
[0031] 第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被计算机运行时,使得该计算机执行第一方面中任一项所述的方法。
[0032] 可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。

附图说明

[0033] 图1是本申请实施例提供的一种生成器的网络结构示意图;
[0034] 图2是本申请实施例提供的一种局部注意力层的结构示意图;
[0035] 图3是本申请实施例提供的一种第一归一化层输出的特征图X的示意图;
[0036] 图4是本申请实施例提供的一种局部空间掩码图像Y的示意图;
[0037] 图5是本申请实施例提供的一种第一生成对抗网络初始模型的结构示意图;
[0038] 图6是本申请实施例提供的一种第二生成对抗网络初始模型的结构示意图;
[0039] 图7是本申请实施例提供的一种第三生成对抗网络初始模型的结构示意图;
[0040] 图8是本申请实施例提供的一种票据图像识别任务的示意性流程图;
[0041] 图9是本申请实施例提供的一种票据识别装置的结构示意图;
[0042] 图10是本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

[0043] 为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0044] 为了解决现有技术中对票据中文字信息识别精度低的问题,本申请实施例提供一种票据识别方法、装置、设备及计算机存储介质。通过生成器将待识别票据图像中的印章格式和字体格式均转换为目标格式,之后再对格式转换后的待识别票据图像(即目标票据图像)进行文字识别,获取待识别票据图像中的文字信息。避免了因待识别票据图像中的印章遮挡文字以及文字字体不统一而导致文字信息识别结果不准确的影响,从而提高了对待处理票据图像的识别精度。
[0045] 下面以具体地实施例对本申请的技术方案进行详细说明。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
[0046] 首先,结合图1对本申请实施例提供的一种生成器进行示例性的介绍。该生成器可以部署在票据识别设备中,该票据识别设备可以是智能手机、平板电脑、摄像机、台式电脑、机器人、服务器等设备。
[0047] 示例性的,如图1所示为本申请实施例提供的一种生成器的结构示意图,参见图1,该生成器包括印章分支网络和文字分支网络,其中,印章分支网络包括依次连接的下采样层、多组依次连接的第三卷积层和第三归一化层、上采样层,印章分支网络用于将待识别票据图像中的印章格式转换为目标印章格式;文字分支网络包括依次连接的下采样层、中间层和上采样层,下采样层包括多组依次连接的第一卷积层、第一归一化层和局部注意力层,局部注意力层用于提取图像中的局部特征信息;中间层包括多组依次连接的第二卷积层和第二归一化层,上述文字分支网络用于将待识别票据图像中的字体格式转换为目标字体格式;将转换为目标印章格式的待识别票据图像和转换为目标字体格式的待识别票据图像进行叠加处理后得到目标票据图像。
[0048] 如图2所示为本申请实施例提供的一种局部注意力层的结构示意图。参见图2,局部注意力层包括自注意力模块和局部空间掩码图像,文字分支网络中的第一归一化层的输出作为自注意力模块的输入,自注意力模块的输出与局部空间掩码图像的乘积作为局部注意力层的输出,也就是说,局部注意力层的输出是基于第一归一化层,自注意力模块乘以局部空间掩码图像之后得到的。在本申请实施例中,自注意力模块可以采用QKV(Query‑Key‑Value)模式,自注意力模型的具体结构可以参考现有技术,本申请实施例将不再赘述。
[0049] 应理解,局部空间掩码也即权重图像。在一个实施例中,局部空间掩码图像的确定方法,包括:基于第一归一化层的输出确定与第一归一化层的输出对应的初始权重图像;根据初始权重图像的中心像素与中心像素的周围像素之间的距离,确定局部空间掩码图像。
[0050] 在本申请实施例中,上述根据初始权重图像的中心像素与中心像素的周围像素之间的距离,确定局部空间掩码图像的具体方式可以为:获取初始权重图像的中心像素与中心像素的周围像素之间距离的倒数,根据倒数更新初始权重图像(即将初始权重图像中的栅格值更新为对应的倒数),得到局部空间掩码图像。
[0051] 示例性的,如图3所示为本申请实施例提供的一种第一归一化层输出的特征图的示意图,参见图3,假设第一归一化层输出的特征图为X,特征图X的尺寸大小为5x5,特征图X的中心像素为A,那么可以基于特征图X的尺寸大小确定一个尺寸大小也为5x5的初始权重图像,其中,初始权重图像中每个像素对应的栅格值可以为预设初始值(例如预设初始值可以为0);然后可以根据特征图X的中心像素A与中心像素A周围像素之间距离的倒数,更新初始权重图像中每个像素对应的栅格值,得到如图4所示的局部空间掩码图像Y(即权重图像)。
[0052] 值得说明的是,上述印章分支网络中包括的依次连接的第三卷积层和第三归一化层的组数、文字分支网络中下采样层包括的依次连接的第一卷积层、第一归一化层和局部注意力层的组数以及文字分支网络的中间层中包括的依次连接的第二卷积层和第二归一化层的组数可以根据实际应用情况进行设置,其中,实际应用情况可以是识别结果的准确性,也可以是实际实验时印章分支网络和文字分支网络在训练过程中的拟合情况等等,本申请对此不作任何限定。
[0053] 可以理解的是,针对不同的任务,可以通过设计对应的训练集和损失函数来训练初始生成器,从而得到能够适用于不同任务的生成器。其中,不同任务包括但不限于对票据图像中的文字进行识别、对设置有水印的图像进行图像识别等任务。
[0054] 示例性的,针对对票据图像中的文字进行识别的任务,可以在印章分支网络中设置2组依次连接的第三卷积层和第三归一化层;在文字分支网络的下采样层中设置1组依次连接的第一卷积层、第一归一化层和局部注意力层,在文字分支网络的中间层中设置3组依次连接的第二卷积层和第二归一化层。
[0055] 又如,针对对设置有水印的图像进行图像识别的任务,可以在印章分支网络中设置3组依次连接的第三卷积层和第三归一化层;在文字分支网络的下采样层中设置1组依次连接的第一卷积层、第一归一化层和局部注意力层,在文字分支网络的中间层中设置2组依次连接的第二卷积层和第二归一化层。
[0056] 根据实际应用需求,训练该生成器的执行主体与使用该生成器进行图像识别任务的执行主体可以是相同的,也可以是不同的。
[0057] 在本申请实施例中,可以分别对生成器中的印章分支网络和文字分支网络进行训练,得到已训练的印章分支网络和已训练的文字分支网络,然后将已训练的印章分支网络和已训练的文字分支网络进行叠加,生成上述生成器。
[0058] 下面以生成目标印章格式的图像任务为例,对本申请提供的印章分支网络的训练过程进行示例性的说明。
[0059] 基于生成目标印章格式的图像的任务,在获取对应的第一训练集之前,需要预定义图像中印章的具体目标格式。在实际应用中,目标印章格式可以包括印章颜色、印章形状、印章大小等,本申请对此不作任何限定。
[0060] 假设本示例中设置图像中目标印章格式为:印章颜色为红色,印章形状为圆形。
[0061] 步骤一,针对生成目标印章格式的图像任务获取对应的第一训练集。
[0062] 基于上述示例,获取的第一训练集包括多个印章图像样本,其中,多个印章图像样本可以包括印章颜色和/或印章形状不同的票据图像样本以及印章颜色为红色、印章形状为圆形的票据图像样本。例如,多个印章图像样本包括但不限于印章颜色为红色、印章形状为圆形的票据图像样本,印章颜色为蓝色、印章形状为圆形的票据图像样本以及印章颜色为蓝色、印章形状方形的票据图像样本。
[0063] 在实际应用中,第一训练集中的印章图像样本可以直接从预设的票据数据库中获取;也可以通过手机、相机等设备采集对应的票据图像样本;还可以从公开的视频网站中截取票据图像样本。
[0064] 步骤二,搭建第一生成对抗网络初始模型。
[0065] 如图5所示为本申请实施例提供的一种第一生成对抗网络初始模型的结构示意图。参见图5,第一生成对抗网络初始模型包括第一初始生成器和第一初始判别器,第一生成对抗网络初始模型的具体结构与现有技术中生成对抗网络模型相同,在此将不再详细描述。
[0066] 步骤三,将第一训练集中的印章图像样本经第一初始生成器进行处理后,得到第一预测图像。
[0067] 具体地,针对训练集中的每个训练样本,将印章图像样本输入到第一初始生成器中进行处理,得到与输入的印章图像样本对应的第一预测图像。
[0068] 步骤四,将第一预测图像与训练集中对应的印章图像样本输入到第一判别器中进行迭代训练,得到已训练的第一生成器。
[0069] 在一个实施例中,针对第一训练集中的每个训练样本,将第一预测图像和对应的印章图像样本输入到第一判别器中进行处理,得到训练样本的第一判别结果。根据每个训练样本的第一判别结果和预设的第一损失函数进行对抗训练,得到已训练的第一生成器。
[0070] 其中,预设的第一损失函数可以采用最小二乘法,利用最小二乘法计算上述示例中印章颜色的一致性损失和印章形状的一致性损失,换言之,采用最小二乘法描述印章图像样本中印章颜色与第一预测图像中印章颜色之间的误差以及印章图像样本中印章形状与第一预测图像中印章形状之间的误差。当然,第一损失函数也可以根据目标印章格式的变化而变化,本申请实施例对第一损失函数不作任何限定。
[0071] 不难理解的,在不断的迭代训练过程中,若训练后的第一生成器与第一判别器之间达到纳什均衡,即训练后的第一判别器对输入的第一预测图像、与第一预测图像对应的印章图像样本的判别概率始终为0.5,训练后的第一判别器无法分辨上述第一预测图像和对应的印章图像样本时,则将训练后的第一生成器从已经训练的第一生成对抗网络模型中剥离出来,得到已训练的印章分支网络。
[0072] 下面以生成目标字体的图像任务为例,对本申请提供的文字分支网络的训练过程进行示例性的说明。
[0073] 基于生成目标字体的图像任务,在获取对应的第二训练集之前,预定义图像中具体的目标字体。假设本示例中设置图像中目标字体为宋体。
[0074] 步骤一,针对生成目标字体的图像任务获取对应的第二训练集。
[0075] 该示例中获取到的第二训练集包括多个文字图像样本,其中,多个文字图像样本中可以包括多种文字字体为宋体的票据图像样本以及其他不同字体的票据图像样本。例如,文字图像样本包括文字字体为宋体的票据图像样本、文字字体为草书的票据图像样本、文字字体为楷书的票据图像样本等等。
[0076] 应理解,第二训练集中多个文字图像样本和第一训练集中的多个印章图像样本可以相同,也可以不同。多个文字图像样本的获取方式与多个印章图像样本的获取方式也可以相同,还可以不同。本申请对上述内容不作任何限定。
[0077] 步骤二,搭建第二生成对抗网络初始模型。
[0078] 如图6所示为本申请实施例提供的一种第二生成对抗网络初始模型的结构示意图。参见图6,第二生成对抗网络初始模型包括第二初始生成器和第二初始判别器,其中,第二初始生成器中的具体结构可以参考图1中所示的文字分支网络的结构进行搭建。
[0079] 步骤三,将第二训练集中的文字图像样本经第二初始生成器进行处理后,得到第二预测图像。
[0080] 具体地,针对训练集中的每个训练样本,将文字图像样本输入到第二初始生成器中进行处理,得到与输入的文字图像样本对应的第二预测图像。
[0081] 步骤四,将第二预测图像与第二训练集中对应的文字图像样本输入到第二判别器中进行迭代训练,得到已训练的第二生成器。
[0082] 类似的,将第二预测图像和对应的文字图像样本输入到第二判别器中进行处理,得到训练样本的第二判别结果。根据每个训练样本的第二判别结果和预设的第二损失函数进行迭代对抗训练,得到已训练的第二生成器。
[0083] 其中,第二损失函数可以采用例如神经网络时序分类(Connectionist temporal classification,CTC)算法等,本申请对第二损失函数的具体类型不作限定。
[0084] 同样的,若训练后的第二生成器与第二判别器之间达到纳什均衡,则将训练后的第二生成器从已训练的第二生成对抗网络模型中剥离出来,得到已训练的文字分支网络。
[0085] 通过上述两个示例性的训练过程可以得到已训练的印章分支网络和已训练的文字分支网络,然后将已训练的印章分支网络和已训练的文字分支网络进行叠加,生成上述生成器。
[0086] 在另一种可能的实施例中,也可以直接对包括有印章分支网络和文字分支网络的生成器进行训练,得到已训练的生成器。
[0087] 下面将以生成目标格式的目标票据图像任务为例,对本申请实施例提供的生成器的训练过程进行示例性的说明。
[0088] 假设在生成目标格式的目标票据图像任务中,目标格式包括目标印章格式和目标字体格式,其中,目标印章格式包括印章颜色、印章形状、印章大小等。目标票据图像中目标格式的具体内容可以根据不同的实际应用情况进行设置,本申请对此不作任何限定。
[0089] 基于生成目标格式的目标票据图像任务,在获取对应的训练集之前,需要预定义目标票据图像中具体的目标格式。
[0090] 示例性的,可以设置目标票据图像中目标印章格式如下:印章颜色为红色,印章形状为圆形;设置目标票据图像中目标字体格式为宋体。
[0091] 首先,针对生成目标格式的目标票据图像任务获取对应的训练集。
[0092] 不难理解的,获取的训练集中包括多个票据图像样本,票据图像样本中尽可能同时存在印章和文字。训练集中多个票据图像样本的获取方式包括但不限于从预设的票据数据库中获取、通过手机、相机等设备采集、从公开的视频网站中截取。
[0093] 然后,构建第三生成对抗网络初始模型,其中,第三生成对抗网络初始模型包括第三初始生成器和第三初始判别器。
[0094] 应理解,如图7所示为本申请实施例提供的一种第三生成对抗网络初始模型的结构示意图。参见图7,第三生成对抗网络初始模型包括第三初始生成器和第三初始判别器,其中,第三初始生成器中的具体结构可以参考图1中所示印章分支网络和文字分支网络的结构进行搭建。第三初始判别器包括多组依次连接的第六卷积层和第六归一化层。
[0095] 最后,利用预设的第三损失函数和训练集对第三生成对抗网络初始模型进行对抗训练,得到已训练的生成器。其中,第三损失函数用于描述票据图像样本与第三预测图像(也即目标票据图像)之间的误差,第三预测图像为票据图像样本经第三初始生成器处理后得到的图像。
[0096] 对第三生成对抗网络初始模型进行训练可以参照上述实施例中第一生成对抗网络初始模型、第二生成对抗网络初始模型的训练过程进行理解,在此不再赘述。
[0097] 基于上述训练过程,即可得到已训练的生成器,可以将待识别票据图像输入至已训练的生成器中处理,得到印章颜色为红色、印章形状为圆形且字体为宋体的目标票据图像。
[0098] 需要说明的是,本申请提供的生成器具备泛用性。可以应用于任何图像识别任务或者以图像识别效果为评价指标的任务中,例如,医学图像识别、票据图像识别等多种图像识别任务中。
[0099] 示例性的,已训练的生成器可以应用于如图8所示的票据图像识别任务中,如图8所示为本申请实施例提供的一种票据图像识别任务的示意性流程图,参见图8,当将待识别票据图像输入至已训练的生成器时,印章分支网络能够将待识别票据图像生成为印章颜色为红色、印章形状为圆形的图像;文字分支网络能够将待识别票据图像生成为字体为宋体的图像;印章分支网络生成的图像和文字分支网络生成的图像进行叠加处理后,输出目标票据图像,也就是说,将待识别票据图像输入已训练的的生成器中进行处理,能够得到印章颜色为红色、印章形状为圆形以及字体为宋体的目标票据图像。
[0100] 然后,对目标票据图像中的印章进行去遮挡处理,得到去遮挡处理后的目标票据图像,对去遮挡处理后的目标票据图像进行文字检测,基于对去遮挡处理后的目标票据图像的文字检测结果进行文字识别,以得到待识别票据中的文字信息,完成对待识别票据图像的识别。
[0101] 需要说明的是,上述示例中,目标票据图像的预设格式中印章颜色为红色,那么可以根据红色的RGB色彩,设置预设阈值为(200,0,0),将目标票据图像中小于预设阈值的像素值更新为0,实现对目标票据图像中的印章进行去遮挡处理,得到去除印章后的目标票据图像。当然,还可以采用其他方法去除目标票据图像中的印章,本申请对此不作任何限定。
[0102] 为了验证本申请实施例提供的主要由印章分支网络和文字分支网络构成的生成器的可行性,本申请实施例中获取了10000张票据图像样本,其中,6000张为训练集,用于第一生成器和第二生成器的训练,4000张为测试集,用于已训练的生成器测试。基于上述示例,采用连接文本建议网络(Connectionist Text Proposal Network,CTPN)算法对去遮挡处理后的目标票据图像中的文字进行检测,采用卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)算法和神经网络时序分类(Connectionist Temporal Classification,CTC)算法对目标票据图像中的文字进行识别,采用本申请中的生成器对测试集中的票据图像进行识别,得到识别率为99.8%。
[0103] 然后,分别采用文本检测模型(Efficient and Accuracy Scene Text,EAST)算法、可微二值化(Differentiable Binarization,DB)算法以及拍摄任意形状文本(Shot Arbitrarily‑Shaped Text,SAST)算法对10000张票据图像样本进行训练与测试,得到识别率分别为95.9%、94.2%、92.1%。从实验结果不难得到,本申请提供的生成器具备较好的实验效果。
[0104] 综上可知,本申请实施例提供的生成器中基于本申请提供的票据识别方法,在生成器中设置了印章分支网络和文字分支网络,利用印章分支网络将待识别票据图像中的印章格式转换为目标印章格式,利用文字分支网络将待识别票据图像中的字体格式转换为目标字体格式,以得到目标格式的目标票据图像,通过对目标票据图像进行文字识别获取到待识别票据图像中的文字信息。与现有的直接对待识别票据图像中的文字进行识别的方法相比,将待识别票据图像中的印章格式转换为目标印章格式,便于后续对目标印章格式的处理,避免因待识别票据图像中印章对文字遮挡而降低识别精度;将待识别票据图像中的字体格式转换为目标字体格式以使待识别票据中的文字均为相同的字体格式,提高对待识别票据图像中文字信息的识别精度。
[0105] 基于上述实施例,如图9所示为本申请实施例提供的一种票据识别装置的结构示意图,参见图9,该票据识别装置100包括:
[0106] 获取单元101,用于获取待识别票据图像;
[0107] 处理单元102,用于将所述待识别票据图像输入至已训练的生成器中进行处理,得到目标格式的目标票据图像,所述目标格式包括目标印章格式和目标字体格式;
[0108] 所述生成器包括印章分支网络和文字分支网络,所述印章分支网络用于将所述待识别票据图像中的印章格式转换为所述目标印章格式,所述文字分支网络用于将所述待识别票据图像中的文字格式转换为所述目标字体格式;
[0109] 识别单元103,用于对所述目标票据图像进行文字识别,得到所述待识别票据图像中的文字信息。
[0110] 可选地,所述文字分支网络包括依次连接的下采样层、中间层和上采样层,所述下采样层包括多组依次连接的第一卷积层、第一归一化层和局部注意力层,所述局部注意力层用于提取所述待识别票据图像中的局部特征信息;所述中间层包括多组依次连接的第二卷积层和第二归一化层。
[0111] 可选地,所述局部注意力层包括自注意力模块和局部空间掩码图像,所述第一归一化层的输出作为所述自注意力模块的输入,所述自注意力模块的输出与所述局部空间掩码图像的乘积作为所述局部注意力层的输出。
[0112] 可选地,所述局部空间掩码图像的确定方法,包括:
[0113] 基于所述第一归一化层的输出确定与所述第一归一化层的输出对应的初始权重图像;
[0114] 根据所述初始权重图像的中心像素与所述中心像素的周围像素之间的距离,确定所述局部空间掩码图像。
[0115] 可选地,所述印章分支网络的训练方法包括:
[0116] 构建第一生成对抗网络初始模型,所述第一生成对抗网络初始模型包括第一初始生成器和第一初始判别器;
[0117] 利用预设的第一训练集和预设的第一损失函数对所述第一生成对抗网络初始模型进行对抗训练,得到所述印章分支网络,其中,所述第一训练集包括多个印章图像样本;所述第一损失函数用于描述所述印章图像样本与第一预测图像之间的误差,所述第一预测图像为所述印章图像样本经所述第一初始生成器处理后得到的图像。
[0118] 可选地,所述文字分支网络的训练方法包括:
[0119] 构建第二生成对抗网络初始模型,所述第二生成对抗网络初始模型包括第二初始生成器和第二初始判别器;
[0120] 利用预设的第二训练集和预设的第二损失函数对所述第二生成对抗网络初始模型进行对抗训练,得到所述文字分支网络,其中,所述第二训练集包括多个文字图像样本;所述第二损失函数用于描述所述文字图像样本与第二预测图像之间的误差,所述第二预测图像为所述文字图像样本经所述第二初始生成器处理后得到的图像。
[0121] 可选地,处理单元102,还用于:
[0122] 对所述目标票据图像中的印章进行去遮挡处理,得到去遮挡处理后的所述目标票据图像;
[0123] 对所述去遮挡处理后的所述目标票据图像进行文字检测;
[0124] 基于文字检测结果进行文字识别,得到所述待识别票据图像中的文字信息。
[0125] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0126] 基于同一发明构思,本申请实施例还提供了一种终端设备,该终端设备200如图10所示。
[0127] 如图10所示,该实施例的终端设备200包括:处理器201、存储器202以及存储在存储器202中并可在处理器201上运行的计算机程序203。计算机程序203可被处理器201运行,生成指令,处理器201可根据指令实现上述各个权限认证方法实施例中的步骤。或者,处理器201执行计算机程序203时实现上述各装置实施例中各模块/单元的功能。
[0128] 示例性的,计算机程序203可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器202中,并由处理器201执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序203在终端设备200中的执行过程。
[0129] 本领域技术人员可以理解,图10仅仅是终端设备200的示例,并不构成对终端设备200的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备200还可以包括输入输出设备、网络接入设备、总线等。
[0130] 处理器201可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field‑Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0131] 存储器202可以是终端设备200的内部存储单元,例如终端设备200的硬盘或内存。存储器202也可以是终端设备200的外部存储设备,例如终端设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器202还可以既包括终端设备200的内部存储单元也包括外部存储设备。存储器202用于存储计算机程序以及终端设备200所需的其它程序和数据。存储器202还可以用于暂时地存储已经输出或者将要输出的数据。
[0132] 本实施例提供的终端设备可以执行上述方法实施例,其实现原理与技术效果类似,此处不再赘述。
[0133] 本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的方法。
[0134] 本申请实施例还提供一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现上述方法实施例的方法。
[0135] 上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read‑Only Memory  ,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
[0136] 在本申请中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0137] 在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
[0138] 此外,在本申请中,除非另有明确的规定和限定,术语“连接”、“相连”等应做广义理解,例如可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定、对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
[0139] 以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。