一种证件图像处理方法、装置、存储介质及电子设备转让专利

申请号 : CN202211446077.2

文献号 : CN116152842B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 门靖洋

申请人 : 北京中卡信安电子设备有限公司

摘要 :

本申请实施例公开一种证件图像处理方法、装置、存储介质及电子设备,包括:基于训练集对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型;利用该模型对证件样本图像进行处理,获得key字符的第一预测外接矩形框信息、key字符的索引、预测的key字符的置信度、value文本行区域的第二预测外接矩形框信息及value文本行预测图像;基于上述信息确定第一损失值及证件样本图像中第一区域、第二区域和第三区域,为区域分配权重;根据value文本行预测图像、value字符的真值标记、value文本行预测图像中像素点的权重及证件样本图像大小计算第二损失值;根据损失值对模型参数进行调整,继续训练模型直至满足收敛条件时获得目标证件图像文本行分割模型。

权利要求 :

1.一种证件图像处理方法,其特征在于,所述方法包括:

基于训练集分别对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型,所述训练集包括多张证件样本图像和所述多张证件样本图像对应的真值标注文件,所述证件样本图像中存在重叠的key文本行区域和所述key文本行区域对应的value文本行区域,且所述真值标注文件包括每张所述证件样本图像中key字符的第一外接矩形框真值标记、所述key字符的索引标记、value文本行区域的第二外接矩形框真值标记以及所述value字符的真值标记,所述key字符为所述key文本行区域中的字符,所述value字符为所述value文本行区域中的字符;

利用所述初始证件图像文本行分割模型对所述证件样本图像进行处理,获得所述key字符的第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、预测的所述key字符的置信度、value文本行区域的第二预测外接矩形框信息,以及从每张所述证件样本图像中分割出的value文本行预测图像,所述value文本行预测图像中包括预测的完整的value文本行,且仅包括value字符;

根据所述第一预测外接矩形框信息、所述第一外接矩形框真值标记、所述第二预测外接矩形框信息和所述第二外接矩形框真值标记,计算第一损失值;

根据所述第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、所述置信度、所述第二预测外接矩形框信息、第一置信度范围和第二置信度范围,确定每张所述证件样本图像中的第一区域、第二区域和第三区域,并为所述第一区域、所述第二区域和所述第三区域分配权重,所述第一置信度范围包括所述置信度大于或者等于第一置信度阈值,所述第二置信度范围包括所述置信度小于或者等于第二置信度阈值,所述第一置信度阈值大于所述第二置信度阈值,所述第一区域仅包含所述key字符,所述第三区域包括key字符和value字符,所述第二区域仅包含所述value字符;

根据所述value文本行预测图像、所述value字符的真值标记、所述value文本行预测图像包含的每个像素点的权重以及所述证件样本图像的大小,计算第二损失值,所述像素点的权重为所述像素点所属区域的权重;

根据所述第一损失值和所述第二损失值,对初始证件图像文本行分割模型的模型参数进行调整,并继续对调整后的初始证件图像文本行分割模型中的所述字符检测任务和所述文本行分割任务进行训练,直至满足收敛条件时,获得目标证件图像文本行分割模型;

所述根据所述第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、所述置信度、所述第二预测外接矩形框信息、第一置信度范围和第二置信度范围,确定每张所述证件样本图像中的第一区域、第二区域和第三区域,包括:针对每张证件样本图像,根据所述证件样本图像的所述第一预测外接矩形框信息和所述第二预测外接矩形框信息,确定所述证件样本图像中的目标文本行区域,所述目标文本行区域包括所述key文本行区域和所述key文本行区域对应的value文本行区域的并集;

按照所述第一预测外接矩形框信息所对应key字符的索引从小到大的顺序,遍历所述第一预测外接矩形框信息对应的所述置信度是否满足所述第一置信度范围,直至首次不满足所述第一置信度范围时停止遍历,并根据第一目标信息确定所述第一区域的右边界和所述第三区域的左边界,所述第一区域的左边界为所述目标文本行区域的左边界,所述第一目标信息为遍历的最后一个满足所述第一置信度范围的所述置信度所对应的所述第一预测外接矩形框信息;

除遍历的满足所述第一置信度范围的所述置信度外,删除剩余的所述置信度中满足所述第二置信度范围的所述置信度;

根据第二目标信息确定所述第三区域的右边界和所述第二区域的左边界,所述第二区域的右边界为所述目标文本行区域的右边界,所述第二目标信息为删除操作后剩余的所述置信度所对应的最大索引的所述第一预测外接矩形框信息。

2.根据权利要求1所述的方法,其特征在于,当所述第一预测外接矩形框信息包括第一预测外接矩形框的左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度时,所述根据第一目标信息确定所述第一区域的右边界和所述第三区域的左边界,包括:根据所述第一目标信息中包含的所述左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度,计算所述第一目标信息所对应第一预测外接矩形框的右边界,并将所述第一目标信息所对应第一预测外接矩形框的右边界确定为所述第一区域的右边界和所述第三区域的左边界;

和/或,所述根据第二目标信息确定所述第三区域的右边界和所述第二区域的左边界,包括:

根据所述第二目标信息中包含的所述左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度,计算所述第二目标信息所对应第一预测外接矩形框的右边界,并将所述第二目标信息所对应第一预测外接矩形框的右边界确定为所述第三区域的右边界和所述第二区域的左边界。

3.根据权利要求1所述的方法,其特征在于,所述根据所述value文本行预测图像、所述value字符的真值标记、所述value文本行预测图像包含的每个像素点的权重以及所述证件样本图像的大小,计算第二损失值,包括:根据第一像素集合中的像素值、第二像素集合中的像素值、对应的所述像素点的权重以及所述证件样本图像的大小,分别计算所述第一像素集合和所述第二像素集合的相似度、目标平均绝对值以及召回率,所述第一像素集合为所述value文本行预测图像包含的各个像素点的像素值集合,所述第二像素集合为所有所述value字符的真值标记对应的像素点的像素值集合,所述证件样本图像的大小包括图像宽度和图像高度,所述目标平均绝对值为所述第一像素集合中的像素值和与其对应的所述第二像素集合中的像素值之间归一化差的平均绝对值;

根据所述相似度、所述目标平均绝对值、所述召回率、第一固定系数和第二固定系数,计算所述第二损失值。

4.根据权利要求3所述的方法,其特征在于,根据第一像素集合中的像素值、第二像素集合中的像素值、对应的所述像素点的权重以及所述证件样本图像的大小,计算所述第一像素集合和所述第二像素集合的相似度,包括:根据第一公式计算所述相似度LDice;

所述第一公式包括:

所述Xi,j为所述第一像素集合中的第i行第j列的像素值,所述Yi,j为所述第二像素集合中第i行第j列的像素值,所述H为所述证件样本图像的高度,所述W为所述证件样本图像的宽度,所述Mi,j为所述第一像素集合中的第i行第j列的像素点的权重;

和/或,根据第一像素集合中的像素值、第二像素集合中的像素值、对应的所述像素点的权重以及所述证件样本图像的大小,计算目标平均绝对值,包括:根据第二公式计算所述目标平均绝对值Laverage;

所述第二公式包括:

和/或,根据第一像素集合中的像素值、第二像素集合中的像素值、对应的所述像素点的权重以及所述证件样本图像的大小,计算召回率,包括:根据第三公式计算所述召回率Lrecall;

所述第三公式包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述相似度、所述目标平均绝对值、所述召回率、第一固定系数和第二固定系数,计算所述第二损失值,包括:根据第四公式计算所述第二损失值L2;

所述第四公式包括:L2=Ldice+αLaverage+βLrecall,所述α为所述第一固定系数,所述β为所述第二固定系数。

6.根据权利要求1‑5中任一项所述的方法,其特征在于,所述第一区域的权重为0,所述第二区域的权重小于所述第三区域的权重,且所述第二区域的权重和所述第三区域的权重均大于0。

7.一种证件图像处理装置,其特征在于,所述装置包括:

训练单元,用于基于训练集分别对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型,所述训练集包括多张证件样本图像和所述多张证件样本图像对应的真值标注文件,所述证件样本图像中存在重叠的key文本行区域和所述key文本行区域对应的value文本行区域,且所述真值标注文件包括每张所述证件样本图像中key字符的第一外接矩形框真值标记、所述key字符的索引标记、value文本行区域的第二外接矩形框真值标记以及所述value字符的真值标记,所述key字符为所述key文本行区域中的字符,所述value字符为所述value文本行区域中的字符;

处理单元,用于利用所述初始证件图像文本行分割模型对所述证件样本图像进行处理,获得所述key字符的第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、预测的所述key字符的置信度、value文本行区域的第二预测外接矩形框信息,以及从每张所述证件样本图像中分割出的value文本行预测图像,所述value文本行预测图像中包括预测的完整的value文本行,且仅包括value字符;

第一计算单元,用于根据所述第一预测外接矩形框信息、所述第一外接矩形框真值标记、所述第二预测外接矩形框信息和所述第二外接矩形框真值标记,计算第一损失值;

确定单元,用于根据所述第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、所述置信度、所述第二预测外接矩形框信息、第一置信度范围和第二置信度范围,确定每张所述证件样本图像中的第一区域、第二区域和第三区域,并为所述第一区域、所述第二区域和所述第三区域分配权重,所述第一置信度范围包括所述置信度大于或者等于第一置信度阈值,所述第二置信度范围包括所述置信度小于或者等于第二置信度阈值,所述第一置信度阈值大于所述第二置信度阈值,所述第一区域仅包含所述key字符,所述第三区域包括key字符和value字符,所述第二区域仅包含所述value字符;

第二计算单元,用于根据所述value文本行预测图像、所述value字符的真值标记、所述value文本行预测图像包含的每个像素点的权重以及所述证件样本图像的大小,计算第二损失值,所述像素点的权重为所述像素点所属区域的权重;

调整训练单元,用于根据所述第一损失值和所述第二损失值,对初始证件图像文本行分割模型的模型参数进行调整,并继续对调整后的初始证件图像文本行分割模型中的所述字符检测任务和所述文本行分割任务进行训练,直至满足收敛条件时,获得目标证件图像文本行分割模型;

所述确定单元包括:

区域确定模块,用于针对每张证件样本图像,根据所述证件样本图像的所述第一预测外接矩形框信息和所述第二预测外接矩形框信息,确定所述证件样本图像中的目标文本行区域,所述目标文本行区域包括所述key文本行区域和所述key文本行区域对应的value文本行区域的并集;

遍历模块,用于按照所述第一预测外接矩形框信息所对应key字符的索引从小到大的顺序,遍历所述第一预测外接矩形框信息对应的所述置信度是否满足所述第一置信度范围,直至首次不满足所述第一置信度范围时停止遍历;

边界确定模块,用于根据第一目标信息确定所述第一区域的右边界和所述第三区域的左边界,所述第一区域的左边界为所述目标文本行区域的左边界,所述第一目标信息为遍历的最后一个满足所述第一置信度范围的所述置信度所对应的所述第一预测外接矩形框信息;

删除模块,用于除遍历的满足所述第一置信度范围的所述置信度外,删除剩余的所述置信度中满足所述第二置信度范围的所述置信度;

边界确定模块,还用于根据第二目标信息确定所述第三区域的右边界和所述第二区域的左边界,所述第二区域的右边界为所述目标文本行区域的右边界,所述第二目标信息为删除操作后剩余的所述置信度所对应的最大索引的所述第一预测外接矩形框信息。

8.一种存储介质,其特征在于,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1‑6中任一项的方法。

9.一种电子设备,其特征在于,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1‑6中任一项的方法。

说明书 :

一种证件图像处理方法、装置、存储介质及电子设备

技术领域

[0001] 本申请实施例属于图像处理技术领域,尤其涉及一种证件图像处理方法、装置、存储介质及电子设备。

背景技术

[0002] 证件图像中文字的印刷很多分步进行的,首先印刷文档的一些key(关键字),在应用场景中再根据需要印刷value(值)信息,key往往是固定的,value是变化的。因为是分步进行的,很容易出现文本行中关键文本行印刷粘连的问题,主要是指key和value文本行印刷有重叠,导致将两个文本行定位成一个文本行。实际证件图像中这两个文本行在垂直方向有重叠粘连或者在水平方向有重叠粘连,或者二者兼而有之。如图1所示,“证件号”为key文本行,“123456”为value文本行,key和value有重叠。
[0003] 但是,在证件图像中的关键文本行印刷粘连的情况下,会导致基于神经网络模型对证件图像进行文本识别的结果不准确。

发明内容

[0004] 本申请提供了一种证件图像处理方法、装置、存储介质及电子设备,能够解决在证件图像中的关键文本行印刷粘连的情况下,会导致基于神经网络模型对证件图像进行文本识别的结果不准确的问题。
[0005] 具体的技术方案如下:
[0006] 第一方面,本申请实施例提供了一种证件图像处理方法,所述方法包括:
[0007] 基于训练集分别对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型,所述训练集包括多张证件样本图像和所述多张证件样本图像对应的真值标注文件,所述证件样本图像中存在重叠的key文本行区域和所述key文本行区域对应的value文本行区域,且所述真值标注文件包括每张所述证件样本图像中key字符的第一外接矩形框真值标记、所述key字符的索引标记、value文本行区域的第二外接矩形框真值标记以及所述value字符的真值标记,所述key字符为所述key文本行区域中的字符,所述value字符为所述value文本行区域中的字符;
[0008] 利用所述初始证件图像文本行分割模型对所述证件样本图像进行处理,获得所述key字符的第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、预测的所述key字符的置信度、value文本行区域的第二预测外接矩形框信息,以及从每张所述证件样本图像中分割出的value文本行预测图像,所述value文本行预测图像中包括预测的完整的value文本行,且仅包括value字符;
[0009] 根据所述第一预测外接矩形框信息、所述第一外接矩形框真值标记、所述第二预测外接矩形框信息和所述第二外接矩形框真值标记,计算第一损失值;
[0010] 根据所述第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、所述置信度、所述第二预测外接矩形框信息、第一置信度范围和第二置信度范围,确定每张所述证件样本图像中的第一区域、第二区域和第三区域,并为所述第一区域、所述第二区域和所述第三区域分配权重,所述第一置信度范围包括所述置信度大于或者等于第一置信度阈值,所述第二置信度范围包括所述置信度小于或者等于第二置信度阈值,所述第一置信度阈值大于所述第二置信度阈值,所述第一区域仅包含所述key字符,所述第三区域包括key字符和value字符,所述第二区域仅包含所述value字符;
[0011] 根据所述value文本行预测图像、所述value字符的真值标记、所述value文本行预测图像包含的每个像素点的权重以及所述证件样本图像的大小,计算第二损失值,所述像素点的权重为所述像素点所属区域的权重;
[0012] 根据所述第一损失值和所述第二损失值,对初始证件图像文本行分割模型的模型参数进行调整,并继续对调整后的初始证件图像文本行分割模型中的所述字符检测任务和所述文本行分割任务进行训练,直至满足收敛条件时,获得目标证件图像文本行分割模型。
[0013] 在一种实施方式中,所述根据所述第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、所述置信度、所述第二预测外接矩形框信息、第一置信度范围和第二置信度范围,确定每张所述证件样本图像中的第一区域、第二区域和第三区域,包括:
[0014] 针对每张证件样本图像,根据所述证件样本图像的所述第一预测外接矩形框信息和所述第二预测外接矩形框信息,确定所述证件样本图像中的目标文本行区域,所述目标文本行区域包括所述key文本行区域和所述key文本行区域对应的value文本行区域的并集;
[0015] 按照所述第一预测外接矩形框信息所对应key字符的索引从小到大的顺序,遍历所述第一预测外接矩形框信息对应的所述置信度是否满足所述第一置信度范围,直至首次不满足所述第一置信度范围时停止遍历,并根据第一目标信息确定所述第一区域的右边界和所述第三区域的左边界,所述第一区域的左边界为所述目标文本行区域的左边界,所述第一目标信息为遍历的最后一个满足所述第一置信度范围的所述置信度所对应的所述第
一预测外接矩形框信息;
[0016] 除遍历的满足所述第一置信度范围的所述置信度外,删除剩余的所述置信度中满足所述第二置信度范围的所述置信度;
[0017] 根据第二目标信息确定所述第三区域的右边界和所述第二区域的左边界,所述第二区域的右边界为所述目标文本行区域的右边界,所述第二目标信息为删除操作后剩余的所述置信度所对应的最大索引的所述第一预测外接矩形框信息。
[0018] 在一种实施方式中,当所述第一预测外接矩形框信息包括第一预测外接矩形框的左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度时,所述根据第一目标信息确定所述第一区域的右边界和所述第三区域的左边界,包括:
[0019] 根据所述第一目标信息中包含的所述左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度,计算所述第一目标信息所对应第一预测外接矩形框的右边界,并将所述第一目标信息所对应第一预测外接矩形框的右边界确定为所述第一区域的右边界和所述第三区域的左边界;
[0020] 和/或,所述根据第二目标信息确定所述第三区域的右边界和所述第二区域的左边界,包括:
[0021] 根据所述第二目标信息中包含的所述左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度,计算所述第二目标信息所对应第一预测外接矩形框的右边界,并将所述第二目标信息所对应第一预测外接矩形框的右边界确定为所述第三区域的右边界和所述第二区域的左边界。
[0022] 在一种实施方式中,所述根据所述value文本行预测图像、所述value字符的真值标记、所述value文本行预测图像包含的每个像素点的权重以及所述证件样本图像的大小,计算第二损失值,包括:
[0023] 根据第一像素集合中的像素值、第二像素集合中的像素值、对应的所述像素点的权重以及所述证件样本图像的大小,分别计算所述第一像素集合和所述第二像素集合的相似度、目标平均绝对值以及召回率,所述第一像素集合为所述value文本行预测图像包含的各个像素点的像素值集合,所述第二像素集合为所有所述value字符的真值标记对应的像素点的像素值集合,所述证件样本图像的大小包括图像宽度和图像高度,所述目标平均绝对值为所述第一像素集合中的像素值和与其对应的所述第二像素集合中的像素值之间归一化差的平均绝对值;
[0024] 根据所述相似度、所述目标平均绝对值、所述召回率、第一固定系数和第二固定系数,计算所述第二损失值。
[0025] 在一种实施方式中,根据第一像素集合中的像素值、第二像素集合中的像素值、对应的所述像素点的权重以及所述证件样本图像的大小,计算所述第一像素集合和所述第二像素集合的相似度,包括:根据第一公式计算所述相似度LDice;
[0026] 所述第一公式包括:
[0027]
[0028] 所述Xi,j为所述第一像素集合中的第i行第j列的像素值,所述Yi,j为所述第二像素集合中第i行第j列的像素值,所述H为所述证件样本图像的高度,所述W为所述证件样本图像的宽度,所述Mi,j为所述第一像素集合中的第i行第j列的像素点的权重;
[0029] 和/或,根据第一像素集合中的像素值、第二像素集合中的像素值、对应的所述像素点的权重以及所述证件样本图像的大小,计算目标平均绝对值,包括:根据第二公式计算所述目标平均绝对值Laverage;
[0030] 所述第二公式包括:
[0031]
[0032] 和/或,根据第一像素集合中的像素值、第二像素集合中的像素值、对应的所述像素点的权重以及所述证件样本图像的大小,计算召回率,包括:根据第三公式计算所述召回率Lrecall;
[0033] 所述第三公式包括:
[0034]
[0035] 在一种实施方式中,所述根据所述相似度、所述目标平均绝对值、所述召回率、第一固定系数和第二固定系数,计算所述第二损失值,包括:
[0036] 根据第四公式计算所述第二损失值L2;
[0037] 所述第四公式包括:L2=Ldice+αLaverage+βLrecall,所述α为所述第一固定系数,所述β为所述第二固定系数。
[0038] 在一种实施方式中,所述第一区域的权重为0,所述第二区域的权重小于所述第三区域的权重,且所述第二区域的权重和所述第三区域的权重均大于0。
[0039] 第二方面,本申请实施例提供了一种证件图像处理装置,所述装置包括:
[0040] 训练单元,用于基于训练集分别对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型,所述训练集包括多张证件样本图像和所述多张证件样本图像对应的真值标注文件,所述证件样本图像中存在重叠的key文本行区域和所述key文本行区域对应的value文本行区域,且所述真值标注文件包括每张所述证件样本图像中key字符的第一外接矩形框真值标记、所述key字符的索引标记、value文本行区域的第二外接矩形框真值标记以及所述value字符的真值标记,所述key字符为所述key文本行区域中的字符,所述value字符为所述value文本行区域中的字符;
[0041] 处理单元,用于利用所述初始证件图像文本行分割模型对所述证件样本图像进行处理,获得所述key字符的第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、预测的所述key字符的置信度、value文本行区域的第二预测外接矩形框信息,以及从每张所述证件样本图像中分割出的value文本行预测图像,所述value文本行预测图像中包括预测的完整的value文本行,且仅包括value字符;
[0042] 第一计算单元,用于根据所述第一预测外接矩形框信息、所述第一外接矩形框真值标记、所述第二预测外接矩形框信息和所述第二外接矩形框真值标记,计算第一损失值;
[0043] 确定单元,用于根据所述第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、所述置信度、所述第二预测外接矩形框信息、第一置信度范围和第二置信度范围,确定每张所述证件样本图像中的第一区域、第二区域和第三区域,并为所述第一区域、所述第二区域和所述第三区域分配权重,所述第一置信度范围包括所述置信度大于或者等于第一置信度阈值,所述第二置信度范围包括所述置信度小于或者等于第二置信度阈值,所述第一置信度阈值大于所述第二置信度阈值,所述第一区域仅包含所述key字符,所述第三区域包括key字符和value字符,所述第二区域仅包含所述value字符;
[0044] 第二计算单元,用于根据所述value文本行预测图像、所述value字符的真值标记、所述value文本行预测图像包含的每个像素点的权重以及所述证件样本图像的大小,计算第二损失值,所述像素点的权重为所述像素点所属区域的权重;
[0045] 调整训练单元,用于根据所述第一损失值和所述第二损失值,对初始证件图像文本行分割模型的模型参数进行调整,并继续对调整后的初始证件图像文本行分割模型中的所述字符检测任务和所述文本行分割任务进行训练,直至满足收敛条件时,获得目标证件图像文本行分割模型。
[0046] 在一种实施方式中,所述确定单元包括:
[0047] 区域确定模块,用于针对每张证件样本图像,根据所述证件样本图像的所述第一预测外接矩形框信息和所述第二预测外接矩形框信息,确定所述证件样本图像中的目标文本行区域,所述目标文本行区域包括所述key文本行区域和所述key文本行区域对应的value文本行区域的并集;
[0048] 遍历模块,用于按照所述第一预测外接矩形框信息所对应key字符的索引从小到大的顺序,遍历所述第一预测外接矩形框信息对应的所述置信度是否满足所述第一置信度范围,直至首次不满足所述第一置信度范围时停止遍历;
[0049] 边界确定模块,用于根据第一目标信息确定所述第一区域的右边界和所述第三区域的左边界,所述第一区域的左边界为所述目标文本行区域的左边界,所述第一目标信息为遍历的最后一个满足所述第一置信度范围的所述置信度所对应的所述第一预测外接矩形框信息;
[0050] 删除模块,用于除遍历的满足所述第一置信度范围的所述置信度外,删除剩余的所述置信度中满足所述第二置信度范围的所述置信度;
[0051] 边界确定模块,还用于根据第二目标信息确定所述第三区域的右边界和所述第二区域的左边界,所述第二区域的右边界为所述目标文本行区域的右边界,所述第二目标信息为删除操作后剩余的所述置信度所对应的最大索引的所述第一预测外接矩形框信息。
[0052] 在一种实施方式中,所述边界确定模块,用于当所述第一预测外接矩形框信息包括第一预测外接矩形框的左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度时,根据所述第一目标信息中包含的所述左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度,计算所述第一目标信息所对应第一预测外接矩形框的右边界,并将所述第一目标信息所对应第一预测外接矩形框的右边界确定为所述第一区域的右边界和所述第三区域的左边界;和/或,根据所述第二目标信息中包含的所述左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度,计算所述第二目标信息所对应第一预测外接矩形框的右边界,并将所述第二目标信息所对应第一预测外接矩形框的右边界确定为所述第三区域的右边界和所述第二区域的左边界。
[0053] 在一种实施方式中,所述第二计算单元包括:
[0054] 第一计算模块,用于根据第一像素集合中的像素值、第二像素集合中的像素值、对应的所述像素点的权重以及所述证件样本图像的大小,分别计算所述第一像素集合和所述第二像素集合的相似度、目标平均绝对值以及召回率,所述第一像素集合为所述value文本行预测图像包含的各个像素点的像素值集合,所述第二像素集合为所有所述value字符的真值标记对应的像素点的像素值集合,所述证件样本图像的大小包括图像宽度和图像高度,所述目标平均绝对值为所述第一像素集合中的像素值和与其对应的所述第二像素集合中的像素值之间归一化差的平均绝对值;
[0055] 第二计算模块,用于根据所述相似度、所述目标平均绝对值、所述召回率、第一固定系数和第二固定系数,计算所述第二损失值。
[0056] 在一种实施方式中,第一计算模块,用于根据第一公式计算所述相似度LDice;
[0057] 所述第一公式包括:
[0058]
[0059] 所述Xi,j为所述第一像素集合中的第i行第j列的像素值,所述Yi,j为所述第二像素集合中第i行第j列的像素值,所述H为所述证件样本图像的高度,所述W为所述证件样本图像的宽度,所述Mi,j为所述第一像素集合中的第i行第j列的像素点的权重;
[0060] 和/或,根据第二公式计算所述目标平均绝对值Laverage;
[0061] 所述第二公式包括:
[0062]
[0063] 和/或,根据第三公式计算所述召回率Lrecall;
[0064] 所述第三公式包括:
[0065]
[0066] 在一种实施方式中,所述第二计算模块,用于根据第四公式计算所述第二损失值L2;
[0067] 所述第四公式包括:L2=Idice+αLaverage+βLrecall,所述α为所述第一固定系数,所述β为所述第二固定系数。
[0068] 在一种实施方式中,所述第一区域的权重为0,所述第二区域的权重小于所述第三区域的权重,且所述第二区域的权重和所述第三区域的权重均大于0。
[0069] 第三方面,本申请实施例提供了一种存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现第一方面所述的方法。
[0070] 第四方面,本申请实施例提供了一种电子设备,包括:
[0071] 一个或多个处理器;
[0072] 存储装置,用于存储一个或多个程序,
[0073] 当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现第一方面所述的方法。
[0074] 由上述内容可知,本申请实施例提供的一种证件图像处理方法、装置、存储介质及电子设备,能够先基于包括证件样本图像和真值标注文件的训练集,分别对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型,再利用初始证件图像文本行分割模型对证件样本图像进行处理,获得多个预测信息,包括key字符的第一预测外接矩形框信息、第一预测外接矩形框信息所对应key字符的索引、预测的key字符的置信度、value文本行区域的第二预测外接矩形框信息,以及从每张证件样本图像中分割出的value文本行预测图像,然后根据这些信息分别计算主要用于衡量字符检测任务的字符检测损失的第一损失值,以及主要用于衡量文本行分割任务的分割损失的第二损失值,并根据第一损失值和第二损失值,对初始证件图像文本行分割模型的模型参数进行调整,并继续对调整后的初始证件图像文本行分割模型中的字符检测任务和文本行分割任务进行训练,直至满足收敛条件时,获得目标证件图像文本行分割模型,从而可以基于该目标证件图像文本行分割模型准确识别并分割出存在重叠的证件图像中包含的文本内容。当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
[0075] 本申请实施例还可以实现如下技术效果:
[0076] 1、本申请实施例可以先根据证件样本图像的第一预测外接矩形框信息和第二预测外接矩形框信息,确定证件样本图像中的目标文本行区域,即key文本行区域和value文本行区域的并集,然后通过遍历第一预测外接矩形框信息对应的置信度是否满足第一置信度范围的方式确定第一区域的右边界和第三区域的左边界,最后在删除剩余的置信度中满足第二置信度范围的置信度之后,根据剩余置信度所对应的第一预测外接矩形框信息确定第三区域的右边界和第二区域的左边界,由此准确地划分出三个区域,从而提高了第二损失值的准确性。
[0077] 2、本申请实施例仅通过第一预测外接矩形框的左上角点坐标、第一预测外接矩形框的高度和第一预测外接矩形框的宽度便可以准确地表示一个第一预测外接矩形框,而无需保存每个第一预测外接矩形框上每个像素点坐标,并且根据这三个信息也可以准确且快速的计算确定第一区域的右边界、第三区域的左边界、第三区域的右边界、以及第二区域的左边界,从而在节省存储空间的基础上,能够实现对三个区域的准确划分。
[0078] 3、本申请实施例可以先根据第一像素集合中的像素值、第二像素集合中的像素值、对应的像素点的权重以及证件样本图像的大小,分别计算第一像素集合和第二像素集合的相似度、目标平均绝对值以及召回率,再根据相似度、目标平均绝对值、召回率、第一固定系数和第二固定系数,计算所述第二损失值,相似度和目标平均绝对值可以提现出分割精度,召回率可以提现出分割召回率,所以本申请实施例可以根据分割精度和分割召回率综合计算第二损失值,提高了第二损失值的准确性,进而提高了目标证件图像文本行分割模型的准确性。
[0079] 4、本申请实施例可以根据第一公式准确计算相似度、第二公式准确计算目标平均绝对值、第三公式准确计算召回率。
[0080] 5、本申请实施例可以在分别为目标平均绝对值和召回率增加一个固定系数后,将这两者与相似度进行相加作为第二损失值,与直接将三者相加相比,可以更加准确地提现出三者在第二损失值中所占的比重,从而进一步提高第二损失值的准确性。
[0081] 6、本申请实施例在为三个区域分配权重时,可以将第一区域的权重分配为0,将第二区域的第三区域的权重均分配为大于0的数值,且第二区域的权重小于第三区域,从而可以准确地体现这三个区域对第二损失值的影响,进而提高了第二损失值的准确性。

附图说明

[0082] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0083] 图1为相关技术中提供的一种存在重叠文本行的证件图像的示例图;
[0084] 图2为本申请实施例提供的一种证件图像处理方法的流程示意图;
[0085] 图3为本申请实施例提供的一种区域划分的示例图;
[0086] 图4为本申请实施例提供的一种证件图像处理装置的组成框图。

具体实施方式

[0087] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0088] 需要说明的是,本申请实施例及附图中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0089] 图2为本申请实施例提供的一种证件图像处理方法的流程示意图,该方法可以应用于电子设备,该电子设备可以为终端,也可以为服务器,该方法可以包括如下步骤:
[0090] S110、基于训练集分别对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型。
[0091] 其中,训练集包括多张证件样本图像和多张证件样本图像对应的真值标注文件,证件样本图像中存在重叠的key文本行区域和key文本行区域对应的value文本行区域,且真值标注文件包括每张证件样本图像中key字符的第一外接矩形框真值标记、key字符的索引标记、value文本行区域的第二外接矩形框真值标记以及value字符的真值标记,key字符为key文本行区域中的字符,value字符为value文本行区域中的字符。
[0092] 若图1为一张证件样本图像中的部分文本内容,则“证”、“件”、“号”分别为key字符,“1”、“2”、“3”、“4”、“5”、“6”分别为value字符,“证件号”的外接矩形构成的区域为key文本行区域,“123456”的外接矩形构成的区域为value文本行区域,在对该证件图像进行真值标注时,可以记录“证”、“件”、“号”这三个key字符中每个字符的第一外接矩形框真值标记,这三个key字符的索引标记,“123456”的第二外接矩形框真值标记,以及“1”、“2”、“3”、“4”、“5”、“6”的value字符的真值标记。key字符的索引从左向右依次增大。
[0093] 在获得包括多张证件样本图像和多张证件样本图像对应的真值标注文件的训练集后,可以基于该训练集分别对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型。其中,字符检测任务用于检测每个key字符的信息以及value文本行区域的信息,可以采用Faster R‑CNN(Faster Region Convolutional Neural Network,快速区域卷积神经网络)、YOLO(You Only Look Once)等目标检测网络;文本行分割任务用于分割出仅包括value字符的完整value文本行,即下述提及的value文本行预测图像。
[0094] 需要说明的是,本申请实施例的证件图像包括以下特点:key文本行中的key字符固定不变,与key文本行对应的value文本行中的value字符存在变化,例如不同人具体证件号不同。但是key字符和value字符均可以由数字、汉字、英文字母、特殊符号等至少一种字符组成,并且所使用的字体可以相同,也可以不同。
[0095] S120、利用初始证件图像文本行分割模型对证件样本图像进行处理,获得key字符的第一预测外接矩形框信息、第一预测外接矩形框信息所对应key字符的索引、预测的key字符的置信度、value文本行区域的第二预测外接矩形框信息,以及从每张证件样本图像中分割出的value文本行预测图像。
[0096] 利用初始证件图像文本行分割模型中的字符检测任务对证件样本图像进行处理,获得key字符的第一预测外接矩形框信息、第一预测外接矩形框信息所对应key字符的索引、预测的key字符的置信度,利用利用初始证件图像文本行分割模型中的文本行分割任务对证件样本图像进行处理,获得value文本行区域的第二预测外接矩形框信息以及从每张证件样本图像中分割出的value文本行预测图像。
[0097] 第一预测外接矩形框信息包括第一预测外接矩形框的左上角点坐标、第一预测外接矩形框的高度和第一预测外接矩形框的宽度。预测的key字符的置信度是指预测出的key字符实际上属于key字符的置信度。第二预测外接矩形框信息也可以包括第二预测外接矩形框的左上角点坐标、第二预测外接矩形框的高度和宽度。value文本行预测图像中包括预测的完整的value文本行,且仅包括value字符。
[0098] 在根据多张证件样本图像和多张证件样本图像对应的真值标注文件训练得到初始证件图像文本行分割模型之后,可以利用该初始证件图像文本行分割模型对证件样本图像进行处理,预测出key字符的第一预测外接矩形框信息、第一预测外接矩形框信息所对应key字符的索引、预测的key字符的置信度、value文本行区域的第二预测外接矩形框信息,以及从每张证件样本图像中分割出的value文本行预测图像,以便后续根据预测出的这些信息计算第一损失值和第二损失值,根据第一损失值和第二损失值对初始证件图像文本行分割模型的模型参数进行调整。
[0099] S130、根据第一预测外接矩形框信息、第一外接矩形框真值标记、第二预测外接矩形框信息和第二外接矩形框真值标记,计算第一损失值。
[0100] 第一外接矩形框真值标记可以包括真实的第一外接矩形框的左上角点坐标、高度和宽度,第二外接矩形框真值标记可以包括真实的第二外接矩形框的左上角点坐标、高度和宽度。本申请实施例可以通过计算第一预测外接矩形框信息和第一外接矩形框真值标记的差值,第二预测外接矩形框信息和第二外接矩形框真值标记的差值,并通过计算这两个差值之和确定第一损失值,当然计算第一损失值的方法不限于此,也可以采用其他方法计算。
[0101] S140、根据第一预测外接矩形框信息、第一预测外接矩形框信息所对应key字符的索引、置信度、第二预测外接矩形框信息、第一置信度范围和第二置信度范围,确定每张证件样本图像中的第一区域、第二区域和第三区域,并为第一区域、第二区域和第三区域分配权重。
[0102] 第一置信度范围包括置信度大于或者等于第一置信度阈值,第二置信度范围包括置信度小于或者等于第二置信度阈值,第一置信度阈值大于第二置信度阈值。例如,第一置信度阈值可以为0.9,第一置信度范围为[0.9,1],第二置信度阈值可以为0.3,第二置信度范围为[0,0.3]。
[0103] 第一区域仅包含key字符,第三区域包括key字符和value字符,第二区域仅包含value字符。如图3所示,第一区域仅包括“证”和“件”两个key字符,第二区域仅包括“3”、“4”、“5”和“6”四个value字符,第三区域既包括key字符“号”,又包括value字符“1”和“2”。
[0104] 由于为这三个区域分配权重主要用于计算第二损失值,即主要用于计算value文本行的损失,所以第一区域与value字符无关,可以将第一区域的权重分配为0,而第二区域与第三区域均与value字符相关,且第三区域与从重叠部分分割出value字符关系密切,第三区域分割出value字符准确性直接影响了第二损失值的准确性,所以可以设置第二区域的权重小于第三区域的权重,且第二区域的权重和第三区域的权重均大于0。如第三区域的权重可以为第二区域的1.3倍。
[0105] 在一种实施方式中,可以通过步骤A1‑A4确定第一区域、第二区域和第三区域:
[0106] (A1)针对每张证件样本图像,根据证件样本图像的第一预测外接矩形框信息和第二预测外接矩形框信息,确定证件样本图像中的目标文本行区域。
[0107] 目标文本行区域包括key文本行区域和key文本行区域对应的value文本行区域的并集。当第一预测外接矩形框信息包括第一预测外接矩形框的左上角点坐标、高度和宽度,第二预测外接矩形框信息包括第二预测外接矩形框的左上角点坐标、高度和宽度时,可以将根据索引最小的key字符的第一预测外接矩形框的左上角点坐标和高度确定的左边界作为目标文本行区域的左边界,将根据第二预测外接矩形框的左上角点坐标、高度和宽度确定的右边界作为目标文本行区域的右边界。
[0108] (A2)按照第一预测外接矩形框信息所对应key字符的索引从小到大的顺序,遍历第一预测外接矩形框信息对应的置信度是否满足第一置信度范围,直至首次不满足第一置信度范围时停止遍历,并根据第一目标信息确定第一区域的右边界和第三区域的左边界。
[0109] 第一区域的左边界为目标文本行区域的左边界,第一目标信息为遍历的最后一个满足第一置信度范围的置信度所对应的第一预测外接矩形框信息,如第一个key字符和第二key字符的置信度均满足第一置信度范围,而第三个key字符的置信度不满足第一置信度范围,则可以确定第一目标信息为第二个key字符所对应的第一预测外接矩形框信息。
[0110] 当第一预测外接矩形框信息包括第一预测外接矩形框的左上角点坐标、第一预测外接矩形框的高度和第一预测外接矩形框的宽度时,根据第一目标信息确定第一区域的右边界和第三区域的左边界的具体实现方式包括:根据第一目标信息中包含的左上角点坐标、第一预测外接矩形框的高度和第一预测外接矩形框的宽度,计算第一目标信息所对应第一预测外接矩形框的右边界,并将第一目标信息所对应第一预测外接矩形框的右边界确定为第一区域的右边界和第三区域的左边界。
[0111] 第一目标信息中包含的左上角点坐标和第一预测外接矩形框的宽度可以计算出第一预测外接矩形框的右上角坐标,根据右上角坐标和第一预测外接矩形框的高度可以计算出第一预测外接矩形框的右下角坐标,根据右上角坐标和右下角坐标可以确定第一目标信息所对应第一预测外接矩形框的右边界。
[0112] (A3)除遍历的满足第一置信度范围的置信度外,删除剩余的置信度中满足第二置信度范围的置信度,即删除剩余的置信度中小于或者等于第二置信度阈值的置信度,获得大于第二置信度阈值且小于第一置信度阈值的置信度。
[0113] (A4)根据第二目标信息确定第三区域的右边界和第二区域的左边界。
[0114] 第二区域的右边界为目标文本行区域的右边界,第二目标信息为删除操作后剩余的置信度所对应的最大索引的第一预测外接矩形框信息。
[0115] 当第一预测外接矩形框信息包括第一预测外接矩形框的左上角点坐标、第一预测外接矩形框的高度和第一预测外接矩形框的宽度时,本步骤的具体实现方式包括:根据第二目标信息中包含的左上角点坐标、第一预测外接矩形框的高度和第一预测外接矩形框的宽度,计算第二目标信息所对应第一预测外接矩形框的右边界,并将第二目标信息所对应第一预测外接矩形框的右边界确定为第三区域的右边界和第二区域的左边界。
[0116] 第二目标信息中包含的左上角点坐标和第二预测外接矩形框的宽度可以计算出第二预测外接矩形框的右上角坐标,根据右上角坐标和第二预测外接矩形框的高度可以计算出第二预测外接矩形框的右下角坐标,根据右上角坐标和右下角坐标可以确定第二目标信息所对应第二预测外接矩形框的右边界,最后将第二目标信息所对应第一预测外接矩形框的右边界确定为第三区域的右边界和第二区域的左边界。
[0117] 本申请实施例可以先根据证件样本图像的第一预测外接矩形框信息和第二预测外接矩形框信息,确定证件样本图像中的目标文本行区域,即key文本行区域和value文本行区域的并集,然后通过遍历第一预测外接矩形框信息对应的置信度是否满足第一置信度范围的方式确定第一区域的右边界和第三区域的左边界,最后在删除剩余的置信度中满足第二置信度范围的置信度之后,根据剩余置信度所对应的第一预测外接矩形框信息确定第三区域的右边界和第二区域的左边界,由此准确地划分出三个区域,从而提高了第二损失值的准确性。此外,本申请实施例仅通过第一预测外接矩形框的左上角点坐标、第一预测外接矩形框的高度和第一预测外接矩形框的宽度便可以准确地表示一个第一预测外接矩形
框,而无需保存每个第一预测外接矩形框上每个像素点坐标,并且根据这三个信息也可以准确且快速的计算确定第一区域的右边界、第三区域的左边界、第三区域的右边界、以及第二区域的左边界,从而在节省存储空间的基础上,能够实现对三个区域的准确划分。
[0118] S150、根据value文本行预测图像、value字符的真值标记、value文本行预测图像包含的每个像素点的权重以及证件样本图像的大小,计算第二损失值。
[0119] 其中,像素点的权重为像素点所属区域的权重,如某像素点在第三区域内,则该像素点的权重是之前为第三区域分配的权重。
[0120] 计算第二损失值的具体方法包括:根据第一像素集合中的像素值、第二像素集合中的像素值、对应的像素点的权重以及证件样本图像的大小,分别计算第一像素集合和第二像素集合的相似度、目标平均绝对值以及召回率,第一像素集合为value文本行预测图像包含的各个像素点的像素值集合,第二像素集合为所有value字符的真值标记对应的像素点的像素值集合,证件样本图像的大小包括图像宽度和图像高度,目标平均绝对值为第一像素集合中的像素值和与其对应的第二像素集合中的像素值之间归一化差的平均绝对值;根据相似度、目标平均绝对值、召回率、第一固定系数和第二固定系数,计算第二损失值。
[0121] 其中,可以根据第一公式计算相似度LDice;
[0122] 第一公式包括:
[0123]
[0124] Xi,j为第一像素集合中的第i行第j列的像素值,Yi,j为第二像素集合中第i行第j列的像素值,H为证件样本图像的高度,W为证件样本图像的宽度,Mi,j为第一像素集合中的第i行第j列的像素点的权重;
[0125] 和/或,根据第二公式计算目标平均绝对值Laverage;
[0126] 第二公式包括:
[0127]
[0128] 和/或,根据第三公式计算召回率Lrecall;
[0129] 第三公式包括:
[0130]
[0131] 此外,可以根据第四公式计算第二损失值L2,其中,第四公式包括:L2=Ldice+αLaverage+βLrecall,α为第一固定系数,β为第二固定系数,α和β的取值范围可以为[0,1],具体根据实际经验确定,α和β分别用于调节Laverage与Ldice的相互作用,Lrecall与Ldice的相互作用。
[0132] 本申请实施例可以先根据第一像素集合中的像素值、第二像素集合中的像素值、对应的像素点的权重以及证件样本图像的大小,分别计算第一像素集合和第二像素集合的相似度、目标平均绝对值以及召回率,再根据相似度、目标平均绝对值、召回率、第一固定系数和第二固定系数,计算所述第二损失值,相似度和目标平均绝对值可以提现出分割精度,召回率可以提现出分割召回率,所以本申请实施例可以根据分割精度和分割召回率综合计算第二损失值,提高了第二损失值的准确性,进而提高了目标证件图像文本行分割模型的准确性。此外,本申请实施例可以在分别为目标平均绝对值和召回率增加一个固定系数后,将这两者与相似度进行相加作为第二损失值,与直接将三者相加相比,可以更加准确地提现出三者在第二损失值中所占的比重,从而进一步提高第二损失值的准确性。
[0133] S160、根据第一损失值和第二损失值,对初始证件图像文本行分割模型的模型参数进行调整,并继续对调整后的初始证件图像文本行分割模型中的字符检测任务和文本行分割任务进行训练,直至满足收敛条件时,获得目标证件图像文本行分割模型。
[0134] 在获得第一损失值和第二损失值后,可以根据第一损失值和第二损失值之和,对初始证件图像文本行分割模型中字符检测任务和文本行分割任务的共享卷积层进行调整,根据第一损失值对字符检测任务的独享卷积层进行调整,根据第二损失值对文本行分割任务的独享卷积层进行调整。其中,字符检测任务和文本行分割任务的共享卷积层包括对证件样本图像进行文本特征向量提取等所涉及的计算内容相同的卷积层。
[0135] 本申请实施例提供的一种证件图像处理方法,能够先基于包括证件样本图像和真值标注文件的训练集,分别对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型,再利用初始证件图像文本行分割模型对证件样本图像进行处理,获得多个预测信息,包括key字符的第一预测外接矩形框信息、第一预测外接矩形框信息所对应key字符的索引、预测的key字符的置信度、value文本行区域的第二预测外接矩形框信息,以及从每张证件样本图像中分割出的value文本行预测图像,然后根据这些信息分别计算主要用于衡量字符检测任务的字符检测损失的第一损失值,以及主要用于衡量文本行分割任务的分割损失的第二损失值,并根据第一损失值和第二损失值,对初始证件图像文本行分割模型的模型参数进行调整,并继续对调整后的初始证件图像文本行分割模型中的字符检测任务和文本行分割任务进行训练,直至满足收敛条件时,获得目标证件图像文本行分割模型,从而可以基于该目标证件图像文本行分割模型准确识别并分割出存在重叠的证件图像中包含的文本内容。
[0136] 相应于上述方法实施例,本申请实施例提供了一种证件图像处理装置,如图4所示,所述装置包括:
[0137] 训练单元210,用于基于训练集分别对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型,所述训练集包括多张证件样本图像和所述多张证件样本图像对应的真值标注文件,所述证件样本图像中存在重叠的key文本行区域和所述key文本行区域对应的value文本行区域,且所述真值标注文件包括每张所述证件样本图像中key字符的第一外接矩形框真值标记、所述key字符的索引标记、value文本行区域的第二外接矩形框真值标记以及所述value字符的真值标记,所述key字符为所述key文本行区域中的字符,所述value字符为所述value文本行区域中的字符;
[0138] 处理单元220,用于利用所述初始证件图像文本行分割模型对所述证件样本图像进行处理,获得所述key字符的第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、预测的所述key字符的置信度、value文本行区域的第二预测外接矩形框信息,以及从每张所述证件样本图像中分割出的value文本行预测图像,所述value文本行预测图像中包括预测的完整的value文本行,且仅包括value字符;
[0139] 第一计算单元230,用于根据所述第一预测外接矩形框信息、所述第一外接矩形框真值标记、所述第二预测外接矩形框信息和所述第二外接矩形框真值标记,计算第一损失值;
[0140] 确定单元240,用于根据所述第一预测外接矩形框信息、所述第一预测外接矩形框信息所对应key字符的索引、所述置信度、所述第二预测外接矩形框信息、第一置信度范围和第二置信度范围,确定每张所述证件样本图像中的第一区域、第二区域和第三区域,并为所述第一区域、所述第二区域和所述第三区域分配权重,所述第一置信度范围包括所述置信度大于或者等于第一置信度阈值,所述第二置信度范围包括所述置信度小于或者等于第二置信度阈值,所述第一置信度阈值大于所述第二置信度阈值,所述第一区域仅包含所述key字符,所述第三区域包括key字符和value字符,所述第二区域仅包含所述value字符;
[0141] 第二计算单元250,用于根据所述value文本行预测图像、所述value字符的真值标记、所述value文本行预测图像包含的每个像素点的权重以及所述证件样本图像的大小,计算第二损失值,所述像素点的权重为所述像素点所属区域的权重;
[0142] 调整训练单元260,用于根据所述第一损失值和所述第二损失值,对初始证件图像文本行分割模型的模型参数进行调整,并继续对调整后的初始证件图像文本行分割模型中的所述字符检测任务和所述文本行分割任务进行训练,直至满足收敛条件时,获得目标证件图像文本行分割模型。
[0143] 在一种实施方式中,所述确定单元240包括:
[0144] 区域确定模块,用于针对每张证件样本图像,根据所述证件样本图像的所述第一预测外接矩形框信息和所述第二预测外接矩形框信息,确定所述证件样本图像中的目标文本行区域,所述目标文本行区域包括所述key文本行区域和所述key文本行区域对应的value文本行区域的并集;
[0145] 遍历模块,用于按照所述第一预测外接矩形框信息所对应key字符的索引从小到大的顺序,遍历所述第一预测外接矩形框信息对应的所述置信度是否满足所述第一置信度范围,直至首次不满足所述第一置信度范围时停止遍历;
[0146] 边界确定模块,用于根据第一目标信息确定所述第一区域的右边界和所述第三区域的左边界,所述第一区域的左边界为所述目标文本行区域的左边界,所述第一目标信息为遍历的最后一个满足所述第一置信度范围的所述置信度所对应的所述第一预测外接矩形框信息;
[0147] 删除模块,用于除遍历的满足所述第一置信度范围的所述置信度外,删除剩余的所述置信度中满足所述第二置信度范围的所述置信度;
[0148] 边界确定模块,还用于根据第二目标信息确定所述第三区域的右边界和所述第二区域的左边界,所述第二区域的右边界为所述目标文本行区域的右边界,所述第二目标信息为删除操作后剩余的所述置信度所对应的最大索引的所述第一预测外接矩形框信息。
[0149] 在一种实施方式中,所述边界确定模块,用于当所述第一预测外接矩形框信息包括第一预测外接矩形框的左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度时,根据所述第一目标信息中包含的所述左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度,计算所述第一目标信息所对应第一预测外接矩形框的右边界,并将所述第一目标信息所对应第一预测外接矩形框的右边界确定为所述第一区域的右边界和所述第三区域的左边界;和/或,根据所述第二目标信息中包含的所述左上角点坐标、所述第一预测外接矩形框的高度和所述第一预测外接矩形框的宽度,计算所述第二目标信息所对应第一预测外接矩形框的右边界,并将所述第二目标信息所对应第一预测外接矩形框的右边界确定为所述第三区域的右边界和所述第二区域的左边界。
[0150] 在一种实施方式中,所述第二计算单元250包括:
[0151] 第一计算模块,用于根据第一像素集合中的像素值、第二像素集合中的像素值、对应的所述像素点的权重以及所述证件样本图像的大小,分别计算所述第一像素集合和所述第二像素集合的相似度、目标平均绝对值以及召回率,所述第一像素集合为所述value文本行预测图像包含的各个像素点的像素值集合,所述第二像素集合为所有所述value字符的真值标记对应的像素点的像素值集合,所述证件样本图像的大小包括图像宽度和图像高度,所述目标平均绝对值为所述第一像素集合中的像素值和与其对应的所述第二像素集合中的像素值之间归一化差的平均绝对值;
[0152] 第二计算模块,用于根据所述相似度、所述目标平均绝对值、所述召回率、第一固定系数和第二固定系数,计算所述第二损失值。
[0153] 在一种实施方式中,第一计算模块,用于根据第一公式计算所述相似度LDice;
[0154] 所述第一公式包括:
[0155]
[0156] 所述Xi,j为所述第一像素集合中的第i行第j列的像素值,所述Yi,j为所述第二像素集合中第i行第j列的像素值,所述H为所述证件样本图像的高度,所述W为所述证件样本图像的宽度,所述Mi,j为所述第一像素集合中的第i行第j列的像素点的权重;
[0157] 和/或,根据第二公式计算所述目标平均绝对值Laverage;
[0158] 所述第二公式包括:
[0159]
[0160] 和/或,根据第三公式计算所述召回率Lrecall;
[0161] 所述第三公式包括:
[0162]
[0163] 在一种实施方式中,所述第二计算模块,用于根据第四公式计算所述第二损失值L2;
[0164] 所述第四公式包括:L2=Ldice+αLaverage+βLrecall,所述α为所述第一固定系数,所述β为所述第二固定系数。
[0165] 在一种实施方式中,所述第一区域的权重为0,所述第二区域的权重小于所述第三区域的权重,且所述第二区域的权重和所述第三区域的权重均大于0。
[0166] 本申请实施例提供的一种证件图像处理装置,能够先基于包括证件样本图像和真值标注文件的训练集,分别对字符检测任务和文本行分割任务进行训练,获得初始证件图像文本行分割模型,再利用初始证件图像文本行分割模型对证件样本图像进行处理,获得多个预测信息,包括key字符的第一预测外接矩形框信息、第一预测外接矩形框信息所对应key字符的索引、预测的key字符的置信度、value文本行区域的第二预测外接矩形框信息,以及从每张证件样本图像中分割出的value文本行预测图像,然后根据这些信息分别计算主要用于衡量字符检测任务的字符检测损失的第一损失值,以及主要用于衡量文本行分割任务的分割损失的第二损失值,并根据第一损失值和第二损失值,对初始证件图像文本行分割模型的模型参数进行调整,并继续对调整后的初始证件图像文本行分割模型中的字符检测任务和文本行分割任务进行训练,直至满足收敛条件时,获得目标证件图像文本行分割模型,从而可以基于该目标证件图像文本行分割模型准确识别并分割出存在重叠的证件图像中包含的文本内容。
[0167] 基于上述方法实施例,本申请的另一实施例提供了一种存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的方法。
[0168] 基于上述方法实施例,本申请的另一实施例提供了一种电子设备,包括:
[0169] 一个或多个处理器;
[0170] 存储装置,用于存储一个或多个程序,
[0171] 当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
[0172] 上述系统、装置实施例与方法实施例相对应,与该方法实施例具有同样的技术效果,具体说明参见方法实施例。装置实施例是基于方法实施例得到的,具体的说明可以参见方法实施例部分,此处不再赘述。本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
[0173] 本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
[0174] 最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。