一种基于图神经网络识别证件的方法及系统转让专利
申请号 : CN202010870570.1
文献号 : CN112016438B
文献日 : 2021-08-10
发明人 : 汪昊 , 张天明 , 王智恒 , 王树栋 , 薛韬略 , 周士奇 , 程博 , 毕潇
申请人 : 北京嘀嘀无限科技发展有限公司
摘要 :
权利要求 :
1.一种基于图神经网络识别证件的方法,包括:获取待识别图像;
检测所述待识别图像中包含的内容文本,并基于证件的类型确定多个检测框;
基于所述多个检测框构建版面图;其中,所述版面图包括多个节点和多个边,所述节点对应所述检测框,所述边对应所述检测框与其它检测框之间的空间位置关系;
利用训练好的图神经网络模型对所述版面图进行处理,确定所述版面图中所述检测框的字段类别,基于所述字段类别识别所述证件;
训练所述训练好的图神经网络模型包括:获取样本训练集,所述样本训练集包括:基于所述证件的多个样本图像建立的多个样本版面图,和所述样本版面图的至少一个样本节点对应的标签;其中,所述样本图像为所述证件的完整图像、所述证件的非完整图像和所述证件的不同排版的图像;
所述样本版面图的样本节点对应所述样本图像的样本检测框,所样本版面图中样本边对应所述样本检测框与其它样本检测框之间的空间位置关系,所述样本节点对应的标签表征所述样本节点对应的样本检测框中字段的类别;
基于所述样本训练集,训练得到所述训练好的图神经网络模型;其中,训练的损失函数基于所述样本节点对应的标签和所述样本节点输出的预测值之间的差异建立。
2.如权利要求1所述的方法,所述检测所述待识别图像中包含的内容文本,确定多个检测框,包括:
获取所述证件的类型;
基于文本检测算法对所述待识别图像进行处理,确定多个文本框;
当所述类型属于预设类型,基于所述预设类型对应的预设规则对所述多个文本框进行处理,确定所述多个检测框。
3.如权利要求2所述的方法,所述预设类型对应的证件存在至少一个合并参考行,所述合并参考行中的字段类型相同,所述当所述类型属于预设类型,基于所述预设类型对应的预设规则对所述多个文本框进行处理,确定所述多个检测框,包括:确定所述证件中位于同一行的待合并文本框;
确定所述证件的至少一个待合并行,所述待合并行与所述合并参考行对应;
将所述待合并行的待合并文本框进行合并,确定所述检测框。
4.如权利要求3所述的方法,所述确定所述证件中位于同一行的待合并文本框,包括:判断所述文本框与其他文本框在竖直方向上对应的坐标值的重合度;
响应于所述重合度大于第一预设阈值,将所述文本框和所述其他文本框确定为所述位于同一行的待合并文本框。
5.如权利要求1所述的方法,所述检测所述待识别图像中包含的内容文本,确定多个检测框,包括:
基于文本检测算法对所述待识别图像进行处理,确定多个文本框;
判断所述文本框和其他文本框之间距离是否小于第二预设阈值,以及所述文本框中内容和所述其他文本框中内容的字号是否相同;
响应于所述文本框和所述其他文本框之间所述距离小于所述第二预设阈值,以及所述文本框中内容和所述其他文本框中内容的字号相同,合并所述文本框和所述其他文本框,确定所述检测框。
6.如权利要求1所述的方法,所述节点的特征反映以下信息中的一种或多种:所述检测框的位置、大小、形状和相关的图像信息,所述相关的图像信息是基于所述检测框确定的区域图像的相关信息。
7.如权利要求1所述的方法,所述边的特征反映以下信息中的一种或多种:所述检测框与所述其它检测框之间的距离信息和相对位置信息。
8.如权利要求1所述的方法,所述基于所述多个检测框构建版面图,包括:从所述多个检测框中,确定与所述检测框水平相邻或/和竖直相邻的至少一个其他检测框;
将所述多个检测框中每一个及其对应的至少一个其他检测框进行连接,构成所述版面图。
9.如权利要求1所述的方法,所述基于所述多个检测框构建版面图,包括:从所述多个检测框中,确定与所述检测框之间的距离满足预设要求的至少一个其他检测框;
将所述多个检测框中每一个及其对应的至少一个其他检测框进行连接,构成所述版面图。
10.如权利要求1所述的方法,所述基于所述字段类别识别证件,包括:基于所述检测框的字段类别,确定与预设业务相关的内容框;
基于识别算法对所述内容框中的文本进行识别,确定所述内容框中的文本内容。
11.一种基于图神经网络识别证件的系统,包括:获取模块,用于获取待识别图像;
检测模块,用于检测所述待识别图像中包含的内容文本,并基于证件的类型确定多个检测框;
构建模块,用于基于所述多个检测框构建版面图;其中,所述版面图包括多个节点和多个边,所述节点对应所述检测框,所述边对应所述检测框与其它检测框之间的空间位置关系;
分类模块,用于利用训练好的图神经网络模型对所述版面图进行处理,确定所述版面图中所述检测框的字段类别,基于所述字段类别识别所述证件;
所述图神经网络模型通过如下方法训练得到:获取样本训练集,所述样本训练集包括:基于所述证件的多个样本图像建立的多个样本版面图,和所述样本版面图的至少一个样本节点对应的标签,其中,所述样本图像为所述证件的完整图像、所述证件的非完整图像或所述证件的不同排版的图像;
所述样本版面图的样本节点对应所述样本图像的样本检测框,所样本版面图中样本边对应所述样本检测框与其它样本检测框之间的空间位置关系,所述样本节点对应的标签表征所述样本节点对应的样本检测框中字段的类别;
基于所述样本训练集,训练得到所述训练好的图神经网络模型;其中,训练的损失函数基于所述样本节点对应的标签和所述样本节点输出的预测值之间的差异建立。
12.如权利要求11所述的系统,所述检测模块用于:获取所述证件的类型;
基于文本检测算法对所述待识别图像进行处理,确定多个文本框;
当所述类型属于预设类型,基于所述预设类型对应的预设规则对所述多个文本框进行处理,确定所述多个检测框。
13.如权利要求12所述的系统,所述预设类型对应的证件存在至少一个合并参考行,所述合并参考行中的字段类型相同,所述检测模块用于:确定所述证件中位于同一行的待合并文本框;
确定所述证件的至少一个待合并行,所述待合并行与所述合并参考行对应;
将所述待合并行的待合并文本框进行合并,确定所述检测框。
14.如权利要求13所述的系统,所述检测模块用于:判断所述文本框与其他文本框在竖直方向上对应的坐标值的重合度;
响应于所述重合度大于第一预设阈值,将所述文本框和所述其他文本框为确定为所述位于同一行的待合并文本框。
15.如权利要求11所述的系统,所述检测模块用于:基于文本检测算法对所述待识别图像进行处理,确定多个文本框;
判断所述文本框和其他文本框之间距离是否小于第二预设阈值,以及所述文本框中内容和所述其他文本框中内容的字号是否相同;
响应于所述文本框和所述其他文本框之间所述距离小于所述第二预设阈值,以及所述文本框中内容和所述其他文本框中内容的字号相同,合并所述文本框和所述其他文本框,确定所述检测框。
16.如权利要求11所述的系统,所述节点的特征反映以下信息中的一种或多种:所述检测框的位置、大小、形状和相关的图像信息,所述相关的图像信息是基于所述检测框确定的区域图像的相关信息。
17.如权利要求11所述的系统,所述边的特征反映以下信息中的一种或多种:所述检测框与所述其它检测框之间的距离信息和相对位置信息。
18.如权利要求11所述的系统,所述构建模块用于:从所述多个检测框中,确定与所述检测框水平相邻或/和竖直相邻的至少一个其他检测框;
将所述多个检测框中每一个及其对应的至少一个其他检测框进行连接,构成所述版面图。
19.如权利要求11所述的系统,所述构建模块用于:从所述多个检测框中,确定与所述检测框之间的距离满足预设要求的至少一个其他检测框;
将所述多个检测框中每一个及其对应的至少一个其他检测框进行连接,构成所述版面图。
20.如权利要求11所述的系统,所述系统还包括识别模块,用于:基于所述检测框的字段类别,确定与预设业务相关的内容框;
基于识别算法对所述内容框中的文本进行识别,确定所述内容框中的文本内容。
21.一种基于图神经网络识别证件的装置,所述装置包括处理器以及存储器,所述存储器用于存储指令,其特征在于,所述处理器用于执行所述指令,以实现如权利要求1至10中任一项所述的基于图神经网络识别证件的方法对应的操作。
22.一种计算机可读存储介质,所述存储介质存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1至10中任一项所述的基于图神经网络识别证件的方法对应的操作。
说明书 :
一种基于图神经网络识别证件的方法及系统
技术领域
背景技术
台,如网约车平台、借贷平台等,需要采集和登记相应证件中的文本信息,以完成业务,例
如,进行实名制认证等。然而,在利用证件中的文本之前(例如,确定填写的内容是否与证件
中的文本内容一致等),首先需要确定文本对应的类型,即属于证件中的什么信息。
发明内容
述多个检测框构建版面图;其中,所述版面图包括多个节点和多个边,所述节点对应所述检
测框,所述边对应所述检测框与其它检测框之间的空间位置关系;利用训练好的图神经网
络模型对所述版面图进行处理,确定所述版面图中所述检测框的字段类别,基于所述字段
类别识别证件。
文本,确定多个检测框;构建模块,用于基于所述多个检测框构建版面图;其中,所述版面图
包括多个节点和多个边,所述节点对应所述检测框,所述边对应所述检测框与其它检测框
之间的空间位置关系;分类模块,用于利用训练好的图神经网络模型对所述版面图进行处
理,确定所述版面图中所述检测框的字段类别,基于所述字段类别识别证件。
如前任一项所述的基于图神经网络识别证件的方法对应的操作。
络识别证件的方法对应的操作。
附图说明
中:
具体实施方式
施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附
图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标
号代表相同结构或操作。
的目的,则可通过其他表达来替换所述词语。
示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者
设备也可能包含其它的步骤或元素。
处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数
步操作。
像进行文本识别的场景。例如,基于证件图像自动录入证件中的文本信息。仅作为示例,当
用户注册应用平台时,例如司机注册网约车平台,平台需要对司机的身份信息和车辆信息
等进行审核,审核的信息来源包括司机的身份证、行驶证以及驾驶证等证件。由于证件中通
常包含大量的文本信息,而应用平台需要获取的文本信息通常较少,因此,在对证件进行识
别之前,可以预先确定证件中的文本信息的类别,基于类别筛选出需要获取的文本信息,仅
对该文本信息进行识别。
一个固定的模板,建立该模板中不同位置与对应文本类别的匹配关系,从而确定模板中每
个位置对应的文本类别。然而,该方式存在以下特点:(1)对于版面存在变化的证件,会导致
类别匹配错误。例如,模板中对应位置的字段为准驾车型,而识别的证件中与模板对应位置
匹配的位置处的字段由一行文本变为了两行,该情况下会导致类别匹配错误;(2)对于不完
整证件的图像,由于其无法与模板准确匹配,同样会导致类别匹配错误。
定复杂的匹配规则,且对于存在较大版面变化的证件以及不完整的证件,仍然能够得到正
确的类别,提高了分类准确率。
别图像。在一些实施例中,处理设备110可以检测待识别图像中包含的内容文本,确定多个
检测框。在一些实施例中,处理设备110可以基于多个检测框构建版面图。在一些实施例中,
处理设备110可以利用训练好的图神经网络模型对版面图进行处理,确定版面图中检测框
的字段类别,基于字段类别识别证件。在一些实施例中,处理设备110可以包括一个或多个
处理引擎(例如,单核心处理引擎或多核心处理器)。仅作为范例,处理设备110可以包括中
央处理器(中央处理器)、特定应用集成电路(ASIC)、专用指令集处理器(ASIP)、图像处理器
(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可程序
逻辑装置(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等中的一种或
多种组合。在一些实施例中,处理设备中可以包含一个或多个存储设备,用于存储处理设备
需要处理的数据或者处理的结果数据等。例如,存储设备中可以存储待识别图像等。
组件。例如,处理设备110可以通过网络120从用户终端130获取待识别图像。又例如,用户终
端130可以通过网络120获取处理设备110对证件的识别结果。在一些实施例中,网络120可
以是任意形式的有线或者无线网络,或其任意组合。仅作为范例,网络120可以是有线网络、
光纤网络、远程通信网络、内部网络、互联网、局域网(LAN)、广域网(WAN)、无线局域网
(WLAN)、城域网(MAN)、广域网(WAN)、公共交换电话网络(PSTN)、蓝牙网络等中的一种或多
种组合。
别图像。在一些实施例中,用户终端130可以接收处理设备110对证件的识别结果。在一些实
施例中,用户终端130的使用者可以是使用应用平台的在线服务的用户。例如使用网约车平
台的经营服务的用户。在一些实施例中,用户终端130可以包括但不限于移动设备130‑1、平
板电脑130‑2、笔记本电脑130‑3、台式电脑130‑4等或其任意组合。示例性的移动设备130‑1
可以包括但不限于智能手机、个人数码助理(Personal Digital Assistance,PDA)等或其
任意组合。在一些实施例中,用户终端130可以将获取到的数据发送至基于图神经网络识别
证件的场景100中的一个或多个设备。
场景100中的部件进行添加或减少。然而,这些改变仍在本说明书的范围之内。
块240。
对所述待识别图像进行处理,确定多个文本框;当所述类型属于预设类型,基于所述预设类
型对应的预设规则对所述多个文本框进行处理,确定所述多个检测框。
并文本框;确定所述证件的至少一个待合并行,所述待合并行与所述合并参考行对应;将所
述待合并行的待合并文本框进行合并,确定所述检测框。
和所述其他文本框确定为所述位于同一行的待合并文本框。
设阈值,以及所述文本框中内容和所述其他文本框中内容的字号是否相同;响应于所述文
本框和所述其他文本框之间所述距离小于所述第二预设阈值,以及所述文本框中内容和所
述其他文本框中内容的字号相同,合并所述文本框和所述其他文本框,确定所述检测框。
其它检测框之间的空间位置关系。在一些实施例中,所述节点的特征反映以下信息中的一
种或多种:所述检测框的位置、大小、形状和相关的图像信息,所述相关的图像信息是基于
所述检测框确定的区域图像的相关信息。在一些实施例中,所述边的特征反映以下信息中
的一种或多种:所述检测框与所述其它检测框之间的距离信息和相对位置信息。
应的至少一个其他检测框进行连接,构成所述版面图。
应的至少一个其他检测框进行连接,构成所述版面图。
述图神经网络模型通过如下方法训练得到:获取样本训练集,所述样本训练集包括:基于所
述证件的多个样本图像建立的多个样本版面图,和所述样本版面图的至少一个样本节点对
应的标签,其中,所述样本图像为所述证件的完整图像、所述证件的非完整图像或所述证件
的不同排版的图像;所述样本版面图的样本节点对应所述样本图像的样本检测框,所样本
版面图中样本边对应所述样本检测框与其它样本检测框之间的空间位置关系,所述样本节
点对应的标签表征所述样本节点对应的样本检测框中字段的类别;基于所述样本训练集,
训练得到所述训练好的图神经网络模型;其中,训练的损失函数基于所述样本节点对应的
标签和所述样本节点输出的预测值之间的差异建立。
文本内容。
以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微
处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计
算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD‑ROM的
载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据
载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或
门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备
等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实
现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意
组合,或者构成子系统与其他模块连接。例如,图2中披露的获取模块210、检测模块220、构
建模块230、分类模块240以及识别模块250可以是一个系统中的不同模块,也可以是一个模
块实现上述的两个模块的功能。又例如,基于图神经网络识别证件的系统200中各个模块可
以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本
说明书的保护范围之内。
备110实现。如图3所示,该流程300可以包括以下步骤:
别的文本信息。在一些实施例中,识别对象可以是证件或与证件相关的物体,其中,证件可
以是任意证件,如,身份证、驾驶证或者行驶证等。对应的,在一些实施例中,待识别图像可
以是证件或与证件相关的物体的图像。例如,对证件或者证件相关的物体(例如,证件的复
印件等)进行成像后,获得的图像。
像。在一些实施例中,预处理可以包括但不限于:切割、矫正、灰度化、和/或去噪。
的识别对象的区域。具体的,以识别对象为证件为例,通过对象检测算法对原始图像进行处
理,可以清楚地显示出原始图像中的证件区域,同时使原始图像中的非证件区域减弱,从而
能准确有效地定位出证件在原始图像中的位置。在一些实施例中,对象检测算法可以包括
但不限于:边缘检测法、数学形态学法、基于纹理分析的定位方法、行检测和边缘统计法、遗
传算法、轮廓线法、基于小波变换的方法和神经网络等。
中的prespectiveTransform()函数进行矫正处理。
获取灰度图像。
处理,确定的多个文本框。在一些实施例中,检测框还可以是对该多个文本框进行处理,确
定的多个检测框。
网络、以及DBNet(Differentiable Binarization Network)可微分的二值化网络。
与其他检测框之间的关系。在一些实施例中,边对应检测框与其他检测框之间的空间位置
关系,空间位置关系可以是相对位置关系、距离关系等。可以理解的,检测框和其他检测框
均来自于多个检测框,且为多个检测框中不同的检测框。
检测框的宽和高。在一些实施例中,处理设备110可以利用文本检测算法获得检测框的位
置、大小以及形状信息。
些实施例中,相关的图像信息可以包括区域图像的RGB值、灰度值以及方向梯度直方图
(Histogram of Oriented Gradient,HOG)特征等中的一种或多种。
之间的距离信息和相对位置信息。在一些实施例中,相对位置信息可以是检测框和其他检
测框之间的相对位置关系,例如,其他检测框位于检测框正上方、正下方、正左方、正右方、
30°或250°等方位信息。距离信息可以包括检测框与其他检测框之间的距离关系。在一些实
施例中,可以用检测框的特定点(例如,几何中心点)与其他检测框的对应的特定点(例如,
几何中心点)之间的距离作为检测框与其他检测框之间的距离。在一些实施例中,可以将检
测框中的点和其他检测框中的点之间的最小距离作为检测框与其他检测框之间的距离。其
中,距离可以是水平(例如,x轴)距离,也可以是竖直(例如,y轴)距离。
以基于距离计算公式对节点对应的特征的向量计算得到,可以理解的,该距离关系可以是
特征距离。距离计算公式可以是欧式距离计算公式或曼哈顿距离计算公式等。
检测框可以是检测框的相邻检测框),其中,相邻可以是水平位置相邻和竖直位置相邻中一
个或多个(关于如何确定相邻检测框见后文)。其他检测框也可以与检测框之间的距离满足
预设要求(例如,小于第三预设阈值或大于第四预设阈值等),预设要求可以自定义。其他检
测框还可以是其他情况,本实施例不做限制。可以理解的,通过距离确定与检测框相连的其
他检测框时,确定的可以是相邻的检测框,也可以是非相邻的检测框,具体可以根据第三预
设阈值大小决定。
是基于同一行的(关于如何确定同一行,见后文)。例如,竖直方向可以是从上自下或从下自
上,水平方向可以是从左至右或从右至左。在一些实施例中,可以标记每个检测框的排序结
果,例如,x‑y,x代表竖直方向的排序,y代表水平方向的排序。可以理解的,通过上述排序,
可以表达不同行的检测框之间竖直位置关系,也可以表达同一行检测框之间的水平位置关
系。如图5所示,第三行中有两个检测框,分别的排序结果为3‑1和3‑2,其他行都只有一个检
测框,因此都是x‑1。
例如,图5中检测框3‑1和检测框3‑2水平相邻,检测框2‑1与检测框3‑1竖直相邻,检测框2‑1
与检测框3‑2竖直相邻。
个检测框中任意两个进行连接构成。
框为与检测框相邻的检测框。如图4所示,在构建版面图430时,版面图包含6个节点,每个节
点对应一个检测框(即检测框1‑1’至6‑1’中的一个),版面图430中的边连接的检测框包括:
竖直相邻的检测框1‑1’和2‑1’、检测框2‑1’和3‑1’、检测框3‑1’和4‑1’、检测框4‑1’和5‑
1’、和检测框5‑1’和6‑1’。如图5所示,在构建版面图530时,版面图包含12个节点,每个节点
对应一个检测框(即,检测框1‑1至11‑1中的一个),版面图530中的边连接的检测框包括:竖
直相邻的检测框1‑1和2‑1、检测框2‑1和3‑1、检测框2‑1和3‑2、检测框3‑1和4‑1、检测框3‑2
和4‑1、检测框4‑1和5‑1等,水平相邻的检测框3‑1和3‑2。
框4‑1’与5‑1’之间的距离,小于检测框4‑1’与6‑1’之间的距离,则版面图630中的边连接的
是检测框包括:检测框1‑1’与2‑1’、1‑1’与3‑1’、1‑1’与4‑1’、2‑1’与3‑1’、2‑1’与4‑1’、3‑
1’与4‑1’、4‑1’与5‑1’、5‑1’与6‑1’。
由分类模块240执行。
中,不同类型的证件对应不同的训练好的图神经网络模型,即,证件存在对应的图神经网络
模型,该对应的图神经网络模型是基于该证件构建的训练集训练得到。关于图神经网络模
型的训练参见图8及其相关描述。
的样本的标签确定。检测框属于各个预定的字段类型的概率可以通过概率分布表示。例如,
概率分布可以是1*n的实数向量,其中,n是向量的维数,n可以是1、2、3等。示例地,仍以上述
待识别图像为驾驶证为例,则检测框的概率分布可以是1*6的实数向量。例如,概率分布的
形式可以为(a,b,c,d,e,f),其中,a表示检测框的字段类别为准驾车型的概率,b表示检测
框的字段类别为档案号的概率,c表示检测框的字段类别为签发地的概率,d表示检测框的
字段类别为姓名的概率,e表示检测框的字段类别为日期的概率,f表示检测框的字段类别
为其他的概率。
的文本内容。在一些实施例中,识别算法可以包括任何文本识别算法,例如,OCR识别。
中,内容框可以是为了实现预设业务所需要的字段类型对应的检测框。例如,预设业务是网
约车司机认证,待识别图像对应的证件为身份证,则与预设业务相关的字段类型包括身份
证号码、姓名、年龄、性别、户籍地址等,相应的,这些字段类型对应的检测框为内容框。可以
理解的,可以基于内容框中的文本内容,实现预设业务。例如,预设业务为司机认证,通过对
比身份证中内容框的文本是否与司机填写的内容一致,可以确定司机是否通过认证。又例
如,预设业务为支付账户注册,可以将银行卡中卡号对应的检测框(即,内容框)的文本添加
到支付账户的银行卡信息中。其中,与预设业务相关的内容框中的文本内容可以称为关键
字段,从而,可以通过确定检测框获取关键字段,并对关键字段进行识别,提取证件中的关
键信息,关键信息即为关键字段的文本内容信息。可以理解的,通过上述实施例,基于检测
框的字段类别,可以筛除与预设业务无关的检测框,为证件识别提高效率。
点之间的信息融合,经过多层图神经网络之后,每一层中的节点可以与更远的节点(例如,
与之不连接或相邻的节点)进行信息融合,提高了分类准确性。
可确定与预设业务相关的内容框;另一方面,本说明书实施例利用图神经网络模型对版面
进行分析,可以充分利用版面图中检测框与其周围检测框的信息,即使证件的版面发生了
变化,例如某个文本信息的字段由一行变成了两行,由于其周围检测框的信息未发生变化,
也能得到该文本信息的正确字段类别,分类准确率高;再一方面,图神经网络模型仍然能够
挖掘残缺证件或为矫正为水平状态的证件中检测框与周围检测框的信息,因此,本说明书
实施例中的图神经网络模型能够对抗证件残缺或证件未校正为水平状态等的干扰,得到正
确的分类结果;最后一方面,本说明书实施例仅对内容框中的文本进行识别,识别效率高。
驶证或者行驶证等用途信息,还可以反映中文或英文等语言信息。在一些实施例中,检测模
块220可以从用户终端130中获取证件的类型。例如,用户在用户终端130上传某个证件的图
片,通过用户自己填写、选择,或者用户终端自动识别确定证件的类型。
Expansion Network)渐进尺度扩展网络、PANNet(Pixel Aggregation Network)像素聚合
网络、以及DBNet(Differentiable Binarization Network)可微分的二值化网络等。
字或单个字等。在一些实施例中,文本检测算法可以基于待识别图像中文本的类型,生成不
同的文本框。例如,当证件中包含英文文本,则文本检测算法可以对证件的英文文本以单词
为单位逐行分别进行框定,生成多个文本框,可以理解的,该实施例确定的文本框中的文本
为单个英文单词。又例如,当待识别图像中包含中文,则文本检测算法可以对证件的中文文
本以行为单位进行框定,生成多个文本框,可以理解的,该实施例确定的文本框中的文本为
一行中文文本。又例如,当待识别图像中包含中文,则文本检测算法可以对证件的中文文本
以单个字为单位进行框定,生成多个文本框,可以理解的,该实施例确定的文本框中的文本
为一个字。
执行。
实施例不做限制。例如,文本框分割的规则等。不同的证件,预设规则也不完全相同,因此,
不同的预设类型,存在对应的预设规则。
件中英文单词越多,文本框也越多。
例中,预设类型对应的证件存在至少一个合并参考行,合并参考行中的字段类型相同,则预
设规则可以包括:将证件中待合并行的待合并文本框进行合并,其中,待合并行是指证件中
与合并参考行对应的行,待合并文本框是指位于同一行的文本框。相应的,当证件类型属于
预设类型时,多个检测框的确定具体为:确定证件中位于同一行的待合并文本框(关于如何
确定同一行的待合并文本框见后文);确定证件的至少一个待合并行;将待合并行的待合并
文本框进行合并。确定待合并行可以是:对证件中的文本框进行排序(文本框的排序与检测
框的排序类似,具体见前文),基于排序结果确定是否与合并参考行对应,如,若合并参考行
在第三行,则待合并行也为第三行。以图4为例,若预设类型对应的证件中第二行为同一字
段类型,基于文本检测算法,确定了证件的第二行有2个文本框(如410所示),则将该2个文
本框进行合并,得到一个检测框(如420所示)。
第3行存在两个字段类型,在对510中的文本框进行合并处理时,第三行并未发生合并(如
520所示),即,第三行的检测框为文本框。
框和其他文本框确定为位于同一行的待合并文本框。
其他文本框在y轴的坐标值的重合度。具体的,重合度为两个文本框在y轴的坐标值的重合
范围占两个文本框在y轴所占的整个坐标值的范围。如图10所示,文本框1010的y轴坐标值
范围为(y4,y3),其他文本框1020的y轴坐标值范围为(y2,y1),两个文本框的坐标值的重合
范围为(y4,y1),两个文本框的整个坐标值的范围为(y2,y3),因此,两个文本框的重合度=
(y4‑y1)/(y2‑y3)。
其他文本框确定为与文本框位于同一行的待合并文本框。
的数量,简化了构建的版面图的结果,提高了图神经网络模型对版面图的处理效率。
以由检测模块220执行。
所述其他文本框,确定所述检测框。在一些实施例中,该步骤830可以由检测模块220执行。
均采用监督学习的方法进行训练。在一些实施例中,不同类型的证件可以训练对应的图神
经网络模型,训练好的图神经网络模型可以用于确定对应的证件的字段的类型。例如,基于
身份证的图像构建对应的训练集,并基于该对应的训练集训练用于识别身份证中字段类型
的图神经网络模型。
例中,该步骤910可以由处理设备110执行。
内容成像得到等,关于证件的非完整图像的获取方式不做限制。
证件图像,例如,裁剪获得的仅包含检测框1‑1至7‑1内信息的证件图像。
情况,则可能不同人的身份证排版上存在差异(即,地址所占行数不同)。
它样本检测框之间的空间位置关系,样本节点对应的标签表征样本节点对应的样本检测框
中字段的类别。在一些实施例中,为了保证训练好的模型的预测准确率,训练好的模型的应
用和训练过程中确定检测框的方式可以一致。
的空间位置关系类似,在此不再赘述。
有证件的不一部分内容等)各个字段类型对应检测框之间的关系,从而,训练好的图神经网
络模型可以用于确定不同情况下证件中字段的类型。
检测框可以与样本检测框相邻,其他样本检测框也可以与样本检测框之间的距离满足预设
要求。因此,对于样本检测框而言,随着其与其他样本检测框存在的位置关系发生变化,与
之连接的其他样本检测框也会发生变化,样本检测框与其他样本检测框的排列布局不相
同,进而构建出不同的版面图。
于样本文本框确定样本检测框时,合并的规则可以是位于同一行、且文字类型相同。其中,
文字类型相同是否可以人工判定。
样本节点对应的损失函数值,得到训练好的图神经网络模型。具体的,可以迭代更新初始图
神经网络模型的参数,以减小各样本版面图的样本节点对应的损失函数值,使得损失函数
值满足预设条件。例如,损失函数值收敛,或损失函数值小于预设值。当损失函数满足预设
条件时,模型训练完成,得到训练好的图神经网络模型。
本版面图进行处理后,得到的样本节点的预测值。例如,可以是所有样本节点对应的损失函
数之和,每一个样本节点的损失函数是基于该节点输出的预测值和标签的差异建立。可以
理解的,通过监督学习的方式对版面图中每个节点进行训练,即每个节点存在对应的损失
函数,通过所有节点的损失函数对图神经网络模型的参数进行更新,完成训练。建立损失函
数的方式可以是交叉熵或平方差等。
项所述的基于图神经网络识别证件的方法对应的操作。
方法对应的操作。
无需指定复杂的匹配规则即可确定与预设业务相关的内容框;(2)本说明书实施例中的图
神经网络模型能够容忍证件存在较大的版面变化、以及能够对抗证件残缺或证件未校正为
水平状态等的干扰,得到正确的分析结果,分析准确率高;(3)本说明书实施例通过确定证
件中的字段的类型,可以提高证件后续识别的效率,具体的,可以基于确定的字段类型,选
择与预设业务相关的字段,进一步仅识别与预设业务相关的字段的具体内容,避免对所有
字段的具体内容都进行识别。需要说明的是,不同实施例可能产生的有益效果不同,在不同
的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何
可能获得的有益效果。
会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所
以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一
个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个
实施例中的某些特征、结构或特点可以进行适当的组合。
对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以
完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件
或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的
各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可
读程序编码。
合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介
质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用
的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线
电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、
COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序
编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在
用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后
种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域
网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如
软件即服务(SaaS)。
过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说
明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本
说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过
硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动
设备上安装所描述的系统。
图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要
求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例
中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点
可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的
方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体
实施例中,此类数值的设定在可行范围内尽可能精确。
不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当
前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、
定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、
定义和/或术语的使用为准。
配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介
绍和描述的实施例。