文字检测方法、装置以及终端转让专利
申请号 : CN201910593977.1
文献号 : CN110309824B
文献日 : 2021-07-02
发明人 : 章成全
申请人 : 北京百度网讯科技有限公司
摘要 :
权利要求 :
1.一种文字检测方法,其特征在于,包括:获取包含有待检测文字的图像中的至少一条文字区域中心线;
根据各文字区域中心线像素所在检测框的顶点偏移量,得到第一中心点;
根据各文字区域中心线上的像素点和与各文字区域中心线像素所在检测框的中心偏移量,得到第二中心点;
判断所述第一中心点与所述第二中心点之间的距离是否小于阈值,若是,则将所述第二中心点合并于所述第一中心点上,得到文字区域实例分割结果;
根据所述文字区域实例分割结果和各文字区域中心线对应的文字边界区域偏移量,得到文字检测结果。
2.根据权利要求1所述的方法,其特征在于,获取包含有待检测文字的图像中至少一条文字区域中心线,包括:
将包含有待检测文字的图像输入至特征提取网络模型中,输出图像特征向量;
将所述图像特征向量输入至文字区域中心线分割模型中,输出文字区域中心线响应图,所述文字区域中心线响应图包括至少一条文字区域中心线。
3.根据权利要求2所述的方法,其特征在于,还包括:将所述图像特征向量输入至中心线像素检测框顶点偏移量回归模型中,得到各文字区域中心线像素所在检测框的顶点偏移量,所述顶点偏移量为文字区域中心线上的像素点到对应的文字区域检测框的各顶点的偏移量。
4.根据权利要求2所述的方法,其特征在于,还包括:将所述图像特征向量输入至中心线像素检测框中心偏移量回归模型中,得到各文字区域中心线像素所在检测框的中心偏移量,所述中心偏移量为所述文字区域中心线上的像素点指向所述第二中心点的偏移量。
5.根据权利要求2所述的方法,其特征在于,还包括:将所述图像特征向量输入至中心线像素边界偏移量回归模型中,得到各文字区域中心线对应的文字边界区域偏移量。
6.根据权利要求5所述的方法,其特征在于,根据所述文字区域实例分割结果和各文字区域中心线对应的文字边界区域偏移量,得到文字检测结果,包括:对各文字区域中心线上的像素点等间隔取样,得到多个取样中心点;
根据各文字区域中心线对应的文字边界区域偏移量计算各取样中心点对应的上边界点和下边界点;
连接各取样中心点对应的上边界点和下边界点,得到多边形的文字检测结果。
7.一种文字检测装置,其特征在于,包括:文字区域中心线获取模块,用于获取包含有待检测文字的图像中的至少一条文字区域中心线;
第一中心点计算模块,用于根据各文字区域中心线像素所在检测框的顶点偏移量,得到第一中心点;
第二中心点计算模块,用于根据各文字区域中心线上的像素点和与各文字区域中心线像素所在检测框的中心偏移量,得到第二中心点;
文字区域分割模块,用于判断所述第一中心点与所述第二中心点之间的距离是否小于阈值,若是,则将所述第二中心点合并于所述第一中心点上,得到文字区域实例分割结果;
文字检测结果计算模块,用于根据所述文字区域实例分割结果和各文字区域中心线对应的文字边界区域偏移量,得到文字检测结果。
8.根据权利要求7所述的装置,其特征在于,所述文字区域中心线获取模块包括:图像特征向量获取单元,用于将包含有待检测文字的图像输入至特征提取网络模型中,输出图像特征向量;
文字区域中心线响应图获取单元,用于将所述图像特征向量输入至文字区域中心线分割模型中,输出文字区域中心线响应图,所述文字区域中心线响应图包括至少一条文字区域中心线。
9.根据权利要求8所述的装置,其特征在于,还包括:中心线像素顶点偏移量获取模块,用于将所述图像特征向量输入至中心线像素检测框顶点偏移量回归模型中,得到各文字区域中心线像素所在检测框的顶点偏移量,所述顶点偏移量为文字区域中心线上的像素点到对应的文字区域检测框的各顶点的偏移量。
10.根据权利要求8所述的装置,其特征在于,还包括:中心线像素中心偏移量获取模块,用于将所述图像特征向量输入至中心线像素检测框中心偏移量回归模型中,得到各文字区域中心线像素所在检测框的中心偏移量,所述中心偏移量为所述文字区域中心线上的像素点指向所述第二中心点的偏移量。
11.根据权利要求8所述的装置,其特征在于,还包括:文字边界区域偏移量获取模块,用于将所述图像特征向量输入至中心线像素边界偏移量回归模型中,得到各文字区域中心线对应的文字边界区域偏移量。
12.根据权利要求11所述的装置,其特征在于,所述文字检测结果计算模块包括:中心点取样单元,用于对各文字区域中心线上的像素点等间隔取样,得到多个取样中心点;
边界点计算单元,用于根据各文字区域中心线对应的文字边界区域偏移量计算各取样中心点对应的上边界点和下边界点;
文字多边形检测单元,用于连接各取样中心点对应的上边界点和下边界点,得到多边形的文字检测结果。
13.一种文字检测终端,其特征在于,包括:一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一项所述方法。
14.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述方法。
说明书 :
文字检测方法、装置以及终端
技术领域
背景技术
的热门课题。随着深度学习时代的变革,OCR(Optical Character Recognition,光学字符
识别)检测方法,由传统的单字检测出发到向基于卷积神经网络直接输出整个文本行包围
盒的检测方法转变。
部件字符或者笔画出发,然后设计先验的聚合规则将隶属于同一个文本行的字符或部件组
合成在一起。这种做法由于是多步骤实现且引入过多的先验规则,精度一般比较低且可维
护性差。基于文本行检测方法是受通用目标检测的启发,将文字作为一种特定的目标,针对
文字的特性对神经网络进行了改良。上述三种方法可以从端到端,一步到位直接输出文字
区域的包围盒,而且训练和预测流程都相对比较简单。基于检测方法的检测器对于规则形
态的文字(水平或倾斜)检测能力比较好,但是对于复杂场景下的任意形状(弯曲或波浪等)
的文字区域无法很好给出准确的几何表示。基于分割的方法将文字区域的检测作为语义分
割的问题。这一类方法从像素细粒度级别出发把落在文字条内部的像素标记为1,背景区域
标记为0,该方法可以较好地对任意形状的文字进行相应。但仍然存在两个比较突出的问
题:(1)距离较近的文字区域很容易发生粘连,不利于后续的文字条实例的分割。上述方法
要么选择响应文本条的中心线,要么增加文本边界类别来辅助分割出每个文字实例。(2)这
类方法严重依赖于模型在像素级别(细粒度)的区分能力。如果响应不连续有断续或者效果
不佳,往往会带来精度的严重损耗,因此对与主体网络的表征能力的提升显得尤为重要。另
外,上述方法一般是由计算机视觉领域通用的语义分割框架发展而来,是一种多阶段的方
法。计算量与其区域建议网络的输出结果密切相关,且存在较多的重复计算。因此,该类方
法虽然对自然场景下任意形状的文字可以较好地检测,但模型结构复杂、运算量大、速度较
慢,难以满足实时应用场景。
发明内容
的像素点到对应的文字区域检测框的各顶点的偏移量。
中心线上的像素点指向所述第二中心点的偏移量。
果;
字区域中心线。
中心线像素顶点偏移量为文字区域中心线上的像素点到对应的文字区域检测框的各顶点
的偏移量。
中心线像素中心偏移量为所述文字区域中心线上的像素点指向所述第二中心点的偏移量。
与上述功能相对应的模块。
用于执行所述存储器中存储的程序。所述文字检测终端还可以包括通信接口,用于与其他
设备或通信网络通信。
素中心偏移量对图像中的文字区域分割,得到文字区域实例分割结果。将文字区域实例分
割结果与文字边界区域偏移量结合,得到文字检测结果。由于采用多任务并行学习的方法,
能够同时得到各文字区域中心线、对应的中心线像素顶点偏移量、对应的中心线像素中心
偏移量以及对应的文字边界区域偏移量,使得检测速度加快,满足实时应用场景。同时还能
够解决不规则文字和任意弯曲文字的检测问题。
方面、实施方式和特征将会是容易明白的。
附图说明
公开的一些实施方式,而不应将其视为是对本发明范围的限制。
具体实施方式
因此,附图和描述被认为本质上是示例性的而非限制性的。
字区域的几何特征。多任务学习模块主要包括TCL模型(Text center line,文字区域中心
线分割模型)、TCO模型(Text center offset,中心线像素检测框中心偏移量回归模型)、
TVO模型(Text vertex offset,中心线像素检测框顶点偏移量回归模型)、以及TBO模型
(Text border offset,中心线像素边界偏移量回归模型)。特征向量X分别输入至TCL模型、
TCO模型、TVO模型、TBO模型中,提取得到包含有至少一条文字区域中心线的语义分割图,高
层目标检测的信息,高层目标检测的信息包括各文字区域中心线像素所在检测框的顶点偏
移量,底层像素级的信息包括各文字区域中心线像素所在检测框的中心偏移量,各文字区
域中心线对应的文字边界区域偏移量。由于从四个网络模型中输出的包含各自信息的特征
的维度远远小于输入的自然场景文字图片的维度,所以使得后续计算量减小。
像素点均对应有预测的文字区域外包围盒,即文字区域中心线像素所在检测框。文字区域
中心线上的像素点指向此像素点对应的文字区域外包围盒的顶点,得到此像素点对应的文
字区域外包围盒的顶点偏移量,即文字区域中心线像素所在检测框的顶点偏移量。根据顶
点偏移量计算文字区域外包围盒的坐标值,根据文字区域外包围盒的坐标值计算文字区域
外包围盒中心,作为第一中心点。文字区域中心线上的像素点指向此像素点对应的文字区
域外包围盒的中心,得到此像素点对应的文字区域外包围盒的中心偏移量,即文字区域中
心线像素所在检测框的中心偏移量。并将指向的文字区域外包围盒的中心作为第二中心
点。判断第一中心点与第二中心点之间的距离是否小于阈值,若是,则将第二中心点合并到
第一中心点上,得到文字区域实例分割结果。根据文字区域实例分割结果和各文字中心区
域中像素对应的文字边界区域偏移量,得到最终的文字区域多边形检测结果。
来自TVO模型的高层目标检测的信息中的文字区域外包围盒(QUAD)中心作为参考点,将来
自TCL模型的所有文字中心区域语义分割结果(PIXEL)根据来自TCO模型的底层像素级的信
息,归类到相应的高层的目标检测的信息中,从而实现对文字区域中心线响应图的实例分
割。本实施例的方法有效地结合了来自TVO模型的高层目标检测的信息和来自TCO模型的底
层像素级别的信息,可以缓解一些语义分割中存在的常见问题。例如,长文字条容易断裂
等。同时,该方法的运行效率与连通域分析相当,有更好的鲁棒性,是一种高效的方法。值得
注意的是,该方法并不要求高层目标检测的信息可以完全包围语义分割图,处于检测框外
的响应也可以根据各文字区域中心线像素所在检测框的中心偏移量进行正确的实例分割。
的表示几何表达所需的顶点数,得出任意形状文字区域的几何表示,输出紧凑的自适应的
多边形的文字检测结果。在一种示例中,如图3所示,步骤包括:自适应采样点数生成及中心
线响应点等间隔采样、上下边界点生成、多边形文字框生成。具体地,每个步骤的详细操作
如下:第一步,对文字区域中心线上的像素点进行等间隔采样。首先,如图3中的(1)和(2),
将语义分割图进行二值化操作(阈值一般取0.5左右),留下的像素点假设都为有效的文字
区域中心线的像素点。然后,将这些文字区域中心线上的像素点从左到右排列,等间隔的采
样多个像素点,作为采样点。其中,采样点的点数是根据文字区域的几何信息自适应地计算
出来的,为使用文字区域中心线的弧长与文字区域高度的比值信息。第二步,如图3中的
(3),上下边界点生成。有了多个采样点,可以根据中心线像素边界区域偏移量来计算出每
条文字区域中心线对应的上下边界点对,即上边界点和下边界点。第三步,如图3中的(4),
多边形文字框生成。以第一个上边界点从左到右链接所有上边界点,接着去链接下边界点
最右边的点,然后从右到左链接所有的下边界点,最后去链接最左上上边界点,从而完成了
多边形文字框的生成。
的检测问题。检测速度较快,同时还可以满足一些实时的应用场景。
视觉几何组),Inception模型(Inception Neural Network,深层卷积神经网络模型),
ResNet模型(Residual Neural Network,带残差的神经网络模型),MobileNet(Mobile
Networks,面向移动端的轻量级神经网络模型),ShuffleNet(Shuffle Networks,通道混淆
的轻量神经网络模型)等。特征提取是一个数据降维过程,特征提取过程即是将图片数据转
化为具有一定区分度的维度较小且表示能力更强的向量,即将原始数据转换为一组具有明
显物理意义(几何特征、纹理特征等)或者统计意义的维度较小的数据。本实施方式中,对图
像进行特征提取得到图像特征向量,如图像的几何、纹理等便于文字检测的特征向量。文字
区域中心线响应图中,文字区域的中轴线附近区域响应为1,其它位置响应为0,水平和竖直
方向均有适当比例的收缩。
点到对应的文字区域检测框的各顶点的偏移量。
个顶点的偏移量,为各文字区域中心线像素所在检测框的顶点偏移量。得到对应的外包围
盒中心,作为第一中心点。
点指向第二中心点的偏移量。
该中心线点和这两个边界点的坐标偏差值即所需的回归值。
统的端到端的精度输出,尤其是在一些带有弯曲、波浪形文字条的复杂场景,能够得到较好
的检测效果。由于实际的OCR使用场景中,文字大多数是呈现各种不规则形态分布,本实施
方式提供的文字检测方法能够让OCR系统在多个实际场景中,例如自然街景、广告、票据、视
频、菜单等场景,文字图片中文字信息挖掘精度能够有显著性的提升,有利于为计算机端和
移动端带来更多的流量,为广大用户带来更好的体验等。
结果;
条文字区域中心线。
述顶点偏移量为所述文字区域中心线上的像素点到对应的文字区域检测框的各顶点的偏
移量。
述中心偏移量为所述文字区域中心线上的像素点指向所述第二中心点的偏移量。
理器920执行所述计算机程序时实现上述实施例中的文字检测方法。所述存储器910和处理
器920的数量可以为一个或多个。
结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral
Component Interconnect)总线或扩展工业标准体系结构(EISA,Extended Industry
Standard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为
便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点
可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本
领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特
征进行结合和组合。
含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有
明确具体的限定。
分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺
序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明
的实施例所属技术领域的技术人员所理解。
指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执
行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设
备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传
输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接
部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可
擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。
另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可
以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式
进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下
列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路
的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场
可编程门阵列(FPGA)等。
质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如
果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机
可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保
护范围为准。