文字检测方法、装置以及终端转让专利

申请号 : CN201910593977.1

文献号 : CN110309824B

文献日 : 2021-07-02

本发明实例提出一种文字检测方法、装置以及终端，方法包括：获取包含有待检测文字的图像中的至少一条文字区域中心线；根据各文字区域中心线像素所在检测框的顶点偏移量，得到第一中心点；根据各文字区域中心线上的像素点和与各文字区域中心线像素所在检测框的中心偏移量，得到第二中心点；判断第一中心点与所述第二中心点之间的距离是否小于阈值，若是，则将第二中心点合并于所述第一中心点上，得到文字区域实例分割结果；根据文字区域实例分割结果和各文字区域中心线对应的文字边界区域偏移量，得到文字检测结果。使得检测速度加快，满足实时应用场景，同时还能够解决不规则文字和任意弯曲文字的检测问题。

1.一种文字检测方法，其特征在于，包括：获取包含有待检测文字的图像中的至少一条文字区域中心线；

根据各文字区域中心线像素所在检测框的顶点偏移量，得到第一中心点；

根据各文字区域中心线上的像素点和与各文字区域中心线像素所在检测框的中心偏移量，得到第二中心点；

判断所述第一中心点与所述第二中心点之间的距离是否小于阈值，若是，则将所述第二中心点合并于所述第一中心点上，得到文字区域实例分割结果；

根据所述文字区域实例分割结果和各文字区域中心线对应的文字边界区域偏移量，得到文字检测结果。

2.根据权利要求1所述的方法，其特征在于，获取包含有待检测文字的图像中至少一条文字区域中心线，包括：

将包含有待检测文字的图像输入至特征提取网络模型中，输出图像特征向量；

将所述图像特征向量输入至文字区域中心线分割模型中，输出文字区域中心线响应图，所述文字区域中心线响应图包括至少一条文字区域中心线。

3.根据权利要求2所述的方法，其特征在于，还包括：将所述图像特征向量输入至中心线像素检测框顶点偏移量回归模型中，得到各文字区域中心线像素所在检测框的顶点偏移量，所述顶点偏移量为文字区域中心线上的像素点到对应的文字区域检测框的各顶点的偏移量。

4.根据权利要求2所述的方法，其特征在于，还包括：将所述图像特征向量输入至中心线像素检测框中心偏移量回归模型中，得到各文字区域中心线像素所在检测框的中心偏移量，所述中心偏移量为所述文字区域中心线上的像素点指向所述第二中心点的偏移量。

5.根据权利要求2所述的方法，其特征在于，还包括：将所述图像特征向量输入至中心线像素边界偏移量回归模型中，得到各文字区域中心线对应的文字边界区域偏移量。

6.根据权利要求5所述的方法，其特征在于，根据所述文字区域实例分割结果和各文字区域中心线对应的文字边界区域偏移量，得到文字检测结果，包括：对各文字区域中心线上的像素点等间隔取样，得到多个取样中心点；

根据各文字区域中心线对应的文字边界区域偏移量计算各取样中心点对应的上边界点和下边界点；

连接各取样中心点对应的上边界点和下边界点，得到多边形的文字检测结果。

7.一种文字检测装置，其特征在于，包括：文字区域中心线获取模块，用于获取包含有待检测文字的图像中的至少一条文字区域中心线；

第一中心点计算模块，用于根据各文字区域中心线像素所在检测框的顶点偏移量，得到第一中心点；

第二中心点计算模块，用于根据各文字区域中心线上的像素点和与各文字区域中心线像素所在检测框的中心偏移量，得到第二中心点；

文字区域分割模块，用于判断所述第一中心点与所述第二中心点之间的距离是否小于阈值，若是，则将所述第二中心点合并于所述第一中心点上，得到文字区域实例分割结果；

文字检测结果计算模块，用于根据所述文字区域实例分割结果和各文字区域中心线对应的文字边界区域偏移量，得到文字检测结果。

8.根据权利要求7所述的装置，其特征在于，所述文字区域中心线获取模块包括：图像特征向量获取单元，用于将包含有待检测文字的图像输入至特征提取网络模型中，输出图像特征向量；

文字区域中心线响应图获取单元，用于将所述图像特征向量输入至文字区域中心线分割模型中，输出文字区域中心线响应图，所述文字区域中心线响应图包括至少一条文字区域中心线。

9.根据权利要求8所述的装置，其特征在于，还包括：中心线像素顶点偏移量获取模块，用于将所述图像特征向量输入至中心线像素检测框顶点偏移量回归模型中，得到各文字区域中心线像素所在检测框的顶点偏移量，所述顶点偏移量为文字区域中心线上的像素点到对应的文字区域检测框的各顶点的偏移量。

10.根据权利要求8所述的装置，其特征在于，还包括：中心线像素中心偏移量获取模块，用于将所述图像特征向量输入至中心线像素检测框中心偏移量回归模型中，得到各文字区域中心线像素所在检测框的中心偏移量，所述中心偏移量为所述文字区域中心线上的像素点指向所述第二中心点的偏移量。

11.根据权利要求8所述的装置，其特征在于，还包括：文字边界区域偏移量获取模块，用于将所述图像特征向量输入至中心线像素边界偏移量回归模型中，得到各文字区域中心线对应的文字边界区域偏移量。

12.根据权利要求11所述的装置，其特征在于，所述文字检测结果计算模块包括：中心点取样单元，用于对各文字区域中心线上的像素点等间隔取样，得到多个取样中心点；

边界点计算单元，用于根据各文字区域中心线对应的文字边界区域偏移量计算各取样中心点对应的上边界点和下边界点；

文字多边形检测单元，用于连接各取样中心点对应的上边界点和下边界点，得到多边形的文字检测结果。

13.一种文字检测终端，其特征在于，包括：一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6中任一项所述方法。

14.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述方法。

文字检测方法、装置以及终端

技术领域

[0001] 本发明涉及文字检测技术领域，尤其涉及一种文字检测方法、装置以及终端。

背景技术

[0002] 在自然场景下中的文字会有多样的形态，除了水平、竖直、倾斜这几种常见的形态以外，还会有弯曲、波浪式等形态。文字检测和识别一直是计算机视觉领域中诸多学者研究
的热门课题。随着深度学习时代的变革，OCR(Optical Character Recognition，光学字符
识别)检测方法，由传统的单字检测出发到向基于卷积神经网络直接输出整个文本行包围
盒的检测方法转变。

[0003] OCR文字检测方法可以分为三大类：基于字符或部件组合方法，基于文本行检测方法，以及基于语义分割方法。基于字符或部件组合的方法往往需要先检测文字的基本组成
部件字符或者笔画出发，然后设计先验的聚合规则将隶属于同一个文本行的字符或部件组
合成在一起。这种做法由于是多步骤实现且引入过多的先验规则，精度一般比较低且可维
护性差。基于文本行检测方法是受通用目标检测的启发，将文字作为一种特定的目标，针对
文字的特性对神经网络进行了改良。上述三种方法可以从端到端，一步到位直接输出文字
区域的包围盒，而且训练和预测流程都相对比较简单。基于检测方法的检测器对于规则形
态的文字(水平或倾斜)检测能力比较好，但是对于复杂场景下的任意形状(弯曲或波浪等)
的文字区域无法很好给出准确的几何表示。基于分割的方法将文字区域的检测作为语义分
割的问题。这一类方法从像素细粒度级别出发把落在文字条内部的像素标记为1，背景区域
标记为0，该方法可以较好地对任意形状的文字进行相应。但仍然存在两个比较突出的问
题：(1)距离较近的文字区域很容易发生粘连，不利于后续的文字条实例的分割。上述方法
要么选择响应文本条的中心线，要么增加文本边界类别来辅助分割出每个文字实例。(2)这
类方法严重依赖于模型在像素级别(细粒度)的区分能力。如果响应不连续有断续或者效果
不佳，往往会带来精度的严重损耗，因此对与主体网络的表征能力的提升显得尤为重要。另
外，上述方法一般是由计算机视觉领域通用的语义分割框架发展而来，是一种多阶段的方
法。计算量与其区域建议网络的输出结果密切相关，且存在较多的重复计算。因此，该类方
法虽然对自然场景下任意形状的文字可以较好地检测，但模型结构复杂、运算量大、速度较
慢，难以满足实时应用场景。

发明内容

[0004] 本发明实施例提供一种文字检测方法、装置以及终端，以解决现有技术中的一个或多个技术问题。

[0005] 第一方面，本发明实施例提供了一种文字检测方法，包括：

[0006] 获取包含有待检测文字的图像中的至少一条文字区域中心线；

[0007] 根据各文字区域中心线像素所在检测框的顶点偏移量，得到第一中心点；

[0008] 根据各文字区域中心线上的像素点和与各文字区域中心线像素所在检测框的中心偏移量，得到第二中心点；

[0009] 判断所述第一中心点与所述第二中心点之间的距离是否小于阈值，若是，则将所述第二中心点合并于所述第一中心点上，得到文字区域实例分割结果；

[0010] 根据所述文字区域实例分割结果和各文字区域中心线对应的文字边界区域偏移量，得到文字检测结果。

[0011] 在一种实施方式中，获取包含有待检测文字的图像中至少一条文字区域中心线，包括：

[0012] 将包含有待检测文字的图像输入至特征提取网络模型中，输出图像特征向量；

[0013] 将所述图像特征向量输入至文字区域中心线分割模型中，输出文字区域中心线响应图，所述文字区域中心线响应图包括至少一条文字区域中心线。

[0014] 在一种实施方式中，还包括：

[0015] 将所述图像特征向量输入至中心线像素检测框顶点偏移量回归模型中，得到各文字区域中心像素检测框顶点偏移量，所述中心像素检测框顶点偏移量为文字区域中心线上
的像素点到对应的文字区域检测框的各顶点的偏移量。

[0016] 在一种实施方式中，还包括：

[0017] 将所述图像特征向量输入至中心线像素检测框中心偏移量回归模型中，得到各文字区域中心线像素所在检测框的中心偏移量，所述中心线像素中心偏移量为所述文字区域
中心线上的像素点指向所述第二中心点的偏移量。

[0018] 在一种实施方式中，还包括：

[0019] 将所述图像特征向量输入至中心线像素边界偏移量回归模型中，得到各文字区域中心线对应的文字边界区域偏移量。

[0020] 在一种实施方式中，根据所述文字区域实例分割结果和各文字区域中心线对应的文字边界区域偏移量，得到文字检测结果，包括：

[0021] 对各文字区域中心线上的像素点等间隔取样，得到多个取样中心点；

[0022] 根据各文字区域中心线对应的文字边界区域偏移量计算各取样中心点对应的上边界点和下边界点；

[0023] 连接各取样中心点对应的上边界点和下边界点，得到多边形的文字检测结果。

[0024] 第二方面，本发明实施例提供了一种文字检测装置，包括：

[0025] 文字区域中心线获取模块，用于获取包含有待检测文字的图像中的至少一条文字区域中心线；

[0026] 第一中心点计算模块，用于根据各文字区域中心线像素所在检测框的顶点偏移量，得到第一中心点；

[0027] 第二中心点计算模块，用于根据各文字区域中心线上的像素点和与各文字区域中心线像素所在检测框的中心偏移量，得到第二中心点；

[0028] 文字区域分割模块，用于判断所述第一中心点与所述第二中心点之间的距离是否小于阈值，若是，则将所述第二中心点合并于所述第一中心点上，得到文字区域实例分割结
果；

[0029] 文字检测结果计算模块，用于根据所述文字区域实例分割结果和各文字区域中心线对应的文字边界区域偏移量，得到文字检测结果。

[0030] 在一种实施方式中，所述文字区域中心线获取模块包括：

[0031] 图像特征向量获取单元，用于将包含有待检测文字的图像输入至特征提取网络模型中，输出图像特征向量；

[0032] 文字区域中心线响应图获取单元，用于将所述图像特征向量输入至文字区域中心线分割模型中，输出文字区域中心线响应图，所述文字区域中心线响应图包括至少一条文
字区域中心线。

[0033] 在一种实施方式中，还包括：

[0034] 中心线像素顶点偏移量获取模块，用于将所述图像特征向量输入至中心线像素检测框顶点偏移量回归模型中，得到各文字区域中心线像素所在检测框的顶点偏移量，所述
中心线像素顶点偏移量为文字区域中心线上的像素点到对应的文字区域检测框的各顶点
的偏移量。

[0035] 在一种实施方式中，还包括：

[0036] 中心线像素中心偏移量获取模块，用于将所述图像特征向量输入至中心线像素检测框中心偏移量回归模型中，得到各文字区域中心线像素所在检测框的中心偏移量，所述
中心线像素中心偏移量为所述文字区域中心线上的像素点指向所述第二中心点的偏移量。

[0037] 在一种实施方式中，还包括：

[0038] 文字边界区域偏移量获取模块，用于将所述图像特征向量输入至中心线像素边界偏移量回归模型中，得到各文字区域对应的文字边界区域偏移量。

[0039] 在一种实施方式中，所述文字检测结果计算模块包括：

[0040] 中心点取样单元，用于对各文字区域中心线上的像素点等间隔取样，得到多个取样中心点；

[0041] 边界点计算单元，用于根据各文字区域中心线对应的文字边界区域偏移量计算各取样中心点对应的上边界点和下边界点；

[0042] 文字多边形检测单元，用于连接各取样中心点对应的上边界点和下边界点，得到多边形的文字检测结果。

[0043] 第三方面，本发明实施例提供了一种文字检测终端，所述文字检测终端的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个
与上述功能相对应的模块。

[0044] 在一个可能的设计中，所述文字检测终端的结构中包括处理器和存储器，所述存储器用于存储支持所述文字检测终端执行上述文字检测方法的程序，所述处理器被配置为
用于执行所述存储器中存储的程序。所述文字检测终端还可以包括通信接口，用于与其他
设备或通信网络通信。

[0045] 第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储文字检测终端所用的计算机软件指令，其包括用于执行上述文字检测方法所涉及的程序。

[0046] 上述技术方案中的一个技术方案具有如下优点或有益效果：本方案提供的文字检测方法，通过利用各文字区域中心线、以及对应的中心线像素顶点偏移量、对应的中心线像
素中心偏移量对图像中的文字区域分割，得到文字区域实例分割结果。将文字区域实例分
割结果与文字边界区域偏移量结合，得到文字检测结果。由于采用多任务并行学习的方法，
能够同时得到各文字区域中心线、对应的中心线像素顶点偏移量、对应的中心线像素中心
偏移量以及对应的文字边界区域偏移量，使得检测速度加快，满足实时应用场景。同时还能
够解决不规则文字和任意弯曲文字的检测问题。

[0047] 上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的
方面、实施方式和特征将会是容易明白的。

附图说明

[0048] 在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明
公开的一些实施方式，而不应将其视为是对本发明范围的限制。

[0049] 图1示出根据本发明实施例的一种文字检测方法的流程图。

[0050] 图2示出根据本发明实施例的一种文字检测方法的示意图。

[0051] 图3示出根据本发明实施例的一种任意形状文字自适应表达示意图。

[0052] 图4示出根据本发明实施例的另一种文字检测方法的流程图。

[0053] 图5示出根据本发明实施例的一种文字检测装置的结构框图。

[0054] 图6示出根据本发明实施例的另一种文字检测装置的结构框图。

[0055] 图7示出根据本发明实施例的一种文字检测终端的结构示意图。

具体实施方式

[0056] 在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。
因此，附图和描述被认为本质上是示例性的而非限制性的。

[0057] 实施例一

[0058] 在一种具体实施方式中，提供了一种文字检测方法，如图1所示，方法包括：

[0059] 步骤S10：获取包含有待检测文字的图像中的至少一条文字区域中心线；

[0060] 步骤S20：根据各文字区域中心线像素对应的检测框的顶点偏移量，得到第一中心点；

[0061] 步骤S30：根据各文字区域中心线上的像素点和与各文字区域中心线像素所在检测框的中心偏移量，得到第二中心点；

[0062] 步骤S40：判断第一中心点与第二中心点之间的距离是否小于阈值，若是，则将第二中心点合并于第一中心点上，得到文字区域实例分割结果；

[0063] 步骤S50：根据文字区域实例分割结果和各文字区域中心线对应的文字边界区域偏移量，得到文字检测结果。

[0064] 在一种示例中，如图2所示。获取一张待检测的自然场景文字图片。首先，将其输入给特征提取模块，抽取特征向量X。特征向量X输入至多任务学习模块，并行学习出图像中文
字区域的几何特征。多任务学习模块主要包括TCL模型(Text center line，文字区域中心
线分割模型)、TCO模型(Text center offset，中心线像素检测框中心偏移量回归模型)、
TVO模型(Text vertex offset，中心线像素检测框顶点偏移量回归模型)、以及TBO模型
(Text border offset，中心线像素边界偏移量回归模型)。特征向量X分别输入至TCL模型、
TCO模型、TVO模型、TBO模型中，提取得到包含有至少一条文字区域中心线的语义分割图，高
层目标检测的信息，高层目标检测的信息包括各文字区域中心线像素所在检测框的顶点偏
移量，底层像素级的信息包括各文字区域中心线像素所在检测框的中心偏移量，各文字区
域中心线对应的文字边界区域偏移量。由于从四个网络模型中输出的包含各自信息的特征
的维度远远小于输入的自然场景文字图片的维度，所以使得后续计算量减小。

[0065] 然后，将语义分割图、底层像素级的信息、高层目标检测的信息输入至文字实例分割模块。该模块主要进行文字实例分割，是本实施例的核心模块。文字区域中心线上的每个
像素点均对应有预测的文字区域外包围盒，即文字区域中心线像素所在检测框。文字区域
中心线上的像素点指向此像素点对应的文字区域外包围盒的顶点，得到此像素点对应的文
字区域外包围盒的顶点偏移量，即文字区域中心线像素所在检测框的顶点偏移量。根据顶
点偏移量计算文字区域外包围盒的坐标值，根据文字区域外包围盒的坐标值计算文字区域
外包围盒中心，作为第一中心点。文字区域中心线上的像素点指向此像素点对应的文字区
域外包围盒的中心，得到此像素点对应的文字区域外包围盒的中心偏移量，即文字区域中
心线像素所在检测框的中心偏移量。并将指向的文字区域外包围盒的中心作为第二中心
点。判断第一中心点与第二中心点之间的距离是否小于阈值，若是，则将第二中心点合并到
第一中心点上，得到文字区域实例分割结果。根据文字区域实例分割结果和各文字中心区
域中像素对应的文字边界区域偏移量，得到最终的文字区域多边形检测结果。

[0066] 例如，可以采用一种PIXEL(文字中心区域语义分割结果)‑2‑QUAD(文字区域外包围盒)的方法进行文字实例分割。PIXEL‑2‑QUAD方法的流程如图2中(a)‑(d)所示。该方法将
来自TVO模型的高层目标检测的信息中的文字区域外包围盒(QUAD)中心作为参考点，将来
自TCL模型的所有文字中心区域语义分割结果(PIXEL)根据来自TCO模型的底层像素级的信
息，归类到相应的高层的目标检测的信息中，从而实现对文字区域中心线响应图的实例分
割。本实施例的方法有效地结合了来自TVO模型的高层目标检测的信息和来自TCO模型的底
层像素级别的信息，可以缓解一些语义分割中存在的常见问题。例如，长文字条容易断裂
等。同时，该方法的运行效率与连通域分析相当，有更好的鲁棒性，是一种高效的方法。值得
注意的是，该方法并不要求高层目标检测的信息可以完全包围语义分割图，处于检测框外
的响应也可以根据各文字区域中心线像素所在检测框的中心偏移量进行正确的实例分割。

[0067] 最后，将文字实例分割结果和中心线像素边界区域偏移量输入至自适应任意多边形表示模块中，对任意形状的文字区域外包围盒进行精确重建。自适应地计算出文字区域
的表示几何表达所需的顶点数，得出任意形状文字区域的几何表示，输出紧凑的自适应的
多边形的文字检测结果。在一种示例中，如图3所示，步骤包括：自适应采样点数生成及中心
线响应点等间隔采样、上下边界点生成、多边形文字框生成。具体地，每个步骤的详细操作
如下：第一步，对文字区域中心线上的像素点进行等间隔采样。首先，如图3中的(1)和(2)，
将语义分割图进行二值化操作(阈值一般取0.5左右)，留下的像素点假设都为有效的文字
区域中心线的像素点。然后，将这些文字区域中心线上的像素点从左到右排列，等间隔的采
样多个像素点，作为采样点。其中，采样点的点数是根据文字区域的几何信息自适应地计算
出来的，为使用文字区域中心线的弧长与文字区域高度的比值信息。第二步，如图3中的
(3)，上下边界点生成。有了多个采样点，可以根据中心线像素边界区域偏移量来计算出每
条文字区域中心线对应的上下边界点对，即上边界点和下边界点。第三步，如图3中的(4)，
多边形文字框生成。以第一个上边界点从左到右链接所有上边界点，接着去链接下边界点
最右边的点，然后从右到左链接所有的下边界点，最后去链接最左上上边界点，从而完成了
多边形文字框的生成。

[0068] 本实施方式集成了文本行检测方法和分割方法的优势，采用多任务学习的方法，并行、多维度学习任意形状的文字区域的几何特征，同时解决不规则文字和任意弯曲文字
的检测问题。检测速度较快，同时还可以满足一些实时的应用场景。

[0069] 在一种实施方式中，步骤S10包括：

[0070] 步骤S101：将包含有待检测文字的图像输入至特征提取网络模型中，输出图像特征向量；

[0071] 步骤S102：将图像特征向量输入至文字区域中心线分割模型中，输出文字区域中心线响应图，文字区域中心线响应图包括至少一条文字区域中心线。

[0072] 在一种示例中，用于自适应提取抽象特征的特征提取网络模型，包含但不限于：VGG‑Net模型(VGG neural network，VGG卷积神经网络模型，VGG，Visual Geometry Group，
视觉几何组)，Inception模型(Inception Neural Network,深层卷积神经网络模型)，
ResNet模型(Residual Neural Network，带残差的神经网络模型)，MobileNet(Mobile
Networks，面向移动端的轻量级神经网络模型)，ShuffleNet(Shuffle Networks，通道混淆
的轻量神经网络模型)等。特征提取是一个数据降维过程，特征提取过程即是将图片数据转
化为具有一定区分度的维度较小且表示能力更强的向量，即将原始数据转换为一组具有明
显物理意义(几何特征、纹理特征等)或者统计意义的维度较小的数据。本实施方式中，对图
像进行特征提取得到图像特征向量，如图像的几何、纹理等便于文字检测的特征向量。文字
区域中心线响应图中，文字区域的中轴线附近区域响应为1，其它位置响应为0，水平和竖直
方向均有适当比例的收缩。

[0073] 在一种实施方式中，还包括：

[0074] 步骤S60：将图像特征向量输入至中心线像素检测框顶点偏移量回归模型中，得到各文字区域中心线像素所在检测框的顶点偏移量，顶点偏移量为文字区域中心线上的像素
点到对应的文字区域检测框的各顶点的偏移量。

[0075] 在一种示例中，对于任意形状的文字区域，提取出文字区域的最小外接矩形作为文字区域外包围盒。在文字区域中心线任取一个像素点，到其对应的文字区域外包围盒的4
个顶点的偏移量，为各文字区域中心线像素所在检测框的顶点偏移量。得到对应的外包围
盒中心，作为第一中心点。

[0076] 在一种实施方式中，如图4所示，还包括：

[0077] 步骤S70：将图像特征向量输入至中心线像素检测框中心偏移量回归模型中，得到各文字区域中心线像素所在检测框的中心偏移量，中心偏移量为文字区域中心线上的像素
点指向第二中心点的偏移量。

[0078] 在一种示例中，中心线像素中心偏移量可以包括文字区域中心线上任取一个像素点，到其对应的非精确外包围盒中心(四个顶点坐标的平均值)的偏移量。

[0079] 在一种实施方式中，如图4所示，还包括：

[0080] 步骤S80：将图像特征向量输入至中心线像素边界偏移量回归模型中，得到各文字区域对应的文字边界区域偏移量。

[0081] 在一种示例中，文字边界区域偏移量可以包括在文字区域中心线任取一个像素点，画一条和当前位置切线相互垂直的法线，法线和上下边界线交叉得到上下两个边界点，
该中心线点和这两个边界点的坐标偏差值即所需的回归值。

[0082] 在一种实施方式中，如图4所示，步骤S50，包括：

[0083] 步骤S501：对各文字区域中心线上的像素点等间隔取样，得到多个取样中心点；

[0084] 步骤S502：根据各文字区域中心线对应的文字边界区域偏移量计算各取样中心点对应的上边界点和下边界点；

[0085] 步骤S503：连接各取样中心点对应的上边界点和下边界点，得到文字多边形检测结果。

[0086] 采用上述实施例提出的文字检测方法，能够输出紧凑的文字检测包围盒。在不规则的文字集合中，文字检测结果优良。同时，紧凑的文字检测包围盒能够大幅度提升OCR系
统的端到端的精度输出，尤其是在一些带有弯曲、波浪形文字条的复杂场景，能够得到较好
的检测效果。由于实际的OCR使用场景中，文字大多数是呈现各种不规则形态分布，本实施
方式提供的文字检测方法能够让OCR系统在多个实际场景中，例如自然街景、广告、票据、视
频、菜单等场景，文字图片中文字信息挖掘精度能够有显著性的提升，有利于为计算机端和
移动端带来更多的流量，为广大用户带来更好的体验等。

[0087] 实施例二

[0088] 在一种具体实施方式中，提供了一种文字检测装置，如图5所示，包括：

[0089] 文字区域中心线获取模块10，用于获取包含有待检测文字的图像中的至少一条文字区域中心线；

[0090] 第一中心点计算模块20，用于根据各文字区域中心线像素所在检测框的顶点偏移量，得到第一中心点；

[0091] 第二中心点计算模块30，用于根据各文字区域中心线上的像素点和与各文字区域中心线像素所在检测框的中心偏移量，得到第二中心点；

[0092] 文字区域分割模块40，用于判断所述第一中心点与所述第二中心点之间的距离是否小于阈值，若是，则将所述第二中心点合并于所述第一中心点上，得到文字区域实例分割
结果；

[0093] 文字检测结果计算模块50，用于根据文字区域实例分割结果和各文字区域对应的文字边界区域偏移量，得到文字检测结果。

[0094] 在一种实施方式中，如图6所示，所述文字区域中心线获取模块10包括：

[0095] 图像特征向量获取单元101，用于将包含有待检测文字的图像输入至特征提取网络模型中，输出图像特征向量；

[0096] 文字区域中心线响应图获取单元102，用于将所述图像特征向量输入至文字区域中心线分割模型中，输出文字区域中心线响应图，所述文字区域中心线响应图包括至少一
条文字区域中心线。

[0097] 在一种实施方式中，如图6所示，还包括：

[0098] 中心线像素顶点偏移量获取模块60，用于将所述图像特征向量输入至中心线像素检测框顶点偏移量回归模型中，得到各文字区域中心线像素所在检测框的顶点偏移量，所
述顶点偏移量为所述文字区域中心线上的像素点到对应的文字区域检测框的各顶点的偏
移量。

[0099] 在一种实施方式中，如图6所示，还包括：

[0100] 中心线像素中心偏移量获取模块70，用于将所述图像特征向量输入至中心线像素检测框中心偏移量回归模型中，得到各文字区域中心线像素所在检测框的中心偏移量，所
述中心偏移量为所述文字区域中心线上的像素点指向所述第二中心点的偏移量。

[0101] 在一种实施方式中，如图6所示，还包括：

[0102] 文字边界区域偏移量获取模块80，用于将所述图像特征向量输入至中心线像素边界偏移量回归模型中，得到各文字区域中心线对应的文字边界区域偏移量。

[0103] 在一种实施方式中，如图6所示，文字检测结果计算模块50包括：

[0104] 中心点取样单元501，用于对各文字区域中心线上的像素点等间隔取样，得到多个取样中心点；

[0105] 边界点计算单元502，用于根据各文字区域中心线对应的文字边界区域偏移量计算各取样中心点对应的上边界点和下边界点；

[0106] 文字多边形检测单元503，用于连接各取样中心点对应的上边界点和下边界点，得到多边形的文字检测结果。

[0107] 本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

[0108] 实施例三

[0109] 图7示出根据本发明实施例的文字检测终端的结构框图。如图7所示，该终端包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处
理器920执行所述计算机程序时实现上述实施例中的文字检测方法。所述存储器910和处理
器920的数量可以为一个或多个。

[0110] 该终端还包括：

[0111] 通信接口930，用于与外界设备进行通信，进行数据交互传输。

[0112] 存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non‑volatile memory)，例如至少一个磁盘存储器。

[0113] 如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系
结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral
Component Interconnect)总线或扩展工业标准体系结构(EISA，Extended Industry
Standard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为
便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

[0114] 可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

[0115] 本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述方法。

[0116] 在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特
点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点
可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本
领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特
征进行结合和组合。

[0117] 此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐
含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有
明确具体的限定。

[0118] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部
分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺
序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明
的实施例所属技术领域的技术人员所理解。

[0119] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供
指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执
行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设
备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传
输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接
部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可
擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。
另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可
以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式
进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

[0120] 应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件
或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下
列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路
的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场
可编程门阵列(FPGA)等。

[0121] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介
质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

[0122] 此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模
块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如
果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机
可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

[0123] 以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，
这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保
护范围为准。

文字检测方法、装置以及终端转让专利

申请号 : CN201910593977.1

文献号 : CN110309824B

文献日 : 2021-07-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 章成全

申请人 : 北京百度网讯科技有限公司

摘要 :

权利要求 :

说明书 :