版面分析方法、装置、设备及存储介质转让专利

申请号 : CN202011325013.8

文献号 : CN112149646B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 宁亚光李兵李毅飒

申请人 : 北京易真学思教育科技有限公司

摘要 :

本发明实施例提供了一种版面分析方法、装置、设备及存储介质,在进行版面分析时,首先检测文本块区域和标号区域,进而基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到的与所述标号对应的文本单元区域仅包括文本块区域、标号区域以及这些区域之间的区域,而不会包括文本单元之间的空白区域,从而提高了版面分析方法的准确度。

权利要求 :

1.一种版面分析方法,其特征在于,包括:获取文本图像,所述文本图像中记录的文本包括标号,所述标号用于标记文本的各文本单元;

检测得到所述文本图像中的文本块区域和标号区域,所述文本块区域为所述文本图像中含有一行或一列字符的区域;

基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区域;

返回所述文本图像的版面分析结果,所述版面分析结果包括所述文本单元区域的位置信息;

其中,所述基于所述标号区域和所述文本块区域的位置,聚类合并与所述标号区域相关联的文本块区域,包括:

基于所述标号区域和所述文本块区域的位置,形成有序区域块集合,其中,所述有序区域块集合中,所述标号区域和所述文本块区域基于所述标号区域和所述文本块区域的位置排序;

提取所述有序区域块集合中的标号区域,形成聚类种子集合,其中,所述聚类种子集合中包括所述标号区域在所述有序区域块集合中的序号信息;

在所述有序区域块集合中,对所述聚类种子集合中的标号区域进行聚类合并,形成与所述标号区域对应的文本单元区域。

2.如权利要求1所述的版面分析方法,其特征在于,所述基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距小于预设距离。

3.如权利要求1所述的版面分析方法,其特征在于,基于所述标号区域和文本块区域的位置,形成有序区域块集合,包括:合并所述标号区域和文本块区域,得到区域块集合;

基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序,得到有序区域块集合。

4.如权利要求3所述的版面分析方法,其特征在于,所述基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序,得到有序区域块集合,包括:

基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序;

生成所述标号区域和所述文本块区域对应的序号信息和区域类型信息,其中,所述区域类型包括标号区域和文本块区域;

形成有序区域块集合,所述有序区域块集合中包括排序后的标号区域和文本块区域,以及,所述标号区域和所述文本块区域对应的序号信息和区域类型信息。

5.如权利要求1所述的版面分析方法,其特征在于,所述在所述有序区域块集合中,对所述聚类种子集合中的标号区域进行聚类合并,包括:在所述有序区域块集合中,合并至少部分区域重合的标号区域和文本块区域,得到种子文本块区域;

基于预设的位置关系,聚类合并所述种子文本块区域和与所述种子文本块区域相邻的文本块区域作为种子文本块区域,直至与所述种子文本块区域相邻的文本块区域满足聚类终止条件;

其中,所述聚类终止条件至少包括满足所述位置关系的,与所述种子文本块区域相邻的文本块区域为另一种子文本块区域。

6.如权利要求5所述的版面分析方法,其特征在于,所述返回所述文本图像的版面分析结果,包括:

当所述种子文本块区域相邻的文本块区域满足聚类终止条件时,以所述种子文本块区域作为文本单元块区域;

返回所述文本单元块区域的位置信息作为所述版面分析结果。

7.如权利要求5所述的版面分析方法,其特征在于,所述合并至少部分区域重合的标号区域和文本块区域,得到种子文本块区域的步骤中,所述标号区域和文本块区域的重合区域不小于所述标号区域的50%。

8.如权利要求5所述的版面分析方法,其特征在于,所述基于预设的位置关系,聚类合并所述种子文本块区域和与所述种子文本块区域相邻的文本块区域作为种子文本块区域的步骤中,在字符排布方向为从左到右或从右到左时,基于所述种子文本块区域的位置,向下聚类合并相邻的文本块区域;在字符排布方向为从上到下时,基于所述种子文本块区域的位置,向左或向右聚类合并相邻的文本块区域。

9.如权利要求5所述的版面分析方法,其特征在于,所述预设的位置关系包括:与所述种子文本块区域相邻的文本块区域和所述种子文本块区域之间的间距小于第一阈值,且与所述种子文本块区域相邻的文本块区域和所述种子文本块区域沿字符排布方向的重合度大于第二阈值。

10.如权利要求9所述的版面分析方法,其特征在于,所述第一阈值为所述文本图像中相邻文本块区域的最小间距的2倍,所述第二阈值为5%。

11.如权利要求5所述的版面分析方法,其特征在于,所述预设的位置关系,包括,与所述种子文本块区域相邻的文本块区域和所述种子文本块区域之间,在沿字符排布方向的间距小于第三阈值。

12.如权利要求11所述的版面分析方法,其特征在于,在聚类合并所述种子文本块区域和与所述种子文本块区域相邻的文本块区域作为种子文本块区域的步骤中,若与所述种子文本块区域相邻的文本块区域为另一种子文本块区域,且该另一种子文本块区域和所述种子文本块区域之间,在沿字符排布方向的间距不小于所述第三阈值,跳过该另一种子文本块区域。

13.如权利要求11或12所述的版面分析方法,其特征在于,所述第三阈值为所述文本图像中文本块区域沿字符排布方向的长度最大值的1/3倍。

14.如权利要求1所述的版面分析方法,其特征在于,所述检测得到所述文本图像中的文本块区域和标号区域,包括:

采用文本块检测网络检测所述文本图像中的文本块,得到所述文本块区域;

采用标号检测网络检测所述文本图像中的标号,得到所述标号区域。

15.一种版面分析装置,其特征在于,包括:图像获取单元,适于获取文本图像,所述文本图像中记录的文本包括标号,所述标号用于标记文本的各文本单元;

区域检测单元,适于检测得到所述文本图像中的文本块区域和标号区域,所述文本块区域为所述文本图像中含有一行或一列字符的区域;

聚类合并单元,适于基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区域;

结果返回单元,适于返回所述文本图像的版面分析结果,所述版面分析结果包括所述文本单元区域的位置信息;

其中,所述聚类合并单元基于所述标号区域和所述文本块区域的位置,聚类合并与所述标号区域相关联的文本块区域,包括:基于所述标号区域和所述文本块区域的位置,形成有序区域块集合,其中,所述有序区域块集合中,所述标号区域和所述文本块区域基于所述标号区域和所述文本块区域的位置排序;

提取所述有序区域块集合中的标号区域,形成聚类种子集合,其中,所述聚类种子集合中包括所述标号区域在所述有序区域块集合中的序号信息;

在所述有序区域块集合中,对所述聚类种子集合中的标号区域进行聚类合并,形成与所述标号区域对应的文本单元区域。

16.一种存储介质,其特征在于,所述存储介质存储有适于版面分析的程序,以实现如权利要求1‑14任一项所述的版面分析方法。

17.一种设备,其特征在于,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如权利要求1‑14任一项所述的版面分析方法。

说明书 :

版面分析方法、装置、设备及存储介质

技术领域

[0001] 本发明实施例涉及计算机领域,尤其涉及一种版面分析方法、装置、设备及存储介质。

背景技术

[0002] 文本图像电子化是一种将文本图像中的文本信息提取为电子信息的技术,在如今高速发展的信息化时代下,文本图像电子化能够显著提高信息的传播和使用效率。
[0003] 传统的文本图像识别主要包括两个阶段:版面分析阶段和文本识别阶段;其中,版面分析阶段用于通过不同的策略和方法,分析文本中的各个文本单元(如普通文本中的段
落、试卷文本中的试题等)的位置及其类别,文本识别阶段则识别各个文本单元所包含的文
本,从而完成整篇文本的电子化。其中,版面分析阶段中,文本单元可以反映文本图像中的
字符和字符串的成组关系,从而支持文本识别阶段的语义分析功能。
[0004] 在文本图像记录的文本中,具有用于标记文本单元的标号的场景下,通常基于标号的位置进行版面分析。例如,在文本图像为试卷图像时,以题号所在行的位置为起始位
置,以下一题号所在行的位置为终点位置,得到的区域即为题目所在的区域,对应的位置信
息即为该题目的位置信息。
[0005] 然而,这种版面分析方法的准确度有待提高。

发明内容

[0006] 本发明实施例提供一种版面分析方法、装置、设备及存储介质,以提高版面分析的准确度。
[0007] 为解决上述问题,本发明实施例提供一种版面分析方法,包括:
[0008] 获取文本图像,所述文本图像中记录的文本包括标号,所述标号用于标记文本的各文本单元;
[0009] 检测得到所述文本图像中的文本块区域和标号区域,所述文本块区域为所述文本图像中含有一行或一列字符的区域;
[0010] 基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区域;
[0011] 返回所述文本图像的版面分析结果,所述版面分析结果包括所述文本单元区域的位置信息。
[0012] 相应的,本发明实施例还提供一种版面分析装置,包括:
[0013] 图像获取单元,适于获取文本图像,所述文本图像中记录的文本包括标号,所述标号用于标记文本的各文本单元;
[0014] 区域检测单元,适于检测得到所述文本图像中的文本块区域和标号区域,所述文本块区域为所述文本图像中含有一行或一列字符的区域;
[0015] 聚类合并单元,适于基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区域;
[0016] 结果返回单元,适于返回所述文本图像的版面分析结果,所述版面分析结果包括所述文本单元区域的位置信息。
[0017] 相应的,本发明实施例还提供一种存储介质,包括:所述存储介质存储有适于版面分析的程序,以实现上述版面分析方法。
[0018] 相应的,本发明实施例还提供一种版面分析设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行上述版面分析方法。
[0019] 与现有技术相比,本发明的技术方案具有以下优点:
[0020] 本发明实施例所提供的版面分析方法、装置、设备及存储介质,在进行版面分析时,首先检测文本块区域和标号区域,进而基于所述标号区域和所述文本块区域的位置,聚
类合并所述标号区域和与所述标号区域相关联的文本块区域,得到的与所述标号对应的文
本单元区域仅包括文本块区域、标号区域以及这些区域之间的区域,而不会包括文本单元
之间的空白区域,从而提高了版面分析方法的准确度。
[0021] 并且,在本发明实施例的可选方案中,基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应
的文本单元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距不大于预设距
离,能够避免不相关文本块区域合并入文本单元区域内,从而进一步提高了版面分析方法
的准确度。

附图说明

[0022] 图1是本发明实施例所提供的版面分析方法的一流程示意图;
[0023] 图2是本发明实施例所提供的版面分析方法的另一流程示意图;
[0024] 图3 图5是本发明实施例所提供的版面分析示例图;~
[0025] 图6是本发明实施例提供一种版面分析装置示意图;
[0026] 图7是本发明实施例提供的设备的一种可选硬件设备架构图。

具体实施方式

[0027] 如背景技术所述,现有的版面分析方法的准确度有待提高。
[0028] 这是由于,在文本图像中,文本图像记录的文本具有用于标记文本单元的标号的场景下,不同文本单元之间,通常设置有一定的空白区域,例如,在文本图像为试卷图像时,
题目下方通常留有空白区域作为答题区域。现有版面分析方法,通常会将这些空白区域一
并划入文本单元所在的区域内,从而会对后续的文本识别造成干扰。
[0029] 显然,现有的版面分析方法的准确度有待提高。
[0030] 基于此,本发明实施例提供了一种版面分析方法,包括,获取文本图像,所述文本图像中记录的文本包括标号,所述标号用于标记文本的各文本单元;检测得到所述文本图
像中的文本块区域和标号区域,所述文本块区域为所述文本图像中含有一行或一列字符的
区域;基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号
区域相关联的文本块区域,得到与所述标号对应的文本单元区域;返回所述文本图像的版
面分析结果,所述版面分析结果包括所述文本单元区域的位置信息。
[0031] 可以看出,本发明实施例首先检测文本块区域和标号区域,进而基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区
域,得到的与所述标号对应的文本单元区域仅包括文本块区域、标号区域以及这些区域之
间的区域,而不会包括文本单元之间的空白区域,从而提高了版面分析方法的准确度。
[0032] 并且,在本发明实施例的可选方案中,基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应
的文本单元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距不大于预设距
离,能够避免不相关文本块区域合并入文本单元区域内,从而进一步提高了版面分析方法
的准确度。
[0033] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
[0034] 请参考图1,图1是本发明实施例所提供的版面分析方法的一流程示意图。
[0035] 如图中所示,本发明实施例所提供的版面分析方法,实现所述待待处理图像的版面分析,包括以下步骤:
[0036] 步骤S10:获取文本图像,所述文本图像中记录的文本包括标号,所述标号用于标记文本的各文本单元。
[0037] 为实现对文本图像的版面分析,识别文本图像中的文本信息,首先需要获取文本图像,所述文本图像为包含有文本内容的图形,通过对所述文本图像进行版面分析,可以反
映文本图像中字符和字符串的成组关系,从而支持文本识别阶段的语义分析功能。
[0038] 在本发明实施例中,所述文本图像记录的文本包括用于标记文本的各文本单元的标号,例如,标记文本段落的段号、标记文本小节的节号或标记文本题目的题号,在一个可
选的示例中,所述文本图像为试卷或题册的图像,记录的文本为试卷或题册中的字符,相应
的,文本中的各文本单元可以理解为各个试题,标号可以对应为各试题的题号。
[0039] 可以理解的是,在包括标号的文本图像中,不同文本单元之间,通常设置有一定的空白区域,以间隔各文本单元,特别是在文本图像为试卷或题册的图像时,各题目下方通常
留有空白区域作为答题区域,从而对文本识别造成干扰。
[0040] 步骤S11:检测得到所述文本图像中的文本块区域和标号区域。
[0041] 可以理解的是,形成文本的字符,通常以行或列为单位排列,并且,位于一行/列的字符,通常包含于一个文本单元内。所述文本块区域为所述文本图像中,含有一行或一列字
符的区域。其中,所述一行/列字符,可以为一个字符,也可以为多个字符。
[0042] 通过检测得到所述文本图像中的文本块区域,可以确定文本图像中具有文本的区域,从而剔除文本图像中的空白区域,避免空白区域被加入至版面分析后得到的文本单元
区域内,从而提高版面分析的准确度。
[0043] 可选的,可以采用文本块检测网络检测所述文本图像中的文本块,得到所述文本块区域。其中,所述文本块检测网络可以为经过训练后得到的能够检测文本图像中文本块
区域的神经网络,通过大量数据训练后,所述文本块检测网络可以准确快速的实现对文本
块区域的确定。
[0044] 可选的,所述文本块区域可以为矩形框,相应的,所述文本块区域可以为文本框。在其他示例中,所述文本块区域还可以为其他形状的区域,本发明在此不做具体的限定。
[0045] 在本步骤中,同时检测文本图像中的标号区域,从而在后续步骤中依据标号区域的位置,确定与所述标号对应的文本单元区域。
[0046] 其中,标号区域在文本图像中的位置通常具有一定的规律,如位于文本单元的起始位置。标号区域在文本图像中的位置规律具体可以根据文本的字符排布方向确定,例如,
基于从左到右的字符排布方向,标号可以位于文本图像的左侧;基于从右到左的字符排布
方向,标号可以位于文本图像的右侧等。在检测所述标号区域时,可以根据所述标号区域在
文本图像中的位置规律进行检测,以确定标号区域。
[0047] 需要进一步说明的是,文本中的标号,可以为数字,例如阿拉伯数字1、2、3等,中文数字一、二、三等,或其他语言书写的数字,也可以为表示顺序的特殊文本,例如A、B、C等,本
发明实施例可以实现对各类标号的检测,从而确定标号区域。
[0048] 可选的,可以采用标号检测网络检测所述文本图像中的标号,得到所述标号区域。其中,所述标号检测网络可以为经过训练后得到的能够检测文本图像中的标号区域的神经
网络,通过大量数据训练后,所述标号检测网络可以准确快速的实现对标号区域的确定。
[0049] 步骤S12:基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区域。
[0050] 可选的,可以基于所述标号区域和所述文本块区域的位置,设置相应的聚类合并条件,从而定义所述标号区域和所述文本块区域是否相关联。例如,在标号位于文本的左侧
时,可以设置标号区域右侧和下方为与所述标号区域相关联的文本块区域,并以所述标号
区域下方的下一标号区域的位置为聚类终止条件,合并得到与所述标号对应的文本单元区
域。
[0051] 其中,采用聚类合并的方式实现标号区域与文本块区域的合并,能够根据文本图像的字符排布方向,灵活设置相应的聚类条件,从而快速准确的实现文本单元的确定。
[0052] 基于文本块区域本身已经剔除了可能位于文本单元下方的空白区域,通过合并所述标号区域和与所述标号区域相关联的文本块区域,得到的与所述标号对应的文本单元区
域,也不会含有可能位于文本单元下方的空白区域,从而使本发明实施例中得到的文本单
元区域更加精准。
[0053] 步骤S13:返回所述文本图像的版面分析结果,所述版面分析结果包括所述文本单元区域的位置信息。
[0054] 所述版面分析结果为所述文本图像经过版面分析后得到的文本单元的信息,可以理解的是,所述版面分析结果包括所述文本单元区域的位置信息,从而可以在文本识别阶
段基于所述文本单元区域的位置信息,获取文本单元区域的图像,并进一步进行文本单元
区域的图像的文本的识别。
[0055] 可选的,所述版面分析结果中还可以进一步包括文本单元的类别信息,所述文本单元的类别信息可以基于标号的类别确定,例如,在文本图像为试卷或题册,文本单元为题
目时,标号类别为文字数字时,可以确定文本单元的类别为大题,标号类别为阿拉伯数字
时,可以确定文本单元的类别为小题。其中,本发明实施例重点说明对文本单元区域的确定
过程,文本单元的类别确定过程可以采用现有的方法确定,且该过程可以位于文本单元区
域的确定过程之前、之后或之中,本发明在此不做具体的限定。
[0056] 可以看出,本发明实施例首先检测文本块区域和标号区域,进而基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区
域,得到的与所述标号对应的文本单元区域仅包括文本块区域、标号区域以及这些区域之
间的区域,而不会包括文本单元之间的空白区域,从而提高了版面分析方法的准确度。
[0057] 在文本图像中,文本单元下方通常还可能具有不相关文本,以文本图像为试卷图像为例,题目下方可能具有标记有试卷名称、考试日期或出题方等不相关文本(参考图3中
标记的不相关文本),或者,标记有文本图像中不同栏目的栏目顺序的标识等不相关文本。
现有版面分析方法,并不能分辨区分这些不相关文本,从而也会干扰后续的文本识别过程。
[0058] 发明人分析后认为,此类文本图像,在不同文本单元之间,以及文本单元与不相关文本之间,通常在位置上具有一定的间隔。例如,在试卷图像中,不同题目之间,以及题目与
不相关文本之间,存在位置上的间隔,基于此,本发明实施例进一步提供了另一种版面分析
方法,在聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号
对应的文本单元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距不大于预
设距离,从而基于文本块区域的间隔距离实现文本单元区域的合并。
[0059] 可选的,参考图2所示的版面分析方法的流程示意图,所述方法包括:
[0060] 步骤S20:获取文本图像,所述文本图像中记录的文本包括标号,所述标号用于标记文本的各文本单元。
[0061] 可以理解的是,在包括标号的文本图像中,通常含有与文本单元不相关的不相关文本,这些不相关文本如果被合并至文本单元区域内,会对文本识别造成干扰。
[0062] 步骤S21:检测得到所述文本图像中的文本块区域和标号区域。
[0063] 通过检测得到所述文本图像中的文本块区域,可以确定文本图像中具有文本的区域,从而剔除文本图像中的空白区域,避免空白区域被加入至版面分析后得到的文本单元
区域内,从而提高版面分析的准确度。
[0064] 在本步骤中,同时检测文本图像中的标号区域,从而在后续步骤中依据标号区域的位置,确定与所述标号对应的文本单元区域。
[0065] 其中,在字符排布方向为从左到右或从右到左时,可以以行为单位进行文本块区域的检测,即,以一行字符作为一个文本块区域;在字符排布方向为从上到下时,可以以列
为单位进行文本块区域的检测,即,以一列字符作为一个文本块区域。
[0066] 可选的,如图3所示,可以对文本图像建立一个坐标系,以横向为X方向,以纵向为Y方向为例,文本块区域和标号区域均可以为一个框,一个文本块区域可以为一个文本框(参
考图3中的实线框),一个标号区域可以为一个标号框(参考图3中的虚线框)。具体的,任意
一个框可以表示为:
[0067]
[0068] 其中, 分别表示下标为i的框的横坐标最小值、纵坐标最小值、横坐标最大值、纵坐标最大值。为集中表示不同类型的框,本示例将文本框合并表示
在一个集合中,即: ;将标号框合并表示在一个集合中,即:

[0069] 在本示例中,基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区域的过程
中,可以使所述文本单元区域中的相邻文本块区域的间距不大于预设距离,从而基于文本
单元区域的间隔距离实现文本单元区域的合并。具体的,聚类合并所述标号区域和与所述
标号区域相关联的文本块区域的过程可以包括:
[0070] 返回至图2,执行步骤S22:基于所述标号区域和所述文本块区域的位置,形成有序区域块集合。
[0071] 其中,所述有序区域块集合中,所述标号区域和所述文本块区域基于所述标号区域和所述文本块区域的位置排序;可选的,在字符排布方向为从左到右或从右到左时,可以
按照从上到下或从下到上的顺序排序,在字符排布方向为从上到下时,可以按照从左到右
或从右到左的顺序排序。在本示例中,以字符排布方向为从左到右,排序方向从上到下进行
说明。
[0072] 具体的,基于所述标号区域和文本块区域的位置,形成有序区域块集合,可以包括:
[0073] 步骤S221:合并所述标号区域和文本块区域,得到区域块集合;
[0074] 其中,所述合并用于将所述标号区域和所述文本块区域的相关信息全部并入新的集合中,以实现后续的排序。
[0075] 继续参考图3所示的例子,基于文本区域为一个文本框,标号区域为一个标号框,相应的,合并所述标号区域和文本块区域得到的区域块集合,可以为一个框集合,基于文本
框合并表示在一个集合 ,标号框合并表示在一个集合
中,相应的,合并得到的框集合可以为 ,框集合可以表
示为 ,其中,c=t+n。
[0076] 步骤S222:基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序,得到有序区域块集合。
[0077] 具体的,本示例按照从上到下的顺序,进行所述区域块集合中,标号区域和文本块区域的排序。
[0078] 在所述排序过程中,还可以进一步在基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序后,生成所述标号区域和所述
文本块区域对应的序号信息和区域类型信息,其中,所述区域类型包括标号区域和文本块
区域;并形成所述有序区域块集合,所述有序区域块集合中包括排序后的标号区域和文本
块区域,以及,所述标号区域和所述文本块区域对应的序号信息和区域类型信息。其中,加
入各标号区域和各文本块区域对应的序号信息和区域类型信息(即属于标号区域类型或属
于文本块区域类型),以便于后续的聚类合并操作。
[0079] 继续参考图3所示的例子,按照文本图像从上至下的顺序进行排序,本示例得到的有序区域块集合可以为有序框集合 ,其中,可以表示为
[0080]
[0081] 其中,idx为index的缩写,代表序号, 指的是下标为i的框在排序后的序号,,同样的,xmini’、xmaxi’、ymini’、ymaxi’分别表示下标为i
的框的横坐标最小值、横坐标最大值、纵坐标最小值、纵坐标最大值, 指得是该框的类别
(文本框或者标号框)。
[0082] 最终结果如下:
[0083]
[0084] 返回至图2,执行步骤S23:提取所述有序区域块集合中的标号区域,形成聚类种子集合,其中,所述聚类种子集合中包括所述标号区域在所述有序区域块集合中的序号信息;
[0085] 通过形成聚类种子集合,从而基于所述聚类种子集合,实现对有序区域块集合中的文本块区域的聚类合并。在本示例中,以所述标号区域为聚类种子。
[0086] 仍参考图3所示的例子,对于 中的元素 ,当其中的区域类型信息表示该元素为标号框时,则将其加入到聚类种子集合 中。
[0087] 聚类种子集合 的结果如下:
[0088]
[0089] 返回至图2,执行步骤S24:在所述有序区域块集合中,对所述聚类种子集合中的标号区域进行聚类合并,形成与所述标号区域对应的文本单元区域。
[0090] 基于聚类种子集合中的标号区域的位置信息,可以沿着特定的方向,实现对所述聚类种子集合中的标号区域进行聚类合并。例如,在字符排布方向为从左到右时,相应的聚
类合并方向可以为从上到下。
[0091] 并且,所述聚类合并过程中,聚类的终止条件可以根据相应的位置关系进行设定,从而可以基于文本块区域的间隔距离,确定聚类合并是否终止,避免不相关文本被合并至
本文单元区域。
[0092] 具体的,所述聚类合并的过程可以包括:
[0093] 步骤S241:在所述有序区域块集合中,合并至少部分区域重合的标号区域和文本块区域,得到种子文本块区域;
[0094] 可以理解的是,标号区域通常是文本块区域的一部分(参考图3中的示例),或者,在不同的检测方式和检测精度下,标号区域也可以仅与文本块区域部分重合,通过首先合
并与标号区域至少部分重合的文本块区域,得到种子文本块区域,从而以种子文本块区域
为基础进行相应的聚类合并。
[0095] 其中,所述标号区域和文本块区域的重合区域可以不小于所述标号区域的50%,或者,在其他可选示例中,重合区域可以不小于所述标号区域的70%。
[0096] 参考图3所示的例子,基于聚类种子集合 ,可以进一步通过合并与标号框至少部分重合的文本框,形成种子文本框的集合 。在图3的示例中,基于标
号框与文本框完全重合,从而,包含有标号框的文本框即为种子文本框。
[0097] 步骤S242:基于预设的位置关系,聚类合并所述种子文本块区域和与所述种子文本块区域相邻的文本块区域作为种子文本块区域,直至与所述种子文本块区域相邻的文本
块区域满足聚类终止条件;
[0098] 可以理解的,在字符排布方向为从左到右或从右到左时,相应的文本块区域对应文本图像中的一行字符,对应的,聚类合并时,则基于种子文本块区域的位置,向下聚类合
并相邻的文本块区域;在字符排布方向为从上到下时,相应的文本块区域对应文本图像中
的一列字符,对应的,聚类合并时,则基于种子文本块区域的位置,向左或向右聚类合并相
邻的文本块区域。
[0099] 其中,在向下聚类合并相应的文本块区域时,则聚类合并在所述种子文本块区域下方的,与所述种子文本块区域相邻的文本块区域,在向左或向右聚类合并相应的文本块
区域时,则聚类合并在所述种子文本块区域左侧或右侧的,与所述种子文本块区域相邻的
文本块区域。
[0100] 可以理解的是,在基于预设的位置关系进行聚类合并时,在相邻文本块区域为另一种子文本块区域时,说明已经遇到了另一文本单元区域,相应的,本文本单元区域的聚类
合并应当终止。相应的,在本示例中,所述聚类终止条件至少包括满足所述位置关系的,与
所述种子文本块区域相邻的文本块区域为另一种子文本块区域。
[0101] 进一步的,为区分不相关文本,基于文本单元区域与不相关文本之间存在位置上的间隔,相应的,基于位置关系的限定,实现将不相关文本剔除。所述预设的位置关系,可以
包括:与所述种子文本块区域相邻的文本块区域和所述种子文本块区域之间的间距小于第
一阈值,且与所述种子文本块区域相邻的文本块区域和所述种子文本块区域沿字符排布方
向的重合度大于第二阈值,从而在满足该预设的位置关系时,进行聚类合并,在不满足该预
设的位置关系时,则不进行聚类合并。
[0102] 可选的,所述第一阈值可以为所述文本图像中相邻文本块区域的最小间距的2倍,所述第二阈值可以为5%。
[0103] 参考图3所示的例子,对于排序在种子文本框之后的文本框,当满足行间距小于第一阈值 ,且列重合度高于第二阈值 时,合并两个框,得到新的种子文本框 。
参考图4中虚线框示出的第一次迭代结果。
[0104] 可以理解的是,文本图像中可以包括多栏文本,在聚类合并时,可能出现与所述种子文本块区域相邻的文本块区域为其他栏中的文本块区域,基于此,本示例中所述预设的
位置关系进一步包括,与所述种子文本块区域相邻的文本块区域和所述种子文本块区域之
间,在沿字符排布方向的间距小于第三阈值,从而避免其他栏中的文本块区域被合并至本
栏的文本单元区域中。可选的,所述第三阈值为所述文本图像中文本块区域沿字符排布方
向的长度最大值的1/3倍。
[0105] 进一步的,在聚类合并时,其他栏的种子文本块区域不应作为本栏的种子文本块区域聚类合并的终止条件,相应的,在与所述种子文本块区域相邻的文本块区域为另一种
子文本块区域,且该另一种子文本块区域和所述种子文本块区域之间,在沿字符排布方向
的间距不小于所述第三阈值,跳过该另一种子文本块区域。
[0106] 在经过多次迭代后,待所有种子文本块区域的聚类合并终止后,得到的种子文本块区域则为与所述标号区域对应的文本单元区域。
[0107] 参考图3所示的例子,在所有的种子文本框聚类合并都终止后,可以形成最终的题目框(如图5中的虚线框所),所述题目框可以形成题目框集合 。
[0108] 返回至图2,执行步骤S25:返回所述文本图像的版面分析结果,所述版面分析结果包括所述文本单元区域的位置信息。
[0109] 在本示例中,可以将所述题目框集合作为所述版面分析结果进行返回。
[0110] 可以看出,本发明实施例基于文本单元与不相关文本之间,通常在位置上具有一定的间隔。通过在聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与
所述标号对应的文本单元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距
小于预设距离,从而基于文本块区域的间隔距离实现文本单元区域的精确合并。
[0111] 为了提高本发明实施例所提供的版面分析方法的准确度,参考图6,本发明实施例还提供一种版面分析装置,还包括:
[0112] 图像获取单元400,适于获取文本图像,所述文本图像中记录的文本包括标号,所述标号用于标记文本的各文本单元;
[0113] 区域检测单元410,适于检测得到所述文本图像中的文本块区域和标号区域,所述文本块区域为所述文本图像中含有一行或一列字符的区域;
[0114] 聚类合并单元420,适于基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区
域;
[0115] 结果返回单元430,适于返回所述文本图像的版面分析结果,所述版面分析结果包括所述文本单元区域的位置信息。
[0116] 可选的,所述聚类合并单元420基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单
元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距小于预设距离。
[0117] 可选的,所述聚类合并单元420基于所述标号区域和所述文本块区域的位置,聚类合并与所述标号区域相关联的文本块区域,包括:
[0118] 基于所述标号区域和所述文本块区域的位置,形成有序区域块集合,其中,所述有序区域块集合中,所述标号区域和所述文本块区域基于所述标号区域和所述文本块区域的
位置排序;
[0119] 提取所述有序区域块集合中的标号区域,形成聚类种子集合,其中,所述聚类种子集合中包括所述标号区域在所述有序区域块集合中的序号信息;
[0120] 在所述有序区域块集合中,对所述聚类种子集合中的标号区域进行聚类合并,形成与所述标号区域对应的文本单元区域。
[0121] 可选的,聚类合并单元420基于所述标号区域和文本块区域的位置,形成有序区域块集合,包括:
[0122] 合并所述标号区域和文本块区域,得到区域块集合;
[0123] 基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序,得到有序区域块集合。
[0124] 可选的,所述聚类合并单元420基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序,得到有序区域块集合,包括:
[0125] 基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序;
[0126] 生成所述标号区域和所述文本块区域对应的序号信息和区域类型信息,其中,所述区域类型包括标号区域和文本块区域;
[0127] 形成有序区域块集合,所述有序区域块集合中包括排序后的标号区域和文本块区域,以及,所述标号区域和所述文本块区域对应的序号信息和区域类型信息。
[0128] 可选的,所述聚类合并单元420在所述有序区域块集合中,对所述聚类种子集合中的标号区域进行聚类合并,包括:
[0129] 在所述有序区域块集合中,合并至少部分区域重合的标号区域和文本块区域,得到种子文本块区域;
[0130] 基于预设的位置关系,聚类合并所述种子文本块区域和与所述种子文本块区域相邻的文本块区域作为种子文本块区域,直至与所述种子文本块区域相邻的文本块区域满足
聚类终止条件;
[0131] 其中,所述聚类终止条件至少包括满足所述位置关系的,与所述种子文本块区域相邻的文本块区域为另一种子文本块区域。
[0132] 可选的,所述结果返回单元430返回所述文本图像的版面分析结果,包括:
[0133] 当所述种子文本块区域相邻的文本块区域满足聚类终止条件时,以所述种子文本块区域作为文本单元块区域;
[0134] 返回所述文本单元块区域的位置信息作为所述版面分析结果。
[0135] 可选的,所述聚类合并单元420合并至少部分区域重合的标号区域和文本块区域,得到种子文本块区域的步骤中,所述标号区域和文本块区域的重合区域不小于所述标号区
域的50%。
[0136] 可选的,所述聚类合并单元420基于预设的位置关系,聚类合并所述种子文本块区域和与所述种子文本块区域相邻的文本块区域作为种子文本块区域的步骤中,在字符排布
方向为从左到右或从右到左时,基于所述种子文本块区域的位置,向下聚类合并相邻的文
本块区域;在字符排布方向为从上到下时,基于所述种子文本块区域的位置,向左或向右聚
类合并相邻的文本块区域。
[0137] 可选的,所述预设的位置关系包括:与所述种子文本块区域相邻的文本块区域和所述种子文本块区域之间的间距小于第一阈值,且与所述种子文本块区域相邻的文本块区
域和所述种子文本块区域沿字符排布方向的重合度大于第二阈值。
[0138] 可选的,所述第一阈值为所述文本图像中相邻文本块区域的最小间距的2倍,所述第二阈值为5%。
[0139] 可选的,所述预设的位置关系,包括,与所述种子文本块区域相邻的文本块区域和所述种子文本块区域之间,在沿字符排布方向的间距小于第三阈值。
[0140] 可选的,在聚类合并单元420聚类合并所述种子文本块区域和与所述种子文本块区域相邻的文本块区域作为种子文本块区域的步骤中,若与所述种子文本块区域相邻的文
本块区域为另一种子文本块区域,且该另一种子文本块区域和所述种子文本块区域之间,
在沿字符排布方向的间距不小于所述第三阈值,跳过该另一种子文本块区域。
[0141] 可选的,所述第三阈值为所述文本图像中文本块区域沿字符排布方向的长度最大值的1/3倍。
[0142] 可选的,所述区域检测单元410检测得到所述文本图像中的文本块区域和标号区域,包括:
[0143] 采用文本块检测网络检测所述文本图像中的文本块,得到所述文本块区域;
[0144] 采用标号检测网络检测所述文本图像中的标号,得到所述标号区域。
[0145] 本发明实施例所提供的版面分析装置,在进行版面分析时,首先检测文本块区域和标号区域,进而基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和
与所述标号区域相关联的文本块区域,得到的与所述标号对应的文本单元区域仅包括文本
块区域、标号区域以及这些区域之间的区域,而不会包括文本单元之间的空白区域,从而提
高了版面分析方法的准确度。。
[0146] 并且,在本发明实施例的可选方案中,基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应
的文本单元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距不大于预设距
离,能够避免不相关文本块区域合并入文本单元区域内,从而进一步提高了版面分析方法
的准确度。
[0147] 当然,本发明实施例还提供一种版面分析设备,本发明实施例提供的设备可以通过程序形式装载上述所述的程序模块架构,以实现本发明实施例提供的版面分析方法;该
硬件设备可以应用于具体数据处理能力的电子设备,该电子设备可以为:例如终端设备或
者服务器设备。
[0148] 可选的,图7示出了本发明实施例提供的设备一种可选硬件设备架构,可以包括:至少一个存储器3和至少一个处理器1;所述存储器存储有程序,所述处理器调用所述程序,
以执行前述的版面分析方法,另外,至少一个通信接口2和至少一个通信总线4;处理器1和
存储器3可以位于同一电子设备,例如处理器1和存储器3可以位于服务器设备或者终端设
备;处理器1和存储器3也可以位于不同的电子设备。
[0149] 作为本发明实施例公开内容的一种可选实现,存储器3可以存储程序,处理器1可调用所述程序,以执行本发明上述实施例提供的版面分析方法。
[0150] 本发明实施例中,电子设备可以是能够进行版面分析的平板电脑、笔记本电脑等设备。
[0151] 在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;显然,图7所示的处理器
1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式;
[0152] 可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
[0153] 处理器1可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电
路。
[0154] 存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non‑volatile memory),例如至少一个磁盘存储器。
[0155] 需要说明的是,上述的设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出);鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必
需,本发明实施例对此不进行逐一介绍。
[0156] 本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,当该指令被处理器执行时可以实现如上所述版面分析方法。
[0157] 本发明实施例所提供的存储介质所存储的计算机可执行指令,在进行版面分析时,首先检测文本块区域和标号区域,进而基于所述标号区域和所述文本块区域的位置,聚
类合并所述标号区域和与所述标号区域相关联的文本块区域,得到的与所述标号对应的文
本单元区域仅包括文本块区域、标号区域以及这些区域之间的区域,而不会包括文本单元
之间的空白区域,从而提高了版面分析方法的准确度。
[0158] 上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及,否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实
践。另外,本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中
所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中,并
且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是,所附权利要求
中彼此没有明确引用关系的权利要求可组合成本发明的实施方式,或者可在提交本申请之
后的修改中作为新的权利要求包括。
[0159] 本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中,根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路
(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可
编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。
[0160] 在固件或软件配置方式中,本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部,
并可经由各种己知手段向处理器发送数据以及从处理器接收数据。
[0161] 对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可
以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限
制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范
围。
[0162] 虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种变动与修改,因此本发明的保护范围应当以权利
要求所限定的范围为准。