版面分析方法、装置、设备及存储介质转让专利
申请号 : CN202011325013.8
文献号 : CN112149646B
文献日 : 2021-03-09
发明人 : 宁亚光 , 李兵 , 李毅飒
申请人 : 北京易真学思教育科技有限公司
摘要 :
权利要求 :
1.一种版面分析方法,其特征在于,包括:获取文本图像,所述文本图像中记录的文本包括标号,所述标号用于标记文本的各文本单元;
检测得到所述文本图像中的文本块区域和标号区域,所述文本块区域为所述文本图像中含有一行或一列字符的区域;
基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区域;
返回所述文本图像的版面分析结果,所述版面分析结果包括所述文本单元区域的位置信息;
其中,所述基于所述标号区域和所述文本块区域的位置,聚类合并与所述标号区域相关联的文本块区域,包括:
基于所述标号区域和所述文本块区域的位置,形成有序区域块集合,其中,所述有序区域块集合中,所述标号区域和所述文本块区域基于所述标号区域和所述文本块区域的位置排序;
提取所述有序区域块集合中的标号区域,形成聚类种子集合,其中,所述聚类种子集合中包括所述标号区域在所述有序区域块集合中的序号信息;
在所述有序区域块集合中,对所述聚类种子集合中的标号区域进行聚类合并,形成与所述标号区域对应的文本单元区域。
2.如权利要求1所述的版面分析方法,其特征在于,所述基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距小于预设距离。
3.如权利要求1所述的版面分析方法,其特征在于,基于所述标号区域和文本块区域的位置,形成有序区域块集合,包括:合并所述标号区域和文本块区域,得到区域块集合;
基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序,得到有序区域块集合。
4.如权利要求3所述的版面分析方法,其特征在于,所述基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序,得到有序区域块集合,包括:
基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序;
生成所述标号区域和所述文本块区域对应的序号信息和区域类型信息,其中,所述区域类型包括标号区域和文本块区域;
形成有序区域块集合,所述有序区域块集合中包括排序后的标号区域和文本块区域,以及,所述标号区域和所述文本块区域对应的序号信息和区域类型信息。
5.如权利要求1所述的版面分析方法,其特征在于,所述在所述有序区域块集合中,对所述聚类种子集合中的标号区域进行聚类合并,包括:在所述有序区域块集合中,合并至少部分区域重合的标号区域和文本块区域,得到种子文本块区域;
基于预设的位置关系,聚类合并所述种子文本块区域和与所述种子文本块区域相邻的文本块区域作为种子文本块区域,直至与所述种子文本块区域相邻的文本块区域满足聚类终止条件;
其中,所述聚类终止条件至少包括满足所述位置关系的,与所述种子文本块区域相邻的文本块区域为另一种子文本块区域。
6.如权利要求5所述的版面分析方法,其特征在于,所述返回所述文本图像的版面分析结果,包括:
当所述种子文本块区域相邻的文本块区域满足聚类终止条件时,以所述种子文本块区域作为文本单元块区域;
返回所述文本单元块区域的位置信息作为所述版面分析结果。
7.如权利要求5所述的版面分析方法,其特征在于,所述合并至少部分区域重合的标号区域和文本块区域,得到种子文本块区域的步骤中,所述标号区域和文本块区域的重合区域不小于所述标号区域的50%。
8.如权利要求5所述的版面分析方法,其特征在于,所述基于预设的位置关系,聚类合并所述种子文本块区域和与所述种子文本块区域相邻的文本块区域作为种子文本块区域的步骤中,在字符排布方向为从左到右或从右到左时,基于所述种子文本块区域的位置,向下聚类合并相邻的文本块区域;在字符排布方向为从上到下时,基于所述种子文本块区域的位置,向左或向右聚类合并相邻的文本块区域。
9.如权利要求5所述的版面分析方法,其特征在于,所述预设的位置关系包括:与所述种子文本块区域相邻的文本块区域和所述种子文本块区域之间的间距小于第一阈值,且与所述种子文本块区域相邻的文本块区域和所述种子文本块区域沿字符排布方向的重合度大于第二阈值。
10.如权利要求9所述的版面分析方法,其特征在于,所述第一阈值为所述文本图像中相邻文本块区域的最小间距的2倍,所述第二阈值为5%。
11.如权利要求5所述的版面分析方法,其特征在于,所述预设的位置关系,包括,与所述种子文本块区域相邻的文本块区域和所述种子文本块区域之间,在沿字符排布方向的间距小于第三阈值。
12.如权利要求11所述的版面分析方法,其特征在于,在聚类合并所述种子文本块区域和与所述种子文本块区域相邻的文本块区域作为种子文本块区域的步骤中,若与所述种子文本块区域相邻的文本块区域为另一种子文本块区域,且该另一种子文本块区域和所述种子文本块区域之间,在沿字符排布方向的间距不小于所述第三阈值,跳过该另一种子文本块区域。
13.如权利要求11或12所述的版面分析方法,其特征在于,所述第三阈值为所述文本图像中文本块区域沿字符排布方向的长度最大值的1/3倍。
14.如权利要求1所述的版面分析方法,其特征在于,所述检测得到所述文本图像中的文本块区域和标号区域,包括:
采用文本块检测网络检测所述文本图像中的文本块,得到所述文本块区域;
采用标号检测网络检测所述文本图像中的标号,得到所述标号区域。
15.一种版面分析装置,其特征在于,包括:图像获取单元,适于获取文本图像,所述文本图像中记录的文本包括标号,所述标号用于标记文本的各文本单元;
区域检测单元,适于检测得到所述文本图像中的文本块区域和标号区域,所述文本块区域为所述文本图像中含有一行或一列字符的区域;
聚类合并单元,适于基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区域;
结果返回单元,适于返回所述文本图像的版面分析结果,所述版面分析结果包括所述文本单元区域的位置信息;
其中,所述聚类合并单元基于所述标号区域和所述文本块区域的位置,聚类合并与所述标号区域相关联的文本块区域,包括:基于所述标号区域和所述文本块区域的位置,形成有序区域块集合,其中,所述有序区域块集合中,所述标号区域和所述文本块区域基于所述标号区域和所述文本块区域的位置排序;
提取所述有序区域块集合中的标号区域,形成聚类种子集合,其中,所述聚类种子集合中包括所述标号区域在所述有序区域块集合中的序号信息;
在所述有序区域块集合中,对所述聚类种子集合中的标号区域进行聚类合并,形成与所述标号区域对应的文本单元区域。
16.一种存储介质,其特征在于,所述存储介质存储有适于版面分析的程序,以实现如权利要求1‑14任一项所述的版面分析方法。
17.一种设备,其特征在于,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如权利要求1‑14任一项所述的版面分析方法。
说明书 :
版面分析方法、装置、设备及存储介质
技术领域
背景技术
落、试卷文本中的试题等)的位置及其类别,文本识别阶段则识别各个文本单元所包含的文
本,从而完成整篇文本的电子化。其中,版面分析阶段中,文本单元可以反映文本图像中的
字符和字符串的成组关系,从而支持文本识别阶段的语义分析功能。
置,以下一题号所在行的位置为终点位置,得到的区域即为题目所在的区域,对应的位置信
息即为该题目的位置信息。
发明内容
类合并所述标号区域和与所述标号区域相关联的文本块区域,得到的与所述标号对应的文
本单元区域仅包括文本块区域、标号区域以及这些区域之间的区域,而不会包括文本单元
之间的空白区域,从而提高了版面分析方法的准确度。
的文本单元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距不大于预设距
离,能够避免不相关文本块区域合并入文本单元区域内,从而进一步提高了版面分析方法
的准确度。
附图说明
具体实施方式
题目下方通常留有空白区域作为答题区域。现有版面分析方法,通常会将这些空白区域一
并划入文本单元所在的区域内,从而会对后续的文本识别造成干扰。
像中的文本块区域和标号区域,所述文本块区域为所述文本图像中含有一行或一列字符的
区域;基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号
区域相关联的文本块区域,得到与所述标号对应的文本单元区域;返回所述文本图像的版
面分析结果,所述版面分析结果包括所述文本单元区域的位置信息。
域,得到的与所述标号对应的文本单元区域仅包括文本块区域、标号区域以及这些区域之
间的区域,而不会包括文本单元之间的空白区域,从而提高了版面分析方法的准确度。
的文本单元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距不大于预设距
离,能够避免不相关文本块区域合并入文本单元区域内,从而进一步提高了版面分析方法
的准确度。
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
映文本图像中字符和字符串的成组关系,从而支持文本识别阶段的语义分析功能。
选的示例中,所述文本图像为试卷或题册的图像,记录的文本为试卷或题册中的字符,相应
的,文本中的各文本单元可以理解为各个试题,标号可以对应为各试题的题号。
留有空白区域作为答题区域,从而对文本识别造成干扰。
符的区域。其中,所述一行/列字符,可以为一个字符,也可以为多个字符。
区域内,从而提高版面分析的准确度。
区域的神经网络,通过大量数据训练后,所述文本块检测网络可以准确快速的实现对文本
块区域的确定。
基于从左到右的字符排布方向,标号可以位于文本图像的左侧;基于从右到左的字符排布
方向,标号可以位于文本图像的右侧等。在检测所述标号区域时,可以根据所述标号区域在
文本图像中的位置规律进行检测,以确定标号区域。
发明实施例可以实现对各类标号的检测,从而确定标号区域。
网络,通过大量数据训练后,所述标号检测网络可以准确快速的实现对标号区域的确定。
时,可以设置标号区域右侧和下方为与所述标号区域相关联的文本块区域,并以所述标号
区域下方的下一标号区域的位置为聚类终止条件,合并得到与所述标号对应的文本单元区
域。
域,也不会含有可能位于文本单元下方的空白区域,从而使本发明实施例中得到的文本单
元区域更加精准。
段基于所述文本单元区域的位置信息,获取文本单元区域的图像,并进一步进行文本单元
区域的图像的文本的识别。
目时,标号类别为文字数字时,可以确定文本单元的类别为大题,标号类别为阿拉伯数字
时,可以确定文本单元的类别为小题。其中,本发明实施例重点说明对文本单元区域的确定
过程,文本单元的类别确定过程可以采用现有的方法确定,且该过程可以位于文本单元区
域的确定过程之前、之后或之中,本发明在此不做具体的限定。
域,得到的与所述标号对应的文本单元区域仅包括文本块区域、标号区域以及这些区域之
间的区域,而不会包括文本单元之间的空白区域,从而提高了版面分析方法的准确度。
标记的不相关文本),或者,标记有文本图像中不同栏目的栏目顺序的标识等不相关文本。
现有版面分析方法,并不能分辨区分这些不相关文本,从而也会干扰后续的文本识别过程。
不相关文本之间,存在位置上的间隔,基于此,本发明实施例进一步提供了另一种版面分析
方法,在聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号
对应的文本单元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距不大于预
设距离,从而基于文本块区域的间隔距离实现文本单元区域的合并。
区域内,从而提高版面分析的准确度。
为单位进行文本块区域的检测,即,以一列字符作为一个文本块区域。
考图3中的实线框),一个标号区域可以为一个标号框(参考图3中的虚线框)。具体的,任意
一个框可以表示为:
在一个集合中,即: ;将标号框合并表示在一个集合中,即:
。
中,可以使所述文本单元区域中的相邻文本块区域的间距不大于预设距离,从而基于文本
单元区域的间隔距离实现文本单元区域的合并。具体的,聚类合并所述标号区域和与所述
标号区域相关联的文本块区域的过程可以包括:
按照从上到下或从下到上的顺序排序,在字符排布方向为从上到下时,可以按照从左到右
或从右到左的顺序排序。在本示例中,以字符排布方向为从左到右,排序方向从上到下进行
说明。
框合并表示在一个集合 ,标号框合并表示在一个集合
中,相应的,合并得到的框集合可以为 ,框集合可以表
示为 ,其中,c=t+n。
文本块区域对应的序号信息和区域类型信息,其中,所述区域类型包括标号区域和文本块
区域;并形成所述有序区域块集合,所述有序区域块集合中包括排序后的标号区域和文本
块区域,以及,所述标号区域和所述文本块区域对应的序号信息和区域类型信息。其中,加
入各标号区域和各文本块区域对应的序号信息和区域类型信息(即属于标号区域类型或属
于文本块区域类型),以便于后续的聚类合并操作。
的框的横坐标最小值、横坐标最大值、纵坐标最小值、纵坐标最大值, 指得是该框的类别
(文本框或者标号框)。
类合并方向可以为从上到下。
本文单元区域。
并与标号区域至少部分重合的文本块区域,得到种子文本块区域,从而以种子文本块区域
为基础进行相应的聚类合并。
号框与文本框完全重合,从而,包含有标号框的文本框即为种子文本框。
块区域满足聚类终止条件;
并相邻的文本块区域;在字符排布方向为从上到下时,相应的文本块区域对应文本图像中
的一列字符,对应的,聚类合并时,则基于种子文本块区域的位置,向左或向右聚类合并相
邻的文本块区域。
区域时,则聚类合并在所述种子文本块区域左侧或右侧的,与所述种子文本块区域相邻的
文本块区域。
合并应当终止。相应的,在本示例中,所述聚类终止条件至少包括满足所述位置关系的,与
所述种子文本块区域相邻的文本块区域为另一种子文本块区域。
包括:与所述种子文本块区域相邻的文本块区域和所述种子文本块区域之间的间距小于第
一阈值,且与所述种子文本块区域相邻的文本块区域和所述种子文本块区域沿字符排布方
向的重合度大于第二阈值,从而在满足该预设的位置关系时,进行聚类合并,在不满足该预
设的位置关系时,则不进行聚类合并。
参考图4中虚线框示出的第一次迭代结果。
位置关系进一步包括,与所述种子文本块区域相邻的文本块区域和所述种子文本块区域之
间,在沿字符排布方向的间距小于第三阈值,从而避免其他栏中的文本块区域被合并至本
栏的文本单元区域中。可选的,所述第三阈值为所述文本图像中文本块区域沿字符排布方
向的长度最大值的1/3倍。
子文本块区域,且该另一种子文本块区域和所述种子文本块区域之间,在沿字符排布方向
的间距不小于所述第三阈值,跳过该另一种子文本块区域。
所述标号对应的文本单元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距
小于预设距离,从而基于文本块区域的间隔距离实现文本单元区域的精确合并。
域;
元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距小于预设距离。
位置排序;
聚类终止条件;
域的50%。
方向为从左到右或从右到左时,基于所述种子文本块区域的位置,向下聚类合并相邻的文
本块区域;在字符排布方向为从上到下时,基于所述种子文本块区域的位置,向左或向右聚
类合并相邻的文本块区域。
域和所述种子文本块区域沿字符排布方向的重合度大于第二阈值。
本块区域为另一种子文本块区域,且该另一种子文本块区域和所述种子文本块区域之间,
在沿字符排布方向的间距不小于所述第三阈值,跳过该另一种子文本块区域。
与所述标号区域相关联的文本块区域,得到的与所述标号对应的文本单元区域仅包括文本
块区域、标号区域以及这些区域之间的区域,而不会包括文本单元之间的空白区域,从而提
高了版面分析方法的准确度。。
的文本单元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距不大于预设距
离,能够避免不相关文本块区域合并入文本单元区域内,从而进一步提高了版面分析方法
的准确度。
硬件设备可以应用于具体数据处理能力的电子设备,该电子设备可以为:例如终端设备或
者服务器设备。
以执行前述的版面分析方法,另外,至少一个通信接口2和至少一个通信总线4;处理器1和
存储器3可以位于同一电子设备,例如处理器1和存储器3可以位于服务器设备或者终端设
备;处理器1和存储器3也可以位于不同的电子设备。
1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式;
路。
需,本发明实施例对此不进行逐一介绍。
类合并所述标号区域和与所述标号区域相关联的文本块区域,得到的与所述标号对应的文
本单元区域仅包括文本块区域、标号区域以及这些区域之间的区域,而不会包括文本单元
之间的空白区域,从而提高了版面分析方法的准确度。
践。另外,本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中
所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中,并
且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是,所附权利要求
中彼此没有明确引用关系的权利要求可组合成本发明的实施方式,或者可在提交本申请之
后的修改中作为新的权利要求包括。
(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可
编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。
并可经由各种己知手段向处理器发送数据以及从处理器接收数据。
以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限
制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范
围。
要求所限定的范围为准。