一种东巴文的文字切分方法、装置、存储介质及电子设备转让专利

申请号 : CN202210255545.1

文献号 : CN114332888B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 毕晓君邢俊瑶

申请人 : 中央民族大学

摘要 :

本申请实施例公开了一种东巴文的文字切分方法、装置、存储介质及电子设备。该方法包括:按照东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像;其中,所述横线位置用于区分东巴文图像中的段落;所述竖线位置用于区分东巴文图像的段落中的每句文字;对所述东巴文单句图像进行膨胀处理,得到待切分单句图像;对所述待切分单句图像中的连通区域进行分析处理,得到东巴文的单个文字。本技术方案,可以对东巴文的单个文字进行切分,为东巴文化的研究提供了便利性。

权利要求 :

1.一种东巴文的文字切分方法,其特征在于,包括:

按照东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像;其中,所述横线位置用于区分东巴文图像中的段落;所述竖线位置用于区分东巴文图像的段落中的每句文字;

对所述东巴文单句图像进行膨胀处理,得到待切分单句图像;

对所述待切分单句图像中的连通区域进行分析处理,得到东巴文的单个文字;

其中,按照东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像,包括:对东巴文图像进行水平投影,确定东巴文图像中的横线位置;

根据所述横线位置对东巴文图像进行段落切分,得到东巴文行图像;

将所述东巴文行图像作为输入,基于预先确定的目标检测模型对所述东巴文行图像进行处理,得到带竖线位置的东巴文行图像,并按照所述竖线位置对东巴文行图像进行单句切分,得到东巴文单句图像;其中,所述目标检测模型包括骨干特征提取网络、加强特征提取模块和检测头模块;

其中,将所述东巴文行图像作为输入,基于预先确定的目标检测模型对所述东巴文行图像进行处理,得到带竖线位置的东巴文行图像,包括:利用骨干特征提取网络中的组件模块对所述东巴文行图像进行训练,得到特征图像,并利用骨干特征提取网络中的注意力模块对所述特征图像的通道、空间高度以及空间宽度进行信息置换处理,得到目标特征图像;

将目标特征图像作为输入,利用加强特征提取模块和检测头模块对所述目标特征图像进行处理,得到带竖线位置的东巴文行图像。

2.根据权利要求1所述的方法,其特征在于,对所述待切分单句图像中的连通区域进行分析处理,得到东巴文的单个文字,包括:对所述待切分单句图像中的连通区域进行生成处理,得到各连通区域的最小外接矩形,并确定所述最小外接矩形的宽度信息、高度信息以及中心点坐标;

利用所述宽度信息、高度信息以及中心点坐标,对所述待切分单句图像进行连通区域去除处理,得到目标单句图像;

若所述目标单句图像中相邻连通区域满足预设连通约束条件,则将相邻连通区域进行合并,得到合并后的目标单句图像,并对所述合并后的目标单句图像中的文字进行提取,得到东巴文的单个文字。

3.根据权利要求2所述的方法,其特征在于,利用所述宽度信息、高度信息以及中心点坐标,对所述待切分单句图像进行连通区域去除处理,得到目标单句图像,包括:判断所述中心点的横坐标是否满足第一预设阈值,以及所述宽度信息是否满足第二预设阈值;或者,判断所述中心点的横坐标与待切分单句图像的宽度信息之间的差值是否满足第一预设阈值,以及所述宽度信息是否满足第二预设阈值;或者,判断所述中心点的纵坐标是否满足第一预设阈值,以及所述高度信息是否满足第二预设阈值;或者,判断所述中心点的纵坐标与待切分单句图像的高度信息之间的差值是否满足第一预设阈值,以及所述高度信息是否满足第二预设阈值;

若满足,则将所述待切分单句图像中的连通区域进行去除处理,得到目标单句图像。

4.根据权利要求2所述的方法,其特征在于,若所述目标单句图像中相邻连通区域满足预设连通约束条件,则将相邻连通区域进行合并,得到合并后的目标单句图像,包括:计算所述目标单句图像中相邻连通区域的面积以及中心点距离;

若所述面积大于第三预设阈值且小于第四预设阈值,以及所述中心点距离小于第五预设阈值,则将相邻连通区域的质心进行连接,得到目标连通区域,并基于目标连通区域构建合并后的目标单句图像。

5.根据权利要求1所述的方法,其特征在于,对所述东巴文单句图像进行膨胀处理,得到待切分单句图像,包括:将膨胀核中心点的位置移动到所述东巴文单句图像的中心点位置,构建待切分单句图像。

6.一种东巴文的文字切分装置,其特征在于,包括:

东巴文单句图像得到模块,用于按照东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像;其中,所述横线位置用于区分东巴文图像中的段落;所述竖线位置用于区分东巴文图像的段落中的每句文字;

待切分单句图像得到模块,用于对所述东巴文单句图像进行膨胀处理,得到待切分单句图像;

单个文字得到模块,用于对所述待切分单句图像中的连通区域进行分析处理,得到东巴文的单个文字;

其中,东巴文单句图像得到模块,包括:

横线位置确定单元,用于对东巴文图像进行水平投影,确定东巴文图像中的横线位置;

东巴文行图像得到单元,用于根据所述横线位置对东巴文图像进行段落切分,得到东巴文行图像;

东巴文单句图像得到单元,用于将所述东巴文行图像作为输入,基于预先确定的目标检测模型对所述东巴文行图像进行处理,得到带竖线位置的东巴文行图像,并按照所述竖线位置对东巴文行图像进行单句切分,得到东巴文单句图像;其中,所述目标检测模型包括骨干特征提取网络、加强特征提取模块和检测头模块;

其中,东巴文单句图像得到单元,具体用于:

利用骨干特征提取网络中的组件模块对所述东巴文行图像进行训练,得到特征图像,并利用骨干特征提取网络中的注意力模块对所述特征图像的通道、空间高度以及空间宽度进行信息置换处理,得到目标特征图像;

将目标特征图像作为输入,利用加强特征提取模块和检测头模块对所述目标特征图像进行处理,得到带竖线位置的东巴文行图像。

7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1‑5中任一项所述的东巴文的文字切分方法。

8.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1‑5中任一项所述的东巴文的文字切分方法。

说明书 :

一种东巴文的文字切分方法、装置、存储介质及电子设备

技术领域

[0001] 本申请实施例涉及古文字切分技术领域,尤其涉及一种东巴文的文字切分方法、装置、存储介质及电子设备。

背景技术

[0002] 东巴古籍数字化和机器翻译研究对传承和研究东巴文化、实现东巴经典的抢救性保护具有重大意义。其中,东巴古籍的自动断句与文字切分是东巴古籍数字化和机器翻译研究的重要基础性工作。
[0003] 一般情况下,东巴古籍图像都由三行横向文字组成一段,每行文字下都有横线将整个段落划分成三等分,其中每句话又用手写的竖线隔开。东巴古籍及东巴象形文字自身固有的特殊性,存在句间分割竖线不规范、字符大小不一、形状不规则、文字位置排列交错等问题。
[0004] 目前,并没有关于东巴文的单个文字切分方法,对东巴文化的研究造成了一定的困难。

发明内容

[0005] 本申请实施例提供一种东巴文的文字切分方法、装置、存储介质及电子设备,能够对东巴文的单个文字进行切分。
[0006] 第一方面,本申请实施例提供了一种东巴文的文字切分方法,该方法包括:
[0007] 按照东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像;其中,所述横线位置用于区分东巴文图像中的段落;所述竖线位置用于区分东巴文图像的段落中的每句文字;
[0008] 对所述东巴文单句图像进行膨胀处理,得到待切分单句图像;
[0009] 对所述待切分单句图像中的连通区域进行分析处理,得到东巴文的单个文字。
[0010] 第二方面,本申请实施例提供了一种东巴文的文字切分装置,该装置包括:
[0011] 东巴文单句图像得到模块,用于按照东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像;其中,所述横线位置用于区分东巴文图像中的段落;所述竖线位置用于区分东巴文图像的段落中的每句文字;
[0012] 待切分单句图像得到模块,用于对所述东巴文单句图像进行膨胀处理,得到待切分单句图像;
[0013] 单个文字得到模块,用于对所述待切分单句图像中的连通区域进行分析处理,得到东巴文的单个文字。
[0014] 第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的东巴文的文字切分方法。
[0015] 第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的东巴文的文字切分方法。
[0016] 本申请实施例所提供的技术方案,按照东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像,然后对东巴文单句图像进行膨胀处理,得到待切分单句图像,并对待切分单句图像中的连通区域进行分析处理,得到东巴文的单个文字。本技术方案,可以对东巴文的单个文字进行切分,为东巴文化的研究提供了便利性。

附图说明

[0017] 图1是本申请实施例一提供的东巴文的文字切分方法的流程图;
[0018] 图2是本申请实施例一提供的基于质心连线的连通区域合并的示意图;
[0019] 图3是本申请实施例一提供的东巴文的文字切分的流程图;
[0020] 图4是本申请实施例二提供的东巴文的文字切分过程的示意图;
[0021] 图5是本申请实施例二提供的水平投影像素值分布的示意图;
[0022] 图6是本申请实施例二提供的目标检测模型的示意图;
[0023] 图7是本申请实施例二提供的东巴文自动断句的流程图;
[0024] 图8是本申请实施例二提供的注意力模块的示意图;
[0025] 图9是本申请实施例二提供的加强特征提取模块的示意图;
[0026] 图10是本申请实施例三提供的东巴文的文字切分装置的结构示意图;
[0027] 图11是本申请实施例五提供的一种电子设备的结构示意图。

具体实施方式

[0028] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
[0029] 在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0030] 实施例一
[0031] 图1是本申请实施例一提供的东巴文的文字切分方法的流程图,本实施例可适用于对东巴文图像进行文字切分的情况,该方法可以由本申请实施例所提供的东巴文的文字切分装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于用于东巴文图像处理的智能终端等设备中。
[0032] 如图1所示,所述东巴文的文字切分方法包括:
[0033] S110、按照东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像;其中,所述横线位置用于区分东巴文图像中的段落;所述竖线位置用于区分东巴文图像的段落中的每句文字;
[0034] 在本方案中,东巴文图像都是由三行横向文字组成一段,每行文字下都有横线将整个段落划分成三等分。其中,每句话又用手写的竖线隔开。可以根据东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像。
[0035] S120、对所述东巴文单句图像进行膨胀处理,得到待切分单句图像;
[0036] 在本实施例中,东巴文图像中的象形文字由于手工书写会存在很多错误的小面积断点,会极大影响单个文字的切分结果,因此需要对东巴文单句图像进行膨胀处理,消除小面积断点。
[0037] 可选的,可以基于膨胀核对东巴文单句图像进行处理,得到待切分单句图像。其中,可以根据需求设定不同尺寸大小的膨胀核,实现消除东巴文单句图像中不同面积断点。
[0038] 在本技术方案中,可选的,对所述东巴文单句图像进行膨胀处理,得到待切分单句图像,包括:
[0039] 将膨胀核中心点的位置移动到所述东巴文单句图像的中心点位置,构建待切分单句图像。
[0040] 其中,膨胀处理可以采用如下计算公式:
[0041] ;
[0042] 其中,表示东巴文单句图像的像素集合,表示膨胀核, 表示 的中心点平移后得到的集合,则 对 的膨胀处理可理解为在膨胀核 保持原结构的前提下,其中心点按集合 像素点位置平移后得到的像素集合。
[0043] 通过对东巴文单句图像进行膨胀处理,能够消除东巴文图像中不同面积的断点。
[0044] S130、对所述待切分单句图像中的连通区域进行分析处理,得到东巴文的单个文字。
[0045] 在本实施例中,可以利用小面积连通区域质心相连的连通区域合并技术、连通区域移植的文字切分技术以及边缘线条去除技术对待切分单句图像进行分析处理,得到东巴文的单个文字。
[0046] 在本技术方案中,可选的,对所述待切分单句图像中的连通区域进行分析处理,得到东巴文的单个文字,包括:
[0047] 对所述待切分单句图像中的连通区域进行生成处理,得到各连通区域的最小外接矩形,并确定所述最小外接矩形的宽度信息、高度信息以及中心点坐标;
[0048] 利用所述宽度信息、高度信息以及中心点坐标,对所述待切分单句图像进行连通区域去除处理,得到目标单句图像;
[0049] 若所述目标单句图像中相邻连通区域满足预设连通约束条件,则将相邻连通区域进行合并,得到合并后的目标单句图像,并对所述合并后的目标单句图像中的文字进行提取,得到东巴文的单个文字。
[0050] 其中,连通区域的生成就是对图像中连通的前景部分进行标记并提取最小外接矩形几何特征的过程。具体的,采用通用的连通区域生成方法,得到连通区域后通过计算生成每个连通区域的凸包获得连通区域的最小外接矩形,首先找到连通区域内横纵坐标值最小的点,以该点为原点与连通区域中其他像素点连线形成边,将极角最小的边对应的另一个像素点作为下一个原点,重复操作,直到寻找到的下一个原点为最初设定的原点为止,这些边所形成的多边形即为连通区域的凸包。最后对凸包的每一条边都绘制一个外接矩形,则外接矩形面积最小的矩形即为连通区域的最小外接矩形。得到各连通区域的最小外接矩形后对最小外接矩形的宽度信息、高度信息以及中心点坐标进行提取。
[0051] 在本实施例中,东巴文图像经过自动断句切分处理后,会不可避免地将横线线条和竖线线条保留在各个东巴文单句图像中。这些线条的存在会给单字切分以及后续的识别带来极大的干扰,必须将其去除。一般情况下这些边缘线条会以细长的形状分布在图像的边界处,与象形文字存在一定的距离,可以通过连通区域最小外接矩形的中心点坐标、宽度信息和高度信息来确定是否为需要删除的边缘线条。
[0052] 其中,连通约束条件可以是指相邻连通区域合并的阈值条件,可以根据对东巴象形文字的大量统计分析进行设置。
[0053] 在本方案中,东巴文象形文字若有多个不连通区域,存在两种情况:多个不连通区域都是小面积的连通区域;以大面积连通区域为中心,点状、短线状小面积离散连通区域分布四周。可以基于小面积连通区域进行线连实现连通区域的合并。
[0054] 在本实施例中,首先生成多张与合并后的目标单句图像大小相同的白色背景图,对于连通区域合并后得到的新连通区域按照从左到右的顺序,将每个新连通区域内的像素值依次移植到白色背景图的响应位置上,生成一个仅包含单个东巴象形文字的图像序列,重复操作,直至完成东巴文的单个文字切分。
[0055] 通过对待切分单句图像中的连通区域进行分析处理,能够实现东巴文的单个文字的切分,为东巴文化的研究提供了便利性。
[0056] 在本技术方案中,可选的,利用所述宽度信息、高度信息以及中心点坐标,对所述待切分单句图像进行连通区域去除处理,得到目标单句图像,包括:
[0057] 判断所述中心点的横坐标是否满足第一预设阈值,以及所述宽度信息是否满足第二预设阈值;或者,
[0058] 判断所述中心点的横坐标与待切分单句图像的宽度信息之间的差值是否满足第一预设阈值,以及所述宽度信息是否满足第二预设阈值;或者,
[0059] 判断所述中心点的纵坐标是否满足第一预设阈值,以及所述高度信息是否满足第二预设阈值;或者,
[0060] 判断所述中心点的纵坐标与待切分单句图像的高度信息之间的差值是否满足第一预设阈值,以及所述高度信息是否满足第二预设阈值;
[0061] 若满足,则将所述待切分单句图像中的连通区域进行去除处理,得到目标单句图像。
[0062] 其中,第一预设阈值和第二预设阈值可以根据对东巴象形文字的大量统计分析进行设置。例如,可以设置第一预设阈值为10,第二预设阈值为20。
[0063] 具体的,通过连通区域几何特征判定法,依据边缘线条去除规则去除待切分单句图像中为边界竖线或者边界横线的连通区域。可以采用如表1所示的边缘线条去除规则对待切分单句图像中的连通区域进行去除处理,得到目标单句图像。
[0064] 表1
[0065]
[0066] 其中, 表示中心点的横坐标, 表示中心点的纵坐标, 表示宽度信息,表示高度信息, 表示待切分单句图像的宽度信息, 表示待切分单句图像的高度信息。
[0067] 通过对待切分单句图像中的边界横线和边界竖线进行去除,能够减少待切分单句图像中的线条干扰。
[0068] 在本技术方案中,可选的,若所述目标单句图像中相邻连通区域满足预设连通约束条件,则将相邻连通区域进行合并,得到合并后的目标单句图像,包括:
[0069] 计算所述目标单句图像中相邻连通区域的面积以及中心点距离;
[0070] 若所述面积大于第三预设阈值且小于第四预设阈值,以及所述中心点距离小于第五预设阈值,则将相邻连通区域的质心进行连接,得到目标连通区域,并基于目标连通区域构建合并后的目标单句图像。
[0071] 其中,可以根据目标单句图像中的最小外接矩形,确定相邻连通区域的面积以及中心点距离。
[0072] 在本实施例中,第三预设阈值、第四预设阈值和第五预设阈值可以根据对东巴象形文字的大量统计分析进行设置。例如,可以设置第三预设阈值为100,第四预设阈值为1500,第五预设阈值为80。设置连通区域连线的判定规则为若相邻连通区域的面积满足100
[0073] 其中,可以采用如下公式计算连通区域的质心坐标:
[0074]  ;
[0075] 其中,   为图像的零阶矩,表示图像的质量,即图像灰度的总和,为图像在  点的灰度值, , ,为图像的一阶矩,用来确定图像的灰度中心。
[0076] 示例性的,图2是本申请实施例一提供的基于质心连线的连通区域合并的示意图,如图2所示,基于质心连线的连通区域合并能够将每一个东巴象形文字的多个连通域正确合并,并且上下交错排列的东巴象形文字没有错误合并。
[0077] 利用质心坐标将满足条件的相邻连通区域进行合并,能够提高合并的准确率。
[0078] 示例性的,图3是本申请实施例一提供的东巴文的文字切分的流程图,如图3所示,对东巴文单句图像进行膨胀处理,得到待切分单句图像,然后对待切分图像进行连通区域生成处理,边缘线条处理,连通区域合并处理以及连通区域切分处理,得到东巴文的单个文字的图像序列。
[0079] 本申请实施例所提供的技术方案,按照东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像,然后对东巴文单句图像进行膨胀处理,得到待切分单句图像,并对待切分单句图像中的连通区域进行分析处理,得到东巴文的单个文字。通过执行本技术方案,可以对东巴文的单个文字进行切分,为东巴文化的研究提供了便利性。
[0080] 实施例二
[0081] 图4是本申请实施例二提供的东巴文的文字切分过程的示意图,本实施例二在实施例一的基础上进行进一步地优化。具体优化为:按照东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像,包括:对东巴文图像进行水平投影,确定东巴文图像中的横线位置;根据所述横线位置对东巴文图像进行段落切分,得到东巴文行图像;将所述东巴文行图像作为输入,基于预先确定的目标检测模型对所述东巴文行图像进行处理,得到带竖线位置的东巴文行图像,并按照所述竖线位置对东巴文行图像进行单句切分,得到东巴文单句图像;其中,所述目标检测模型包括骨干特征提取网络、加强特征提取模块和检测头模块。其中,未在本实施例中详尽描述的内容详见实施例一。如图4所示,该方法包括以下步骤:
[0082] S410、对东巴文图像进行水平投影,确定东巴文图像中的横线位置;
[0083] 在本方案中,由于横线上任一点的纵坐标都是相同的,因此经过水平投影,东巴文图像的像素值会在纵向上进行叠加,在纵坐标这一点上就会出现一个非常明显的尖峰值,代表着横线位置。
[0084] 示例性的,图5是本申请实施例二提供的水平投影像素值分布的示意图,如图5所示,图像中的横线较长,经水平投影后尖峰值较为明显,通过水平投影就可以确定东巴文图像中的横线位置。
[0085] S420、根据所述横线位置对东巴文图像进行段落切分,得到东巴文行图像;
[0086] 在本方案中,确定东巴文图像中图像横线位置后,可以基于横线位置对东巴文图像进行段落切分,得到东巴文行图像。
[0087] S430、将所述东巴文行图像作为输入,基于预先确定的目标检测模型对所述东巴文行图像进行处理,得到带竖线位置的东巴文行图像,并按照所述竖线位置对东巴文行图像进行单句切分,得到东巴文单句图像;其中,所述目标检测模型包括骨干特征提取网络、加强特征提取模块和检测头模块。
[0088] 在本方案中,YOLOv5模型作为目标检测领域最优秀的模型之一,网络结构小、速度快,且检测精度高,具有在较多结构特征相似的物体中准确检测目标的能力,适用于东巴文行图像的竖线检测。在其整体框架上对其网络结构加以改进,构建东巴文图像竖线位置检测的目标检测模型。
[0089] 示例性的,图6是本申请实施例二提供的目标检测模型的示意图,如图6所示,目标检测模型包括骨干特征提取网络、加强特征提取模块和检测头模块。其中,骨干特征提取网络由卷积层(Conv)、批量归一化层(BN)和Mish激活函数组合构成的组件模块通过残差结构构成。Mish激活函数为 。其中, 。Mish激活函数是比较平滑的函数,允许更好的信息深入神经网络,从而得到更好的准确性和泛化能力。针对东巴古籍图像的具体情况,其很多象形文字中包含类似的竖线,这大大增加了模型准确检测分句竖线的难度。在骨干特征提取网络中加入了全局注意力机制,能够尽可能增强竖线特征和文字特征在通道和空间维度上的差异性,并使得骨干网络提取浅层特征更为精准,提高了模型的表征能力和检测精度。加强特征提取模块由8个多尺度特征提取模块构成,检测头模块由卷积层构成。
[0090] 在本方案中,可以将东巴文行图像作为输入,基于目标检测模型对东巴文行图像进行处理,得到带竖线位置的东巴文行图像,以便于对东巴文行图像进行切分。
[0091] 示例性的,图7是本申请实施例二提供的东巴文自动断句的流程图,如图7所示,对东巴文图像进行水平投影,确定横线位置即行切分点,对东巴文图像进行行切分,得到东巴文行图像,并基于目标检测模型,确定竖线位置即列切分点,对东巴文行图像进行列切分,得到东巴文单句图像。
[0092] 在本技术方案中,可选的,将所述东巴文行图像作为输入,基于预先确定的目标检测模型对所述东巴文行图像进行处理,得到带竖线位置的东巴文行图像,包括:
[0093] 利用骨干特征提取网络中的组件模块对所述东巴文行图像进行训练,得到特征图像,并利用骨干特征提取网络中的注意力模块对所述特征图像的通道、空间高度以及空间宽度进行信息置换处理,得到目标特征图像;
[0094] 将目标特征图像作为输入,利用加强特征提取模块和检测头模块对所述目标特征图像进行处理,得到带竖线位置的东巴文行图像。
[0095] 其中,注意力模块包含通道注意力子模块和空间注意力子模块两部分。通道注意力子模块用于实现跨维度信息的交互;空间注意力子模块用于实现通道间特征融合。
[0096] 示例性的,图8是本申请实施例二提供的注意力模块的示意图,如图8所示,注意力模块包括通道注意力子模块和空间注意力子模块两部分。通道注意力子模块的三维置换排列通过通道、空间宽度和空间高度之间的信息置换实现跨维信息交互,然后利用一个两层的感知机增强跨维通道‑空间依赖性,在三个维度上提取注意力权重。为了关注空间信息,使用两个卷积层进行空间信息融合。通常在引入空间注意力机制时,需要通过平均池化层或最大池化层来聚合特征图的通道信息,然而由于池化操作减少了信息的使用,不利于信息的传递。因此在空间注意力子模块中没有使用池化操作以进一步保留特征映射。为了防止由于删除池化层而带来的参数增加,在卷积层后采用带通道混洗操作的组卷积实现通道间特征信息融合的同时,减少了一定的参数量。
[0097] 示例性的,图9是本申请实施例二提供的加强特征提取模块的示意图,如图9所示,多尺度特征提取模块通过引入多尺度卷积核(3×3, 5×5, 7×7,9×9)来充分提取输入的目标特征图像。其中,小尺寸的卷积核会更关注于东巴文字的边缘结构信息,而大尺度的卷积核则更利于提取东巴象形文字的细节特征。在模块设计中没有采用带不同膨胀率的膨胀卷积来代替大尺度卷积核,然而大卷积核的引入无疑会增加目标检测模型的总参数量,造成模型参数的冗余,增加过拟合的风险,这种现象不利于泛化能力的提高。为此,又引入了深度可分离卷积,使每一个卷积核只作用于每一个通道上的特征图,并通过一个LeakyReLU的非线性激活以及一个1×1卷积来完成各个独立通道的信息的交互和融合。其中,LeakyReLU激活函数的负区域具有小的正斜率,因此即使对于负输入值,也可以进行反向传播,能够有效解决神经元死亡问题。LeakyReLU激活函数的计算公式如式所示:。上述多尺度特征提取模块可以极大地提高模型的特征提取能力,
在保证参数量与常规3×3卷积几乎相同的前提下,能够十分准确地检测到东巴象形文字古籍图像中的竖线。
[0098] 通过目标检测模型对东巴文行图像的竖线位置进行检测,能够提高竖线位置检测的准确率。
[0099] 本申请实施例所提供的技术方案,对东巴文图像进行水平投影,确定东巴文图像中的横线位置,并根据横线位置对东巴文图像进行段落切分,得到东巴文行图像,然后将东巴文行图像作为输入,基于预先确定的目标检测模型对东巴文行图像进行处理,得到带竖线位置的东巴文行图像,并按照竖线位置对东巴文行图像进行单句切分,得到东巴文单句图像。通过执行本技术方案,可以对东巴文图像进行自动断句,提高了东巴象形文字古籍图像中横线位置和竖线位置检测的准确率。
[0100] 实施例三
[0101] 图10是本申请实施例三提供的东巴文的文字切分装置的结构示意图,如图10所示,东巴文的文字切分装置包括:
[0102] 东巴文单句图像得到模块1010,用于按照东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像;其中,所述横线位置用于区分东巴文图像中的段落;所述竖线位置用于区分东巴文图像的段落中的每句文字;
[0103] 待切分单句图像得到模块1020,用于对所述东巴文单句图像进行膨胀处理,得到待切分单句图像;
[0104] 单个文字得到模块1030,用于对所述待切分单句图像中的连通区域进行分析处理,得到东巴文的单个文字。
[0105] 在本技术方案中,可选的,单个文字得到模块1030,包括:
[0106] 最小外接矩形得到单元,用于对所述待切分单句图像中的连通区域进行生成处理,得到各连通区域的最小外接矩形,并确定所述最小外接矩形的宽度信息、高度信息以及中心点坐标;
[0107] 目标单句图像得到单元,用于利用所述宽度信息、高度信息以及中心点坐标,对所述待切分单句图像进行连通区域去除处理,得到目标单句图像;
[0108] 单个文字得到单元,用于若所述目标单句图像中相邻连通区域满足预设连通约束条件,则将相邻连通区域进行合并,得到合并后的目标单句图像,并对所述合并后的目标单句图像中的文字进行提取,得到东巴文的单个文字。
[0109] 在本技术方案中,可选的,目标单句图像得到单元,具体用于:
[0110] 判断所述中心点的横坐标是否满足第一预设阈值,以及所述宽度信息是否满足第二预设阈值;或者,
[0111] 判断所述中心点的横坐标与待切分单句图像的宽度信息之间的差值是否满足第一预设阈值,以及所述宽度信息是否满足第二预设阈值;或者,
[0112] 判断所述中心点的纵坐标是否满足第一预设阈值,以及所述高度信息是否满足第二预设阈值;或者,
[0113] 判断所述中心点的纵坐标与待切分单句图像的高度信息之间的差值是否满足第一预设阈值,以及所述高度信息是否满足第二预设阈值;
[0114] 若满足,则将所述待切分单句图像中的连通区域进行去除处理,得到目标单句图像。
[0115] 在本技术方案中,可选的,单个文字得到单元,具体用于:
[0116] 计算所述目标单句图像中相邻连通区域的面积以及中心点距离;
[0117] 若所述面积大于第三预设阈值且小于第四预设阈值,以及所述中心点距离小于第五预设阈值,则将相邻连通区域的质心进行连接,得到目标连通区域,并基于目标连通区域构建合并后的目标单句图像。
[0118] 在本技术方案中,可选的,待切分单句图像得到模块1020,具体用于:
[0119] 将膨胀核中心点的位置移动到所述东巴文单句图像的中心点位置,构建待切分单句图像。
[0120] 在本技术方案中,可选的,东巴文单句图像得到模块1010,包括:
[0121] 横线位置确定单元,用于对东巴文图像进行水平投影,确定东巴文图像中的横线位置;
[0122] 东巴文行图像得到单元,用于根据所述横线位置对东巴文图像进行段落切分,得到东巴文行图像;
[0123] 东巴文单句图像得到单元,用于将所述东巴文行图像作为输入,基于预先确定的目标检测模型对所述东巴文行图像进行处理,得到带竖线位置的东巴文行图像,并按照所述竖线位置对东巴文行图像进行单句切分,得到东巴文单句图像;其中,所述目标检测模型包括骨干特征提取网络、加强特征提取模块和检测头模块。
[0124] 在本技术方案中,可选的,东巴文单句图像得到单元,具体用于:
[0125] 利用骨干特征提取网络中的组件模块对所述东巴文行图像进行训练,得到特征图像,并利用骨干特征提取网络中的注意力模块对所述特征图像的通道、空间高度以及空间宽度进行信息置换处理,得到目标特征图像;
[0126] 将目标特征图像作为输入,利用加强特征提取模块和检测头模块对所述目标特征图像进行处理,得到带竖线位置的东巴文行图像。
[0127] 上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
[0128] 实施例四
[0129] 本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种东巴文的文字切分方法,该方法包括:
[0130] 按照东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像;其中,所述横线位置用于区分东巴文图像中的段落;所述竖线位置用于区分东巴文图像的段落中的每句文字;
[0131] 对所述东巴文单句图像进行膨胀处理,得到待切分单句图像;
[0132] 对所述待切分单句图像中的连通区域进行分析处理,得到东巴文的单个文字。
[0133] 存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD‑ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
[0134] 当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的东巴文的文字切分操作,还可以执行本申请任意实施例所提供的东巴文的文字切分方法中的相关操作。
[0135] 实施例五
[0136] 本申请实施例提供了一种电子设备,该电子设备中可集成本申请实施例提供的东巴文的文字切分装置。图11是本申请实施例五提供的一种电子设备的结构示意图。如图11所示,本实施例提供了一种电子设备1100,其包括:一个或多个处理器1120;存储装置1110,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器1120执行,使得所述一个或多个处理器1120实现本申请实施例所提供的东巴文的文字切分方法,该方法包括:
[0137] 按照东巴文图像中的横线位置和竖线位置对东巴文图像进行切分,得到东巴文单句图像;其中,所述横线位置用于区分东巴文图像中的段落;所述竖线位置用于区分东巴文图像的段落中的每句文字;
[0138] 对所述东巴文单句图像进行膨胀处理,得到待切分单句图像;
[0139] 对所述待切分单句图像中的连通区域进行分析处理,得到东巴文的单个文字。
[0140] 当然,本领域技术人员可以理解,处理器1120还实现本申请任意实施例所提供的东巴文的文字切分方法的技术方案。
[0141] 图11显示的电子设备1100仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
[0142] 如图11所示,该电子设备1100包括处理器1120、存储装置1110、输入装置1130和输出装置1140;电子设备中处理器1120的数量可以是一个或多个,图11中以一个处理器1120为例;电子设备中的处理器1120、存储装置1110、输入装置1130和输出装置1140可以通过总线或其他方式连接,图11中以通过总线1150连接为例。
[0143] 存储装置1110作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块单元,如本申请实施例中的东巴文的文字切分方法对应的程序指令。
[0144] 存储装置1110可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置1110可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置1110可进一步包括相对于处理器1120远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0145] 输入装置1130可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置1140可包括显示屏、扬声器等电子设备。
[0146] 本申请实施例提供的电子设备,可以达到对东巴文的单个文字进行切分的目的。
[0147] 上述实施例中提供的东巴文的文字切分装置、存储介质及电子设备可执行本申请任意实施例所提供的东巴文的文字切分方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的东巴文的文字切分方法。
[0148] 注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。