文字编码方法和装置、可读存储介质及电子设备转让专利

申请号 : CN201910309554.2

文献号 : CN110032716A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 汪越宇

申请人 : 北京地平线机器人技术研发有限公司

摘要 :

本申请实施例公开了文字编码方法和装置、可读存储介质及电子设备,所述方法包括:根据文字的图像样本数据确定文字特征树中与所述文字相对应的对应节点,其中,所述文字特征树中的每个节点分别对应一个文字特征分类和一个参考标识;以及,基于与所述文字相对应的所述对应节点的参考标识对所述文字进行编码,以得到所述文字的标识。通过采用树型拓扑结构将所有文字根据其特征相关性进行排列,使得各个文字之间的特征相关信息反映在标识中,更合理充分地利用文字的特征信息,当已编码的文字作为神经网络输出的标准(Ground Truth)时,编码表中的标识能够反映文字之间的特征相关性,提高了文字之间的特征相关信息的复用性以及连贯性。

权利要求 :

1.一种文字编码方法,包括:

根据文字的图像样本数据确定文字特征树中与所述文字相对应的对应节点,其中,所述文字特征树中的每个节点分别对应一个文字特征分类和一个参考标识;以及,基于与所述文字相对应的所述对应节点的参考标识对所述文字进行编码,以得到所述文字的标识。

2.根据权利要求1所述的文字编码方法,其中,所述文字特征分类包括文字结构类型,所述根据文字的图像样本数据确定文字特征树中与所述文字相对应的对应节点包括:根据所述文字的图像样本数据确定所述文字的第一文字结构;以及,在所述文字特征树中查找与所述第一文字结构相同的第一文字结构类型;

将所述第一文字结构类型所对应的节点确定为所述文字特征树中与所述文字相对应的对应节点。

3.根据权利要求2所述的文字编码方法,其中,所述根据所述文字的图像样本数据确定所述文字的第一文字结构包括:对所述图像进行二值化;

获取二值化后的图像分别在第一方向上、第二方向上的投影,所述第一方向与所述第二方向垂直;以及,根据二值化后的图像在所述第一方向上、所述第二方向上的投影确定所述文字的结构。

4.根据权利要求1所述的文字编码方法,其中,所述文字特征分类包括文字部首类型,所述根据文字的图像样本数据确定文字特征树中与所述文字相对应的对应节点包括:将所述文字与所述文字特征树中的每个节点对应的文字部首类型进行匹配,得到所述文字与每个所述节点对应的文字部首类型之间的匹配度;以及,将与所述文字匹配度最高的文字部首类型所对应的节点确定为所述文字特征树中与所述文字相对应的对应节点。

5.根据权利要求1所述的文字编码方法,其中,所述文字特征树包括多个节点,至少一个节点包括至少一个子节点,所述至少一个节点中的每个节点对应第一文字特征分类,所述每个子节点对应第二文字特征分类。

6.根据权利要求5所述的文字编码方法,其中,所述根据文字的图像样本数据确定文字特征树中与所述文字相对应的对应节点包括:根据所述文字的图像样本数据确定所述文字的第一文字特征;

根据所述文字的第一文字特征确定所述文字在所述文字特征树中对应的节点;

将所述文字和与所述节点中的子节点对应的第二文字特征分类进行一一匹配,获取所述文字与所述子节点对应的第二文字特征分类的匹配度;以及,将与所述文字的匹配度最高的第二文字特征分类所对应的子节点确定为所述文字特征树中与所述文字相对应的对应节点。

7.根据权利要求6所述的文字编码方法,其中,所述根据文字的图像样本数据确定文字特征树中与所述文字相对应的对应节点包括:根据所述文字的图像样本数据确定所述文字的第一文字特征;

根据所述文字的第一文字特征确定所述文字在所述文字特征树中对应的节点;

获取所述节点在所述文字特征树中的权重;

将所述文字与所述文字特征树中的所有子节点对应的第二文字特征分类进行匹配,获取所述文字与所有子节点对应的第二文字特征分类的匹配度;

将所述节点中的所述子节点对应的第二文字特征分类与所述文字的匹配度均乘以所述权重,获取所述节点中的子节点对应的第二文字特征分类与所述文字的新的匹配度;确定所述新的匹配度以及与所述文字的第一文字特征不相对应的节点中的子节点所对应的第二文字特征分类与所述文字的匹配度中数值最高的匹配度对应的第二文字特征分类;以及,将所述第二文字特征分类所对应的子节点确定为所述文字特征树中与所述文字相对应的对应节点。

8.根据权利要求6或7所述的文字编码方法,其中,所述根据文字的图像样本数据确定文字特征树中与所述文字相对应的对应节点还包括:确定所述节点是否存在子节点;

当所述节点不存在子节点,将所述节点确定为所述特征树中与所述文字相对应的对应节点。

9.根据权利要求1所述的文字编码方法,其中,基于与所述文字相对应的所述对应节点的参考标识对所述文字进行编码包括:将所述文字和与所述文字对应同一个对应节点的每个已编码文字进行一一匹配,确定与所述文字相似匹配度最高的已编码文字;

根据与所述文字相似匹配度最高的已编码文字的标识对所述文字进行编码。

10.根据权利要求9所述的文字编码方法,其中,在根据与所述文字相似匹配度最高的已编码文字的标识对所述文字进行编码之后,所述基于所述节点的参考编标识对所述文字进行编码还包括:在与所述文字对应同一个对应节点的已编码文字中,查找具有与所述文字的标识相同的标识的已编码文字;以及,当找到具有与所述文字的标识相同的标识的已编码文字时,基于与所述文字对应的对应节点的所述参考标识将找到的所述已编码文字的标识重置为与所述文字的标识不同的新的标识。

11.一种文字编码装置,包括:

节点确定模块,用于根据文字的图像样本数据确定文字特征树中与所述文字相对应的对应节点,其中所述文字特征树中的每个节点分别对应一个文字特征分类和一个参考标识;以及,编码模块,用于基于与所述对应节点的参考标识对所述文字进行编码,得到所述文字的标识。

12.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-10任一所述的文字编码方法。

13.一种电子设备,所述电子设备包括:

处理器;以及,

用于存储所述处理器可执行指令的存储器;

其中,所述处理器,用于执行上述权利要求1-10任一所述的文字编码方法。

说明书 :

文字编码方法和装置、可读存储介质及电子设备

技术领域

[0001] 本申请涉及信息技术领域,具体设计文字编码方法和装置、可读存储介质及电子设备。

背景技术

[0002] 现有技术中的用于神经网络输出的文字的编码方式未能利用文字本身的结构特性,不能反映出文字之间的结构相关性,降低信息复用性、连贯性。

发明内容

[0003] 为了解决上述技术问题,提出了本申请。本申请的实施例提供了文字编码方法和装置、可读存储介质及电子设备,解决了现有技术中的文字编码方法不能不能反映出文字之间的结构相关性,降低了信息复用性、连贯性的技术问题。
[0004] 根据本申请的一个方面,提供了一种文字编码方法,包括:根据文字的图像样本数据确定文字特征树中与所述文字相对应的对应节点,其中,所述文字特征树中的每个节点分别对应一个文字特征分类和一个参考标识;以及,基于与所述文字相对应的所述对应节点的参考标识对所述文字进行编码,以得到所述文字的标识。
[0005] 根据本申请的另一个方面,提供了一种文字编码装置,包括:节点确定模块,用于根据文字的图像样本数据确定文字特征树中与所述文字相对应的对应节点,其中所述文字特征树中的每个节点分别对应一个文字特征分类和一个参考标识;以及,编码模块,用于基于所述对应节点的参考标识对所述文字进行编码,得到所述文字的标识,其中所述文字的标识与所述节点的参考标识具有至少一个相同的特征。
[0006] 根据本申请的另一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的文字编码方法。
[0007] 根据本申请的另一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述的文字编码方法。
[0008] 本申请提供的文字编码方法,采用树型拓扑结构将所有文字根据其特征相关性进行排列,树型拓扑结构中的每个节点为一个文字,使得各个文字之间的特征相关信息反映在标识中,更合理充分地利用文字的特征信息,当已编码的文字作为神经网络的输出时,编码表中的标识能够反映文字之间的特征相关性,提高了文字之间的特征相关信息的复用性以及连贯性。

附图说明

[0009] 通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
[0010] 图1是本申请一示例性实施例提供的文字编码方法的流程示意图。
[0011] 图2是本申请一示例性实施例提供的文字特征树的结构示意图。
[0012] 图3是本申请另一示例性实施例提供的文字特征树的结构示意图。
[0013] 图4是本申请另一示例性实施例提供的文字特征树的结构示意图。
[0014] 图5是本申请一示例性实施例提供的文字编码方法的流程示意图。
[0015] 图6是本申请另一示例性实施例提供的文字编码方法的流程示意图。
[0016] 图7是本申请另一示例性实施例提供的文字编码方法的流程示意图。
[0017] 图8是本申请另一示例性实施例提供的文字编码方法的流程示意图。
[0018] 图9是本申请另一示例性实施例提供的文字编码方法的流程示意图。
[0019] 图10是包括以本申请示例性实施例提供的文字编码方法编码后的多个文字的文字树的部分结构示意图。
[0020] 图11是本申请一示例性实施例提供的文字编码方法的流程示意图。
[0021] 图12是包括以本申请示例性实施例提供的文字编码方法编码后的多个文字的文字树的部分结构示意图。
[0022] 图13是本申请一示例性实施例提供的文字编码装置的结构示意图。
[0023] 图14是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

[0024] 下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
[0025] 申请概述
[0026] 本申请可以应用于任何使用神经网络处理器进行任务处理的领域。例如,本申请实施例可以应用于文字识别、手写字体识别、光学字符识别、自然场景中的文字识别等场景下,本申请是针对神经网络用于文字进行识别时的文字的编码方法和装置,因此,只要是有经过神经网络进行文字识别的领域均可以采用本申请所提供的方法和装置。
[0027] 如上所述,在文字字体风格、形态差异巨大的应用场景下,不同用户的性格、习惯以及想象力不同,因此每年都会诞生大量的艺术字体,并且文字的书写者、设计者在不同的环境下书写出或者设计出的文字在形态、风格上有巨大的差异,因而造成了文字的数据样本的多样化,在进行利用神经网络进行识别的时候,对识别效果影响较大。
[0028] 现有技术对于文字进行识别的过程是:采用空间变换网络减少手写字体之间在风格或者形态上的差异,或者利用更多数据、更深层网络来进行学习不同风格或者形态的手写字体。然而现有将常用文字表内的3755个文字以独热码形式进行编码,当采用神经网络对手写字体进行文字识别时,经过编码后的3755个文字被当做神经网络输出的标准(Ground Truth)。
[0029] 这种编码形式实则是将每个字独立编码,但是这种编码方法实际上是将每个文字进行独立编码,未能利用文字本身的结构特性,不能反映出文字之间的结构相关性,降低了信息复用性以及连贯性。
[0030] 针对上述的技术问题,本申请的基本构思是提出一种文字编码方法,采用树型拓扑结构将所有文字根据其特征相关性进行排列,树型拓扑结构中的每个节点为一个文字,使得各个文字之间的特征相关信息反映在标识中,更合理充分地利用文字的特征信息,当已编码的文字作为神经网络输出的标准(Ground Truth)时,编码表中的标识能够反映文字之间的特征相关性,提高了文字之间的特征相关信息的复用性以及连贯性。
[0031] 在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
[0032] 示例性方法
[0033] 图1是本申请一示例性实施例提供的文字编码方法的流程示意图。本实施例可应用在电子设备上,如图1所示,包括如下步骤:
[0034] 步骤101,根据文字(即当前编码文字,以下称当前编码文字)的图像样本数据确定文字特征树中与该当前编码文字相对应的对应节点,其中,文字特征树中的每个节点分别对应一个文字特征分类和一个参考标识。
[0035] 在该步骤中,根据当前编码文字的图像样本数据可以获得该文字特征树中与该当前编码文字相对应的文字特征分类,因为文字特征树的每个节点对应一个文字特征分类,因此根据文字特征树中与该当前编码文字的文字特征相对应的文字特征分类可以获得文字特征树中与该当前编码文字相对应的对应节点,由于文字特征树中每个节点对应一个参考标识,因此,可以根据该对应节点获取参考标识,该对应节点的参考标识即是当前文字编码过程中的可以参考的标识。
[0036] 步骤102:基于与该当前编码文字相对应的对应节点的参考标识对该当前编码文字进行编码,得到该当前编码文字的标识。
[0037] 通过步骤101,得到了当前编码文字在文字特征树中相对应的对应节点,并且获得该对应节点的参考标识,在该步骤中,根据在步骤101中获得的与该当前编码文字相对应的对应节点的参考标识对该当前编码文字进行编码,得到该当前编码文字的标识。
[0038] 本申请实施例中的文字编码方法采用树型拓扑结构将所有文字根据其特征相关性进行排列,树型拓扑结构中的每个节点为一个文字,具有相同文字特征的多个文字又同属于同一个节点,而属于同一个节点的多个文字均是根据该同一个节点的参考标识进行编码的,因此具有相同文字特征的文字的编码具有相关性,使得各个文字之间的特征相关信息反映在标识中,更合理充分地利用文字的特征信息,当已编码的文字作为神经网络输出的标准(Ground Truth)时,编码表中的标识能够反映文字之间的特征相关性,提高了文字之间的特征相关信息的复用性以及连贯性。
[0039] 如前文所述,步骤101中首先要根据当前编码文字的图像样本数据可以获得文字特征树中与该当前编码文字相对应的文字特征分类,在此之前,需要获取包括当前编码文字的图像样本数据。在本申请一实施例中,获取包括该当前编码文字的图像样本数据的方式可以采用以下几种可能的实现方式:
[0040] (1)采用该文字编码方法的电子设备提供图片提交入口,从而基于该图片提交入口获取上传的图片,并将该上传的图片确定为包括该当前编码文字的图像样本数据。
[0041] (2)采用该文字编码方法的电子设备可以自动获取电子设备中的图片,并将该图片确定为包括该当前编码文字的图像样本数据。例如该电子设备可以获取当前接收的图片,从而将接收的图片确定为包括该当前编码文字的图像样本数据;或者获取当前拍摄的图片,从而将该拍摄的图像确定为包括当前编码文字的图像样本数据;或者获取当前显示的图片,从而将该显示的图片确定为包括当前编码文字的图像样本数据。
[0042] (3)采用该文字编码方法的电子设备可以获取视频中的视频帧图片,将该视频帧图像确定为包括当前编码文字的图像样本数据,其中,该视频可以为当前播放的视频或者当前拍摄的视频。
[0043] 需要说明的是,采用该文字编码方法的电子设备获取包括当前编码文字的图像样本数据的方式可以有多种,例如可以为上述获取包括当前编码文字的图像样本数据的获取方式之一,因此本申请实施例对获取包括当前编码文字的图像样本数据的具体方式不作限定。
[0044] 在本申请一实施例中,文字特征分类包括文字结构类型,其中文字结构类型根据文字的形体结构进行分类,其中文字的形体结构包括独体字(也称为单一结构或者整体结构的文字,例如文字“子”、“木”等)和合体字,其中合体字的结构可以包括左右结构(例如文字“挣”、“休”、“伟”等)、上下结构(例如文字“忐”、“字”、“志”等)、左中右结构(例如文字“湖”、“脚”、“谢”等)、上中下结构(例如文字“苦”、“冀”、“慧”等)、半包围结构(例如文字“庙”、“病”、“房”等)、全包围结构(例如文字“团”、“园”、“囚”等)以及叠字结构(例如文字“林”、“森”、“淼”等)。其中半包围结构又可以包括右上包围结构(例如文字“句”、“司”、“可”等)、左上包围结构(例如文字“病”、“尼”、“庙”等)、左下包围结构(例如文字“建”、“毯”、“尴”等)、上三包围结构(例如文字“同”、“闹”、“周”等)、下三包围结构(例如文字“凶”、“画”、“函”等)以及左三包围结构(例如文字“巨”、“臣”、“区”等)。当文字特征分类为文字的结构类型时,文字特征树中的每个节点分别对应一个文字特征分类,即为文字特征树中的每个节点分别对应一个文字的结构,如图2所示,一个文字特征树包括八个节点,其中每个节点分别对应:独体字结构、左右结构、上下结构、叠字结构、半包围结构、全包围结构、上中下结构和左中右结构。
[0045] 需要说明的是,当文字的特征分类为文字的结构类型时,一个文字特征树中包括的节点个数以及每个节点对应的文字结构类型可以采用多种方式,例如可以如上述所示的情况(图2),也可以为如下的情况,如图3所示:一个文字特征树包括五个节点,其中每个节点分别对应:上下结构、左右结构、半包围结构、全包围结构以及叠字结构。其中,将独体字结构的文字归为叠字结构(即独体字结构的文字为叠字个数为一的叠字结构的文字),将上中下结构的文字归为左右结构中,将左中右结构的文字归为左右结构。因此,当文字的特征分类为文字的结构类型时,本申请实施例对一个文字特征树中包括的节点个数以及每个节点对应的文字结构类型的具体方式不作限定。
[0046] 需要说明的是,文字的特征分类有多种形式,例如可以采取上述所示的文字的结构类型,还可以为其他的形式,例如文字的笔画数量,还例如文字的部首类型。
[0047] 在本申请一实施例中,文字特征分类采用文字的部首类型,其中文字的部首指的是字典、词典为了给文字分类而确定的字类标目,是从分析字型的结构中产生的,部首是具有字型归类作用的偏旁。当文字特征分类为文字的部首类型时,文字特征树中的每个节点分别对应一个文字部首分类,即为文字特征树中的每个节点分别对应一个文字的部首,例如文字特征树的一个节点对应一个部首单立人“亻”,归类为部首单立人的文字包括文字“任”、“伟”、“休”等;另一个节点对应一个部首三点水“氵”,归类为部首三点水的文字包括文字“河”、“海”、“湖”等。因此,本申请实施例对文字特征树中的节点对应的文字特征类型的具体方式不作限定。
[0048] 在本申请一实施例中,文字特征树的结构形式为树型拓扑结构,一个文字特征树中包括的层级个数至少为一层。例如文字特征树为一层结构,即文字特征树包括多个节点,并且每个节点没有子节点,如图2或者图3所示,每个节点所对应的文字特征分类可以如前文所述。文字特征树还可以为二层结构,如图4所示,即文字特征树包括多个节点(即一级节点),并且至少一个节点包括至少一个子节点(即二级节点),因此,本申请实施例对文字特征树的结构形式不作限定。
[0049] 当文字特征树为二层结构时,即文字特征树包括多个一级节点以及至少一个一级节点包括至少一个二级节点时,一级节点可以对应文字特征分类中的文字的结构,二级节点可以对应文字特征分类中的文字的部首,例如文字特征树中的一级节点对应文字的左右结构,那么归属于该一级节点的二级节点可以对应文字的部首(例如亻、扌、氵等)如图4所示。
[0050] 需要说明的是,当文字特征树为二层结构时,文字特征树中的一个一级节点对应的文字结构为文字的叠字结构时,该一级节点中的二级节点所对应的文字特征分类可以为叠字的个数,也可以为叠字的部首(叠字的部首即为重叠的字)。
[0051] 由于具有一个部首的文字的结构可以不同,如图4所示,例如文字“河”和“湖”的部首均为“氵”,但是文字“河”的结构为左右结构,文字“湖”的结构为左中右结构,因此,文字特征树中的不同的一级节点中的二级节点所对应的部首可以重复,例如对应文字上下结构的一级节点与对应文字上中下结构的一级节点中均包括一个对应部首“氵”的二级节点。
[0052] 同样的,当文字特征树为二层结构时,文字特征树的一级节点对应文字的部首,二级节点对应文字的结构,文字特征树中的不同的一级节点中的二级节点所对应的文字的结构可以重复,例如对应部首“艹”的一级节点中的一个二级节点可以对应文字的上下结构,对应部首“宀”的一级节点中的一个二级节点也可以对应文字的上下结构。
[0053] 需要说明的是,文字特征树的结构形式有多种,以及文字特征树中的每个节点与文字特征类型的对应关系可以有多种,例如前文所述,因此,本申请对文字特征树的结构形式以及文字特征树中的每个节点对应的文字特征类型不作限定。
[0054] 如步骤101所述,文字特征树中的每个节点分别对应一个文字特征分类和一个参考标识,即文字特征树中的每个节点所对应的文字特征均设置一个的参考标识,其中,参考标识包括至少一个字符(例如数字、字母、符号等)并用于标记文字的特征。例如,当文字特征树为一层结构,包括八个节点,其中每个节点分别对应:独体字结构、左右结构、上下结构、叠字结构、半包围结构、全包围结构、上中下结构和左中右结构,其中独体字结构的参考标识为001、左右结构的参考标识为002,上下结构的参考标识为003、叠字结构的参考标识为008、半包围结构的参考标识为006、全包围结构的参考标识为007、上中下结构的参考标识为005以及左中右结构的参考标识为004。
[0055] 当文字特征树包括二层结构,例如,如图4所示,文字特征树包括八个一级节点,其中至少一个一级节点包括至少一个二级节点,其中一级节点对应文字的结构,二级节点对应文字的部首。那么在二级结构的参考标识与一级结构的参考标识具有至少一个相同的特征,例如对应上下结构的一级节点的参考标识为003,则同属于该一级节点的二级节点的参考标识中均包括003(例如:对应部首“宀”的二级节点的参考标识为0031,对应部首“艹”的二级节点的参考标识为0032)。从而将文字的特征进行更深层次的分类,在文字的标识中进一步反映出各个文字之间的相关性,提高了文字之间的特征相关信息的复用性以及连贯性。
[0056] 需要说明的是,节点的参考标识中包括的字符个数、每个字符的种类以及字符的排列方式可以采用多种形式,例如上述所述的参考标识包括3个字符,其中每个字符均是数字,也可以包括4个字符,其中3个字符为数字一个字符为字母,并且字母位于参考标识中倒数第二位。因此,本申请实施例对文字特征树中节点的参考标识包括的字符个数、每个字符的种类以及字符的排列方式不作限定。
[0057] 为了能够更好地使得各个文字之间的特征相关信息反映在文字的标识中,在本申请一实施例中,该当前编码文字的标识包括与该当前编码文字相对应的对应节点的参考标识,即当该对应节点的标识为001时,该当前编码文字的标识可以为如下标识中的一种:0011(该当前编码文字的标识中的前三位是该对应节点的参考标识)、10011(该当前编码文字的标识中的中间三位是该对应节点的参考标识)、11001(该当前编码文字的标识中的最后三位是该对应节点的参考标识)等。反推过来,当有五个文字的标识分别为0011、0012、
0013、0014、0015,而这五个文字的标识的前三位均为001,说明该五个文字具有相同的特征,若001对应的是文字的左右结构,那么说明该五个文字均是左右结构的文字。因此,当文字的标识中包括与该文字相对应的对应节点的参考标识时,根据文字的标识可以更加直接的反应出文字之间的特征相关信息。
[0058] 需要说明的是,该当前编码文字的标识和文字特征树中与该当前编码文字相对应的对应节点的参考标识至少有一个相同的特征的具体体现形式可以有多种形式,如上述所述的该当前编码文字的标识包括与该当前编码文字相对应的对应节点的参考标识,也可以如其他形式,本申请实施例对该当前编码文字的标识和文字特征树中与该当前编码文字相对应的对应节点的参考标识至少有一个相同的特征的具体表现形式不作限定。
[0059] 如前文所述,文字特征分类可以包括文字结构类型,因此,在本申请一实施例中,当文字特征分类包括文字结构类型时,根据文字的图像样本数据确定文字特征树中与该文字相对应的对应节点(步骤101)实际上包括两个步骤,如图5所示,分别为:
[0060] 步骤1011:根据当前编码文字的图像样本数据确定当前编码文字的第一文字结构;
[0061] 步骤1012:在文字特征树中查找与第一文字结构相同的第一文字结构类型;将该第一文字结构类型所对应的节点确定为文字特征树中与该当前编码文字相对应的对应节点。
[0062] 本申请实施例采用树型拓扑结构将所有文字根据其文字结构类型进行排列,使得各个文字之间的文字结构信息反映在文字的标识中,更合理充分地利用文字的结构信息,当已编码的文字作为神经网络输出的标准(Ground Truth)时,编码表中的标识能够反映文字之间的结构相关性,提高了文字之间的特征相关信息的复用性以及连贯性。
[0063] 在本申请一实施例中,如图6所示,根据文字的图像样本数据确定文字的第一文字结构(步骤1011)可包括如下步骤:
[0064] 步骤10111:对包括当前编码文字的图像进行二值化;
[0065] 在该步骤中,通过对包括该当前编码文字的图像进行二值化,得到黑白二值化图像,当包括当前编码文字的图像是彩色图像,在对该图像进行二值化之前,首先需要对该图像进行灰度处理,得到灰度图像,然后再对该灰度图像进行二值化得到黑白二值化图像。
[0066] 在对灰度图像进行二值化处理的过程中最重要的步骤是如何获取阈值,在本申请一实施例中,对灰度图像进行二值化处理的过程中获取阈值的方法可以采用以下方法中的任何一种:双峰法、P参数法、最大类间方差法(Otsu、大律法)、最大熵阈值法以及迭代法(最佳阈值法)。
[0067] 步骤10112:获取二值化后的图像分别在第一方向上、第二方向上的投影,所述第一方向与所述第二方向垂直;
[0068] 经过步骤10111即包括当前编码文字的图像被二值化处理后,得到黑白二值化图像,在该步骤中,需要对黑白二值化图像分别在第一方向上、第二方向上进行投影,以获取黑白二值化图像分别在第一方向上、第二方向上的投影值,进而获取黑白二值化图像分别在第一方向上、第二方向上的投影图;其中第一方向和第二方向互相垂直。
[0069] 步骤10113:根据二值化后的图像在第一方向上、第二方向上的投影确定该文字的结构。
[0070] 经过步骤10112获得了黑白二值化图像分别在第一方向上、第二方向上的投影图,在该步骤中,根据黑白二值化图像分别在第一方向上、第二方向上的投影图获取该当前编码文字的结构。
[0071] 当黑白二值化图像在第一方向上的投影图中出现了一个峰谷,则该当前编码文字的结构可以为左右结构。
[0072] 当黑白二值化图像在第一方向上的投影图中出现了两个峰谷,则该当前编码文字的结构可以为左中右结构。
[0073] 当黑白二值化图像在第二方向上的投影图中出现了一个峰谷,则该当前编码文字的结构可以为上下结构。
[0074] 当黑白二值化图像在第二方向上的投影图中出现了两个峰谷,则该当前编码文字的结构可以为上中下结构。
[0075] 当黑白二值化图像在第一方向上的投影图以及第二方向上的投影图均非常平衡(即投影图中没有出现明显的峰谷),则该当前编码文字的结构可以为包围结构。
[0076] 当黑白二值化图像在第一方向上的投影图的模式与在第二方向上的投影图的模式相似,则该当前编码文字的结构可以为整体结构或者叠字结构。
[0077] 如前文所述,文字特征分类可以包括文字部首类型,因此,在本申请一实施例中,当文字特征分类包括文字部首类型时,根据文字的图像样本数据确定文字特征树中与该文字相对应的对应节点(步骤101)实际上包括两个步骤,如图7所示,具体为:
[0078] 步骤10101:将该当前编码文字与文字特征树中的每个节点对应的文字部首类型进行匹配,得到该当前编码文字与每个节点对应的文字部首类型之间的匹配度;
[0079] 步骤10102:将与该当前编码文字匹配度最高的文字部首类型所对应的节点确定为文字特征树中与该当前编码文字相对应的对应节点。
[0080] 本申请实施例采用树型拓扑结构将所有文字根据文字的部首类型进行排列,使得各个文字之间的文字部首信息反映在文字的标识中,更合理充分地利用文字的部首信息,当已编码的文字作为神经网络输出的标准(Ground Truth)时,编码表中的标识能够反映文字之间的部首相关性,提高了文字之间的特征相关信息的复用性以及连贯性。
[0081] 在获取文字特征树中与该当前编码文字对应的对应节点,并获取该对应节点的参考编码之后,将基于该参考编码对该当前编码文字进行编码,在本申请一实施例中,基于与该文字相对应的对应节点的参考标识对该文字进行编码(步骤102)实际上包括两个步骤,如图8所示:
[0082] 步骤1021:将该当前编码文字和与该文字对应同一个对应节点的每个已编码文字进行一一匹配,确定与该当前编码文字相似匹配度最高的已编码文字;
[0083] 在该步骤中,在与该当前编码文字对应同一个对应节点的已编码文字中找到与改当前文字最相似的文字,从而以该已编码文字的标识对当前编码文字进行编码,为对该当前编码文字进行编码做准备。
[0084] 步骤1022:根据与该当前编码文字相似匹配度最高的已编码文字的标识对该当前编码文字进行编码。
[0085] 经过步骤1021,获取了在与该当前编码文字对应于同一个对应节点且与该当前编码文字最相似的已编码文字,因此,根据该已编码文字的标识对该当前编码文字进行编码。由于前文所述的文字特征树中的节点的参考标识可以有多种形式,因此与文字特征树中的每个节点对应的已编码的文字的标识也有多种形式,因此根据该已编码文字的标识对该当前编码文字进行编码时,该当前编码文字的标识与该已编码文字的标识之间的关系也有多种形式,例如当文字特征树中的节点的参考标识全部为数字,与文字特征树中的节点相对应的已编码文字的标识也全部为数字时,在根据该已编码文字的标识对该当前编码文字进行编码时,该当前编码文字的标识可以为该已编码文字的标识加M(M为大于或者等于1的整数)。
[0086] 本申请实施例根据与该当前编码文字相似匹配度最高的已编码文字的标识对该当前编码文字进行编码,使得对应于同一个文字特征树节点的多个文字中相似度较高的文字之间的标识之间的信息关联性更强,文字的标识更能够反映文字之间的特征相关性,提高了文字之间的特征相关信息的复用性以及连贯性。
[0087] 当根据上述对该当前编码文字进行编码后,该当前编码文字即有一个标识,但是该当前编码文字的标识很有可能与对应于同一个节点的已编码文字中的某一个文字的标识相同,因此为了避免多个文字的标识相同,在对该当前编码文字进行编码后(步骤1022),基于与该编码文字相对应的对应节点的参考标识对该文字进行编码(步骤102)还包括步骤以下步骤,如图9所示:
[0088] 步骤1023:在与该当前编码文字对应同一个对应节点的已编码文字中,查找具有与该当前编码文字的标识相同的标识的已编码文字;
[0089] 步骤1024:当找到具有与该当前编码文字的标识相同的标识的已编码文字时,基于与该文字对应的对应节点的参考标识将找到的该已编码文字的标识重置为与该文字的标识不同的新的标识。例如当文字特征树中的节点的参考标识全部为数字,与文字特征树中的节点相对应的已编码文字的标识也全部为数字时,在基于与该当前编码文字对应的对应节点的参考标识将找到的该已编码文字的标识重置为与该当前编码文字的标识不同的新的标识时,该已编码文字的新的标识可以为该已编码文字的旧的标识加N(N为大于或者等于1的整数)。
[0090] 当对于该已编码文字的新的标识,很有可能还和与该对应节点中的其他已编码文字的标识有重复,因此还需要将该已编码文字的新的标识与该对应节点中其他已编码文字的标识进行匹配,然后当找到一个已编码文字的标识与该已编码文字的新的标识相同时,再进行给该一个已编码文字的标识一个新的标识。以此类推,直至该对应节点中的每个已编码文字的标识以及该当前编码文字的标识中没有任何标识是重复的。
[0091] 需要说明的是,在根据与该当前编码文字相似匹配度最高的已编码文字的标识对该当前编码文字进行编码时,编码规则可以采用多种方式,有些编码规则进行编码后,文字特征树中与该当前编码文字相对应的对应节点中的各个文字的标识之间不会出现重复的现象,即不需要步骤1023和步骤1024。有些编码规则进行编码后,文字特征树中与该当前编码文字相对应的对应节点中的各个文字的标识之间则会出现重复的现象,因此需要步骤1023和步骤1024进行查重并且调整各文字的标识,因此在对当前编码文字进行编码完成后,只要对应于同一个节点的各个文字的标识之间彼此不会重复且能够从标识上反应文字之间的特征相关性,在根据与该当前文字相似匹配度最高的已编码文字的标识对该当前编码文字进行编码时,本申请实施例对该当前编码文字的标识和与该当前文字相似匹配度最高的已编码文字的标识之间的关系不作限定。
[0092] 如前文所述,文字特征树可以包括二层结构,包括至少一个节点(以下称一级节点),其中至少一个节点包括至少一个子节点(以下称二级节点),其中每个节点对应文字的第一特征分类,每个节点中的子节点对应文字的第二特征分类,而该文字特征树是在文字编码之前预设建立好的。因,在本申请一实施例中,文字特征树包括四个一级节点,其中至少一个一级节点包括至少一个二级节点,其中一级节点对应文字的结构,当一级节点对应的结构为左右结构、上下结构以及半包围结构时,一级节点的二级节点对应的是文字的部首;当一级节点对应的结构是叠字结构时,该一级节点的二级节点对应的是叠字的数量,基于该文字特征树进行编码后的文字可以形成一个文字树,如图10(文字特征树中的部分结构)所示,以文字“河”为例,详细介绍基于该文字特征树对“河”字进行编码的方法,具体步骤如下,如图11所示:
[0093] 步骤1:对包括文字“河”的图像进行灰度处理,获得灰度图像;
[0094] 步骤2:对灰度图像进行二值化处理,获得黑白二值化图像;
[0095] 步骤3:将黑白二值化图像分别在第一方向上、第二方向上进行投影,获取黑白二值化图像分别在第一方向上、第二方向上的投影值,进而获取黑白二值化图像分别在第一方向上、第二方向上的投影图,其中第一方向和第二方向互相垂直;
[0096] 步骤4:根据二值化后的图像在第一方向上、第二方向上的投影图确定文字“河”的结构;
[0097] 二值化后的图像在第一方向上、第二方向上的投影图的模式相似,则文字“河”的结构为左右结构。
[0098] 经过步骤1、步骤2、步骤3和步骤4,得到文字“河”的结构为左右结构,那么该文字“河”与该文字特征树中对应文字结构为左右结构的节点相对应,即文字特征树中的左右结构节点。
[0099] 步骤5:将文字“河”与左右结构节点的每个子节点所对应的文字部首进行一一匹配,获取文字“河”与左右结构节点中的每个子节点对应的文字部首的匹配度,即将文字“河”与部首“扌”、“亻”、“氵”等部首进行一一匹配,分别获得文字“河”与部首“扌”的匹配度、与部首“亻”、与部首“氵”等的匹配度。
[0100] 步骤6:将文字“河”与左右结构节点中的每个子节点对应的文字部首的匹配度中匹配度数值最高的文字部首所对应的子节点为该文字特征树中与文字“河”相对应的对应节点。即文字“河”与部首“氵”的匹配度数值最高,则左右结构节点中的部首“氵”的节点为文字特征树中的与文字“河”相对应的对应节点,也就是说,在对文字“河”进行编码的时候,基于部首“氵”节点的参考编码(即0024)对文字“河”进行编码。
[0101] 步骤7:将文字“河”与对应部首“氵”节点中的每一个已编码文字进行一一匹配,得文字“河”与对应部首“氵”节点中的每一个已编码文字的相似度。
[0102] 在步骤6中获得了文字特征树中与文字“河”对应的对应节点(对应结构为左右结构,且部首为“氵”的节点),在该步骤中,当对应结构为左右结构,且部首为“氵”的节点的已编码文字有两个分别为“湖”和“海”,那么将文字“河”分别与文字“湖”、文字“海”进行一一匹配,得到文字“河”与文字“湖”的相似度以及文字“河”与文字“海”的相似度,并将两个相似度进行比较,得文字“河”与文字“海”的相似度较大。
[0103] 步骤8:根据与文字“河”相似度最高的已编码文字的标识,对文字“河”进行编码。
[0104] 在步骤7中得到当对应结构为左右结构,且部首为“氵”的节点的已编码文字与文字“河”相似度最高的已编码文字“海”,从图10中得知,已编码文字“海”的标识为002401,在对文字“河”进行编码的时候,可以将“河”编码为002402,即编码后的文字“河”的标识为002402。
[0105] 步骤9:判断对应部首“氵”节点中的每一个已编码文字中是否有已编码的文字的标识与文字“河”的标识相同。
[0106] 步骤10:当对应部首“氵”节点中的每一个已编码文字中存在一个已编码文字的标识与文字“河”的标识相同,那么则进行与文字“河”的标识相同的已编码文字的标识进行重置,得到新的标识,例如新的标识与文字“河”的标识之差等于数值M1+1,M1为对应部首“氵”节点中的已编码文字的个数(该已编码文字不包括文字“河”),从而能够使得与文字“河”的标识相同的已编码文字的新的标识不会与已编码文字中的任何一个已编码文字的标识相同,从而避免了再次进行查重,再次进行标识重置,提高工作效率。
[0107] 例如对应部首“氵”节点中的一个已编码文字“湖”的标识为002402,如图10所示,与文字“河”的标识相同,那么将文字“湖”的标识进行重置,重置后的标识为002405。
[0108] 至此步骤10,文字“河”的编码已经完成,文字树进行了更新,得到新的文字树,如图12所示。
[0109] 但是当对于文字“河”的结构进行获取时,即步骤1~步骤4,获得的文字“河”的结构并不是非常准确,因此对于获取文字特征树中与文字“河”相对应的对应节点(即与左右结构且部首为“氵”对应的节点)时会存在一定的误差,进而会影响具有相关特征信息的文字的编码存在误差,最终导致文字之间的标识并不能够很正确的反应文字之间的特征相关性,因此在上述方法(图11所示的方法)进的基础上,可包括:
[0110] 步骤5可包括:
[0111] 步骤50:获取该节点在文字特征树中的权重,该权重为步骤4中获取文字“河”的结构时,文字“河”的结构为左右结构的概率,该概率即为文字“河”的结构对应的节点在文字特征树中的权重;
[0112] 步骤51:将文字“河”与左右结构节点的每个子节点所对应的文字部首进行一一匹配,获取文字“河”与左右结构节点中的每个子节点对应的文字部首的匹配度,并将文字“河”与左右结构节点中的每个子节点对应的文字部首的匹配度乘以与文字“河”的结构对应的节点在文字特征树中的权重,即文字“河”为左右结构的概率,得到文字“河”与左右结构节点中的每个子节点对应的文字部首的新的匹配度。
[0113] 步骤52:将文字“河”与不对应文字“河”的结构的节点的子节点所对应的文字部首进行一一匹配,获取文字“河”与不相对应文字“河”的结构的节点的子节点所对应的文字部首的匹配度,即将文字“河”与上下结构节点中的每个子节点所对应的文字部首、半包围结构节点中的每个子节点所对应的文字部首、叠字结构节点中的每个子节点所对应的文字部首进行一一匹配,获取文字“河”与上下结构节点、半包围结构节点以及叠字结构节点中的每个子节点对应的文字部首的匹配度。
[0114] 当获取文字“河”与左右结构节点中的每个子节点对应的文字部首的新的匹配度以及文字“河”与上下结构节点、半包围结构节点中的每个子节点对应的文字部首的匹配度,以及与叠字结构中的叠字个数后,以获取文字特征树中与文字“河”相对应的对应节点为目标的步骤6则实际上包括:将文字“河”与左右结构节点中的每个子节点对应的文字部首的新的匹配度以及文字“河”与上下结构节点以及半包围结构节点对应的文字部首的匹配度、以及叠字结构节点中的每个子节点对应的叠字个数的匹配度中匹配度数值最高的文字特征(文字部首或者叠字种类)作为文字特征树中与文字“河”相对应的对应节点。
[0115] 通过步骤5以及步骤6,可以将待编码文字,例如文字“河”,的分类更加准确,尤其是针对结构较为复杂的文字,从而使得文字的标识能够更加准确反应出文字之间的特征相关性。
[0116] 需要说明的是,如前文所述,一个二级结构的文字特征树中的每个一级节点不一定都存在子节点,例如图4中的文字特征树中对应独体字结构的一级节点则没有子节点。当基于如图4所示的文字特征树进行编码文字时,在对一个编码文字进行编码时,可以按照如前文所述的步骤进行编码,但是当获取了当前编码文字的结构(步骤1~步骤4)后,获取文字的部首(步骤5)之前,文字的编码方法还包括一个步骤41:判断与该当前编码文字的结构相对应的节点是否存在子节点,如果不存在子节点,那么将不再进行步骤5,直接将该与该当前编码文字的结构相对应的节点确定为文字特征树中与该当前编码文字相对应的对应节点(步骤6的实际步骤)。当存在子节点时,再按照步骤5~步骤10前文所述的方法进行编码。
[0117] 示例性装置
[0118] 本申请提供的一种文字编码装置,用于实现上述文字编码方法。
[0119] 图13是本申请一示例性实施例提供的文字编码装置的结构图。如图13所示,该文字编码装置100包括:节点确定模块101以及编码模块102,其中节点确定模块101用于根据文字的图像样本数据确定文字特征树中与该文字相对应的对应节点,其中该文字特征树中的每个节点分别对应一个文字特征分类和一个参考标识;编码模块102用于基于该对应节点的参考标识对该文字进行编码,得到该文字的标识。
[0120] 本申请实施例提供的文字编码装置,基于文字特征树,节点确定模块101根据文字的图像样本数据获取文字特征树中与该文字相对应的对应节点,并且由编码装置根据该对应节点的参考标识对该文字进行编码,从而使得各个文字之间的特征相关信息反映在标识中,更合理充分地利用文字的特征信息,当已编码的文字作为神经网络输出的标准(Ground Truth)时,编码表中的标识能够反映文字之间的特征相关性,提高了文字之间的特征相关信息的复用性以及连贯性。
[0121] 示例性电子设备
[0122] 图14图示了根据本申请实施例的电子设备的框图。
[0123] 图14图示了根据本申请实施例的电子设备的框图。需要说明的是,当电子设备执行上述图1、图5至图9以及图12所示实施例的方法流程时,其可以为摄像装置、录音装置、智能装置等电子设备。当电子设备执行上述图1、图5至图9以及图12所示实施例的方法流程时,其可以为技术人员用于训练强化学习模型的服务器等电子设备。
[0124] 如图14所示,电子设备200包括一个或多个处理器201和存储器202。
[0125] 处理器201可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备200中的其他组件以执行期望的功能。
[0126] 存储器202可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器201可以运行所述程序指令,以实现上文所述的本申请的各个实施例的文字编码方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
[0127] 在一个示例中,电子设备200还可以包括:输入装置203和输出装置204,如图14所示,这些组件通过总线系统和/或其他形式的连接机构(图14中未示出)互连。
[0128] 例如,该输入装置203可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置203可以是通信网络连接器,用于接收单机设备所采集的输入信号。
[0129] 此外,该输入设备200还可以包括例如键盘、鼠标等等。
[0130] 该输出装置204可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备204可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0131] 当然,为了简化,图14中仅示出了该电子设备200中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备200还可以包括任何其他适当的组件。
[0132] 示例性计算机程序产品和计算机可读存储介质
[0133] 除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的文字编码方法中的步骤。
[0134] 所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序标识,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序标识可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0135] 此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的文字编码方法中的步骤。
[0136] 所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0137] 以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
[0138] 本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0139] 还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
[0140] 提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0141] 为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。