一种字母大小写判断方法转让专利

申请号 : CN200910077745.7

文献号 : CN101807255B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 肖潇刘正珍

申请人 : 汉王科技股份有限公司

摘要 :

本发明提供了一种字母大小写判断方法,属于光学字符识别领域,该方法包括:获取单词中的字母在图像中的位置;根据通过字符书写规范预先定义的字母基线类型和字母在图像中的位置获得单词的基线属性,根据单词的基线属性判断字母的大小写;输出完成字母大小写判断的字符识别结果。本方法大大提高字母大小写判断的正确率,从而提高印刷文档识别的识别率;并且只要某种语言中的字母具有四线格书写规范,则就可用于该种语言文档中的字母大小写判断,具有很好的通用性及适应性。

权利要求 :

1. 一种字母大小写判断方法,其特征在于,包括步骤:

步骤I:获取单词中的字母在图像中的位置;

步骤II:根据通过字符书写规范预先定义的字母基线类型和字母在图像中的位置获得单词的基线属性,根据单词的基线属性判断单词中字母的大小写;包括:根据字符集中所有字母在四线格中的位置确定字母基线类型;

判断是否能够通过单词中具有唯一基线类型的字母和字母在图像中的位置计算单词的基线属性,如果是,则计算单词的基线属性,根据单词的基线属性判断字母的大小写;如果否,则进入下一步;

依次选取单词中的每个字母和其他字母两两进行判断,利用两个字母在图像上的位置关系,并结合字母的基线类型属性判断在满足此位置关系的情况下两个字母属于的基线类型组合,若仅存在一个满足此位置关系的基线类型组合,既确定两个字母在此单词中所属的基线类型属性,也即确定了两个字母的大小写属性,从而判断是否能够通过单词中字母相对位置关系以及字母基线类型计算单词的基线属性;如果是,则计算单词的基线属性,根据单词的基线属性判断字母的大小写,否则利用邻近单词的基线属性对当前单词中字母进行大小写判断;

所述单词基线属性即四线格在单词中的位置,将单词分为具有基线0、基线1、基线2、基线3四种基线属性;

步骤III:对单词中字母的原识别结果进行修正,输出字符识别结果。

2. 根据权利要求1所述的方法,所述步骤I包括:

步骤一:将待识别的文档图像输入到识别引擎中;

步骤二:通过识别引擎获得文档中的字符识别结果及字母在图像中的位置。

3. 根据权利要求1所述的方法,其中字母基线类型是根据字母在基线中的位置而定义的,基线0、基线1、基线2、基线3与四线格自上而下的四条线相对应,字母的大写和小写具有不同的字母基线类型。

4. 根据权利要求1或3所述的方法,其中单词的基线属性即四线格在单词中的位置;

基线0、基线1、基线2、基线3四种基线与定义的字母基线类型中的基线是相符合的,单词基线属性也即单词的基线0、基线1、基线2、基线3与某一设定位置的距离值。

5. 根据权利要求3所述的方法,其中字母基线类型分为四种基线类型,分别是字母的上下位置分别位于基线0与基线2上对应的基线类型;字母的上下位置分别位于基线1与基线3上对应的基线类型;字母的上下位置分别位于基线1与基线2上对应的基线类型;字母的上下位置分别位于基线0与基线3上对应的基线类型。

说明书 :

一种字母大小写判断方法

技术领域

[0001] 本发明属于光学字符识别(Optical Character Recognition)领域,特别地,涉及一种在字符识别后对字母大小写进行判断的方法。

背景技术

[0002] 相对于字母来说,字符含义比较广泛,例如标点符号、英文字母、汉字等都属于字符范畴。字母一般情况下指西方、拉丁语种中的字母,例如我们常说的英文字母,它不包括标点及中文等字符的。在印刷体字符识别中,尤其在西方语言字符识别中,例如英文字符识别、俄文字符识别等,由于字符集中部分字母大小写同形或者有的大写字母和小写字母字形相似,在识别过程中很容易误识,即将原本在图像上是大写的字母误识别成其相应的小写字母或者将小写字母误识别成其相应的大写字母,因此在初步识别后对字母的大小写进行判断是十分必要的,在字母大小写判断正确的基础上才能保证正确的字符识别结果。
[0003] 在现有技术中,简单地采用语言的书写规则及语法规范,例如在文档中基本是句子首字母大写、专有名词首字母大写,因此在识别结果中出现非单词首字母的字母被识别为大写字母的情况,则一概将其纠正成候选识别结果中的小写字母,但此方法会造成大写缩写单词以及大写字母出现在非单词首的情况下的字符识别错误,尤其在俄文文档中,大写字母出现在非单词首的情况是很有可能的,并且在杂志期刊等文档中存在大量的大写缩写单词,利用此方法会导致识别结果与原文档实际不符,给用户带来很大的使用不便。
[0004] 因此需要提供一种方法,不受单词中大写字母出现位置及个数的限制,对于大写缩写单词以及单词中间出现大写字母的情况,也可正确有效的判断字母的大小写,从而提供忠于原文的正确识别结果。

发明内容

[0005] 本发明的目的在于提供一种在字符识别结束后有效判断字母的大小写的方法。
[0006] 该方法包括:
[0007] 步骤I:获取单词中的字母在图像中的位置;
[0008] 步骤II:根据通过字符书写规范预先定义的字母基线类型和字母在图像中的位置获得单词的基线属性,根据单词的基线属性判断字母的大小写;
[0009] 步骤III:对单词中字母的原识别结果进行修正,输出字符识别结果。
[0010] 进一步地,所述步骤I包括:
[0011] 步骤1:将待识别的文档图像输入到识别引擎中;
[0012] 步骤2:通过识别引擎获得文档中的字符识别结果及字母在图像中的位置。
[0013] 进一步地,所述步骤II包括:
[0014] 步骤3:根据字符集中所有字母在四线格中的位置确定字母基线类型;
[0015] 步骤4:判断是否能够通过单词中具有唯一基线类型的字母和字母在图像中的位置计算单词的基线属性,如果是,则计算单词的基线属性,进入步骤6;
[0016] 步骤6:根据单词的基线属性判断字母的大小写;
[0017] 步骤7:利用邻近单词的基线属性对当前单词中字母进行大小写判断。
[0018] 进一步地,在所述步骤4中,如果否,则进入步骤5;
[0019] 步骤5:根据字母在图像中的位置获取单词中字母相对位置关系,判断是否能够通过单词中字母相对位置关系以及字母基线类型计算单词的基线属性,如果是,则计算单词的基线属性,进入步骤6。
[0020] 进一步地,在所述步骤5中,如果否,则利用邻近单词的基线属性对当前单词中的字母进行大小写判断。
[0021] 该方法中,字母基线类型是根据字母在基线中的位置而定义的,基线0、基线1、基线2、基线3与四线格自上而下的四条线相对应,字母的大写和小写具有不同的字母基线类型。
[0022] 该方法中,单词的基线属性即四线格在单词中的位置;基线0、基线1、基线2、基线3四种基线与定义的字母基线类型中的基线是相符合的,单词基线属性即单词的基线0、基线1、基线2、基线3与某一设定位置的距离值。
[0023] 该方法中,字母基线类型分为四种基线类型,分别是字母的上下位置分别位于基线0与基线2上对应的基线类型;字母的上下位置分别位于基线1与基线3上对应的基线类型;字母的上下位置分别位于基线1与基线2上对应的基线类型;字母的上下位置分别位于基线0与基线3上对应的基线类型。
[0024] 本发明所提出的方法可以正确有效的判断字母的大小写,与现有技术相比可以大大提高字母大小写判断的正确率,从而提高印刷文档识别的识别率;并且只要某种语言中的字母具有四线格书写规范,则可用于该种语言文档中的字母大小写判断,例如英文文档、俄文文档、法文文档等,因此具有很好的通用性及适应性。

附图说明

[0025] 图1为本发明字母大小写判断算法的总流程图;
[0026] 图2为俄文字母基线类型示例图,其中,图2(a)是UP基线类型字母的示例图,图2(b)是LOW基线类型字母的示例图,图2(c)是MID基线类型字母的示例图,图2(d)是ALL基线类型字母的示例图;
[0027] 图3为本发明实施例应用的一张俄文文档图像。

具体实施方式

[0028] 由于在俄文字符集中存在大量的大小写字母在字形上完全相同的字母,在俄文字符识别中对俄文字母的大小写判断是十分必要的,因此在此实施例中选取俄文字符集以及俄文文档图像说明此发明的字母大小写判断方法。
[0029] 本方法字母大小写判断方法,分以下步骤:
[0030] 步骤一:将待识别的文档图像输入到识别引擎中。
[0031] 步骤二:通过识别引擎获得文档中的字符识别结果及字符在图像中的像素位置,也就获得了单词中的字母在图像中的像素位置。
[0032] 步骤三:根据字符集中所有字母在四线格中的位置确定字母基线类型。
[0033] 首先,俄文字符书写规则是遵守一定规范的,即字母在四线格中的位置是相对固定的。根据字母在基线中的位置将字母的基线类型分为UP基线类型、LOW基线类型、MID基线类型、ALL基线类型,其中属于UP基线类型的字母的上、下位置分别位于基线0与基线2上,如图2(a)所示;属于LOW基线类型的字母的上下位置分别位于基线1与基线3上,如图2(b)所示;属于MID基线类型的字母的上下位置分别位于基线1与基线2上,如图2(c)所示;属于ALL基线类型的字母的上下位置分别位于基线0与基线3上,如图2(d)所示,其中基线0、基线1、基线2、基线3与四线格的四条线相对应,如图2所示。
[0034] 由于俄文字符集中存在很多大小写同形或相似的字母,通过识别引擎是无法正确判断字母是属于大写字母还是小写字母,例如俄文字母中的“Вв”、“Гг”、“Яя”等,只能通过进一步的判断处理才能确定字母的大小写属性。
[0035] 俄文字符集包括33个字符,每个字符都有相应的大小写字母,一共66个,通过识别引擎得到的字符识别结果的基线类型属性如表1所示,其中“|”代表“或”的关系,例如UP|MID基线类型代表字母可能属于UP基线类型也可能属于MID基线类型字母,字母存在若干种基线类型的情况是由于此字母与其他字母字形相同或相似导致的。
[0036] 表1俄文字母基线类型分类
[0037]所属基线类型的俄文字母
UP基线类型 АБбЕЁФё
LOW基线类型
MID基线类型 ае
ALL基线类型 ф
ВвГгЖжЗзИиЙйКкЛлМмНнОоПп
UP|MID基线类型
СсТтХхЧчШшЪъЫыЬьЭэЮюЯя
UP|LOW基线类型 РрУу
LOW|ALL基线类型 ДдЦцЩщ
[0038] 从表1中可以看出俄文字母中很大一部分属于一种以上基线类型的字母,因此为了获得正确的字符识别结果判断字母大小写是十分必要的,其中只具有一种基线类型的字母被认为是具有唯一基线类型的字母,可以看出具有唯一基线类型的字母在识别之后是无需判断其大小写的,因为在字符集中存在具有此种字形的字母是唯一的。
[0039] 其中步骤三的字母基线类型分类只要在步骤四之前完成既可,不一定要放在步骤二后实现。
[0040] 步骤四:此步骤的目的是根据字符识别结果通过单词中具有唯一基线类型的字母计算单词的基线属性,以便在后续的步骤六中利用获得的单词基线属性对单词内大小写不确定的字母进行大小写判断,其中单词基线属性即四线格在单词中的位置,将单词也分为具有基线0、基线1、基线2、基线3四种基线属性,与步骤三定义的字母基线类型中的基线是相符合的,单词的基线属性即是要得到单词基线0、基线1、基线2、基线3在图像中的位置,也即不同基线与某一设定位置的距离值,本实施例采用的是与图像上边界的距离值,此处用像素值表示,由于单词是由一个或若干字母组成的,可清楚认为单词的基线属性是由单词中字母的基线属性决定的,即单词中字母的基线在图像中的位置即为单词基线在图像中的位置。
[0041] 具体实现方式为首先根据字符识别结果,依次判断单词中每个字母,若当前字母属于具有唯一基线类型的字母,则根据当前字母的基线类型和字母的位置计算得到单词的基线属性即单词基线0、基线1、基线2、基线3在图像中的位置;若单词中存在若干个具有唯一基线类型的字母,可以利用平均值或其他统计方法计算单词的基线属性。
[0042] 以图3所示的俄文文档图像中最后一个单词,即“характер”为例,为描述简单定义此单词为WordE,说明根据具有唯一基线类型的字母确定单词基线属性的一种实现过程。
[0043] 依次在识别结果中搜索单词中的每个字母,通过步骤三我们可以知道此单词中有三个字母属于具有唯一基线类型的字母,分别是第二个字母“а”、第四个字母“а”以及第7个字母“е”,根据这三个字母在图像中的像素位置,分别是(TOP:11,BOTTOM:29)、(TOP:
11,BOTTOM:29)、(TOP:11,BOTTOM:29),以及相应字母的基线类型,利用求平均值的方法可以得到WordE的基线属性,即基线1的值为11,基线2的值为29。其中(TOP:11,BOTTOM:
29)代表字母的上、下位置与图像上边界的距离,以像素值表示。
[0044] 若通过此步骤没有得到单词的基线属性,也就是说单词中不含有具有唯一基线类型的字母,则转入步骤五进一步计算单词的基线属性,否则转入步骤6进行单词中字母的大小写判断。
[0045] 步骤五:此步骤的目的是根据字符识别结果通过单词中字母相对位置关系以及字母的基线类型计算单词的基线属性,以便在步骤六中利用获得的单词基线属性对单词内大小写不确定的字母进行大小写判断。
[0046] 依次选取单词中的每个字母和其他字母两两进行判断,判断的方法是利用两个字母在图像上的位置关系,并结合字母的基线类型属性判断在满足此位置关系的情况下两个字母可能属于的基线类型组合,若仅存在一个满足此位置关系的基线类型组合,既可确定两个字母在此单词中所属的基线类型属性,其实也即确定了两个字母的大小写属性,从而可以利用步骤四中描述的方法获得单词的基线属性。
[0047] 以图3中的第二个单词即“довольно”为例说明此步骤的具体实现方式,在此定义此单词为WordB,由于WordB中不含有任何具有唯一基线类型的字母,因此会进入此步骤再一次进行单词基线属性的计算。
[0048] 以WordB中的字母“д”和字母“о”为例进行判断,通过步骤3我们知道字母“д”的识别结果所属的基线类型是LOW|ALL,字母“о”的识别结果所属的基线类型是UP|MID,由于字形相似,字母“д”与字母“о”的识别结果可能存在的四种组合结果,如表2所示。
[0049] 表2字母“д”和字母“о”可能的四种组合识别结果
[0050]字母“д” 字母“о”
识别结果类型 识别结果
基线类型 基线类型
第一种 LOW UP дО
第二种 LOW MID до
第三种 ALL UP ДО
第四种 ALL MID До
[0051] 已知两个字母在图像上的位置分别是(TOP:13,BOTTOM:36)、(TOP:12,BOTTOM:31),根据此位置关系判断字母“д”和字母“о”满足此位置关系的可能基线类型组合。
[0052] 如表3所示,已经给出两个字母所有可能存在的基线类型组合,并给出了判断两个字母满足此基线类型组合的条件依据,其中“UP&MID”代表两个字母中其中有一个字母属于UP基线类型,另一个字母属于MID基线类型,其中B:(UP)代表基线类型属于UP。
[0053] 通过表2可知在识别结果中字母“д”与字母“о”可能的出现的基线组合情况分别是UP&LOW、MID&LOW、UP&ALL、MID&ALL,根据字母在图像中的位置以及表3提供的判断条件可知满足此位置关系的字母“д”与字母“о”的基线组合只有MID&LOW一种,因此字母“д”与字母“о”的图像位置可以用于计算单词的基线属性。
[0054] 例如,再选取第二个字母“о”和第三个字母“в”进行基线类型判断,根据步骤3中给出的基线类型,可知字母“о”和字母“в”在识别结果中可能存在三种基线类型组合,分别是UP&UP、UP&MID、MID&MID,根据字母“о”和字母“в”在图像上的位置(TOP:12,BOTTOM:31)、(TOP:13,BOTTOM:30)以及表3提供的判断条件,可以得到字母“о”和字母“в”在满足此位置关系的情况下存在两种基线组合情况,分别是UP&UP、MID&MID,由于此两个字母存在若干个可能的基线类型组合,因此其字母的位置不能用于计算单词的基线属性。
[0055] 依次类推,找到单词中可用于单词基线属性判断的字母组合,根据相应字母在图像上的位置确定单词的基线属性,单词基线属性计算方法与步骤4相同,通过上面的计算我们可以得到WordB的基线属性,即基线1的值是12,基线2的值是31,基线3的值是36。
[0056] 其中在我们项目中阈值选取是3。
[0057] 若通过此步骤得到单词的基线属性,则转入步骤6,否则转入步骤7。
[0058] 表3字母符合不同基线类型组合情况下的判断条件
[0059]两个字母基线类型组合 判断满足此基线类型组合的条件
条件1.两个字母在图像上的上位置值之差的绝对值
UP&UP 应该小于一定阈值;
(例如“АЗ”) 条件2.两个字母在图像上的下位置值之差的绝对值
应该小于一定阈值。
条件1.B:(MID)字母在图像上的上位置值应大于
UP&MID B:(UP)字母在图像上的上位置值加上一定阈值;
(例如“Во”) 条件2.两个字母在图像上的下位置值之差的绝对值应
该小于一定阈值。
条件1.B:(LOW)字母在图像上的上位置值应大于
UP&LOW B:(UP)字母在图像上的上位置值加上一定阈值;
(例如“Иу”) 条件2.B:(LOW)字母在图像上的下位置值应大于B:
(UP)字母在图像上的下位置值加上一定阈值。
条件1.两个字母在图像上的上位置值之差的绝对值
UP&ALL 应该小于一定阈值;
(例如“Оф”) 条件2.B:(ALL)字母在图像上的下位置值大于B:(UP)
字母在图像上的下位置值加上一定阈值。
条件1.两个字母在图像上的上位置值之差的绝对值
MID&MID 应该小于一定阈值;
(例如“ьш”) 条件2.两个字母在图像上的下位置值之差的绝对值
应该小于一定阈值。
条件1.两个字母在图像上的上位置值之差的绝对值
MID&LOW 应该小于一定阈值;
(例如“ор”) 条件2.B:(LOW)字母在图像上的下位置值应大于
B:(MID)字母在图像上的下位置值加上一定阈值。
条件1.B:(MID)字母在图像上的上位置值应大于
MID&ALL B:(ALL)字母在图像上的上位置值加上一定阈值;
(例如“жф”) 条件2.B:(ALL)字母在图像上的下位置值应大于
B:(MID)字母在图像上的下位置值加上一定阈值。
条件1.两个字母在图像上的上位置值之差的绝对值
LOW&LOW 应该小于一定阈值;
(例如“ру”) 条件2.两个字母在图像上的下位置值之差的绝对值
应该小于一定阈值。
LOW&ALL 条件1.B:(LOW)字母在图像上的上位置值应大于
(例如“цф”) B:(ALL)字母在图像上的上位置值加上一定阈值;
条件2.两个字母在图像上的下位置值之差的绝对值
应该小于一定阈值。
条件1.两个字母在图像上的上位置值之差的绝对值
ALL&ALL 应该小于一定阈值;
(例如“фф”) 条件2.两个字母在图像上的下位置值之差的绝对值
应该小于一定阈值。
[0060] 步骤六:此步骤是根据步骤四或步骤五得到的单词基线属性对单词中不能确定大小写的字母进行大小写判断。
[0061] 由于利用一个字母的上下位置可以确定单词基线属性中的两条基线的位置值,因此通过步骤四或步骤五获得的单词基线属性中至少有两个基线值是已知的,又根据字母基线类型种类可知单词基线属性中至少存在下面可能情况之一:
[0062] 基线0与基线2已知;
[0063] 基线1与基线2已知;
[0064] 基线1与基线3已知;
[0065] 基线0与基线3已知;或则上面几种情况的组合。
[0066] 如表4所示,给出了一种利用已知的单词基线属性判断字母大小写的方法,其中需要判断大小写的字母都是存在一种以上的基线类型的字母,根据表1可知需要进行大小写判断的字母的基线类型一共有三种,分别是UP|MID、UP|LOW、LOW|ALL,其中属于UP|MID基线类型的字母如果在单词中的位置是位于MID基线类型所属的位置,则字母属于小写字母,若字母在单词中的位置是处于UP基线类型所属的位置,则字母属于大写字母;属于UP|LOW基线类型的字母如果在单词中的位置是位于LOW基线类型所属的位置,则字母属于小写字母,若字母在单词中的位置是处于UP基线类型所属的位置,则字母属于大写字母;属于LOW|ALL基线类型的字母如果在单词中的位置是位于LOW基线类型所属的位置,则字母属于小写字母,若字母在单词中的位置是处于ALL基线类型所属的位置,则字母属于大写字母。
[0067] 表4根据单词基线属性判断字母大小写的一种方法
[0068]
[0069] 在判断字母大小写时,也可以采用其他方法,例如单词基线属性中基线0与基线2已知,在判断属于UP|LOW基线类型字母大小写时也可以利用基线2进行判断,若字母的下位置值与基线2的差值的绝对值小于一定阈值,则此字母是大写,否则是小写。单词基线属性提供的用于判断字母大小写的信息可能是冗余的,但不管如何,在判断字母大小写时是离不开单词基线属性与字母在图像中的位置信息的。
[0070] 其中阈值在项目中选取3。
[0071] 下面以图3所示的俄文文档图像中WordE单词为例,说明此步骤的具体实现过程。通过步骤四我们已知WordE的单词基线属性是基线1的值为11,基线2的值为29,在WordE“характер”中,大小写仍不确定的字母依次是“х”、“р”、“к”、“т”、“р”,针对字母“х”,其字符识别结果的基线类型属于UP|MID,根据此字母在图像上的位置(TOP:11,BOTTOM:29)以及表4提供的大小写判断方法,可得到此字母应该是小写字母;针对字母“р”,其字符识别结果的基线类型属于UP|LOW,根据此字母在图像上的位置(TOP:11,BOTTOM:36)以及表4提供的大小写判断方法,可得到此字母应该是小写字母;依次类推可以得到字母“к”、“т”、“р”的识别结果都应该属于相应字母的小写字母。
[0072] 至此完成了具有单词基线属性的单词中大小写的判断,在确定字母大小写后,根据大小写判断结果对识别结果进行修改。转入步骤八。
[0073] 步骤七:此步骤是在利用步骤四或步骤五均没有得到单词基线属性的情况下,利用邻近单词的基线属性对当前单词中字母进行大小写判断。
[0074] 首先在此单词左右方向上找到与其距离最近的一个具有单词基线属性的单词,然后利用找到的邻近单词基线属性计算不同基线类型的字母高度绝对值,在此定义HEI_UL、HEI_MID、HEI_ALL,其中HEI_UL是基线类型属于UP或LOW的字母在单词中的高度绝对值,即单词基线属性中基线0与基线2或基线1与基线3的绝对差值;其中HEI_MID是基线类型属于MID的字母在单词中的高度绝对值,即单词基线属性中基线1与基线2的绝对差值;其中HEI_ALL是基线类型属于ALL的字母在单词中的高度绝对值,即单词中基线0与基线
3的绝对差值。
[0075] 在根据邻近单词基线属性得到HEI_UL或HEI_MID或HEI_ALL后,可以利用字母在图像上的绝对高度值、字母的基线类型以及表5提供的判断方法进行单词中字母大小写判断。在步骤六的分析中我们已经可以知道通过具有单词基线属性一定可以获得至少HEI_UI、HEI_MID、HEI_ALL这三个值的中的一个。
[0076] 表5利用基线类型的绝对高度进行字母大小写判断的方法
[0077]
[0078] 此步骤中在判断字母大小写时,也可以采用其他方法,例如在基线类型高度绝对值中HEI_UI已知的情况下,在判断属于UP|LOW基线类型字母大小写时,也可以采用若字母的高度值与HEI_UI的差值的绝对值大于一定阈值,则此字母是小写,否则是大写。基线类型高度绝对值所提供的用于判断字母大小写的信息可能是冗余的,但不管如何,在判断字母大小写时是离不开基线类型高度绝对值与字母在图像中的绝对高度值的。
[0079] 在表中阈值可选取3。
[0080] 在表中HEI_MID的8/5、HEI_ALL的2/5等均是根据字母在基线中的位置设定的的判断阈值,可以根据实际情况进行调整。
[0081] 本方法利用邻近单词的基线属性得到不同的基线类型的绝对高度进行字母大小写判断,而非利用邻近单词的基线进行字母大小写判断的原因是由于文本图像在采集时可能存在一定的倾斜,若采用邻近单词的基线属性对当前单词中的字母进行大小写判断可能会出现比较大的误判,因为单词的基线属性都是相对于图像上边界的距离,由于文本倾斜,邻近单词的基线属性已经不能描述当前单词的基线属性。
[0082] 在表5中对于字母基线属于UP|LOW的字母是无法利用获得的不同基线类型的高度绝对值进行大小写判断的,对于此类字母采用依靠此字母前后的字母的大小写情况进行大小写判断,判断方法如下:
[0083] 在当前字母存在前、后字母的情况下,若前后字母都是大写,则将当前字母设置为大写;若前后字母都是小写,则将当前字母设置为小写。
[0084] 在只存在后字母的情况下,若后字母是大写,则将当前字母设置为大写。
[0085] 其他情况在默认将当前字母设置为小写。
[0086] 下面以图3所示的俄文文档图像中第一个单词“это”为例,在此定义此单词为WordA,说明此步骤的具体实现过程。
[0087] 由于WordA不存在唯一基线类型的字母并且通过步骤五也不能获得单词的基线属性,所以会进入此步骤再次进行单词中字母大小写判断。与WordA最邻近并且具有单词基线属性的单词是WordB,通过步骤五已经获得WordB的基线属性,即基线1的值是12,基线2的值是31,基线3的值是36,通过WordB的基线属性可以计算得到
[0088] HEI_UL=36-12=24;
[0089] HEI_MID=31-12=19;
[0090] WordA中三个字母在图像上的位置依次是(TOP:13,BOTTOM:31)、(TOP:13,BOTTOM:31)、(TOP:13,BOTTOM:31),其高度值都是18,对于第一个字母“з”的识别结果字母的基线类型属于UP|MID,根据表5提供的方法可以判断此字母应属于小写字母,同理判断第二、第三个字母,其均属于小写字母。
[0091] 步骤八:根据以上步骤得到的单词中字母大小写判断结果对步骤二中单词的原识别结果进行修正,然后将修正的识别结果输出。
[0092] 本发明提供的判断字母大小写方法,不仅适用于俄文,同样适合类似的西方语言,例如英文、法文、西班牙文档。而字母基线类型也可根据不同语言的字符书写规范进行设置。