图像处理装置和图像处理方法转让专利

申请号 : CN200410057142.8

文献号 : CN100585621C

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 田中哲臣

申请人 : 佳能株式会社

摘要 :

本发明提供一种图像处理装置和图像处理方法,在输入了包含有反白字符的图像或多值图像的情况下,也输出适于进行字符识别处理的图像。本发明的图像处理装置包括:抽取多值图像(401)的边缘,生成边缘图像(404)的装置(402);从多值图像(401)生成二值图像(405)的装置(403);根据所生成的边缘图像(404)和二值图像(405)抽取出字符区域(406),对于该字符区域,将多值图像(401)二值化,并生成输出二值图像的部分二值化装置(410、411);以及输出由部分二值化装置(410、411)生成的输出二值图像(412)的装置。其中,部分二值化装置(410、411),在从边缘图像(404)抽取出的字符区域的字符为反白字符时,对该字符进行反白二值化,生成输出二值图像(412)。

权利要求 :

1.一种对输入的图像进行处理的图像处理装置,其特征在于,包 括:边缘图像生成装置,对上述输入的图像进行边缘抽取处理,生成 边缘图像;

二值图像生成装置,对上述输入的图像进行二值化处理,生成二 值图像;

抽取装置,基于上述边缘图像从上述输入的图像抽取字符区域, 并且,基于上述二值图像从上述输入的图像抽取字符区域;

判断单元,判断由上述抽取装置基于边缘图像从上述输入的图像 抽取出的字符区域是否反白;

第1二值化装置,在由上述判断装置判断为反白的情况下,将由 上述抽取装置基于边缘图像从上述输入的图像抽取出的字符区域进 行阈值处理来进行反白二值化,在由上述判断装置判断为没有反白的 情况下,将由上述抽取装置基于边缘图像从上述输入的图像抽取出的 字符区域进行阈值处理来进行非反白二值化;

第2二值化装置,对由上述抽取装置基于二值图像从上述输入的 图像抽取出的字符区域进行阈值处理来进行非反白二值化;

盖写装置,在由上述第2二值化装置进行了二值化的字符区域与 由上述第1二值化装置进行了二值化的字符区域重叠的情况下,用由 上述第2二值化装置进行了二值化的字符区域来盖写由上述第1二值 化装置进行了二值化的字符区域。

2.根据权利要求1所述的图像处理装置,其特征在于:

上述判断装置,对基于上述边缘图像从上述输入的图像抽取出的 字符区域,计算在进行了阈值处理来二值化后的白黑比,在白的比例 大的情况下判断该字符区域没有反白,在黑的比例大的情况下判断该 字符区域反白。

3.根据权利要求1所述的图像处理装置,其特征在于:

上述判断装置,对基于上述边缘图像从上述输入的图像抽取出的 字符区域的边界部分,计算在进行了阈值处理来二值化后的白黑比, 在白的比例大的情况下判断该字符区域没有反白,在黑的比例大的情 况下判断该字符区域反白。

4.根据权利要求3所述的图像处理装置,其特征在于:

上述判断装置,在对基于上述边缘图像从上述输入的图像抽取出 的字符区域,计算在进行了阈值处理来二值化后的白黑比,并且,对 于基于上述边缘图像从上述输入的图像抽取出的字符区域,计算偏 态,在该计算出的白黑比小于预定值、并且该计算出的偏态小于预定 值的情况下,进行上述判断。

5.根据权利要求1所述的图像处理装置,其特征在于:

上述判断装置,对于基于上述边缘图像从上述输入的图像所抽取 出的字符区域,计算偏态,如果偏态的值是负值则判断该字符区域没 有反白,如果偏态的值是正值则判断该字符区域反白。

6.一种对输入的图像进行处理的图像处理装置中的图像处理方 法,其特征在于,包括:边缘图像生成步骤,对上述输入的图像进行边缘抽取处理,生成 边缘图像;

二值图像生成步骤,对上述输入的图像进行二值化处理,生成二 值图像;

抽取步骤,在基于上述边缘图像从上述输入的图像抽取字符区 域,并且,基于上述二值图像从上述输入的图像抽取字符区域;

判断步骤,判断在上述抽取步骤中基于边缘图像从上述输入的图 像抽取出的字符区域是否反白;

第1二值化步骤,在上述判断步骤中判断为反白的情况下,将在 上述抽取步骤中基于边缘图像从上述输入的图像抽取出的字符区域 进行阈值处理来进行反白二值化,在上述判断步骤中判断为没有反白 的情况下,将在上述抽取步骤中基于边缘图像从上述输入的图像抽取 出的字符区域进行阈值处理来进行非反白二值化;

第2二值化步骤,对在上述抽取步骤中基于二值图像从上述输入 的图像抽取出的字符区域进行阈值处理来进行非反白二值化;

盖写步骤,在上述第2二值化步骤中进行了二值化的字符区域与 在上述第1二值化步骤中进行了二值化的字符区域重叠的情况下,用 在上述第2二值化步骤中进行了二值化的字符区域来盖写在上述第1 二值化步骤中进行了二值化的字符区域。

7.根据权利要求6所述的图像处理方法,其特征在于,在上述判 断步骤中将判断的基准设定为非反白优先。

说明书 :

技术领域

本发明涉及用于从所输入的图像中抽取出适于字符识别处理的 二值图像的图像处理技术。

背景技术

以往,对包含在所输入的图像中的字符进行识别的字符识别技术 正被实用化。例如,可以在PC中使用字符识别处理,将通过扫描仪 获取的图像转换成文本数据。还有,在复印机中以ADF扫描大量的 原稿时,通过使用该技术可以判定原稿的朝向,在修正为正确的朝向 后再打印出来。
在进行字符识别处理时,处理前将所输入的多值图像转换成适于 进行字符识别的图像,变得越来越重要。在这里,所谓的适于进行字 符识别的图像,是指从输入的图像所包含的信息中,仅对字符保持其 大小、配置、粗细、字体等地进行抽取(即删除字符部分以外的信息), 并以底色为白色、字符部分为黑色来表现的二值图像。而且,为得到 这样的二值图像的二值化方法,已经被例如日本特开平08-223409号 公报、日本特开平09-305754号公报所公开。
然而,依据上述以往的二值化方法,当所输入的图像中包含有反 白字符(reversed character)时,二值图像只能以反白字符原样地被 输出,因此存在该反白字符图像部分不被识别为字符,不成为字符识 别的对象的情况。但是,对二值化后的图像判定是否为反白字符非常 困难,存在当包含有反白字符时字符识别精度降低的问题。
而且,随着近年来因计算机处理能力的提升、存储器的增大、扫 描仪的发展等而使彩色文档图像增加,图像中的底色和字符颜色之间 的对比度较小的图像、照片等字符以外的图像和字符混合存在的图像 在不断增加。其结果是出现了在二值化时,只进行二值阈值的调整和 块尺寸(block size)的调整,无法获得适于字符识别的二值图像的情 况。例如,如果对整个图像面取单一的二值阈值,一般可以获得不受 小的图像不均匀影响的图像,但当是图像中存在多种字符颜色和字符 部分的底色的彩色图像时,会招致画质的降低。如果对每一小块适当 地确定阈值进行二值化,虽然能够对每个处理块应付字符部分的底色 的变化,但另一方面当每个处理块浓度不均匀、或者在同一个处理块 内字符区域和照片等其他区域混合存在时,就很容易产生噪声。并且, 如果为使处理块内不混合存在多个区域而减小块尺寸,则块内的噪声 等的影响变大,反而会使浓度不均匀增大,更容易产生噪声。
这样,在以往的二值化方法中,当包含反白字符时,或者像彩色 图像等那样是底色和字符颜色之间的对比度较小的图像,或者是照片 等字符以外的图像和字符混合存在的图像时,就无法输出实现高字符 识别精度的二值化图像。

发明内容

本发明是鉴于上述课题而设计的,目的在于即使在输入了包含有 反白字符的图像或多值图像的情况下,也输出适于进行字符识别处理 的图像,从而提高字符识别精度。
为了实现上述目的,本发明的图像处理装置具有以下这样的结 构。即,提供一种对输入的图像进行处理的图像处理装置,其特征在 于,包括:边缘图像生成装置,对上述输入的图像进行边缘抽取处理, 生成边缘图像;二值图像生成装置,对上述输入的图像进行二值化处 理,生成二值图像;抽取装置,基于上述边缘图像从上述输入的图像 抽取字符区域,并且,基于上述二值图像从上述输入的图像抽取字符 区域;判断单元,判断由上述抽取装置基于边缘图像从上述输入的图 像抽取出的字符区域是否反白;第1二值化装置,在由上述判断装置 判断为反白的情况下,将由上述抽取装置基于边缘图像从上述输入的 图像抽取出的字符区域进行阈值处理来进行反白二值化,在由上述判 断装置判断为没有反白的情况下,将由上述抽取装置基于边缘图像从 上述输入的图像抽取出的字符区域进行阈值处理来进行非反白二值 化;第2二值化装置,对由上述抽取装置基于二值图像从上述输入的 图像抽取出的字符区域进行阈值处理来进行非反白二值化;盖写装 置,在由上述第2二值化装置进行了二值化的字符区域与由上述第1 二值化装置进行了二值化的字符区域重叠的情况下,用由上述第2二 值化装置进行了二值化的字符区域来盖写由上述第1二值化装置进行 了二值化的字符区域。
通过本发明,即使在输入了包含有反白字符的图像或者多值图像 的情况下,也输出适于进行字符识别处理的图像,从而能够提高字符 识别精度。
本发明的其他特点和优点,将通过接下来的参照附图进行的说明 得到明确,在所有的附图中,对相同或类似的部分附以相同的标号。

附图说明

附图构成本说明书的一部分,用于说明本发明的实施例,并与该说 明一起用于阐明本发明的原理。
图1是表示本发明第1实施形式的图像处理装置的结构的图。
图2是表示本发明第1实施形式的图像处理装置的处理的流程的 流程图。
图3是表示本发明第1实施形式的图像处理装置中的部分二值化 处理的处理流程的流程图。
图4是表示在本发明第1实施形式的图像处理装置中处理的数据 的流向的数据流的图。
图5是表示多值图像的具体实例的图。
图6是表示多值图像的具体实例的图。
图7是表示多值图像的具体实例的图。

具体实施方式

以下,使用附图对本发明的各实施形式进行说明。
【第1实施形式】
<图像处理装置的结构>
图1是表示本实施形式的图像处理装置的结构的图。101是CPU, 102是存储CPU101的程序和数据的ROM。103是RAM,临时保存 将要处理的文档图像等,作为CPU 101的工作区而发挥作用。104是 存储装置,存储文档图像、文件等。105是扫描仪,读入成为对象的 文档图像。106是打印机,将文档图像打印输出。107是网络I/F,分 发所生成的压缩图像。108、109分别为键盘、显示器,是用于操作、 显示的用户I/F。
<图像处理装置中的处理流程>
图2是表示本实施形式的图像处理装置的处理流程的流程图,图 4是表示按照该流程图处理的数据流向的数据流的图。
在步骤S201中,从存储装置104或者扫描仪105将多值的文档 图像作为多值图像401读入到RAM103中。多值图像401的具体实例 如图5的501所示。
在步骤S202中,从步骤S201输入的多值图像401中通过边缘抽 取处理(402)抽取出图像的边缘,生成边缘图像404。边缘图像404 的具体实例如图5的502所示。
在步骤S203中,对边缘图像404进行区域识别处理(406),抽 取出字符区域408。
在步骤S204中,从多值图像401通过二值化处理(403)生成二 值图像405。二值化方法可以是任意的方法,但最好是如日本特开平 08-223409号公报或日本特开平09-305754公报那样字符部分的画质 较好的二值化方法。二值图像405的具体实例如图5的503所示。
在步骤S205中,通过对二值图像405进行区域识别处理(407), 抽取出字符区域409。
区域识别处理(406、407)作为数据流是分开的,但可以使用相 同处理。观察502可知,边缘图像404中所包含的比较小的字符与粗 体字符几乎相同,而比较大的字符具有与空心字相同的形状,因此可 以通过相同的区域识别方法而抽取出字符区域。
在步骤S206中,判定是否可以进行字符区域的抽取,在步骤S203 和步骤S205的两个步骤中不能进行字符区域的抽取时,将在步骤204 中生成的二值图像407作为输出结果进行输出(步骤S210)。
在步骤S207中,进行输出二值图像412的存储器的初始化。这 是因为,虽然在步骤S202和步骤S204中对多值图像401的全部区域 进行了边缘抽取和二值化处理,但在以下的步骤S208、S209的处理 中,只对字符区域部分进行输出,因此需要以白像素对整个画面进行 初始化。
在步骤S208中,对于基于步骤S203的区域识别结果408而得到 的字符区域,将多值图像401进行部分二值化处理,将二值图像输出 到存储器中保存。并且,在步骤S209中,对于基于步骤S205的区域 识别结果409得到的字符区域,将多值图像401进行部分二值化处理, 将二值图像输出到存储器中保存。
在步骤S210中,将步骤S208、S209处理后的结果输出到输出二 值图像412的存储器。图5的504是该输出二值图像412的具体实例, 是通过本方法对多值图像的具体实例501进行处理后的结果。由于只 将字符部分作为输出二值图像412进行二值化输出,因此反白字符部 分和非反白字符部分的边界部分能够以看不出来的自然的形态进行 输出(另外,在像以往那样对图像的整个区域进行输出的情况下,该 边界部分变成不自然的形态,会对使用该输出二值图像412的后面的 处理带来不良的影响)。
图3是表示步骤S208和步骤S209所示的部分二值化处理的处理 流程的流程图。
在步骤S301中选择所抽取出的字符区域。在步骤S302中如果有 被选择的字符区域则进入步骤S303,如果没有就结束处理。
在步骤S303中进行确定被选择的字符区域的二值化阈值的二值 化阈值运算处理。阈值运算的方法是任意的,但最好是字符画质好的 运算方法。
下面进入步骤S304,判定当前正在处理的区域是区域识别结果 408的数据,还是区域识别结果409的数据。当判定为是区域识别结 果408的数据,即是从边缘图像抽取出的字符区域时,进入步骤S305, 否则进入步骤S308。步骤S305是反白/非反白字符区域判定处理,判 定对象字符区域是亮底暗字的非反白字符区域,还是暗底亮字的反白 字符区域。
根据步骤S305的判定结果,在步骤S306中判定为是反白字符时, 在步骤S307中根据在步骤S303中确定的阈值进行反白二值化处理, 只将该字符区域的部分输出到输出二值图像412的存储器。反之在步 骤S306中判定为是非反白字符时,在步骤S308中根据在步骤S303 中确定的阈值进行通常的二值化处理,只将该字符区域的部分输出到 输出二值图像412的存储器。
步骤S307、S308的处理结束后返回步骤S301,转到下面的字符 区域的处理。
<反白/非反白判定方法>
这里,对在上述步骤S305中使用的反白/非反白字符区域判定方 法,举出具体的实例进行以下说明。关于反白/非反白字符区域判定方 法,可以使用以下任一方法,也可以使用其他的方法。
(反白/非反白字符区域判定方法之1)
在该字符区域的反白/非反白判定方法中,对于该被选择的区域, 计算以在步骤S303中运算出的阈值进行二值化后的白黑比,如果白 的比例大则判定为是非反白字符区域,如果黑的比例大则判定为是反 白字符区域。
(反白/非反白字符区域判定方法之2)
对于成为对象的字符区域的边界部分,计算以在步骤S303中运 算出的阈值进行二值化后的白黑比,如果白的比例大则判定为是非反 白字符区域,如果黑的比例大则判定为是反白字符区域。
(反白/非反白字符区域判定方法之3)
在步骤S303的二值化阈值运算处理中,使用日本特开平 08-223409号公报、日本特开平09-305754号公报的方法,根据直方 图(histogram)的偏态(skew)的符号确定是反白还是非反白。如果 偏态的值是负值则为非反白,如果是正值则为反白区域。由于偏态值 在确定二值化阈值的时候运算已经结束,因此能够实现处理的高速 化。
(反白/非反白字符区域判定方法之4)
当在上述反白/非反白判定方法(之1)中白黑比的差比预先确定 的值小,在上述反白/非反白判定方法(之3)中偏态值的绝对值比预 先确定的值小的时候,进行反白/非反白判定方法(之2)的判定。
(反白/非反白字符区域判定方法之5)
由于在普通文档中非反白字符存在的概率较高,所以在反白/非反 白字符区域判定方法之1~之4中将判定的基准设定为非反白优先。
<部分二值化处理的顺序>
字符区域的部分二值化处理在对从边缘图像抽取出的字符区域 进行处理后,处理从二值图像抽取出的字符区域。重叠(overlap)的 区域虽然会留下在后处理的结果,但通过先处理从边缘图像抽取出的 字符区域,关于重叠的部分,可以通过在后的对二值图像的字符区域 的处理而盖写,从而具有避免反白/非反白的误判定的效果。
<图像处理装置中的处理的特点>
以下对图4所示流程图中的各处理的特点进行说明。
A.边缘图像404的优点
在本实施形式的图像处理装置中,具有也从边缘图像404进行区 域识别的特点。通过进行边缘抽取402而获得的边缘图像404,无论 是非反白字符还是反白字符都同样地被输出,因此能够不特别区分地 进行区域识别处理。
图6的601是某输入图像的一部分,602是其边缘图像、603是 二值图像。在如601那样输入图像的一部分具有较浓的底时,如以往 那样只是对输入图像整体同样地进行二值化处理,有时会变成603那 样,无法在区域识别处理407中被判断为是图像区域,并作为字符区 域进行抽取。对此,因为通过边缘抽取407得到的边缘图像404只对 像素间的相对亮度位移(brightness difference)有反应,因此即使在 输入了601所示那样的图像的情况下,也能得到边缘图像602,其结 果是可以不受底色的影响地抽取出字符区域。因此输出的二值图像 412成为604那样。
B.二值图像405的优点
在本实施形式的图像处理装置中,还具有一并使用边缘抽取402 和二值化处理403,进行互补的特点。
边缘抽取(402)受底色的浓淡的影响较小,作为图像来看,由 于边缘存在于字符的周边部分,因此字符的大小会变大。由此,例如, 对图7的图像701所示的表中的字符进行边缘抽取后,由于框线部分 也较粗,因此字符和框线就变得容易接在一起(参照702)。其结果, 分离同其他部分接在一起的字符的难度较高,因此在进行区域识别处 理时,无法稳定地抽取出字符区域。而且,边缘抽取是文件处理,有 时对局部的亮度位移产生反应而产生噪声,成为字符抽取的障碍。对 此,通过二值化处理403得到的二值图像405保持了字符的大小,因 此在图7的情况下,如图703所示那样,字符和框线不接触,能够容 易地分离字符(参照704)。
C.字符区域单位的二值化(410、411)
在本实施形式的图像处理装置中,还具有如下特点:对于从二值 图像403抽取出的字符区域409,针对多值图像401计算二值化阈值, 再次进行二值化处理(部分二值化处理)。
这是因为,作为以往技术的问题点,如上述的那样,只用步骤 S204的二值化方法会产生以下这样的问题。即,在利用全画面单一 阈值时,虽然可以不出现小噪声地进行二值化,但另一方面,当图像 中的字符颜色、字符部分底色存在多种时,会出现画质较差的字符部 分。而且,在将输入图像格子状地划分成预先确定的大小的块(处理 块),并对每一个处理块适当地确定阈值进行二值化时,虽然可以应 付每一个处理块的字符底色的变化,但另一方面在每个处理块单位出 现浓度不均匀、或者处理块内字符区域和照片等其他区域混合存在 时,就容易产生噪声。并且,如果为使处理块内不混合存在多个区域 而将块尺寸变小,则块内的噪声等的影响就变大,因此会使浓度不均 匀增大,更容易出现噪声。
对此,通过在步骤S208、S209中对字符区域进行部分二值化处 理,对每个字符区域确定阈值,就可以应付每个区域的字符底色的变 化,且能够从由字符区域限定的比较广的区域稳定地计算阈值。即, 由于进行与适当地确定最佳的处理块尺寸等价的工作,因此可以获得 浓度不均匀和噪声较少的、字符画质高的图像。
如通过以上说明所明确的那样,根据本实施形式,通过对输入的 图像进行边缘抽取,在包含反白字符的情况下也能够获得适于进行字 符识别的图像。而且,通过一并使用二值化处理,能够补偿通过边缘 抽取进行处理时的不足。并且,通过对由边缘抽取或二值化处理的结 果所得到的字符区域再次进行二值化处理,可以获得最佳的块尺寸的 二值化图像。其结果是,可以输出适于进行字符识别处理的图像,能 够使字符识别精度比以往提高。
【第2实施形式】
关于上述边缘图像404,如果得到了区域识别结果408就不再需 要,二值图像405在得到了区域识别结果409的时刻就不再需要。因 此,通过使边缘图像404、二值图像405、输出的二值图像412共用 存储器,可以节约存储器。
另一方面,由于图4的402、404、406、408和403、405、407、 409的数据流的处理是独立的,因此通过分配独立的资源(存储器), 并行地进行处理,可以实现处理的高速化。
并且,还可以在S208、S209的处理的基础上,将输入图像整体 的二值图像405反白,生成反白图像,并对该反白图像进行区域识别 处理,从而对反白字符进行特殊化的字符抽取处理。但是,在这种情 况下,从图3的S304分支进入S307。
【第3实施形式】
当在上述步骤S303中得到的二值化阈值,和二值化处理405中 的阈值的差处于预先确定的范围内时,可以通过将保存着的二值化图 像405的该部分复制到要输出的输出二值图像412,从而缩短二值化 处理时间。
【其他的实施形式】
另外,本发明既可以使用于由多台设备(例如主计算机、接口设 备、读出装置、打印机等)构成的系统,也可以适用于由一台设备构 成的装置(例如复印机、传真机装置等)。
而且,显然本发明的目的也可以通过将记录有实现上述实施形式 的功能的软件的程序码的存储介质提供给系统或者装置,该系统或者 装置的计算机(或者CPU、MPU)读出并执行存储在该存储介质上 的程序代码来实现。
在这种情况下,从存储介质读出的程序代码本身就实现上述实施 形式的功能,存储该程序代码的存储介质就构成本发明。
作为用于提供程序码的存储介质,可以使用例如软盘(Floppy: 注册商标)、硬盘、光盘、光磁盘、CD-ROM、CD-R、磁带、非易 失性的存储卡、ROM等。
而且,显然不仅是计算机执行读出的程序代码,来实现上述实施 形式的功能,在计算机上运行着的OS(操作系统)等根据该程序代 码的指示,执行实际的处理的一部分或者全部,通过该处理实现上述 实施形式的功能的情况也包含在本发明的范围内。
另外,显然,在从存储媒体读出的程序代码,被写入到插在计算 机中的功能扩张板或与计算机连接的功能扩张单元所具有的存储器 中后,该功能扩张板或功能扩张单元所具有的CPU等,根据该程序 代码的指示,执行实际的处理的一部分或者全部,通过该处理实现上 述实施形式的功能的情况也包含在本发明的范围内。
在不脱离本发明的精神和范围的前提下,本发明可以有各种不同 的实施方式,并且应该理解为,本发明不受特定的实施方式的限定, 其范围由所附的权利要求限定。