一种自动提取中国书画作品中印章图像的方法转让专利

申请号 : CN200710143946.3

文献号 : CN101122999B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 娄海涛鲍泓唐智星康乐张鑫蕊

申请人 : 北京联合大学

摘要 :

本发明涉及一种自动提取中国书画作品中印章图像的方法,它包括如下步骤:利用基于L*a*b*分量颜色分析,以及其分析结果到RGB颜色空间的映射方法滤除目标图像中非红颜色信息;对图像的剩余信息中包含的噪声进行处理;采用基于几何区域的二次分割和过滤方法、基于连通区域的图像过滤方法、边缘检测方法等方法对图像的剩余信息中非印章信息进行剔除;根据矩阵L3和书画作品图像之间存在的位置对应关系,进行图像分割提取。由于本发明提供了一种能够从整幅书画作品或局部书画作品数字图像中准确地自动提取印章图像全部信息的方法,所以为实现以印章图像为关键信息的基于内容的中国书画作品图像检索系统奠定了基础。本发明可广泛应用于文物数字化领域。

权利要求 :

1.一种自动提取中国书画作品中印章图像的方法,其特征在于,它包括如下步骤:* * *

1)利用基于Lab 分量颜色分析,以及其分析结果到RGB颜色空间的映射方法滤除目标数字图像中非红颜色信息;

2)对所述图像剩余信息中包含的噪声进行处理;

3)对经噪声处理后的所述图像剩余信息中非印章信息进行剔除:采用基于几何区域的二次分割和过滤的方法,剔除所述图像中的低密度颜色信息;采用基于连通区域的图像过滤方法,剔除所述图像中剩余图像部分所占面积远大于和远小于印章可能范围的图像信息;采用边缘检测方法将所述图像中剩余图像部分的高密度非印章颜色区域转化为低密度区域;再次采用所述基于几何区域的二次分割和过滤的方法,剔除所述图像的由高密度转化为低密度的颜色信息;

4)对所述图像进行分割,提取印章;

所述基于几何区域的二次分割和过滤的方法包括如下步骤:(1)将所述图像按设定的步长值划分为若干矩形区域,并计算各个区域颜色密度;

(2)以首次划分的区域交叉点作为矩形区域的中心,对所述图像进行二次区域划分并计算各区域的颜色密度;

(3)确定两次划分所获得的所述图像全部区域的颜色密度,得到颜色密度矩阵,L1为第一次区域划分的颜色密度矩阵,L2为第二次区域划分的颜色密度矩阵,当颜色密度值大于颜色密度阈值时,对应的矩阵元素取值为1,反之为0;

(4)将L1中与L2中对应为1的元素相邻的方格矩阵值填充为1,获得了一个在L1中加入了L2对应信息的新矩阵L3,保留L3中矩阵值为1的元素所代表的对应图像区域,剔除L3中值为0的元素所代表的对应图像区域。

2.如权利要求1所述的一种自动提取中国书画作品中印章图像的方法,其特征在于:将所述图像进行颜色空间的转换,即由RGB颜色空间转换到XYZ颜色空间,再由XYZ颜色空* * *间转换到Lab 颜色空间:

*

a =500×(f(X/Xn)-f(Y/Yn))

*

b =200×(f(Y/Yn)-f(Z/Zn)

其中,kr、kg和kb是比例系数,xr、xg、xb、yr、yg、yb、zr、zg、zb为国际照明委员会xyY色度图中的红、绿和蓝的坐标,Xn、Yn、Zn是XYZ国际坐标制中参考白光的三色刺激值,X、Y、Z* * * * * *和R、G、B分别为各自颜色空间中的对应颜色分量,L、a、b 为Lab 颜色空间中的各分量,f(t)如下:根据中国书画作品中印章图像的一般视感特性,剔除所述图像中偏冷色调的背景图* * *像:设置a为大于0的可谓实数值,b为绝对值小于120任意实数的集合,然后利用Lab 分* *量颜色分析结果在RGB颜色空间上对所述图像进行映射,即当b 颜色不在b中或者a 颜色小于a时被剔出,实现对所述图像中视感为红色的信息的过滤。

说明书 :

一种自动提取中国书画作品中印章图像的方法

技术领域

[0001] 本发明涉及一种图像提取方法,特别是一种自动提取中国书画作品中印章图像的方法。

背景技术

[0002] 中国书画作品中的印章具有重要艺术价值,是书画作品中不可分割的一部分,通过对书画作品中印章图像的鉴别和检索有助于实现书画作品相关信息的检索和鉴识。
[0003] 图像检索技术自二十世纪70年代以来一直是个非常活跃的研究课题。到目前为止,检索技术主要有两种:基于语义的检索技术和基于内容的检索技术。早期的图像检索是基于语义(图像关键字)的检索,该检索方法需要人工对每幅图像按其内容进行标注,然后将标注信息存到文本数据库中用于后来的检索,随着图像的增多,人工标注非常困难,而且,每个人对图像内容的理解不同会造成标注的主观性过强,不利于用户检索。二十世纪90年代以后,图像检索的研究重点是基于图像内容的检索(Content Based Image Retrieval,CBIR),即在数据库中找出满足某一特定的视觉特征描述的图像的过程,其基本思想是通过分析图像的视觉特征和上下文联系来进行检索。这种技术使用特定的算法与技术手段由计算机自动提取包含图像内容的可视特征如颜色、纹理、形状、对象的位置和相互关系等,并将提取的不同图像的相互区别的一组特征存入图像特征数据库,通过对数据库中图像和查询样本图像在特征空间进行相似匹配,检索出与样本相似的图像。
[0004] 自20世纪90年代以来,基于内容的图像检索的研究和应用在国外取得了长足的发展,一些著名的图像检索系统相继被推出:QBIC(Query By Image Content)图像检索系统是IBM公司90年代开发制作的图像和动态景象检索系统,是第一个基于内容的商业化的图像检索系统;VIR Image Engine是由Virage公司开发的基于内容的图像检索引擎,它同时也支持基于色彩、颜色布局、纹理和结构等视觉特征的图像检索;RetrievalWare是由Excal ibur科技有限公司开发的一种基于内容的图像检索工具,提供基于颜色、形状、纹理、颜色结构、亮度结构和纵横比6种图像属性的检索;Photobook是美国麻省理工学院的多媒体实验室开发的用于图像查询和浏览的交互工具,用户可以在三个子系统中分别进行基于形状、基于纹理和基于面部特征的图像检索;哥伦比亚大学开发的Vi sualSEEK和WebSEEK分别是基于视觉特征和面向WWW的文本或图像的检索工具。
[0005] 在国内,清华大学于1997年研制了一个Internet上的静态图像的基于内容检索的原型系统,中国科学院计算技术研究所研究了基于特征的多媒体信息检索系统,北京华旗图像数据智能技术有限公司研发了图像智能检索软件可以按外观设计专利的图像内容进行检索。
[0006] 在文物领域,随着文物数字化的深入,大量的文物图像被以数字图像的形式保存下来,如何能够通过图像本身(或是其草图)实现对文物图像和相关信息的检出成为文物数字化领域的核心课题之一。就目前检索到的相关资料看,国内外尚未发现关于中国书画作品中印章图像自动提取方法的相关报道。
[0007] 考虑到印章在书画作品中的特殊地位,利用提取出来的印章信息进行检索,将会大大提高检索的精度。中国书画作品源远流长,书画作品中的印章受年代、材质、印色、篆文、刻法、形状、字体、书画作品的材质、钤盖力度以及裱糊时的外力作用等因素的影响,给印章图像的提取带来了一定困难。目前,对于印章图像数字化领域的研究,还仅限于“公章”,会计和法人印章的研究。对于这些钤盖于现代文书中的印章图像的识别和提取,由于其背景相对简单,而比较容易实现。对于中国书画作品中印章图像的提取和识别,上述“公章”的提取方法则不能起到应有的作用。

发明内容

[0008] 针对上述问题,本发明的目的是提供一种从整幅书画作品或局部书画作品的数字图像中准确地自动提取印章图像的方法。
[0009] 为实现上述目的,本发明采取以下技术方案:一种自动提取中国书画作品中印章* * *图像的方法,其特征在于:它包括如下步骤:(1)利用基于Lab 分量颜色分析,以及其分析结果到RGB颜色空间的映射方法滤除目标数字图像中非红颜色信息;(2)对所述图像剩余信息中包含的噪声进行处理;(3)对经噪声处理后的所述图像剩余信息中非印章信息进行剔除:采用基于几何区域的二次分割和过滤的方法,剔除所述图像中的低密度颜色信息;
采用基于连通区域的图像过滤方法,剔除所述图像中剩余图像部分所占面积远大于和远小于印章可能范围的图像信息;采用边缘检测方法将所述图像中剩余图像部分的高密度非印章颜色区域转化为低密度区域;再次采用所述基于几何区域的二次分割和过滤的方法,剔除所述图像的由高密度转化为低密度的颜色信息;(4)对所述图像进行分割,提取印章。
[0010] 将所述图像进行颜色空间的转换,即由RGB颜色空间转换到XYZ颜色空间,再由* * *XYZ颜色空间转换到Lab 颜色空间:
[0011]
[0012]
[0013]
[0014] a*=500(f(X/Yn)-f(Y/Yn))
[0015] b*=200(f(Y/Yn)-f(Z/Zn))
[0016] 其中,kr、kg和kb是比例系数,xr、xg、xb、yr、yg、yb、zr、zg、zb为国际照明委员会xyY色度图中的红、绿和蓝的坐标,Xn、Yn和Zn是XYZ国际坐标制中参考白光的三色刺激值,X、Y、Z和R、G、B分别为各自颜色空间中的对应颜色分量,L*、a*、b*为L*a*b*颜色空间中的各分量,f(t)如下:
[0017]
[0018] 根据中国书画作品中印章图像的一般视感特性,剔除所述图像中偏冷色调的背景图像:设置a为大于0的可调实数值,b为绝对值小于120任意实数的集合,然后利用L*a*b*分量颜色分析结果在RGB颜色空间上对所述图像进行映射,即当b*颜色不在b中或者a*颜色小于a时被剔出,实现对所述图像中视感为红色的信息的过滤。
[0019] 所述基于几何区域的二次分割和过滤的方法包括如下步骤:(1)将所述图像按设定的步长值划分为若干矩形区域,并计算各个区域颜色密度;(2)以首次划分的区域交叉点作为矩形区域的中心,对所述图像进行二次区域划分并计算各区域的颜色密度;(3)确定两次划分所获得的所述图像全部区域的颜色密度,得到颜色密度矩阵,L1为第一次区域划分的颜色密度矩阵,L2为第二次区域划分的颜色密度矩阵,当颜色密度值大于颜色密度阀值时,对应的矩阵元素取值为1,反之为0;(4)将L1中与L2中对应为1的元素相邻的方格矩阵值填充为1,获得了一个在L1中加入了L2对应信息的新矩阵L3,保留L3中矩阵值为1的元素所代表的对应图像区域,剔除L3中值为0的元素所代表的对应图像区域。
[0020] 本发明由于采取以上技术方案,其具有以下优点:1、由于本发明提供了一种能够从整幅书画作品或局部书画作品数字图像中准确地自动提取印章图像全部信息的方法,所以为实现以印章图像为关键信息的基于内容的中国书画作品图像检索系统奠定了基础。2、本发明提供了一种基于L*a*b*分量颜色分析,以及其分析结果到RGB颜色空间的映射方法,所以为视觉感官印章颜色域范围内红色图像信息的提取提供了一种基本思路和方法。3、本发明提供了一种基于几何区域的二次分割和过滤方法,实现了对包含印章信息图像的过滤,所以为印章图像的提取提供了一种基于颜色和结构特征的研究模式。本发明可广泛应用于文物数字化领域。

附图说明

[0021] 图1是本发明方法的流程示意图
[0022] 图2是本发明方法基于L*a*b*分量颜色过滤前的图像
[0023] 图3是本发明方法基于L*a*b*分量颜色过滤后的图像
[0024] 图4是本发明方法进行噪声处理前的图像
[0025] 图5是本发明方法进行噪声处理后的图像
[0026] 图6是本发明方法对图像进行两次几何区域划分的示意图
[0027] 图7是第一次划分的区域和第二次划分的区域之间的关系图
[0028] 图8是本发明方法第一次几何区域划分的颜色密度矩阵L1
[0029] 图9是本发明方法第二次几何区域划分的颜色密度矩阵L2
[0030] 图10是本发明方法L2中的值对L1中取值的影响关系示意图
[0031] 图11是本发明方法在L1中加入L2影响后获得的新矩阵L3
[0032] 图12是采用本发明方法提取到的印章图像
[0033] 图13是本发明选用的清代画家王原祁的一幅山水画(局部)
[0034] 图14是采用本发明方法从图13所示实施例中提取的印章图像
[0035] 图15是基于本发明方法实现的中国书画作品检索的系统框图

具体实施方式

[0036] 下面结合附图和实施例,对本发明方法进行详细描述。
[0037] 本发明方法通过常规方法获取一幅包含印章信息的中国书画作品或作品局部的数字图像,利用一种图像处理组合方法,对中国书画作品中的印章图像进行识别,并逐个提取出来。
[0038] 如图1所示,印章图像提取方法包括如下步骤:
[0039] 1、利用基于L*a*b*分量颜色分析,以及其分析结果到RGB颜色空间的映射方法滤除目标图像中非红颜色信息;
[0040] 2、对图像剩余信息中包含的噪声进行处理;
[0041] 3、对图像剩余信息中非印章信息进行剔除;
[0042] 4、图像分割提取印章。
[0043] 计算机中图像颜色的描述一般都采用RGB颜色空间。RGB颜色空间中虽然包含有R分量,但无法利用它对视觉感受中的“红”颜色进行过滤。所以将RGB颜色空间下的图像* * * * * *映射到Lab 颜色空间,通过分析a 和b 分量以实现对目标颜色的过滤,其中+a 表示红* * * *
色,-a 表示绿色,+b 表示黄色,-b 表示蓝色,颜色的明度由L 的百分数来表示。将用户* * *
提交的图像进行颜色空间的转换,即由RGB颜色空间转换到XYZ颜色空间,再到Lab 颜色空间:
[0044]
[0045] 其中,kr、kg和kb是比例系数,xr、xg、xb、yr、yg、yb、zr、zg、zb为国际照明委员会(CIE:International Commission on Illumination)xyY色度图中的红、绿和蓝的坐标,Xn、Yn和Zn是XYZ国际坐标制中参考白光的三色刺激值。以上式为基础,可以进一步得出ITU-R BT.601在光源C下由RGB颜色空间到XYZ颜色空间的转换关系:
[0046]
[0047] 其中,X、Y、Z和R、G、B分别为各自颜色空间中的对应颜色分量,再由XYZ转换到L*a*b*:
[0048]
[0049] a*=500(f(X/Xn)-f(Y/Yn))
[0050] b*=200(f(Y/Yn)-f(Z/Zn))
[0051] 其中,L*、a*、b*为L*a*b*颜色空间中的各分量,f(t)如下:
[0052]
[0053] 根据中国书画作品中印章图像的一般视感特性,将图像中偏冷色调的背景图像剔除。设置两个阀值a、b,a为大于0的实数值(可调,通常取整数),b为绝对值小于120任* *意实数的集合,当某一像素b 颜色不在b中或者a 颜色小于a时被剔出,然后利用过滤后的结果在RGB颜色空间上对图像进行映射,可以实现对图像中视感为红色的信息的过滤(如图2、图3所示,其中图2为图像过滤前的效果,图3为图像过滤后的效果)。
[0054] 由于书画作品的颜料、材质、保存状况以及包浆等因素的影响,经上述步骤处理后的图像包含有一定的噪声,需根据实际情况进行处理,可选用一种或几种过滤方法如自适应滤波器、中值滤波器和高斯滤波器等之一或它们的组合,也可以根据实际需要自行设计(如图4、图5所示,其中图4为滤波前的效果,图5为滤波后的效果)。
[0055] 经过滤的图像信息中,红色部分不一定都是印章图像,非印章信息的红色部分为包含大量的低分布密度红色信息和高分布密度红色信息的图像区域,印章信息分布密度则介于两者之间,因此还需要进一步对非印章信息进行剔除。
[0056] 采用基于几何区域的二次分割和过滤的方法,剔除低密度颜色信息。实验表明颜色密度小于某一阀值(该阀值是经过大量实验后得到的经验设定值,它可以根据印章上文字或图像的凹凸形体比例关系进行相应的调整)的区域不可能包含有印章信息,所以将整幅图像按设定的步长值划分为若干矩形区域,然后对各个区域分别计算颜色密度。为避免划分区域时将印章信息分割开来,造成部分印章信息所在区域被作为非印章区域剔除,对原图进行二次区域划分。第二次的划分以首次划分的区域交叉点作为矩形区域的中心。例如,将图像划分为3×3区域(如图6、图7所示,其中图6为两次几何区域划分的效果,图7为第一次划分的区域阴影部分和第二次划分的区域间的对应关系)。另外,区域划分可以确定印章图像在特定书画作品中的位置,为后面印章图像提取提供坐标信息。
[0057] 确定两次划分所获得图像全部区域的颜色密度,得到颜色密度矩阵,当颜色密度值大于颜色密度阀值时,对应的矩阵元素取值为1,反之为0。设第一次几何区域划分的颜色密度矩阵为L1,第二次几何区域划分的颜色密度矩阵为L2。例如,将图像划分为4×4的矩形区域(如图8、图9所示,其中图8为第一次几何区域划分得到的颜色矩阵,图9为第二次几何区域划分得到的颜色矩阵),将L2中为1的元素在L1中的对应元素值填充为1(如图10所示),获得一个在L1中加入了L2对应信息的新矩阵(如图11所示)。设在L1中添加了L2中对应为1的元素信息后所获得的颜色矩阵为L3。L3中矩阵值为1的元素所代表的对应图像区域颜色密度达到了可能包含印章图像信息的要求,故保留它所拥有的图像信息;L3中值为0的元素所代表的对应图像区域颜色密度没有达到可能包含印章图像信息的要求,故剔除这些区域中的图像信息。
[0058] 低密度的颜色信息剔除后,剩余图像中只含有颜色密度较高的信息,首先采用基于连通区域的图像过滤方法,剔除剩余图像中所占面积远大于和远小于印章可能范围的图像信息,本实施例采用种子填充算法。此时,图像中仅包含有印章图像以及与印章图像大小相近的孤立的高密度颜色图像,而非印章图像明显不具备印章图像所具有的丰富的结构信息。采用边缘检测方法如索贝尔(Sobel)算子、Roberts算子、Canny算子和拉普拉斯算子等,将高密度的非印章颜色区域转化为低密度区域,印章图像仍旧保持一定密度。本实施例采用Canny边缘检测子进行图像的边缘检测,勾边后印章部分仍具备比较丰富的特征信息,而那些孤立的高密度颜色区域因不具备丰富的边缘信息而被削弱。从信息分布的角度看,印章部分转变为相对高密度部分,而孤立的高密度颜色部分则退化为相对低密度部分。对剩余图像进行边缘信息提取后,再次采用基于几何区域的二次分割和过滤的方法,剔除原高密度颜色信息,并修改矩阵L3中相应元素的值。
[0059] 根据矩阵L3和书画作品图像之间存在的位置对应关系,可以较为容易的识别L3中被标识为印章的区域所对应的图像边界,并提取出印章图像(如图12所示)。
[0060] 如图13所示,本实施例对中国清代画家王原祁的一幅山水画(局部)中包含的三枚印章图像进行提取(如图14所示),提取率可达到100%。
[0061] 本发明提供了一种能够从整幅书画作品或书画作品局部图像中准确地自动提取出印章图像的全部信息的方法,可以实现一个利用印章图像作为关键信息的基于内容的中国书画作品检索系统(如图15所示)。对大量书画作品提取图像特征和印章图像特征并分别存贮于书画作品特征库和印章库。用户检索时可根据需求进行查询(可以是一幅书画作品或其局部图像),利用印章信息精确定位被检索书画作品,并获取该作品的相关信息。
[0062] 尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容,要求保护的范围以权利要求书界定的范围为准。