一种面向东巴象形文的数字化获取与图像处理方法转让专利

申请号 : CN201510220591.8

文献号 : CN104794470B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 徐小力吴国新王红军李志华王宁

申请人 : 北京信息科技大学

摘要 :

本发明涉及一种面向东巴象形文的数字化获取与图像处理方法,其步骤:对东巴经典古籍经书进行数字图像采集;对采集到的数字图像进行去噪;对去噪后的数字图像信息进行笔划特征突出化处理,增强目标文字与背景的对比度;对特征突出化处理后的数字图像信息进行轮廓检测;对轮廓检测后的数字图像信息进行尺寸统一化处理,完成东巴象形文的数字化获取与图像处理。本发明能有效将模糊的纸质经书实现数字化提取,数据量压缩比高,去噪后得到的噪声与图像信号之间平滑弧线过渡,得到的图片清晰,便于文化的数字化传承与保护,可以广泛在文字图像处理领域中应用。

权利要求 :

1.一种面向东巴象形文的数字化获取与图像处理方法,其特征在于,它包括以下步骤:

1)对东巴经典古籍经书进行数字图像采集:采用CCD数字图像采集系统对经书进行图像采集,并将采集到的数据量进行压缩;

所述图像采集压缩方法如下:

(1)将一张待采集图像信息的东巴经书分成N个互不重叠的值域块Ei,且这些值域块Ei正好覆盖整个待采集图像,同时将待采集图像按预先设定的步长分成M个尺寸较大并可互相重叠的定义域块Fi;

(2)对每个值域块Ei,从所有定义域块中通过旋转矩阵Bi寻找一个最佳匹配的定义域块Fi,使该定义域块Fi通过旋转矩阵Bi变换后近似于Ei:式中, 为旋转矩阵Bi, 是一个使Fi更趋近于Ei的向量, 为Fi的向量;

(3)利用旋转矩阵Bi对N个定义域块Fi进行变换,变换一次称为一次迭代,迭代10次左右,图像稳定下来,趋于迭代函数系统的吸引子,减少数据量的图像采集完成;

2)对采集到的数字图像进行去噪,步骤如下:

(1)将采集到的彩色图像颜色进行统一化处理,将三维彩色数值转化为一维数值,输出颜色统一的图像;

(2)统一化处理后对东巴经书的图像进行去噪处理;

3)对去噪后的数字图像信息进行笔划特征突出化处理,增强目标文字与背景的对比度:通过图像灰度值与阈值的判定实现笔划特征突出化处理,将背景变为白色,文字变为黑色,则处理后的图像灰度值Mt(a,b)为:式中,M(a,b)表示原图像中位于(a,b)处的灰度值;λ为阈值;当图像灰度值等于0时表示白色即背景色,等于255时表示黑色即文字色;

4)对特征突出化处理后的数字图像信息进行轮廓检测:对东巴经书的轮廓检测基于灰度值的跳变,将跳变点连接成曲线段即实现轮廓检测;

5)对轮廓检测后的数字图像信息进行尺寸统一化处理,完成东巴象形文的数字化获取与图像处理:(1)根据水平方向投影的原理,映射出每一行的上下边缘,实现行切分;

(2)根据垂直方向投影的原理,映射出每个文字的左右边缘,分离出单个东巴象形文字,实现列切分;

(3)切分后进行尺寸统一处理。

2.如权利要求1所述的一种面向东巴象形文的数字化获取与图像处理方法,其特征在于:所述步骤2)中,所述东巴经书的图像进行去噪处理过程如下:(a)定义包含噪声的图像信号f(t)=s(t)+n(t),其中s(t)为原始信号;n(t)是均值为零、方差为σ2宽平稳加性高斯白噪声,即服从N(0,σ2);

(b)对图像进行分解,得到系数Wf(j,k):对一维图像信号f(t)进行离散采样,得到N点离散信号f(n),n=0,1,2,...,N-1,则系数Wf(j,k)为:式中,ψ()是一平方可积函数,j代表尺度因子,k代表平移因子;

(c)构造阈值函数,得到估计系数

式中ω=Wf(j,k),T为阈值,μ(ω)即为要求的估计系数(d)对估计系数 利用逆变换进行重构,得到新的图像信号,完成去噪输出图像。

3.如权利要求1所述的一种面向东巴象形文的数字化获取与图像处理方法,其特征在于:所述步骤3)中,所述阈值λ采用微分值来决定,将阈值λ选取在微分直方图中波谷位置处:选取一张东巴经书,由下式得到位于(a,b)处的微分值,构造其微分直方图,微分直方图的横坐标为(a,b)处的灰度值,微分直方图的纵坐标为(a,b)处的微分值:式中,M(a,b)表示原图像中位于(a,b)处的灰度值,D(a,b)为位于(a,b)处的微分值。

4.如权利要求1所述的一种面向东巴象形文的数字化获取与图像处理方法,其特征在于:所述步骤4)中,所述轮廓检测方法如下:图像采用二元函数v(x,y)表示,取 u(x,y)为二元平滑函数,σ为标准差,记

记复数变换函数 带入公式(1),得到 与 则:

进行二维卷积型复数变换,记为 由卷积的性质得

取s=2-j,得

将梯度grad[]取得极值点(x1,y1),(x2,y2),...,(xn,yn),并将极值点连接成曲线,完成轮廓检测;连接原则是:邻近的点相连;灰度相近的点相连;走向与该点梯度垂直。

5.如权利要求1所述的一种面向东巴象形文的数字化获取与图像处理方法,其特征在于:所述步骤5)(3)中,所述尺寸统一处理过程如下:(a)计算由行切分和列切分后形成的外接矩形,将外接矩形的左上角标记为(xmin,ymin),右下角坐标标记为(xmax,ymax),中心点标记为(xc,yc),令xmin,ymin分别为左上角横坐标、纵坐标最小值点,xmax,ymax分别表示右下角横坐标、纵坐标最大值点;

(b)定义外接矩形大小为w×w,令w=64,将外接矩形的中心点平移到统一化后的矩形中心 平移后外接矩形所有点的横坐标x1、纵坐标y1为:(c)分别计算外接矩形长、宽方向的缩放比例ratiox、ratioy,两缩放比例的最小值定义为整个外接矩形的缩放比例ratio:(d)统一化后的外接矩形所有点的新坐标(x′,y′)为:x′=x1×ratio,

y′=y1×ratio。

说明书 :

一种面向东巴象形文的数字化获取与图像处理方法

技术领域

[0001] 本发明涉及一种文字图像处理方法,特别是关于一种计算机图像处理领域中的面向东巴象形文的数字化获取与图像处理方法。

背景技术

[0002] 纳西族东巴象形文被国际学界认为是当今世界上唯一还在使用的象形文字,至今仍在被在世的东巴祭司使用,用其主持各种仪式,写信、记账等。国际纳西学学者们通过一个世纪的研究认为:东巴文字是正在从图画文字向象形文字过渡时期的一种文字形态,因此它比苏美尔和巴比伦的楔形文字、古埃及的圣书文字,还有中美洲的玛雅文字和甲骨文都更原始。用东巴象形文书写的东巴经典多达三万卷,共一千四百多种,全部由东巴祭司用竹笔手写。由于年代久远,东巴经典古籍有一些残缺、破损、霉斑、变色及污染等,这给东巴象形文的传承与保护工作带来了很大的难度及工作量。
[0003] 目前针对东巴文化的传承与保护主要有以下四种形式:1、民间传承类:最原始的传播方式,通过本族内师徒、父子等封闭关系进行传承。但年轻一代致力于全面学习东巴知识的人越来越少,面临文化断层和人才断层。2、专业教育类:是目前学术界较推荐的一种,本土学者就创办了专门的培训学校,当地政府也尝试推行东巴文化中小学普及教育。但由于教育时间跨度长,短期传播效果不易实现。3、旅游开发类:是经济发展形成的一种客观传播方式,申遗成功吸引了大量人群进行旅游体验,一定程度上促进了东巴文化的传播。但依托自然资源、人文资源等发展的资源消耗型产业,必会造成人流膨胀,从而对当地景观和人文造成破坏。4、原生态保护类:通过最大限度地保留原始村落生产生活状态,创造文化自留地,保护东巴文化的原初状态。但这种理想化的设计面临实际操作的困难,所耗资金也较多。由此可见,传统四类方式虽在一定程度上缓解了东巴文化传承模式引起的问题,但在数字化蓬勃发展的今天,显得相对粗放迟缓和不经济。因此,东巴文化的数字化传承与保护显得尤其重要,由此衍生的针对东巴象形文字进行的图像处理也具有很强的实施意义。

发明内容

[0004] 针对上述问题,本发明的目的是提供一种面向东巴象形文的数字化获取与图像处理方法,该方法能有效将模糊的纸质经书实现数字化提取,数据量压缩比高,去噪后得到的噪声与图像信号之间平滑弧线过渡,得到的图片清晰,便于文化的数字化传承与保护。
[0005] 为实现上述目的,本发明采取以下技术方案:一种面向东巴象形文的数字化获取与图像处理方法,其特征在于,它包括以下步骤:1)对东巴经典古籍经书进行数字图像采集:采用CCD数字图像采集系统对经书进行图像采集,并将采集到的数据量进行压缩;2)对采集到的数字图像进行去噪,步骤如下:(1)将采集到的彩色图像颜色进行统一化处理,将三维彩色数值转化为一维数值,输出颜色统一的图像;(2)统一化处理后对东巴经书的图像进行去噪处理;3)对去噪后的数字图像信息进行笔划特征突出化处理,增强目标文字与背景的对比度:通过图像灰度值与阈值的判定实现笔划特征突出化处理,将背景变为白色,文字变为黑色,则处理后的图像灰度值Mt(a,b)为:
[0006]
[0007] 式中,M(a,b)表示原图像中位于(a,b)处的灰度值;λ为阈值;当图像灰度值等于0时表示白色即背景色,等于255时表示黑色即文字色;4)对特征突出化处理后的数字图像信息进行轮廓检测:对东巴经书的轮廓检测基于灰度值的跳变,将跳变点连接成曲线段即实现轮廓检测;5)对轮廓检测后的数字图像信息进行尺寸统一化处理,完成东巴象形文的数字化获取与图像处理:(1)根据水平方向投影的原理,映射出每一行的上下边缘,实现行切分;(2)根据垂直方向投影的原理,映射出每个文字的左右边缘,分离出单个东巴象形文字,实现列切分;(3)切分后进行尺寸统一处理。
[0008] 所述步骤1)中,所述图像采集压缩方法如下:(1)将一张待采集图像信息的东巴经书分成N个互不重叠的值域块Ei,且这些值域块Ei正好覆盖整个待采集图像,同时将待采集图像按预先设定的步长分成M个尺寸较大并可互相重叠的定义域块Fi;(2)对每个值域块Ei,从所有定义域块中通过旋转矩阵Bi寻找一个最佳匹配的定义域块Fi,使该定义域块Fi通过旋转矩阵Bi变换后近似于Ei:
[0009]
[0010] 式中, 为旋转矩阵Bi, 是一个使Fi更趋近于Ei的向量, 为Fi的向量;(3)利用旋转矩阵Bi对N个定义域块Fi进行变换,变换一次称为一次迭代,迭代10次左右,图像稳定下来,趋于迭代函数系统的吸引子,减少数据量的图像采集完成。
[0011] 所述步骤2)中,所述东巴经书的图像进行去噪处理过程如下:(a)定义包含噪声的图像信号f(t)=s(t)+n(t),其中s(t)为原始信号;n(t)是均值为零、方差为σ2宽平稳加性高斯白噪声,即服从N(0,σ2);(b)对图像进行分解,得到系数Wf(j,k):对一维图像信号f(t)进行离散采样,得到N点离散信号f(n),n=0,1,2,...,N-1,则系数Wf(j,k)为:
[0012]
[0013] 式中,ψ()是一平方可积函数,j代表尺度因子,k代表平移因子;(c)构造阈值函数,得到估计系数
[0014]
[0015] 式中ω=Wf(j,k),T为阈值,μ(ω)即为要求的估计系数 (d)对估计系数利用逆变换进行重构,得到新的图像信号,完成去噪输出图像。
[0016] 所述步骤3)中,所述阈值λ采用微分值来决定,将阈值λ选取在微分直方图中波谷位置处:选取一张东巴经书,由下式得到位于(a,b)处的微分值,构造其微分直方图,微分直方图的横坐标为(a,b)处的灰度值,微分直方图的纵坐标为(a,b)处的微分值:
[0017]
[0018] a-1≤l≤a+1 l≠a;b-1≤l≤b+1 m≠b;
[0019] 式中,M(a,b)表示原图像中位于(a,b)处的灰度值,D(a,b)为位于(a,b)处的微分值。
[0020] 所述步骤4)中,所述轮廓检测方法如下:
[0021] 图像采用二元函数v(x,y)表示,取 u(x,y)为二元平滑函数,σ为标准差,记
[0022]
[0023]
[0024] 记复数变换函数 带入公式(1),得到 则:
[0025]
[0026]
[0027] 进行二维卷积型复数变换,记为 由卷积的性质得
[0028]
[0029] 取s=2-j,得
[0030]
[0031] 将梯度grad[]取得极值点(x1,y1),(x2,y2),...,(xn,yn),并将极值点连接成曲线,完成轮廓检测;连接原则是:邻近的点相连;灰度相近的点相连;走向与该点梯度垂直。
[0032] 所述步骤5)(3)中,所述尺寸统一处理过程如下:(a)计算由行切分和列切分后形成的外接矩形,将外接矩形的左上角标记为(xmin,ymin),右下角坐标标记为(xmax,ymax),中心点标记为(xc,yc),令xmin,ymin分别为左上角横坐标、纵坐标最小值点,xmax,ymax分别表示右下角横坐标、纵坐标最大值点;
[0033]
[0034] (b)定义外接矩形大小为w×w,令w=64,将外接矩形的中心点平移到统一化后的矩形中心 平移后外接矩形所有点的横坐标x1、纵坐标y1为:
[0035]
[0036] (c)分别计算外接矩形长、宽方向的缩放比例ratiox、ratioy,两缩放比例的最小值定义为整个外接矩形的缩放比例ratio:
[0037]
[0038]
[0039] ratio=min(ratiox,tatioy)
[0040] (d)统一化后的外接矩形所有点的新坐标(x′,y′)为:x′=x1×ratio,y′=y1×ratio。
[0041] 本发明由于采取以上技术方案,其具有以下优点:1、本发明针对模糊经书的特点,采取数据量压缩的方法,提取出需要的数据。并进行经书的去噪处理,将彩色东巴经书进行颜色统一化处理后进行去噪研究,得到清晰平滑的图像,使得模糊的纸质东巴象形文便于文化的数字化传承与保护。2、本发明利用灰度值将东巴经书中的文字笔划进行突出化处理与轮廓检测,并对东巴经书进行统一化处理,得到统一尺寸的东巴象形文。这种方法使得模糊的纸质经书能够得到清晰化的数字化提取,对文字识别具有重要作用,得到的图片清晰,方便操作。本发明可以广泛在文字图像处理领域中应用。

附图说明

[0042] 图1是本发明的微分直方图;
[0043] 图2是本发明经书笔画特征突出化处理后的东巴经典古籍图像示意图;
[0044] 图3是本发明对东巴经书进行轮廓检测示意图;图3(a)是用于轮廓检测的原图形,图3(b)是进行轮廓检测后的东巴经书;
[0045] 图4是本发明统一化后的东巴象形文示意图。

具体实施方式

[0046] 下面结合附图和实施例对本发明进行详细的描述。
[0047] 本发明提供一种面向东巴象形文的数字化获取与图像处理方法,为面向东巴文化的传承与保护问题的手写体东巴象形文字的图像处理方法,其包括以下步骤:
[0048] 1)对东巴经典古籍经书进行数字图像采集:采用CCD数字图像采集系统对经书进行图像采集,并将采集到的数据量进行压缩,以减少描述数字图像需要的数据量。
[0049] 由于东巴经典古籍具有年代久远,纸质模糊,且字体不规则等特点,采集到的图像会出现一定程度的多余数据量,因此,需要进行数据量压缩,减少描述数字图像需要的数据量。其中,具体的图像采集压缩方法如下:
[0050] (1)将一张待采集图像信息的东巴经书分成N个互不重叠的值域块Ei,且这些值域块Ei正好覆盖整个待采集图像,同时将待采集图像按预先设定的步长分成M个尺寸较大并可互相重叠的定义域块Fi;
[0051] (2)对每个值域块Ei,从所有定义域块中通过旋转矩阵Bi寻找一个最佳匹配的定义域块Fi,使该定义域块Fi通过旋转矩阵Bi变换后近似于Ei,即Bi(F)≈Ei:
[0052]
[0053] 式中, 为旋转矩阵Bi, 是一个使Fi更趋近于Ei的向量, 为Fi的向量。
[0054] 其中,旋转矩阵Bi采用以下几种形式:
[0055] (a)旋转0°时,
[0056] (b)绕X轴方向旋转180°时,
[0057] (c)绕Y轴方向旋转180°时,
[0058] (d)旋转180°进行水平反向旋转时,
[0059] (e)旋转至与y=x直线对称时,
[0060] (f)逆时针90°旋转时,
[0061] (g)逆时针270°旋转时,
[0062] (h)旋转至与y=-x直线对称,
[0063] (3)利用旋转矩阵Bi对N个定义域块Fi进行变换,变换一次称为一次迭代,迭代10次左右,图像稳定下来,趋于迭代函数系统的吸引子,减少数据量的图像采集完成。
[0064] 2)对采集到的数字图像进行去噪,具体步骤如下:
[0065] (1)将采集到的彩色图像颜色进行统一化处理,将三维彩色数值转化为一维数值:定义三原色红、绿、蓝分别为A、B、C,为了使颜色统一化,应使A=B=C,采用加权平均值的方法定义三个系数α、β、γ,输出一位数值D为:
[0066] D=αA+βB+γC   (2)
[0067] 由于人眼对绿色最为敏感,对蓝色敏感度最低,故取值时应使β>α>γ,经过实验和推导验证,当α=0.299,β=0.587,γ=0.114时,能得到最合理的图像,即数值D:
[0068] D=0.299A+0.587B+0.114C
[0069] 取A=B=C=D/3,即可输出颜色统一的图像,如图1所示。
[0070] (2)统一化处理后对东巴经书的图像进行去噪处理:将包含噪声的图像信号在各尺度上进行分解得到系数。通过设定一个阈值T,对于绝对值小于T的系数,认为是第一类系数,将其置为零;而对于绝对值大于T的系数,则认为是第二类系数,按一个固定量向0收缩,从而得到估计系数 最后将处理后获得的估计系数利用逆变换进行信号重构,恢复出有效的信号,完成去噪。具体过程如下:
[0071] (a)定义包含噪声的图像信号f(t)为:
[0072] f(t)=s(t)+n(t)   (3)
[0073] 其中s(t)为原始信号;n(t)是均值为零、方差为σ2宽平稳加性高斯白噪声,即服从N(0,σ2)。
[0074] (b)对图像进行分解,得到系数Wf(j,k):对一维图像信号f(t)进行离散采样,得到N点离散信号f(n),n=0,1,2,...,N-1,则系数Wf(j,k)为:
[0075]
[0076] 式中,ψ()是一平方可积函数,j代表尺度因子,k代表平移因子;
[0077] 借助双尺度方程,得到实现算法
[0078] Sf(j+1,k)=Sf(j,k)*h(j,k)   (5)
[0079] Wf(j+1,k)=Sf(j,k)*g(j,k)
[0080] 其中h为低通滤波器,g为高通滤波器,得到变换重构公式为
[0081]
[0082] 其中 为对应的重构低通滤波器, 为对应的重构高通滤波器,Sf(j,k)为尺度系数,Wf(j,k)为待求的系数。
[0083] (c)构造阈值函数,得到估计系数
[0084]
[0085] 式中ω=Wf(j,k),T为阈值,μ(ω)即为要求的估计系数 选择不同阈值进行试验,使噪声与图像信号之间是由平滑弧线过渡。
[0086] (d)对估计系数 利用逆变换进行重构,得到新的图像信号,完成去噪输出图像。
[0087] 3)对去噪后的数字图像信息进行笔划特征突出化处理,增强目标文字与背景的对比度(如图2所示):由于在东巴经书文字识别过程中,需要关注的只是象形文的笔划特征,因此,要增强目标文字与背景的对比度。
[0088] 通过图像灰度值与阈值的判定实现笔划特征突出化处理,将背景变为白色,文字变为黑色,则处理后的图像灰度值Mt(a,b)为:
[0089]
[0090] 式中,M(a,b)表示原图像中位于(a,b)处的灰度值;λ为阈值;当图像灰度值等于0时表示白色即背景色,等于255时表示黑色即文字色。
[0091] 其中,采用微分值来决定阈值λ,一般将阈值λ选取在微分直方图中波谷位置处。选取一张东巴经书,由式(9)得到位于(a,b)处的微分值,构造其微分直方图,微分直方图的横坐标为(a,b)处的灰度值,微分直方图的纵坐标为(a,b)处的微分值。
[0092]
[0093] a-1≤l≤a+1 l≠a;b-1≤l≤b+1 m≠b;
[0094] 式中,M(a,b)表示原图像中位于(a,b)处的灰度值,D(a,b)为位于(a,b)处的微分值。
[0095] 如图1所示,一个峰值对应象形文字笔划部分,另一个峰值对应背景部分,将阈值λ取在两个峰值之间的波谷处。
[0096] 4)如图3所示,对特征突出化处理后的数字图像信息进行轮廓检测:对东巴经书的轮廓检测基于灰度值的跳变,将跳变点连接成曲线段即可实现轮廓检测。
[0097] 如图3(a)所示,图像采用二元函数v(x,y)表示(以下用v表示),取u(x,y)为二元平滑函数,σ为标准差,记
[0098]
[0099]
[0100] 记复数变换函数 带入公式(10),得到 与 则:
[0101]
[0102]
[0103] 进行二维卷积型复数变换,记为 由卷积的性质可得
[0104]
[0105] 取s=2-j,可得
[0106]
[0107] 将梯度grad[]取得极值点(x1,y1),(x2,y2),...,(xn,yn),并将极值点连接成曲线,完成轮廓检测(如图3(b)所示)。其中连接原则是:邻近的点相连;灰度相近的点相连;走向与该点梯度垂直。
[0108] 5)对轮廓检测后的数字图像信息进行尺寸统一化处理,完成东巴象形文的数字化获取与图像处理,其步骤如下:
[0109] (1)根据水平方向投影的原理,映射出每一行的上下边缘,实现行切分。
[0110] (2)根据垂直方向投影的原理,映射出每个文字的左右边缘,分离出单个东巴象形文字,实现列切分。
[0111] (3)切分后进行尺寸统一处理,步骤如下:
[0112] (a)计算由行切分和列切分后形成的外接矩形,将外接矩形的左上角标记为(xmin,ymin),右下角坐标标记为(xmax,ymax),中心点标记为(xc,yc),令xmin,ymin分别为左上角横坐标、纵坐标最小值点,xmax,ymax分别表示右下角横坐标、纵坐标最大值点;
[0113]
[0114] (b)定义外接矩形大小为w×w,令w=64,将外接矩形的中心点平移到统一化后的矩形中心 平移后外接矩形所有点的横坐标x1、纵坐标y1为:
[0115]
[0116] (c)分别计算外接矩形长、宽方向的缩放比例ratiox、ratioy,两缩放比例的最小值定义为整个外接矩形的缩放比例ratio:
[0117]
[0118]
[0119] ratio=min(ratiox,tatioy)
[0120] (d)统一化后的外接矩形所有点的新坐标(x′,y′)为:
[0121] x′=x1×ratio
[0122] y′=y1×ratio,   (17)
[0123] 实现数字图像信息尺寸统一化,统一化后的文字如图4所示。
[0124] 上述各实施例仅用于说明本发明,各步骤都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别步骤进行的改进和等同变换,均不应排除在本发明的保护范围之外。