对搜索图像的过滤方法转让专利

申请号 : CN201010133636.5

文献号 : CN101763440B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张瑞杨小康黄俊

申请人 : 上海交通大学

摘要 :

一种图像处理技术领域的对搜索图像的过滤方法,包括以下步骤:对每张原始图像进行多尺度处理;得到每张原始图像在每个尺度下的颜色特征、形状特征、纹理特征和GIST特征;收集若干图像建立训练图像数据库,对每个训练图像的每个尺度下的颜色特征、形状特征、纹理特征和GIST特征分别进行模型训练处理,得到若干个训练模型;得到每张原始图像的融合特征分值;按照原始图像融合特征分值从大到小的顺序对原始图像进行重新排列,并删除融合特征分值小于阈值T的原始图像。本发明提高了对网页图像搜索结果过滤的性能,能有效去除质量较差、含有噪声、分辨率较低的图像,计算复杂度低、通用性强。

权利要求 :

1.一种对搜索图像的过滤方法,其特征在于,包括以下步骤:

第一步,对搜索得到的每张原始图像进行多尺度处理,使每张原始图像成为若干张预处理图像;

第二步,对每张预处理图像分别进行颜色特征提取、形状特征提取、纹理特征提取和GIST特征提取处理,得到每张预处理图像的颜色特征、形状特征、纹理特征和GIST特征;

第三步,收集若干图像建立训练图像数据库,对训练图像数据库中每张训练图像分别进行多尺度处理、颜色特征提取、形状特征提取、纹理特征提取和GIST特征提取处理,进而对每个训练图像的每个尺度下的颜色特征、形状特征、纹理特征和GIST特征分别进行模型训练处理,得到若干个训练模型;

第四步,将每张原始图像每个尺度下的颜色特征、形状特征、纹理特征和GIST特征分别输入到对应的训练模型中,得到每张原始图像的若干特征分值,并将每张原始图像的所有特征分值进行特征分值后融合,得到每张原始图像的融合特征分值;

第五步,按照原始图像融合特征分值从大到小的顺序对原始图像进行重新排列,并删除融合特征分值小于阈值T的原始图像;

所述的阈值T,具体是:

其中:a是原始图像中最大的融合特征分值,b是原始图像中最小的融合特征分值。

2.根据权利要求1所述的对搜索图像的过滤方法,其特征是,所述的多尺度处理采用高斯金字塔方法,具体是:其中:w(m,n)为高斯核函数,M和N为图像的高和宽的像素值,k≥1,I0(x,y)为原始图像中(x,y)点的像素值,Ik(x,y)为第k层金字塔图像中(x,y)点的像素值。

3.根据权利要求1所述的对搜索图像的过滤方法,其特征是,所述的纹理特征是局部二值模式特征。

4.根据权利要求1所述的对搜索图像的过滤方法,其特征是,所述的建立训练图像数据库,具体是:通过网络下载若干张图像,由人工从中选择S张正样本图像和S张负样本图像。

5.根据权利要求1所述的对搜索图像的过滤方法,其特征是,所述的模型训练处理是采用SVM的方法实现的。

6.根据权利要求1所述的对搜索图像的过滤方法,其特征是,所述的特征分值后融合是采用线性加权的方法使每张原始图像的所有特征分值融合为一个融合特征分值,其中的线性加权系数是模型训练处理中得到的训练模型的准确率。

说明书 :

对搜索图像的过滤方法

技术领域

[0001] 本发明涉及的是一种图像处理技术领域的方法,具体是一种对搜索图像的过滤方法。

背景技术

[0002] 网页图像搜索引擎是因特网上非常有用的搜索工具,然而这些搜索引擎返回的结果往往不能满足用户的需要。当在Google或Yahoo图像搜索引擎中输入需查询的关键词时,通常只有少部分返回的结果能让用户满意,有的甚至与查询的关键词毫无关系。因为这些搜索引擎通过分析网页上图像附近的文字、图像标题以及许多其它元素来确定图像的内容,而不是直接由图片本身的视觉内容信息来得到检索的结果。其返回的结果是基于文本信息不是基于图像本身,这就降低了用户对检索结果的满意度,毕竟用户需要的结果是图像而不是文字。既然涉及的是用户对图像结果的需求,必将考虑人眼的视觉特性,使得到的搜索结果在视觉上更让用户满意。
[0003] 经对现有技术文献的检索发现,Lin等人在International Conference on WebIntelligence,pp.242-248,Oct.2003(网页智能国际会议,242-248页,2003年10月)上发表的文章“Web image retrieval re-ranking with relevance model(基于相关模型的网页图像检索重排序)”中提出的方法是基于图像所在网页的文本内容来对搜索结果的内容进行重排序。该方法与Google或Yahoo图像搜索引擎原理相似之处都只是利用了相关网页的文本信息,而没有考虑图像本身的视觉内容信息,且没有考虑将质量差、分辨率低的图像滤除。
[0004] 又经检索发现,Fergus等人在European Conference on Computer Vision,pp.242256,May.2004(欧洲计算机视觉会议,242-256页,2004年5月)上发表的文章“A visual categoryfilter for Google images(一种对Google图像的视觉类过滤器)”中提出的方法是对Google图像搜索引擎返回的结果进行过滤。虽然该方法考虑了图像的视觉内容信息,但针对每个查询的关键词,都需要训练相对应的一个模型,计算代价巨大,不适合网络规模的应用。此外,该方法也没有从人眼的视觉特性出发来对图像进行过滤,没有将质量差、分辨率低的图像滤除。

发明内容

[0005] 本发明针对现有技术存在的上述不足,提出一种对搜索图像的过滤方法。本发明不仅考虑了图像的视觉内容信息,提高了对网页图像搜索结果过滤的性能,同时考虑了人眼的视觉特性,能有效去除质量较差、含有噪声、分辨率较低的图像,保留了清晰、显著的图像;此外,本发明计算复杂度低、通用性强,无需针对每个查询关键词都训练相应的模型。
[0006] 本发明是通过以下技术方案实现的,本发明包括以下步骤:
[0007] 第一步,对搜索得到的每张原始图像进行多尺度处理,使每张原始图像成为若干张预处理图像。
[0008] 所述的多尺度处理采用高斯金字塔方法,具体是:
[0009]
[0010] 其中:w(m,n)为高斯核函数,M和N为图像的高和宽的像素值,k≥1,I0(x,y)为原始图像中(x,y)点的像素值,Ik(x,y)为第k层金字塔图像中(x,y)点的像素值。
[0011] 第二步,对每张预处理图像分别进行颜色特征提取、形状特征提取、纹理特征提取和GIST特征提取处理,得到每张预处理图像的颜色特征、形状特征、纹理特征和GIST特征。
[0012] 所述的颜色特征提取,具体是:将每张预处理图像划分成n1×n1的网格,得到* * * 2Lab 空间下每个网格的三个颜色通道下的三个矩,即得到9n1 维特征向量。
[0013] 所述的形状特征提取,具体是:利用Canny算子检测图像的边缘,再利用Sobel算子得到图像边缘的方向,在整个空间范围内以n2度为间隔进行量化,进行直方图统计,生成维的向量,此外引入一维非边缘像素的数目,共得到 维的边缘方向直方图。
[0014] 所述的纹理特征是局部二值模式(LBP)特征。
[0015] 所述的GIST特征提取,具体是:将每张预处理图像分为n3×n3的网格,分别将每个网格分解到亮度、颜色和方向三个特征通道上,将亮度和颜色特征通道进行n4层金字塔表示,通过中心-边缘操作生成每个特征通道上的n5个特征图;方向通道对亮度金字塔的n6层进行Gabor滤波得到方向金字塔,n7个方向子通道共有n6×n7个特征图,最后将每个网格的特征进行特征融合,得到每张预处理图像的GIST特征。
[0016] 第三步,收集若干图像建立训练图像数据库,对训练图像数据库中每张训练图像分别进行多尺度处理、颜色特征提取、形状特征提取、纹理特征提取和GIST特征提取处理,进而对每个训练图像的每个尺度下的颜色特征、形状特征、纹理特征和GIST特征分别进行模型训练处理,得到若干个训练模型。
[0017] 所述的建立训练图像数据库,具体是:通过网络下载若干张图像,由人工从中选择S张正样本图像和S张负样本图像。
[0018] 所述的正样本图像是显著图像;所述的负样本图像是非显著图像。
[0019] 所述的模型训练处理是采用SVM的方法实现的。
[0020] 第四步,将每张原始图像每个尺度下的颜色特征、形状特征、纹理特征和GIST特征分别输入到对应的训练模型中,得到每张原始图像的若干特征分值,并将每张原始图像的所有特征分值进行特征分值后融合,得到每张原始图像的融合特征分值。
[0021] 所述的特征分值后融合是采用线性加权的方法使每张原始图像的所有特征分值融合为一个融合特征分值,其中的线性加权系数是模型训练处理中得到的训练模型的准确率。
[0022] 第五步,按照原始图像融合特征分值从大到小的顺序对原始图像进行重新排列,并删除融合特征分值小于阈值T的原始图像。
[0023] 所述的阈值T,具体是:
[0024]
[0025] 其中:a是原始图像中最大的融合特征分值,b是原始图像中最小的融合特征分值。
[0026] 与现有技术相比,本发明的有益效果是:不仅考虑了图像的视觉内容信息,提高了对网页图像搜索结果过滤的性能,同时考虑了人眼的视觉特性,能有效去除质量较差、含有噪声、分辨率较低的图像,保留了清晰、显著的图像;此外,本发明计算复杂度低、通用性强,无需针对每个查询关键词都训练相应的模型。

附图说明

[0027] 图1是实施例的原始图像;
[0028] 图2是实施例的过滤后的图像。

具体实施方式

[0029] 下面结合附图对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和过程,但本发明的保护范围不限于下述的实施例。
[0030] 实施例
[0031] 本实施例是在Google图像搜索引擎中,输入“airplane”返回的前15幅图的结果如图1所示,对这15幅图像进行过滤的具体步骤如下:
[0032] 第一步,对搜索得到的每张原始图像进行多尺度处理,使每张原始图像成为若干张预处理图像。
[0033] 所述的多尺度处理采用高斯金字塔方法,具体是:
[0034]
[0035] 其中:w(m,n)为高斯核函数,M和N为图像的高和宽的像素值,k≥1,I0(x,y)为原始图像中(x,y)点的像素值,Ik(x,y)为第k层金字塔图像中(x,y)点的像素值。
[0036] 本实施例首先将每张原始图像统一缩放到分辨率为512×512,然后采用高斯金字塔法下采样两级,由此得到每张原始图像三个尺度大小的图像,其分辨率分别为:512×512、256×256、128×128。
[0037] 第二步,对每张预处理图像分别进行颜色特征提取、形状特征提取、纹理特征提取和GIST特征提取处理,得到每张预处理图像的颜色特征、形状特征、纹理特征和GIST特征。
[0038] 所述的颜色特征提取,具体是:将每张预处理图像划分成n1×n1的网格,得到* * * 2Lab 空间下每个网格的三个颜色通道下的三个矩,即得到9n1 维特征向量。
[0039] 所述的颜色通道下的三个矩可以非常方便和有效地来描述一幅图的全局颜色分布,颜色特征计算简单、性质稳定,对于旋转、平移、尺度变化都不敏感,从而具有较高的鲁棒性,其具体是:
[0040]
[0041]
[0042]
[0043] 其中:μ为一阶矩,σ为二阶矩,s为三阶矩,pi,j是图像中位于坐标(i,j)处的像素的颜色分量值,M和N为图像的高和宽的像素值。
[0044] 本实施例中,颜色矩(CM)特征在L*a*b*空间下将图像划分成5×5的网格,对每个网格分别计算三个颜色通道下的三个矩,最后拼接成一个225维的特征向量。
[0045] 所述的形状特征提取,具体是:利用Canny算子检测图像的边缘,再利用Sobel算子得到图像边缘的方向,在整个空间范围内以5°为间隔进行量化,进行直方图统计,生成72维的向量,此外引入一维非边缘像素的数目,共得到73维的边缘方向直方图,其具体是:
[0046]
[0047]
[0048] 其中:H(i)是图像中边缘方向角度在(i-1)×5°与i×5°之间的像素的数量,H(73)则代表图像中所有不位于边缘处的像素的数量,Nedge是图像中所有的边缘像素的总数量,N总是图像中的全部像素的数量。
[0049] 所述的纹理特征是局部二值模式特征,本实施例中首先根据图像中每个像素与其局部邻域点在亮度上的二值序关系,然后对二值序关系进行编码形成局部二值模式,最后采用多区域直方图作为图像的特征描述,即:将图像分为3*3=9块子图像,每一块子图像用一个59维(58种均匀模式+1种非均匀模式)的直方图描述,每一维代表一种表示边缘或角点的特定二值序关系,最终提取9*59=531维特征向量作为图像的纹理特征。
[0050] 所述的GIST特征提取,具体是:将每张预处理图像分为4×4的网格,分别将每个网格分解到亮度、颜色和方向三个特征通道上,亮度和颜色通道进行8层金字塔表示,对于亮度和颜色的每一个子通道,在2-5,2-6,3-6,3-7,4-7和4-8级之间进行中心边缘操作,得到6个特征图,亮度和颜色通道共3个子通道,即18个特征图;方向通道对亮度金字塔的1~4层进行Gabor滤波得到方向金字塔,4个方向子通道共有16个特征图,所有每个网格总的特征图个数为1*6+2*6+4*4=34维,每张预处理图像GIST特征的维数是34*16=544维。
[0051] 第三步,收集若干图像建立训练图像数据库,对训练图像数据库中每张训练图像分别进行多尺度处理、颜色特征提取、形状特征提取、纹理特征提取和GIST特征提取处理,进而对每个训练图像的每个尺度下的颜色特征、形状特征、纹理特征和GIST特征分别进行模型训练处理,得到若干个训练模型。
[0052] 所述的建立训练图像数据库,具体是:从网络中下载30000幅图像,由人工从中选择3000张正样本(即显著图)和3000张负样本(即非显著图)。
[0053] 本步骤中的多尺度处理、颜色特征提取、形状特征提取、纹理特征提取和GIST特征提取处理与第一步和第二步中的方法相同。
[0054] 所述的模型训练处理是采用SVM的方法实现的,本实施例共得到每张训练图像三个尺度下的各四种特征,即12组特征数据,所以训练生成12个模型。
[0055] 第四步,将每张原始图像每个尺度下的颜色特征、形状特征、纹理特征和GIST特征分别输入到对应的训练模型中,得到每张原始图像的12个特征分值,并将每张原始图像的所有特征分值进行特征分值后融合,得到每张原始图像的融合特征分值。
[0056] 所述的特征分值后融合是采用线性加权的方法使每张原始图像的12特征分值融合为一个融合特征分值,其中的线性加权系数是模型训练处理中得到的训练模型的准确率。
[0057] 第五步,按照原始图像融合特征分值从大到小的顺序对原始图像进行重新排列,并删除融合特征分值小于阈值T的原始图像。
[0058] 所述的阈值T,具体是:
[0059]
[0060] 其中:a是原始图像中最大的融合特征分值,b是原始图像中最小的融合特征分值。
[0061] 本实施例对图1所示的15幅图像进行过滤后,得到的图像如图2所示,比较图1和图2可知,主体物体清晰显著且前后背景对比强烈的图像放在了过滤结果的前面,而质量较差、含有噪声、分辨率较低的图像,即不满足搜索结果的图像则排在了过滤结果的后面或者被删除。
[0062] 采用本实施例方法对通过互联网图像搜索引擎下载的20个语义概念的前200幅图像进行了过滤处理,对得到的过滤结果中的前40幅图像采用平均准确率指标(MAP)进行统计,其平均准确率高达68.4%,而采用现有方法得到的平均准确率仅为55.2%,其性能提高了23.9%。