表示或者检索图象中的对象的方法及其装置、计算机程序、计算机系统以及计算机可读存储媒体转让专利

申请号 : CN200610143379.7

文献号 : CN1940934B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : M·Z·鲍伯

申请人 : 三菱电机株式会社

摘要 :

一种通过处理与静止图象或者视频图象相对应的信号,来表示在图象中所出现的对象的方法,具有:导出对象的轮廓的CSS空间的峰值的步骤、对于上述峰值使用非线性变换而得到轮廓的显示的步骤。

权利要求 :

1.一种通过处理对应于图像的信号来表示出现于图像或序列图像中的对象的方法,所述方法包括:基于所述信号导出所述对象的轮廓的多个峰在曲率比例空间中的多个坐标值,并对所述坐标值应用变换以获得所述轮廓的表示,其中,所述变换的形式为z’=a*pow(z,b)+c的形式,a、b、c是常数,pow(z,b)表示zb。

2.如权利要求1所述的方法,包括在所述变换之后从所述坐标值导出所述对象的描述符。

3.一种通过处理对应于图像的信号来检索图像或序列图像中的对象的方法,所述方法包括:以二维轮廓的形式输入询问;

使用权利要求2所述方法来导出所述轮廓的询问描述符;

获得使用权利要求2所述方法导出的被存储图像中的对象的描述符;

把所述询问描述符与所存储的对象的各个描述符进行比较;以及选择并显示至少一个结果,该结果对应于包含一个对象的被存储图像,对于该结果,所述比较指出所述询问描述符与相应的所存储对象的描述符之间的相似度。

4.一种用于导出图像或序列图像中的对象的表示的控制设备,该表示是一个对象描述符,所述控制设备包括:基于所述信号从曲率比例空间中的所述对象的轮廓的多个峰导出多个坐标值单元;以及对所述坐标值应用变换以获得所述轮廓的表示的单元;

其中,所述变换的形式为z’=a*pow(z,b)+c的形式,a、b、c是常数,pow(z,b)表示zb。

5.一种用于导出图像或序列图像中的对象的表示的控制设备,该表示是一个对象描述符,所述控制设备包括:以二维轮廓的形式输入询问的单元;

使用权利要求2所述方法来导出所述轮廓的询问描述符的单元;

获得使用权利要求2所述方法导出的被存储图像中的对象的描述符的单元;

把所述询问描述符与所存储的对象的各个描述符进行比较的单元;以及选择并显示至少一个结果的单元,该结果对应于包含一个对象的被存储图像,对于该结果,所述比较指出所述询问描述符与相应的所存储对象的描述符之间的相似度。

6.一种用于导出出现在图像或序列图像中的对象的表示、或用于搜索图像或序列图像中的对象的装置,所述装置包括:基于所述信号从曲率比例空间中的所述对象的轮廓的多个峰导出多个坐标值的单元;以及对所述坐标值应用变换以获得所述轮廓的表示的单元;

其中,所述变换的形式为z’=a*pow(z,b)+c的形式,a、b、c是常数,pow(z,b)表示zb。

7.一种用于导出出现在图像或序列图像中的对象的表示、或用于搜索图像或序列图像中的对象的装置,所述装置包括:以二维轮廓的形式输入询问的单元;

使用权利要求2所述方法来导出所述轮廓的询问描述符的单元;

获得使用权利要求2所述方法导出的被存储图像中的对象的描述符的单元;

把所述询问描述符与所存储的对象的各个描述符进行比较的单元;以及选择并显示至少一个结果的单元,该结果对应于包含一个对象的被存储图像,对于该结果,所述比较指出所述询问描述符与相应的所存储对象的描述符之间的相似度。

8.一种用于导出出现在图像或序列图像中的对象的表示、或用于搜索图像或序列图像中的对象的计算机系统,该计算机系统包括:基于所述信号从曲率比例空间中的所述对象的轮廓的多个峰导出多个坐标值的单元;以及对所述坐标值应用变换以获得所述轮廓的表示的单元;

其中,所述变换的形式为z’=a*pow(z,b)+c的形式,a、b、c是常数,pow(z ,b)表示zb。

9.一种用于导出出现在图像或序列图像中的对象的表示、或用于搜索图像或序列图像中的对象的计算机系统,该计算机系统包括:以二维轮廓的形式输入询问的单元;

使用权利要求2所述方法来导出所述轮廓的询问描述符的单元;

获得使用权利要求2所述方法导出的被存储图像中的对象的描述符的单元;

把所述询问描述符与所存储的对象的各个描述符进行比较的单元;以及选择并显示至少一个结果的单元,该结果对应于包含一个对象的被存储图像,对于该结果,所述比较指出所述询问描述符与相应的所存储对象的描述符之间的相似度。

说明书 :

技术领域

本发明涉及以检索为目的的,在多媒体数据库中所保存的图象这样的静止图象或者视频图象中所出现的对象的表示,特别是涉及使用这样的表示来检索对象的方法及装置。

背景技术

在视频图书馆的图象这样的应用中,希望进行在视频图象或者静止图象中出现的对象的轮廓和形状或者对象的一部分的有效的表示和保存。在用于进行形状基础的索引附加和检索的公知的方法中,使用曲率比例空间(CSS)表示。对于CSS的详细内容,可以参见论文「通过曲率比例空间的可靠而有效的形状索引」(英国机器图像会议会报pp.53~62,爱丁堡,英国,1996年)以及「利用曲率比例空间的形状内容检索图象数据库」(关于智能数据库的IEE专门家会议会报,伦敦,1996年)。两篇论文由Mokhtarian,S.Abbasi以及J.Kittler所作,其内容在本说明书中作为参考文献。
在CSS显示中,为了求出对象的轮廓,而使用曲率函数,从轮廓上的任意点开始进行表示。通过进行对形状的平滑化的一系列变形,而一边展开轮廓的形状,一边研究曲率函数。更具体地说,计算与高斯过滤器的族一起卷积的曲率函数的导数的零交叉。作为曲率比例空间,如公知的那样,零交叉被描绘在曲线图上。但是,x轴为曲线的标准化的弧长,y轴是展开参数,特别是,是使用过滤器的参数。曲线图上的描绘形成表示轮廓的特征的环形。成为对象的轮廓的各个凸状或凹状的部分与CSS图象中的环形相对应。利用在CSS图象中最突出的环形的峰的纵坐标作为轮廓的表示。
为了检索与输入对象的形状相一致的,数据库中的保存图象的对象,而计算输入形状的CSS显示。通过使用匹配算法来比较各个CSS图象的峰的位置和高度,来判定输入形状与保存形状之间的类似度。
希望即使在比例的变化、旋转、任何轮廓的变形和投影变形这样的制图状态的变化下,也能得到不变的对象的轮廓表示。而且,希望在宽的等级的范围中,用对形状的变动不敏感的方法来表示形状。例如,利用使对象“车”的表示不随该车的型号和制造厂而变化所抽出的特征表示,就能容易地检索表示所有的车族的形状。
因此,本发明提供通过处理与图象相对应的信号来表现在静止图象或者视频图象中所出现的对象的方法,该方法具有导出表示对象的轮廓上出现的特征的多个数值的步骤和对上述值使用比例或者非线性变换而得到轮廓的表示的步骤。最好,该变换是非线性变换。最好,使用CSS显示,而且,最好,变化表示与展开参数相对应的峰的高度的值。
如本发明那样,特别是通过对CSS值使用变换,来改善对象检索的性能。

发明内容

本发明所涉及的第1方面所记载的表示图象中的对象的方法,通过处理与静止图象或者视频图象相对应的信号,来表示在图象中所出现的对象,其特征在于,具有以下步骤:导出表示对象的轮廓上出现的特征的多个数值;对值使用比例变换或者非线性变换来得到轮廓的表示。
本发明所涉及的第2方面所记载的表示图象中的对象的方法,数值反映轮廓上的弯曲点。
本发明所涉及的第3方面所记载的表示图象中的对象的方法,具有以下步骤:通过使用平滑参数来多段地对轮廓进行平滑,来导出轮廓的曲率比例空间表示,其结果,得到多个轮廓曲线;使用表示各个轮廓曲线上的特征点的值来导出表示原来轮廓的特征的曲线;选择表示特征的曲线的峰的纵坐标,变换用于对峰的纵坐标值。
本发明所涉及的第4方面所记载的表示图象中的对象的方法,特征点与各轮廓曲线的曲率相关。
本发明所涉及的第5方面所记载的表示图象中的对象的方法,特征点与轮廓曲线的曲率的最大值和最小值相关。
本发明所涉及的第6方面所记载的表示图象中的对象的方法,通过处理与静止图象或者视频图象相对应的信号,来表示在图象中出现的对象,其特征在于,具有以下步骤:导出对象的轮廓的曲率比例空间表示;在曲率比例空间中选择峰的纵坐标;对峰的纵坐标值使用不明显的变换,来得到对象的轮廓的表示。
本发明所涉及的第7方面所记载的表示图象中的对象的方法,变换被用于与CSS显示中的平滑参数相对应的纵坐标值。
本发明所涉及的第8方面所记载的表示图象中的对象的方法,变换被用于与沿着轮廓的弧长参数相对应的纵坐标值。
本发明所涉及的第9方面所记载的表示图象中的对象的方法,变换是比例变换。
本发明所涉及的第10方面所记载的表示图象中的对象的方法,变换是非线性变换。
本发明所涉及的第11方面所记载的表示图象中的对象的方法,变换是z’=a*pow(z,b)+c的形式,a、b、c是常数,pow(z,b)表示zb。
本发明所涉及的第12方面所记载的表示图象中的对象的方法,b大于零小于1。
本发明所涉及的第13方面所记载的表示图象中的对象的方法,b处于0.25<b≤0.75的范围内。
本发明所涉及的第14方面所记载的表示图象中的对象的方法,b=0.5。
本发明所涉及的第15方面所记载的检索图象中的对象的方法,通过处理与静止图象或者视频图象相对应的信号,来检索图象中的对象,其特征在于,具有以下步骤:以二维轮廓的形式输入询问;使用第1至10方面之一所记载的方法来导出轮廓的描述符;得到使用第1至10方面之一所记载的方法而导出的保存图象中的对象的描述符;把所保存的对象的各个描述符与询问描述符进行比较,通过比较来选择表示与包含询问与对象之间的类似度的程度所表示的对象的图象相对应的至少一个结果。
本发明所涉及的第16方面所记载的表示或者检索图象中的对象的装置,适合于执行第1至15方面任一项记载的方法。
本发明所涉及的第17方面所记载的表示或者检索图象中的对象的计算机程序,执行第1至15方面任一项记载的方法。
本发明所涉及的第18方面所记载的表示或者检索图象中的对象的计算机系统,进行编程,以便于按照第1至15方面任一项记载的方法而动作。
本发明所涉及的第19方面所记载的计算机可读存储媒体,保存能够以用于实现第1至15方面任一项记载的方法的计算机来执行的处理。
本发明所涉及的第20方面所记载的表示图象中的对象的方法,象与参照附图在本说明书中说明的内容实质上相同那样,来表示静止图象或者视频图象中的对象。
本发明所涉及的第21方面所记载的检索图象中的对象的方法,象与参照附图在本说明书中说明的内容实质上相同那样,来检索静止图象或者视频图象中的对象。
本发明所涉及的第22方面所记载的表示或者检索图象中的对象的计算机系统,与参照附图在本说明书中说明的内容实质上相同。

附图说明

图1是视频数据库系统的方框图;
图2是对象的轮廓的图;
图3是表示图2的轮廓的CSS显示的图;
图4是举例表示某个形状的表示的图;
图5是表示某个对象的形状的图;
图6是图5的形状的CSS显示的图;
图7是图5的形状所变换的表示的图;
图8是举例表示检索方法的方框图。

具体实施方式

下面参照附图来对本发明的实施例进行说明。
实施例1
图1表示进行本发明的实施例的计算机处理的视频数据库系统。在该系统中,包含:计算机形式的控制装置2、监视器形式的显示装置4、鼠标器形式的指向装置6、包含所保存的静止图象和视频图象的图象数据库8以及保存在图象数据库8中所保存的图象中出现的对象或者对象的几个部分的描述符的描述符数据库10。
表示在图象数据库的图象中出现的所关心的各个对象的形状的描述符被控制装置2所导出,被保存在描述符数据库10中。控制装置2通过执行以下说明的方法的适当的程序的控制而动作,导出描述符。
第一,对于预定的对象的轮廓,导出该轮廓的CSS显示。使用在上述论文之一中所记载的公知的方法,来进行该CSS显示。
更具体地说,该轮廓通过表示Ψ={(x(u),y(u),u∈[0,1]}所表现(其中,u是标准化的弧长参数)。
该轮廓通过使用ID高斯影响函数核g(u,σ)来进行卷积(convolve),由此,被平滑化,作为ρ的变化,研究展开(evolving)曲线的曲率零交叉。零交叉使用表示曲率的下式来确定。
k(u,σ)=Xu(u,σ)Yuu(u,σ)-Xuu(u,σ)Yuu(u,σ)(Xu(u,σ)2+Yu(u,σ)2)3/2
其中,
X(u,σ)=x(u)*g(u,σ)    Y(u,σ)=y(u)*g(u,σ)
并且,
Xu(u,σ)=x(u)*gu(u,σ)  Xuu(u,σ)=x(u)*guu(u,σ)
在上述中,*表示卷积,下标表示导数。
曲率零交叉的数量随着ρ的变化而变化,当ρ足够高时,Ψ成为零交叉的凸状的曲线。
零交叉点作为CSS图象空间被描绘在公知的曲线上。其结果,产生表示多个特征的曲线。表示该特征的曲线的峰被确定,对应的纵坐标被抽出而保存。一般,上述结果是,提供了n个坐标的对(x1,y1)、(x2,y2)、…(xn,yn)的集合(其中,n是峰的数量,xi是第i个峰的弧长的位置,yi是峰的高度)。
在本实施例中,作为高斯过滤器的近似值,使用系数(1/4,1/2,1/4)的2项过滤器,而一定程度上减少计算上的复杂度。作为结果,该计算上的复杂度的减少是由能够在DSP和通用处理器中有效地执行的便利的过滤器系数所产生的。
接着,峰值即表示峰的y成分值进一步被处理。具体地说,y值使用以下变换进行变换。
y’=a pow(y,b)+c                       (1)
其中,pow(y,b)表示yb。
其结果,产生了由峰值[(x1,y’1)、(x2,y’2)、…(xn,y’n)组成的新的集合,这些值作为表示轮廓的描述符被保存在描述符数据库中。
作为特定的例子,图2所示的轮廓作为结果产生了图3所示的CSS显示图象。在下表1中表示了CSS图象中的曲线的峰的纵坐标的详细内容。
表1
  峰索引   X   Y   1   0.124   123   2   0.68   548   3   0.22   2120   4   0.773   1001   5   0.901   678
接着,使用a=6,b=0.5,c=0来使用上述变换。即,计算原来的y值的平方根,把其与常数相乘。其结果,产生以下的值:
表2
  峰索引   X   Y   1   0.124   67   2   0.68   140   3   0.22   276   4   0.773   190   5   0.901   156
其中,这些值化整为最接近的整数,但是,也可以便用其他的化整的方法。
实施例2
在图4中表示了另一个例子。
图5表示对对象形状(在此情况下为龟)的一例。图6表示图5的形状的CSS峰。图7表示使用a=6,b=0.5,c=0来使用上述式(1)表示的变换的图6的变换后的峰。
所保存的描述符被用于检索目的。用户使用指向装置,通过在显示器上描绘对象的轮廓,而开始进行检索(步骤510)。接着,控制装置2导出输入轮廓的CSS显示(步骤520)。接着,如上述那样,使用对y值的变换(步骤530)。接着,使用公知的匹配程序来把所产生的输入轮廓的描述符与以下作为模型描述符所知的在描述符数据库中所保存的各个描述符进行比较(步骤540)。
该匹配比较使用适当的算法来进行,在数据库中作为结果得到各个描述符的类似度测定值。可以使用象上述论文中所记载的公知的匹配算法。下面对该匹配程序进行简单说明。
如果两个闭锁的轮廓的形状、图象曲线Ψi和模型曲线Ψm以及它们的曲线的峰的各个设定值{(xi1,yi1),(xi2,yi2),…,(xin,yin)}和{(xm1,ym1),(xm2,ym2),…,(xmn,ymn)}被赋予,来计算类似度测定值。类似度测定值被定义为图象的峰和模型中的峰的匹配的总成本。使用动态编程来计算使总成本最少化的匹配。通过算法,从模型得到的峰与从图象得到的峰恢复匹配,进行这样的匹配的各个成本计算。能够使各个模型的峰与唯一的图象峰相匹配,也能把个图象峰与唯一的模型峰相匹配。也存在在模型和/或图象峰中都没有匹配的情况,对于没有匹配的峰存在追加的追加成本。当两个峰的水平距离不足0.2时,能够把两个峰进行匹配。匹配的成本是两个匹配的峰间的直线的长度。没有匹配的峰的成本是其高度。
更详细地说,算法通过制作与节点匹配的峰相对应的树状构造进行扩展而其作用。
1.制作由图象(xik,yik)的最大值和模型(xir,yir)的最大值组成的开始节点。
2.对于图象峰的最大值80%以内的各个剩余的模型峰制作追加的开始节点。
3.把在1和2中制作的各个开始节点的成本初始化为与该开始节点链接的图象峰和模型峰的y坐标之差的绝对值。
4.对于3的各个开始节点,计算作为用该开始节点匹配的模型峰与图象峰的x(水平)坐标之差进行定义的CSS移位参数a。移位参数对各个节点是不同的。
5.对于各个开始节点,制作模型峰的列表和图象峰的列表。在该列表中包含与哪个峰尚未匹配相关的信息。对于各个开始节点,给在该节点上匹配的峰作为“匹配的”而赋予标记,给其他所有峰作为“没有匹配的”而赋予标记。
6.在第8点的条件满足之前,再次放大最低成本的节点(从在步骤1~6中制作的各个节点开始,各个节点的子节点接在其后)。为了放大节点,而使用以下程序。
7.节点的放大:
当存在仍没有匹配的至少一个图象和一个模型峰时,
选择没有匹配的最大的比例图象曲线CSS的最大值(xip,yip)。使用(在步骤4中计算的)开始节点移位参数来把选择的最大值描绘到模型CSS图象上,所选择的峰具有坐标(xip-alpha,yip)。决定没有匹配的最近的模型曲线峰(xms,yms)。当两个峰间的水平距离不足0.2(即,|xip-alpha-xms|<0.2)时,两个峰被匹配,作为两个峰间的之间的长度,定义匹配的成本。把匹配的成本与该节点的总成本相加。通过给匹配的峰赋予作为“匹配的”标记,而从各个列表中去除匹配的峰。当两个峰间的水平距离大于0.2时,图象峰(xip,yip)不能匹配。在此情况下,在总成本上加上图象峰的高度yip,通过给匹配的峰赋予作为“匹配的”标记,从图象峰列表中仅去除峰(xip,yip)。
当上述条件未满足(仅存在没有匹配的图象峰,或者,仅存在没有匹配的模型峰)时,处于没有匹配的状态下。
作为没有匹配的图象峰或者模型峰的最高高度,来定义匹配的成本,从列表中去除峰。
8.在7中放大节点之后,当在图象列表和模型列表中都不存在没有匹配的峰时,匹配处理结束。该节点的成本是图象与模型曲线间的类似度测定值。当峰存在时,返回第7点,来放大最低成本的节点。
交换图象曲线峰值和模型曲线峰值而重复进行上述程序。最终匹配值是这2个峰值中较低一方的值。
作为一个另例子,对于被分类的顺序的各个位置,计算所输入的x值和与其相对应的模型的x值之间的距离以及所输入的y值与与其相对应的模型的y值之间的距离。对于所有的位置,计算合计距离,如果合计距离较小,则越小匹配的程度越接近。当输入轮廓与模型的峰的数量不同时,在合计距离中包含其余的不匹配的峰的高度。
对于数据库的各个模型重复进行上述步骤(步骤480)。
对匹配比较的结果产生的类似度值进行分类(步骤490),接着,在显示装置4上向用户显示:与具有表示最接近匹配值(即本例中最低类似度值)的类似度值的描述符相对应的对象(步骤500)。用户可以预先设定或者选择显示对象的对象数量。
实施例3
下面对另一个实施例进行说明。本实施例除了使用各种变换之外与上一个实施例相同。具体地说,使用以下变换来变换y值:
y’=a0+a1y
即,使用线性比例变换。
其中,a0=41,a1=0.19。
在变更例子中,a0=0,a1=0.27。
可以适当使用a0、a1的各种值。
检索和匹配程序与上一个实施例中说明的方案大致相同。通过适当使用变换,特别是包含上述那样的比例或者非线性变换的线性变换,其结果,能够得到在对象等级的范围内对形状轮廓的变化等不敏感的描述符,而能够得到改善对象的检索的结果。
在上述实施例中,对在描述符数据库10中保存的上述CSS值适当使用变换。与上述不同,也可以把CSS值保存在描述符数据库10中。接着,在进行匹配程序之前,可以作为检索处理的一部分来进行变换。
在上述实施例中,对y坐标值适当使用变换。但是,也可以对x坐标值适当使用变换。
产业上利用的可能性
本发明的系统能够设在例如图象图书馆中。或者,通过因特网这样的网络而用电话线这样的暂时连接把数据库与控制装置进行连接,就能从系统的控制装置来远距离地进行配置。例如,图象数据库和描述符数据库可以设在永久存储装置或者ROM和DVD这样的便携式存储媒体中。
上述说明的系统的构成要素可以以软件或者硬件的形式设置。虽然以计算机系统的形式来对本发明进行了说明,但是,本发明也可以使用专用芯片而以其他形式来实现。
在本发明中,表示了这样的例子:(利用CSS显示来)表示对象的2D形状的方法以及计算表示两个形状间的类似度的值的方法的特定例子,但是,也可以使用同样的任意适当的方法。
例如,为了进行用户确认目的的对象图象的匹配,或者,为了进行过滤而使用本发明。
本申请是申请人三菱电机株式会社于2000年7月3日提交的同名中国专利申请No.00801246.6的分案申请。