视频检索方法转让专利

申请号 : CN200610137713.8

文献号 : CN1955964B

文献日 : 2010-09-29

本发明公开一种视频检索方法，涉及将视频作为视频查询系统的客户使用部分，特别是向客户提供有效的浏览系统的方法。该方法包括：镜头边界检测步骤，从视频中检测镜头帧的镜头边界；低层信息提取步骤，在上述镜头边界检测步骤中检测的镜头帧中提取低层信息；加权值调节步骤，设置在上述低层信息提取步骤中提取的低层信息的信息描述子的加权值；视频检索步骤，根据上述加权值调节步骤中设置的加权值而使描述子之间的检索加权值具有不同的值并检索视频。本发明在检测镜头边界后将所需要的镜头作为查询、任意选择、任意选择+标题、将结果镜头再次用作查询。能够将调节后的加权值或文脉作为新的查询要素，实现更为有效准确的基于实例的视频查询功能。

1.一种视频检索方法，其特征在于，包括：

镜头边界检测步骤，从视频中检测镜头帧的镜头边界；

低层信息提取步骤，在上述镜头边界检测步骤中检测的镜头帧中提取低层信息；

加权值调节步骤，设置在上述低层信息提取步骤中提取的低层信息的信息描述子的加权值；

视频检索步骤，根据上述加权值调节步骤中设置的加权值而使描述子之间的检索加权值具有不同的值并检索视频。

2.根据权利要求1所述视频检索方法，其特征在于，上述镜头边界检测步骤还包括：块生成步骤，将视频的帧分割成若干块；

颜色差异计算步骤，在相邻的帧中，以每个块为单位相对所有块进行颜色差异；

颜色差异判断步骤，以每个块为单位相对所有块进行比较，判断在上述颜色差异计算步骤中计算的颜色差异是否比第一临界值大；

镜头变换判断步骤，以每个帧为单位相对相邻的帧进行比较，判断颜色差异比第一临界值大的块的个数是否比第二临界值大；

镜头边界判断步骤，把颜色差异比第一临界值大的块的个数比第二临界值大的相邻帧间隔判断为镜头边界。

3.根据权利要求2所述的视频检索方法，其特征在于，在计算每个块的颜色差异时，计算红、绿、蓝的RGB基本色，将其平均值作为颜色差异。

4.根据权利要求1所述的视频检索方法，其特征在于，在上述低层信息提取步骤中，提取的低层信息包括帧的主颜色、颜色结构、GOF/GOP颜色、边缘直方图、同类纹理、运动强度、音频波形。

5.根据权利要求1所述的视频检索方法，其特征在于，在上述镜头边界检测步骤之后，还包括提取所检测的镜头客体的步骤；在上述低层信息提取步骤中还提取上述提取的客体的低层信息。

6.根据权利要求5所述的视频检索方法，其特征在于，在上述低层信息提取步骤中，提取的低层信息包括帧的主颜色、颜色结构、GOF/GOP颜色、边缘直方图、同类纹理、运动强度、音频波形，和客体的运动轨迹、边界轮廓形态、区域形态、同类纹理、主颜色、颜色结构。

7.根据权利要求1所述的视频检索方法，其特征在于，在上述低层信息提取步骤之后，还包括不仅提取当前选择镜头的低层信息，还提取当前镜头之前和之后镜头的低层信息的文脉的步骤。

技术领域

本发明涉及将视频作为查询的检索系统中有关客户使用的部分，特别是向客户提供有效浏览(browsing)系统的视频检索方法。

背景技术

在现有依据MPEG-7标准实现的基于实例的视频检索系统中，涉及客户部分的构成功能仅限于向客户提供检索结果。
下面，通过附图对现有技术中基于实例的视频检索系统进行说明。
图1是现有技术中视频检索系统中客户界面的一个示例图。
在图1中，多媒体数据显示窗21，索引文件信息显示窗22，关键帧(KeyFrame)/影像文件浏览器23，段浏览器24，段信息输入部25。上述关键帧/影像文件浏览器23作为显示检索结果的工具只能向客户提供检索结果的浏览。
如上述构成的技术存在以下问题。
首先基于实例的视频检索方法单纯地显示检索结果，而不考虑描述子之间加权值的调节、整体画面/客体(Object)之间加权值的调节、反馈、以及文脉(context)等因素。例如，客户在一次检索中找到自己感兴趣的视频，如果想针对这个视频再进行检索，现有的检索系统不支持这种功能，无法实现。或者想用多种描述子而非单个描述子进行检索，在现有的系统中也无法实现。所以现有的视频检索系统存在无法进行有效地视频检索的问题。

发明内容

本发明所要解决的技术问题在于提供一种视频检索方法，通过将调节后的加权值或是文脉等作为新的查询要素，实现更为准确有效的基于实例的视频检索。
为实现上述目的，依据本发明的视频检索方法，其特征包括：镜头边界检测步骤，从视频中检测镜头帧的镜头边界；低层信息提取步骤，在上述镜头边界检测步骤中检测的镜头帧中提取低层信息；加权值调节步骤，设置在上述低层信息提取步骤中提取的低层信息的信息描述子的加权值；视频检索步骤，根据上述加权值调节步骤中设置的加权值而使描述子之间的检索加权值具有不同的值并检索视频。
而且，上述镜头边界检测步骤还包括：块生成步骤，将视频的帧分割成若干块；颜色差异计算步骤，在相邻的帧中，以每个块为单位相对所有块进行颜色差异；颜色差异判断步骤，以每个块为单位相对所有块进行比较，判断在上述颜色差异计算步骤中计算的颜色差异是否比第一临界值大；镜头变换判断步骤，以每个帧为单位相对相邻的帧进行比较，判断颜色差异比第一临界值大的块的个数是否比第二临界值大；镜头边界判断步骤，把颜色差异比第一临界值大的块的个数比第二临界值大的相邻帧间隔判断为镜头边界。
在计算每个块的颜色差异时，计算红、绿、蓝的RGB基本色，将其平均值作为颜色差异。
在上述低层信息提取步骤中，提取的低层信息包括帧的主颜色(DominantColor)、颜色结构(Color Structure)、GOF(Gang Of Four)/GOP(Group OfPictures)颜色、边缘直方图(Edge Histogram)、同类纹理(HomogeneousTexture)、运动强度(Motion Activity)、音频波形(Audio Wave)。
在上述镜头边界检测步骤之后，还包括提取所检测的镜头客体的步骤；在上述低层信息提取步骤中还提取上述提取的客体的低层信息。
在上述低层信息提取步骤中，提取的低层信息包括帧的主颜色(DominantColor)、颜色结构(Color Structure)、GOF(Gang Of Four)/GOP(Group OfPictures)颜色、边缘直方图(Edge Histogram)、同类纹理(HomogeneousTexture)、运动强度(Motion Activity)、Audio Wave，和客体的运动轨迹(Motion Trajectory)、边界轮廓形态(Contour Shape)、区域形态(RegionShape)、同类纹理(Homogeneous Texture)、主颜色(Dominant Color)、颜色结构(Color Structure)等。
在上述低层信息提取步骤之后，还包括不仅提取当前选择镜头的低层信息，还提取当前镜头之前和之后镜头的低层信息的步骤。
本发明将调节后的加权值或是文脉等作为新的查询要素，实现了更为有效准确地基于实例的视频检索。本发明所提出的运算及整个系统非常适用于在MPEG-7基础上基于实例的视频检索或是DVD(Digital Video Library)系统中。

附图说明

图1为现有技术中视频检索系统客户界面的一个图例；
图2为本发明提供的视频检索客户系统中查询方法1至方法4的构造图；
图3为依据本发明镜头变化检索运算流程图；
图4为依据本发明在镜头边界检索中，根据每个帧的颜色差异变化而变化的计数值的变化图；
图5为本发明视频检索系统客户界面的一个图示。
其中，附图标记：
21：多媒体数据显示窗 22：索引文件信息显示窗
23：关键帧(Key Frame)/影像文件浏览器 24：段浏览器
25：段信息输入部

具体实施方式

本发明中，检索所需要的查询大致分为四类。查询一，在客户端打开新的视频，在检测镜头边界后，将所需要的镜头作为查询。这里的镜头(shot)是视频数据的基本单元，它代表一个场景中在时间上和空间上无间断(interruption)的连续(Sequence)动作，是摄像机的一次操作所摄制的视频图像，任何一段视频数据流都是由许多镜头组成的。镜头是由若干帧(Frame)组成的，帧是构成视频的静止画面。
查询二是任意选择。查询三是任意选择+标题，查询四是将查询结果的镜头再作为查询的方式。
图2是依据本发明，在视频检索的客户系统中，查询一至查询四的构造图。
首先，对查询一进行说明。查询一是在检测镜头边界后，将所需要的镜头作为查询的方式。
参照图2，首先在新的视频中检测镜头边界。检测镜头边界时，使用到后面将要论述到的镜头变化检索运算。镜头检索完成后，输出镜头的客体(Object)，在输出低层信息后，MPEG-7快速生成器将其转换成MPEG-7文件。在后面的“文脉”步骤中，输出当前镜头、当前镜头之前以及之后镜头的低层信息，再将相关内容作为描述子的加权值，进行查询。
下面对查询一按步骤进行详细说明。
在查询一的步骤1“镜头边界检测”中，打开新的视频，检测希望作为查询的镜头。这里应用了镜头变化检索(shot change detection)运算。
所谓镜头变化检索(shot change detection)运算是通过块匹配求得RGB((Red，Green，Blue)颜色值的差异。在本发明中，这种运算的特点在于使用了两个临界值。这样可以提高检索的精确度。此外，在求得两个帧之间的颜色差异时，通过块匹配方法可以得到客体的位置信息。
颜色差异是相邻帧之间的红、绿、蓝的值的差异。红绿蓝值差异的平均值就是块的颜色差异。在求颜色差异时，将整个画面分割成若干块，求出每个块的颜色差异，例如，整个画面的大小为320*240个像素、每个块的大小为16*16时，可以分割成300个块，求出每个块的R、G、B颜色差异。这种块匹配法还可以得到客体的位置信息。即观察块的颜色差异是否超过第一临界值，这样就可以知道整体画面中哪一部分出现变化，从而也就掌握了客体的位置。块越小，位置信息就越精确。不过这种方法虽然能够精确地检索出镜头变化，但是在计算颜色差异时，速度较慢。使用者可以根据自己的需要而进行选择。
在得出上述R、G、B的颜色差异后，求出平均。如果平均值大于第一临界值，开始计数。求出相邻的两个帧之间的每个块的颜色差异的平均值，将该值与第一临界值进行比较，对于比第一临界值大的块数进行计数，计算后得到的结果再与第二临界值比较。
例如，第二临界值可以设置为一个帧内的所有块数的一半，此时，如果颜色差异比第一临界值大的块的个数达到全部块的一半以上时，就说明镜头发生了变化。即如果计数结果大于全体块数的一半，就证明在两个帧之间镜头发生了变化。
依据本发明，镜头变化检索运算流程如图3所示。
开始镜头变化检索，将初始值设置为N＝1，count＝0(步骤S301)。这里的N是进行颜色差异计算的帧的顺序号，count是相邻的帧中，颜色差异超过第一临界值的块的个数。
完成初始值设置后，计算第N个帧和第N+1个帧的第一个块的颜色差异(步骤S302)。第N个帧和第N+1个帧意味着相邻的两个帧。从第一块起计算颜色差异，并判断是否比第一临界值大(步骤S303)，如果比第一临界值大，则增加一个计数count值(步骤S304)。
块的临界值比第一临界值大，增加一个计数值，比第一临界值小，计数值不变，之后判断上述求出颜色差异的块是否是最后一个块(步骤S305)。如果不是最后一个块，计算第N个帧和第N+1个帧的下一个块的颜色差异(步骤S306)，再将上述求得的颜色差异与第一临界值比较(步骤S303)，之后重复S304、S305的步骤。
反复上述步骤，完成最后一个块的颜色差异计算，决定增加计数值后，如果所计算的块是最后一块，则进入步骤S307，判断计数值是否比第二临界值大。如上所述，第二临界值是在相邻帧之间，颜色差异比第一临界值大的块的个数。根据上述S307的判断结果，计数值如果比第二临界值大，则证明镜头发生变化(步骤S308)。之后判断第N+1个帧是否是最后一个帧(步骤S309)。如果是最后一个帧，结束整个步骤，如果不是最后一个帧，再增加一个N值(步骤S310)，之后回到上述S302步骤，判断下一个帧与这个帧之后的帧之间是否发生镜头变化。
图4显示的是依据本发明的镜头边界检索方法，根据各帧的颜色差异产生计数值变化的图示。这里，假设块的个数为200，第二临界值为100个(全体块数的一半)。在图4中，计数值两次超过第二临界值(100个)，说明镜头变化发生两次。
查询一的步骤2，输出作为查询的客体。此步骤是选择项，使用者可以根据自己的选择决定是否进入此项。
查询一的步骤3，分别输出帧和客体低层信息。帧的低层信息包括帧的主颜色(Dominant Color)、颜色结构(Color Structure)、GOF(Gang OfFour)/GOP(Group Of Pictures)颜色、边缘直方图(Edge Histogram)、同类纹理(Homogeneous Texture)、运动强度(Motion Activity)、AudioWave等；客体低层信息包括运动轨迹(Motion Trajectory)、边界轮廓形态(ContourShape)、区域形态(Region Shape)、同类纹理(Homogeneous Texture)、主颜色(Dominant Color)、颜色结构(Color Structure)等。但是，得出帧的运动强度(Motion Activity)信息需要大量的运算，耗用时间较长，所以设置有“检查”按键，由使用者决定是否查看此项信息。
查询一的步骤4，通过“MPEG-7”快速生成器将所有低层信息迅速转换成MPEG-7文件。
查询一的步骤5是“文脉”步骤，即输出当前所选镜头的前后镜头的低层信息。此步骤为选择项，使用者可以根据需要进行选择。
查询一的步骤6，将查询用帧和客体的所有描述子(Descriptor)作为加权值进行调节。此外，还可以对帧和客体本身进行加权值调节。
查询二的“任意选择”，是客户要求将服务系统数据库中的任意镜头作为结果镜头进行显示的方式，而不是由客户选择特定镜头用于查询。
查询三是“任意选择+标题”方式，即在上述“任意选择”方式上附加作为条件的“标题”，从而要求将服务系统数据库中与标题要求一致的任意镜头作为结果镜头。
查询四是“结果镜头”(利用数据库信息)，即在得到作为查询结果的镜头后，将作为查询结果的镜头的数据信息再次作为查询的使用方式。
下面，结合附图对本发明的客户界面进行说明。图5是依据本发明，视频检索系统客户界面的一个图例。
参照图5，使用者界面的窗口大体分为左右两个窗口。左窗口主要用于查询，右窗口主要用于显示作为查询结果的镜头。
在查询一的方式下，首先点击左侧窗口中“打开”键，选择需要的视频，位于中间的主媒体播放器中开始播放所选择的视频。或者是左侧媒体播放器播放选择镜头之前的镜头，右侧媒体播放器播放选择镜头之后的镜头。在选择希望作为下一个查询的镜头后，点击“镜头检索”键，所需要的镜头就从视频中输出(查询一中检测镜头边界的步骤1)。“客体提取”作为选择事项，可以根据客户的选择决定是否指定客体。(查询一中客体输出的步骤2)
在结束对镜头和客体的指定后，点击“特征提取”按键，输出低层信息。(查询一中低层信息输出的步骤3)由于帧的运动强度(motion activity)描述子运算量大，需要较长时间，所以客户可以在菜单的“选项”中通过“运动强度”这一选项决定是否需要此项信息。最后通过tab键，调节帧和客体的加权值，或者是使用滑动栏调节帧和客体自身的加权值(查询一中加权值调节的步骤6)，最终通过“查询”键向服务系统发出查询。
如果是查询二，则选择“任意”键，发出将服务系统数据库中任意的镜头作为查询结果镜头的指令。
在查询三的情况下，在连接网络的同时，选择一个服务系统中接收到的标题，再通过“任意”键发出查询。标题可以在“网络”键旁边的列表中进行选择。
查询四采用反馈的方式，点击显示查询结果的右侧窗口中“查询”按键，所选择的镜头在左侧窗口媒体播放器中播放，完成加权值调节后，再次作为查询使用。在查询一至查询四中，“文脉”按键起到是否选择反映前后镜头文脉功能的作用(在查询一的步骤5中使用)。
为将作为查询结果的镜头再次作为查询使用，右侧窗口中“查询”按键起到将上述作为查询结果的镜头移至左侧窗口的作用，“文脉”按键起到为更好了解作为查询结果的镜头文脉，一起显示作为查询结果的镜头之前及之后的镜头的作用。
本发明将调节后的加权值或是文脉等作为新的查询要素，实现了更为有效准确地基于实例的视频检索。本发明所提出的运算及整个系统非常适用于在MPEG-7基础上基于实例的视频检索或是DVD(Digital Video Library)系统中。
当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的普通技术人员当可根据本发明做出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

视频检索方法转让专利

申请号 : CN200610137713.8

文献号 : CN1955964B

文献日 : 2010-09-29

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 宋致日

申请人 : 乐金电子(中国)研究开发中心有限公司

摘要 :

权利要求 :

说明书 :

技术领域

背景技术

发明内容

附图说明

具体实施方式