基于内容的视频镜头检索方法转让专利

申请号 : CN200610098298.X

文献号 : CN101201822B

文献日 : 2010-06-23

本发明公开了一种基于内容的镜头检索方法。其首先对视频数据库进行镜头分割，以镜头作为视频内容的基本结构单元和检索单元；用关键帧数的关键帧策略及时空注意力选择模型选取关注区域对视频镜头内容进行表征；设有两个镜头A和B为显著区域，计算两者对应关键帧匹配度；计算镜头时空内容的匹配度。本发明的镜头内容表征方式保持时间线上前后关联的语义语境变换信息。然后在这种内容表征之上进行视频内容检索，获得了良好的检索效果，可以取得更高的准确率。

1.一种基于内容的镜头检索方法，包括以下步骤：

第一步，首先对视频数据库进行镜头分割，以镜头作为视频内容的基本结构单元和检索单元；

第二步，用关键帧数的关键帧策略及时空注意力选择模型选取关注区域对视频镜头内容进行表征，该时空注意力选择模型是从视频帧中提取显著区域，对视频的视觉内容进行自动选择，将在视觉语义分析过程中模拟人视觉系统的关注能力，由动态选择和静态选择两部分组成，将对视频中动态和静态的显著区域进行综合选择；

第三步，设有两个镜头A和B为显著区域，计算两者对应关键帧匹配度，其中，对两个镜头A和B进行匹配度计算：(1)计算镜头A和B的对应第i个关键帧匹配度D(Ai，Bi)：①选取Ai中的第k个显著区域，按“两显著区域匹配度计算方法”计算此显著区域与Bi中各个显著区域的匹配度，该“两显著区域匹配度计算方法”为其中D是两显著区域总的差异，值越小表示差异越小，即越相似，反之值越大就是差异越大，而D1，D2，D3则分别是按Mpeg-7参考模型中描述子做匹配得到的差异值，该描述子为相似纹理描述子，可扩展颜色描述子和基于轮廓的形状描述子，ω1，ω2，ω3是权值，三个权值不可同时为零；

②在所有匹配度中选择最小值对应的Bi中显著区域为Ai中的第k个显著区域配对区域，将最小匹配度记为Di；

③将两配对区域分别从Ai和Bi显著区域集合中删除；

④重复①-③至Ai和Bi显著区域集合中出现空集为止；

⑤对所有Di求均值即为D(Ai，Bi)；

(2)按步骤(1)计算所用n个关键帧的D(An，Bn)；

(3)对计算得到的n个D(Ai，Bi)求均值，得到两个镜头A和B的匹配度；

第四步，计算镜头时空内容的匹配度。

2.根据权利要求1所述的基于内容的镜头检索方法，其特征在于：在第一步中，对视频数据库进行镜头分割的方法为基于统计分布的渐变镜头分割方法。

3.根据权利要求1所述的基于内容的镜头检索方法，其特征在于：在第二步中，对镜头内容进行表征，包括以下步骤：(1)设镜头总长度为L，关键帧数目为n，则以L/(n-1)为步长选取n个关键帧；抽取的关键帧在离散的时间点上组成帧序列，用上述方式来表示视频内容，能够比较真实表达出视频流时空内容变化关系，这种镜头内容表征方式可以较好保留时间线上前后关联的语义语境变换信息，这样两个镜头的关键帧数目是一样的；

(2)用时空注意力选择模型选择的视频基本对象既包括关键帧的空间静态显著对象，也包括通过时域信息得到动态显著对象，最终的视觉显著区域由下式得到：VSA＝SAO|DAO

上式中，V·SA·、S·AO·、D·AO·分别表示最终的视觉显著区域、静态显著对象和动态显著对象，|为或运算。

基于内容的视频镜头检索方法

一技术领域

[0001] 本发明属于视频检索技术领域，特别是一种基于内容的视频检索方法。二背景技术

[0002] 随着计算机技术不断发展，计算机处理能力得到显著提高。先进的集成制造工艺使得硬件性能不断提升，网络技术、通讯技术的革新有力地推动了信息化发展进程。人们应用处理的媒体信息量每天都呈几何级数增长，信息技术发展带来了海量的视频数据。视频点播、数字交互电视、视频会议等新的媒体信息交换和应用形式已经完全融入人们日常学习、工作、生活和娱乐之中。数字化后的媒体信息，尤其是数字化后的视频和音频信息具有数据海量性，它给信息的管理、存储和传输造成极大的困难，成为阻碍人类有效获取和使用信息的主要瓶颈。按照传统的文本数据分析、管理、检索方法来管理视频信息既要耗费大量的人力，又不能充分利用视频中包含的丰富信息内容。因此，传统的文本信息内容描述、分析、管理、检索等相关技术已不适合处理大量视频数据。基于视频内容的数据分析、过滤、概要、检索等相关技术研究已受到广泛关注。为了对含有丰富时空信息的视频数据进行高效快捷地过滤、浏览和检索，人们提出了视频内容分析和基于内容的视频检索技术。视频内容分析技术已取得了一定的进展，正成为多媒体领域一个活跃的研究方向。多媒体内容描述接口MPEG-7标准的建立和完善推动了基于内容的视频检索技术的发展。

[0003] 对于基于内容的视频检索一般先进行镜头分割和镜头边界检测，然后以镜头为单位提取静态视觉特征以及时空特性，进行这些特征相似度衡量，以此进行检索。北京大学计算机科学技术研究所和北京北大方正技术研究院有限公司开发的一种基于内容的检索方法(公开号为CN1477600)，该专利建立镜头相似度的带权二分图模型G＝{X，Y，E}。其中，X表示镜头X有n帧，Y表示镜头Y有m帧，边集E。该方法中构造带权二分图的方法有两种：一种是子镜头构造带权二分图的方法，即以子镜头的关键帧作为节点，构造带权二分图。另一种是等间隔采样构造二分图的方法，在每个镜头内部等间隔地提取关键帧作为节点，构造带权二分图，这样两个镜头的关键帧数目是一样的，可以构成多节点的完全二分图。

[0004] 基于例子的视频查询应该是高效的、简便的和正确的：所谓高效性指检索系统能够快速地找到用户所需要的视频；简便性指检索系统应该让用户操作简单、便捷，不需要掌握复杂的专业领域知识；正确性指检索系统返回的视频应当尽可能接近用户的检索要求。但是要设计一个满足上述要求的视频检索系统，必须先定义两个视频镜头的相似性度量。
在定义视频实例的“相似度”中，要解决以下技术难点：(1)视频不是简单的帧序列集合，而是层次结构，视频间相似度衡量是在哪个层次上进行，是视频比较的前提。(2)关键帧的视觉特征是整个视觉特征的基础，但是每个视频都有相当数量的关键帧。对于大型的视频数据库而言，所有视频的各个关键帧视觉特征的存储量和相互间比较次数都是可观的。(3)两部视频是否相似是一个很复杂的问题，不同的人有不同的理解，掺杂着认为主观的因素，要设计合理的视频比较方法，必须尽量综合考虑各种因素。

[0005] 三发明内容

[0006] 本发明的目的在于提供一种基于内容的视频检索方法，该方法不仅能大大提高基于内容镜头检索的准确率，从而更加充分地发挥镜头检索技术在现今海量视频信息社会中的巨大社会作用，而且能使检索更加的高效，其操作也很简便，利于广大普通用户使用。

[0007] 实现本发明目的的技术方案为：一种基于内容的镜头检索方法，包括以下步骤：

[0008] 第一步，首先对视频数据库进行镜头分割，以镜头作为视频内容的基本结构单元和检索单元；

[0009] 第二步，用关键帧数的关键帧策略及时空注意力选择模型选取关注区域对视频镜头内容进行表征，该时空注意力选择模型是从视频帧中提取显著区域，对视频的视觉内容进行自动选择，将在视觉语义分析过程中模拟人视觉系统的关注能力，由动态选择和静态选择两部分组成，将对视频中动态和静态的显著区域进行综合选择；

[0010] 第三步，设有两个镜头A和B为显著区域，计算两者对应关键帧匹配度，其中，对两个镜头A和B进行匹配度计算：

[0011] (1)计算镜头A和B的对应第i个关键帧匹配度D(Ai，Bi)：

[0012] ①选取Ai中的第k个显著区域，按“两显著区域匹配度计算方法”计算此显著区域与Bi中各个显著区域的匹配度，该“两显著区域匹配度计算方法”为

[0013] 其中D是两显著区域总的差异，值越小表示差异越小，

[0014] 即越相似，反之值越大就是差异越大，而D1，D2，D3则分别是按Mpeg-7参考模型中描述子做匹配得到的差异值，该描述子为相似纹理描述子，可扩展颜色描述子和基于轮廓的形状描述子，ω1，ω2，ω3是权值，三个权值不可同时为零；

[0015] ②在所有匹配度中选择最小值对应的Bi中显著区域为Ai中的第k个显著区域配对区域，将最小匹配度记为Di；

[0016] ③将两配对区域分别从Ai和Bi显著区域集合中删除；

[0017] ④重复①-③至Ai和Bi显著区域集合中出现空集为止；

[0018] ⑤对所有Di求均值即为D(Ai，Bi)；

[0019] (2)按步骤(1)计算所用n个关键帧的D(An，Bn)；

[0020] (3)对计算得到的n个D(Ai，Bi)求均值，得到两个镜头A和B的匹配度；

[0021] 第四步，计算镜头时空内容的匹配度。

[0022] 本发明基于内容的镜头检索方法，其特征在于：在第一步中，对视频数据库进行镜头分割的方法为基于统计分布的渐变镜头分割方法。

[0023] 本发明基于内容的镜头检索方法，其特征在于：在第二步中，对镜头内容进行表征，包括以下步骤：

[0024] (1)设镜头总长度为L，关键帧数目为n，则以L/(n-1)为步长选取n个关键帧；抽取的关键帧在离散的时间点上组成帧序列，用上述方式来表示视频内容，能够比较真实表达出视频流时空内容变化关系，这种镜头内容表征方式可以较好保留时间线上前后关联的语义语境变换信息，这样两个镜头的关键帧数目是一样的；

[0025] (2)用注意力模型选择的视频基本对象既包括关键帧的空间静态显著对象，也包括通过时域信息得到动态显著对象，最终的视觉显著区域由下式得到：

[0026] VSA＝SAO|DAO

[0027] 上式中，V.SA.、S.AO.、D.AO.分别表示最终的视觉显著区域、静态显著对象和动态显著对象，|为或运算。

[0028] 本发明与现有技术相比，其显著优点为：采用了保持时空变化信息的关键帧选取策略与时空注意力选择显著区域相结合进行镜头的时空内容表征方式：抽取的关键帧在离散的时间点上组成帧序列可较真实表达出视频流时空内容变化关系，这种镜头内容表征方式可以较好保留时间线上前后关联的语义语境变换信息；基于注意力机制的视频视觉内容选择模型从视频帧中提取显著区域，对视频的视觉内容进行自动选择，注意力模型将在视觉语义分析过程中模拟人视觉系统的关注能力。这种表征方式能够简洁高效地表示出镜头的视觉内容，对比实验结果证明了本发明可以取得更高的检索准确率。

[0029] 图1是对镜头进行基于内容的视频检索的方法的流程示意图。

[0030] 四附图说明

[0031] 图2是保持时空变化信息的关键帧选取策略。

[0032] 下面结合附图对本发明作进一步详细的描述。

[0033] 五具体实施方式

[0034] 结合图1和图2，本发明基于内容的镜头检索方法，包括以下步骤：

[0035] 第一步，首先对视频数据库进行镜头分割，以镜头作为视频内容的基本结构单元和检索单元，其中对视频数据库进行镜头分割的方法为基于统计分布的渐变镜头分割方法。

[0036] 第二步，用关键帧数的关键帧策略及时空注意力选择模型选取关注区域对视频镜头内容进行表征，即对镜头内容进行表征，包括以下步骤：

[0037] (1)设镜头总长度为L，关键帧数目为n，则以L/(n-1)为步长选取n个关键帧；抽取的关键帧在离散的时间点上组成帧序列，用上述方式来表示视频内容，能够比较真实表达出视频流时空内容变化关系，这种镜头内容表征方式可以较好保留时间线上前后关联的语义语境变换信息，这样两个镜头的关键帧数目是一样的；

[0038] (2)用注意力模型选择的视频基本对象既包括关键帧的空间静态显著对象，也包括通过时域信息得到动态显著对象，最终的视觉显著区域由下式得到：

[0039] VSA＝SAO|DAO

[0040] 上式中，V·SA·、S·AO·、D·AO·分别表示最终的视觉显著区域、静态显著对象和动态显著对象，|为或运算。

[0041] 第三步，设有两个镜头A和B为显著区域，计算两者对应关键帧匹配度，即对两个镜头A和B进行匹配度计算：

[0042] (1)计算镜头A和B的对应第i个关键帧匹配度D(Ai，Bi)：

[0043] ①选取Ai中的第k个显著区域，按“两显著区域匹配度计算方法”计算此显著区域与Bi中各个显著区域的匹配度，该“两显著区域匹配度计算方法”为

[0044] 其中D是两显著区域总的差异，值越小表示差异越小，

[0045] 即越相似，反之值越大就是差异越大，而D1，D2，D3则分别是按Mpeg-7参考模型中描述子做匹配得到的差异值，ω1，ω2，ω3是权值，三个权值不可同时为零；

[0046] ②在所有匹配度中选择最小值对应的Bi中显著区域为Ai中的第k个显著区域配对区域，将最小匹配度记为Di；

[0047] ③将两配对区域分别从Ai和Bi显著区域集合中删除；

[0048] ④重复①-③至Ai和Bi显著区域集合中出现空集为止；

[0049] ⑤对所有Di求均值即为D(Ai，Bi)；

[0050] (2)按步骤(1)计算所用n个关键帧的D(An，Bn)；

[0051] (3)对计算得到的n个D(Ai，Bi)求均值，得到两个镜头A和B的匹配度。

[0052] 第四步，计算镜头时空内容的匹配度。

[0053] 下面再对上述内容作进一步说明。

[0054] 1.镜头分割

[0055] 首先用基于统计分布的渐变镜头分割方法对视频数据库进行镜头分割，以镜头为单位作为视频的基本结构但愿和检索单元，关于基于统计分布的渐变镜头分割方法的详细描述可以参考文献“基于内容的视频结构分析”[印晓莉，南京理工大学硕士论文，pp29-37，2005.6]

[0056] 2.关键帧提取策略

[0057] 视频视觉内容的表征包括两个层次：空间域的表征和时间域的表征。空间域的表征，即帧内图像内容表示方式，侧重的是帧图像空间内容的表示。本发明中采用注意力选择模型来选取显著区域进行空域内容表征。时域表征主要反映空间内容沿时间的变化信息，本发明采用自适应变间隔关键帧数的“帧切片”关键帧策略进行时域信息的表征，这样两个镜头的关键帧数目是一样的。

[0058] 在大多数基于内容视频检索方法是用镜头中单帧关键帧来代表视频空域信息。然而用单一帧来表示镜头内容往往会使视频丰富的时域变化信息丢失或缺损，没有充分利用时域的内容变换信息。因为视频在相隔较短的时间间隔里中内容不会发生较大变化，所以本发明节用帧片段抽样的结构来表示视频沿时间线的内容。抽取的关键帧在离散的时间点上组成帧序列。用上述方式来表示视频内容，可较真实表达出视频流时空内容变化关系，这种镜头内容表征方式可以较好保留时间线上前后关联的语义语境变换信息。

[0059] 3时空注意力选择模型

[0060] 对每一关键帧用时空注意力模型选取空域中的显著区域。

[0061] 人脑利用视觉系统注意力机制有选择地接受和处理外来信息。在视觉信息处理过程中，注意力机制指挥大脑将资源有选择地分配给被认为是重要的感兴趣信息。视频的视觉内容也相当丰富，视觉语义分析过程中对图像中的所有细节都进行处理和分析是不现实的。受生物视觉机制和认知心理学的启发，本发明提出用一种基于注意力机制的视频视觉内容选择模型。此模型从视频帧中提取显著区域，对视频的视觉内容进行自动选择。注意力模型将在视觉语义分析过程中模拟人视觉系统的关注能力。

[0062] 基于注意机制的视觉内容选择模型由动态选择和静态选择两部分组成。此模型将对视频中动态和静态的显著区域进行综合选择。

[0063] ①基于时域特征的动态选择

[0064] 人类视觉系统对视野中的动态、静态部分关注程度是不同的，运动物体的关注程度一般相对静态部分要高得多。以上正是本节动态注意力选择的基本依据。本选择模型将视频中运动对象认定为显著区域，因此动态注意力选择的主要任务是对场景中运动对象进行探测和分割。视频运动对象的分割采用背景的注册与更新方法实现，关于详细的运动对象分割描述可以参考文献“Efficient moving object segmentation algorithmusing background registration technique”[Chien S.-Y.，Ma S.-Y.，Chen L.-G.，IEEETransactions on Circuits and Systems for Video Technology，Vol.12，No.7，pp577-586，July，2002]。

[0065] ②空域的静态选择

[0066] 在视野中注意力的关注不仅局限于运动对象，还会包括少数静态区域，即非运动的显著区域。因此，需要定义一个显著性标准来衡量哪些静态信息是重要的或感兴趣的。静态显著区域的详细选取采用文献“Unsupervised extraction of visual attention objects in colorimages”[.Han J.，et al，IEEE Transactions on Circuits and Systems for Video Technology，Vol.16，No.1，pp141-145，Jan.，2006]中提出的方法进行分割提取。定义静态注意力对象：

[0067] SAO＝{AV，ES，HM}

[0068] 其中，S·AO·表示静态注意力对象，AV表示注意力值，ES是边集合，HM表示S·AO·的同质测量值。注意力值AV是观众对一个对象关注程度的量化值，由显著映射(SaliencyMap，SM)计算。显著值为：

[0069] SV(i，j)＝SV*(i，j)·G(i，j)，0≤i≤M-1，0≤j≤N-1

[0070] 其中，(i，j)是M×N像素区域SM中的点，SV*(i，j)是Itti模型的显著值，G(i，j)是中心在((M-1)/2，(N-1)/2)的正规化高斯函数。SV(i，j)是点(i，j)融入位置因素的显著值。

[0071] ③时空注意力选择模型

[0072] 用注意力模型选择的视频基本对象既包括关键帧的空间静态显著对象，也包括通过时域信息得到动态显著对象。最终的视觉显著区域由下式得到：

[0073] VSA＝SAO|DAO

[0074] 上式中，V·SA·、S·AO·、D·AO·分别表示最终的视觉显著区域、静态显著对象和动态显著对象，|为或运算。

[0075] 4两显著区域匹配度计算

[0076] 提取符合Mpeg-7标准的三静态视觉低层特征：相似纹理描述子，可扩展颜色描述子和基于轮廓的形状描述子。将三个匹配结果线性加权来确定最终的匹配度。

[0077]

[0078] 其中D是两显著区域总的差异，值越小表示差异越小，即越相似，反之值越大就是差异越大。而D1，D2，D3则分别是按Mpeg-7参考模型中描述子做匹配得到的差异值，ω1，ω2，ω3是权值，三个权值不可同时为零。

[0079] 5两个镜头相似度计算

[0080] 对两个镜头A和B，其匹配度计算如下：

[0081] 1.计算镜头A和B的对应第i关键帧匹配度D(Ai，Bi)：

[0082] ①选取Ai中的第k个显著区域，按上述“两显著区域匹配度计算方法”计算此显著区域与Bi中各个显著区域的匹配度。

[0083] ②在所有匹配度中选择最小值对应的Bi中显著区域为Ai中的第k个显著区域配对区域，将最小匹配度记为Di。

[0084] ③将两配对区域分别从Ai和Bi显著区域集合中删除。

[0085] ④重复①-③至Ai和Bi显著区域集合中出现空集为止。

[0086] ⑤对所有Di求均值即为D(Ai，Bi)。

[0087] 2.按1步骤计算所用n个关键帧的D(An，Bn)。

[0088] 3.对计算得到的n个D(Ai，Bi)求均值，得到两个镜头A和B的匹配度。

[0089] 实验采用Mpeg-7标准化活动中的评价指标：平均归一化调整后的检索秩 ANMRR(Average Normalized Modified Retrieval Rank) 和平均查全率AR(AverageRecall)。ANMRR类似于TREC中评测指标Precision，AR类似于Recall。ANMRR值越小表示检索得到的正确镜头的排名越靠前；AR值大表示在前K个查询结果中相似镜头占所有相似镜头的比例越大，其中K为检索结果的截断值。表1是本发明方法与现有方法的的比较实验结果。

[0090] 表1本发明与现有方法的对比实验结果

[0091]

[0092] 从上表可以看出，本发明的方法在ANMRR和AR都取得比现有方法好的效果，这证实了本发明用自适应变间隔等关键帧的“帧切片”关键帧策略和时空注意力选择模型表征镜头内容方法的有效性。

基于内容的视频镜头检索方法转让专利

申请号 : CN200610098298.X

文献号 : CN101201822B

文献日 : 2010-06-23

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 许满武 , 杨献春 , 朱光蔚 , 杨群 , 柏文阳 , 陈红兵

申请人 : 南京理工大学

摘要 :

权利要求 :

说明书 :

基于内容的视频镜头检索方法