一种基于内容的视频拷贝监测方法及装置转让专利

申请号 : CN200810223002.1

文献号 : CN101374234B

文献日 : 2010-09-22

本发明公开了一种基于内容的视频拷贝监测方法及装置，为了解决现有基于内容的视频拷贝监测资源消耗较高的问题，该方法包括：通过网络从待监测视频中根据预定义的抽取规则，抽取部分视频帧作为待监测视频帧；抽取待监测视频帧的特征向量；从视频指纹库敏感视频的关键帧特征向量中，选取出与待监测视频帧相似的关键帧特征向量，相似的关键帧特征向量与待监测视频帧特征向量的距离，小于给定的匹配阈值，由于采用了抽取部分视频帧的方法作为待监测视频帧，使得不需通过大量的计算得到关键帧，同时通过网络获取的视频的内容较小并且下载后所需存储的空间较小，因此减少了监测时的资源消耗。

1.一种基于内容的视频拷贝监测方法，其特征在于，包括：通过网络从待监测视频中根据预定义的抽取规则，抽取部分视频帧作为待监测视频帧；

抽取待监测视频帧的特征向量；

从视频指纹库敏感视频的关键帧特征向量中，匹配与待监测视频帧相似的关键帧的特征向量，所述相似的关键帧特征向量与待监测视频帧特征向量的距离，小于给定的匹配阈值，所述关键帧为敏感视频中一个视频镜头内与其他视频帧特征向量平均距离最小的视频帧。

2.如权利要求1所述的方法，其特征在于，所述给定的匹配阈值为相似的关键帧特征向量与同一视频镜头内其他视频帧特征向量间的最大距离。

3.如权利要求1所述的方法，其特征在于，所述给定的匹配阈值为给定的查找阈值，所述给定的查找阈值为相邻的关键帧的特征向量差值的绝对值，或所述给定的查找阈值为相邻的关键帧的特征向量差值的平方。

4.如权利要求1所述的方法，其特征在于，通过网络从待监测视频中根据预定义的抽取规则，抽取部分视频帧作为待监测视频帧具体为：通过网络从待监测视频中随机抽取部分视频帧作为待监测视频帧；或通过网络从待监测视频中，按时间间隔抽取部分视频帧作为待监测视频帧；或通过网络从待监测视频中，按待监测视频文件或视频流中的字节偏移抽取部分视频帧作为待监测视频帧。

5.如权利要求1所述的方法，其特征在于，以选取出的相似的关键帧所属视频作为候选视频，统计待监测视频与所有候选视频的相似度，选择相似性最大的候选视频作为相似视频。

6.如权利要求1所述的方法，其特征在于，所述待监测视频帧为帧内编码帧。

7.一种基于内容的视频拷贝监测装置，其特征在于，包括：扫描模块：用于通过网络从待监测视频中根据预定义的抽取规则，抽取部分视频帧作为待监测视频帧；

抽取模块：用于抽取待监测视频帧的特征向量；

视频指纹库：用于存储敏感视频的关键帧特征向量和给定的匹配阈值；

匹配模块：用于从视频指纹库中调取敏感视频的关键帧特征向量及给定的匹配阈值，匹配与待监测视频帧特征向量之间的距离小于给定的匹配阈值的关键帧，所述关键帧为敏感视频中一个视频镜头内与其他视频帧特征向量平均距离最小的视频帧。

8.如权利要求7所述的装置，其特征在于，视频指纹库：还用于存储敏感视频的关键帧特征向量和给定的匹配阈值，所述给定的匹配阈值为相似的关键帧特征向量与同一视频镜头内其他视频帧特征向量间的最大距离。

9.如权利要求7所述的装置，其特征在于，视频指纹库：还用于存储给定的匹配阈值，所述给定的匹配阈值为给定的查找阈值，所述给定的查找阈值为相邻的关键帧的特征向量的差值的绝对值。

10.如权利要求7所述的装置，其特征在于，扫描模块：还用于通过网络从待监测视频中随机抽取部分视频帧作为待监测视频帧；或通过网络从待监测视频中，按时间间隔抽取部分视频帧作为待监测视频帧；或通过网络从待监测视频中，按待监测视频文件或视频流中的字节偏移抽取部分视频帧作为待监测视频帧。

11.如权利要求7所述的装置，其特征在于，还包括：

选择模块：用于以选取出的相似的关键帧所属视频作为候选视频，统计待监测视频与所有候选视频的相似度，选择相似性最大的候选视频作为相似视频。

技术领域

本发明属于多媒体领域，特别涉及的一种基于内容的视频拷贝监测方法及装置。

背景技术

基于内容的视频拷贝监测(CBCD：Content-based Copy Detection)是近年来发展起来的一项重要技术，它被广泛地应用于基于内容的盗版监测、广告监测等领域。CBCD包括两个步骤：
(1)根据计算得到的敏感视频的各关键帧的特征向量，生成敏感视频的指纹，建立视频指纹库；
(2)获取待监测视频，根据计算得到的待监测视频关键帧的特征向量，生成待监测视频的指纹，在视频指纹库中进行查询匹配，以判断是否有和待监测视频内容相同的拷贝；
CBCD的核心技术包括视频指纹的生成和指纹的匹配查询。这里视频指纹指根据视频内容生成的用于唯一标识该视频的特征数据(包括多个关键帧的特征向量)，该技术也称作视频的内容哈希或者内容标识码。无论是生成敏感视频的指纹还是生成待监测视频指纹，传统的视频指纹生成技术是基于关键帧的特征向量。特征向量可以由一个特征点的描述数据组成，也可以由一阵图像中各个分块的统计特征组成。
目前大部分视频指纹生成算法可以归为基于通过计算得到关键帧的特征向量，该类方法通过网络获取完整的视频文件或视频流的内容后进行后续处理，包括如下几个步骤：
视频解压以及预处理：大部分算法在解压域进行，所以需要首先对视频进行解压。此外，大部分算法还需要对视频的分辨率和帧率进行归一化处理。
通过计算得到关键帧：关键帧是代表一段视频的一个图像帧，通过计算得到关键帧的算法是，从敏感视频中按预定义的规则确定初始关键帧，通过初始关键帧确定其它关键帧，计算得到其它关键帧是通过判断视频帧间用于关键帧抽取的特征向量的差距来实现。即通过计算判断当前视频帧和前一个关键帧之间的用于关键帧抽取的特征向量差值，如果当前视频帧特征向量差值与前一个关键帧的特征向量差值为给定的查找阈值，就认为当前视频帧是一个新的关键帧。帧间特征向量的差值的可以用像素亮度、颜色、运动向量等进行直方图、平均统计获取，帧间距离的计算可以使用欧氏距离、Directed Divergence等。此外也可以将视频序列在尺度空间上应用DoG(Difference-of-Gaussian)卷积核来提取关键帧。
关键帧内的特征抽取：该类算法通过抽取所有关键帧的用于指纹匹配的特征向量，并将这些特征向量组合到一起作为整个视频的指纹。关键帧的用于指纹匹配的特征向量抽取有基于图像整体统计特性的算法(如像素平均亮度、颜色直方图、主要颜色等)，也有基于图像内容某些特征点和特征区域的算法(如在尺度空间抽取到的关键点、兴趣点、MSER区域等。注：MSER：MaximallyStable Extremal Regions)。
上述步骤中，用于关键帧抽取的特征向量可以与用于指纹匹配的特征向量，可以是相同的特征向量，也可以不是的特征向量，为了表述方便，后续描述时将这两个统一为特征向量。
现有待监测视频指纹的生成方法的问题在于：
需要大量的复杂计算：现有技术中，通过计算得到关键帧的算法，因基于解压域的诸像素和诸帧处理，计算复杂度很高(复杂度与视频分辨率和帧数成线性关系)。需要做大量的运算。此外，视频解压本身也需要做大量的运算，特别是对较复杂的视频编码算法和较高分辨率的视频内容；
需要很高的网络流量：上述方法需要通过网络获取较大的视频文件或视频流的内容后才能够进行后续处理。而一个视频文件大小往往很大：Web2.0网站上的视频大小一般在10MB～100MB，而高清视频可达1GB～10GB的大小。所以当需要对网络上的视频文件进行处理时，视频文件的获取会产生很大的网络流量，会增加相关服务的运营成本。
需要较高的存储空间：存储通过网络获取较大的视频文件或视频流的内容后，需要进行相应的存储，这样就需要较大的存储空间。
可见由于现有基于内容的视频拷贝监测过程的高带宽、大计算量、大容量存储需求，资源消耗较高，使得其不适合于网络视频的实时拷贝监视。

发明内容

为了解决现有基于内容的视频拷贝监测资源消耗较高的问题，本发明实施例提供了一种基于内容的视频拷贝监测方法，包括：
通过网络从待监测视频中根据预定义的抽取规则，抽取部分视频帧作为待监测视频帧；
抽取待监测视频帧的特征向量；
从视频指纹库敏感视频的关键帧特征向量中，匹配与待监测视频帧相似的关键帧特征向量，所述相似的关键帧特征向量与待监测视频帧特征向量的距离，小于给定的匹配阈值。
同时本发明实施例还提供一种基于内容的视频拷贝监测装置，包括：
扫描模块：用于通过网络从待监测视频中根据预定义的抽取规则，抽取部分视频帧作为待监测视频帧；
抽取模块：用于抽取待监测视频帧的特征向量；
视频指纹库：用于存储敏感视频的关键帧特征向量和给定的匹配阈值；
匹配模块：用于从视频指纹库中调取敏感视频的关键帧特征向量及给定的匹配阈值，匹配与待监测视频帧特征向量之间的距离小于给定的匹配阈值的关键帧。
由上述本发明提供的具体实施方案可以看出，正是由于无需通过计算生成关键帧的方式生成待监测视频帧，而是采用了抽取部分视频帧的方法作为待监测视频帧，使得不需通过大量的计算得到关键帧，同时通过网络获取的视频文件或视频流的内容较小并且下载后所需存储的空间较小，因此减少了监测时的资源消耗。

附图说明

图1为本发明提供的第一实施例方法流程图；
图2为本发明提供的第二实施例装置结构图。

具体实施方式

为了构造一个基于内容的资源消耗较低的网络视频实时拷贝监测系统，本发明实施例公开了一种基于内容的视频拷贝监测方法。该方法的基本思想是：指纹库的建立采用通过计算得到关键帧的方法，再由关键帧特征向量构建视频指纹库。而对网络上的待监测视频，仅通过网络抽取其中的部分视频帧，然后抽取这些视频帧的特征向量作为待监测视频的视频指纹，再运用此指纹数据在指纹库中进行匹配、查找。相对于传统的视频拷贝监测方法，该方法在进行待监测视频指纹的抽取时只需从网络获取视频文件/视频流的部分内容即可生成指纹，从而减少了所需要的网络流量；同时由于无需解码全部视频、无需进行场景分割和关键帧抽取，所以极大地降低了拷贝监测时指纹生成的计算复杂度，因此资源消耗较低。
本发明提供的第一实施例是的方法，方法流程如图1所示，包括：
步骤102：对敏感视频进行解码，获取解码之后每一帧的图像数据。
若在解压域通过计算得到关键帧和生成视频指纹，那么则需要本步骤否则本步骤可省略。
步骤104：从敏感视频中选取出关键帧。
作为优选方案，从敏感视频中按预定义的规则确定初始关键帧，通过初始关键帧确定其它关键帧，其它关键帧是通过判断各视频帧间特征向量的差距来得到。即计算判断当前视频帧和前一个关键帧之间的特征向量差值的绝对值或平方，若等于给定查找阈值，则确定当前视频帧是一个新的关键帧。
或者从敏感视频中选取组成一个镜头的所有图像帧特征向量到其他帧的特征向量平均距离最短的帧作为关键帧(这里两帧特征向量之间的距离是衡量两个帧的相似性的度量)，这样在后续实时匹配时，由于不是以通过计算得到的关键帧作为匹配帧，这样选择的关键帧可以保证和匹配帧的更高的相似性。
为此首先需要对敏感视频做镜头分割，然后对每个镜头，据基于最短平均距离的方法搜索其关键帧，并记录下关键帧到其他帧的最大距离，以备后面匹配查询时使用。
帧间特征向量的差值的可以用像素亮度、颜色、运动向量等进行直方图、平均统计获取，帧间距离的计算可以使用欧氏距离、Directed Divergence等。此外也可以将视频序列在尺度空间上应用DoG(Difference-of-Gaussian)卷积核来提取关键帧。
步骤106：抽取敏感视频所有关键帧的特征向量，并将这些特征向量组合到一起作为整个敏感视频的指纹。
关键帧的特征向量抽取有基于图像整体统计特性的算法(如像素平均亮度、颜色直方图、主要颜色等)，也有基于图像内容某些特征点和特征区域的算法(如在尺度空间抽取到的关键点、兴趣点、MSER区域等。注：MSER：Maximally Stable Extremal Regions)。
步骤108：将敏感视频的指纹以特征向量为单位加入指纹库。
为了做快速匹配检索，指纹库中特征向量需要做索引。对于小于10维的特征向量，使用KD树、R树等进行索引；对于高维的特征向量，或者先使用PCA(Principal Component Analysis)等方法降维，或者使用VA-File、LSH(Locality-Sensitive Hashing)等算法建立近似索引。
步骤110：通过网络从待监测视频中根据预定义的抽取规则，抽取部分视频帧作为待监测视频帧，并抽取待监测视频帧的特征向量。
一个网络视频实时监视系统需要定期扫描互联网上的视频内容，网络视频实时监视系统可以随机抽取待监测视频的部分视频帧，然后抽取这些视频帧的特征向量，并以此作为该视频的指纹数据。或按时间间隔抽取，被抽取各视频帧之间的时间间隔可以是随机的，也可以具有某种确定的关系，比如按固定的时间间隔。或按视频文件或流中的字节偏移抽取，视频帧之间间隔的字节数可以是随机的，也可以具有某种确定的函数关系或者根据视频文件/流格式分析所得的偏移量来决定。
待监测视频帧优选为帧内编码帧即I帧，这样无需进行运动补偿等复杂的帧间解码运算。
步骤112：以待监测视频的单帧指纹特征向量为单位，在已有指纹库的索引树(如使用KD树、R树等做索引组织)或者索引哈希(如使用LSH进行索引组织)中快速查找与待监测视频帧相似的关键帧，相似的关键帧特征向量距待监测视频帧特征向量的距离，小于给定的匹配阈值。
作为优选方案，相似的关键帧特征向量距待监测视频帧特征向量的距离，小于该关键帧对应的镜头内最大距离。本步骤中的关键帧，可通过步骤104中的平均距离最短的方法获得。
或者，给定的匹配阈值为给定的查找阈值，即相似的关键帧特征向量距待监测视频帧特征向量的距离，小于给定的查找阈值。
然后根据这些搜索到相似的关键帧，统计出当前待监测视频与每个关键帧所属视频的相似度，取相似度最大的作为匹配视频。
待监测视频与敏感视频之间的相似度计算基于如下原则进行：
两个视频之间相似的帧越多，两个视频之间的相似性越大；
两个视频之间相似的帧符合时间上的顺序关系，两个视频的相似性越大。
本发明提供的第二实施例是一种基于内容的视频拷贝监测装置，其结构如图2所示，包括：
扫描模块202：用于通过网络从待监测视频中根据预定义的抽取规则，抽取部分视频帧作为待监测视频帧；
抽取模块204：用于抽取待监测视频帧的特征向量；
视频指纹库206：用于存储敏感视频的关键帧特征向量和给定的匹配阈值；
匹配模块208：用于从视频指纹库中调取敏感视频的关键帧特征向量及给定的匹配阈值，匹配与待监测视频帧特征向量之间的距离小于给定的匹配阈值的关键帧。
进一步，视频指纹库206：还用于存储敏感视频的关键帧特征向量和给定的匹配阈值，所述关键帧为敏感视频中一个视频镜头内与其他视频帧特征向量平均距离最小的视频帧，所述给定的匹配阈值为相似的关键帧特征向量与同一视频镜头内其他视频帧特征向量间的最大距离。
进一步，视频指纹库206：还用于存储给定的匹配阈值，所述给定的匹配阈值为给定的查找阈值，所述给定的查找阈值为相邻的关键帧的特征向量的差值的绝对值。
进一步，扫描模块202：还用于通过网络从待监测视频中随机抽取部分视频帧作为待监测视频帧；或通过网络从待监测视频中，按时间间隔抽取部分视频帧作为待监测视频帧；或通过网络从待监测视频中，按待监测视频文件或视频流中的字节偏移抽取部分视频帧作为待监测视频帧。
进一步，还包括：选择模块210：用于以选取出的相似的关键帧所属视频作为候选视频，统计待监测视频与所有候选视频的相似度，选择相似性最大的候选视频作为相似视频。
显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

一种基于内容的视频拷贝监测方法及装置转让专利

申请号 : CN200810223002.1

文献号 : CN101374234B

文献日 : 2010-09-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 张焕强 , 尹浩 , 黄东 , 李铮 , 惠雯 , 陈文涛

申请人 : 清华大学 , 北京蓝汛通信技术有限责任公司

摘要 :

权利要求 :

说明书 :

技术领域

背景技术

发明内容

附图说明

具体实施方式