一种广告检测识别方法及系统转让专利

申请号 : CN200810057162.3

文献号 : CN100580693C

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 赵丹王向东钱跃良刘群林守勋

申请人 : 中国科学院计算技术研究所

摘要 :

本发明提供一种广告检测识别方法,包括:对待检测的广播电视节目数据进行预处理,得到所述数据音频流的短时能量包络;根据音频的短时能量特征,将所得到的短时能量包络切分为能量包络单元,得到待检测的广播电视节目数据的能量包络单元图;利用跳单元的策略和基于能量包络单元的相似性度量方法,对所述待检测的广播电视节目数据的能量包络单元图与已知广告的能量包络单元图进行比较,根据比较结果实现对广告的检测识别。本发明以音频特征取代视频特征、音视频特征结合等进行广告检测,具有计算复杂度低,检测效率高的优点;通过将待测数据与已知广告的音频特征进行比较,可以实现对特定广告的识别;本发明还具有应用范围广的优点。

权利要求 :

1、一种广告检测识别方法,包括以下步骤:

步骤1)、对待检测的广播电视节目数据进行预处理,得到数据音频流 的短时能量包络;

步骤2)、根据音频的短时能量特征,将步骤1)所得到的短时能量包 络切分为能量包络单元,得到所述待检测的广播电视节目数据的能量包络 单元图;

步骤3)、利用跳单元的策略和基于能量包络单元的相似性度量方法, 对步骤2)得到的所述待检测的广播电视节目数据的能量包络单元图与已 知广告的能量包络单元图进行比较,根据比较结果实现对广告的检测识 别;其中,所述的跳单元的策略包括以所述能量包络单元图中的能量包络 单元的起始点作为广告检测识别过程中进行比较操作的点;

步骤4)、采用基于KL2距离的方法对步骤3)所得到的广告检测识别 结果进行验证。

2、根据权利要求1所述的广告检测识别方法,其特征在于,所述预 处理包括:

步骤1-1)、从所述待检测的广播电视节目数据中分离出音频流;

步骤1-2)、对所述的音频流中的音频信号按照一定的时间间隔分为多 个帧;

步骤1-3)、对所得到的音频流进行短时能量特征提取;

步骤1-4)、将帧按照每一帧的短时平均能量形成短时能量包络。

3、根据权利要求1所述的广告检测识别方法,其特征在于,所述的 将短时能量包络切分为能量包络单元包括以下步骤:步骤2-1)、对短时能量包络中的能量均值进行平滑,得到各个帧的短 时能量值;

步骤2-2)、采用检测函数对各个帧的短时能量值进行检测,得到一个 检测结果,所述的检测函数将一个帧与其后续的N个帧分别进行比较,取 最大的比较结果作为该检测函数的值;

步骤2-3)、将步骤2-2)所得到的各个帧的检测函数结果与两个预先 设定的阈值进行比较,根据比较结果,计算帧被检测为切分点的概率;

步骤2-4)、根据步骤2-3)所得到的切分点概率,确定短时能量包络 中的切分点,根据所述的切分点将所述的短时能量包络切分为能量包络单 元。

4、根据权利要求3所述的广告检测识别方法,其特征在于,在所述 的步骤2-3)中,所述的帧被检测为切分点的概率的计算公式为: P ( i ) = 1 , d i T 2 d i - T 1 T 2 - T 1 , T 1 d i T 2 0 , d i T 1 其中,T1为所述的两个预先设定的阈值中的第一阈值,T2为所述的两 个预先设定的阈值中的第二阈值,di为所述检测函数的值,所述的i代表 第i帧,1≤i≤N,N为所述音频流被切分为帧后的总帧数。

5、根据权利要求4所述的广告检测识别方法,其特征在于,在所述 的步骤2-4)中,所述的切分点为所述的切分点概率为非0的帧。

6、根据权利要求1所述的广告检测识别方法,其特征在于,所述的 步骤3)包括:

步骤3-1)、在待检测广播电视节目数据的能量包络单元图上,依次选 择每个能量包络单元的起始点作为匹配操作的起始点;

步骤3-2)、将已知广告以及待检测广播电视节目数据分别用由切分点 位置和切分点概率组成的数对的形式表示;

步骤3-3)、将待检测广播电视节目数据的数对依次与每个已知广告的 数对进行比较,得到匹配点以及对应的匹配概率;

步骤3-4)、采用相似性度量函数对步骤3-3)所得到的匹配点以及对 应的广告进行计算,得到两者的相似值;

步骤3-5)、将步骤3-4)所得到的相似值与一个预先设定的第四阈值 进行比较,若所述的相似值大于该阈值,则认为与步骤3-3)所得到的匹 配点相对应的音频片段和与匹配点相对应的广告匹配。

7、根据权利要求6所述的广告检测识别方法,其特征在于,在所述 的步骤3-3)中,所述的将待检测广播电视节目数据的数对依次与每个已 知广告的数对进行比较包括:在已知广告的能量包络单元中存在一个切分点ui,而在待检测广播电 视节目数据中存在一个切分点vj,当满足条件|ui-vj|<T,认为ui为匹配点; 其中,i表示广告中的第i个切分点,i=1,2,...,m,m为广告中的切分点 的个数,j表示广播电视节目数据中的第j个切分点,j=1,2,...,n,n为广 播电视节目数据中的切分点的个数,所述T是一个预先定义的第三阈值。

8、根据权利要求7所述的广告检测识别方法,其特征在于,所述匹 配点对应的匹配概率为切分点ui的切分点概率和切分点vj的切分点概率中 的较小值。

9、根据权利要求6所述的广告检测识别方法,其特征在于,所述的 步骤3-4)包括:

步骤3-4-1)、对所述的匹配点以及对应广告中的相应切分点,计算召 回率R与精确率S;

步骤3-4-2)、根据所得到的召回率R与精确率S计算相似性度量函数 的值。

10、根据权利要求9所述的广告检测识别方法,其特征在于,所述的 召回率的计算公式为:

R ( U , V ) = Σ k = 1 K p k / Σ i = 1 m p i 其中,U表示已知广告;V表示待检测广播电视节目数据中的一个片 段;p表示所述已知广告的能量包络单元中的切分点概率,p′表示匹配点 的匹配概率;m表示广告U中的切分点的个数,K表示U与V匹配所得 到的匹配点的个数。

11、根据权利要求9所述的广告检测识别方法,其特征在于,所述的 精确率的计算公式为:

P ( U , V ) = Σ k = 1 K p k / Σ i = 1 n q i 其中,U表示已知广告;V表示待检测广播电视节目数据中的一个片 段;q表示所述待检测广播电视节目数据中的一个片段的切分点概率,p′表 示匹配点的匹配概率;n表示所述广播电视节目数据中的一个片段V中的 切分点的个数,K表示U与V匹配所得到的匹配点的个数。

12、根据权利要求9所述的广告检测识别方法,其特征在于,所述相 似性度量函数的计算公式为:

S ( U , V ) = 2 R ( U , V ) P ( U , V ) R ( U , V ) + P ( U , V ) .

13、根据权利要求1所述的广告检测识别方法,其特征在于,所述的 步骤4)包括:

步骤4-1)、对步骤3)所得到的广告检测识别结果以及对应的已知广 告的能量包络单元分别提取梅尔频率倒谱系数特征;

步骤4-2)、为所述广告检测识别结果的梅尔频率倒谱系数特征与对应 已知广告的梅尔频率倒谱系数特征分别建立高斯模型,在所建立的高斯模 型中分别计算均值和方差;

步骤4-3)、根据步骤4-2)计算所得的均值和方差,计算初检测结果 与对应广告间的KL2距离;

步骤4-4)、将步骤4-3)计算得到的KL2距离值与一个预先设定的第 五阈值进行比较,若所述的KL2距离值小于或等于该阈值,则认为步骤3) 所得到的检测识别结果与对应已知广告是同一个广告,即初检测结果正 确,否则,认为步骤3)所得到的检测识别结果为误报。

14、一种广告检测识别系统,包括:预处理模块、能量包络单元切分 模块、音频检索模块、广告音频特征库以及后处理模块;其中,所述的预处理模块用于对待检测的广播电视节目数据进行预处理,得 到所述数据音频流的短时能量包络;

所述的能量包络单元切分模块用于根据音频的短时能量特征,将短时 能量包络切分为能量包络单元;

所述的音频检索模块用于对所得到的所述待检测的广播电视节目数 据的能量包络单元图与已知广告的能量包络单元图进行比较,根据比较结 果实现对广告的检测识别;

所述的广告音频特征库用于存储已知广告的包含能量包络单元图以 及梅尔频率倒谱系数特征在内的特征信息;

所述的后处理模块的作用是对所述音频检索模块的结果提取梅尔频率 倒谱系数后,结合对应广告的梅尔频率倒谱系数进行KL2距离计算,以验 证初步检测的结果是否正确。

15、根据权利要求14所述的广告检测识别系统,其特征在于,还包 括一个结果评测模块,所述的结果评测模块的作用是对检测结果的准确性 以及检测时间进行评测。

16、根据权利要求14所述的广告检测识别系统,其特征在于,所述 的广告音频特征库由广告库中的已知广告经过预处理、特征提取和能量包 络单元切分得到。

说明书 :

技术领域

本发明涉及广告检测和识别领域,特别是涉及一种基于音频检索的广 告检测识别方法及系统。

背景技术

近年来广告自动检测在日常生活中扮演了越来越重要的角色,从而吸 引了越来越多学者的注意。例如,从电视终端用户来看,在录制节目时自 动滤掉广告,将会大大提高用户舒适度和效率;对于刊登广告者和公司而 言,自动检测特定的广告将能有效地验证广告公司履行合同情况;对于社 会公共机构而言,广告自动检测能够帮助检测违规广告。
目前已有很多广告自动检测方法。早期的学者主要运用基于规则的方 法,例如借助于电视台的台标,黑帧/静音帧和音量差异来检测和定位广告。 然而,现在这些方法都已经不再适用。一方面是因为目前很多电视台在插 播广告的时候不隐去台标,另一方面现在电视台插播广告的时候也很少再 插入黑帧。现有的广告检测方法还可采用基于镜头切分与分类的方法。在 这种方法中,需要首先提取电视节目的音、视频特征,然后利用统计模型, 例如SVM和HMM,对每个镜头进行分类,将镜头分为广告或普通的电视 节目。但这种方法也存在不足,随着广告与电视技术的发展,广告越来越 趋向于节目化,广告和电视节目之间的差异也越来越不明显。因此,采用 此类方法在广告检测的准确率上明显偏低。
除了上述的广告自动检测方法外,现有技术中还存在着多种类型的检 测方法。综合而言,可将现有的广告自动检测方法分为基于视频的广告自 动检测方法,基于视频、音频的广告自动检测方法,以及将音频、视频、 文本相结合的广告自动检测方法。但是现有技术中的上述各类方法,都存 在着检测所需数据量大,计算量非常大,速度比较慢,很难实现实时性能 的缺陷。此外,现有技术中的各类方法只能从音视频片断中区分广告与节 目,而无法识别出特定的广告,这也限制了广告自动检测方法的应用范围。

发明内容

本发明的目的是克服现有方法在进行广告检测时所需数据量大,计算 速度慢,无法满足实时要求的缺陷,从而提供一种具有较高检测效率,能 够对广告进行实时检测的方法。
本发明的又一个目的是克服现有方法无法对特定广告进行识别的缺 陷,从而提供一种能够识别特定广告的广告识别方法。
为了实现上述目的,本发明提供了一种广告检测识别方法,包括以下 步骤:
步骤1)、对待检测的广播电视节目数据进行预处理,得到所述数据音 频流的短时能量包络;
步骤2)、根据音频的短时能量特征,将步骤1)所得到的短时能量包 络切分为能量包络单元,得到所述待检测的广播电视节目数据的能量包络 单元图;
步骤3)、利用跳单元的策略和基于能量包络单元的相似性度量方法, 对步骤2)得到的所述待检测的广播电视节目数据的能量包络单元图与已 知广告的能量包络单元图进行比较,根据比较结果实现对广告的检测识 别;其中,所述的跳单元的策略包括以所述能量包络单元图中的能量包络 单元的起始点作为广告检测识别过程中进行比较操作的点;
步骤4)、采用基于KL2距离的方法对步骤3)所得到的广告检测识别 结果进行验证。
上述技术方案中,所述预处理包括:
步骤1-1)、从所述待检测的广播电视节目数据中分离出音频流;
步骤1-2)、对所述的音频流中的音频信号按照一定的时间间隔分为多 个帧;
步骤1-3)、对所得到的音频流进行短时能量特征提取;
步骤1-4)、将帧按照每一帧的短时平均能量形成短时能量包络。
上述技术方案中,所述的将短时能量包络切分为能量包络单元包括以 下步骤:
步骤2-1)、对短时能量包络中的能量均值进行平滑,得到各个帧的短 时能量值;
步骤2-2)、采用检测函数对各个帧的短时能量值进行检测,得到一个 检测结果,所述的检测函数将一个帧与其后续的N个帧分别进行比较,取 最大的比较结果作为该检测函数的值;
步骤2-3)、将步骤2-2)所得到的各个帧的检测函数结果与两个预先 设定的阈值进行比较,根据比较结果,计算帧被检测为切分点的概率;
步骤2-4)、根据步骤2-3)所得到的切分点概率,确定短时能量包络 中的切分点,根据所述的切分点将所述的短时能量包络切分为能量包络单 元。
上述技术方案中,在所述的步骤2-3)中,所述的帧被检测为切分点 的概率的计算公式为:
P ( i ) = 1 , d i T 2 d i - T 1 T 2 - T 1 , T 1 d i T 2 0 , d i T 1
其中,T1为所述的两个预先设定的阈值中的第一阈值,T2为所述的两 个预先设定的阈值中的第二阈值,di为所述检测函数的值,所述的i代表 第i帧,1≤i≤N,N为所述音频流被切分为帧后的总帧数。
上述技术方案中,在所述的步骤2-4)中,所述的切分点为所述的切 分点概率为非0的帧。
上述技术方案中,所述的步骤3)包括:
步骤3-1)、在待检测广播电视节目数据的能量包络单元图上,选择每 个能量包络单元的起始点作为匹配操作的起始点;
步骤3-2)、将已知广告以及待检测广播电视节目数据分别用由切分点 位置和切分点概率组成的数对的形式表示;
步骤3-3)、将待检测广播电视节目数据的数对依次与每个已知广告的 数对进行比较,得到匹配点以及对应的匹配概率;
步骤3-4)、采用相似性度量函数对步骤3-3)所得到的匹配点以及对 应的广告进行计算,得到两者的相似值;
步骤3-5)、将步骤3-4)所得到的相似值与一个预先设定的第四阈值 进行比较,若所述的相似值大于该阈值,则认为与步骤3-3)所得到的匹 配点相对应的音频片段和与匹配点相对应的广告匹配。
上述技术方案中,在所述的步骤3-3)中,所述的将待检测广播电视 节目数据的数对依次与每个已知广告的数对进行比较包括:
在已知广告的能量包络单元中存在一个切分点ui,而在待检测广播电 视节目数据中存在一个切分点vj,当满足条件|ui-vj|<T,认为ui为匹配点; 其中,i表示广告中的第i个切分点,i=1,2,…,m,m为广告中的切分点 的个数,j表示广播电视节目数据中的第j个切分点,j=1,2,…,n,n为广 播电视节目数据中的切分点的个数,所述T是一个预先定义的第三阈值。
上述技术方案中,所述匹配点对应的匹配概率p′为切分点ui的切分点 概率和切分点vj的切分点概率中的较小值。
上述技术方案中,所述的步骤3-4)包括:
步骤3-4-1)、对所述的匹配点以及对应广告中的相应切分点,计算召 回率R与精确率S;
步骤3-4-2)、根据所得到的召回率R与精确率S计算相似性度量函数 的值。
上述技术方案中,所述的召回率的计算公式为:
R ( U , V ) = Σ k = 1 K p k / Σ i = 1 m p i
其中,U表示已知广告;V表示待检测广播电视节目数据中的一个片 段;p表示所述已知广告的能量包络单元中的切分点概率,p′表示匹配点 的匹配概率;m表示广告U中的切分点的个数,K表示U与V匹配所得 到的匹配点的个数。
上述技术方案中,所述的精确率的计算公式为:
P ( U , V ) = Σ k = 1 K p k / Σ i = 1 n q i
其中,U表示已知广告;V表示待检测广播电视节目数据中的一个片 段;q表示所述待检测广播电视节目数据中的一个片段的切分点概率,p′表 示匹配点的匹配概率;n表示所述广播电视节目数据中的一个片段V中的 切分点的个数,K表示U与V匹配所得到的匹配点的个数。
上述技术方案中,所述相似性度量函数的计算公式为:
S ( U , V ) = 2 R ( U , V ) P ( U , V ) R ( U , V ) + P ( U , V )
上述技术方案中,所述的步骤4)包括:
步骤4-1)、对步骤3)所得到的广告检测识别结果提取MFCC特征;
步骤4-2)、为所述广告检测识别结果的MFCC特征与对应已知广告的 MFCC特征分别建立高斯模型,在所建立的高斯模型中分别计算均值和方 差;
步骤4-3)、根据步骤4-2)计算所得的均值和方差,计算初检测结果 与对应广告间的KL2距离;
步骤4-4)、将步骤4-3)计算得到的KL2距离值与一个预先设定的第 五阈值进行比较,若所述的KL2距离值小于或等于该阈值,则认为步骤3) 所得到的检测识别结果与对应已知广告是同一个广告,即初检测结果正 确,否则,认为步骤3)所得到的检测识别结果为误报。
本发明还提供了一种采用所述的广告检测识别方法的广告检测识别 系统,包括:预处理模块、能量包络单元切分模块、音频检索模块、广告 音频特征库以及后处理模块;其中,
所述的预处理模块用于对待检测的广播电视节目数据进行预处理,得 到所述数据音频流的短时能量包络;
所述的能量包络单元切分模块用于根据音频的短时能量特征,将短时 能量包络切分为能量包络单元;
所述的音频检索模块用于对所得到的所述待检测的广播电视节目数 据的能量包络单元图与已知广告的能量包络单元图进行比较,根据比较结 果实现对广告的检测识别;
所述的广告音频特征库用于存储已知广告的包含能量包络单元图以 及MFCC特征在内的特征信息;
所述的后处理模块的作用是对所述音频检索模块的结果提取MFCC 系数后,结合对应广告的MFCC系数进行KL2距离计算,以验证初步检 测的结果是否正确。
上述技术方案中,还包括一个结果评测模块,所述的结果评测模块的 作用是对检测结果的正确性以及检测时间进行评测。
上述技术方案中,所述的广告音频特征库由广告库中的已知广告经过 预处理和能量包络单元切分得到。
本发明的优点在于:
1、本发明的广告检测识别方法以音频特征取代视频特征、音视频特 征结合等进行广告检测,具有计算复杂度低,检测效率高的优点。
2、本发明的广告检测识别方法通过将待测数据与已知广告的音频特 征进行比较,可以实现对特定广告的识别。
3、本发明的广告检测识别方法基于音频特征进行识别,除了可以用 于传统的电视广告检测外,还可以对广播中的广告进行检测,具有应用范 围广的优点。
4、本发明的广告检测识别方法在检测过程中采用了初检测与再检测 的实现步骤,具有准确率高的优点。
5、本发明的广告检测识别方法在检测过程中采用了跳单元的策略, 极大的提高了检测效率。

附图说明

以下,结合附图来详细说明本发明的实施例,其中:
图1为在本发明的实施例中一个待检测广播电视节目数据在预处理后 得到的短时能量包络图;
图2为在本发明的实施例中一个已知的广告A在预处理后得到的短时 能量包络图;
图3为在本发明的实施例中一个已知的广告B在预处理后得到的短时 能量包络图;
图4为本发明的实施例中一个待检测广播电视节目数据进行短时能量 切分后得到的能量包络单元图;
图5为本发明的实施例中一个已知的广告A进行短时能量切分后得到 的能量包络单元图;
图6为本发明的实施例中一个已知的广告B进行短时能量切分后得到 的能量包络单元图;
图7为本发明的广告检测识别系统的组成示意图;
图8为本发明的广告检测识别系统中的广告音频特征库的生成过程 图;
图9为本发明的广告检测识别方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的说明。
与现有技术中的广告自动检测方法相比,本发明所公开的方法在总体 思路上有着很大的差别。本发明以电视节目中的音频信息为基础,对电视 节目片断中的广告进行快速检测,而没有像现有技术中的相关方法那样采 用电视节目片断中的视频信息。结合图9,下面对本发明方法的具体实施 步骤结合一个实例进行详细说明。
步骤10、对广告库中的数据,以及待检测的广播电视节目数据分别进 行预处理。在预处理过程中,从广告库数据或待检测的广播电视节目数据 中分离出音频流,然后将音频信号按照一定的时间间隔分为多个帧,然后 对音频流进行短时能量的特征提取,根据每一帧的短时平均能量形成短时 能量包络。一段特定的数据经过预处理后,可以得到相应的短时能量包络 图。在一个实施例中,音频信号每25ms作为一帧,每帧的帧移为10ms。
在本发明中所涉及的广告库是由技术人员所采集的各类广告的集合, 广告库中广告的完整性对最终广告自动检测准确率的高低有直接的影响。 因此,在采用本发明的方法对广告进行检测时应当尽可能地完善广告库中 的内容。
待检测的广播电视节目数据是用户从广播或电视上截取的一段数据, 在该数据中应当包含有广告以及普通电视节目。本发明的目的就是要从数 据中将广告区分出来。
为了方便理解,在一个实施例中,选择一个待检测的广播电视节目数 据,该数据在经过预处理后得到的短时能量包络图如图1所示,在该图中, 横轴表示时间,纵轴表示相应点的短时能量值。而在对应的广告库中,为 了说明的方便,假设广告库中只有两个广告,分别用广告A和广告B表示。 图2是广告A在预处理后得到的短时能量包络图,图3是广告B在预处理 后得到的短时能量包络图。虽然在本实施例中,广告库中只有两个广告, 但本领域的普通技术人员应当理解,在实际应用中,一个广告库中的广告 数量要远高于两个。
步骤20、根据音频的短时能量特征,将步骤10所得到的短时能量包 络图切分为不同的能量包络单元,形成能量包络单元图。
在本发明中,为了更快更精确地切分出能量包络单元,采用了一种与 音乐处理中的ONSET检测法相类似的方法。在该方法中,包括以下步骤:
步骤21、对短时能量包络图中的能量均值进行平滑;平滑的具体方法 是:将每一帧的能量值改为以该帧为中心,包含该帧前若干帧、该帧后若 干帧的一些帧内的能量值的均值。一个参考值是当前帧及其前5帧、后5 帧,共11帧。
步骤22、采用一个检测函数对平滑后的各个帧的短时能量值进行检 测,得到一个检测结果。所述的检测函数如公式(1)所示,
d i = max j = 1 , . . . , n ( E i + j / E i ) d i = max j = 1 , . . . , 10 ( E i + j / E i ) - - - ( 1 )
从上述公式可以看出,在该检测函数中,将一个帧与其后续的十个帧 分别进行比较,取最大的比较结果作为该检测函数的值。其中的di就是第 i帧的检测函数的值,Ei就是第i帧的短时能量值。
步骤23、将步骤22所得到的各个帧的检测函数结果与两个预先设定 的阈值进行比较,根据比较结果,计算帧被检测为切分点的概率。其中, 所述的两个预先设定的阈值分别被称为第一阈值、第二阈值,用T1表示第 一阈值,用T2表示第二阈值。本实施例中可选用的一组参考值是 T1=1.5,T2=2。所要计算的概率用P(i)表示,概率的计算如公式(2)所示:
P ( i ) = 1 , d i T 2 d i - T 1 T 2 - T 1 , T 1 d i T 2 0 , d i T 1 - - - ( 2 )
步骤24、根据步骤23所得到的切分点概率,确定短时能量包络图中 的切分点,其中,P(i)非0值的帧将被记录为能量包络的切分点。根据切 分点就可以得到能量包络单元。应当指出的是,由本步骤所得到的各个能 量包络单元长度并不一致。
以步骤10中所描述的实施例为例,在经过本步骤的上述操作后,分 别得到以下结果:待检测的广播电视节目数据的能量包络图在进行切分 后,所得到的能量包络单元图如图4所示,在该图中,用垂线表示了各个 切分点。而广告库中的广告A在切分后所得到的能量包络单元图如图5所 示;广告B在切分后所得到的能量包络单元图如图6所示。如图8所示, 广告库中的各个广告经过步骤10的预处理操作以及本步骤的能量包络切 分后,可以得到一个广告音频特征库,该特征库中包含了各个广告的能量 包络单元信息。在本实施例中,假设广告库中的数据没有相应的能量包络 单元信息,因此需要对广告库中的数据进行预处理与能量包络切分。但在 实际应用中,在对广告库中的数据做过一次预处理与能量包络切分后所得 到的广告音频特征库可以进行存储,在下次进行检测时,直接使用该广告 音频特征库中单元信息(包括位置信息和相应的概率)即可。此外,广告 音频特征库通常还包括MFCC特征,该特征通过一个特征提取步骤得到。
步骤30、利用跳单元的策略和基于能量包络单元的相似性度量方法对 步骤20得到的能量包络单元图进行音频检索,进而实现广告的初检测。 本步骤的具体实现步骤如下。
步骤31、在广告库中广告的能量包络单元图和待检测广播电视节目数 据的能量包络单元图上,选择每个能量包络单元的起始点作为音频检测过 程中进行匹配操作的点。
由于在本发明中,所检测的广告的位置可以用能量包络单元的起始点 表示,因此在本步骤中直接用能量包络单元的起始点作为进行匹配操作的 点。从能量包络单元的划分可以知道,每个能量包络单元至少包含一个帧, 通常包含多个帧。因此,在每个能量包络单元中选择一个点作为进行匹配 操作的点,可以避免现有技术中常见的固定步长匹配所带来的数量过大、 广告起始点不精确的缺陷,有助于提高广告检索效率。
步骤32、将广告库中的每个广告以及待检测广播电视节目数据分别用 切分点和概率对的形式表示。例如,用U表示一个广告,它的表示形式为 U=(u1,p1),(u2,p2),…,(um,pm),其中,u1,u2,…,um为切分点的位置,p1,p2,…,pm表 示通过公式(2)计算得到的切分点概率。同样的,对于待检测广播电视 节目数据,也可以用数对的形式表示,用V表示该数据,则它的表示形式 为V=(v1,q1),(v2,q2),…,(vn,qn),其中,vi,qi分别表示切分点位置和每个切分 点的概率。这种数对的表示形式实质上是能量包络单元图的另一种表达形 式。
步骤33、将待检测数据的数对依次与广告库中的每个广告的数对进行 比较,得到匹配点以及对应的匹配概率。在比较时,在广告库中的广告的 能量包络单元中存在一个切分点ui,而在待检测数据的存在一个切分点vj, 假设满足以下条件:|ui-vj|<T,则认为ui为匹配点,并且该点的匹配概率 为pi’=min(pi,qj),其中T是一个预先定义的阈值,称为第三阈值,在本实 施例中,第三阈值的一个参考值为5。由于在一个待检测数据中,可能包 含有多个广告,因此,待检测数据与一个广告匹配过程中得到相应的匹配 点后,仍然要与广告库中的其它广告进行匹配操作,查询是否还存在其它 的匹配点,直到广告库中的所有广告都进行了相应的匹配操作。
步骤34、采用相似性度量函数对步骤33所得到的匹配点以及对应的 广告计算,得到两者的相似值。
在前一步骤中,得到匹配点以及相应的匹配概率后,还需要在本步骤 中利用相似性度量函数对匹配点所代表的音频片段是否就是对应的广告 进行判断。仿照常用的召回率函数和精确率函数,本步骤中定义了两个相 似性度量函数,其计算公式如下:
R ( U , V ) = Σ k = 1 K p k / Σ i = 1 m p i - - - ( 3 )
P ( U , V ) = Σ k = 1 K p k / Σ i = 1 n q i - - - ( 4 )
上述两个公式的含义是:将广告U看作一个标准答案,比较片段V 中的切分点的位置是否与U中相同,并计算总体的符合的比率。召回率R 表示两片段中位置一致的正确的切分点的个数占U中切分点总数的比例, 而精确率P表示两片段中位置一致的正确的切分点的个数占V中切分点总 数的比例。从公式中可以看出,由于没有直接采用正确的个数,而是采用 正确的概率来衡量,所以R和P值将很少受到小概率值的影响,从而减少 了由于检测函数值贴近阈值的边界切分点而引起的错误匹配。因此,这两 个相似性度量函数比召回率和精确率更为可信。
在得到上述的两个相似性度量函数后,仿照现有技术中常见的用于综 合召回率和精确率的F值的定义方式引进相似值S,其定义如下:
S ( U , V ) = 2 R ( U , V ) P ( U , V ) R ( U , V ) + P ( U , V ) - - - ( 5 )
从上述相似性度量函数的定义可以看出,时间复杂度取决于R和P的 计算量,约为O(m+n)。相对于现在流行的相似性度量函数,例如时间复杂 度为O(mn)的基于频谱或者对数倒频谱的DTW距离度量方法,本发明中所 采用的短时能量特征更为简单,并且取得了更低的时间复杂度。
步骤35、将步骤34所得到的相似值S与一个预先设定的阈值进行比 较,若所述的相似值S大于该阈值,则认为与步骤33所得到的匹配点相 对应的音频片段和与匹配点相对应的广告匹配。在本步骤中所涉及的阈值 被称为第四阈值。
仍以前述步骤中的实施例为例,图4中的待检测的广播电视节目数据 的能量包络单元图与图6中的广告B的能量包络单元图相匹配,因此,可 以得出待检测的广播电视节目数据包含广告B的结论。
步骤40、采用基于KL2距离的后处理方法对步骤30的初检测结果进 行验证,以降低检测过程中可能存在的误报现象。
在步骤30对待检测数据进行初步检测后,由于在初检测中只是利用 了能量包络单元的位置信息,而在实际应用中,有少数不同音频段的能量 包络单元却具有相似位置信息,因而会导致误匹配。在本步骤中,为了减 少上述误匹配现象的发生,还可以对初检测的结果进行再次检测,具体实 现步骤如下:
步骤41、对步骤30检测得到的结果以及对应广告的能量包络单元分 别提取MFCC(Mel-Frequency Cepstrum Coefficients,梅尔频率倒谱 系数)特征。对MFCC特征的提取属于成熟的现有技术,在本发明中,提 取该特征只要提取每一帧的前12维MFCC系数即可。在本实施例中,假 设不存在包含有广告的能量包络单元图以及MFCC系数的广告音频特征 库,因此在本步骤中还需要对广告的能量包络单元提取MFCC特征,但在 实际使用中,对于具有广告音频特征库的情况,则在本步骤中可以不对广 告的能量包络单元提取MFCC特征,直接采用对应广告的MFCC特征即 可。
步骤42、将初检测结果的MFCC特征与对应广告的MFCC特征分别 建立高斯模型,在所建立的高斯模型中分别计算均值和方差。
步骤43、根据步骤42计算所得的均值和方差,计算初检测结果与对 应广告间的KL2距离。给定两个随机变量X和Y,分别用来表示初检测 结果和对应广告,两者间的KL2距离计算公式如下:
KL 2 ( X , Y ) = σ X 2 σ Y 2 + σ Y 2 σ Y 2 + ( X - Y ) 2 ( 1 σ X 2 + 1 σ Y 2 ) - - - ( 6 )
其中,X和Y分别为向量X和Y的均值,σX2和σY2分别为向量X 和Y的协方差矩阵的对角向量。当X和Y都服从高斯分布时,KL2距离 可以很好的表征两者之间的差异。
步骤44、根据步骤43计算得到的KL2距离值与一个预先设定的第五 阈值进行比较,若KL2距离值小于或等于该阈值,则认为初检测结果与对 应广告是同一个广告,即初检测结果正确,否则,认为初检测结果为误报。 由于再次检测中所采用的KL2距离是基于对数倒频谱特征的,因此能够消 除很多由于单元匹配而引起的误报。本步骤中所涉及的第五阈值在本实施 例中的参考值为1,但并不局限于上述值,通常的范围在0.6~1.2之间。
与前述步骤中采用短时能量特征进行检测的过程相比,在本步骤中, 根据MFCC特征建立高斯模型,以及根据高斯模型计算KL2距离的过程 较为复杂,所耗费的时间也较长。但由于在本步骤中只对初检测后的结果 进行再检测,因此极大地缩小了再检测的范围,使得整个检测过程所耗费 的时间与现有技术相比有较大的降低。表1中是在一个实施例中,对广告 自动检测的评测结果。从评测结果中可以看到,采用本发明的方法每处理 一个小时的节目片段需要用大约8分钟,适合于广告实时检测的需要。在 广告检测的精确率上也有很大的提高。
  片段   实际广告个数   召回率   精确率   处理时间(s)   片段1   18   100%   94.7%   474.687   片段2   24   91.7%   100%   441.14   片段3   28   100%   100%   456.671   片段4   55   96.4%   98.1%   452.937   片段5   30   96.7%   100%   432.5   总计   155   96.8%   98.7%   2257.935
表1
根据本发明的广告检测识别方法,可以生成相应的广告检测识别系 统。如图7所示,在该系统中包括预处理模块、能量包络单元切分模块、 音频检索模块以及广告音频特征库。其中,
预处理模块还包括音频流分离单元、特征提取单元。所述的音频流分 离单元用于对待检测数据进行音频流的分离。特征提取单元对分离得到的 音频流进行短时能量的特征提取,生成相应的短时能量包络。
能量包络单元切分模块用于根据音频的短时能量特征,将短时能量包 络切分为能量包络单元;
音频检索模块用于对所得到的所述待检测的广播电视节目数据的能 量包络单元图与已知广告的能量包络单元图进行比较,根据比较结果实现 对广告的检测识别;
广告音频特征库用于存储已知广告的能量包络单元图和MFCC特征。 广告音频特征库由广告库中的已知广告经过预处理、能量包络单元切分、 特征提取得到。
本发明的广告检测识别系统还包括一个后处理模块,所述的后处理模 块的作用是对所述音频检索模块的结果以及对应的广告提取MFCC系数 后,进行KL2距离计算,以再次检测初步检测的结果是否正确。
本发明的广告检测识别系统还包括一个结果评测模块,所述的结果评 测模块的作用是对检测结果的准确性以及检测时间进行评测。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。 尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理 解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案 的精神和范围,其均应涵盖在本发明的权利要求范围当中。