一种音视频匹配零水印生成方法及音视频防篡改检测方法转让专利

申请号 : CN202010975238.1

文献号 : CN112153482B

文献日 : 2022-02-22

本发明公开了一种音视频匹配零水印生成方法及音视频防篡改检测方法。其中，在生成零水印时，本发明方法以时间为单位对音视频进行分段匹配，生成的零水印不仅携带了视频特征还携带了对应音频的声音特征；视频特征为每个视频段关键帧图像处理后构造的特征矩阵；声音特征在生成时，充分考虑到了无声段的影响，有声段和无声段生成不同的声音水印；对视频特征与声音水印进行异或操作，得到音视频匹配零水印，将其送到第三方版权认证机构进行注册保存。本发明方法生成的零水印可用于音视频防篡改检测以及自身的版权验证，实现了视频以及其对应音频的匹配性证明。当待验证音视频的任意一方遭到篡改时，通过本发明方法生成的零水印能有效证明其被篡改过。

1.一种音视频匹配零水印生成方法，其特征在于，包括如下步骤：a.对音视频流进行解码，以时间t1为单位进行分段，得到音视频段合集；

其中，对于音视频段合集中每个视频段对应的音频段按照下述步骤b进行处理；同时，对于音视频段合集中的每个视频段，按照下述步骤c进行处理；

b.生成加密后的声音水印，具体过程如下：取音频段一个声道的音频，即单声道音频段，进行特征提取；

b.1.首先判断音频段的类型；

若判定为无声段，则转到步骤b.2，若判定为有声段，则转到步骤b.3；

b.2.采用固定的版权水印，作为声音水印，并转到步骤b.4；

b.3.利用音频段非静音部分低频小波系数的一阶矩和二阶矩为特征，进行编码得到声音二值特征矩阵，将得到的声音二值特征矩阵作为声音水印，并转到步骤b.4；

b.4.对得到的声音水印进行加密，得到加密后的声音水印；

c.对视频段中的关键帧图像进行选取，然后基于关键帧图像构造视频特征矩阵；

d.将步骤b得到的加密后的声音水印与步骤c得到的视频特征矩阵进行异或操作，得到零水印；其中，该零水印中携带了相匹配的音频和视频的特征信息。

2.根据权利要求1所述的音视频匹配零水印生成方法，其特征在于，所述步骤b.1中，当前音频段的类型判断过程为：b.1.1.首先对音频段以时间t2为单位进行分帧操作得到音频帧集合；

b.1.2.计算音频帧集合中每个音频帧的短时平均过零率以及短时能量；

其中，每个音频帧的短时平均过零率，是指一帧语音时域信号穿过时间轴的次数；每个音频帧的短时能量，是指一帧语音信号的能量；

b.1.3.根据音频帧的短时平均过零率以及短时能量，判断此帧是否为静音帧；

b.1.4.根据音频帧集合中静音帧的数量占音频帧总数的比例是否大于设定音频段类型判断阈值，判断当前音频段的类型；

经过判断若大于设定音频段类型判断阈值，则判定为无声段，否则判定为有声段。

3.根据权利要求2所述的音视频匹配零水印生成方法，其特征在于，所述步骤b.1.2中短时平均过零率以及短时能量的计算公式分别如下：定义音频段x(j)分帧后得到音频帧yi(j)，l为帧长，i为帧号，fn为分帧后的总帧数；

则音频帧yi(j)的短时平均过零率ZCC(i)的计算公式为：式中，sgn[·]是符号函数，即则第i帧的短时能量E(i)的计算公式为：

4.根据权利要求2所述的音视频匹配零水印生成方法，其特征在于，所述步骤b.1.3中静音帧的判断过程为：设定短时平均过零率和短时能量的阈值分别为Th1、Th2；若音频帧的过零率小于阈值Th1，且其短时能量大于阈值Th2，则判定此音频帧为非静音帧；否则，判定为静音帧。

5.根据权利要求2所述的音视频匹配零水印生成方法，其特征在于，所述步骤b.3的具体过程为：

去除音频段在步骤b.1中被判定为静音帧的音频帧，保留音频段中的非静音部分，进行特征提取；对非静音部分进行二级小波变换得到低频小波系数；

以低频小波系数的一阶矩和二阶矩为特征进行K‑means编码，得到声音二值特征矩阵；

将得到的声音二值特征矩阵作为声音水印，并转到步骤b.4。

6.根据权利要求5所述的音视频匹配零水印生成方法，其特征在于，所述K‑means编码的具体过程为：设定K‑means聚类将数据分为两类，即分类数K＝2；第一类标记为0，第二类标记为1；

输入数据为1024行2列的矩阵，代表两个特征的数据矩阵，其行代表低频小波系数对应的段序号，第一列、第二列分别为每段低频小波系数的一阶矩和二阶矩；

输入数据经过K‑means编码后，输出长度为1024的一维二值矩阵，将得到的一维二值矩阵进行升维，得到32*32的声音二值特征矩阵，将该声音二值特征矩阵作为声音水印。

7.根据权利要求1所述的音视频匹配零水印生成方法，其特征在于，所述步骤b.4中，利用Logistics混沌加密方法对得到的声音水印进行加密。

8.根据权利要求1所述的音视频匹配零水印生成方法，其特征在于，所述步骤c的具体过程为：

c.1.对视频段进行关键帧选取，得到关键帧图像；将得到的帧号作为秘钥K1进行保存；

c.2.计算关键帧图像的Zernike矩A，并进行保存；

c.3.将关键帧图像从RGB空间转到YCocg空间，分解出Y、Co、Cg三分量；

c.4.对Co分量进行两级非下采样轮廓波变换，得到低频子带L；对得到的低频子带L进行DCT变换，然后分成多个不重叠子块；

c.5.对各个不重叠子块进行SVD分解得到对角矩阵；

c.6.提取对角矩阵中对角线元素的最大值，利用该最大值构造过渡矩阵；

c.7.以过渡矩阵中元素的均值为阈值，对过渡矩阵进行二值化处理，形成视频特征矩阵。

9.根据权利要求1所述的音视频匹配零水印生成方法，其特征在于，所述步骤d之后还包括步骤：

e.将经过步骤d得到的零水印注册保存在第三方版权认证机构数据库中。

10.一种音视频防篡改检测方法，其特征在于，包括如下步骤：I.对待验证的音视频流进行解码，以时间t1为单位进行分段，得到待验证的音视频段合集；其中，待验证的音视频段合集中包含待验证视频段与其对应的待验证音频段；

II.根据保存的帧号提取待验证视频段的关键帧图像，基于关键帧图像得到待验证的视频特征矩阵；

III.利用保存在第三方版权认证机构的零水印与待验证的视频特征矩阵进行异或操作，得到提取的加密声音水印；对提取的加密声音水印进行解密，得到提取的声音水印；其中：

该步骤中零水印由权利要求1至9任一项所述的音视频匹配零水印生成方法得到；

IV.对待验证音频段按照步骤b.1至步骤b.3进行处理，得到待验证音频的声音水印，即待验证的声音水印；

V.计算经过步骤III得到提取的声音水印和待验证的声音水印的归一化相关系数，根据归一化相关系数值的大小与设定篡改判断阈值的关系，判断待验证音视频是否遭到篡改；

若归一化相关系数的值大于设定篡改判断阈值，则表明待验证音视频未遭到篡改；若归一化相关系数的值不大于设定篡改判断阈值，则表明待验证音视频遭到篡改。

一种音视频匹配零水印生成方法及音视频防篡改检测方法

技术领域

[0001] 本发明涉及一种音视频匹配零水印生成方法、以及一种音视频防篡改检测方法。

背景技术

[0002] 由于电子技术、互联网以及多媒体技术的发展，各种各样的多媒体文件被广泛传播(如音频、视频等)，每个人都能借助互联网分享以及下载其他人的音视频。

[0003] 然而，随着各种音视频编辑软件的广泛应用，人们会出于某些目的，对音视频进行各种编辑，例如对视频对应的音频进行替换、剪切或者对视频画面进行替换、剪切等。

[0004] 被编辑篡改过的音视频通过互联网传播，容易对观看视频的人起到一定的误导作用。

[0005] 如果对于音视频的篡改只是为了娱乐，不会造成什么影响；如果音视频的篡改者怀揣不好的目的，比如引导公众舆论、恶意抹黑攻击他人等，那就会造成一系列恶劣的影
响。

[0006] 综上所述，对于音视频匹配以及防篡改的研究具有重要的意义。

[0007] 目前，针对音视频匹配以及防篡改并没有非常有效的检测方法。如果仅仅是音视频中音频或者视频的一段被篡改，可以通过相关技术查看其合成痕迹，确定哪一部分是合
成的。

[0008] 但是，如果将整个音视频中的全部音频移除，添加与原始音频完全不相关的音频，并进行重新组合编码，那么上述检测方法(即通过查看其合成痕迹的方法)便会失效。

[0009] 目前的水印生成方法大致有视频水印、视频零水印以及音视频交叉水印三种，其中：

[0010] 1.视频水印方案，是指将自己的版权图案作为水印，采用一定的算法以及算法组合将水印嵌入到视频中，用于验证视频的归属。常见的算法包括DWT、DCT、CT等。

[0011] 然而，该方案在嵌入水印时采取的是真实嵌入的方式，因而具有如下缺陷：

[0012] ①对视频内容即像素值造成了改变，如果算法选择不当，会造成视频质量下降，因此需要衡量鲁棒性和不可见性的关系；

[0013] ②由于视频图像对水印不可见性的要求，对嵌入的数据量和强度也有限制。

[0014] 该视频水印方案不涉及音频的特征，仅适用于无声视频或者仅关注视频版权的应用场合。

[0015] 2.视频零水印方案，同视频水印方案类似，区别在于零水印本身非嵌入的特性。该视频零水印方案也是单纯的视频水印，仅适用于无声视频或者仅关注视频版权的应用场
合。

[0016] 3.音视频交叉水印有两种，一种是提取声音的特征作为水印，利用相关算法将水印嵌入到视频中；另一种是利用自己的图案作为水印，采用相关算法将水印分别嵌入到音
频和视频。

[0017] 虽然上述音视频交叉水印方案涉及到了音视频，然而该方案却没有考虑到音视频是否匹配的问题，即如果对音频或者视频进行恶意替换，则该音视频交叉水印方案检测不
到。

[0018] 另外，由于音视频交叉水印方案采用的也是实际嵌入的方式，其弊端同上述方案1。

发明内容

[0019] 本发明的目的之一在于提出一种音视频匹配零水印生成方法，以实现视频以及其对应音频之间的匹配性证明。本发明为了实现上述目的，采用如下技术方案：

[0020] 一种音视频匹配零水印生成方法，包括如下步骤：

[0021] a.对音视频流进行解码，以时间t1为单位进行分段，得到音视频段合集；

[0022] 其中，对于音视频段合集中每个视频段对应的音频段按照下述步骤b进行处理；同时，对于音视频段合集中的每个视频段，按照下述步骤c进行处理；

[0023] b.生成加密后的声音水印，具体过程如下：

[0024] 取音频段一个声道的音频，即单声道音频段，进行特征提取；

[0025] b.1.首先判断音频段的类型；

[0026] 若判定为无声段，则转到步骤b.2，若判定为有声段，则转到步骤b.3；

[0027] b.2.采用固定的版权水印，作为声音水印，并转到步骤b.4；

[0028] b.3.利用音频段非静音部分低频小波系数的一阶矩和二阶矩为特征，进行编码得到声音二值特征矩阵，将得到的声音二值特征矩阵作为声音水印，并转到步骤b.4；

[0029] b.4.对得到的声音水印进行加密，得到加密后的声音水印；

[0030] c.对视频段中的关键帧图像进行选取，然后基于关键帧图像构造视频特征矩阵；

[0031] d.将步骤b得到的加密后的声音水印与步骤c得到的视频特征矩阵进行异或操作，得到零水印；其中，该零水印中携带了相匹配的音频和视频的特征信息。

[0032] 优选地，步骤b.1中，当前音频段的类型判断过程为：

[0033] b.1.1.首先对音频段以时间t2为单位进行分帧操作得到音频帧集合；

[0034] b.1.2.计算音频帧集合中每个音频帧的短时平均过零率以及短时能量；

[0035] 其中，每个音频帧的短时平均过零率，是指一帧语音时域信号穿过时间轴的次数；每个音频帧的短时能量，是指一帧语音信号的能量；

[0036] b.1.3.根据音频帧的短时平均过零率以及短时能量，判断此帧是否为静音帧；

[0037] b.1.4.根据音频帧集合中静音帧的数量占音频帧总数的比例是否大于设定音频段类型判断阈值，判断当前音频段的类型；

[0038] 经过判断若大于设定音频段类型判断阈值，则判定为无声段，否则判定为有声段。

[0039] 优选地，步骤b.1.2中短时平均过零率以及短时能量的计算公式分别如下：

[0040] 定义音频段x(j)分帧后得到音频帧yi(j)，l为帧长，i为帧号，fn为分帧后的总帧数；

[0041] 则音频帧yi(j)短时平均过零率ZCC(i)的计算公式为：

[0042]

[0043] 式中，sgn[·]是符号函数，即

[0044] 则第i帧的短时能量E(i)的计算公式为：

[0045] 优选地，步骤b.1.3中静音帧的判断过程为：

[0046] 分别设定短时平均过零率和短时能量的阈值分别为Th1、Th2；若音频帧的过零率小于阈值Th1，且短时能量大于阈值Th2，则判定此音频帧为非静音帧；否则，判定为静音帧。

[0047] 优选地，步骤b.3的具体过程为：

[0048] 去除音频段在步骤b.1中被判定为静音帧的音频帧，保留音频段中的非静音部分，进行特征提取；对非静音部分进行二级小波变换得到低频小波系数；

[0049] 以低频小波系数的一阶矩和二阶矩为特征进行K‑means编码，得到声音二值特征矩阵；

[0050] 将得到的声音二值特征矩阵作为声音水印，并转到步骤b.4。

[0051] 优选地，K‑means编码的具体过程为：

[0052] 设定K‑means聚类将数据分为两类，即分类数K＝2；第一类标记为0，第二类标记为1；

[0053] 输入数据为1024行2列的矩阵，代表两个特征的数据矩阵，其行代表低频小波系数对应的段序号，第一列、第二列分别为每段低频小波系数的一阶矩和二阶矩；

[0054] 输入数据经过K‑means编码后，输出长度为1024的一维二值矩阵，将得到的一维二值矩阵进行升维，得到32*32的声音二值特征矩阵，将该声音二值特征矩阵作为声音水印。

[0055] 优选地，步骤b.4中，利用Logistics混沌加密方法对得到的声音水印进行加密。

[0056] 优选地，步骤c的具体过程为：

[0057] c.1.对视频段进行关键帧选取，得到关键帧图像；将得到的帧号作为秘钥K1进行保存；

[0058] c.2.计算关键帧图像的Zernike矩A，并进行保存；

[0059] c.3.将关键帧图像从RGB空间转到YCocg空间，分解出Y、Co、Cg三分量；

[0060] c.4.对Co分量进行二层非下采样轮廓波变换，得到低频子带L；对得到的低频子带L进行DCT变换，然后分成多个不重叠子块；

[0061] c.5.对各个不重叠子块进行SVD分解得到对角矩阵；

[0062] c.6.提取对角矩阵中对角线元素的最大值，利用该最大值构造过渡矩阵；

[0063] c.7.以过渡矩阵中元素的均值为阈值，对过渡矩阵进行二值化处理，形成视频特征矩阵。

[0064] 优选地，步骤d之后还包括步骤：

[0065] e.将经过步骤d得到的零水印注册保存在第三方版权认证机构的数据库中。

[0066] 本发明的目的之二在于提出一种音视频防篡改检测方法，该方法基于上述音视频匹配零水印生成方法生成的零水印，能够有效实现音视频被恶意篡改后的检测。

[0067] 本发明为了实现上述目的，采用如下技术方案：

[0068] 一种音视频防篡改检测方法，包括如下步骤：

[0069] I.对待验证的音视频流进行解码，以时间t1为单位进行分段，得到待验证的音视频段合集；其中，待验证的音视频段合集中包含待验证视频段与其对应的待验证音频段；

[0070] II.根据保存的帧号提取待验证视频段的关键帧图像，基于关键帧图像得到待验证的视频特征矩阵；

[0071] III.利用第三方版权认证机构中保存的零水印与待验证的视频特征矩阵进行异或操作，得到提取的加密声音水印；对提取的加密声音水印进行解密，得到提取的声音水
印；其中：

[0072] 该步骤中零水印由权利要求1至9任一项所述的音视频匹配零水印生成方法得到；

[0073] IV.对待验证音频段进行处理，得到待验证音频的声音水印，即待验证的声音水印；

[0074] V.计算经过步骤III得到提取的声音水印和待验证的声音水印的归一化相关系数，根据归一化相关系数值的大小与设定篡改判断阈值的关系，判断待验证音视频是否遭
到篡改；

[0075] 若归一化相关系数的值大于设定篡改判断阈值，则表明待验证音视频未遭到篡改；若归一化相关系数的值不大于设定篡改判断阈值，则表明待验证音视频遭到篡改。

[0076] 本发明具有如下优点：

[0077] 如上所述，本发明提出了一种音视频匹配零水印生成方法，该方法生成的零水印携带了相匹配的音频和视频的特征信息，可用于音视频防篡改检测以及自身的版权验证，
实现视频以及其对应音频的匹配性检验。此外，本发明还提出了一种音视频防篡改检测方
法，当待验证音、视频的任意一方遭到篡改时，通过本发明方法生成的零水印能够有效证明
其被篡改过。

附图说明

[0078] 图1为本发明实施例1中音视频匹配零水印生成方法的流程示意图；

[0079] 图2为本发明实施例1中音视频流进行解码分段后的示意图；

[0080] 图3为本发明实施例1中视频特征矩阵的生成流程图；

[0081] 图4为本发明实施例1中加密后的声音水印生成流程图；

[0082] 图5为本发明实施例1中有声段与无声段的判断流程图；

[0083] 图6为本发明实施例2中音视频防篡改检测方法的流程示意图。

具体实施方式

[0084] 下面结合附图以及具体实施方式对本发明作进一步详细说明：

[0085] 实施例1

[0086] 如图1所示，本实施例1述及了一种音视频匹配零水印生成方法，其包括如下步骤：

[0087] a.对音视频流进行解码，以时间t1为单位进行分段，得到分段后的音视频段合集{I(i),x(i)}，i＝1…n，如图2所示。

[0088] 其中，I(i)和x(i)分别为解码后的第i段视频段以及与该段视频段对应的音频段。

[0089] 假设t1为1s，即以1s为单位进行分段。

[0090] 其中，对于音视频段合集中每个视频段对应的音频段x(i)按照下述步骤b进行处理；同时，对于音视频段合集中的每个视频段I(i)，按照下述步骤c进行处理。

[0091] b.如图4所示，生成加密后的声音水印，具体过程如下：

[0092] 取音频段一个声道的音频，即单声道音频段，进行特征提取。

[0093] b.1.首先判断音频段的类型，如图5所示。

[0094] 当前音频段的类型判断过程为：

[0095] b.1.1.首先对音频段以时间t2为单位进行分帧操作，且帧与帧之间没有重叠，得到音频帧集合。该时间t2例如为20ms，即以20ms为单位进行分帧操作。

[0096] 由于音频帧的长度为20ms‑32ms之内时，提取的声音特征是短时平稳的。

[0097] b.1.2.计算音频帧集合中每个音频帧的短时平均过零率以及短时能量；

[0098] 其中，每个音频帧的短时平均过零率，是指一帧语音时域信号穿过时间轴的次数；每个音频帧的短时能量，是指一帧语音信号的能量。

[0099] 短时平均过零率以及短时能量的计算公式分别如下：

[0100] 定义音频段x(j)分帧后得到音频帧yi(j)，l为帧长，i为帧号，fn为分帧后的总帧数；

[0101] 则音频帧yi(j)的短时平均过零率ZCC(i)的计算公式为：

[0102]

[0103] 式中，sgn[·]是符号函数，即

[0104] 则第i帧的短时能量E(i)的计算公式为：

[0105] b.1.3.根据音频帧的短时平均过零率以及短时能量，判断此帧是否为静音帧。

[0106] 分别设定短时平均过零率和短时能量的阈值分别为Th1、Th2；若音频帧的过零率小于阈值Th1，且短时能量大于阈值Th2，则判定此音频帧为非静音帧；否则，判定为静音帧。

[0107] 判断的理论基础是在信噪比不是很低的情况下，语音片段的短时能量相对较大，而过零率相对较小；非语音片段的短时能量相对较小，但是过零率相对较大。

[0108] 当然，本实施例也并不局限于上述静音帧判断方式，例如还可以采用其他算法进行静音帧的判定，例如语音活动检测算法以及神经网络训练检测等方法。

[0109] b.1.4.根据音频段中静音帧的数量占音频帧总数的比例是否大于设定音频段类型判断阈值，判断当前音频段的类型；

[0110] 经过判断若大于设定音频段类型判断阈值，则判定为无声段，否则判定为有声段。

[0111] 此处，设定音频段类型判断阈值范围为75％～90％，例如可以取80％或85％。

[0112] 若判定音频段为无声段，则转到步骤b.2，若判定为有声段，则转到步骤b.3。

[0114] b.3.利用音频段非静音部分低频小波系数的一阶矩和二阶矩为特征，进行编码得到声音二值特征矩阵，将得到的声音二值特征矩阵作为声音水印，并转到步骤b.4。

[0115] 该步骤b.3的具体过程如下：

[0116] 去除音频段在步骤b.1中被判定为静音帧的音频帧，保留音频段中的非静音部分，进行特征提取；对非阈值部分进行二级小波变换得到低频小波系数LL。

[0117] 将低频小波系数LL分为1024段，计算每段小波系数的一阶矩μ及二阶矩σ。

[0118] 以低频小波系数的一阶矩和二阶矩为特征进行K‑means编码，得到声音二值特征矩阵。

[0119] K‑means编码的具体过程为：

[0120] 设定K‑means聚类将数据分为两类，即分类数K＝2；第一类标记为0，第二类标记为1；

[0121] 输入数据为1024行2列的矩阵，代表两个特征的数据矩阵，其行代表低频小波系数对应的段序号，第一列、第二列分别为每段低频小波系数的一阶矩和二阶矩；输入数据在坐
标轴上对应了1024个点，其中，横坐标为一阶矩的数值，纵坐标为二阶矩的数值。

[0122] 输入数据经过K‑means编码后，输出长度为1024的一维二值矩阵，其步骤如下：

[0123] (1)随机选取K个点，作为聚类中心，

[0124] (2)计算坐标轴上每个点分别到K个聚类中心的欧式距离d，将坐标轴的每个点划分到最近的聚类中心，形成K个簇；

[0125] (3)重新计算每个簇的均值，作为新的聚类中心；

[0126] (4)重复以上步骤(1)‑(3)，直到聚类中心的位置不再发生变化(或者变化很小)；

[0127] (5)将聚类中心小的类记为第一类，输出为0；其他的记为第二类，输出为1。

[0128] 由上述步骤(5)出长度为1024的一维二值矩阵，将得到的一维二值矩阵进行升维，得到32*32的声音二值特征矩阵，将该声音二值特征矩阵作为声音水印。

[0129] 将得到的声音二值特征矩阵作为声音水印，并转到步骤b.4。

[0130] 当然，本实施例采用的编码方式也并不局限于上述K‑means编码，例如还可以采取二值化编码、方块编码等编码方式，此处不再详述。

[0131] 本实施例在生成声音水印时，充分考虑到了无声段的影响，有声段和无声段分别生成不同的声音水印。考虑到音频在无声状态时不能提取到有效特征，在无声时也应与视
频关键帧生成匹配零水印，以避免无声段中白噪声对声音特征提取造成的影响，确保音视
频分段的实时匹配验证。本实施例采取的做法是，若音频为无声段，则采用固定的版权水印
作为声音水印，这样通过选择合适的版权水印，以提高音视频分段的实时匹配性和水印的
鲁棒性。

[0132] b.4.利用Logistics混沌加密方法对声音水印进行加密，得到加密后的声音水印W。

[0133] 本实施例在进行声音水印加密时采用的是Logistics加密的方式，当然，加密方式不仅限于这一种，例如还可以采取猫脸变化、QR码等方式进行加密。

[0134] c.对视频段中的关键帧图像进行选取，然后基于关键帧图像构造视频特征矩阵。

[0135] 如图3所示，构造视频特征矩阵的具体流程如下：

[0136] c.1.对视频段采用帧差欧式距离法进行关键帧选取，用D(i)表示第i帧图像的帧差欧式距离，D(i)的计算公式为：

[0137] 其中，N为视频的帧图像数目；gi、gi+1、gi+2分别为第i帧，第i+1帧，第i+2帧图像的灰度值。由上述公式不难看出，求解帧差欧式距离的过程即：

[0138] 对第i+2帧图像的灰度值与第i+1帧图像灰度值的差减去第i+1帧图像的灰度值与第i帧图像的灰度值的差的平方进行求和，并对和值求算术平方根。

[0139] 用帧差欧式距离法进行关键帧选取的步骤为：

[0140] (1)逐帧计算各图像的帧差欧式距离，N帧图像共有N‑2个帧差欧式距离；

[0141] (2)计算这N‑2个帧差欧式距离的极值，以及各极值点对应的函数值；

[0142] (3)计算各函数值的均值；

[0143] (4)比较各极值点所对应函数值与均值的大小，取出大于均值的点，其对应帧图像即为所有选取的关键帧图像，将所得到的帧号作为秘钥K1进行保存。

[0144] 本实施例在关键帧选取时采用的是基于帧间欧式距离的方法，但关键帧选取的方法不仅限于这一种，还可以采用基于聚类的关键帧选取、基于图像相关系数的关键帧选取
等算法。

[0145] c.2.计算关键帧图像的Zernike矩A，并进行保存。

[0146] 设图像的像素值函数为f(x,y)，则其m1阶m2重Zernike矩的极坐标表达如下式所示：A＝|A|arg(A)。其中arg表示极坐标中的幅角。

[0147] 此处，设定m1＝5，m2＝1，即计算关键帧图像的5阶1重Zernike矩。

[0148] c.3.将关键帧图像从RGB空间转到YCoCg空间，分解出Y、Co、Cg三分量。其转换关系如公式所示：

[0149]

[0150] c.4.对Co分量进行二层非下采样轮廓波变换，得到低频子带L其大小为512*512。对得到的低频子带L进行DCT变换，然后分成32*32个不重叠子块。

[0151] 每个不重叠子块标记为Ti,j，其中，i＝1,2,…,32，j＝1,2,…,32。

[0152] c.5.对各个不重叠子块Ti,j进行SVD分解得到对角矩阵；分解公式如下：

[0153] [Ui,j,Si,j,Vi,j]＝SVD(Ti,j)。

[0154] 其中，Ui,j、Vi,j均为单位正交矩阵，Si,j为对角矩阵，仅在对角线上有非零值。

[0155] c.6.提取对角矩阵Si,j中对角线元素的最大值，记为利用该最大值构造32*32的过渡矩阵其中，i＝1,2,…,32，j＝1,2,…,32；

[0156] c.7.以过渡矩阵t(i,j)中元素的均值M为阈值，对过渡矩阵t(i,j)进行二值化处理，形成视频特征矩阵F，如下述公式所示：

[0157] d.将步骤c得到的视频特征矩阵F与步骤b得到的加密后的声音水印W进行异或操作，得到零水印Z，如公式所示：

[0158] 其中，以上零水印Z中携带了相匹配的音频和视频的特征信息。

[0159] 经过该步骤d得到的零水印即为每段视频携带的相应视频特征以及对应的音频段特征的零水印，即音视频匹配零水印。由于该音视频匹配零水印生成是以时间为单位，提取
每段对应的视频特征及音频特征，因此实现了音视频的实时匹配，使得不论是视频还是音
频上所发生的篡改，甚至是小片段的篡改，都能通过本实施例生成的零水印检测出来。

[0160] 本发明实施例1中零水印生成方法生成的零水印，克服了以整体音频特征或者是视频特征作为水印只能进行版权认定，小时间段音频或视频被篡改无法准确检测的问题。

[0161] 将零水印注册保存到第三方版权认证机构(例如数字版权认证中心)的数据库中。

[0162] 经过本实施例1方法生成的零水印携带了相匹配的音频和视频的特征信息，可用于音视频防篡改检测以及自身的版权验证，实现了视频以及其对应音频的匹配检测。

[0163] 实施例2

[0164] 如图6所示，本实施例2述及了一种音视频防篡改检测方法。

[0165] I.对待验证的音视频流进行解码，以时间t1为单位进行分段，得到待验证的音视频段合集；其中，待验证的音视频段合集中包含待验证视频段与其对应的待验证音频段。

[0166] 此处时间t1例如为1s，即以1s为单位进行分段。

[0167] II.根据保存的帧号提取待验证视频段的关键帧图像，基于关键帧图像得到待验证的视频特征矩阵。该步骤II的具体过程如下：

[0168] (1)根据保存的密钥K1提取对应视频段的关键帧图像。

[0169] (2)求关键帧图像的新Zernike矩A'，并根据之前保存的Zernike矩A，计算关键帧旋转角α，对关键帧进行旋转调整。旋转角α的计算公式为：

[0170] 此处m2为Zernike矩的重数，取m2＝1。

[0171] (3)对调整后的关键帧图像按照步骤c.3‑c.7进行处理，得到待验证的视频特征矩阵F'。

[0172] III.从第三方版权认证机构提取出之前注册保存的零水印，将其与F'进行异或操作，得得到提取的加密声音水印W'，对W'进行混沌解密，得到提取的声音水印w。

[0173] 本实施例2中的零水印即上述实施例1音视频匹配零水印生成方法生成的零水印。

[0174] IV.对待验证音频段按照步骤b.1‑b.3进行处理，得到待验证音频的声音水印，即待验证的声音水印w'。

[0175] V.计算经过步骤III得到提取的的声音水印w和待验证的声音水印w'的归一化相关系数NC，NC值越接近1，则表明两幅图像越相似。图像大小为P*P，NC的计算公式如下：

[0176]

[0177] 根据归一化相关系数值的大小与设定篡改判断阈值的关系，判断待验证音视频是否遭到篡改；若归一化相关系数的值大于设定篡改判断阈值，则表明待验证音视频未遭到
篡改；若归一化相关系数的值小不大于设定篡改判断阈值，则表明待验证音视频遭到篡改。

[0178] 当待验证音、视频的任意一方遭到篡改时，利用上述实施例1中生成的零水印，并配合本实施例2中的音视频防篡改检测方法，能够有效证明其被篡改过。

[0179] 为了进一步对本发明效果进行说明，本发明还给出了具体实例。其中，在具体实例中，采用H.264编码格式的本地录制的视频(含音频)，视频帧大小为1080*1920，长度为15
秒，帧率为27fps，分离出的音频码流采样率为44.1KHZ，16位量化比特，双声道文件。

[0180] 实验视频按方案分成15个音视频段，每个音视频段根据算法选出的关键帧数目不同。

[0181] 选其中两个典型的音视频段进行效果说明：

[0182] 音视频段1，音频无声，声音水印为固定的版权水印，算法提取的关键帧为17、20帧；

[0183] 音视频段2，音频有声，声音水印包含声音特征，算法提取的关键帧为3、6、8帧。

[0184] 本发明因采取零水印的方式，不进行实际的嵌入，不影响视频的视觉效果以及音频的听觉效果。所以嵌入水印的关键帧图像与未嵌入关键帧的图像完全相同。

[0185] 1.水印的鲁棒性测试。

[0186] (1)高斯噪声攻击：对视频帧分别添加强度为0.01，0.05的高斯噪声。表1为受攻击音视频段提取的声音水印与待验证的声音水印之间的NC值。

[0187] 表1高斯噪声攻击下提取的声音水印与待验证的声音水印之间的NC值

[0188]

[0189] (2)椒盐噪声攻击：对视频帧分别添加强度为0.01，0.05的椒盐噪声。表2为受攻击音视频段提取的声音水印与待验证的声音水印之间的NC值。

[0190] 表2椒盐噪声攻击下提取的声音水印与待验证的声音水印之间的NC值

[0191]

[0192] (3)旋转攻击：将视频帧按顺时针方向旋转1°，10°，20°，45°。表3为受旋转攻击的音视频段提取的声音水印与待验证的声音水印之间的NC值。

[0193] 表3旋转攻击下提取的声音水印与待验证的声音水印之间的NC值

[0194]

[0195]

[0196] (4)裁剪攻击：对视频帧进行裁剪攻击，分别裁剪左上角的1/20、1/16、1/4。表4为裁剪攻击下音视频段提取的声音水印与待验证的声音水印之间的NC值。

[0197] 表4裁剪攻击下提取的声音水印与待验证的声音水印之间的NC值

[0198]

[0199] (5)缩放攻击：对视频帧进行缩放攻击，将其缩小为视频帧大小的1/2，放大为视频帧大小的2倍。表5为缩放攻击下音视频段提取的声音水印与待验证的声音水印之间的NC
值。

[0200] 表5缩放攻击下提取的声音水印与待验证的声音水印之间的NC值

[0201]

[0202] (6)帧平均、帧重组攻击：帧平均攻击是将视频每帧与前后相邻两帧进行数学平均。帧重组是将视频的每帧与其后面一帧进行位置交换。表6为帧平均、帧重组攻击下音视
频段提取的声音水印与待验证的声音水印之间的NC值。

[0203] 表6帧平均、帧重组攻击下提取的声音水印与待验证的声音水印之间的NC值

[0204]

[0205] (7)压缩攻击：对视频进行MPEG4、H.264格式的压缩。表7为压缩攻击下音视频段提取的声音水印与待验证的声音水印之间的NC值。

[0206] 表7压缩攻击下提取的声音水印与待验证的声音水印之间的NC值

[0207]

[0208] 综上实验结果表明，本发明音视频匹配零水印生成方法生成的零水印能够很好地抵抗高斯噪声、椒盐噪声、裁剪、放缩、旋转、帧平均、帧重组以及MPEG4压缩、H.264压缩等攻
击，具有很好的鲁棒性。大多数攻击下提取水印与保存水印的NC值都接近1。

[0209] 2.水印的防篡改测试。

[0210] 任意选一个音视频段，对其音频进行恶意篡改，比如，视频段保持不变，但是音频段依次换成四段格式、长度与原音频均一致的音频段，形成四个篡改的音视频段。

[0211] 对原音视频段与四个篡改的音视频段，进行水印提取。表8为提取的声音水印与待验证的声音水印之间的NC值。

[0212] 表8各音视频段提取的声音水印与保存的声音水印之间的NC值

[0213]音视频段1 1
音视频段2 0.5211
音视频段3 0.6771
音视频段4 0.4113
音视频段5 0.3361

[0214] 从表8可看出，音视频段2、3、4、5是被恶意篡改的，其NC数值低，音视频段1未被篡改，其NC值为1。因此，从NC值的大小可明显判断出音视频段是否被篡改。经过播放比对之后
证明，音视频段1未被篡改，音视频段2、3、4、5的音频被恶意篡改。本发明的音视频匹配零水
印实现了音视频匹配性证明，并且可应用于音视频的防篡改检测。

[0215] 当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明
显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

一种音视频匹配零水印生成方法及音视频防篡改检测方法转让专利

申请号 : CN202010975238.1

文献号 : CN112153482B

文献日 : 2022-02-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 范迪 , 刘晓欣 , 孙文雪 , 吕常智 , 高尚 , 董爽 , 张潇

申请人 : 山东科技大学

摘要 :

权利要求 :

说明书 :