音视频相似度分析机构转让专利

申请号 : CN201810976147.2

文献号 : CN110858314A

文献日 : 2020-03-03

本发明涉及一种音视频相似度分析机构，包括：拾音头，设置在电影播放端，用于在电影播放端播放电影画面时，对电影播放端波动的音频数据进行采集，以获得现场音频数据；同步控制设备，设置在球型摄像头和拾音头的之间，用于实现球型摄像头的采集动作和拾音头的采集动作的同步；球型摄像头，设置在电影播放端，用于对电影播放端播放的电影画面进行现场图像数据采集，以获得时间上连续的多帧现场电影画面，并输出所述时间上连续的多帧现场电影画面；内容归类设备，与所述球型摄像头连接，用于接收所述多帧现场电影画面，确定当前现场电影画面是否为片头图像，并输出一个或多个片头图像。通过本发明，保证了音视频数据的同步播放效果。

1.一种音视频相似度分析机构，所述机构包括：

拾音头，设置在电影播放端，用于在电影播放端播放电影画面时，对电影播放端波动的音频数据进行采集，以获得现场音频数据；

同步控制设备，设置在球型摄像头和拾音头的之间，用于实现球型摄像头的采集动作和拾音头的采集动作的同步；

球型摄像头，设置在电影播放端，用于对电影播放端播放的电影画面进行现场图像数据采集，以获得时间上连续的多帧现场电影画面，并输出所述时间上连续的多帧现场电影画面；

内容归类设备，与所述球型摄像头连接，用于接收所述多帧现场电影画面，将当前现场电影画面与前一帧现场电影画面进行内容突变检测以获得第一内容突变水平，将当前现场电影画面与后一帧现场电影画面进行内容突变检测以获得第二内容突变水平，当所述第一内容突变水平和所述第二内容突变水平都超过限量时，确定当前现场电影画面为片头图像，并输出一个或多个片头图像；

TF存储设备，与数据处理设备连接，用于预先存储所述数据处理设备需要使用的形态学滤波器对应的滤波模式以及同态滤波器对应的滤波模式；

颜色采集设备，与所述内容归类设备连接，用于接收所述片头图像，获取所述片头图像中的每一个像素点的红色通道值，将所述片头图像中的每一个像素点作为待测量像素点，获得所述待测量像素点周围的各个像素点的各个红色通道值；

梯度测量设备，与所述颜色采集设备连接，用于基于所述待测量像素点周围的各个像素点的各个红色通道值确定所述待测量像素点的各个方向的梯度值，并在各个方向的梯度值中存在幅值超限的梯度值时，确定所述待测量像素点为外沿像素点，以及在各个方向的梯度值中不存在幅值超限的梯度值时，确定所述待测量像素点为内部像素点；

图案分类设备，与所述梯度测量设备连接，用于将各个外沿像素点组成的一个或多个图案确定为一个或多个外沿图案，将各个内部像素点组成的一个或多个图案确定为一个或多个内部图案；

数据处理设备，与所述图案分类设备连接，用于接收所述一个或多个外沿图案以及所述一个或多个内部图案，对每一个外沿图案采用形态学滤波器进行滤波处理，以获得对应的外沿处理图案，并对每一个内部图案采用同态滤波器进行滤波处理，以获得对应的内部处理图案；

图案合并设备，与所述数据处理设备连接，用于接收所述数据处理设备输出的一个或多个外沿处理图案以及一个或多个内部处理图案，并将所述一个或多个外沿处理图案以及所述一个或多个内部处理图案合并，以获得与所述片头图像对应的合并图像；

对象识别设备，与所述图案合并设备连接，用于接收每一个合并图像，识别出每一个合并图像中的一个或多个人员对象，并基于标准男体外形和标准女体外形判断每一个人员对象归属性别类型，以输出每一个合并图像中的女性人员对象的数量和男性人员对象的数量；

言情剧分析设备，与所述对象识别设备连接，用于接收每一个合并图像中的女性人员对象的数量和男性人员对象的数量，并统计各个合并图像中的女性人员对象总数和男性人员对象总数，在女性人员对象总数与男性人员对象总数的差值的绝对值小于等于预设差值阈值时，发出言情剧识别信号；

匹配度提取设备，分别与所述言情剧分析设备和所述拾音头连接，用于在接收到所述言情剧识别信号时，鉴定所述拾音头输出的现场音频数据是否归属于抒情音乐，并在归属于抒情音乐时，发出准予发行信号。

2.如权利要求1所述的音视频相似度分析机构，其特征在于：

在所述言情剧分析设备中，还用于在女性人员对象总数与男性人员对象总数的差值的绝对值大于所述预设差值阈值时，发出非言情剧识别信号。

3.如权利要求2所述的音视频相似度分析机构，其特征在于：

在所述图案合并设备中，将所述一个或多个外沿处理图案以及所述一个或多个内部处理图案合并，以获得与所述片头图像对应的合并图像包括：将所述一个或多个外沿处理图案以及所述一个或多个内部处理图案内图案之间的拼接处进行像素点的像素值融合，以获得与所述片头图像对应的合并图像。

4.如权利要求3所述的音视频相似度分析机构，其特征在于：

在所述图案分类设备中，将各个外沿像素点组成的一个或多个图案确定为一个或多个外沿图案包括：当外沿图案所占据的外沿像素点小于等于第一数量阈值时，将其从所述一个或多个外沿图案处删除。

5.如权利要求4所述的音视频相似度分析机构，其特征在于：

在所述图案分类设备中，将各个内部像素点组成的一个或多个图案确定为一个或多个内部图案包括：当内部图案所占据的内部像素点小于等于第二预设数量阈值时，将其从所述一个或多个内部图案处删除。

6.如权利要求5所述的音视频相似度分析机构，其特征在于：

在所述图案分类设备中，所述第一数量阈值小于所述第二数量阈值。

7.如权利要求1-6任一所述的音视频相似度分析机构，其特征在于：

所述匹配度提取设备还用于在鉴定所述拾音头输出的现场音频数据不归属于抒情音乐，发出暂停发行信号。

音视频相似度分析机构

技术领域

[0001] 本发明涉及音视频领域，尤其涉及一种音视频相似度分析机构。

背景技术

[0002] 音视频隶属于弱电系统集成的分支，他专业性非常强，涉及电声学、建声学、心理学等多项边沿应用科学。

[0003] 对于电视剧的后期编辑来言，尤其对于言情剧，如果对视频内容的各种配曲选择不当，例如，选择了节奏感太强的歌曲，或者选择了摇滚歌手或说唱歌手的歌曲进行搭配，直接降低了观众的视听享受，浪费了精心制作的电视剧的画面内容。

[0004] 然而，现有技术中并不存在电子式的音频内容视频内容比对方案，人工比对的模式必然带来一些电视剧的音视频搭配的不当。

发明内容

[0005] 为了解决现有技术中同步播放音视频相似度不高的技术问题，本发明提供了一种音视频相似度分析机构。

[0006] 本发明至少具有以下两个重要发明点：

[0007] (1)引入同步控制设备，设置在球型摄像头和拾音头的之间，用于实现球型摄像头的采集动作和拾音头的采集动作的同步，更重要的是，在电影发行之前对配乐和内容进行相似性分析，以提高发行电影的质量；

[0008] (2)为了弥补同态滤波器破坏图像中目标的外沿信息的缺陷，采用梯度分析的方式对图像的外沿部分和内部部分进行辨识，以对图像的外沿部分和内部部分采用不同的滤波策略，从而减少同态滤波器对图像中目标的外沿信息的破坏。

[0009] 根据本发明的一方面，提供了一种音视频相似度分析机构，所述机构包括：

[0010] 拾音头，设置在电影播放端，用于在电影播放端播放电影画面时，对电影播放端波动的音频数据进行采集，以获得现场音频数据；同步控制设备，设置在球型摄像头和拾音头的之间，用于实现球型摄像头的采集动作和拾音头的采集动作的同步；球型摄像头，设置在电影播放端，用于对电影播放端播放的电影画面进行现场图像数据采集，以获得时间上连续的多帧现场电影画面，并输出所述时间上连续的多帧现场电影画面；内容归类设备，与所述球型摄像头连接，用于接收所述多帧现场电影画面，将当前现场电影画面与前一帧现场电影画面进行内容突变检测以获得第一内容突变水平，将当前现场电影画面与后一帧现场电影画面进行内容突变检测以获得第二内容突变水平，当所述第一内容突变水平和所述第二内容突变水平都超过限量时，确定当前现场电影画面为片头图像，并输出一个或多个片头图像；TF存储设备，与数据处理设备连接，用于预先存储所述数据处理设备需要使用的形态学滤波器对应的滤波模式以及同态滤波器对应的滤波模式；颜色采集设备，与所述内容归类设备连接，用于接收所述片头图像，获取所述片头图像中的每一个像素点的红色通道值，将所述片头图像中的每一个像素点作为待测量像素点，获得所述待测量像素点周围的各个像素点的各个红色通道值；梯度测量设备，与所述颜色采集设备连接，用于基于所述待测量像素点周围的各个像素点的各个红色通道值确定所述待测量像素点的各个方向的梯度值，并在各个方向的梯度值中存在幅值超限的梯度值时，确定所述待测量像素点为外沿像素点，以及在各个方向的梯度值中不存在幅值超限的梯度值时，确定所述待测量像素点为内部像素点；图案分类设备，与所述梯度测量设备连接，用于将各个外沿像素点组成的一个或多个图案确定为一个或多个外沿图案，将各个内部像素点组成的一个或多个图案确定为一个或多个内部图案；数据处理设备，与所述图案分类设备连接，用于接收所述一个或多个外沿图案以及所述一个或多个内部图案，对每一个外沿图案采用形态学滤波器进行滤波处理，以获得对应的外沿处理图案，并对每一个内部图案采用同态滤波器进行滤波处理，以获得对应的内部处理图案；图案合并设备，与所述数据处理设备连接，用于接收所述数据处理设备输出的一个或多个外沿处理图案以及一个或多个内部处理图案，并将所述一个或多个外沿处理图案以及所述一个或多个内部处理图案合并，以获得与所述片头图像对应的合并图像；对象识别设备，与所述图案合并设备连接，用于接收每一个合并图像，识别出每一个合并图像中的一个或多个人员对象，并基于标准男体外形和标准女体外形判断每一个人员对象归属性别类型，以输出每一个合并图像中的女性人员对象的数量和男性人员对象的数量；言情剧分析设备，与所述对象识别设备连接，用于接收每一个合并图像中的女性人员对象的数量和男性人员对象的数量，并统计各个合并图像中的女性人员对象总数和男性人员对象总数，在女性人员对象总数与男性人员对象总数的差值的绝对值小于等于预设差值阈值时，发出言情剧识别信号；匹配度提取设备，分别与所述言情剧分析设备和所述拾音头连接，用于在接收到所述言情剧识别信号时，鉴定所述拾音头输出的现场音频数据是否归属于抒情音乐，并在归属于抒情音乐时，发出准予发行信号。

[0011] 更具体地，在所述音视频相似度分析机构中：在所述言情剧分析设备中，还用于在女性人员对象总数与男性人员对象总数的差值的绝对值大于所述预设差值阈值时，发出非言情剧识别信号。

[0012] 更具体地，在所述音视频相似度分析机构中：在所述图案合并设备中，将所述一个或多个外沿处理图案以及所述一个或多个内部处理图案合并，以获得与所述片头图像对应的合并图像包括：将所述一个或多个外沿处理图案以及所述一个或多个内部处理图案内图案之间的拼接处进行像素点的像素值融合，以获得与所述片头图像对应的合并图像。

[0013] 更具体地，在所述音视频相似度分析机构中：在所述图案分类设备中，将各个外沿像素点组成的一个或多个图案确定为一个或多个外沿图案包括：当外沿图案所占据的外沿像素点小于等于第一数量阈值时，将其从所述一个或多个外沿图案处删除。

[0014] 更具体地，在所述音视频相似度分析机构中：在所述图案分类设备中，将各个内部像素点组成的一个或多个图案确定为一个或多个内部图案包括：当内部图案所占据的内部像素点小于等于第二预设数量阈值时，将其从所述一个或多个内部图案处删除。

[0015] 更具体地，在所述音视频相似度分析机构中：在所述图案分类设备中，所述第一数量阈值小于所述第二数量阈值。

[0016] 更具体地，在所述音视频相似度分析机构中：所述匹配度提取设备还用于在鉴定所述拾音头输出的现场音频数据不归属于抒情音乐，发出暂停发行信号。

附图说明

[0017] 以下将结合附图对本发明的实施方案进行描述，其中：

[0018] 图1为根据本发明实施方案示出的音视频相似度分析机构的球型摄像头的内部结构图。

具体实施方式

[0019] 下面将参照附图对本发明的音视频相似度分析机构的实施方案进行详细说明。

[0020] 言情剧的配置音乐一般需要抒情风格的音乐，这样才能营造出言情剧的氛围，使得电视观众能够融入剧情。

[0021] 然而，当前对言情剧的配置音乐的选择扔依赖人工方式进行操作，即使用有经验的后期制作人员进行人工海选音乐，以根据个人经验选取自己认定合适的配置音乐，这种人工方式不仅仅浪费了大量的人工，提高了电视剧的制作成本，而且人工选择的方式客观性较差，对音视频内容的动感、节奏等方面的匹配精度不足。当前，缺乏一种全自动的、电子化的配置音乐自选机制。

[0022] 为了克服上述不足，本发明搭建了一种音视频相似度分析机构，能够有效解决相应的技术问题。

[0023] 图1为根据本发明实施方案示出的音视频相似度分析机构的球型摄像头的内部结构图。

[0024] 根据本发明实施方案示出的音视频相似度分析机构包括：

[0025] 拾音头，设置在电影播放端，用于在电影播放端播放电影画面时，对电影播放端波动的音频数据进行采集，以获得现场音频数据；

[0026] 同步控制设备，设置在球型摄像头和拾音头的之间，用于实现球型摄像头的采集动作和拾音头的采集动作的同步；

[0027] 球型摄像头，设置在电影播放端，用于对电影播放端播放的电影画面进行现场图像数据采集，以获得时间上连续的多帧现场电影画面，并输出所述时间上连续的多帧现场电影画面；

[0028] 内容归类设备，与所述球型摄像头连接，用于接收所述多帧现场电影画面，将当前现场电影画面与前一帧现场电影画面进行内容突变检测以获得第一内容突变水平，将当前现场电影画面与后一帧现场电影画面进行内容突变检测以获得第二内容突变水平，当所述第一内容突变水平和所述第二内容突变水平都超过限量时，确定当前现场电影画面为片头图像，并输出一个或多个片头图像；

[0029] TF存储设备，与数据处理设备连接，用于预先存储所述数据处理设备需要使用的形态学滤波器对应的滤波模式以及同态滤波器对应的滤波模式；

[0030] 颜色采集设备，与所述内容归类设备连接，用于接收所述片头图像，获取所述片头图像中的每一个像素点的红色通道值，将所述片头图像中的每一个像素点作为待测量像素点，获得所述待测量像素点周围的各个像素点的各个红色通道值；

[0031] 梯度测量设备，与所述颜色采集设备连接，用于基于所述待测量像素点周围的各个像素点的各个红色通道值确定所述待测量像素点的各个方向的梯度值，并在各个方向的梯度值中存在幅值超限的梯度值时，确定所述待测量像素点为外沿像素点，以及在各个方向的梯度值中不存在幅值超限的梯度值时，确定所述待测量像素点为内部像素点；

[0032] 图案分类设备，与所述梯度测量设备连接，用于将各个外沿像素点组成的一个或多个图案确定为一个或多个外沿图案，将各个内部像素点组成的一个或多个图案确定为一个或多个内部图案；

[0033] 数据处理设备，与所述图案分类设备连接，用于接收所述一个或多个外沿图案以及所述一个或多个内部图案，对每一个外沿图案采用形态学滤波器进行滤波处理，以获得对应的外沿处理图案，并对每一个内部图案采用同态滤波器进行滤波处理，以获得对应的内部处理图案；

[0034] 图案合并设备，与所述数据处理设备连接，用于接收所述数据处理设备输出的一个或多个外沿处理图案以及一个或多个内部处理图案，并将所述一个或多个外沿处理图案以及所述一个或多个内部处理图案合并，以获得与所述片头图像对应的合并图像；

[0035] 对象识别设备，与所述图案合并设备连接，用于接收每一个合并图像，识别出每一个合并图像中的一个或多个人员对象，并基于标准男体外形和标准女体外形判断每一个人员对象归属性别类型，以输出每一个合并图像中的女性人员对象的数量和男性人员对象的数量；

[0036] 言情剧分析设备，与所述对象识别设备连接，用于接收每一个合并图像中的女性人员对象的数量和男性人员对象的数量，并统计各个合并图像中的女性人员对象总数和男性人员对象总数，在女性人员对象总数与男性人员对象总数的差值的绝对值小于等于预设差值阈值时，发出言情剧识别信号；

[0037] 匹配度提取设备，分别与所述言情剧分析设备和所述拾音头连接，用于在接收到所述言情剧识别信号时，鉴定所述拾音头输出的现场音频数据是否归属于抒情音乐，并在归属于抒情音乐时，发出准予发行信号。

[0038] 接着，继续对本发明的音视频相似度分析机构的具体结构进行进一步的说明。

[0039] 在所述音视频相似度分析机构中：在所述言情剧分析设备中，还用于在女性人员对象总数与男性人员对象总数的差值的绝对值大于所述预设差值阈值时，发出非言情剧识别信号。

[0040] 在所述音视频相似度分析机构中：在所述图案合并设备中，将所述一个或多个外沿处理图案以及所述一个或多个内部处理图案合并，以获得与所述片头图像对应的合并图像包括：将所述一个或多个外沿处理图案以及所述一个或多个内部处理图案内图案之间的拼接处进行像素点的像素值融合，以获得与所述片头图像对应的合并图像。

[0041] 在所述音视频相似度分析机构中：在所述图案分类设备中，将各个外沿像素点组成的一个或多个图案确定为一个或多个外沿图案包括：当外沿图案所占据的外沿像素点小于等于第一数量阈值时，将其从所述一个或多个外沿图案处删除。

[0042] 在所述音视频相似度分析机构中：在所述图案分类设备中，将各个内部像素点组成的一个或多个图案确定为一个或多个内部图案包括：当内部图案所占据的内部像素点小于等于第二预设数量阈值时，将其从所述一个或多个内部图案处删除。

[0043] 在所述音视频相似度分析机构中：在所述图案分类设备中，所述第一数量阈值小于所述第二数量阈值。

[0044] 在所述音视频相似度分析机构中：所述匹配度提取设备还用于在鉴定所述拾音头输出的现场音频数据不归属于抒情音乐，发出暂停发行信号。

[0045] 另外，所述匹配度提取设备为GPU器件。GPU在几个主要方面有别于DSP架构。其所有计算均使用浮点算法，而且此刻还没有位或整数运算指令。此外，由于GPU专为图像处理设计，因此存储系统实际上是一个二维的分段存储空间，包括一个区段号(从中读取图像)和二维地址(图像中的X、Y坐标)。此外，没有任何间接写指令。输出写地址由光栅处理器确定，而且不能由程序改变。这对于自然分布在存储器之中的算法而言是极大的挑战。最后一点，不同碎片的处理过程间不允许通信。实际上，碎片处理器是一个SIMD数据并行执行单元，在所有碎片中独立执行代码。

[0046] 尽管有上述约束，但是GPU还是可以有效地执行多种运算，从线性代数和信号处理到数值仿真。虽然概念简单，但新用户在使用GPU计算时还是会感到迷惑，因为GPU需要专有的图形知识。这种情况下，一些软件工具可以提供帮助。两种高级描影语言CG和HLSL能够让用户编写类似C的代码，随后编译成碎片程序汇编语言。Brook是专为GPU计算设计，且不需要图形知识的高级语言。因此对第一次使用GPU进行开发的工作人员而言，它可以算是一个很好的起点。Brook是C语言的延伸，整合了可以直接映射到GPU的简单数据并行编程构造。经GPU存储和操作的数据被形象地比喻成“流”(stream)，类似于标准C中的数组。核心(Kernel)是在流上操作的函数。在一系列输入流上调用一个核心函数意味着在流元素上实施了隐含的循环，即对每一个流元素调用核心体。Brook还提供了约简机制，例如对一个流中所有的元素进行和、最大值或乘积计算。Brook还完全隐藏了图形API的所有细节，并把GPU中类似二维存储器系统这样许多用户不熟悉的部分进行了虚拟化处理。

[0047] 采用本发明的音视频相似度分析机构，针对现有技术中同步播放音视频相似度不高的技术问题，通过引入同步控制设备，设置在球型摄像头和拾音头的之间，用于实现球型摄像头的采集动作和拾音头的采集动作的同步，更重要的是，在电影发行之前对配乐和内容进行相似性分析，以提高发行电影的质量；另外，为了弥补同态滤波器破坏图像中目标的外沿信息的缺陷，采用梯度分析的方式对图像的外沿部分和内部部分进行辨识，以对图像的外沿部分和内部部分采用不同的滤波策略，从而减少同态滤波器对图像中目标的外沿信息的破坏。

[0048] 可以理解的是，虽然本发明已以较佳实施例披露如上，然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言，在不脱离本发明技术方案范围情况下，都可利用上述揭示的技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

音视频相似度分析机构转让专利

申请号 : CN201810976147.2

文献号 : CN110858314A

文献日 : 2020-03-03

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 罗勇

申请人 : 罗勇

摘要 :

权利要求 :

说明书 :