视频处理方法和装置、存储介质及电子设备转让专利
申请号 : CN202010858714.1
文献号 : CN111950653B
文献日 : 2021-09-10
发明人 : 王晟玮 , 汪亮
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种视频处理方法,其特征在于,包括:获取待处理的目标视频;
对所述目标视频中各个视频帧依次进行特征提取,得到与每个视频帧对应的图像特征集,其中,所述图像特征集中包括所述视频帧的至少两个图像特征;
获取所述图像特征集中各个图像特征的均值,将所述图像特征的均值作为与所述视频帧匹配的目标图像特征,依次比对相邻两个视频帧各自对应的目标图像特征,得到比对结果,根据所述比对结果对全部视频帧进行划分,得到第一场景视频帧列表,其中,所述第一场景视频帧列表中记录有所述目标视频中包含的多个场景分别对应的场景视频帧序列,每个场景视频帧序列中的首个视频帧为所述场景的关键视频帧;
依次获取每个所述关键视频帧和位于所述关键视频帧之前的参考视频帧之间的特征相似度,其中,所述特征相似度包括:所述关键视频帧的关键特征向量和所述参考视频帧的参考特征向量二者之间的余弦距离、所述关键视频帧与所述参考视频帧二者之间匹配特征点在所述关键视频帧中的第一占比,和所述关键视频帧与所述参考视频帧二者之间匹配特征点在所述参考视频帧中的第二占比;
在所述余弦距离大于第二阈值的情况下,确定所述特征相似度达到合并条件;
在所述余弦距离小于等于所述第二阈值,所述第一占比大于第三阈值且所述第二占比大于第四阈值的情况下,确定所述特征相似度达到所述合并条件;
在所述余弦距离小于等于所述第二阈值,且所述第一占比小于等于所述第三阈值的情况下,确定所述特征相似度并未达到所述合并条件,保留所述关键视频帧所在所述第一场景中的场景视频帧序列;
在所述余弦距离小于等于所述第二阈值,且所述第二占比小于等于所述第四阈值的情况下,确定所述特征相似度并未达到所述合并条件,保留所述关键视频帧所在所述第一场景中的场景视频帧序列;
所述关键视频帧与所述参考视频帧二者之间匹配特征点通过以下方式获取:将所述关键视频帧转换为关键视频帧灰度图,并将所述参考视频帧转换为参考视频帧灰度图;
采用尺度不变的特征变化算子,从所述关键视频帧灰度图中提取关键特征点集,并从所述参考视频帧灰度图中提取参考特征点集;
比对所述关键特征点集和所述参考特征点集,以获取所述匹配特征点;
在所述特征相似度达到合并条件的情况下,将所述关键视频帧所在第一场景中的场景视频帧序列,合并到所述参考视频帧所在第二场景中的场景视频帧序列中,以将所述第一场景视频帧列表更新为第二场景视频帧列表;
按照所述第二场景视频帧列表对所述目标视频进行分割处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标视频中各个视频帧依次进行特征提取,得到与每个视频帧对应的图像特征集包括:依次将所述目标视频中的每个视频帧作为当前视频帧,以执行以下特征提取操作,直至遍历所述目标视频中的全部视频帧:将所述当前视频帧中各个像素点映射至目标色彩编码空间中,以得到所述各个像素点在所述目标色彩编码空间内各个图像色彩分量参数的参数取值,其中,所述目标色彩编码空间包括至少两个图像色彩分量参数;
根据所述各个像素点的所述图像色彩分量参数的参数取值,确定与所述当前视频帧匹配的所述图像特征集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述各个像素点的所述图像色彩分量参数的参数取值,确定与所述当前视频帧匹配的所述图像特征集包括:获取所述各个像素点的第i个图像色彩分量参数的参数取值的均值,得到所述当前视频帧的第i个图像特征,其中,所述i为大于等于1,小于等于N的整数,所述N为所述目标色彩编码空间中所述图像色彩分量参数的数量,所述N为正整数。
4.根据权利要求1所述的方法,其特征在于,所述依次比对相邻两个视频帧各自对应的目标图像特征,得到比对结果包括:获取第j+1个视频帧的目标图像特征与第j个视频帧的目标图像特征的特征差值,其中,所述j为大于等于1,小于等于M‑1的整数,所述M为所述目标视频中视频帧的数量;比对所述特征差值与第一阈值,得到所述比对结果;
所述根据所述比对结果对全部视频帧进行划分,得到所述第一场景视频帧列表包括:在所述比对结果指示所述特征差值小于所述第一阈值的情况下,确定所述第j+1个视频帧与所述第j个视频帧为同一个场景,则将所述第j+1个视频帧添加到所述第j个视频帧所在的场景视频帧序列中;在所述比对结果指示所述特征差值大于等于所述第一阈值的情况下,确定所述第j+1个视频帧与所述第j个视频帧并非同一个场景,则为所述第j+1个视频帧创建新的场景视频帧序列。
5.根据权利要求1所述的方法,其特征在于,所述获取所述关键视频帧的关键特征向量和所述参考视频帧的参考特征向量包括:对所述关键视频帧和所述参考视频帧分别进行预处理,得到候选关键视频帧和候选参考视频帧;
将所述候选关键视频帧输入轻量级卷积神经网络,以得到所述关键特征向量,并将所述候选参考视频帧输入所述轻量级卷积神经网络,以得到所述参考特征向量,其中,所述轻量级卷积神经网络为利用多组样本图像对及对应的标签信息进行机器训练后所得到的用于生成图像的特征向量的神经网络,所述多组样本图像对中的每组样本图像对包括样本视频中第一样本场景中的首帧图像和第二样本场景的末帧图像,所述第二样本场景与所述第一样本场景相邻且位于所述第一样本场景之前,所述标签信息包括所述首帧图像的场景标签及所述末帧图像的场景标签。
6.根据权利要求5所述的方法,其特征在于,在所述获取待处理的目标视频之前,还包括:
获取多个所述样本视频,并提取每个所述样本视频中的所述多组图像对;
将每组图像对作为当前组图像对,执行以下操作,直至达到所述轻量级卷积神经网络的收敛条件:
将所述当前组图像对中的所述第一样本场景中的首帧图像输入第一训练卷积神经网络中,以得到第一特征向量,并将所述当前组图像对中的所述第二样本场景中的末帧图像输入第二训练卷积神经网络中,以得到第二特征向量,其中,所述轻量级卷积神经网络训练时使用孪生网络结构,所述孪生网络结构包括所述第一训练卷积神经网络和所述第二训练卷积神经网络,且所述第一训练卷积神经网络和所述第二训练卷积神经网络共享训练权重;
获取所述第一特征向量及所述第二特征向量之间的余弦距离,将所述第一特征向量及所述第二特征向量之间的余弦距离作为特征距离;
将所述特征距离及所述标签信息输入损失函数,以计算得到当前损失值;
获取所述当前损失值及所述当前损失值的上一个损失值的损失值差值;
在所述损失值差值指示所述孪生网络结构达到所述收敛条件的情况下,则将当前完成训练的所述第一训练卷积神经网络或所述第二训练卷积神经网络作为所述轻量级卷积神经网络。
7.一种视频处理装置,其特征在于,包括:第一获取单元,用于获取待处理的目标视频;
第一提取单元,用于对所述目标视频中各个视频帧依次进行特征提取,得到与每个视频帧对应的图像特征集,其中,所述图像特征集中包括所述视频帧的至少两个图像特征;
划分单元,用于获取所述图像特征集中各个图像特征的均值,将所述图像特征的均值作为与所述视频帧匹配的目标图像特征,依次比对相邻两个视频帧各自对应的目标图像特征,得到比对结果,根据所述比对结果对全部视频帧进行划分,得到第一场景视频帧列表,其中,所述第一场景视频帧列表中记录有所述目标视频中包含的多个场景分别对应的场景视频帧序列,每个场景视频帧序列中的首个视频帧为所述场景的关键视频帧;
第二获取单元,用于依次获取每个所述关键视频帧和位于所述关键视频帧之前的参考视频帧之间的特征相似度,其中,所述特征相似度包括:所述关键视频帧的关键特征向量和所述参考视频帧的参考特征向量二者之间的余弦距离、所述关键视频帧与所述参考视频帧二者之间匹配特征点在所述关键视频帧中的第一占比,和所述关键视频帧与所述参考视频帧二者之间匹配特征点在所述参考视频帧中的第二占比;
第一确定单元,用于在所述余弦距离大于第二阈值的情况下,确定所述特征相似度达到合并条件;
第二确定单元,用于在所述余弦距离小于等于所述第二阈值,所述第一占比大于第三阈值且所述第二占比大于第四阈值的情况下,确定所述特征相似度达到所述合并条件;
第三确定单元,用于在所述余弦距离小于等于所述第二阈值,且所述第一占比小于等于所述第三阈值的情况下,确定所述特征相似度并未达到所述合并条件,保留所述关键视频帧所在所述第一场景中的场景视频帧序列;
第四确定单元,用于在所述余弦距离小于等于所述第二阈值,且所述第二占比小于等于所述第四阈值的情况下,确定所述特征相似度并未达到所述合并条件,保留所述关键视频帧所在所述第一场景中的场景视频帧序列;
转换单元,用于将所述关键视频帧转换为关键视频帧灰度图,并将所述参考视频帧转换为参考视频帧灰度图;
第二提取单元,用于采用尺度不变的特征变化算子,从所述关键视频帧灰度图中提取关键特征点集,并从所述参考视频帧灰度图中提取参考特征点集;
比对单元,用于比对所述关键特征点集和所述参考特征点集,以获取所述匹配特征点;
合并更新单元,用于在所述特征相似度达到合并条件的情况下,将所述关键视频帧所在第一场景中的场景视频帧序列,合并到所述参考视频帧所在第二场景中的场景视频帧序列中,以将所述第一场景视频帧列表更新为第二场景视频帧列表;
分割处理单元,用于按照所述第二场景视频帧列表对所述目标视频进行分割处理。
8.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至6任一项中所述的方法。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。
说明书 :
视频处理方法和装置、存储介质及电子设备
技术领域
背景技术
常会对原始视频文件进行分割,形成多个视频片段,以便于针对每个视频片段进行视频质
量的增强和编码,最后再将多个编码后的视频片段合并,以得到完整的视频流文件。这里为
了使得同一场景内的连续视频帧播放质量一致,因而要求根据场景对视频进行分割。
行分割处理。但这样利用单一特征对场景的分析是不全面的,分割的适用范围受限,从而导
致视频分割准确率较低的问题。
发明内容
特征集,其中,上述图像特征集中包括上述视频帧的至少两个图像特征;根据上述图像特征
集对上述目标视频中的全部视频帧进行划分,得到第一场景视频帧列表,其中,上述第一场
景视频帧列表中记录有上述目标视频中包含的多个场景分别对应的场景视频帧序列,每个
场景视频帧序列中的首个视频帧为上述场景的关键视频帧;依次获取每个上述关键视频帧
和位于上述关键视频帧之前的参考视频帧之间的特征相似度;在上述特征相似度达到合并
条件的情况下,将上述关键视频帧所在第一场景中的场景视频帧序列,合并到上述参考视
频帧所在第二场景中的场景视频帧序列中,以将上述第一场景视频帧列表更新为第二场景
视频帧列表;按照上述第二场景视频帧列表对上述目标视频进行分割处理。
行特征提取,得到与每个视频帧对应的图像特征集,其中,上述图像特征集中包括上述视频
帧的至少两个图像特征;划分单元,用于根据上述图像特征集对上述目标视频中的全部视
频帧进行划分,得到第一场景视频帧列表,其中,上述第一场景视频帧列表中记录有上述目
标视频中包含的多个场景分别对应的场景视频帧序列,每个场景视频帧序列中的首个视频
帧为上述场景的关键视频帧;第二获取单元,用于依次获取每个上述关键视频帧和位于上
述关键视频帧之前的参考视频帧之间的特征相似度;合并更新单元,用于在上述特征相似
度达到合并条件的情况下,将上述关键视频帧所在第一场景中的场景视频帧序列,合并到
上述参考视频帧所在第二场景中的场景视频帧序列中,以将上述第一场景视频帧列表更新
为第二场景视频帧列表;分割处理单元,用于按照上述第二场景视频帧列表对上述目标视
频进行分割处理。
处理方法。
处理方法。
列表。然后再获取上述每个场景的关键视频帧及参考视频帧之间的特征相似度,以进一步
根据该特征相似度是否达到合并条件的判定结果,来确定是否合并上述关键视频帧所在第
一场景中的场景视频帧序列和上述参考视频帧所在第二场景中的场景视频帧序列,从而实
现对上述第一场景视频帧列表进行进一步更新,得到第二场景视频帧列表,并按照上述第
二场景视频帧列表来对目标视频进行分割处理。也就是说,融合多个图像特征来对目标视
频进行划分得到第一场景视频帧列表之后,再结合视频帧的特征相似度,来分析目标视频
中各个视频帧之间的场景关联性,从而实现对视频帧的场景特性进行全面的精细化分析,
而不再局限于单一特征的分析结果,提高了视频分割处理的准确率,进而克服相关技术中
存在的视频分割处理的准确率较低的问题。
附图说明
具体实施方式
本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范
围。
的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆
盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于
清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品
或设备固有的其它步骤或单元。
中,其中,该视频处理系统可以包括但不限于终端设备102、网络104、服务器106。这里终端
设备102中包括人机交互屏幕1022,处理器1024及存储器1026。人机交互屏幕1022用于展示
目标视频。上述处理器1024用于将目标视频发送服务器106,存储器1026用于存储上述目标
视频的视频资源。
中提供的方法对目标视频进行分割处理。
据上述图像特征集对目标视频中的全部视频帧进行划分,得到第一场景视频帧列表,其中,
这里的第一场景视频帧列表中记录有目标视频中包含的多个场景分别对应的场景视频帧
序列,每个场景视频帧序列中的首个视频帧为场景的关键视频帧。依次获取每个关键视频
帧和位于该关键视频帧之前的参考视频帧之间的特征相似度,并在该特征相似度达到合并
条件的情况下,将该关键视频帧所在第一场景中的场景视频帧序列,合并到上述参考视频
帧所在第二场景中的场景视频帧序列中,以将第一场景视频帧列表更新为第二场景视频真
列表,从而实现按照第二场景视频帧列表对目标视频进行分割处理。
景视频帧列表。然后再获取上述每个场景的关键视频帧及参考视频帧之间的特征相似度,
以进一步根据该特征相似度是否达到合并条件的判定结果,来确定是否合并上述关键视频
帧所在第一场景中的场景视频帧序列和上述参考视频帧所在第二场景中的场景视频帧序
列,从而实现对上述第一场景视频帧列表进行进一步更新,得到第二场景视频帧列表,并按
照上述第二场景视频帧列表来对目标视频进行分割处理。也就是说,融合多个图像特征来
对目标视频进行划分得到第一场景视频帧列表之后,再结合视频帧的特征相似度,来分析
目标视频中各个视频帧之间的场景关联性,从而实现对视频帧的场景特性进行全面的精细
化分析,而不再局限于单一特征的分析结果,提高了视频分割处理的准确率,进而克服相关
技术中存在的视频分割处理的准确率较低的问题。
Devices,移动互联网设备)、PAD、台式电脑、智能电视等。上述网络可以包括但不限于:有线
网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、
WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器,也可以是由多个服务器
组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
视频帧序列,每个场景视频帧序列中的首个视频帧为场景的关键视频帧;
频帧列表更新为第二场景视频帧列表;
端等。为保证目标客户端的观看体验,通常在从版权方获得原始视频文件后,都需要对该原
始视频文件进行一次转码处理,以使该原始视频文件转换为符合要求的标准码流,之后才
会分发给各个目标客户端进行播放展示。在上述转码的过程中,转码中台需要对原始视频
文件按照场景进行分割处理,形成多个视频片段。以便于转码中台分布式地对每个视频片
段进行视频质量的增强和编码。最后,再将每个视频片段的码流合并形成完整的待播放的
视频流文件。将上述待播放的视频流文件推送给各个目标客户端进行播放展示。也就是说,
采用在本实施例中提供的上述视频处理方法来对原始视频文件按照场景进行全面精细化
分割,将进一步保证基于此合并得到的视频流文件中同一场景内的连续视频帧前后画面质
量连续,避免由于采用现有技术对原始视频文件划分得到的视频片段不准确,使得同一场
景内的连续视频帧出现在不同视频片段中,而又对不同视频片段采用不同图像编码处理,
所导致的视频流文件中的播放画面质量不统一的情况。换言之,通过本申请实施例中提供
的视频处理方法,将利用对多特征融合的分析结果,来确保对视频划分得到的场景视频帧
列表的准确率,以使得对精准划分后的各个视频片段按照不同场景执行不同的图像增强和
画面质量提升等处理,进而提升整合视频片段后得到的视频流文件的播放流畅度和画面质
量连续性,达到改善用户的观看体验的效果。
上述图像色彩分量参数可以包括但不限于为目标色彩编码空间中的参数:色调、饱和度、明
度(Hue,Saturation,Value,简称HSV)。例如,获取一个视频帧各个像素点的色调的均值,作
为该视频帧的色调特征;获取一个视频帧各个像素点的饱和度的均值,作为该视频帧的饱
和度特征;获取一个视频帧各个像素点的明度的均值,作为该视频帧的明度特征。也就是
说,假设视频帧原始格式为YUV格式,将其映射到HSV色彩编码空间后,则可以获取该视频帧
中各个像素点在色调、饱和度和明度三个图像色彩分量参数上的取值的均值,以作为该视
频帧对应的图像特征集。这里为示例,本实施例中对图像特征集中涉及的参数不作限定,还
可以为RGB三个颜色分量参数,或其他用于指示图像特性的参数。
以得到与该视频帧匹配的目标图像特征。进一步,利用相邻两个视频帧各自对应的目标图
像特征的比对结果所指示的差异,来对上述目标视频中全部视频帧进行划分,以得到第一
场景视频帧列表。
然后参考上述过程计算获取相邻的第i+1个视频帧的目标图像特征。通过比对二者的差异
(例如计算二者之间的距离),来确定第i个视频帧与第i+1个视频帧是否为同一场景中的视
频帧。若差异小于一定阈值,则将二者合并作为同一场景中的视频帧,若差异大于一定阈
值,则将二者分别作为不同场景中的视频帧。也就是说,基于使用视频帧的HSVavg这一初级
特征对目标视频按照场景进行了一个初划分,以生成按照不同场景记录的视频帧序列,并
将其作为上述第一场景视频帧列表。
参考特征向量二者之间的余弦距离、上述关键视频帧与上述参考视频帧二者之间匹配特征
点在关键视频帧中的第一占比,和上述关键视频帧与上述参考视频帧二者之间匹配特征点
在参考视频帧中的第二占比。其中,上述关键特征向量和参考特征向量是基于卷积神经网
络进行处理得到的;上述匹配特征点是采用Sift特征算子对关键视频帧和参考视频帧分别
进行特征点提取和比对后得到的。此外,上述参考视频帧可以但不限于为关键视频帧之前
且与该关键视频帧相邻的视频帧,即关键视频帧的前一个视频帧。也就是说,使用卷积神经
网络和Sift特征算子,分析第一场景视频帧列表中的关键视频帧和关键视频帧之前相邻的
参考视频帧中的高级特征。来进一步对其使用特征融合算法以判断两帧的相似性,若相似,
则合并场景;反之,则保留原始的场景划分,从而实现将第一场景视频帧列表更新为第二场
景视频帧列表,达到对目标视频中的场景进行再次精细化的划分更新。
化,是一种计算机视觉算法,它具有平移、旋转和尺度不变性。其步骤包括:1)构建尺度空
间,检测极值点,获得尺度不变性;2)特征点过滤并精确定位,剔除不稳定的特征点;3)在特
征点处提取特征描述符,为特征点分配方向值;4)生成特征描述子,利用特征描述符寻找匹
配点。
景关联性,从而实现对视频帧的场景特性进行全面的精细化分析,而不再局限于单一特征
的分析结果,提高了视频分割处理的准确率,进而克服相关技术中存在的视频分割处理的
准确率较低的问题。
包括至少两个图像色彩分量参数;
值的均值,得到当前视频帧的第i个图像特征,其中,i为大于等于1,小于等于N的整数,N为
目标色彩编码空间中图像色彩分量参数的数量,N为正整数。
Value,简称HSV)。在将视频帧映射至上述目标色彩编码空间时,是将视频帧中各个像素点
映射至目标色彩编码空间,因而将获取到各个像素点在该目标色彩编码空间中各个图像色
彩分量参数的参数取值。进一步,将第i个图像色彩分量参数的取值的均值作为该视频帧对
应图像特征集中的第i个图像特征。
设当前视频帧中的高和宽,分别用M和N表示,(i,j)代表当前视频帧中任意一个像素点的位
置坐标,H,S和V分别代表了该像素点的三个图像色彩分量参数的取值。通过以下公式计算
获取对应的图像特征集将包括以下图像特征:。
频帧中各个像素点的明度分量参数的取值的均值。
频帧各自对应的图像特征集。
视频帧和该关键视频帧之前的参考视频帧(即关键视频帧的前一个视频帧)生成各自的特
征向量,并经比对得到余弦距离。此外如步骤S306‑2,采用Sift算子提取关键视频帧和参考
视频帧的Sift特征点,并经比对得到匹配特征点,再获取该匹配特征点在关键视频帧对应
的特征点集中所占的第一占比和该匹配特征点在参考视频帧对应的特征点集中所占的第
二占比。最后如步骤S308,特征融合,以确定合并或保留第一场景视频帧列表中的视频帧序
列,从而实现更新得到第二场景视频帧列表。以便于基于该第二场景视频帧列表中精细化
分割的各个场景的视频帧序列对目标视频进行划分,来确保得到的视频片段的准确性,进
而使得再次合并得到的视频流文件的画面质量的统一性。
对应的图像特征集中的图像特征,从而实现利用该图像特征来对目标视频中的全部视频帧
进行初次划分,以得到粗分后的第一场景视频帧列表。
值(即HSV的均值):
差值,其中,j为大于等于1,小于等于M‑1的整数,M为目标视频中视频帧的数量;比对特征差
值与第一阈值,得到比对结果。
个视频帧为同一个场景,则将第j+1个视频帧添加到第j个视频帧所在的场景视频帧序列
中;在比对结果指示特征差值大于等于第一阈值的情况下,确定第j+1个视频帧与第j个视
频帧并非同一个场景,则为第j+1个视频帧创建新的场景视频帧序列。
值与第一阈值(如用THSV表示)的比较结果,来确定是否将上述相邻两个视频帧合并,存入同
一场景中的视频帧序列中。
场景对应的场景帧序列中。若相邻两帧(即第j+1个视频帧与第j个视频帧)的目标图像特征
的特征差值大于阈值THSV,则认为二者并非同一个场景,并将第j+1个视频帧存入一个新的
场景的视频帧序列中,以此类推,直至遍历目标视频中的全部视频帧,得到初始的第一场景
视频帧列表。其中,上述阈值THSV的最优取值可以但不限于设置为25。
获取各个视频帧的目标图像特征,如依次为HSV1、HSV2、HSV3…HSV10。接着依次获取相邻两个
视频帧的目标图像特征的特征差值,并与第一阈值THSV进行比对。如比对HSV1‑HSV2的差值和
THSV,得到差值小于THSV,则确定第1个视频帧(帧标识为1)与第2个视频帧(帧标识为2)为同
一个场景,则可以将二者存入视频帧列表中,作为场景一对应的视频帧序列,如表1所示的
第一项中记录的数据。又如比对HSV2‑HSV3的差值和THSV,得到差值大于THSV,则确定第二个视
频帧与第三个视频帧并非同一个场景,则将第3个视频帧(帧标识为3)存入视频帧列表中与
场景二对应的视频帧序列中,如表1所示的第二项中记录的数据。以此类推得到各个场景对
应的视频帧序列,从而得到初分后的第一场景视频帧列表。
二 3
三 4、5、6
四 7、8
五 9、10
视频帧是否为同一场景,从而实现快速划分得到第一场景视频帧列表。
考视频帧;将候选关键视频帧输入轻量级卷积神经网络,以得到关键特征向量,并将候选参
考视频帧输入轻量级卷积神经网络,以得到参考特征向量,其中,轻量级卷积神经网络为利
用多组样本图像对及对应的标签信息进行机器训练后所得到的用于生成图像的特征向量
的神经网络,多组样本图像对中的每组样本图像对包括样本视频中第一样本场景中的首帧
图像和第二样本场景的末帧图像,第二样本场景与第一样本场景相邻且位于第一样本场景
之前,标签信息包括首帧图像的场景标签及末帧图像的场景标签。
卷积神经网络为MobileNet V2网络,则可以将上述视频帧调整为尺寸为224*224的RGB格式
的三通道图像,如得到尺寸为224*224的RGB格式的候选关键视频帧和尺寸为224*224的RGB
格式的候选参考视频帧。也就是说,在实际应用中,可以根据实际应用的神经网络模型对内
存占用的限制和对准确率等要求进行调整。
个卷积层后,设置有17个深度可分离卷积层,最后连接有2个卷积层和1个池化层。通过上述
网络的处理后将生成一个1280*1的特征向量。
网络的输入,从而得到与关键视频帧Fn匹配的维度为1280*1的关键特征向量In。此外,对参
考视频帧Fn‑1也进行同样的处理,以得到与参考视频帧Fn‑1匹配的维度为1280*1的参考特征
向量In‑1。最后,再使用下式计算关键特征向量In和参考特征向量In‑1的余弦距离:
征点在关键视频帧中的第一占比和在参考视频帧中的第二占比。
以根据实际应用中对查准率和查全率的要求进行调整。
一占比和第二占比,从而获取到二者的特征相似度,以便于利用上述特征相似度来确定是
否更新第一场景视频帧列表。也就是说,通过特征融合的方式对特征向量和匹配特征点的
占比这两种高级特征进行判读,以确定是否重新合并视频帧,得到更新后的第二场景视频
帧列表。
作,直至达到轻量级卷积神经网络的收敛条件:将当前组图像对中的第一样本场景中的首
帧图像输入第一训练卷积神经网络中,以得到第一特征向量,并将当前组图像对中的第二
样本场景中的末帧图像输入第二训练卷积神经网络中,以得到第二特征向量,其中,轻量级
卷积神经网络训练时使用孪生网络结构,孪生网络结构包括第一训练卷积神经网络和第二
训练卷积神经网络,且第一训练卷积神经网络和第二训练卷积神经网络共享训练权重;获
取第一特征向量及第二特征向量之间的余弦距离,并将第一特征向量及第二特征向量之间
的余弦距离作为特征距离;将特征距离及标签信息输入损失函数,以计算得到当前损失值;
获取当前损失值及当前损失值的上一个损失值的损失值差值;在损失值差值指示孪生网络
结构达到收敛条件的情况下,则将当前完成训练的第一训练卷积神经网络或第二训练卷积
神经网络作为轻量级卷积神经网络。
图像。将上一个场景的末帧图像(参考视频帧)和当前场景的首帧图像(关键视频帧)配对,
形成一组图像对,并人工标记是否为同一个场景的场景标签,以形成用于训练的数据集。之
后,对数据集进行划分,选取75%的数据作为训练集,剩下25%的数据作为测试集。并且,需
要保证训练中,正例和反例的比例约为1:1。
络)。
然后如步骤S504‑1和步骤S504‑2,通过MobileNet V2网络的处理,将分别生成两个特征向
量(如特征向量1和特征向量2),如步骤S506‑1和步骤S506‑2。最后如步骤S508,对上述两个
特征向量计算余弦距离。
数,通过反向传播更新另一个(如MobileNet V2‑2)网络中的权重参数。然后再将更新后的
权重参数直接同步给MobileNet V2‑1网络,从而实现对两个MobileNet V2网络的同步训练
更新,并在达到收敛条件后,将其中任意一个作为应用于实际业务中。
个场景的时候,yi的取值为1;当作为样本的中两张图像不属于同一个场景的时候,yi的取值
为0。dcos,i代表了当前样本中两张图像的余弦距离,当两张图像属于同一场景时,余弦距离
趋近于1;当两张图像不属于同一场景时,余弦距离趋近于0。
其中,上述每一次的损失值即为将标签信息yi和余弦距离dcos,i输入上述公式(5)计算得到
的L。
不符合,则对网络进行二次训练等操作。
生网络结构训练得到,从而实现基于此高级特征来进一步精细化划分场景视频帧列表,以
提升视频分割处理的准确率。
S602‑2,确定当前待处理的参考视频帧Fn‑1和关键视频帧Fn,然后将输入的视频帧分别转换
为灰度图,如步骤S604‑1得到参考视频帧灰度图,如步骤S604‑2,得到关键视频帧灰度图。
再执行步骤S606‑1和步骤S606‑2,使用Sift算子分别提取出特征点,得到关键特征点集和
参考特征点集。并将关键视频帧Fn中特征点的数目记为Nn,将参考视频帧Fn‑1中特征点的数
目记为Nn‑1。经过步骤S608的比对匹配后,如步骤S610将获取到匹配特征点的数量,如数目
M。
视频帧Fn中提取出的每一个特征点Qi执行以下操作:
点Qi与特征点b之间的欧式距离Sb。然后,比对Sa与T*Sb,在Sa
两帧的特征点中的占比,即第一占比和第二占比。
占比,和匹配特征点在参考视频帧中特征点所占的第二占比,以便于基于此高级特征来进
一步精细化划分场景视频帧列表,从而提升视频分割处理的准确率。
用于与余弦距离比对的阈值为Tcos,用于与第一占比和第二占比比对的阈值为Tsift。
则直接将关键视频帧Fn所在的场景与参考视频帧Fn‑1所在的场景进行合并,即如步骤S710‑
2,将关键视频帧所在场景对应的视频帧序列,合并到参考视频帧所在场景对应的视频帧序
列中。如果dcos没有大于Tcos,则继续进行判断,执行步骤S706,判断匹配特征点在关键视频
帧的特征点集中所占的第一占比pn是否大于阈值Tsift。如果第一占比pn小于等于阈值Tsift,
则如步骤S710‑1,保留关键视频帧和参考视频帧各自的场景分割结果。
值Tsift,则如步骤S710‑1,保留关键视频帧和参考视频帧各自的场景分割结果。如果第二占
比pn‑1大于阈值Tsift的情况下,则如步骤S710‑2,将关键视频帧所在场景对应的视频帧序
列,合并到参考视频帧所在场景对应的视频帧序列中。
键视频帧Fn所在的场景与参考视频帧Fn‑1所在的场景进行合并,即如步骤S710‑2,将关键视
频帧所在场景对应的视频帧序列,合并到参考视频帧所在场景对应的视频帧序列中。如果
上述两次任意一次占比小于阈值,则保留第一场景视频帧列表中对关键视频帧和参考视频
帧的场景划分。需要说明的是,上述阈值Tcos的取值可以但不限于为0.8,上述阈值Tsift的取
值可以但不限于为0.3。这里为示例,本实施例中对此不作任何限定。
第二占比,这些高级特征来对第一场景视频帧列表进行进一步更新调整,得到精细化分割
处理后的第二场景视频帧列表,从而确保视频分割结果的准确性。
依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知
悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明
所必须的。
对应的场景视频帧序列,每个场景视频帧序列中的首个视频帧为场景的关键视频帧;
以将第一场景视频帧列表更新为第二场景视频帧列表;
景关联性,从而实现对视频帧的场景特性进行全面的精细化分析,而不再局限于单一特征
的分析结果,提高了视频分割处理的准确率,进而克服相关技术中存在的视频分割处理的
准确率较低的问题。
为例来说明。如图9所示,该电子设备包括存储器902和处理器904,该存储器902中存储有计
算机程序,该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
频帧序列,每个场景视频帧序列中的首个视频帧为场景的关键视频帧;
帧列表更新为第二场景视频帧列表;
设备(Mobile Internet Devices,MID)、PAD等终端设备。图9其并不对上述电子装置电子设
备的结构造成限定。例如,电子装置电子设备还可包括比图9中所示更多或者更少的组件
(如网络接口等),或者具有与图9所示不同的配置。
模块,从而执行各种功能应用以及数据处理,即实现上述的视频处理方法。存储器902可包
括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或
者其他非易失性固态存储器。在一些实例中,存储器902可进一步包括相对于处理器904远
程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限
于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器902具体可以但不限于
用于存储目标视频及处理过程中的中间信息,如场景视频帧列表等信息。作为一种示例,如
图9所示,上述存储器902中可以但不限于包括上述视频处理装置中的第一获取单元802、第
一提取单元804、划分单元806、第二获取单元808、合并更新单元810及分割处理单元812。此
外,还可以包括但不限于上述视频处理装置中的其他模块单元,本示例中不再赘述。
(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而
可与互联网或局域网进行通讯。在一个实例中,传输装置906为射频(Radio Frequency,RF)
模块,其用于通过无线方式与互联网进行通讯。
信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网
络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成
为该区块链系统中的一个节点。
机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使
得该计算机设备执行上述视频处理方法。其中,该计算机程序被设置为运行时执行上述任
一项方法实施例中的步骤。
频帧序列,每个场景视频帧序列中的首个视频帧为场景的关键视频帧;
帧列表更新为第二场景视频帧列表;
一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read‑Only Memory,
ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软
件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一
台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所
述方法的全部或部分步骤。
种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者
可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之
间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连
接,可以是电性或其它的形式。
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
视为本发明的保护范围。