视频剪辑方法、装置、电子设备以及存储介质转让专利
申请号 : CN202110852101.1
文献号 : CN113301430B
文献日 : 2021-12-07
发明人 : 赵天昊 , 田思达
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种视频剪辑方法,其特征在于,包括:获取待剪辑视频;
对所述待剪辑视频进行抽帧,得到视频帧序列;
识别所述视频帧序列中的每一个视频帧的场景类别,以得到所述视频帧序列对应的场景类别序列;
基于所述场景类别序列对所述待剪辑视频进行划分,以得到多个第一视频片段;
按时间顺序拼接所述多个第一视频片段,以得到所述待剪辑视频的视频集锦;
所述按时间顺序拼接所述多个第一视频片段,以得到所述待剪辑视频的视频集锦,包括:
对所述多个第一视频片段中发生镜头切换的第一视频片段进行剪辑,以得到多个第五视频片段;
按时间顺序拼接所述多个第五视频片段,以得到所述待剪辑视频的视频集锦;
所述对所述多个第一视频片段中发生镜头切换的第一视频片段进行剪辑,以得到多个第五视频片段,包括:
针对所述多个第一视频片段中的每一个第一视频片段,在位于所述每一个第一视频片段的首部的第一时间内进行抽帧、且在位于所述每一个第一视频片段的尾部的第二时间内进行抽帧,以得到多个视频帧;
确定所述多个视频帧中相邻的两个视频帧的直方图数据;
将所述相邻的两个视频帧的直方图数据之间的相似度,确定为所述相邻的两个视频帧的相关系数;
基于所述相邻的两个视频帧的相关系数,对所述每一个第一视频片段进行剪辑,以得到所述每一个第一视频片段对应的第五视频片段。
2.根据权利要求1所述的方法,其特征在于,所述基于所述场景类别序列对所述待剪辑视频进行划分,以得到多个第一视频片段,包括:基于所述视频帧序列中属于同一场景类别的连续视频帧,将所述待剪辑视频划分为多个第二视频片段;
基于所述多个第二视频片段中的每一个第二视频片段和所述每一个第二视频片段的后一相邻视频片段之间的视频帧的场景类别,对所述多个第二视频片段中的每一个第二视频片段分别进行扩展,以得到所述多个第二视频片段分别对应的多个第三视频片段;
基于所述多个第三视频片段中每一个第三视频片段的场景类别,对所述多个第三视频片段进行合并,以得到所述多个第一视频片段。
3.根据权利要求2所述的方法,其特征在于,所述基于所述视频帧序列中属于同一场景类别的连续视频帧,将所述待剪辑视频划分为多个第二视频片段,包括:基于所述场景类别序列,得到多个子序列;所述多个子序列中的每一个子序列包括属于同一场景类别的、且连续的视频帧的数量大于第一预设阈值的视频帧;
针对所述多个子序列中的每一个子序列,基于所述子序列中的第一个视频帧的时间戳和最后一个视频帧的时间戳,剪辑所述待剪辑视频,以得到所述多个第二视频片段,所述多个子序列分别对应所述多个第二视频片段。
4.根据权利要求2所述的方法,其特征在于,所述基于所述多个第二视频片段中的每一个第二视频片段和所述每一个第二视频片段的后一相邻视频片段之间的视频帧的场景类别,对所述多个第二视频片段中的每一个第二视频片段分别进行扩展,以得到所述多个第二视频片段分别对应的多个第三视频片段,包括:针对所述多个第二视频片段中的每一个第二视频片段,在所述视频帧序列中,确定所述每一个第二视频片段和所述每一个第二视频片段的后一相邻视频片段之间是否存在和所述每一个第二视频片段中的视频帧的场景类别相同的至少一个视频帧;
若存在所述至少一个视频帧,则基于所述至少一个视频帧中的最后一个视频帧的时间戳,将所述每一个第二视频片段和所述最后一个视频帧之间的片段扩展至所述每一个第二视频片段,以得到所述每一个第二视频片段对应的第三视频片段;
若不存在所述至少一个视频帧,则将所述每一个第二视频片段确定为所述每一个第二视频片段对应的第三视频片段。
5.根据权利要求2所述的方法,其特征在于,所述基于所述多个第三视频片段中每一个第三视频片段的场景类别,对所述多个第三视频片段进行合并,以得到所述多个第一视频片段,包括:
基于所述多个第三视频片段中每一个第三视频片段的场景类别,对所述多个第三视频片段中属于同一场景类别的、且相邻的第三视频片段进行合并,以得到所述多个第一视频片段。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述按时间顺序拼接所述多个第一视频片段,以得到所述待剪辑视频的视频集锦之前,所述方法还包括:在所述多个第一视频片段中,确定评分大于第二预设阈值的多个第四视频片段;所述视频片段的评分用于表征所述视频片段满足所述视频集锦的收录要求的评分;
将所述多个第四视频片段,作为所述多个第一视频片段。
7.根据权利要求6所述的方法,其特征在于,所述在所述多个第一视频片段中,确定评分大于第二预设阈值的多个第四视频片段,包括:针对所述多个第一视频片段中的每一个第一视频片段,利用评价模型确定所述每一个第一视频片段中的每一个视频帧的评分;
针对所述多个第一视频片段中的每一个第一视频片段,将所述每一个第一视频片段中的所有视频帧的平均评分,确定为所述每一个第一视频片段的评分;
将所述多个第一视频片段中的评分大于所述第二预设阈值的第一视频片段,确定为多个第四视频片段。
8.根据权利要求1所述的方法,其特征在于,所述基于所述相邻的两个视频帧的相关系数,对所述每一个第一视频片段进行剪辑,以得到所述每一个第一视频片段对应的第五视频片段,包括:
若所述相邻的两个视频帧的相关系数小于第三预设阈值且所述相邻的两个视频帧位于所述第一时间段内,则删除所述每一个第一视频片段中的、位于所述相邻的两个视频帧中前一视频帧之前的片段,以得到所述每一个第一视频片段对应的第五视频片段;
若所述相邻的两个视频帧的相关系数小于第三预设阈值且所述相邻的两个视频帧位于所述第二时间段内,则删除所述每一个第一视频片段中的、位于所述相邻的两个视频帧中后一视频帧之后的片段,以得到所述每一个第一视频片段对应的第五视频片段。
9.根据权利要求1至5中任一项所述的方法,其特征在于,所述按时间顺序拼接所述多个第一视频片段,以得到所述待剪辑视频的视频集锦之前,所述方法还包括:对所述多个第一视频片段进行相似场景去重,以得到多个第六视频片段;
将所述多个第六视频片段,作为所述多个第一视频片段。
10.根据权利要求8所述的方法,其特征在于,所述对所述多个第一视频片段进行相似场景去重,以得到多个第六视频片段,包括:将所述多个第一视频片段中的首个第一视频片段,确定为当前片段;
确定所述当前片段中的最后一个视频帧的直方图数据和所述当前片段的后一相邻第一视频片段中的第一个视频帧的直方图数据;
将所述最后一个视频帧的直方图数据和所述第一个视频帧的直方图数据之间的相似度,确定为所述最后一个视频帧和所述第一个视频帧的相关系数;
若所述最后一个视频帧和所述第一个视频帧的相关系数大于第四预设阈值,则判断所述当前片段和所述后一相邻第一视频片段是相似视频片段,并删除所述当前片段和所述后一相邻第一视频片段中评分低的视频片段,并将所述当前片段和所述后一相邻第一视频片段中评分高的视频片段确定为所述当前片段;
若所述最后一个视频帧和所述第一个视频帧的相关系数小于或等于第四预设阈值,则保留所述当前片段和所述后一相邻第一视频片段,且将所述后一相邻第一视频片段确定为所述当前片段;
在所述当前片段相邻的后一相邻第一视频片段为空时,将保留的视频片段确定为所述多个第六视频片段。
11.一种视频剪辑装置,其特征在于,包括:获取单元,获取待剪辑视频;
抽帧单元,对所述待剪辑视频进行抽帧,得到视频帧序列;
识别单元,识别所述视频帧序列中的每一个视频帧的场景类别,以得到所述视频帧序列对应的场景类别序列;
划分单元,基于所述场景类别序列对所述待剪辑视频进行划分,以得到多个第一视频片段;
拼接单元,按时间顺序拼接所述多个第一视频片段,以得到所述待剪辑视频的视频集锦;
所述拼接单元具体用于:
对所述多个第一视频片段中发生镜头切换的第一视频片段进行剪辑,以得到多个第五视频片段;
按时间顺序拼接所述多个第五视频片段,以得到所述待剪辑视频的视频集锦;
所述拼接单元具体用于:
针对所述多个第一视频片段中的每一个第一视频片段,在位于所述每一个第一视频片段的首部的第一时间内进行抽帧、且在位于所述每一个第一视频片段的尾部的第二时间内进行抽帧,以得到多个视频帧;
确定所述多个视频帧中相邻的两个视频帧的直方图数据;
将所述相邻的两个视频帧的直方图数据之间的相似度,确定为所述相邻的两个视频帧的相关系数;
基于所述相邻的两个视频帧的相关系数,对所述每一个第一视频片段进行剪辑,以得到所述每一个第一视频片段对应的第五视频片段。
12.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,以执行权利要求1至10中任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1至10中任一项所述的方法。
说明书 :
视频剪辑方法、装置、电子设备以及存储介质
技术领域
背景技术
辑模版,提供几段特定时长的原始素材(通常为几秒钟),再进行自动合并;由于此类剪辑方
法使用的限制较多,用户提供的视频超过固定时长的素材会被自动截断,而且需要用户提
前对视频进行处理,无法对一段完整的长视频进行自动剪辑,导致用户体验差。
发明内容
人工成本,而且提升了视频剪辑的效率;另一方面,无需用户对待剪辑视频进行提前处理,
避免用户提供超过固定时长的素材被自动截断的情况,提升用户体验。
执行上述视频剪辑方法。
该场景类别序列自动从待剪辑视频中分割出多个第一视频片段,并对该多个第一视频片段
进行拼接,从而生成待剪辑视频的视频集锦,一方面,基于该场景类别序列自动对待剪辑视
频进行划分及拼接,替代了在实际业务场景中的人工操作,不仅节约大量的人工成本,而且
提升视频剪辑的效率;另一方面,用户输入待剪辑视频,可以直接获取剪辑后的视频集锦,
无需用户对待剪辑视频进行提前处理,且避免用户提供超过固定时长的素材被自动截断的
情况,提升了用户体验。
附图说明
具体实施方式
本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他
实施例,都属于本申请保护的范围。
的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图
了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工
智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功
能。
式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括
计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得
到应用,并发挥越来越重要的价值。
代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为
更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理
论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技
术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、
视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等
技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
术和设备来传输、存储和处理音视频信号。传统的串型数字(SDI)传输方式缺乏真正意义上
的网络交换特性。需要做大量的工作才可能利用SDI创建类似以太网和因特网协议(IP)所
提供的部分网络功能。因此,视频行业中的网络媒体技术就应运而生。进一步的,网络媒体
的视频处理技术可以包括音视频信号的传输、存储和处理过程及音视频。
限于智能移动电话、平板电脑和其他小型个人携带型设备,如掌上电脑(Personal Digital
Assistant,PDA)、电子书(electronic book,E‑book)等,本申请对此不作具体限制,当然,
本申请实施例提供的装置还可集成在服务器中,服务器可以包括一个独立运行的服务器或
者分布式服务器,也可以包括由多个服务器组成的服务器集群或者分布式系统,还可以是
提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、
安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器,服务器可以通过有
线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
式和操作步骤进行说明:
制。
获取的该待剪辑视频或待剪辑视频URL进行抽帧,得到视频帧序列,其次,再将得到的视频
帧序列中的每一个视频帧输入到场景分割模型中,识别每一个视频帧的场景类别,以得到
该视频帧序列对应的场景类别序列,最后,再基于得到的场景类别序列对视频帧的场景类
别结果进行聚类,再根据聚类结果将待剪辑视频划分为多个第一视频片段,并按时间顺序
拼接该多个第一视频片段,以得到该待剪辑视频的视频集锦;在视频剪辑完成后,服务器
130将剪辑完成后的视频集锦或视频集锦URL通过网络120反馈给终端设备110,用户可通过
终端设备110查看剪辑后的视频集锦。
景类别序列自动从待剪辑视频中分割出多个第一视频片段,并对该多个第一视频片段进行
拼接,从而生成待剪辑视频的视频集锦,一方面,通过对待剪辑视频的自动划分及拼接生成
待剪辑视频对应的视频集锦,替代了在实际业务场景中的人工操作,不仅节约大量的人工
成本,而且提升了视频剪辑的效率;另一方面,相对于目前需要用户提前裁剪的视频剪辑方
案,用户输入完整的待剪辑视频,可以直接获取剪辑后的视频集锦,无需用户对待剪辑视频
进行提前处理,且避免用户提供超过固定时长的素材被自动截断的情况,在提升视频剪辑
效率的同时,提升用户体验。
电话、平板电脑和其他小型个人携带型设备,如掌上电脑(Personal Digital Assistant,
PDA)、电子书(electronic book,E‑book)等。需要说明的是,该服务器可以是独立的物理服
务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、
云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以
及大数据和人工智能平台等基础云计算服务的云服务器,服务器可以通过有线或无线通信
方式进行直接或间接地连接,本申请在此不做限制。
的终端设备执行为例,对本申请提供的视频剪辑方法进行详细说明。
序列对应的场景类别序列;最后,基于该场景类别序列对待剪辑视频进行划分,得到多个第
一视频片段,并按时间顺序拼接该多个第一视频片段,以得到该待剪辑视频的视频集锦。
行场景类别识别,得到每一个视频帧的场景类别结果,即场景类别序列,再基于场景类别序
列,将相同场景类别的视频帧进行聚类,根据聚类结果对待剪辑视频进行剪辑,以得到多个
第一视频片段。其中,该场景类别识别模型可以选择基于残差网络ResNet50网络模型进行
训练,另外,该场景类别识别模型在训练时,训练数据集中的场景类别可包括大类和小类,
通过使用小类对场景类别识别模型进行训练,使场景类别识别模型的鲁棒性增强,使用大
类作为场景类别识别模型的输出,可以降低视频剪辑过程中计算的复杂度,例如,可以基于
365个小类和15个大类的场景类别对该场景类别识别模型进行训练,选择15个大类的结果
作为场景类别识别模型的输出类别。
该场景类别序列自动从待剪辑视频中分割出多个第一视频片段,并对该多个第一视频片段
进行拼接,从而生成待剪辑视频的视频集锦,一方面,通过对待剪辑视频的自动划分及拼接
生成待剪辑视频对应的视频集锦,替代了在实际业务场景中的人工操作,不仅节约大量的
人工成本,而且提升视频剪辑的效率;另一方面,相对于目前需要用户提前裁剪的视频剪辑
方案,用户输入完整的待剪辑视频,可以直接获取剪辑后的视频集锦,无需用户对待剪辑视
频进行提前处理,且避免用户提供超过固定时长的素材被自动截断的情况,在提升视频剪
辑效率的同时,提升用户体验。
别进行扩展,以得到该多个第二视频片段分别对应的多个第三视频片段;
每一个第二视频片段和该第二视频片段的后一相邻视频片段之间的视频帧的场景类别,对
该每一个第二视频片段分别进行扩展,得到多个第三视频片段,相当于,考虑到视频帧序列
中相邻两个第二视频片段之间可能会存在场景类别识别错误的视频帧,通过扩展每一个第
二视频片段,提高了视频帧场景类别识别的容错率,即提高剪辑片段的准确性;再基于该多
个第三视频片段中每一个第三视频片段的场景类别,对多个第三视频片段进行合并,能够
进一步提高剪辑片段的准确性。
视频帧;针对该多个子序列中的每一个子序列,基于该子序列中的第一个视频帧的时间戳
和最后一个视频帧的时间戳,剪辑待剪辑视频,以得到多个第二视频片段,该多个子序列分
别对应该多个第二视频片段。
值;再基于每一个子序列中的第一个视频帧的时间戳和最后一个视频帧的时间戳,构建连
续场景的第二视频片段,即将待剪辑视频剪辑出多个第二视频片段,例如,该第一预设阈值
可以是6帧,当然,也可以是其他数量,本申请对此不作具体限制。
频帧的场景类别对待剪辑视频进行初步划分。
存在和该第二视频片段中的视频帧的场景类别相同的至少一个视频帧;若存在该至少一个
视频帧,则基于该至少一个视频帧中的最后一个视频帧的时间戳,将该第二视频片段和该
最后一个视频帧之间的片段扩展至该第二视频片段,以得到该第二视频片段对应的第三视
频片段;若不存在该至少一个视频帧,则将该第二视频片段确定为该第二视频片段对应的
第三视频片段。
视频片段之间是否存在场景类别识别错误的视频帧;若存在至少一个视频帧,则将两个相
邻的第二视频片段中的前一视频片段扩展至至少一个视频帧中的最后一个视频帧,得到该
前一视频片段对应的第三视频片段,能够提高视频帧场景类别识别的容错率,即提高剪辑
片段的准确性。
以得到该多个第一视频片段。
大可能存在场景类别识别错误,通过对相邻场景类别相同的相邻两个第三视频片段进行合
并,能够进一步提高视频帧场景类别识别的容错率,从而进一步提高剪辑片段的准确性。
示例性的,该评分也可以是球赛评分,例如,足球视频中进球的片段评分高,射门的片段评
分较高,正常传球的片段评分较低,本申请对评分的种类不作具体限制。
的每一个第一视频片段,将该第一视频片段中的所有视频帧的平均评分,确定为该第一视
频片段的评分;将该多个第一视频片段中的评分大于该第二预设阈值的第一视频片段,确
定为多个第四视频片段。
频帧的美学评分,其次,将每个视频帧子序列中所有视频帧的平均美学评分,确定为该第一
视频片段的美学评分,最后,再从多个第一视频片段中筛选出美学评分高于第二预设阈值
的视频片段,以得到多个第四视频片段,其中,美学评分越高美学质量越高;例如,美学评分
的分数划分可以为1至10分,该第二阈值可以为5分。
第二时间内进行抽帧,以得到多个视频帧;确定该多个视频帧中相邻的两个视频帧的直方
图数据;将该相邻的两个视频帧的直方图数据之间的相似度,确定为该相邻的两个视频帧
的相关系数;基于该相邻的两个视频帧的相关系数,对该第一视频片段进行剪辑,以得到该
第一视频片段对应的第五视频片段。
第一视频片段的首部的20s至20.5s内以固定频率(如10帧/秒)进行抽帧、在位于该第一视
频片段的尾部的29.5s至30s内以固定频率(如10帧/秒)内进行抽帧,以得到该第一视频片
段对应的多个视频帧;其次,再利用开放源代码计算机视觉类库(open source computer
vision library,OpenCV)计算该多个视频帧中相邻的两个视频帧的直方图数据,再计算相
邻两个视频帧的直方图数据的相似度,并将该相似度确定为该相邻两个视频帧的相关系
数,最后,再基于该相邻两个视频帧的相关系数,对该第一视频片段进行剪辑,以得到该第
一视频片段对应的第五视频片段。
强度值所具有的像素个数,直方图广泛应用于许多计算机视觉应用中,通过标记帧和帧之
间显著的边缘和颜色的统计变化,来检测视频中场景的变换。
两个视频帧中前一视频帧之前的片段,以得到该第一视频片段对应的第五视频片段;若该
相邻的两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧位于该第二时间
段内,则删除该第一视频片段中的、位于该相邻的两个视频帧中后一视频帧之后的片段,以
得到该第一视频片段对应的第五视频片段。
发生镜头切换,其次,若存在相关系数小于第三预设阈值的相邻的两个视频帧、且该相邻的
两个视频帧位于该第一时间段内,相当于,确定该相邻的两个视频帧发生了镜头切换,再根
据该相邻的两个视频帧的位置,采用不同的过滤方案进行过滤,即若相邻的两个视频帧位
于该第一时间段内,则删除该第一视频片段中的、位于该相邻的两个视频帧中前一视频帧
之前的片段,以得到该第一视频片段对应的第五视频片段,若该相邻的两个视频帧位于该
第二时间段内,则删除该第一视频片段中的、位于该相邻的两个视频帧中后一视频帧之后
的片段,以得到该第一视频片段对应的第五视频片段;例如,该第三预设阈值可以是0.5,即
若相邻的两个视频帧的相关系数小于0.5,则该相邻的两个视频帧发生镜头切换。
两个视频帧发生镜头切换后,基于该相邻的两个视频帧的位置,采用不同的过滤方案进行
过滤,能够进一步提高剪辑后视频片段的质量,提升用户的主观体验。
第一视频片段中的第一个视频帧的直方图数据;将该最后一个视频帧的直方图数据和该第
一个视频帧的直方图数据之间的相似度,确定为该最后一个视频帧和该第一个视频帧的相
关系数;若该最后一个视频帧和该第一个视频帧的相关系数大于第四预设阈值,则判断该
当前片段和该后一相邻第一视频片段是相似视频片段,并删除该当前片段和该后一相邻第
一视频片段中评分低的视频片段,并将该当前片段和该后一相邻第一视频片段中评分高的
视频片段确定为该当前片段;若该最后一个视频帧和该第一个视频帧的相关系数小于或等
于第四预设阈值,则保留该当前片段和该后一相邻第一视频片段,且将该后一相邻第一视
频片段确定为该当前片段;在该当前片段相邻的后一相邻第一视频片段为空时,将保留的
视频片段确定为该多个第六视频片段。
频帧的相关系数;若该最后一个视频帧和该第一个视频帧的相关系数大于第四预设阈值,
则删除该当前片段和该后一相邻第一视频片段中评分低的视频片段,并将该当前片段和该
后一相邻第一视频片段中评分高的视频片段重新确定为当前片段;若该最后一个视频帧和
该第一个视频帧的相关系数小于或等于第四预设阈值,则保留该当前片段和该后一相邻第
一视频片段,且将该后一相邻第一视频片段重新确定为当前片段;由此,不仅能够对该当前
片段和该当前片段的后一相邻第一视频片段进行相似场景去重,还便于对重新确定的当前
片段和该重新确定的当前片段的后一相邻第一视频片段进行相似场景去重,直至重新确定
的当前片段相邻的后一相邻第一视频片段为空,将保留的视频片段确定为所述多个第六视
频片段。
OpenCV计算两个视频帧的颜色直方图数据,进而确定两个视频帧的相关系数。若相关系数
超过第四预设阈值(例如0.8),则认为当前片段与后一相邻第一视频片段为相似视频片段,
此时比较当前片段与后一相邻第一视频片段的评分,去除评分低的视频片段,保留评分高
的视频片段,并将评分高的视频片段指定为当前片段;若相关性不超过第四预设阈值,则保
留当前片段与后一相邻第一视频片段,并将当前片段指定为该后一相邻视频片段,直到比
较完最后一个第一视频片段,以得到多个第六视频片段。
book,E‑book)等,本申请对此不作具体限制。例如,图1所示的终端设备。
去重模块370以及拼接模块380。
照场景类别划分为多个第一视频片段;例如,可以基于场景类别序列,将属于同一场景类别
的、且连续的视频帧的数量大于第一预设阈值的视频帧划分为一个视频片段,以得到多个
视频片段,将该多个视频片段分别确定为多个第一视频片段;再如,可以将待剪辑视频基于
属于同一场景类别的、且连续的视频帧的数量大于第一预设阈值的视频帧划分后的多个视
频片段再分别进行扩展,将扩展后的多个视频片段再进行同类型合并,以得到多个第一视
频片段,或者将扩展后的多个视频片段直接确定为多个第一视频片段。
美学评分。
片段。具体而言,首先,针对多个第一视频片段中的每一个第一视频片段,计算第一视频片
段中的所有视频帧的平均美学评分,并将所有视频帧的平均美学评分,确定为该第一视频
片段的美学评分;其次,在多个第一视频片段中,将评分大于第二预设阈值的视频片段,确
定为多个第四视频片段。
定多个视频帧中的相邻两个视频帧的相关系数,若该相邻的两个视频帧的相关系数小于第
三预设阈值且该相邻的两个视频帧位于第四视频片段的尾部,则删除该第四视频片段中
的、位于该相邻的两个视频帧中后一视频帧之后的片段,以得到该第四视频片段对应的第
五视频片段;若该相邻的两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧
位于第四视频片段的首部,则删除该第四视频片段中的、位于该相邻的两个视频帧中前一
视频帧之前的片段,以得到该第四视频片段对应的第五视频片段,该相关系数用于表征相
邻两个视频帧的帧间相似度。
片段作为当前片段,确定当前片段和后一相邻视频片段是否为相似场景视频片段,若是相
似场景视频片段,则删除该当前片段和该后一相邻视频片段中评分低的视频片段,并将该
当前片段和该后一相邻视频片段中评分高的视频片段确定为该当前片段,再去继续确定当
前片段和后一相邻视频片段是否为相似场景视频片段;若不是相似视频片段,则保留所该
当前片段和该后一相邻视频片段,且将该后一相邻视频片段确定为该当前片段,再去继续
确定当前片段和后一相邻视频片段是否为相似场景视频片段;直至该当前片段相邻的后一
相邻视频片段为空时,将保留的视频片段确定为该多个第六视频片段。
该场景类别序列自动从一长段微录(vlog)待剪辑视频中分割出不同场景、具备较高美学质
量的视频片段,进一步的,基于颜色直方图进行了瞬时镜头切换检测和相似场景去重,自动
生成待剪辑视频对应的精彩集锦;一方面,通过对待剪辑视频的自动划分及拼接生成待剪
辑视频对应的视频集锦,实现智能剪辑,替代了在实际业务场景中的人工操作,不仅节约大
量的人工成本,而且提升视频剪辑的效率;另一方面,相对于目前需要用户提前裁剪的视频
剪辑方案,用户输入完整的待剪辑视频,可以直接获取剪辑后的视频集锦,无需用户对待剪
辑视频进行提前处理,且避免用户提供超过固定时长的素材被自动截断的情况,在提升视
频剪辑效率的同时,提升用户体验。
步提升用户的主观体验。
第五\第六”在允许的情况下可以互换特定的顺序或先后次序,不应成为本申请的限制。
单变型,这些简单变型均属于本申请的保护范围。例如,在上述具体实施方式中所描述的各
个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要
的重复,本申请对各种可能的组合方式不再另行说明。又例如,本申请的各种不同的实施方
式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开
的内容。
的实施过程构成任何限定。
别进行扩展,以得到该多个第二视频片段分别对应的多个第三视频片段;
列分别对应该多个第二视频片段。
该第二视频片段中的视频帧的场景类别相同的至少一个视频帧;若存在该至少一个视频
帧,则基于该至少一个视频帧中的最后一个视频帧的时间戳,将该第二视频片段和该最后
一个视频帧之间的片段扩展至该第二视频片段,以得到该第二视频片段对应的第三视频片
段;若不存在该至少一个视频帧,则将该第二视频片段确定为该第二视频片段对应的第三
视频片段。
到该多个第一视频片段。
个第一视频片段,将该第一视频片段中的所有视频帧的平均评分,确定为该第一视频片段
的评分;将该多个第一视频片段中的评分大于该第二预设阈值的第一视频片段,确定为多
个第四视频片段。
到多个视频帧;
频帧中前一视频帧之前的片段,以得到该第一视频片段对应的第五视频片段;若该相邻的
两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧位于该第二时间段内,删
除该第一视频片段中的、位于该相邻的两个视频帧中后一视频帧之后的片段,以得到该第
一视频片段对应的第五视频片段。
一视频片段中评分低的视频片段,并将该当前片段和该后一相邻第一视频片段中评分高的
视频片段确定为该当前片段;
片段;
的相应主体,并且该装置400中的各个单元分别为了实现方法200中的相应流程,再如,该装
置400可对应系统框架300、中的相应模块或器件。为了简洁,在此不再赘述。
的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。
上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实
现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该装置400也可以包
括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协
作实现。根据本申请的另一个实施例,可以通过在包括例如中央处理单元(CPU)、随机存取
存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备
上运行能够执行相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造本申请实
施例涉及的该装置400,以及来实现本申请实施例的视频剪辑方法。其中,计算机程序可以
记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于电子设备中,并在
其中运行,来实现本申请实施例的相应方法。
以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公
开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及
软件组合执行完成。可选地,软件可以位于随机存储器,闪存、只读存储器、可编程只读存储
器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储
器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
储介质520用于存储计算机程序521,计算机程序521包括计算机指令,处理器510用于执行
计算机可读存储介质520存储的计算机指令。处理器510是电子设备500的计算核心以及控
制核心,其适于实现一条或多条计算机指令,具体适于加载并执行一条或多条计算机指令
从而实现相应方法流程或相应功能。
DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门
阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体
管逻辑器件、分立硬件组件等等。
远离前述处理器510的计算机可读存储介质。具体而言,计算机可读存储介质520包括但不
限于:易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器
(Read‑Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只
读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,
EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用
作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取
存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取
存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data
Rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同
步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器
(Direct Rambus RAM,DR RAM)。
质520中存放的计算机指令,以实现图2所示方法实施例中的相应步骤;具体实现中,计算机
可读存储介质520中的计算机指令由处理器510加载并执行相应步骤,为避免重复,此处不
再赘述。
计算机可读存储介质520。可以理解的是,此处的计算机可读存储介质520既可以包括电子
设备500中的内置存储介质,当然也可以包括电子设备500所支持的扩展存储介质。计算机
可读存储介质提供存储空间,该存储空间存储了电子设备500的操作系统。并且,在该存储
空间中还存放了适于被处理器510加载并执行的一条或多条的计算机指令,这些计算机指
令可以是一个或多个的计算机程序521(包括程序代码)。
包括发射机和接收机。收发器530还可以进一步包括天线,天线的数量可以为一个或多个。
计算机程序521。此时,电子设备500可以是计算机,处理器510从计算机可读存储介质520读
取该计算机指令,处理器510执行该计算机指令,使得该计算机执行上述各种可选方式中提
供的视频剪辑方法。
时,全部或部分地运行本申请实施例的流程或实现本申请实施例的功能。该计算机可以是
通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计
算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质进行
传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如
同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微
波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人
员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超
出本申请的范围。
化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的
保护范围为准。