视频剪辑方法、装置、电子设备以及存储介质转让专利

申请号 : CN202110852101.1

文献号 : CN113301430B

文献日 : 2021-12-07

提供了一种视频剪辑方法、装置、电子设备以及存储介质，涉及网络媒体的视频处理领域，该方法包括：获取待剪辑视频；对该待剪辑视频进行抽帧，得到视频帧序列；识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列；基于该场景类别序列对该待剪辑视频进行划分，以得到多个第一视频片段；按时间顺序拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦。本申请提供的方法能够自动从待剪辑视频中分割出多个第一视频片段，并对该多个第一视频片段进行拼接，从而生成待剪辑视频的视频集锦，一方面，不仅节约大量的人工成本，而且提升视频剪辑的效率；另一方面，无需用户对待剪辑视频进行提前处理，提升用户体验。

1.一种视频剪辑方法，其特征在于，包括：获取待剪辑视频；

对所述待剪辑视频进行抽帧，得到视频帧序列；

识别所述视频帧序列中的每一个视频帧的场景类别，以得到所述视频帧序列对应的场景类别序列；

基于所述场景类别序列对所述待剪辑视频进行划分，以得到多个第一视频片段；

按时间顺序拼接所述多个第一视频片段，以得到所述待剪辑视频的视频集锦；

所述按时间顺序拼接所述多个第一视频片段，以得到所述待剪辑视频的视频集锦，包括：

对所述多个第一视频片段中发生镜头切换的第一视频片段进行剪辑，以得到多个第五视频片段；

按时间顺序拼接所述多个第五视频片段，以得到所述待剪辑视频的视频集锦；

所述对所述多个第一视频片段中发生镜头切换的第一视频片段进行剪辑，以得到多个第五视频片段，包括：

针对所述多个第一视频片段中的每一个第一视频片段，在位于所述每一个第一视频片段的首部的第一时间内进行抽帧、且在位于所述每一个第一视频片段的尾部的第二时间内进行抽帧，以得到多个视频帧；

确定所述多个视频帧中相邻的两个视频帧的直方图数据；

将所述相邻的两个视频帧的直方图数据之间的相似度，确定为所述相邻的两个视频帧的相关系数；

基于所述相邻的两个视频帧的相关系数，对所述每一个第一视频片段进行剪辑，以得到所述每一个第一视频片段对应的第五视频片段。

2.根据权利要求1所述的方法，其特征在于，所述基于所述场景类别序列对所述待剪辑视频进行划分，以得到多个第一视频片段，包括：基于所述视频帧序列中属于同一场景类别的连续视频帧，将所述待剪辑视频划分为多个第二视频片段；

基于所述多个第二视频片段中的每一个第二视频片段和所述每一个第二视频片段的后一相邻视频片段之间的视频帧的场景类别，对所述多个第二视频片段中的每一个第二视频片段分别进行扩展，以得到所述多个第二视频片段分别对应的多个第三视频片段；

基于所述多个第三视频片段中每一个第三视频片段的场景类别，对所述多个第三视频片段进行合并，以得到所述多个第一视频片段。

3.根据权利要求2所述的方法，其特征在于，所述基于所述视频帧序列中属于同一场景类别的连续视频帧，将所述待剪辑视频划分为多个第二视频片段，包括：基于所述场景类别序列，得到多个子序列；所述多个子序列中的每一个子序列包括属于同一场景类别的、且连续的视频帧的数量大于第一预设阈值的视频帧；

针对所述多个子序列中的每一个子序列，基于所述子序列中的第一个视频帧的时间戳和最后一个视频帧的时间戳，剪辑所述待剪辑视频，以得到所述多个第二视频片段，所述多个子序列分别对应所述多个第二视频片段。

4.根据权利要求2所述的方法，其特征在于，所述基于所述多个第二视频片段中的每一个第二视频片段和所述每一个第二视频片段的后一相邻视频片段之间的视频帧的场景类别，对所述多个第二视频片段中的每一个第二视频片段分别进行扩展，以得到所述多个第二视频片段分别对应的多个第三视频片段，包括：针对所述多个第二视频片段中的每一个第二视频片段，在所述视频帧序列中，确定所述每一个第二视频片段和所述每一个第二视频片段的后一相邻视频片段之间是否存在和所述每一个第二视频片段中的视频帧的场景类别相同的至少一个视频帧；

若存在所述至少一个视频帧，则基于所述至少一个视频帧中的最后一个视频帧的时间戳，将所述每一个第二视频片段和所述最后一个视频帧之间的片段扩展至所述每一个第二视频片段，以得到所述每一个第二视频片段对应的第三视频片段；

若不存在所述至少一个视频帧，则将所述每一个第二视频片段确定为所述每一个第二视频片段对应的第三视频片段。

5.根据权利要求2所述的方法，其特征在于，所述基于所述多个第三视频片段中每一个第三视频片段的场景类别，对所述多个第三视频片段进行合并，以得到所述多个第一视频片段，包括：

基于所述多个第三视频片段中每一个第三视频片段的场景类别，对所述多个第三视频片段中属于同一场景类别的、且相邻的第三视频片段进行合并，以得到所述多个第一视频片段。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述按时间顺序拼接所述多个第一视频片段，以得到所述待剪辑视频的视频集锦之前，所述方法还包括：在所述多个第一视频片段中，确定评分大于第二预设阈值的多个第四视频片段；所述视频片段的评分用于表征所述视频片段满足所述视频集锦的收录要求的评分；

将所述多个第四视频片段，作为所述多个第一视频片段。

7.根据权利要求6所述的方法，其特征在于，所述在所述多个第一视频片段中，确定评分大于第二预设阈值的多个第四视频片段，包括：针对所述多个第一视频片段中的每一个第一视频片段，利用评价模型确定所述每一个第一视频片段中的每一个视频帧的评分；

针对所述多个第一视频片段中的每一个第一视频片段，将所述每一个第一视频片段中的所有视频帧的平均评分，确定为所述每一个第一视频片段的评分；

将所述多个第一视频片段中的评分大于所述第二预设阈值的第一视频片段，确定为多个第四视频片段。

8.根据权利要求1所述的方法，其特征在于，所述基于所述相邻的两个视频帧的相关系数，对所述每一个第一视频片段进行剪辑，以得到所述每一个第一视频片段对应的第五视频片段，包括：

若所述相邻的两个视频帧的相关系数小于第三预设阈值且所述相邻的两个视频帧位于所述第一时间段内，则删除所述每一个第一视频片段中的、位于所述相邻的两个视频帧中前一视频帧之前的片段，以得到所述每一个第一视频片段对应的第五视频片段；

若所述相邻的两个视频帧的相关系数小于第三预设阈值且所述相邻的两个视频帧位于所述第二时间段内，则删除所述每一个第一视频片段中的、位于所述相邻的两个视频帧中后一视频帧之后的片段，以得到所述每一个第一视频片段对应的第五视频片段。

9.根据权利要求1至5中任一项所述的方法，其特征在于，所述按时间顺序拼接所述多个第一视频片段，以得到所述待剪辑视频的视频集锦之前，所述方法还包括：对所述多个第一视频片段进行相似场景去重，以得到多个第六视频片段；

将所述多个第六视频片段，作为所述多个第一视频片段。

10.根据权利要求8所述的方法，其特征在于，所述对所述多个第一视频片段进行相似场景去重，以得到多个第六视频片段，包括：将所述多个第一视频片段中的首个第一视频片段，确定为当前片段；

确定所述当前片段中的最后一个视频帧的直方图数据和所述当前片段的后一相邻第一视频片段中的第一个视频帧的直方图数据；

将所述最后一个视频帧的直方图数据和所述第一个视频帧的直方图数据之间的相似度，确定为所述最后一个视频帧和所述第一个视频帧的相关系数；

若所述最后一个视频帧和所述第一个视频帧的相关系数大于第四预设阈值，则判断所述当前片段和所述后一相邻第一视频片段是相似视频片段，并删除所述当前片段和所述后一相邻第一视频片段中评分低的视频片段，并将所述当前片段和所述后一相邻第一视频片段中评分高的视频片段确定为所述当前片段；

若所述最后一个视频帧和所述第一个视频帧的相关系数小于或等于第四预设阈值，则保留所述当前片段和所述后一相邻第一视频片段，且将所述后一相邻第一视频片段确定为所述当前片段；

在所述当前片段相邻的后一相邻第一视频片段为空时，将保留的视频片段确定为所述多个第六视频片段。

11.一种视频剪辑装置，其特征在于，包括：获取单元，获取待剪辑视频；

抽帧单元，对所述待剪辑视频进行抽帧，得到视频帧序列；

识别单元，识别所述视频帧序列中的每一个视频帧的场景类别，以得到所述视频帧序列对应的场景类别序列；

划分单元，基于所述场景类别序列对所述待剪辑视频进行划分，以得到多个第一视频片段；

拼接单元，按时间顺序拼接所述多个第一视频片段，以得到所述待剪辑视频的视频集锦；

所述拼接单元具体用于：

对所述多个第一视频片段中发生镜头切换的第一视频片段进行剪辑，以得到多个第五视频片段；

按时间顺序拼接所述多个第五视频片段，以得到所述待剪辑视频的视频集锦；

所述拼接单元具体用于：

确定所述多个视频帧中相邻的两个视频帧的直方图数据；

将所述相邻的两个视频帧的直方图数据之间的相似度，确定为所述相邻的两个视频帧的相关系数；

基于所述相邻的两个视频帧的相关系数，对所述每一个第一视频片段进行剪辑，以得到所述每一个第一视频片段对应的第五视频片段。

12.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至10中任一项所述的方法。

视频剪辑方法、装置、电子设备以及存储介质

技术领域

[0001] 本申请实施例涉及网络媒体的视频处理领域，并且更具体地，涉及视频剪辑方法、装置、电子设备以及存储介质。

背景技术

[0002] 随着网络视频平台的快速发展，短视频剪辑受到关注，由于人工剪辑需要耗费大量人力，所以需要引入自动化的剪辑工具，目前自动化的剪辑工具通常要求用户先按照剪
辑模版，提供几段特定时长的原始素材（通常为几秒钟），再进行自动合并；由于此类剪辑方
法使用的限制较多，用户提供的视频超过固定时长的素材会被自动截断，而且需要用户提
前对视频进行处理，无法对一段完整的长视频进行自动剪辑，导致用户体验差。

[0003] 因此，本领域急需一种视频剪辑方法，能够实现对待剪辑视频的自动剪辑，节约人力成本、提高剪辑效率、提升用户体验。

发明内容

[0004] 本申请实施例提供了一种视频剪辑方法、装置、电子设备以及存储介质，能够自动生成待剪辑视频的视频集锦，一方面，替代在实际业务场景中的人工操作，不仅节约大量的
人工成本，而且提升了视频剪辑的效率；另一方面，无需用户对待剪辑视频进行提前处理，
避免用户提供超过固定时长的素材被自动截断的情况，提升用户体验。

[0005] 一方面，提供了一种视频剪辑方法，包括：

[0006] 获取待剪辑视频；

[0007] 对该待剪辑视频进行抽帧，得到视频帧序列；

[0008] 识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列；

[0009] 基于该场景类别序列对该待剪辑视频进行划分，以得到多个第一视频片段；

[0010] 按时间顺序拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦。

[0011] 另一方面，提供了一种视频剪辑装置，包括：

[0012] 获取单元，获取待剪辑视频；

[0013] 抽帧单元，对该待剪辑视频进行抽帧，得到视频帧序列；

[0014] 识别单元，识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列；

[0015] 划分单元，基于该场景类别序列对该待剪辑视频进行划分，以得到多个第一视频片段；

[0016] 拼接单元，按时间顺序拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦。

[0017] 另一方面，本申请实施例提供了一种电子设备，包括：

[0018] 处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以实现上述视频剪辑方法。

[0019] 另一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被计算机设备的处理器读取并执行时，使得计算机设备
执行上述视频剪辑方法。

[0020] 基于以上技术方案，通过对待剪辑视频进行抽帧，得到视频帧序列，并识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列，再基于
该场景类别序列自动从待剪辑视频中分割出多个第一视频片段，并对该多个第一视频片段
进行拼接，从而生成待剪辑视频的视频集锦，一方面，基于该场景类别序列自动对待剪辑视
频进行划分及拼接，替代了在实际业务场景中的人工操作，不仅节约大量的人工成本，而且
提升视频剪辑的效率；另一方面，用户输入待剪辑视频，可以直接获取剪辑后的视频集锦，
无需用户对待剪辑视频进行提前处理，且避免用户提供超过固定时长的素材被自动截断的
情况，提升了用户体验。

附图说明

[0021] 图1是本申请实施例提供的视频剪辑方法的场景示意图。

[0022] 图2是本申请实施例提供的视频剪辑方法的示意性流程图。

[0023] 图3是本申请实施例提供的视频剪辑系统框架的示例。

[0024] 图4是本申请实施例提供的视频剪辑装置的示意性框图。

[0025] 图5是本申请实施例提供的电子设备的示意结构图。

具体实施方式

[0026] 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于
本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他
实施例，都属于本申请保护的范围。

[0027] 本申请提供的方案可涉及人工智能技术。

[0028] 其中，人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果
的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图
了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工
智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功
能。

[0029] 应理解，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布
式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括
计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

[0030] 随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人
机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得
到应用，并发挥越来越重要的价值。

[0031] 本申请实施例可涉及人工智能技术中的计算机视觉(Computer Vision, CV)技术，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑
代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为
更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理
论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技
术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、
视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等
技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

[0032] 本申请实施例提供的方案还涉及网络媒体领域中的视频处理技术。网络媒体与传统的音视频设备采用的工作方式不同，网络媒体依赖信息技术（IT）设备开发商们提供的技
术和设备来传输、存储和处理音视频信号。传统的串型数字（SDI）传输方式缺乏真正意义上
的网络交换特性。需要做大量的工作才可能利用SDI创建类似以太网和因特网协议（IP）所
提供的部分网络功能。因此，视频行业中的网络媒体技术就应运而生。进一步的，网络媒体
的视频处理技术可以包括音视频信号的传输、存储和处理过程及音视频。

[0033] 更具体的，本申请涉及一种视频剪辑方法，该视频剪辑方法可通过视频剪辑装置实现。需要说明的是，本申请实施例提供的装置可集成在终端设备中，该终端设备包括但不
限于智能移动电话、平板电脑和其他小型个人携带型设备，如掌上电脑（Personal Digital
Assistant，PDA）、电子书（electronic book，E‑book）等，本申请对此不作具体限制，当然，
本申请实施例提供的装置还可集成在服务器中，服务器可以包括一个独立运行的服务器或
者分布式服务器，也可以包括由多个服务器组成的服务器集群或者分布式系统，还可以是
提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、
安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有
线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

[0034] 需要说明的是，本申请实施例提供的方法可以通过多种形式应用于完整的游戏视频智能剪辑方案中。其中，以web接口为例，对本申请实施例提供的视频剪辑方案的表现形
式和操作步骤进行说明：

[0035] 步骤一：用户上传一段待剪辑视频或者待剪辑视频URL，终端设备获取到待剪辑视频或者待剪辑视频URL后，调用接口将待剪辑视频传输给视频剪辑模型；

[0036] 步骤二：视频剪辑模型对输入的待剪辑视频进行处理，得到待剪辑视频对应的视频集锦；

[0037] 步骤三：视频剪辑模型通过上述接口以URL的形式返回视频精彩集锦。

[0038] 下面将结合附图，以视频剪辑装置集成在服务器中为例，对本申请实施例中的技术方案进行描述。应理解，该视频剪辑装置也可集成在终端设备中，本申请对此不作具体限
制。

[0039] 图1是本申请实施例提供的视频剪辑方法的场景100的示意图。

[0040] 应理解，图1仅为本申请的示例，不应理解为对本申请的限制。

[0041] 如图1所示，该场景100可包括用于用户上传待剪辑视频的终端设备110、集成视频剪辑装置的服务器130、网络120。

[0042] 其中，终端设备110和服务器130通过网络120进行通信，网络120在终端设备110和服务器130之间提供通信链路的介质。

[0043] 例如，用户上传待剪辑视频或待剪辑视频URL，终端设备110获取到待剪辑视频后，通过网络120将该待剪辑视频传递给服务器130，在视频剪辑的过程中，首先，服务器130对
获取的该待剪辑视频或待剪辑视频URL进行抽帧，得到视频帧序列，其次，再将得到的视频
帧序列中的每一个视频帧输入到场景分割模型中，识别每一个视频帧的场景类别，以得到
该视频帧序列对应的场景类别序列，最后，再基于得到的场景类别序列对视频帧的场景类
别结果进行聚类，再根据聚类结果将待剪辑视频划分为多个第一视频片段，并按时间顺序
拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦；在视频剪辑完成后，服务器
130将剪辑完成后的视频集锦或视频集锦URL通过网络120反馈给终端设备110，用户可通过
终端设备110查看剪辑后的视频集锦。

[0044] 基于以上方案，通过对待剪辑视频进行抽帧，得到视频帧序列，并识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列，再基于该场
景类别序列自动从待剪辑视频中分割出多个第一视频片段，并对该多个第一视频片段进行
拼接，从而生成待剪辑视频的视频集锦，一方面，通过对待剪辑视频的自动划分及拼接生成
待剪辑视频对应的视频集锦，替代了在实际业务场景中的人工操作，不仅节约大量的人工
成本，而且提升了视频剪辑的效率；另一方面，相对于目前需要用户提前裁剪的视频剪辑方
案，用户输入完整的待剪辑视频，可以直接获取剪辑后的视频集锦，无需用户对待剪辑视频
进行提前处理，且避免用户提供超过固定时长的素材被自动截断的情况，在提升视频剪辑
效率的同时，提升用户体验。

[0045] 需要说明的是，该终端设备包括任意具备丰富人机交互方式、拥有接入互联网能力、通常搭载各种操作系统、具有较强处理能力的设备，该终端设备包括但不限于智能移动
电话、平板电脑和其他小型个人携带型设备，如掌上电脑（Personal Digital Assistant，
PDA）、电子书（electronic book，E‑book）等。需要说明的是，该服务器可以是独立的物理服
务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、
云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以
及大数据和人工智能平台等基础云计算服务的云服务器，服务器可以通过有线或无线通信
方式进行直接或间接地连接，本申请在此不做限制。

[0046] 应理解，图1中的终端设备、网络、和服务器的数目仅仅是示意性的，根据实际需要，可以具有任意数目的终端设备、网络和服务器。

[0047] 图2是本申请实施例提供的视频剪辑方法200的示意性流程图。

[0048] 应理解，该视频剪辑方法可由集成有视频剪辑装置的终端设备执行，也可由集成有视频剪辑装置的服务器执行，本申请对此不作具体限制，下边以由集成有视频剪辑装置
的终端设备执行为例，对本申请提供的视频剪辑方法进行详细说明。

[0049] S201，获取待剪辑视频。

[0050] S202，对该待剪辑视频进行抽帧，得到视频帧序列。

[0051] S203，识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列。

[0052] S204，基于该场景类别序列对该待剪辑视频进行划分，以得到多个第一视频片段。

[0053] S205，按时间顺序拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦。

[0054] 换言之，首先，终端设备获取用户上传的待剪辑视频，对该待剪辑视频进行抽帧，得到视频帧序列，其次，识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧
序列对应的场景类别序列；最后，基于该场景类别序列对待剪辑视频进行划分，得到多个第
一视频片段，并按时间顺序拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦。

[0055] 例如，可以对待剪辑视频按固定时间间隔（例如每秒2帧）进行抽帧，得到视频帧序列，并将该视频帧序列中的每一个视频帧输入到场景类别识别模型中，对每一个视频帧进
行场景类别识别，得到每一个视频帧的场景类别结果，即场景类别序列，再基于场景类别序
列，将相同场景类别的视频帧进行聚类，根据聚类结果对待剪辑视频进行剪辑，以得到多个
第一视频片段。其中，该场景类别识别模型可以选择基于残差网络ResNet50网络模型进行
训练，另外，该场景类别识别模型在训练时，训练数据集中的场景类别可包括大类和小类，
通过使用小类对场景类别识别模型进行训练，使场景类别识别模型的鲁棒性增强，使用大
类作为场景类别识别模型的输出，可以降低视频剪辑过程中计算的复杂度，例如，可以基于
365个小类和15个大类的场景类别对该场景类别识别模型进行训练，选择15个大类的结果
作为场景类别识别模型的输出类别。

[0056] 基于以上技术方案，通过对待剪辑视频进行抽帧，得到视频帧序列，并识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列，再基于
该场景类别序列自动从待剪辑视频中分割出多个第一视频片段，并对该多个第一视频片段
进行拼接，从而生成待剪辑视频的视频集锦，一方面，通过对待剪辑视频的自动划分及拼接
生成待剪辑视频对应的视频集锦，替代了在实际业务场景中的人工操作，不仅节约大量的
人工成本，而且提升视频剪辑的效率；另一方面，相对于目前需要用户提前裁剪的视频剪辑
方案，用户输入完整的待剪辑视频，可以直接获取剪辑后的视频集锦，无需用户对待剪辑视
频进行提前处理，且避免用户提供超过固定时长的素材被自动截断的情况，在提升视频剪
辑效率的同时，提升用户体验。

[0057] 需要说明的是，该视频帧序列为待剪辑视频抽取的多个视频帧组成的序列，场景类别序列为该视频帧序列中的所有视频帧的场景类别组成的序列。

[0058] 在本申请的一些实施例中，S204可包括：

[0059] 基于该视频帧序列中属于同一场景类别的连续视频帧，将该待剪辑视频划分为多个第二视频片段；

[0060] 基于该多个第二视频片段中的每一个第二视频片段和该第二视频片段的后一相邻视频片段之间的视频帧的场景类别，对该多个第二视频片段中的每一个第二视频片段分
别进行扩展，以得到该多个第二视频片段分别对应的多个第三视频片段；

[0061] 基于该多个第三视频片段中每一个第三视频片段的场景类别，对该多个第三视频片段进行合并，以得到该多个第一视频片段。

[0062] 通过基于视频帧序列中属于同一场景类别的连续视频帧，将待剪辑视频划分为多个第二视频片段，相当于，基于每一个视频帧的场景类别对待剪辑视频进行初步划分；基于
每一个第二视频片段和该第二视频片段的后一相邻视频片段之间的视频帧的场景类别，对
该每一个第二视频片段分别进行扩展，得到多个第三视频片段，相当于，考虑到视频帧序列
中相邻两个第二视频片段之间可能会存在场景类别识别错误的视频帧，通过扩展每一个第
二视频片段，提高了视频帧场景类别识别的容错率，即提高剪辑片段的准确性；再基于该多
个第三视频片段中每一个第三视频片段的场景类别，对多个第三视频片段进行合并，能够
进一步提高剪辑片段的准确性。

[0063] 在本申请的一些实施例中，基于该场景类别序列，得到多个子序列；该多个子序列中的每一个子序列包括属于同一场景类别的、且连续的视频帧的数量大于第一预设阈值的
视频帧；针对该多个子序列中的每一个子序列，基于该子序列中的第一个视频帧的时间戳
和最后一个视频帧的时间戳，剪辑待剪辑视频，以得到多个第二视频片段，该多个子序列分
别对应该多个第二视频片段。

[0064] 换言之，基于场景类别序列，将该场景类别系列划分为多个子序列，其中，每一个子序列包括属于同一场景类别的连续的视频帧、且该连续视频帧的数量大于第一预设阈
值；再基于每一个子序列中的第一个视频帧的时间戳和最后一个视频帧的时间戳，构建连
续场景的第二视频片段，即将待剪辑视频剪辑出多个第二视频片段，例如，该第一预设阈值
可以是6帧，当然，也可以是其他数量，本申请对此不作具体限制。

[0065] 通过划分视频帧序列中属于同一场景类别的连续视频帧、且该连续视频帧的数量大于第一预设阈值，将待剪辑视频划分为多个第二视频片段，相当于，考虑到基于每一个视
频帧的场景类别对待剪辑视频进行初步划分。

[0066] 在本申请的一些实施例中，针对该多个第二视频片段中的每一个第二视频片段，在该视频帧序列中，确定该第二视频片段和该第二视频片段的后一相邻视频片段之间是否
存在和该第二视频片段中的视频帧的场景类别相同的至少一个视频帧；若存在该至少一个
视频帧，则基于该至少一个视频帧中的最后一个视频帧的时间戳，将该第二视频片段和该
最后一个视频帧之间的片段扩展至该第二视频片段，以得到该第二视频片段对应的第三视
频片段；若不存在该至少一个视频帧，则将该第二视频片段确定为该第二视频片段对应的
第三视频片段。

[0067] 通过确定两个相邻的第二视频片段之间是否存在和两个相邻视频片段中的前一视频片段中的视频帧的场景类别相同的至少一个视频帧，相当于，考虑到两个相邻的第二
视频片段之间是否存在场景类别识别错误的视频帧；若存在至少一个视频帧，则将两个相
邻的第二视频片段中的前一视频片段扩展至至少一个视频帧中的最后一个视频帧，得到该
前一视频片段对应的第三视频片段，能够提高视频帧场景类别识别的容错率，即提高剪辑
片段的准确性。

[0068] 在本申请的一些实施例中，基于该多个第三视频片段中每一个第三视频片段的场景类别，对该多个第三视频片段中属于同一场景类别的、且相邻的第三视频片段进行合并，
以得到该多个第一视频片段。

[0069] 通过对多个第三视频片段中属于同一场景类别的、且相邻的第三视频片段进行合并，相当于，考虑到经过扩展后的相同场景类别的相邻两个第三视频片段之间的视频帧很
大可能存在场景类别识别错误，通过对相邻场景类别相同的相邻两个第三视频片段进行合
并，能够进一步提高视频帧场景类别识别的容错率，从而进一步提高剪辑片段的准确性。

[0070] 需要说明的是，也可以对多个第三视频片段中属于同一场景类别的、不相邻的第三视频片段进行合并，以得到多个第一视频片段。

[0071] 在本申请的一些实施例中，S205可包括：

[0072] 在该多个第一视频片段中，确定评分大于第二预设阈值的多个第四视频片段；该视频片段的评分用于表征该视频片段满足该视频集锦的收录要求的评分；

[0073] 按时间顺序拼接该多个第四视频片段，以得到该待剪辑视频的视频集锦。

[0074] 通过从多个第一视频片段中，筛选出评分大于第二预设阈值的多个第四视频片段，能够保证最后剪辑后的视频为该待剪辑视频的精彩集锦。

[0075] 需要说明的是，示例性的，该评分可以是美学评分，例如，视频的分辨率、视频的流畅度，分辨率高的视频或流畅性好的视频评分较高，分辨率低或卡顿的视频评分较低；另一
示例性的，该评分也可以是球赛评分，例如，足球视频中进球的片段评分高，射门的片段评
分较高，正常传球的片段评分较低，本申请对评分的种类不作具体限制。

[0076] 在本申请的一些实施例中，针对该多个第一视频片段中的每一个第一视频片段，利用评价模型确定该第一视频片段中的每一个视频帧的评分；针对该多个第一视频片段中
的每一个第一视频片段，将该第一视频片段中的所有视频帧的平均评分，确定为该第一视
频片段的评分；将该多个第一视频片段中的评分大于该第二预设阈值的第一视频片段，确
定为多个第四视频片段。

[0077] 例如，该评分可以是美学评分，首先，将多个第一视频片段中的每一个第一视频片段包括的视频帧子序列输入到美学评价网络模型中，输出对应视频帧子序列中的每一个视
频帧的美学评分，其次，将每个视频帧子序列中所有视频帧的平均美学评分，确定为该第一
视频片段的美学评分，最后，再从多个第一视频片段中筛选出美学评分高于第二预设阈值
的视频片段，以得到多个第四视频片段，其中，美学评分越高美学质量越高；例如，美学评分
的分数划分可以为1至10分，该第二阈值可以为5分。

[0078] 通过从多个第一视频片段中，筛选出评分大于第二预设阈值的多个第四视频片段，能够提高剪辑后的视频集锦的质量，进一步确保生成精彩集锦。

[0079] 在本申请的一些实施例中，S205可包括：

[0080] 对该多个第一视频片段分别进行镜头切换过滤，以得到多个第五视频片段；

[0081] 按时间顺序拼接该多个第五视频片段，以得到该待剪辑视频的视频集锦。

[0082] 换言之，在多个第一视频片段中，分别删除发生镜头切换的视频片段，以得到多个第五视频片段，再按时间顺序拼接该多个第五视频片段，以得到该待剪辑视频的视频集锦。

[0083] 在本申请的一些实施例中，针对该多个第一视频片段中的每一个第一视频片段，在位于该第一视频片段的首部的第一时间内进行抽帧、且在位于该第一视频片段的尾部的
第二时间内进行抽帧，以得到多个视频帧；确定该多个视频帧中相邻的两个视频帧的直方
图数据；将该相邻的两个视频帧的直方图数据之间的相似度，确定为该相邻的两个视频帧
的相关系数；基于该相邻的两个视频帧的相关系数，对该第一视频片段进行剪辑，以得到该
第一视频片段对应的第五视频片段。

[0084] 示例性的，以一个第一视频片段为例，例如，第一视频片段在待剪辑视频中位于第20s至30s，第一时间可以为20s至20.5s，第二时间可以为29.5s至30s，首先，可以在位于该
第一视频片段的首部的20s至20.5s内以固定频率（如10帧/秒）进行抽帧、在位于该第一视
频片段的尾部的29.5s至30s内以固定频率（如10帧/秒）内进行抽帧，以得到该第一视频片
段对应的多个视频帧；其次，再利用开放源代码计算机视觉类库（open source computer
vision library，OpenCV）计算该多个视频帧中相邻的两个视频帧的直方图数据，再计算相
邻两个视频帧的直方图数据的相似度，并将该相似度确定为该相邻两个视频帧的相关系
数，最后，再基于该相邻两个视频帧的相关系数，对该第一视频片段进行剪辑，以得到该第
一视频片段对应的第五视频片段。

[0085] 需要说明的是，直方图数据是用来表示数字图像中亮度分布的直方图，标绘了图像中每个亮度值的像素数，是图像中像素强度分布的图形表达方式。直方图统计了每一个
强度值所具有的像素个数，直方图广泛应用于许多计算机视觉应用中，通过标记帧和帧之
间显著的边缘和颜色的统计变化，来检测视频中场景的变换。

[0086] 在本申请的一些实施例中，若该相邻的两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧位于该第一时间段内，则删除该第一视频片段中的、位于该相邻的
两个视频帧中前一视频帧之前的片段，以得到该第一视频片段对应的第五视频片段；若该
相邻的两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧位于该第二时间
段内，则删除该第一视频片段中的、位于该相邻的两个视频帧中后一视频帧之后的片段，以
得到该第一视频片段对应的第五视频片段。

[0087] 换言之，首先，通过判断在第一视频片段的首尾抽取的多个视频帧中是否存在相关系数小于第三预设阈值的相邻的两个视频帧，相当于，判断该第一视频片段的首尾是否
发生镜头切换，其次，若存在相关系数小于第三预设阈值的相邻的两个视频帧、且该相邻的
两个视频帧位于该第一时间段内，相当于，确定该相邻的两个视频帧发生了镜头切换，再根
据该相邻的两个视频帧的位置，采用不同的过滤方案进行过滤，即若相邻的两个视频帧位
于该第一时间段内，则删除该第一视频片段中的、位于该相邻的两个视频帧中前一视频帧
之前的片段，以得到该第一视频片段对应的第五视频片段，若该相邻的两个视频帧位于该
第二时间段内，则删除该第一视频片段中的、位于该相邻的两个视频帧中后一视频帧之后
的片段，以得到该第一视频片段对应的第五视频片段；例如，该第三预设阈值可以是0.5，即
若相邻的两个视频帧的相关系数小于0.5，则该相邻的两个视频帧发生镜头切换。

[0088] 针对每一个第一视频片段，通过基于计算该第一视频片段抽取的多个视频帧中的相邻两个视频帧的相关系数，确定该相邻两个视频帧是否发生镜头切换，在确定该相邻的
两个视频帧发生镜头切换后，基于该相邻的两个视频帧的位置，采用不同的过滤方案进行
过滤，能够进一步提高剪辑后视频片段的质量，提升用户的主观体验。

[0089] 在本申请的一些实施例中，S205可包括：

[0090] 对该多个第一视频片段进行相似场景去重，以得到多个第六视频片段；

[0091] 对该多个第六视频片段，按时间顺序进行拼接，以得到该待剪辑视频的视频集锦。

[0092] 在本申请的一些实施例中，将该多个第一视频片段中的首个第一视频片段，确定为当前片段；确定该当前片段中的最后一个视频帧的直方图数据和该当前片段的后一相邻
第一视频片段中的第一个视频帧的直方图数据；将该最后一个视频帧的直方图数据和该第
一个视频帧的直方图数据之间的相似度，确定为该最后一个视频帧和该第一个视频帧的相
关系数；若该最后一个视频帧和该第一个视频帧的相关系数大于第四预设阈值，则判断该
当前片段和该后一相邻第一视频片段是相似视频片段，并删除该当前片段和该后一相邻第
一视频片段中评分低的视频片段，并将该当前片段和该后一相邻第一视频片段中评分高的
视频片段确定为该当前片段；若该最后一个视频帧和该第一个视频帧的相关系数小于或等
于第四预设阈值，则保留该当前片段和该后一相邻第一视频片段，且将该后一相邻第一视
频片段确定为该当前片段；在该当前片段相邻的后一相邻第一视频片段为空时，将保留的
视频片段确定为该多个第六视频片段。

[0093] 换言之，通过该当前片段中的最后一个视频帧的直方图数据和该当前片段的后一相邻第一视频片段中的第一个视频帧的直方图数据，确定该最后一个视频帧和该第一个视
频帧的相关系数；若该最后一个视频帧和该第一个视频帧的相关系数大于第四预设阈值，
则删除该当前片段和该后一相邻第一视频片段中评分低的视频片段，并将该当前片段和该
后一相邻第一视频片段中评分高的视频片段重新确定为当前片段；若该最后一个视频帧和
该第一个视频帧的相关系数小于或等于第四预设阈值，则保留该当前片段和该后一相邻第
一视频片段，且将该后一相邻第一视频片段重新确定为当前片段；由此，不仅能够对该当前
片段和该当前片段的后一相邻第一视频片段进行相似场景去重，还便于对重新确定的当前
片段和该重新确定的当前片段的后一相邻第一视频片段进行相似场景去重，直至重新确定
的当前片段相邻的后一相邻第一视频片段为空，将保留的视频片段确定为所述多个第六视
频片段。

[0094] 示例性的，从多个第一视频片段中的第一个第一视频片段开始，将第一个第一视频片段确定为当前片段，取当前片段最后一帧与后一相邻第一视频片段第一帧，利用
OpenCV计算两个视频帧的颜色直方图数据，进而确定两个视频帧的相关系数。若相关系数
超过第四预设阈值（例如0.8），则认为当前片段与后一相邻第一视频片段为相似视频片段，
此时比较当前片段与后一相邻第一视频片段的评分，去除评分低的视频片段，保留评分高
的视频片段，并将评分高的视频片段指定为当前片段；若相关性不超过第四预设阈值，则保
留当前片段与后一相邻第一视频片段，并将当前片段指定为该后一相邻视频片段，直到比
较完最后一个第一视频片段，以得到多个第六视频片段。

[0095] 通过对多个第一视频片段进行相似场景去重，能够进一步提高剪辑后视频片段的质量，提升用户的主观体验。

[0096] 图3是本申请实施例提供的视频剪辑的系统框架300的示例。

[0097] 需要说明的是，本申请实施例提供的系统框架300可以集成在终端设备中，也可以集成在服务器中，本申请对此不作具体限制。

[0098] 下边以集成在终端设备中为例进行详细说明。

[0099] 需要说明的是，该终端设备包括但不限于智能移动电话、平板电脑和其他小型个人携带型设备，如掌上电脑（Personal Digital Assistant，PDA）、电子书（electronic
book，E‑book）等，本申请对此不作具体限制。例如，图1所示的终端设备。

[0100] 如图3所示，该系统框架300可包括抽帧模块310、图像场景分割模块320、第一后处理模块330、图像美学评价模块340、第二后处理模块350、镜头切换检测模块360、相似场景
去重模块370以及拼接模块380。

[0101] 其中，抽帧模块310可用于对获取的待剪辑视频进行抽帧，以得到视频帧序列。

[0102] 图像场景分割模块320可用于图像场景分割，即将获取的视频帧序列，利用场景分割模型得到该视频帧序列对应的场景类别序列。

[0103] 第一后处理模块330可用于基于图像场景分割模块320输出的场景类别序列将待剪辑视频划分为多个第一视频片段。具体而言，基于获取的场景类别序列，将待剪辑视频按
照场景类别划分为多个第一视频片段；例如，可以基于场景类别序列，将属于同一场景类别
的、且连续的视频帧的数量大于第一预设阈值的视频帧划分为一个视频片段，以得到多个
视频片段，将该多个视频片段分别确定为多个第一视频片段；再如，可以将待剪辑视频基于
属于同一场景类别的、且连续的视频帧的数量大于第一预设阈值的视频帧划分后的多个视
频片段再分别进行扩展，将扩展后的多个视频片段再进行同类型合并，以得到多个第一视
频片段，或者将扩展后的多个视频片段直接确定为多个第一视频片段。

[0104] 图像美学评价模块340可用于图像美学评估，即将获取的多个第一视频片段中的每一个第一视频片段，利用美学评价模型，输出每一个第一视频片段中的每一个视频帧的
美学评分。

[0105] 第二后处理模块350可用于基于图像美学评价模块340得到的每一个第一视频片段中的每一个视频帧的美学评分对该多个第一视频片段进行筛选，以得到评分较高的视频
片段。具体而言，首先，针对多个第一视频片段中的每一个第一视频片段，计算第一视频片
段中的所有视频帧的平均美学评分，并将所有视频帧的平均美学评分，确定为该第一视频
片段的美学评分；其次，在多个第一视频片段中，将评分大于第二预设阈值的视频片段，确
定为多个第四视频片段。

[0106] 镜头切换检测模块360可用于场景切换检测。具体而言，针对多个第四视频片段中的每一个第四视频片段，首先，对该第四视频片段进行首尾抽帧，获取多个视频帧；其次，确
定多个视频帧中的相邻两个视频帧的相关系数，若该相邻的两个视频帧的相关系数小于第
三预设阈值且该相邻的两个视频帧位于第四视频片段的尾部，则删除该第四视频片段中
的、位于该相邻的两个视频帧中后一视频帧之后的片段，以得到该第四视频片段对应的第
五视频片段；若该相邻的两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧
位于第四视频片段的首部，则删除该第四视频片段中的、位于该相邻的两个视频帧中前一
视频帧之前的片段，以得到该第四视频片段对应的第五视频片段，该相关系数用于表征相
邻两个视频帧的帧间相似度。

[0107] 相似场景去重模块370可用于将镜头切换检测模块360输出的多个第五视频片段中场景相似的视频片段进行去重。具体地，在获取的多个第五视频片段，将第一个第五视频
片段作为当前片段，确定当前片段和后一相邻视频片段是否为相似场景视频片段，若是相
似场景视频片段，则删除该当前片段和该后一相邻视频片段中评分低的视频片段，并将该
当前片段和该后一相邻视频片段中评分高的视频片段确定为该当前片段，再去继续确定当
前片段和后一相邻视频片段是否为相似场景视频片段；若不是相似视频片段，则保留所该
当前片段和该后一相邻视频片段，且将该后一相邻视频片段确定为该当前片段，再去继续
确定当前片段和后一相邻视频片段是否为相似场景视频片段；直至该当前片段相邻的后一
相邻视频片段为空时，将保留的视频片段确定为该多个第六视频片段。

[0108] 拼接模块380可用于按时间顺序将多个第六视频片段进行拼接，得到待剪辑视频对应的视频集锦。

[0109] 基于以上技术方案，通过对待剪辑视频进行抽帧，得到视频帧序列，并识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列，再基于
该场景类别序列自动从一长段微录（vlog）待剪辑视频中分割出不同场景、具备较高美学质
量的视频片段，进一步的，基于颜色直方图进行了瞬时镜头切换检测和相似场景去重，自动
生成待剪辑视频对应的精彩集锦；一方面，通过对待剪辑视频的自动划分及拼接生成待剪
辑视频对应的视频集锦，实现智能剪辑，替代了在实际业务场景中的人工操作，不仅节约大
量的人工成本，而且提升视频剪辑的效率；另一方面，相对于目前需要用户提前裁剪的视频
剪辑方案，用户输入完整的待剪辑视频，可以直接获取剪辑后的视频集锦，无需用户对待剪
辑视频进行提前处理，且避免用户提供超过固定时长的素材被自动截断的情况，在提升视
频剪辑效率的同时，提升用户体验。

[0110] 此外，基于图像美学评价模块、镜头切换检测模块及相似场景去重模块对待剪辑视频划分后的视频片段做进一步处理，能够进一步提高剪辑后视频片段的质量，从而进一
步提升用户的主观体验。

[0111] 为便于理解，下面对本申请实施例中的相关术语进行说明。

[0112] 图像场景分割：用于区分图像所属的不同场景类型。

[0113] 图像美学评估：用于评估图像美学价值的高度。

[0114] 场景切换检测：用于找到视频中场景快速切换的时刻

[0115] 智能剪辑：使用算法模型自动选取出视频中所有的精彩时刻片段。

[0116] 需要说明的是，在以上的描述中，所涉及的术语“第一\第二\第三\第四\第五\第六”仅仅是区别类似的对象，不代表针对对象的特定排序，应理解，“第一\第二\第三\第四\
第五\第六”在允许的情况下可以互换特定的顺序或先后次序，不应成为本申请的限制。

[0117] 以上结合附图详细描述了本申请的优选实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简
单变型，这些简单变型均属于本申请的保护范围。例如，在上述具体实施方式中所描述的各
个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要
的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方
式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开
的内容。

[0118] 还应理解，在本申请的各种方法实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例
的实施过程构成任何限定。

[0119] 上文对本申请实施例提供的方法进行了说明，下面对本申请实施例提供的装置进行说明。

[0120] 图4是本申请实施例提供的视频剪辑装置400的示意性框图。

[0121] 如图4所示，该视频剪辑装置400包括：

[0122] 获取单元410，获取待剪辑视频；

[0123] 抽帧单元420，对该待剪辑视频进行抽帧，得到视频帧序列；

[0124] 识别单元430，识别该视频帧序列中的每一个视频帧的场景类别，以得到该视频帧序列对应的场景类别序列；

[0125] 划分单元440，基于该场景类别序列对该待剪辑视频进行划分，以得到多个第一视频片段；

[0126] 拼接单元450，按时间顺序拼接该多个第一视频片段，以得到该待剪辑视频的视频集锦。

[0127] 在本申请的一些实施例中，划分单元440具体可用于：

[0128] 基于该视频帧序列中属于同一场景类别的连续视频帧，将该待剪辑视频划分为多个第二视频片段；

[0129] 基于该多个第二视频片段中的每一个第二视频片段和该第二视频片段的后一相邻视频片段之间的视频帧的场景类别，对该多个第二视频片段中的每一个第二视频片段分
别进行扩展，以得到该多个第二视频片段分别对应的多个第三视频片段；

[0130] 基于该多个第三视频片段中每一个第三视频片段的场景类别，对该多个第三视频片段进行合并，以得到该多个第一视频片段。

[0131] 在本申请的一些实施例中，划分单元440具体还可用于：

[0132] 基于该场景类别序列，得到多个子序列；该多个子序列中的每一个子序列包括属于同一场景类别的、且连续的视频帧的数量大于第一预设阈值的视频帧；

[0133] 针对该多个子序列中的每一个子序列，基于该子序列中的第一个视频帧的时间戳和最后一个视频帧的时间戳，剪辑该待剪辑视频，以得到该多个第二视频片段，该多个子序
列分别对应该多个第二视频片段。

[0134] 在本申请的一些实施例中，装置400还可包括：

[0135] 扩展单元，具体用于针对该多个第二视频片段中的每一个第二视频片段，在该视频帧序列中，确定该第二视频片段和该第二视频片段的后一相邻视频片段之间是否存在和
该第二视频片段中的视频帧的场景类别相同的至少一个视频帧；若存在该至少一个视频
帧，则基于该至少一个视频帧中的最后一个视频帧的时间戳，将该第二视频片段和该最后
一个视频帧之间的片段扩展至该第二视频片段，以得到该第二视频片段对应的第三视频片
段；若不存在该至少一个视频帧，则将该第二视频片段确定为该第二视频片段对应的第三
视频片段。

[0136] 在本申请的一些实施例中，装置400还可包括：

[0137] 合并单元，具体可用于基于该多个第三视频片段中每一个第三视频片段的场景类别，对该多个第三视频片段中属于同一场景类别的、且相邻的第三视频片段进行合并，以得
到该多个第一视频片段。

[0138] 在本申请的一些实施例中，拼接单元450可用于：

[0139] 在该多个第一视频片段中，确定评分大于第二预设阈值的多个第四视频片段；该视频片段的评分用于表征该视频片段满足该视频集锦的收录要求的评分；

[0140] 按时间顺序拼接该多个第四视频片段，以得到该待剪辑视频的视频集锦。

[0141] 在本申请的一些实施例中，装置400还可包括：

[0142] 确定单元，具体用于针对该多个第一视频片段中的每一个第一视频片段，利用评价模型确定该第一视频片段中的每一个视频帧的评分；针对该多个第一视频片段中的每一
个第一视频片段，将该第一视频片段中的所有视频帧的平均评分，确定为该第一视频片段
的评分；将该多个第一视频片段中的评分大于该第二预设阈值的第一视频片段，确定为多
个第四视频片段。

[0143] 在本申请的一些实施例中，拼接单元450还可用于：

[0144] 对该多个第一视频片段分别进行镜头切换过滤，以得到多个第五视频片段；

[0145] 按时间顺序拼接该多个第五视频片段，以得到该待剪辑视频的视频集锦。

[0146] 在本申请的一些实施例中，抽帧单元420还可用于：

[0147] 针对该多个第一视频片段中的每一个第一视频片段，在位于该第一视频片段的首部的第一时间内进行抽帧、且在位于该第一视频片段的尾部的第二时间内进行抽帧，以得
到多个视频帧；

[0148] 确定该多个视频帧中相邻的两个视频帧的直方图数据；

[0149] 将该相邻的两个视频帧的直方图数据之间的相似度，确定为该相邻的两个视频帧的相关系数。

[0150] 基于该相邻的两个视频帧的相关系数，对该第一视频片段进行剪辑，以得到该第一视频片段对应的第五视频片段。

[0151] 在本申请的一些实施例中，装置400还可包括：

[0152] 剪辑单元，具体用于若该相邻的两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧位于该第一时间段内，则删除该第一视频片段中的、位于该相邻的两个视
频帧中前一视频帧之前的片段，以得到该第一视频片段对应的第五视频片段；若该相邻的
两个视频帧的相关系数小于第三预设阈值且该相邻的两个视频帧位于该第二时间段内，删
除该第一视频片段中的、位于该相邻的两个视频帧中后一视频帧之后的片段，以得到该第
一视频片段对应的第五视频片段。

[0153] 在本申请的一些实施例中，划分单元440具体还可用于：

[0154] 对该多个第一视频片段进行相似场景去重，以得到多个第六视频片段；

[0155] 对该多个第六视频片段，按时间顺序进行拼接，以得到该待剪辑视频的视频集锦。

[0156] 在本申请的一些实施例中，确定单元具体还可用于：

[0157] 将该多个第一视频片段中的首个第一视频片段，确定为当前片段；

[0158] 确定该当前片段中的最后一个视频帧的直方图数据和该当前片段的后一相邻第一视频片段中的第一个视频帧的直方图数据；

[0159] 将该最后一个视频帧的直方图数据和该第一个视频帧的直方图数据之间的相似度，确定为该最后一个视频帧和该第一个视频帧的相关系数；

[0160] 若该最后一个视频帧和该第一个视频帧的相关系数大于第四预设阈值，则判断该当前片段和该后一相邻第一视频片段是相似视频片段，并删除该当前片段和该后一相邻第
一视频片段中评分低的视频片段，并将该当前片段和该后一相邻第一视频片段中评分高的
视频片段确定为该当前片段；

[0161] 若该最后一个视频帧和该第一个视频帧的相关系数小于或等于第四预设阈值，则保留该当前片段和该后一相邻第一视频片段，且将该后一相邻第一视频片段确定为该当前
片段；

[0162] 在该当前片段相邻的后一相邻第一视频片段为空时，将保留的视频片段确定为该多个第六视频片段。

[0163] 应理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。例如，该装置400可以对应于执行本申请实施例的方法200
的相应主体，并且该装置400中的各个单元分别为了实现方法200中的相应流程，再如，该装
置400可对应系统框架300、中的相应模块或器件。为了简洁，在此不再赘述。

[0164] 还应当理解，本申请实施例涉及的该装置400中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小
的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。
上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实
现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该装置400也可以包
括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协
作实现。根据本申请的另一个实施例，可以通过在包括例如中央处理单元（CPU）、随机存取
存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的通用计算机的通用计算设备
上运行能够执行相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造本申请实
施例涉及的该装置400，以及来实现本申请实施例的视频剪辑方法。其中，计算机程序可以
记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于电子设备中，并在
其中运行，来实现本申请实施例的相应方法。

[0165] 换言之，上文涉及的单元可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过软硬件结合的形式实现。具体地，本申请实施例中的方法实施例的各步骤可
以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公
开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及
软件组合执行完成。可选地，软件可以位于随机存储器，闪存、只读存储器、可编程只读存储
器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储
器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

[0166] 图5是本申请实施例提供的电子设备500的示意结构图。

[0167] 如图5所示，该电子设备500至少包括处理器510以及计算机可读存储介质520。其中，处理器510以及计算机可读存储介质520可通过总线或者其它方式连接。计算机可读存
储介质520用于存储计算机程序521，计算机程序521包括计算机指令，处理器510用于执行
计算机可读存储介质520存储的计算机指令。处理器510是电子设备500的计算核心以及控
制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令
从而实现相应方法流程或相应功能。

[0168] 作为示例，处理器510也可称为中央处理器（Central Processing Unit，CPU）。处理器510可以包括但不限于：通用处理器、数字信号处理器（Digital Signal Processor，
DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门
阵列（Field Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体
管逻辑器件、分立硬件组件等等。

[0169] 作为示例，计算机可读存储介质520可以是高速RAM存储器，也可以是非不稳定的存储器（Non‑VolatileMemory），例如至少一个磁盘存储器；可选的，还可以是至少一个位于
远离前述处理器510的计算机可读存储介质。具体而言，计算机可读存储介质520包括但不
限于：易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器
（Read‑Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只
读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，
EEPROM）或闪存。易失性存储器可以是随机存取存储器（Random Access Memory，RAM），其用
作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取
存储器（Static RAM，SRAM）、动态随机存取存储器（Dynamic RAM，DRAM）、同步动态随机存取
存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（Double Data
Rate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（Enhanced SDRAM，ESDRAM）、同
步连接动态随机存取存储器（synch link DRAM，SLDRAM）和直接内存总线随机存取存储器
（Direct Rambus RAM，DR RAM）。

[0170] 在一种实现方式中，该电子设备500可以是图4所示的用于视频剪辑的装置400；该计算机可读存储介质520中存储有计算机指令；由处理器510加载并执行计算机可读存储介
质520中存放的计算机指令，以实现图2所示方法实施例中的相应步骤；具体实现中，计算机
可读存储介质520中的计算机指令由处理器510加载并执行相应步骤，为避免重复，此处不
再赘述。

[0171] 根据本申请的另一方面，本申请实施例还提供了一种计算机可读存储介质（Memory），计算机可读存储介质是电子设备500中的记忆设备，用于存放程序和数据。例如，
计算机可读存储介质520。可以理解的是，此处的计算机可读存储介质520既可以包括电子
设备500中的内置存储介质，当然也可以包括电子设备500所支持的扩展存储介质。计算机
可读存储介质提供存储空间，该存储空间存储了电子设备500的操作系统。并且，在该存储
空间中还存放了适于被处理器510加载并执行的一条或多条的计算机指令，这些计算机指
令可以是一个或多个的计算机程序521（包括程序代码）。

[0172] 该电子设备500还可包括：收发器530，该收发器530可连接至该处理器510或计算机可读存储介质520。

[0173] 其中，计算机可读存储介质520可以控制该收发器530与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器530可以
包括发射机和接收机。收发器530还可以进一步包括天线，天线的数量可以为一个或多个。

[0174] 根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。例如，
计算机程序521。此时，电子设备500可以是计算机，处理器510从计算机可读存储介质520读
取该计算机指令，处理器510执行该计算机指令，使得该计算机执行上述各种可选方式中提
供的视频剪辑方法。

[0175] 换言之，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令
时，全部或部分地运行本申请实施例的流程或实现本申请实施例的功能。该计算机可以是
通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计
算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质进行
传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如
同轴电缆、光纤、数字用户线（digital subscriber line，DSL））或无线（例如红外、无线、微
波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。

[0176] 本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元以及流程步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究
竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人
员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超
出本申请的范围。

[0177] 最后需要说明的是，以上该，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变
化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的
保护范围为准。

视频剪辑方法、装置、电子设备以及存储介质转让专利

申请号 : CN202110852101.1

文献号 : CN113301430B

文献日 : 2021-12-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 赵天昊 , 田思达

申请人 : 腾讯科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :