视频处理方法、装置、终端及存储介质转让专利

申请号 : CN201910565725.8

文献号 : CN112153462B

文献日 : 2023-02-14

本发明实施例公开了一种视频处理方法、装置、终端及存储介质，其中方法包括：从目标视频中确定出第一类视频段；根据第一类视频段包括的各图像帧之间的相似度将第一类视频段划分为视频场景片段集合，视频场景片段集合中的各个视频场景片段包括的各图像帧之间的相似度满足相似度条件；根据时长阈值对各个视频场景片段进行时长压缩处理；将时长压缩处理后的各个视频场景片段进行拼接处理得到压缩后的第一类视频段，并按照视频播放顺序将目标视频中包括的第二类视频段和压缩后的第一类视频段拼接得到压缩后的目标视频。本发明实施例，实现智能化的对目标视频进行时长压缩处理。

1.一种视频处理方法，其特征在于，应用于视频的加速播放，包括：根据用户的加速播放操作确定针对目标视频所设置的目标加速模式，并确定与所述目标加速模式对应的相似度阈值；

根据所述目标加速模式对应的相似度阈值确定相似度条件，所述相似度条件为多个图像帧中每两个图像帧之间的相似度大于所述相似度阈值；

从所述目标视频中确定出第一类视频段，所述第一类视频段中不包括台词信息和预设姿态信息；

根据所述第一类视频段包括的各图像帧之间的相似度将所述第一类视频段划分为视频场景片段集合，所述视频场景片段集合中的各个视频场景片段包括的各图像帧之间的相似度满足所述相似度条件；

根据时长阈值对所述各个视频场景片段进行时长压缩处理，所述时长阈值与所述目标加速模式对应；

将时长压缩处理后的各个视频场景片段进行拼接处理得到压缩后的第一类视频段，并按照视频播放顺序将所述目标视频中包括的第二类视频段和所述压缩后的第一类视频段拼接得到压缩后的目标视频；

其中，所述根据时长阈值对所述各个视频场景片段进行时长压缩处理，包括：如果目标视频场景片段的时长大于所述时长阈值，则按照时长抽取规则从所述目标视频场景片段中抽取至少一个待拼接子片段，并根据所述至少一个待拼接子片段构成裁剪后的目标视频场景片段，所述目标视频场景片段是所述视频场景片段集合所包括的视频场景片段中的任意一个，所述至少一个待拼接子片段的总时长不大于所述时长阈值；

如果所述目标视频场景片段的时长不大于所述时长阈值，则保持所述目标视频场景片段不变。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标视频，并获取所述目标视频包括的视频序列和音频序列，所述视频序列与所述音频序列相互对应；

根据语音识别算法将所述音频序列划分为第一类音频段和第二类音频段；

将所述视频序列中与所述第一类音频段对应的视频内容确定为所述第一类视频段。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标视频包括的各图像帧，并采用图像识别算法对所述目标视频包括的各图像帧进行识别处理，得到识别结果；

根据所述识别结果确定所述目标视频包括的所述第一类视频段。

4.如权利要求1所述的方法，其特征在于，所述根据所述第一类视频段包括的各图像帧之间的相似度将所述第一类视频段划分为视频场景片段集合，包括：按照所述视频播放顺序，从所述第一类视频段包括的各图像帧中选择起始图像帧；

依序遍历位于所述起始图像帧之后的各图像帧，如果检测到当前遍历的当前图像帧与所述起始图像帧之间的相似度小于相似度阈值，则将当前图像帧确定为结束图像帧；

将所述起始图像帧以及所述起始图像帧和所述结束图像帧之间的图像帧组成一个视频场景片段；

重复上述步骤，得到多个视频场景片段，将所述多个视频场景片段组成视频场景片段集合。

5.如权利要求1所述的方法，其特征在于，所述时长抽取规则包括根据所述时长阈值从所述目标视频场景片段中抽取得到一个待拼接子片段，所述待拼接子片段的时长不大于所述时长阈值；

或者，所述时长抽取规则包括根据所述时长阈值从所述目标视频场景片段中抽取得到至少两个待拼接子片段，所述至少两个待拼接子片段的总时长不大于所述时长阈值。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

如果目标视频场景片段的时长大于所述时长阈值，则根据所述时长阈值和所述目标视频场景片段包括的各图像帧的时长，确定出所需的待拼接图像帧的目标数量；

从所述目标视频场景片段中裁剪出目标数量个待拼接图像帧；

将所述目标数量个待拼接图像帧进行拼接处理，得到裁剪后的目标视频场景片段。

7.如权利要求1所述的方法，其特征在于，所述根据用户的加速播放操作确定针对目标视频所设置的目标加速模式，包括：显示用户界面，所述用户界面中包括播放设置区域，所述播放设置区域包括播放速度控制区域，所述播放速度控制区域包括至少一个加速模式，所述播放速度控制区域用于接收用户的加速播放操作；

若检测到所述用户的加速播放操作，确定所述加速播放操作包括的所述目标加速模式。

8.如权利要求1所述的方法，其特征在于，所述目标加速模式包括智能加速，所述确定与所述目标加速模式对应的相似度阈值，包括:根据所述目标视频的标识信息，获取所述目标视频的特征信息，所述特征信息包括评分信息和历史加速信息；

根据所述特征信息确定所述智能加速对应的相似度阈值。

9.一种视频处理装置，其特征在于，应用于视频的加速播放，包括：确定单元，用于根据用户的加速播放操作确定针对目标视频所设置的目标加速模式，并确定与所述目标加速模式对应的相似度阈值；

获取单元，用于从所述目标视频中确定出第一类视频段，所述第一类视频段中不包括台词信息和预设姿态信息；

处理单元，用于根据所述目标加速模式对应的相似度阈值确定相似度条件，所述相似度条件为多个图像帧中每两个图像帧之间的相似度大于所述相似度阈值；以及用于根据所述第一类视频段包括的各图像帧之间的相似度将所述第一类视频段划分为视频场景片段集合，所述视频场景片段集合中的各个视频场景片段包括的各图像帧之间的相似度满足所述相似度条件；以及用于根据时长阈值对所述各个视频场景片段进行时长压缩处理，所述时长阈值与所述目标加速模式对应；

所述处理单元，还用于将时长压缩处理后的各个视频场景片段进行拼接处理得到压缩后的第一类视频段，并按照视频播放顺序将所述目标视频中包括的第二类视频段和所述压缩的第一类视频段拼接得到压缩后的目标视频；

所述处理单元，在所述根据时长阈值对所述各个视频场景片段进行时长压缩处理时，还用于执行如下操作：如果目标视频场景片段的时长大于所述时长阈值，则按照时长抽取规则从所述目标视频场景片段中抽取至少一个待拼接子片段，并根据所述至少一个待拼接子片段构成裁剪后的目标视频场景片段，所述目标视频场景片段是所述视频场景片段集合所包括的视频场景片段中的任意一个，所述至少一个待拼接子片段的总时长不大于所述时长阈值；如果所述目标视频场景片段的时长不大于所述时长阈值，则保持所述目标视频场景片段不变。

10.一种终端，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1‑8任一项所述的视频处理方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1‑8任一项所述的视频处理方法。

视频处理方法、装置、终端及存储介质

技术领域

[0001] 本发明涉及互联网技术领域，尤其涉及一种视频处理方法、装置、终端及存储介质。

背景技术

[0002] 一般情况下，连续的图像变化每秒超过24帧图像以上时，根据视觉暂留原理，人眼无法辨别单幅的静态图像，看上去是平滑连续的视觉效果，这样连续的图像叫做视频，例如电影、电视剧或者通过拍摄设备拍摄的短片等。用户可通过终端观看网络视频，比如使用手机观看电影、使用平板观看电视剧等等。

[0003] 由于时间限制，用户在观看视频时为了节省观看时间，会选择加速播放。终端根据用户选择的加速播放操作，对视频进行时长压缩，缩短视频的播放时长，以实现加速播放。但是对目标进行时长压缩过程中，可能会丢失一些精彩的内容，影响用户的观看体验。因此，如何智能地对视频进行压缩处理成为当今研究的热点问题。

发明内容

[0004] 本发明实施例提供了一种视频处理方法、装置、终端及存储介质，可实现智能地对目标视频进行时长压缩处理。

[0005] 一方面，本发明实施例提供了一种视频处理方法，包括：

[0006] 从目标视频中确定出第一类视频段；

[0007] 根据所述第一类视频段包括的各帧图像之间的相似度将所述第一类视频段划分为视频场景片段集合，所述视频场景片段集合中的各个视频场景片段包括的各帧图像之间的相似度满足相似度条件；

[0008] 根据时长阈值对所述各个视频场景片段进行时长压缩处理；

[0009] 将时长压缩处理后的各个视频场景片段进行拼接处理得到压缩后的第一类视频段，并按照视频播放顺序将所述目标视频中包括的第二类视频段和所述压缩的第一类视频段拼接得到压缩后的目标视频。

[0010] 另一方面，本发明实施例提供了一种视频处理装置，包括：

[0011] 获取单元，用于从目标视频中确定出第一类视频段；

[0012] 处理单元，用于根据所述第一类视频段包括的各帧图像之间的相似度将所述第一类视频段划分为视频场景片段集合，所述个视频场景片段集合中的各个视频场景片段包括的各帧图像之间的相似度满足相似度条件；

[0013] 所述处理单元，还用于根据时长阈值对所述各个视频场景片段进行时长压缩处理；

[0014] 所述处理单元，还用于将时长压缩处理后的各个视频场景片段进行拼接处理得到压缩后的第一类视频段，并按照视频播放顺序将所述目标视频中包括的第二类视频段和所述压缩的第一类视频段拼接得到压缩后的目标视频。

[0015] 再一方面，本发明实施例提供了一种终端，所述终端包括：

[0016] 处理器，适于实现一条或多条指令；以及，

[0017] 计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

[0018] 从目标视频中确定出第一类视频段；

[0019] 根据所述第一类视频段包括的各帧图像之间的相似度将所述第一类视频段划分为视频场景片段集合，所述视频场景片段集合中的各个视频场景片段包括的各帧图像之间的相似度满足相似度条件；

[0020] 根据时长阈值对所述各个视频场景片段进行时长压缩处理；

[0021] 将时长压缩处理后的各个视频场景片段进行拼接处理得到压缩后的第一类视频段，并按照视频播放顺序将所述目标视频中包括的第二类视频段和所述压缩的第一类视频段拼接得到压缩后的目标视频。

[0022] 本发明实施例中，从目标视频中确定出第一类视频段，其中，根据目标视频包括的音频序列将目标视频划分得到第一类视频段和第二类视频段，第一类视频段中不包括台词信息，第二类视频段中包括台词信息；如此一来，对第一类视频段进行压缩处理，可避免由于压缩而导致错过精彩或者重要台词的情况发生；进一步的，将需要进行压缩处理的第一类视频段中包括的各图像帧划分为视频场景片段集合，视频场景片段集合中的每个视频场景片段由多个图像帧组成，各图像帧之间的相似度满足相似度条件，也即每个视频场景片段中的各图像帧之间相似度较高。这样一来，在对每个视频场景片段进行时长压缩处理后即使每个视频场景片段中包括的图像帧减少，也不会影响用户对该段视频场景片段的观看，最后将目标视频的第二类视频段和压缩处理后的第一类视频段进行拼接处理，便可得到压缩后的目标视频。在上述压缩处理过程中，只对目标视频中的第一类视频段进行压缩处理，可以在节省终端功耗开销的同时实现缩短目标视频的时长，减少了播放目标视频的时长，实现了智能化地对目标视频进行时长压缩处理。

附图说明

[0023] 为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0024] 图1是本发明实施例提供的一种目标视频的数据结构示意图；

[0025] 图2a是本发明实施例提供的一种终端界面的示意图；

[0026] 图2b是本发明实施例提供的一种用户界面的示意图；

[0027] 图2c是本发明实施例提供的另一种用户界面的示意图；

[0028] 图2d是本发明实施例提供的又一种用户界面的示意图；

[0029] 图3是本发明实施例提供的一种视频处理方法的流程示意图；

[0030] 图4是本发明实施例提供的另一种视频处理方法的流程示意图；

[0031] 图5是本发明实施例提供的一种对目标视频进行划分的示意图；

[0032] 图6是本发明实施例提供的一种对视频场景片段集合进行时长压缩处理的示意图；

[0033] 图7是本发明实施例提供的一种视频处理装置的结构示意图；

[0034] 图8是本发明实施例提供的一种终端的结构示意图。

具体实施方式

[0035] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

[0036] 图像是对客观事物的一种相似性的、生动性的描述或者写真，图像可以指所有具有视觉效果的画面，例如照片、绘画、传真、影视画面、心电图等。帧可以理解为图像的时间单位，一般情况下，一帧等于二十五分之一秒。一帧图像可以是指一幅静止的画面。

[0037] 视觉暂留可以指物体在快速运动时,当人眼所看到的影像消失后，人眼仍能继续保留其影像0.1‑0.4秒左右的图像，这种现象被称为视觉暂留现象。举例来说，一个被绳子在两面穿过的圆盘，圆盘的一面画了一只鸟，另一面画了一个空笼子。当圆盘快速旋转时，鸟在笼子里出现了，由此可见当人眼看到一系列连续变化的图像时，它一次保留一个图像。

[0038] 基于上述图像和视觉暂留理论，视频的定义可以为：一般情况下，连续的图像变化每秒超过24帧图像以上时，根据视觉暂留原理，人眼无法辨别单幅的静态图像，看上去是平滑连续的视觉效果，这样连续的图像叫做视频。换句话说，视频是由多个图像在时间域上组成的，也即每个视频包括多个图像帧。

[0039] 在一个实施例中，播放视频时，涉及到时间轴和视频播放顺序的概念。所谓时间轴是用于指示视频的总时长，一个视频中包括的多图像帧是沿着时间轴时序先后顺序排列的，视频播放顺序是指播放视频中包括的多图像帧的顺序，视频播放顺序可以是按照时间轴先后顺序依次播放各图像帧。

[0040] 例如，假设一个视频的总时长为5分钟，时间轴则具有5分钟的时长，假设时间轴每秒内包括25个时序上依次排列的图像帧，也即每秒钟依次播放25个图像。

[0041] 在对视频播放的研究过程中发现，目标视频中可能存在某些图像极其相似(此处所谓的目标视频可以指任意一段用户即将播放或者预约播放的视频)，导致人眼看上去视频的画面处于静止状态；或者由于用户的时间限制，用户会选择加速播放视频。用户可通过在终端显示的用户界面输入加速播放操作，响应于用户的加速播放操作，终端可以通过对目标视频进行时长压缩处理以达到加速播放的目的。

[0042] 在一个实施例中，本发明实施例提出一种视频处理方法，可以对目标视频进行时长压缩处理，具体的：从目标视频中确定出第一类视频段；根据第一类视频段包括的各图像帧之间的相似度将第一类视频段划分为视频场景片段集合；根据时长阈值对视频场景片段集合中的各个视频场景片段进行时长压缩处理；最后将时长压缩处理后的各个视频场景片段进行拼接处理得到压缩后的第一类视频，并按照视频播放顺序将目标视频中包括的第二类视频和压缩处理后的第一类视频进行拼接得到压缩后的目标视频。

[0043] 其中，第一类视频段是指目标视频中需要压缩处理的视频段，第二类视频段是指目标视频中不需要压缩处理的视频段。在一个实施例中，图像帧之间的相似度可以用来衡量图像帧之间的差别程度，相似度越大表明两个图像帧之间的差别越小，两个图像帧越相似；相似度越小表明两个图像帧之间的差别越大，两个图像帧越不相似。

[0044] 为了明确目标视频、第一类视频段以及视频场景片段集合之间的关系，本发明实施例提供了一种目标视频的数据结构示意图如图1所示，在图1中目标视频101中包括n个图像帧表示为F1，F2，F3,…Fm…Fq…Fw…Fs…Fn，其中，m，q，w，s，n均为大于1的正整数且n最大，m最小；按照划分规则(划分规则在下面的描述中具体介绍)，可以将目标视频101划分为第一类视频段102和第二类视频段103；第一类视频段102中可包括多个图像帧组，各个图像帧组之间可以是连续的，也可以是不连续的。同理的，第二类视频段103也可以包括多个图像帧组，各个图像帧组之间可以是连续的，也可以是不连续的。例如，第一类视频段102中可包括的多个图像帧组为F1‑Fm‑1，Fq‑Fw‑1，Fs‑Fn；例如第二类视频段103中可包括的多个图像帧组为Fm‑Fq‑1，Fw‑Fs‑1。进一步的，可以根据各图像帧之间的相似度将第一类视频段102划分多个视频场景片段，多个视频场景片段组成视频场景片段集合1021，每个视频场景片段可以由多个图像帧组成。需要说明的是，对于具体如何根据各图像帧之间的相似度将第一类视频段划分得到多个视频场景片段的，将在下面的描述中具体介绍。

[0045] 本发明实施例提出的视频处理方法可以应用在任意具有视频播放功能的终端中，其中，终端可以为手机、平板、笔记本电脑等设备。终端中可以安装有视频播放器，终端可通过视频播放器播放视频，或者终端也可以直接在网页上播放视频。在一个实施例中，如果终端通过视频播放器播放视频，用户可通过点击终端中包括的视频播放器对应的按钮启动视频播放器；或者，用户也可以通过唤醒终端的语音助手，输入启动视频播放器的启动指令以启动视频播放器；再或者，用户还可以通过在终端中输入快捷手势来启动视频播放器。

[0046] 在检测到对目标视频的加速播放操作时，终端采用本发明实施例所提出的视频处理方法智能地对目标视频进行时长压缩处理，可节省播放时间，从而达到加速播放视频的目的。

[0047] 下面通过图2a‑图2d介绍本发明实施例的应用场景。参考图2a，201表示终端，终端中可安装有播放器的应用程序，并可终端中显示与播放器的应用程序对应的播放器图标，用户可通过点击、长按播放器图标的方式输入启动播放器的启动操作；终端201检测到用户的启动操作后，启动播放器并显示播放器的用户界面如图2b所示。由图2b可见，播放器的用户界面中可包括多个视频，用户可以根据自己的喜好选择想要播放的视频，例如如果用户想要观看待播放视频，可以通过点击、长按或其他预设方式选择待播放视频。终端201如果检测到用户对待播放视频的选择操作，则显示待播放视频的用户界面如图2c所示。

[0048] 在待播放视频的用户界面中可包括播放/暂停图标202，用户可通过双击或者点击播放图标202的方式触发终端开始播放待播放视频或者暂停播放待播放视频。待播放视频的用户界面中还可以包括播放设置图标203，如果用户想要对待播放视频进行播放设置，可通过点击播放设置图标203调出播放设置区域如图2d所示，在图2d中204表示播放设置区域；播放设置区域204中可包括播放速度控制区域2041和其他区域2042，播放速度控制区域2041中包括至少一种加速模式对应的图标，至少一种加速模式可以包括智能加速、1倍加速、2倍加速等，每一种加速模式对应一个相似度阈值；其他区域2042可包括循环播放的图标、下载图标以及弹幕设置图标等。

[0049] 当检测到用户对任意一种加速模式的选择操作时，终端201确定与用户选择操作对应的目标加速模式，获取与目标加速模式对应的相似度阈值；然后根据相似度阈值确定相似度条件；进一步的，根据当前待播放视频的播放情况确定需要时长压缩处理的目标视频，具体地：如果待播放视频还未播放则可将待播放视频确定为目标视频；如果待播放视频已经播放了一段时间则可将待播放视频中未播放的视频确定为目标视频。

[0050] 然后终端201将从目标视频中确定出需要进行时长压缩的第一类视频段；依据第一类视频段中各图像帧之间的相似度和之前确定的相似度条件将第一类视频段进行划分，得到视频场景片段集合，再对视频场景片段集合中的各个视频场景片段进行时长压缩处理，最后将各个压缩处理后的视频场景片段进行拼接，得到压缩后的第一类视频段，将压缩后的第一类视频段和第二类视频段进行拼接，得到压缩后的目标视频。压缩后的目标视频的时长小于压缩前的目标视频的时长，如此可以缩短目标视频的播放时间，达到加速播放的目的。

[0051] 基于上述描述，本发明实施例提供了一种视频处理方法的流程示意图，如图3所示。图3所述的视频处理方法可以由终端执行，具体可由终端的处理器执行。图3所示的视频处理方法可包括如下步骤：

[0052] S301、从目标视频中确定出第一类视频段。

[0053] 其中，目标视频可以指用户界面中包括的未播放视频。在一个实施例中，目标视频可以是一段完整的视频；举例来说，终端获取用户选择的待播放视频，在该待播放视频还未开始播放之前，终端检测到用户输入的加速播放操作，此时目标视频是指完整的待播放视频。其中，终端可提供多种加速模式，比如智能加速，1倍加速，2倍加速等，加速播放操作是指用户对任意一种加速模式的选择操作。例如，用户选择待播放视频为电视剧封神演义第53集，终端在检测到开始播放待播放视频的操作之前，首先检测到了加速播放操作，此时待播放视频即可以看作为目标视频。

[0054] 在其他实施例中，目标视频也可以是一段完整的视频中的一部分视频。举例来说，假设终端获取到用户选择的待播放视频并开始播放终端播放待播放视频；在待播放视频的播放过程中，用户发现该待播放视频中存在较多冗余的内容，例如相似的画面、无台词的画面等，用户可以输入加速播放操作，此时将待播放视频中截止到当前时刻为止，还未播放的视频确定为目标视频。例如，用户选择的待播放视频为一段时长为100分钟的电影，在电影播放过程中检测到用户的加速播放操作，截止到当前时刻电影已经播放了20分钟，则将剩下的80分钟的电影内容确定为目标视频。

[0055] 在一个实施例中，步骤S301中第一类视频段是指目标视频中包括的需要进行时长压缩处理的视频段，目标视频和第一类视频段的关系可以如图1所示，第一类视频段中包括多个图像帧组，在每一个图像帧组中各个图像帧之间是连续的，各个图像帧组之间可以是连续的，也可以是不连续的。例如，目标视频包括F1‑Fn个图像帧，其中，n为大于10的正整数，第一类视频段包括的多个图像帧组可为F1‑F4，F7‑F10以及F11‑Fn，可见第一个图像帧组F1‑F4与第二个图像帧组F7‑F10是不连续的，第二个图像帧组和第三图像帧组是连续的F7‑Fn。

[0056] 在一个实施例中，终端可以根据不同的划分规则，将目标视频划分为第一类视频段和第二类视频段，其中，第一类视频段是需要进行时长压缩处理的视频段，第二类视频段是不需要进行时长压缩处理的视频段。在一个实施例，划分规则可以指示依据目标视频对应的音频序列中有无台词信息进行划分，第一类视频段可以指不包含台词信息的音频段对应的视频段，第二类视频段可以指包含台词信息的音频段对应的视频段。其中，台词信息可以指视频中人物对话、旁白、内心独白、以及歌词等信息。在其他实施例中，划分规则还可以指示按照图像帧是否包括预设的姿态信息进行划分，第一类视频段可以指不包括预设的姿态信息的图像帧组成的视频段，第二类视频段可以指包括预设的姿态信息的图像帧组成的视频段。其中，预设的姿态信息可以包括预设的舞蹈动作等。

[0057] S302、根据第一类视频段包括的各图像帧之间的相似度将第一类视频段划分为视频场景片段集合，视频场景片段集合中的各个视频场景片段包括的各图像帧之间的相似度满足相似度条件。

[0058] 在一个实施例中，相似度条件可以指：视频场景片段包括的各图像帧中，第一个图像帧与其他各个图像帧之间的相似度均大于相似度阈值。例如，假设一个视频场景片段中包括的图像帧为F1‑F4，如果该视频片段中各个图像帧之间满足相似度条件，则有：F1与F2之间的相似度、F1与F3之间的相似度以及F1与F4之间的相似度均大于相似度阈值。

[0059] 在其他实施例中，相似度条件还可以指：视频场景片段包括的各图像帧中，每两个图像帧之间的相似度大于相似度阈值。例如，假设一个视频场景片段中包括的图像帧为F1‑F3，如果该视频场景片段中各个图像帧之间满足相似度条件，则有：F1与F2之间的相似度大于相似度阈值，F2与F3之间的相似度大于相似度阈值，F1与F3之间的相似度大于相似度阈值。

[0060] 其中，相似度阈值可以是终端预先设置的。可选的，终端中可预先设置有多种加速模式，每一种加速模式对应一个相似度阈值，当检测到加速播放操作时，根据加速播放操作中包括的加速模式确定相似度阈值。

[0061] 在一个实施例中，终端可以依据第一类视频段包括的各图像帧之间的相似度以及相似度条件将第一类视频段划分为多个视频场景片段。其中，可以通过结构相似算法(structural similarity index，SSIM)评价两个图像帧之间的相似度。将两个图像帧F1和Fn作为SSIM算法的两个输入，可以得到一个0‑1之间的值，值越大表明两个图像帧之间的相似度越大，值越小表明两个图像帧之间的相似度越小。

[0062] 在一个实施例中，终端依据第一类视频包括的各图像帧之间的相似度以及相似度条件将第一类视频段划分为多个视频场景片段的实施方式可以为：从第一类视频段的第一个图像帧开始，依序往后找出与第一个图像帧之间的相似度大于或等于相似度阈值的连续图像帧，直到碰到与第一个图像帧之间的相似度小于相似度阈值的第n个图像帧，其中n为大于1的正整数，将F1‑Fn‑1组成一个视频场景片段。以此类推，可以将第一类视频段划分为多个视频场景片段，多个视频场景片段组成了视频场景片段集合。

[0063] 例如，第一类视频段包括F1‑F6，从第一个图像帧F1开始，找出与F1之间的相似度大于或等于相似度阈值的连续帧F4，F5与F1之间的相似度小于相似度阈值，则将F1‑F4组成一个视频场景片段。

[0064] 在其他实施例中，终端依据第一类视频包括的各图像帧之间的相似度以及相似度条件将第一类视频段划分为多个视频场景片段的实施方式可以为：从第一类视频段的第一个图像帧开始，依序往后找出与第一个图像帧之间的相似度大于或等于相似度阈值的连续图像帧，直到碰到与第一个图像帧之间的相似度小于相似度阈值的第m个图像帧，得到一个图像帧集合F1‑Fm‑1；然后在图像帧集合F1‑Fm‑1中，从第二个图像帧开始，依序往后找出与第二个图像帧之间的相似度大于或等于相似度阈值的连续图像帧，直到碰到与第一个图像帧之间的相似小于相似度阈值的w，w小于m，得到又一个图像帧集合F1‑Fw‑1；再在图像帧集合F1‑Fw‑1中执行上述查找步骤，直到将F1‑Fm‑1中任意两个图像帧之间都进行过相似度比较为止。此时得到的图像帧集合中的各个图像帧可以组成一个视频场景片段。迭代执行步骤，直到第一类视频段中不存在未分组的图像帧，便可实现将第一类视频段划分为多个视频场景片段，多个视频场景片段组成了视频场景片段集合。

[0065] 例如，假设第一类视频段为F1‑F8，首先从F1开始，依序往后找出与F1之间的相似度大于或等于相似度阈值的连续图像帧F2‑F6，得到一个图像帧集合F1‑F6；然后在图像帧集合F1‑F6中，从F2开始，依序往后找出与F2之间的相似度大于等于相似度阈值的连续图像帧F3‑F5，得到又一个图像帧集合F1‑F5；然后在F1‑F5中，从F3开始，依序往后找出与F3之间的相似度大于或等于相似度阈值的连续帧F4，则得到一个图像帧集合F1‑F4，此时可以将F1‑F4组成一个视频时长片段。下一次，从F5开始，重复执行上述过程，便可实现将第一类视频段划分为视频场景片段集合。

[0066] S303、根据时长阈值对各个视频场景片段进行时长压缩处理。

[0067] 在一个实施例中，时长阈值可以是终端预先设置的，例如，终端设置每一种加速模式对应一个时长阈值。可选的，终端可以根据接收到的加速播放操作中包括的加速模式确定时长阈值。

[0068] 在一个实施例中，步骤S303中所述对各个视频场景片段进行时长压缩处理可包括：对各个视频场景片段中时长大于时长阈值的视频场景片段进行时长压缩处理，以使得各个视频场景片段的时长均不大于时长阈值。

[0069] 其中，假设各个视频场景片段中包括目标视频场景片段，目标视频场景片段的时长大于时长阈值，目标视频场景片段为各个视频场景片段中的任意一个，下面以目标视频场景为例，介绍时长压缩处理。时长压缩处理可以指：直接将时长大于时长阈值的目标视频场景片段中截取出一段时长等于或者小于时长阈值的片段，作为压缩处理后的目标视频场景片段，例如时长阈值为3秒，目标视频场景片段为5秒，则可以直接从目标视频场景片段中截取前3秒作为时长压缩处理后的目标视频场景片段，或者也可截取中间3秒、或者后3秒作为时长压缩处理后的目标视频场景片段。

[0070] S304、将时长压缩处理后的各个视频场景片段进行拼接处理得到压缩后的第一类视频段，并按照视频播放顺序将目标视频中包括的第二类视频段和压缩后的第一类视频段拼接得到压缩后的目标视频。

[0071] 在一个实施例中，将时长压缩处理后的各个视频场景片段进行拼接处理便可得到压缩后的第一类视频段，由于各个视频场景片段的时长减小，拼接得到的第一类视频段的时长也减小了，相当于对第一类视频段也进行了时长压缩处理，将目标视频包括的第二类视频段和时长压缩处理后的第一类视频段进行拼接处理后得到的目标视频的时长也减小了，从而缩短了播放目标视频的时间。

[0072] 在一个实施例中，上述对时长压缩处理后的各个视频场景片段进行拼接处理可以指直接将时长压缩处理后的各个视频场景片段片拼接在一起，或者也可以指利用拼接工具将时长压缩处理后各个视频场景片段拼接在一起。

[0073] 本发明实施例中，将需要压缩处理的第一类视频段中包括的各图像帧划分为视频场景片段集合，视频场景片段集合中的每个视频场景片段由多个图像帧组成，各图像帧之间的相似度满足相似度条件，也即每个视频场景片段中的各图像帧之间相似度较高。这样一来，在对每个视频场景片段进行时长压缩处理后即使每个视频场景片段中包括的图像帧减少，也不会影响用户对该段视频场景片段的观看，最后将目标视频的第二类视频段和压缩处理后的第一类视频段进行拼接处理，便可得到压缩后的目标视频。压缩后的目标视频的时长缩短，减少了播放目标视频的时长，实现了智能化地对目标视频进行时长压缩处理。

[0074] 请参见图4，是本发明实施例提供的另一种视频处理方法的流程示意图。图4所示的视频处理可由终端执行，具体可由终端的处理器执行，图4所示的方法可包括如下步骤：

[0075] S401，获取待播放视频，并显示播放待播放视频的用户界面。

[0076] 其中，待播放视频是用户选择的即将播放或者预约播放的视频。在获取到待播放视频后，如果检测到开始播放待播放视频的指令，则在用户界面中显示正在播放的待播放视频；如果未检测到开始播放待播放视频的指令，则在用户界面中可显示待播放视频的第一个图像帧，或者显示待播放视频对应的视频封面。

[0077] 在一个实施例中，用户界面中可以包括播放设置图标，用户可以通过选择该图标调出用户界面包括的播放设置区域，该播放设置区域可包括播放速度控制区域，播放速度控制区域包括至少一个加速模式，播放控制区域用于接收用户的加速播放操作。其中，加速模式可以包括智能加速、1倍加速、2倍加速以及1.5倍加速等。

[0078] 在一个实施例中，播放速度控制区域可以用于接收用户的加速播放操作。可选的，如果用户通过点击、长按、滑动等方式选择了至少一个加速模式中任意一个加速模式对应的选择项，则可确定用户输入了加速播放操作；或者，用户也可以通过语音控制来输入加速播放操作。

[0079] 在其他实施例中，用户可以在用户界面的预设位置范围内输入对加速模式的选择操作。例如，用户可以通过在预设位置范围内输入预设的手势信息，或者预设的滑动操作。

[0080] 在一个实施例中，如果检测到用户对至少一个加速模式的选择操作，则确定用户输入了加速播放操作，终端响应于加速播放操作，根据加速播放操作执行步骤S402‑步骤S408以达到加速播放的目的。

[0081] S402，响应于接收到的加速播放操作，确定加速播放操作包括的目标加速模式，并确定与目标加速模型对应的相似度阈值。

[0082] 由上述可知，终端接收到的加速播放操作可以是用户、对至少一种加速模型的选择，此时用户选择的加速模式即为与加速播放操作对应的目标加速模式。例如，用户点击了智能加速，终端接收到加速播放操作，此时与加速播放操作对应的目标加速模式就是指智能加速。

[0083] 其他实施例中，终端接收到的加速播放操作也可以指用户在用户界面的预设位置输入了预设手势信息或者预设滑动操作，在这种情况下，终端可以预先设定手势信息与加速模式的对应关系，或者滑动操作与加速模式的对应关系，然后根据用户在预设位置范围内输入的手势信息或者滑动操作，确定与用户的加速播放操作对应的目标加速模式。

[0084] 在一个实施例中，终端可预先设置每种加速模式对应一个相似度阈值。其中，终端可根据经验值预先设置每个加速模式对应的相似度阈值，加速的倍数越大，表明播放的时长越短，目标视频中需要去除的冗余内容越多，因此对应的相似度阈值越小，例如为1倍加速设置的相似度阈值可以为0.8，为2倍加速设置的相似度阈值可以为0.7。

[0085] 在一个实施例中，对于智能加速来说，终端可根据目标视频的特征信息设置其对应的相似度阈值。其中，目标视频的特征信息可包括评分信息和历史加速信息，评分信息可以指其他用户在观看目标视频时的评价，包括对目标视频内容的评价，比如“视频中重复的画面太多了，建议下次减少点无用镜头”或者“精彩，剧情环环相扣，推荐”；历史加速信息可以是其他用户在观看目标视频时的加速播放情况，例如获取到用户A采用2倍加速播放，用户B采用1.5倍加速播放等等。

[0086] 具体来讲，终端设置智能加速对应的相似度阈值的方式，可以包括：终端根据目标视频的标识信息，获取目标视频的特征信息；根据特征信息确定智能加速对应的相似度阈值。其中，目标视频的标识信息可以指目标视频的名称+上映年份，例如“比悲伤更悲伤的事2019”；或者，目标视频的标识信息也可以指目标视频的名称+视频中人物的姓名，例如“封神演义王丽坤”。

[0087] 在一个实施例中，所述根据特征信息确定智能加速对应的相似度阈值可以包括：根据特征信息确定目标视频的目标评分结果；根据预设的评分结果与相似度阈值的对应关系，将目标评分结果对应的相似度阈值确定为智能加速对应的相似度阈值。

[0088] 在一个实施例中，上述根据特征信息确定目标视频评分结果可以包括：根据评分信息和历史加速信息确定目标视频的目标评分结果。具体地：预先设置评分信息对应的第一评分规则和权重值，以及历史加速信息对应的第二评分规则和权重值；根据第一评分规则对评分信息进行处理得到评价得分；根据第二评分规则对历史加速信息进行处理得到历史加速得分；将评价得分与评分信息对应的权重值相乘，将历史加速得分与历史加速信息对应的权重值相乘，将两部分相乘的结果作为目标视频的目标评分结果。

[0089] 在其他实施例中，上述根据特征信息确定目标视频评分结果可以包括：根据评分信息或历史加速信息确定目标视频的目标评分结果。具体来讲：将评价得分作为目标视频的目标评分结果；或者，将历史加速得分作为目标视频的目标评分结果。

[0090] S403，根据待播放视频获取目标视频，并获取目标视频包括的视频序列和音频序列，视频序列与音频序列相互对应。

[0091] 在一个实施例中，所述根据待播放视频获取目标视频可以指：在检测在接收到加速播放操作的时刻，待播放视频已经播放了多少视频内容，将待播放视频中剩下的视频内容作为目标视频。

[0092] 在一个实施例中，应当理解的，一段视频是由图像和声音组成的，视频中的图像可以称为视频的视频序列，视频中的声音可以称为视频的音频序列，视频序列与音频序列是相互对应的关系。

[0093] 可选的，本发明实施例中对S402和步骤S403的执行顺序不做限定，也可以是先执行步骤S403，再执行步骤S402。

[0094] S404，根据语音识别算法将音频序列划分为第一类音频段和第二类音频段，并将视频序列中与第一类音频段对应的视频内容确定为第一类视频段，第一类视频段中不包括台词信息。

[0095] 在一个实施例中，台词信息可包括目标视频中人物的对话台词，还可以包括视频中播放插曲的歌词，或者是旁白的台词等。语音识别算法用于对一段音频序列中的语音进行识别，根据语音识别算法将音频序列划分为第一类音频段和第二类音频段的实施方式可以包括：利用语音识别算法按照时间轴依次对音频序列进行识别，将不包括台词信息的音频段确定为第一类音频段，将包括台词信息得以音频段确定为第二类音频段。

[0096] 例如，参考图5为本发明实施例提供的一种对目标视频的划分方法的示意图，在图5中所示目标视频包括的视频序列和音频序列；采用语音识别算对音频序列进行识别处理，确定出包括台词信息的音频段和不包括台词信息的音频段，将不包括台词信息的音频段组成第一类音频段，第一类音频段对应的视频内容为第一类视频段。

[0097] 在其他实施例中，终端还可以依据图像帧中是否包括预设的姿态信息将目标视频划分为第一类视频段和第二类视频段。其中，预设的姿态信息可以包括舞蹈姿势等，判断图像帧中是否包括预设的姿态信息可以通过图像识别算法实现。具体的：获取目标视频包括的各图像帧，并采用图像识别算法对目标视频的各图像帧进行识别处理，得到识别结果；根据识别结果确定目标视频包括的第一类视频段，第一类视频段中不包括预设的姿态信息。所述根据识别结果确定目标视频包括的第一类视频段可以包括：将识别到不包括预设的姿态信息的各图像帧组成第一类视频段。

[0098] S405、从目标视频中确定出第一类视频段。

[0099] S406，根据第一类视频段包括的各图像帧之间的相似度将第一类视频段划分为视频场景片段集合，视频场景片段集合中的各个视频场景片段包括的各图像帧之间的相似度满足相似度条件。

[0100] 在一个实施例中，步骤S405中包括的一些可行的实施方式可参考图3实施例中相关部分的描述，在此不再赘述。

[0101] 在一个实施例中，步骤S406的实施方式可以包括：按照视频播放顺序，从第一类视频段包括的各图像帧中选择起始图像帧；依序遍历位于起始图像帧之后的各图像帧，如果检测到当前遍历的当前图像帧与所述起始图像帧之间的相似度小于相似度阈值，则将当前图像帧确定为结束图像帧；将所述起始图像帧以及所述起始图像帧和所述结束图像帧之间的图像帧组成一个视频场景片段；重复上述步骤，得到多个视频场景片段，将所述多个视频场景片段组成视频场景片段集合。

[0102] 其中，由前述可知，视频播放顺序是指时间轴所指示的顺序，从第一类视频段包括的各图像帧中选择起始图像帧的原则可以是：选择上一次遍历过程中结束帧作为下一次遍历过程的起始图像帧，例如，第一类视频段中包括6个图像帧，分别为F1‑F6；在进行第一次遍历时，6个图像帧均是未被遍历的图像帧，按照上述原则依序选择，将F1确定为第一次遍历的起始图像帧；如果在第一次遍历过程中，遍历了F2‑F4，并到F4停止遍历，也就是说F4是第一次遍历的结束图像帧；下一次遍历时，将上一次遍历过程中结束图像帧F4作为下一次遍历的起始图像帧。

[0103] 在每一次的遍历过程中，如果检测到当前遍历的当前图像帧与起始图像帧之间的相似度小于相似阈值，则将当前图像帧确定为当前遍历的结束图像帧。例如，第一类视频段包括F1‑F6，第一次遍历时F1作为起始图像帧，依序遍历位于F1之后的各图像帧时，F2与F1之间的相似度大于相似度阈值，F3与F1之间的相似度大于相似度阈值，F4与F1之间的相似度小于相似度阈值，则F4可确定为该次遍历的结束图像帧。

[0104] 在确定了第一次遍历的起始图像帧和结束图像帧之后，将起始图像帧以及起始图像帧与结束图像帧之间的各图像帧组成一个视频场景片段，例如将F1‑F3组成一个视频场景片段A。开始第二次遍历，将第一次遍历的结束图像帧F4作为第二次遍历过程的起始帧图像，重复执行上述的遍历步骤，确定又一个视频场景片段B。重复执行上述过程，直到第一类视频段中的各图像帧均被遍历，在上述过程中会产生多个视频场景片段，多个视频场景片段组成了视频场景片段集合。

[0105] S407，根据时长阈值对各个视频场景片段进行时长压缩处理。

[0106] 假设视频场景片段集合中可包括目标视频场景片段，该目标视频场景片段可以是视频场景片段集合中的任意一个视频场景片段，下面以对目标视频场景片段进行时长压缩处理为例，具体介绍步骤S407。对于视频场景片段集合中的其他视频场景片段也采用对目标视频场景片段进行时长压缩处理方法进行时长压缩处理。

[0107] 在一个实施例中，对目标视频场景片段进行时长压缩处理，可包括：如果所述目标视频场景片段的时长大于所述时长阈值，则对所述目标视频场景片段进行裁剪处理，得到裁剪后的目标视频场景片段，所述裁剪后的目标视频场景片段的时长不大于所述时长阈值；如果所述目标视频场景片段的时长不大于所述时长阈值，则保持所述目标视频片段不变。也就是说在对目标视频场景片段进行时长压缩处理之前，首先判断目标视频场景片段的时长是否大于时长阈值，如果大于时长阈值再执行对目标视频场景片段进行时长压缩处理的步骤；如果不大于时长阈值可不保持目标视频场景片段不变。

[0108] 在一个实施例中，上述对目标视频场景片段进行裁剪处理，可包括：按照时长抽取规则从所述目标视频场景片段中抽取至少一个待拼接子片段；根据所述至少一个待拼接子片段构成裁剪后的目标视频场景片段；其中，所述时长抽取规则包括根据所述时长阈值从所述目标视频场景片段中裁剪得到一个待拼接子片段，所述待拼接子片段的时长不大于所述时长阈值；或者，所述时长抽取规则包括根据所述时长阈值从所述目标视频场景片段中线性裁剪得到至少两个待拼接子片段，所述至少两个待拼接子片段的总时长不大于所述时长阈值。

[0109] 通常情况下，为了保证时长压缩处理后的视频与未压缩前在最大程度上相似，上述待拼接子片段的时长，或者待拼接子片段的总时长通常是等于时长阈值的。下面以待拼接子片段的时长，或者待拼接子片段的总时长通常是等于时长阈值为例进行说明。

[0110] 其中，如果时长抽取规则是指从目标视频场景片段中抽取得到一个时长等于时长阈值的待拼接子频段，可以理解为：从目标视频场景片段中任意选择一段时长等于时长阈值的且连续的视频内容。此种情况下，可以将得到的待拼接子片段确定为裁剪后的目标视频场景片段。例如，假设时长阈值等于T秒，则可以直接抽取目标视频场景片段的前T秒对应的视频内容作为待拼接子片段；或者可以直接从任意一个位置抽取一段时长等于T秒的连续的视频内容，作为待拼接子频段。

[0111] 如果时长抽取规则是指所述时长阈值从所述目标视频场景片段中抽取得到至少两个待拼接子片段，可以理解为，从目标视频场景片段中选择至少两个连续或者不连续的视频内容，该两个视频内容的总时长等于时长阈值。例如，时长阈值为2秒，可以从目标视频场景片段中抽取1‑2秒的视频内容作为一个待拼接子片段，再抽取3‑4秒的视频内容作为另一个待拼接子频段，两个待拼接子频段是的总时长等于时长阈值。其中，从目标视频场景片段中抽取得到至少两个待拼接子片段可以是线性抽取的，比如抽取0‑1秒、2‑3秒、4‑5秒…；或者，也可以是随机抽取的，比如抽取2‑3秒，6‑7秒等。

[0112] 基于上述描述，可通过图6来具体理解如何对多个视频场景片段进行时长压缩处理。参考图6，为本发明实施例提供的一种对多个视频场景片段进行时长压缩处理示意图，假设将第一类视频段划分得到的多个视频场景片段中包括视频场景片段A、视频场景片段B以及视频场景片段C，视频场景片段A由F1‑Fn‑1个图像帧组成，视频场景片段B是由Fn‑Fw‑1组成，视频场景片段C是由Fw‑Fq组成的，其中，n，m，q，w为不互相相等的正整数，且q最大，n最小；假设时长阈值为5秒，视频场景片段A的时长等于5秒，视频场景片段B的时长为8秒，视频场景片段C的时长为3秒。

[0113] 判断出视频场景片段A的时长和视频场景片段C的时长均不大于时长阈值，不需要进行时长压缩处理，保持不变；视频场景片段B的时长大于时长阈值，需要对视频场景片段B进行时长压缩处理。将视频场景片段B的时长压缩为等于或者小于时长阈值。由图6中可见，视频场景片段B的时长减小，将三个视频场景片段进行拼接处理后得到的第一类视频场景片段的时长也有所减小。

[0114] 在其他实施例中，终端也可以基于关键帧抽取的方式对目标视频场景片段进行裁剪处理。具体可选的，所述对所述目标视频场景片段进行裁剪处理，得到裁剪后的目标视频场景片段，包括：根据所述时长阈值和所述目标视频场景片段包括的各图像帧的时长，确定出所需的待拼接图像帧的目标数量；从所述目标视频场景片段中裁剪出目标数量个待拼接图像帧；将所述目标数量个待拼接图像帧进行拼接处理，得到裁剪后的目标视频场景片段。

[0115] 简单来说，根据时长阈值和目标视频场景片段中包括的各图像帧的时长，确定出想要得到时长等于时长阈值的一段视频内容，该视频内容应该由多少个待拼接图像帧组成。例如，时长阈值为2秒，各图像帧的时长为40毫秒，则所需的待拼接图像帧的目标数量为50个。然后从目标视频场景片段中选择出50个图像帧组成裁剪后的目标视频场景片段。

[0116] 在一个实施例中，从目标视频场景片段中选择出50个图像帧可以指：从目标视频场景片段中随机选择50个图像帧；或者，也可以是按照一定的选取规则选择50个图像帧，例如假设目标视频场景片段的时长为3秒，每秒包括25个图像帧，选取规则可以分别从0‑1秒和1‑2秒包括的图像帧中选择16个图像帧，从2‑3秒包括的图像选择18个图像帧。上述只是本发明实施例列举的两种情况，在具体应用中，可以根据实际情况确定选取规则。

[0117] S408、将时长压缩处理后的各个视频场景片段进行拼接处理得到压缩后的第一类视频段，并按照视频播放顺序将目标视频中包括的第二类视频段和压缩后的第一类视频段拼接得到压缩后的目标视频。

[0118] 综合上述描述，本发明实施例中是依据目标视频的音频将目标视频划分为需要时长压缩处理的第一类视频段，然后又根据第一类视频段中包括的各个图像帧之间的相似度划分为多个视频场景片段，依次对每个视频场景片段进行压缩处理，再将压缩处理后的各个视频场景片段进行拼接得到压缩处理后的第一类视频段，最后将压缩处理后的第一类视频段和目标视频中包括的第二类视频段进行拼接得到压缩处理后的目标视频。如此一来，由于第一类视频段中不包括台词信息，通过对第一类视频段时长压缩处理来达到压缩目标时长的目的，可以在保证用户不会错过关键台词的基础上，缩短目标视频的播放时长，加快播放速度，实现了智能化对视频进行时长压缩处理。

[0119] 在其他实施例中，终端也可以不根据目标视频包括的音频对目标视频进行划分，直接依据目标视频的图像帧之间的相似度对目标视频进行时长压缩处理。具体实施例中：获取目标视频的时间轴上依次分布的各个时间区间内的图像帧；从时间轴上各时间区间的图像帧中选取预设个数的目标图像帧；对时间轴上时序相邻的目标图像帧进行图像相似度对比，获取各相邻的目标图像之间的相似度值；将相似度值大于预设阈值的目标图像帧所在时间区间作为时间轴的加速区间；在播放目标视频时，对加速区间中的图像帧进行预设加速播放。

[0120] 经实践表明，该种时长压缩方法相比于前一种方法可以在节省终端的一部分个功耗开销的同时，加快目标视频的播放，但是有可能会导致用户错过重要的台词信息。在实际应用中，可以根据用户的实际需求，终端选择采用的时长压缩方法。例如，终端可以在用户界面中向用户显示两个压缩选项：一个是不丢失台词信息压缩，另一种是节能压缩。如果用户选择了不丢失台词信息压缩，则采用图4实施例包括的方法对目标视频进行时长压缩处理；如果用户选择了节能压缩，则采用上述的后一种方法对目标视频进行压缩处理。

[0121] 本发明实施例中，获取到待播放视频之后，可以在用户界面中显示待播放视频；如果检测到用户在用户界面中输入的加速播放操作，获取与加速播放操作对应的相似度阈值；然后根据待播放视频获取目标视频，并获取目标视频包括的视频序列和音频序列，采用语音识别算法将音频序列划分为第一类音频段和第二类音频段，并将第二类音频段对应的视频确定为第一类视频段；进一步的，根据第一类视频段包括的各图像帧之间的相似度将第一类视频端划分为多个视频场景片段，根据时长阈值对所述各个视频场景片段进行时长压缩处理，将时长压缩处理后的各个视频场景片段进行拼接处理得到压缩后的第一类视频段，第一类视频段中不包括台词信息，并按照视频播放顺序将所述目标视频中包括的第二类视频段和所述压缩后的第一类视频段拼接得到压缩后的目标视频。

[0122] 在上述视频处理过程中，基于目标视频包括的音频确定出第一类视频端，然后基于图像帧对第一类视频段进行时长压缩处理，从而达到对目标视频进行时长压缩处理的目的。由于第一类视频段中不包含台词信息，对第一类视频段进行时长压缩处理不会导致用户错过重要的台词或者关键信息，上述视频处理方法实现了在保证保持台词信息完整性的同时缩短目标时长的播放时间。

[0123] 基于上述的视频处理方法的描述，本发明实施例还公开了一种视频处理装置，所述视频处理装置可以执行图3和图4所示的方法。请参见图7，所述视频处理装置可运行如下单元：

[0124] 确定单元701，用于从目标视频中确定出第一类视频段；

[0125] 处理单元702，用于根据第一类视频段包括的各图像帧之间的相似度将所述第一类视频段划分为视频场景片段集合，所述视频场景片段集合中的各个视频场景片段包括的各图像帧之间的相似度满足相似度条件；

[0126] 处理单元702，还用于根据时长阈值对所述各个视频场景片段进行时长压缩处理；

[0127] 处理单元702，还用于将时长压缩处理后的各个视频场景片段进行拼接处理得到压缩后的第一类视频段，并按照视频播放顺序将所述目标视频中包括的第二类视频段和所述压缩后的第一类视频段拼接得到压缩后的目标视频。

[0128] 在一个实施例中，确定单元701还用于：获取目标视频，并获取所述目标视频包括的视频序列和音频序列，所述视频序列与所述音频序列相互对应；处理单元702还用于：根据语音识别算法将所述音频序列划分为第一类音频段和第二类音频段；处理单元702还用于：将所述视频序列中与所述第一类音频段对应的视频内容确定为第一类视频段，所述第一类视频段中不包括台词信息。

[0129] 在一个实施例中，确定单元701还用于：获取目标视频包括的各图像帧，并采用图像识别算法对所述目标视频包括的各图像帧进行识别处理，得到识别结果；处理单元702还用于：根据所述识别结果确定所述目标视频包括的第一类视频段，所述第一类视频段中不包括预设的姿态信息。

[0130] 在一个实施例中，处理单元702在根据所述第一类视频段包括的各图像帧之间的相似度将所述第一类视频段划分为视频场景片段集合时，执行如下操作：按照所述视频播放顺序，从所述第一类视频段包括的各图像帧中选择起始图像帧；依序遍历位于所述起始图像帧之后的各图像帧，如果检测到当前遍历的当前图像帧与所述起始图像帧之间的相似度小于相似度阈值，则将当前图像帧确定为结束图像帧；将所述起始图像帧以及所述起始图像帧和所述结束图像帧之间的图像帧组成一个视频场景片段；重复上述步骤，得到多个视频场景片段，将所述多个视频场景片段组成视频场景片段集合。

[0131] 在一个实施例中，视频场景片段集合中包括目标视频场景片段，所述目标视频场景片段是所述视频场景片段集合中的任意一个，处理单元702在根据时长阈值对所述各个视频场景片段进行时长压缩处理时，执行如下操作：如果所述目标视频场景片段的时长大于所述时长阈值，则对所述目标视频场景片段进行裁剪处理，得到裁剪后的目标视频场景片段，所述裁剪后的目标视频场景片段的时长不大于所述时长阈值；如果所述目标视频场景片段的时长不大于所述时长阈值，则保持所述目标视频场景片段不变。

[0132] 在一个实施例中，处理单元702在对所述目标视频场景片段进行裁剪处理，得到裁剪后的目标视频场景片段时，执行如下操作：按照时长抽取规则从所述目标视频场景片段中抽取至少一个待拼接子片段；根据所述至少一个待拼接子片段构成裁剪后的目标视频场景片段；其中，所述时长抽取规则包括根据所述时长阈值从所述目标视频场景片段中抽取得到一个待拼接子片段，所述待拼接子片段的时长不大于所述时长阈值；或者，所述时长抽取规则包括根据所述时长阈值从所述目标视频场景片段中抽取得到至少两个待拼接子片段，所述至少两个待拼接子片段的总时长不大于所述时长阈值。

[0133] 在一个实施例中，处理单元702在对所述目标视频场景片段进行裁剪处理，得到裁剪后的目标视频场景片段时，执行如下操作：根据所述时长阈值和所述目标视频场景片段包括的各图像帧的时长，确定出所需的待拼接图像帧的目标数量；从所述目标视频场景片段中裁剪出目标数量个待拼接图像帧；将所述目标数量个待拼接图像帧进行拼接处理，得到裁剪后的目标视频场景片段。

[0134] 在一个实施例中，视频处理装置还包括显示单元703，用于显示用户界面，所述用户界面中包括播放设置区域，所述播放设置区域包括播放速度控制区域，所述播放速度控制区域包括至少一个加速模式，所述播放速度控制区域用于接收用户的加速播放操作；确定单元701还用于：若检测到所述用户的加速播放操作，确定所述加速播放操作包括的目标加速模式，并确定与所述目标加速模式对应的相似度阈值；处理单元702还用于：根据所述目标加速模式对应的相似度阈值确定相似度条件。

[0135] 在一个实施例中，目标加速模式包括智能加速，所述确定单元701在确定与所述目标加速模式对应的相似度阈值时，执行如下操作：根据所述目标视频的标识信息，获取所述目标视频的特征信息，所述特征信息包括评分信息和历史加速信息；根据所述特征信息确定所述智能加速对应的相似度阈值。

[0136] 根据本发明的一个实施例，图3或图4所示的方法所涉及的各个步骤可以是由图7所示的视频处理装置中的各个单元来执行的。例如，图3所示的步骤S301可由图7中所示的视频处理装置中的确定单元701来执行，步骤S302‑步骤S304可由图7所示的视频处理装置中的处理单元702来执行；又如，图4中所示的步骤S401‑S403和步骤S405可以是由图7所示的视频处理装置中的确定单元701来执行，步骤S404和步骤S406‑步骤S408可以是由图7所示的视频处理装置中的处理单元702来执行。

[0137] 根据本发明的另一个实施例，图7所示的视频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于视频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

[0138] 根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图3或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7中所示的视频处理装置，以及来实现本发明实施例视频处理方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。

[0139] 本发明实施例中，将需要压缩处理的第一类视频段中包括的各图像帧划分为视频场景片段集合，视频场景片段集合中的每个视频场景片段由多个图像帧组成，各图像帧之间的相似度满足相似度条件，也即每个视频场景片段中的各图像帧之间相似度较高。这样一来，在对每个视频场景片段进行时长压缩处理后即使每个视频场景片段中包括的图像帧减少，也不会影响用户对该段视频场景片段的观看，最后将目标视频的第二类视频段和压缩处理后的第一类视频段进行拼接处理，便可得到压缩后的目标视频。压缩后的目标视频的时长缩短，减少了播放目标视频的时长，实现了智能化地对目标视频进行时长压缩处理。

[0140] 基于上述方法实施例以及装置实施例的描述，本发明实施例还提供了一种终端，所述终端对应于图3和图4所示的方法实施例中的第一终端。请参考图8，该终端可包括处理器801以及计算机存储介质802，该终端还可以包括显示设备803例如显示屏，所述显示设备803用于显示用户界面。

[0141] 计算机存储介质802可以存储在终端的存储器中，所述计算机存储介质802用于存储计算机程序，所述计算机程序包括程序指令，所述处理器801用于执行所述计算机存储介质802存储的程序指令。处理器801或称CPU(Central Processing Unit，中央处理器))是终端的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能；在一个实施例中，本发明实施例所述的处理器801可以用于执行：从目标视频中确定出第一类视频段；根据所述第一类视频段包括的各图像帧之间的相似度将所述第一类视频段划分为视频场景片段集合，所述视频场景片段集合中的各个视频场景片段包括的各图像帧之间的相似度满足相似度条件；根据时长阈值对所述各个视频场景片段进行时长压缩处理；将时长压缩处理后的各个视频场景片段进行拼接处理得到压缩后的第一类视频段，并按照视频播放顺序将所述目标视频中包括的第二类视频段和所述压缩后的第一类视频段拼接得到压缩后的目标视频。

[0142] 本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器801加载并执行的一条或多条指令，这些指令可以是一个或多个计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non‑volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

[0143] 在一个实施例中，可由处理器801加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关视频处理装置实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器801加载并执行如下步骤：

[0144] 从目标视频中确定出第一类视频段；根据所述第一类视频段包括的各图像帧之间的相似度将所述第一类视频段划分为视频场景片段集合，所述视频场景片段集合中的各个视频场景片段包括的各图像帧之间的相似度满足相似度条件；根据时长阈值对所述各个视频场景片段进行时长压缩处理；将时长压缩处理后的各个视频场景片段进行拼接处理得到压缩后的第一类视频段，并按照视频播放顺序将所述目标视频中包括的第二类视频段和所述压缩后的第一类视频段拼接得到压缩后的目标视频。

[0145] 在一个实施例中，计算机存储介质中的一条或多条指令由处理器801加载还执行如下步骤：获取目标视频，并获取所述目标视频包括的视频序列和音频序列，所述视频序列与所述音频序列相互对应；根据语音识别算法将所述音频序列划分为第一类音频段和第二类音频段；将所述视频序列中与所述第一类音频段对应的视频内容确定为第一类视频段，所述第一类视频段中不包括台词信息。

[0146] 在一个实施例中，计算机存储介质中的一条或多条指令由处理器801加载还执行如下步骤：获取目标视频包括的各图像帧，并采用图像识别算法对所述目标视频包括的各图像帧进行识别处理，得到识别结果；根据所述识别结果确定所述目标视频包括的第一类视频段，所述第一类视频段中不包括预设的姿态信息。

[0147] 在一个实施例中，处理器801在加载计算机存储介质中的一条或多条指令执行根据所述第一类视频段包括的各图像帧之间的相似度将所述第一类视频段划分为视频场景片段集合时。执行如下操作：按照所述视频播放顺序，从所述第一类视频段包括的各图像帧中选择起始图像帧；依序遍历位于所述起始图像帧之后的各图像帧，如果检测到当前遍历的当前图像帧与所述起始图像帧之间的相似度小于相似度阈值，则将当前图像帧确定为结束图像帧；将所述起始图像帧以及所述起始图像帧和所述结束图像帧之间的图像帧组成一个视频场景片段；重复上述步骤，得到多个视频场景片段，将所述多个视频场景片段组成视频场景片段集合。

[0148] 在一个实施例中，视频场景片段集合中包括目标视频场景片段，所述目标视频场景片段是所述视频场景片段集合中的任意一个，处理器801在加载计算机存储介质中的一条或多条指令执行根据时长阈值对所述各个视频场景片段进行时长压缩处理时，执行如下操作：如果所述目标视频场景片段的时长大于所述时长阈值，则对所述目标视频场景片段进行裁剪处理，得到裁剪后的目标视频场景片段，所述裁剪后的目标视频场景片段的时长不大于所述时长阈值；如果所述目标视频场景片段的时长不大于所述时长阈值，则保持所述目标视频场景片段不变。

[0149] 在一个实施例中，处理器801在加载计算机存储介质中的一条或多条指令执行对所述目标视频场景片段进行裁剪处理，得到裁剪后的目标视频场景片段时，执行如下操作：按照时长抽取规则从所述目标视频场景片段中抽取至少一个待拼接子片段；根据所述至少一个待拼接子片段构成裁剪后的目标视频场景片段；其中，所述时长抽取规则包括根据所述时长阈值从所述目标视频场景片段中抽取得到一个待拼接子片段，所述待拼接子片段的时长不大于所述时长阈值；或者，所述时长抽取规则包括根据所述时长阈值从所述目标视频场景片段中抽取得到至少两个待拼接子片段，所述至少两个待拼接子片段的总时长不大于所述时长阈值。

[0150] 在一个实施例中，处理器801在加载计算机存储介质中的一条或多条指令执行对所述目标视频场景片段进行裁剪处理，得到裁剪后的目标视频场景片段时，执行如下操作：根据所述时长阈值和所述目标视频场景片段包括的各图像帧的时长，确定出所需的待拼接图像帧的目标数量；从所述目标视频场景片段中裁剪出目标数量个待拼接图像帧；将所述目标数量个待拼接图像帧进行拼接处理，得到裁剪后的目标视频场景片段。

[0151] 在一个实施例中，计算机存储介质中的一条或多条指令由处理器801加载还执行如下步骤：显示用户界面，所述用户界面中包括播放设置区域，所述播放设置区域包括播放速度控制区域，所述播放速度控制区域包括至少一个加速模式，所述播放速度控制区域用于接收用户的加速播放操作；若检测到所述用户的加速播放操作，确定所述加速播放操作包括的目标加速模式，并确定与所述目标加速模式对应的相似度阈值；根据所述目标加速模式对应的相似度阈值确定相似度条件。

[0152] 在一个实施例中，目标加速模式包括智能加速，处理器801在加载计算机存储介质中的一条或多条指令执行所述确定与所述目标加速模式对应的相似度阈值时，执行如下操作：根据所述目标视频的标识信息，获取所述目标视频的特征信息，所述特征信息包括评分信息和历史加速信息；根据所述特征信息确定所述智能加速对应的相似度阈值。

[0153] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read‑Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

[0154] 以上所揭露的仅为本发明部分实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

视频处理方法、装置、终端及存储介质转让专利

申请号 : CN201910565725.8

文献号 : CN112153462B

文献日 : 2023-02-14

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 赵舒羽

申请人 : 腾讯科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :