一种摘要视频生成方法及装置转让专利

申请号 : CN201610409337.7

文献号 : CN107493441B

文献日 : 2020-03-06

本发明实施例提供了一种摘要视频生成方法及装置，所述方法包括：针对至少两个原始视频，对所述至少两个原始视频的采集场景图像进行合并处理，得到目标场景图像；针对每个原始视频，提取该原始视频中包括的各第一运动目标的第一视频信息；识别至少两个原始视频中包括的相同的第二运动目标，并将各第二运动目标在所述至少两个原始视频中的第一视频信息进行合并，得到各第二运动目标的第二视频信息；确定各第一运动目标和各第二运动目标各时刻在所述目标场景图像中的位置；依次将各第一运动目标和第二运动目标显示在所述目标场景图像中，生成摘要视频。本发明实施例能够针对多个视频采集设备采集的视频，生成一个摘要视频，提高用户体验。

1.一种摘要视频生成方法，其特征在于，所述方法包括：

针对至少两个原始视频，确定各原始视频的采集场景的地理位置关系，并根据各原始视频的采集场景的地理位置关系，对所述至少两个原始视频的采集场景图像进行合并处理，得到目标场景图像；

针对每个原始视频，对该原始视频的各视频帧进行分析，提取该原始视频中包括的各第一运动目标的第一视频信息，其中，各第一运动目标的第一视频信息包括：该第一运动目标在该原始视频中出现的各时刻、各时刻对应的位置、以及各时刻对应的包含该第一运动目标的图像；

根据各原始视频中包括的各第一运动目标的第一视频信息，识别所述至少两个原始视频中包括的相同的第二运动目标，并将各第二运动目标在所述至少两个原始视频中的第一视频信息进行合并，得到各第二运动目标的第二视频信息；

根据各第一运动目标各时刻在原始视频图像中的位置，各第二运动目标各时刻在各原始视频中的位置，以及各原始视频的采集场景图像与目标场景图像的关系，确定各第一运动目标和各第二运动目标各时刻在所述目标场景图像中的位置；

根据各第一运动目标在原始视频中出现的各时刻、各时刻对应的包含各第一运动目标的图像、以及各第一运动目标在所述目标场景图像中的位置，各第二运动目标在各原始视频中出现的各时刻、各时刻对应的包含各第二运动目标的图像、以及各第二运动目标在所述目标场景图像中的位置，以及预设的显示规则，依次将各第一运动目标和第二运动目标显示在所述目标场景图像中，生成所述至少两个原始视频对应的摘要视频；

所述根据各原始视频中包括的各第一运动目标的第一视频信息，识别所述至少两个原始视频中包括的相同的第二运动目标包括：针对任意两个原始视频，分别获得包含各原始视频中的任一个第一运动目标的图像，计算该两个图像的匹配度；

根据该两个第一运动目标在该两个原始视频中出现的时刻及各时刻对应的位置，确定该两个第一运动目标是否符合预设条件；

如果是，当所述匹配度大于第一预设阈值时，确定该两个第一运动目标为相同的第二运动目标。

2.根据权利要求1所述的方法，其特征在于，所述根据各原始视频的采集场景的地理位置关系，对所述至少两个原始视频的采集场景图像进行合并处理包括：当任意两个原始视频的采集场景的地理位置部分重合时，对该两个原始视频的采集场景图像进行拼接处理；

当任意两个原始视频的采集场景的地理位置不重合时，对该两个原始视频的采集场景图像进行衔接处理。

3.根据权利要求1所述的方法，其特征在于，所述预设的显示规则包括在所述目标场景图像中显示预定数量的第一运动目标和/或第二运动目标。

4.根据权利要求1所述的方法，其特征在于，所述预设的显示规则包括以下至少一项：第一运动目标和/或第二运动目标在原始视频中出现的时间在预设时间范围内、第一运动目标和/或第二运动目标在原始视频中出现的位置在预设位置范围内、包含第一运动目标或第二运动目标的图像与预设的对比图像的匹配度大于第二预设阈值。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

获取与所述目标场景图像对应的三维场景模型，并将所述摘要视频叠加到所述三维场景模型中。

6.一种摘要视频生成装置，其特征在于，所述装置包括：

合并模块，用于针对至少两个原始视频，确定各原始视频的采集场景的地理位置关系，并根据各原始视频的采集场景的地理位置关系，对所述至少两个原始视频的采集场景图像进行合并处理，得到目标场景图像；

提取模块，用于针对每个原始视频，对该原始视频的各视频帧进行分析，提取该原始视频中包括的各第一运动目标的第一视频信息，其中，各第一运动目标的第一视频信息包括：该第一运动目标在该原始视频中出现的各时刻、各时刻对应的位置、以及各时刻对应的包含该第一运动目标的图像；

识别模块，用于根据各原始视频中包括的各第一运动目标的第一视频信息，识别所述至少两个原始视频中包括的相同的第二运动目标，并将各第二运动目标在所述至少两个原始视频中的第一视频信息进行合并，得到各第二运动目标的第二视频信息；

确定模块，用于根据各第一运动目标各时刻在原始视频图像中的位置，各第二运动目标各时刻在各原始视频中的位置，以及各原始视频的采集场景图像与目标场景图像的关系，确定各第一运动目标和各第二运动目标各时刻在所述目标场景图像中的位置；

生成模块，用于根据各第一运动目标在原始视频中出现的各时刻、各时刻对应的包含各第一运动目标的图像、以及各第一运动目标在所述目标场景图像中的位置，各第二运动目标在各原始视频中出现的各时刻、各时刻对应的包含各第二运动目标的图像、以及各第二运动目标在所述目标场景图像中的位置，以及预设的显示规则，依次将各第一运动目标和第二运动目标显示在所述目标场景图像中，生成所述至少两个原始视频对应的摘要视频；

所述识别模块包括：

计算子模块，用于针对任意两个原始视频，分别获得包含各原始视频中的任一个第一运动目标的图像，计算该两个图像的匹配度；

第一确定子模块，用于当所述匹配度大于第一预设阈值时，确定该两个第一运动目标为相同的第二运动目标；

第二确定子模块，用于根据该两个第一运动目标在该两个原始视频中出现的时刻及各时刻对应的位置，确定该两个第一运动目标是否符合预设条件；如果是，则触发所述第一确定子模块。

7.根据权利要求6所述的装置，其特征在于，所述合并模块包括：

拼接子模块，用于当任意两个原始视频的采集场景的地理位置部分重合时，对该两个原始视频的采集场景图像进行拼接处理；

衔接子模块，用于当任意两个原始视频的采集场景的地理位置不重合时，对该两个原始视频的采集场景图像进行衔接处理。

8.根据权利要求6所述的装置，其特征在于，所述预设的显示规则包括在所述目标场景图像中显示预定数量的第一运动目标和/或第二运动目标。

9.根据权利要求6所述的装置，其特征在于，所述预设的显示规则包括以下至少一项：第一运动目标和/或第二运动目标在原始视频中出现的时间在预设时间范围内、第一运动目标和/或第二运动目标在原始视频中出现的位置在预设位置范围内、包含第一运动目标或第二运动目标的图像与预设的对比图像的匹配度大于第二预设阈值。

10.根据权利要求6-9任一项所述的装置，其特征在于，所述装置还包括：处理模块，用于获取与所述目标场景图像对应的三维场景模型，并将所述摘要视频叠加到所述三维场景模型中。

一种摘要视频生成方法及装置

技术领域

[0001] 本发明涉及视频处理技术领域，特别是涉及一种摘要视频生成方法及装置。

背景技术

[0002] 随着视频技术的发展，摘要视频在视频分析和基于内容的视频检索中的作用愈加重要。例如，在社会公共安全领域，视频监控系统成为维护社会治安，加强社会管理的一个重要组成部分。然而视频录像存在存储数据量大，存储时间长等特点，通过录像寻找线索，获取证据传统的做法是要耗费大量人力、物力以及时间，效率极其低下，以至于错过最佳破案时机。

[0003] 现有的摘要视频生成方法，可以对任一视频采集设备采集的视频通过运动目标分析，提取出所有的运动目标，然后对各个运动目标的运动轨迹进行分析，将不同的运动目标拼接到一个共同的背景场景中，生成一个简短的视频，该视频称为摘要视频。

[0004] 但是，现有的摘要视频生成方法，只能针对一个视频采集设备采集的视频，生成其对应的摘要视频。而实际应用中，针对一个视频采集设备，其采集视频的采集场景视角有限，其中包含的运动目标信息也比较少，用户体验较差。因此，如何针对多个视频采集设备采集的视频，生成一个摘要视频，成为一个亟待解决的问题。

发明内容

[0005] 本发明实施例的目的在于提供一种摘要视频生成方法及装置，以针对多个视频采集设备采集的视频，生成一个摘要视频，提高用户体验。具体技术方案如下：

[0006] 第一方面，本发明实施例提供了一种摘要视频生成方法，所述方法包括：

[0007] 针对至少两个原始视频，确定各原始视频的采集场景的地理位置关系，并根据各原始视频的采集场景的地理位置关系，对所述至少两个原始视频的采集场景图像进行合并处理，得到目标场景图像；

[0008] 针对每个原始视频，对该原始视频的各视频帧进行分析，提取该原始视频中包括的各第一运动目标的第一视频信息，其中，各第一运动目标的第一视频信息包括：该第一运动目标在该原始视频中出现的各时刻、各时刻对应的位置、以及各时刻对应的包含该第一运动目标的图像；

[0009] 根据各原始视频中包括的各第一运动目标的第一视频信息，识别所述至少两个原始视频中包括的相同的第二运动目标，并将各第二运动目标在所述至少两个原始视频中的第一视频信息进行合并，得到各第二运动目标的第二视频信息；

[0010] 根据各第一运动目标各时刻在原始视频图像中的位置，各第二运动目标各时刻在各原始视频中的位置，以及各原始视频的采集场景图像与目标场景图像的关系，确定各第一运动目标和各第二运动目标各时刻在所述目标场景图像中的位置；

[0011] 根据各第一运动目标在原始视频中出现的各时刻、各时刻对应的包含各第一运动目标的图像、以及各第一运动目标在所述目标场景图像中的位置，各第二运动目标在各原始视频中出现的各时刻、各时刻对应的包含各第二运动目标的图像、以及各第二运动目标在所述目标场景图像中的位置，以及预设的显示规则，依次将各第一运动目标和第二运动目标显示在所述目标场景图像中，生成所述至少两个原始视频对应的摘要视频。

[0012] 可选地，所述根据各原始视频的采集场景的地理位置关系，对所述至少两个原始视频的采集场景图像进行合并处理包括：

[0013] 当任意两个原始视频的采集场景的地理位置部分重合时，对该两个原始视频的采集场景图像进行拼接处理；

[0014] 当任意两个原始视频的采集场景的地理位置不重合时，对该两个原始视频的采集场景图像进行衔接处理。

[0015] 可选地，所述根据各原始视频中包括的各第一运动目标的第一视频信息，识别所述至少两个原始视频中包括的相同的第二运动目标包括：

[0016] 针对任意两个原始视频，分别获得包含各原始视频中的任一个第一运动目标的图像，计算该两个图像的匹配度；

[0017] 当所述匹配度大于第一预设阈值时，确定该两个第一运动目标为相同的第二运动目标。

[0018] 可选地，所述针对任意两个原始视频，分别获得包含各原始视频中的任一个第一运动目标的图像，计算该两个图像的匹配度之后，所述方法还包括：

[0019] 根据该两个第一运动目标在该两个原始视频中出现的时刻及各时刻对应的位置，确定该两个第一运动目标是否符合预设条件；

[0020] 如果是，则继续执行所述当所述匹配度大于第一预设阈值时，确定该两个第一运动目标为相同的第二运动目标。

[0021] 可选地，所述预设的显示规则包括在所述目标场景图像中显示预定数量的第一运动目标和/或第二运动目标。

[0022] 可选地，所述预设的显示规则包括以下至少一项：第一运动目标和/或第二运动目标在原始视频中出现的时间在预设时间范围内、第一运动目标和/或第二运动目标在原始视频中出现的位置在预设位置范围内、包含第一运动目标或第二运动目标的图像与预设的对比图像的匹配度大于第二预设阈值。

[0023] 可选地，所述方法还包括：

[0024] 获取与所述目标场景图像对应的三维场景模型，并将所述摘要视频叠加到所述三维场景模型中。

[0025] 第二方面，本发明实施例提供了一种摘要视频生成装置，所述装置包括：

[0026] 合并模块，用于针对至少两个原始视频，确定各原始视频的采集场景的地理位置关系，并根据各原始视频的采集场景的地理位置关系，对所述至少两个原始视频的采集场景图像进行合并处理，得到目标场景图像；

[0027] 提取模块，用于针对每个原始视频，对该原始视频的各视频帧进行分析，提取该原始视频中包括的各第一运动目标的第一视频信息，其中，各第一运动目标的第一视频信息包括：该第一运动目标在该原始视频中出现的各时刻、各时刻对应的位置、以及各时刻对应的包含该第一运动目标的图像；

[0028] 识别模块，用于根据各原始视频中包括的各第一运动目标的第一视频信息，识别所述至少两个原始视频中包括的相同的第二运动目标，并将各第二运动目标在所述至少两个原始视频中的第一视频信息进行合并，得到各第二运动目标的第二视频信息；

[0029] 确定模块，用于根据各第一运动目标各时刻在原始视频图像中的位置，各第二运动目标各时刻在各原始视频中的位置，以及各原始视频的采集场景图像与目标场景图像的关系，确定各第一运动目标和各第二运动目标各时刻在所述目标场景图像中的位置；

[0030] 生成模块，用于根据各第一运动目标在原始视频中出现的各时刻、各时刻对应的包含各第一运动目标的图像、以及各第一运动目标在所述目标场景图像中的位置，各第二运动目标在各原始视频中出现的各时刻、各时刻对应的包含各第二运动目标的图像、以及各第二运动目标在所述目标场景图像中的位置，以及预设的显示规则，依次将各第一运动目标和第二运动目标显示在所述目标场景图像中，生成所述至少两个原始视频对应的摘要视频。

[0031] 可选地，所述合并模块包括：

[0032] 拼接子模块，用于当任意两个原始视频的采集场景的地理位置部分重合时，对该两个原始视频的采集场景图像进行拼接处理；

[0033] 衔接子模块，用于当任意两个原始视频的采集场景的地理位置不重合时，对该两个原始视频的采集场景图像进行衔接处理。

[0034] 可选地，所述识别模块包括：

[0035] 计算子模块，用于针对任意两个原始视频，分别获得包含各原始视频中的任一个第一运动目标的图像，计算该两个图像的匹配度；

[0036] 第一确定子模块，用于当所述匹配度大于第一预设阈值时，确定该两个第一运动目标为相同的第二运动目标。

[0037] 可选地，所述装置还包括：

[0038] 第二确定子模块，用于根据该两个第一运动目标在该两个原始视频中出现的时刻及各时刻对应的位置，确定该两个第一运动目标是否符合预设条件；如果是，则触发所述第一确定子模块。

[0039] 可选地，所述预设的显示规则包括在所述目标场景图像中显示预定数量的第一运动目标和/或第二运动目标。

[0040] 可选地，所述预设的显示规则包括以下至少一项：第一运动目标和/或第二运动目标在原始视频中出现的时间在预设时间范围内、第一运动目标和/或第二运动目标在原始视频中出现的位置在预设位置范围内、包含第一运动目标或第二运动目标的图像与预设的对比图像的匹配度大于第二预设阈值。

[0041] 可选地，所述装置还包括：

[0042] 处理模块，用于获取与所述目标场景图像对应的三维场景模型，并将所述摘要视频叠加到所述三维场景模型中。

[0043] 本发明实施例提供了一种摘要视频生成方法及装置，能够根据至少两个原始视频的采集场景的地理位置关系，对该至少两个原始视频的采集场景图像进行合并处理，得到目标场景图像，进而可以将各原始视频中的运动目标显示在目标场景图像中，生成该至少两个原始视频对应的摘要视频，能够提高用户体验。

附图说明

[0044] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0045] 图1为本发明实施例提供的摘要视频生成方法的流程图；

[0046] 图2(a)、2(b)为对图片进行拼接处理和衔接处理的示意图；

[0047] 图3为确定运动目标在目标场景图像中的位置的示意图；

[0048] 图4为本发明实施例提供的摘要视频生成装置的结构示意图。

具体实施方式

[0049] 为了针对多个视频采集设备采集的视频，生成一个摘要视频，提高用户体验，本发明实施例提供了一种摘要视频生成方法及装置。

[0050] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0051] 为了针对多个视频采集设备采集的视频，生成一个摘要视频，提高用户体验，本发明实施例提供了一种摘要视频生成方法过程，如图1所示，该过程可以包括以下步骤：

[0052] S101，针对至少两个原始视频，确定各原始视频的采集场景的地理位置关系，并根据各原始视频的采集场景的地理位置关系，对所述至少两个原始视频的采集场景图像进行合并处理，得到目标场景图像。

[0053] 本发明实施例提供的方法可以应用于电子设备。具体地，该电子设备可以为台式计算机、便携式计算机、智能移动终端等。

[0054] 在本发明实施例中，为了针对多个视频采集设备采集的视频，生成一个摘要视频，提高用户体验，电子设备可以针对至少两个原始视频，确定各原始视频的采集场景的地理位置关系，并根据各原始视频的采集场景的地理位置关系，对该至少两个原始视频的采集场景图像进行合并处理，得到目标场景图像。

[0055] 例如，当任意两个原始视频的采集场景的地理位置部分重合时，电子设备可以对该两个原始视频的采集场景图像进行拼接处理；当任意两个原始视频的采集场景的地理位置不重合时，电子设备可以对该两个原始视频的采集场景图像进行衔接处理。根据上述方式，对上述至少两个原始视频的采集场景图像进行合并处理后，即可得到包含各原始视频的采集场景的目标场景图像。

[0056] 拼接处理，即为将两个有重叠区域的图片，通过图像拼接技术拼成一张更大的图片。衔接处理，即为将两个无重叠区域的图片，通过地理位置信息进行平缓像素过度耦合或以固定底色进行中间位置补充，从而形成一张更大的图片。

[0057] 如图2(a)所示，当图片210和图片220有重叠区域时，可以通过图像拼接技术拼成一张更大的图片230。

[0058] 如图2(b)所示，当图片240和图片250无重叠区域时，可以通过平缓像素过度耦合拼成一张更大的图片260。

[0059] 需要说明的是，在图2(a)、2(b)中，符号“+”和“＝”即表示将上面的两幅图片进行合并后，可以得到下面的图片。

[0060] S102，针对每个原始视频，对该原始视频的各视频帧进行分析，提取该原始视频中包括的各第一运动目标的第一视频信息，其中，各第一运动目标的第一视频信息包括：该第一运动目标在该原始视频中出现的各时刻、各时刻对应的位置、以及各时刻对应的包含该第一运动目标的图像。

[0061] 在本发明实施例中，电子设备可以针对每个原始视频，对该原始视频的各视频帧进行分析，提取该原始视频中包括的各第一运动目标的第一视频信息。

[0062] 其中，上述各第一运动目标的第一视频信息可以包括：该第一运动目标在该原始视频中出现的各时刻、各时刻对应的位置、以及各时刻对应的包含该第一运动目标的图像。

[0063] 例如，电子设备可以针对每个原始视频，识别该原始视频中的各第一运动目标。进而，可以对该原始视频的各视频帧进行分析，提取各视频帧中各第一运动目标的视频信息。进一步地，可以对同一个第一运动目标在各视频帧中的视频信息进行整合，得到该第一运动目标在该原始视频中的第一视频信息。

[0064] 需要说明的是，本发明实施例中，电子设备针对每个原始视频，对该原始视频的各视频帧进行分析，提取该原始视频中包括的各第一运动目标的第一视频信息的过程，可以采用现有技术中的任一种方法来实现，本发明实施例对此过程不进行赘述。

[0065] S103，根据各原始视频中包括的各第一运动目标的第一视频信息，识别所述至少两个原始视频中包括的相同的第二运动目标，并将各第二运动目标在所述至少两个原始视频中的第一视频信息进行合并，得到各第二运动目标的第二视频信息。

[0066] 可以理解，针对至少两个原始视频，其中可能包含相同的第一运动目标。

[0067] 因此，在本发明实施例中，当电子设备提取到各原始视频中包括的各第一运动目标的第一视频信息后，其可以根据各原始视频中包括的各第一运动目标的第一视频信息，识别至少两个原始视频中包括的相同的第二运动目标。

[0068] 例如，当电子设备针对两个原始视频，视频A和视频B，生成其对应的摘要视频时，电子设备获取的各原始视频中包括的各第一运动目标的第一视频信息可以为：视频A中为第一运动目标1、2、3、4，及各自对应的第一视频信息；视频B中为第一运动目标5、6、7，及各自对应的第一视频信息。

[0069] 这种情况下，电子设备可以根据视频A中各第一运动目标1、2、3、4的第一视频信息，以及视频B中各第一运动目标5、6、7的第一视频信息，确定视频A中的任一第一运动目标1、2、3、4，与视频B中的任一第一运动目标5、6、7是否相同。

[0070] 具体地，电子设备可以将视频A中的各第一运动目标1、2、3、4的第一视频信息，依次与视频B中各第一运动目标5、6、7的第一视频信息进行对比，进而确定视频A中的任一第一运动目标1、2、3、4，与视频B中的任一第一运动目标5、6、7是否相同。

[0071] 如，电子设备可以将视频A中的第一运动目标1的第一视频信息，分别与视频B中各第一运动目标5、6、7的第一视频信息进行对比，根据各第一运动目标在原始视频中出现的各时刻、各时刻对应的位置及各时刻对应的包含该第一运动目标的图像，确定第一运动目标1的第一视频信息与第一运动目标5、6、7的第一视频信息是否匹配。

[0072] 若第一运动目标1的第一视频信息与第一运动目标5、6、7的第一视频信息均不匹配，则确定视频A中的第一运动目标1与视频B中各第一运动目标均为不同的运动目标；若第一运动目标1的第一视频信息与视频B中任一第一运动目标，如第一运动目标5的第一视频信息匹配，则确定视频A中的第一运动目标1与视频B中的第一运动目标5为相同的第二运动目标。

[0073] 识别出视频A中的第一运动目标1与视频B中的第一运动目标5为相同的第二运动目标后，电子设备可以使用视频A中该第一运动目标的标识，或使用视频B中该第一运动目标的标识，作为第二运动目标的标识。如，可以将该第二运动目标的标识确定为第二运动目标1。

[0074] 利用上述方法，电子设备可以确定视频A中的第一运动目标2、3、4是否与视频B中的任一第一运动目标5、6、7为相同的第二运动目标。

[0075] 识别出各原始视频中包括的相同的第二运动目标后，电子设备可以进一步地将各第二运动目标在各原始视频中的第一视频信息进行合并，得到各第二运动目标的第二视频信息。

[0076] 如上述的例子，当电子设备确定视频A中的第一运动目标1与视频B中的第一运动目标5为相同的第二运动目标1时，其可以获取从视频A中提取出的第一运动目标1的第一视频信息，以及从视频B中提取出的第一运动目标5的第一视频信息，并将其合并，作为第二运动目标1的第二视频信息。

[0077] S104，根据各第一运动目标各时刻在原始视频图像中的位置，各第二运动目标各时刻在各原始视频中的位置，以及各原始视频的采集场景图像与目标场景图像的关系，确定各第一运动目标和各第二运动目标各时刻在所述目标场景图像中的位置。

[0078] 可以理解，各第一运动目标的第一视频信息中记录的是该第一运动目标各时刻在原始视频图像中的位置，各第二运动目标的第二视频信息中记录的是该第二运动目标各时刻在各原始视频图像中的位置。

[0079] 但是，当电子设备将各原始视频的采集场景图像进行合并，生成目标场景图像后，使用各第一运动目标各时刻在原始视频图像中的位置，以及各第二运动目标各时刻在各原始视频图像中的位置，不能准确地将各第一运动目标和/或各第二运动目标显示在目标场景图像中正确的位置处。

[0080] 因此，在本发明实施例中，电子设备可以根据各第一运动目标各时刻在原始视频图像中的位置，各第二运动目标各时刻在各原始视频中的位置，以及各原始视频的采集场景图像与目标场景图像的关系，确定各第一运动目标和各第二运动目标各时刻在目标场景图像中的位置。

[0081] 例如，如图3所示，当两个原始视频的采集场景图像A、B大小相同，且均为长方形区域，目标场景图像为两个原始视频的采集场景图像拼接而成时，目标场景图像的大小即为各原始视频的采集场景图像大小的两倍，且其中一个原始视频的采集场景图像位于目标场景图像的左半边，另一个原始视频的采集场景图像位于目标场景图像的右半边。

[0082] 这种情况下，当第一运动目标1为采集场景图像A中的运动目标，且其某一时刻位于采集场景图像A的中心位置310时，电子设备可以确定该第一运动目标1在该时刻应该位于目标场景图像的位置320处，即位于目标场景图像中上下为中心位置，左右为目标场景图像的左边3/4位置处。

[0083] S105，根据各第一运动目标在原始视频中出现的各时刻、各时刻对应的包含各第一运动目标的图像、以及各第一运动目标在所述目标场景图像中的位置，各第二运动目标在各原始视频中出现的各时刻、各时刻对应的包含各第二运动目标的图像、以及各第二运动目标在所述目标场景图像中的位置，以及预设的显示规则，依次将各第一运动目标和第二运动目标显示在所述目标场景图像中，生成所述至少两个原始视频对应的摘要视频。

[0084] 电子设备确定各第一运动目标和各第二运动目标各时刻在目标场景图像中的位置后，可以根据各第一运动目标在原始视频中出现的各时刻、各时刻对应的包含各第一运动目标的图像、以及各第一运动目标在目标场景图像中的位置，各第二运动目标在各原始视频中出现的各时刻、各时刻对应的包含各第二运动目标的图像、以及各第二运动目标在目标场景图像中的位置，以及预设的显示规则，依次将各第一运动目标和第二运动目标显示在目标场景图像中，生成该至少两个原始视频对应的摘要视频。

[0085] 例如，电子设备可以根据各第一运动目标和第二运动目标所在的原始视频，依次提取各原始视频中的一个第一运动目标的第一视频信息，和/或第二运动目标的第二运动目标。并根据所提取的第一运动目标和/或第二运动目标在原始视频中出现的各时刻、各时刻对应的第一运动目标和/或第二运动目标在目标场景图像中的位置，将各时刻对应的包含第一运动目标和/或第二运动目标的图像显示在该时刻目标场景图像中对应的位置处。

[0086] 当根据提取的第一运动目标的第一视频信息，和/或第二运动目标的第二视频信息，全部显示第一运动目标和/或第二运动目标在目标场景图像中的轨迹后，电子设备可以提取各原始视频中的另一个第一运动目标的第一视频信息，和/或第二运动目标的第二视频信息，并在目标场景图像中显示该第一运动目标和/或第二运动目标的轨迹，直到在目标场景图像中显示所有的第一运动目标和第二运动目标的轨迹，生成该至少两个原始视频对应的摘要视频。

[0087] 或者，电子设备可以保证任一时刻在目标场景图像中只显示一个运动目标，按照本地保存的各第一运动目标的第一视频信息和第二运动目标的第二视频信息的保存顺序，依次提取出各第一运动目标的第一视频信息和第二运动目标的第二视频信息，并依次将各第一运动目标和第二运动目标显示在目标场景图像中，生成该至少两个原始视频对应的摘要视频。

[0088] 本发明实施例提供了一种摘要视频生成方法，能够根据至少两个原始视频的采集场景的地理位置关系，对该至少两个原始视频的采集场景图像进行合并处理，得到目标场景图像，进而可以将各原始视频中的运动目标显示在目标场景图像中，生成该至少两个原始视频对应的摘要视频，能够提高用户体验。

[0089] 作为本发明的一种实现方式，电子设备在根据各原始视频中包括的各第一运动目标的第一视频信息，识别至少两个原始视频中包括的相同的第二运动目标时，可以针对任意两个原始视频，分别获得包含各原始视频中的任一个第一运动目标的图像，计算该两个图像的匹配度；当该匹配度大于第一预设阈值时，如80％、85％、90％等，可以确定该两个第一运动目标为相同的第二运动目标。

[0090] 作为本发明的另一种实现方式，为了提高确定两个第一运动目标为相同的第二运动目标的准确性，电子设备在针对任意两个原始视频，分别获得包含各原始视频中的任一个第一运动目标的图像，计算该两个图像的匹配度之后，还可以根据该两个第一运动目标在该两个原始视频中出现的时刻及各时刻对应的位置，确定该两个第一运动目标是否符合预设条件。

[0091] 例如，电子设备可以根据该两个第一运动目标在该两个原始视频中出现的各时刻及各时刻对应的位置，判断其中一个第一运动目标从其所在原始视频中消失的时刻与位置，与另一个第一运动目标在其所在原始视频中出现的时刻与位置是否契合，如果是，则确定该两个第一运动目标符合预设条件。

[0092] 当两个第一运动目标符合预设条件后，电子设备可以进一步地判断包含该两个第一图像的匹配度是否大于第一预设阈值，如果是，则确定该两个第一运动目标为相同的第二运动目标。

[0093] 在本发明实施例中，电子设备在生成至少两个原始视频对应的摘要视频时，可以根据用户预设的显示规则，将第一运动目标和/或第二运动目标显示在目标场景图像中。

[0094] 作为本发明的一种实现方式，上述预设的显示规则可以为在目标场景图像中显示预定数量(如4、5、8等)的第一运动目标和/或第二运动目标。

[0095] 也就是说，任一时刻，在目标场景图像中显示的第一运动目标和/或第二运动目标的数量均为该预定数量。

[0096] 具体地，电子设备可以从本地保存的各第一运动目标的第一视频信息和第二运动目标的第二视频信息的保存顺序，同时提取出预定数量的各第一运动目标的第一视频信息和/或第二运动目标的第二视频信息，并根据提取的第一运动目标的第一视频信息，和/或第二运动目标的第二视频信息，在目标场景图像中同时显示该第一运动目标和/或第二运动目标的轨迹。

[0097] 当任一第一运动目标或第二运动目标在目标场景图像中消失后，电子设备可以提取另一个第一运动目标的第一视频信息，或第二运动目标的第二视频信息，并在目标场景图像中显示该第一运动目标或第二运动目标的轨迹，直到在目标场景图像中显示所有的第一运动目标和第二运动目标的轨迹，生成该至少两个原始视频对应的摘要视频。

[0098] 可以理解，有些情况下，用户可能想要获得某个时间段、某个位置范围或某个运动目标的相关信息。这种情况下，用户可以根据需要，预先设定显示规则，以使电子设备根据其设定的显示规则，生成相应的摘要视频。

[0099] 作为本发明的另一种实现方式，上述预设的显示规则可以包括以下至少一项：第一运动目标和/或第二运动目标在原始视频中出现的时间在预设时间范围内、第一运动目标和/或第二运动目标在原始视频中出现的位置在预设位置范围内、包含第一运动目标或第二运动目标的图像与预设的对比图像的匹配度大于第二预设阈值，如80％、85％、90％等。

[0100] 当用户设定显示规则后，电子设备可以根据该显示规则，从本地保存的各第一运动目标的第一视频信息和第二运动目标的第二视频信息中，筛选出符合该显示规则的第一运动目标和/或第二运动目标，以及对应的部分或全部视频信息，进而在目标场景图像中显示与该部分或全部视频信息对应的第一运动目标和/或第二运动目标的轨迹，生成对应的摘要视频。

[0101] 如，当预设的显示规则为第一运动目标和/或第二运动目标在原始视频中出现的时间在预设时间范围内时，电子设备可以根据各第一运动目标的第一视频信息和第二运动目标的第二视频信息中，各第一运动目标在原始视频中出现的各时刻、各第二运动目标在各原始视频中出现的各时刻，筛选出出现时刻处于预设时间范围内的各第一运动目标和各第二运动目标对应的视频信息。

[0102] 进而，电子设备可以根据筛选出的各第一运动目标和各第二运动目标对应的视频信息，在目标场景图像中显示将与该视频信息对应的各第一运动目标和各第二运动目标的轨迹，生成对应的摘要视频。

[0103] 电子设备在目标场景图像中显示将与该视频信息对应的各第一运动目标和各第二运动目标的轨迹时，可以同时在目标场景图像中显示筛选出的所有的第一运动目标和各第二运动目标的轨迹。

[0104] 或者，也可以预先设定数量阈值，当筛选出的第一运动目标和各第二运动目标的数量小于或等于该数量阈值时，可以同时在目标场景图像中显示筛选出的所有的第一运动目标和各第二运动目标的轨迹；当筛选出的第一运动目标和各第二运动目标的数量大于该数量阈值时，可以每次在目标场景图像中显示数量等于该数量阈值的第一运动目标和各第二运动目标的轨迹，分多次将筛选出的第一运动目标和各第二运动目标的轨迹显示在目标场景图像中。

[0105] 当预设的显示规则为第一运动目标和/或第二运动目标在原始视频中出现的位置在预设位置范围内时，电子设备可以根据各第一运动目标的第一视频信息和第二运动目标的第二视频信息中，各第一运动目标在原始视频中出现的各时刻对应的位置、各第二运动目标在各原始视频中出现的各时刻对应的位置，筛选出出现位置处于预设位置范围内的各第一运动目标和各第二运动目标对应的视频信息。

[0106] 进而，电子设备可以根据筛选出的各第一运动目标和各第二运动目标对应的视频信息，在目标场景图像中显示将与该视频信息对应的各第一运动目标和各第二运动目标的轨迹，生成对应的摘要视频。

[0107] 电子设备在目标场景图像中显示将与该视频信息对应的各第一运动目标和各第二运动目标的轨迹时，可以同时在目标场景图像中显示筛选出的所有的第一运动目标和各第二运动目标的轨迹。

[0108] 或者，也可以预先设定数量阈值，当筛选出的第一运动目标和各第二运动目标的数量小于或等于该数量阈值时，可以同时在目标场景图像中显示筛选出的所有的第一运动目标和各第二运动目标的轨迹；当筛选出的第一运动目标和各第二运动目标的数量大于该数量阈值时，可以每次在目标场景图像中显示数量等于该数量阈值的第一运动目标和各第二运动目标的轨迹，分多次将筛选出的第一运动目标和各第二运动目标的轨迹显示在目标场景图像中。

[0109] 当预设的显示规则为包含第一运动目标或第二运动目标的图像与预设的对比图像的匹配度大于第二预设阈值时，电子设备可以根据各第一运动目标的第一视频信息和第二运动目标的第二视频信息中，包含各第一运动目标或第二运动目标的图像，以及预设的对比图像，计算包含各第一运动目标或第二运动目标的图像与对比图像的匹配度，筛选出匹配度大于预定阈值的图像对应的各第一运动目标的第一视频信息，和各第二运动目标的第二视频信息。

[0110] 进而，电子设备可以根据筛选出的各第一运动目标的第一视频信息，和各第二运动目标的第二视频信息，在目标场景图像中显示各第一运动目标和各第二运动目标的轨迹，生成对应的摘要视频。

[0111] 电子设备在目标场景图像中显示筛选出的各第一运动目标和各第二运动目标的轨迹时，可以同时在目标场景图像中显示筛选出的所有的第一运动目标和各第二运动目标的轨迹。

[0112] 或者，也可以预先设定数量阈值，当筛选出的第一运动目标和各第二运动目标的数量小于或等于该数量阈值时，可以同时在目标场景图像中显示筛选出的所有的第一运动目标和各第二运动目标的轨迹；当筛选出的第一运动目标和各第二运动目标的数量大于该数量阈值时，可以每次在目标场景图像中显示数量等于该数量阈值的第一运动目标和各第二运动目标的轨迹，分多次将筛选出的第一运动目标和各第二运动目标的轨迹显示在目标场景图像中。

[0113] 作为本发明的另一种实现方式，当电子设备生成与至少两个原始视频对应的摘要视频后，还可以显示该摘要视频。

[0114] 可选地，为了提高摘要视频显示效果，电子设备可以预先构建与目标场景图像对应的三维场景模型。当电子设备生成摘要视频后，可以获取与目标场景图像对应的三维场景模型，并将该摘要视频叠加到该三维场景模型中，以将摘要视频三维显示，提高用户体验。

[0115] 需要说明的是，在本发明实施例中，电子设备生成三维场景模型的过程可以采用现有技术，本发明实施例对此过程不进行赘述。

[0116] 相应于上面的方法实施例，本发明实施例还提供了相应的装置实施例。

[0117] 图4为本发明实施例提供的一种摘要视频生成装置，所述装置包括：

[0118] 合并模块410，用于针对至少两个原始视频，确定各原始视频的采集场景的地理位置关系，并根据各原始视频的采集场景的地理位置关系，对所述至少两个原始视频的采集场景图像进行合并处理，得到目标场景图像；

[0119] 提取模块420，用于针对每个原始视频，对该原始视频的各视频帧进行分析，提取该原始视频中包括的各第一运动目标的第一视频信息，其中，各第一运动目标的第一视频信息包括：该第一运动目标在该原始视频中出现的各时刻、各时刻对应的位置、以及各时刻对应的包含该第一运动目标的图像；

[0120] 识别模块430，用于根据各原始视频中包括的各第一运动目标的第一视频信息，识别所述至少两个原始视频中包括的相同的第二运动目标，并将各第二运动目标在所述至少两个原始视频中的第一视频信息进行合并，得到各第二运动目标的第二视频信息；

[0121] 确定模块440，用于根据各第一运动目标各时刻在原始视频图像中的位置，各第二运动目标各时刻在各原始视频中的位置，以及各原始视频的采集场景图像与目标场景图像的关系，确定各第一运动目标和各第二运动目标各时刻在所述目标场景图像中的位置；

[0122] 生成模块450，用于根据各第一运动目标在原始视频中出现的各时刻、各时刻对应的包含各第一运动目标的图像、以及各第一运动目标在所述目标场景图像中的位置，各第二运动目标在各原始视频中出现的各时刻、各时刻对应的包含各第二运动目标的图像、以及各第二运动目标在所述目标场景图像中的位置，以及预设的显示规则，依次将各第一运动目标和第二运动目标显示在所述目标场景图像中，生成所述至少两个原始视频对应的摘要视频。

[0123] 本发明实施例提供了一种摘要视频生成装置，能够根据至少两个原始视频的采集场景的地理位置关系，对该至少两个原始视频的采集场景图像进行合并处理，得到目标场景图像，进而可以将各原始视频中的运动目标显示在目标场景图像中，生成该至少两个原始视频对应的摘要视频，能够提高用户体验。

[0124] 可选地，所述合并模块410包括：

[0125] 拼接子模块(图中未示出)，用于当任意两个原始视频的采集场景的地理位置部分重合时，对该两个原始视频的采集场景图像进行拼接处理；

[0126] 衔接子模块(图中未示出)，用于当任意两个原始视频的采集场景的地理位置不重合时，对该两个原始视频的采集场景图像进行衔接处理。

[0127] 可选地，所述识别模块430包括：

[0128] 计算子模块(图中未示出)，用于针对任意两个原始视频，分别获得包含各原始视频中的任一个第一运动目标的图像，计算该两个图像的匹配度；

[0129] 第一确定子模块(图中未示出)，用于当所述匹配度大于第一预设阈值时，确定该两个第一运动目标为相同的第二运动目标。

[0130] 可选地，所述装置还包括：

[0131] 第二确定子模块(图中未示出)，用于根据该两个第一运动目标在该两个原始视频中出现的时刻及各时刻对应的位置，确定该两个第一运动目标是否符合预设条件；如果是，则触发所述第一确定子模块。

[0132] 可选地，所述预设的显示规则包括在所述目标场景图像中显示预定数量的第一运动目标和/或第二运动目标。

[0133] 可选地，所述预设的显示规则包括以下至少一项：第一运动目标和/或第二运动目标在原始视频中出现的时间在预设时间范围内、第一运动目标和/或第二运动目标在原始视频中出现的位置在预设位置范围内、包含第一运动目标或第二运动目标的图像与预设的对比图像的匹配度大于第二预设阈值。

[0134] 可选地，所述装置还包括：

[0135] 处理模块(图中未示出)，用于获取与所述目标场景图像对应的三维场景模型，并将所述摘要视频叠加到所述三维场景模型中。

[0136] 需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

[0137] 本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

[0138] 以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

一种摘要视频生成方法及装置转让专利

申请号 : CN201610409337.7

文献号 : CN107493441B

文献日 : 2020-03-06

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 彭剑峰 , 王鹏 , 叶挺群 , 郭斌

申请人 : 杭州海康威视数字技术股份有限公司

摘要 :

权利要求 :

说明书 :