生成直播封面的方法及装置、计算机存储介质、电子设备转让专利

申请号 : CN202111337909.2

文献号 : CN114071244B

文献日 : 2022-11-04

本公开涉及视频处理技术领域，提供了一种生成直播封面的方法、生成直播封面的装置、计算机存储介质、电子设备，其中，生成直播封面的方法包括：响应于视频截取指令，从当前直播画面中截取待处理视频；响应于待处理视频的尺寸比例大于直播封面的预设尺寸比例，对待处理视频的图像帧分别进行人脸和人体识别，得到人脸区域和人体区域；根据人脸区域和人体区域的位置确定图像的截取框位置，并根据从截取框位置截取到的图像生成直播封面。本公开中的方法能够保证直播内容的充分展示，提升主播的点击率。

1.一种生成直播封面的方法，其特征在于，包括：

响应于视频截取指令，从当前直播画面中截取待处理视频；

响应于所述待处理视频的尺寸比例大于所述直播封面的预设尺寸比例，检测所述待处理视频是否为在分屏模式下录制的视频；

若是，根据所述待处理视频对应的分屏类型从所述待处理视频中确定有效视频区域；

对所述有效视频区域的图像分别进行人脸和人体识别，得到所述人脸区域和人体区域；

根据所述人脸区域和人体区域的位置确定所述图像帧的截取框位置，并根据从所述截取框位置截取到的图像生成所述直播封面。

2.根据权利要求1所述的方法，其特征在于，所述分屏类型包括双分屏；

所述双分屏通过以下方式确定：

对所述待处理视频的各图像帧进行画面分割，得到两个分割图像；各所述分割图像中包含一个独立图像画面；

获取所述分割图像之间的结构相似性指标；获取所述结构相似性指标满足预设阈值条件的帧数目；

响应于所述帧数目占所述待处理视频的总帧数的比值大于预设比值，确定所述待处理视频的分屏类型为双分屏。

3.根据权利要求1所述的方法，其特征在于，所述分屏类型包括对称分屏；

所述对称分屏通过以下方式确定：对所述待处理视频的各图像帧进行画面分割，得到两个分割图像；各所述分割图像中包含一个独立的图像画面；

对任一所述分割图像进行左右翻转，并获取所述左右翻转后的分割图像与另一分割图像之间的结构相似性指标；

获取所述结构相似性指标满足预设阈值条件的帧数目；

响应于所述帧数目占所述待处理视频的总帧数的比值大于预设比值，确定所述待处理视频的分屏类型为对称分屏。

4.根据权利要求1所述的方法，其特征在于，所述分屏类型包括三分屏；

所述三分屏通过以下方式确定：

对所述待处理视频的各图像帧进行画面分割，得到三个分割图像；各所述分割图像中包含一个独立的图像画面；获取任意两个所述分割图像之间的结构相似性指标；

若任一所述结构相似性指标满足预设阈值条件，则将该帧图像确定为目标帧图像；

响应于所述目标帧图像的数目占所述待处理视频的总帧数的比值大于预设比值，确定所述待处理视频的分屏类型为三分屏。

5.根据权利要求1所述的方法，其特征在于，所述对所述待处理视频的图像帧分别进行人脸和人体识别，得到人脸区域和人体区域，包括：对所述待处理视频的图像帧分别进行人脸和人体识别，得到人脸特征点和人体特征点；

将所述人脸特征点的最小外接矩形确定为所述人脸区域；以及，将所述人体特征点的最小外接矩形确定为所述人体区域。

6.根据权利要求1所述的方法，其特征在于，在得到人脸区域和人体区域之后，所述方法还包括：获取第i帧图像的人脸区域中心点及人体区域中心点；

获取所述第i帧图像的关联图像，确定所述关联图像的人脸区域中心点及人体区域中心点；所述关联图像为所述第i帧图像的前n帧图像和所述第i帧图像的后n帧图像；

对所述第i帧图像的人脸区域中心点和所述关联图像的人脸区域中心点的坐标进行加权运算，得到平滑后的所述第i帧图像的人脸区域中心点的坐标；

对所述第i帧图像的人体区域中心点和所述关联图像的人体区域中心点的坐标进行加权运算，得到平滑后的所述第i帧图像的人体区域中心点的坐标；

其中，n为大于或等于1的整数，i大于n。

7.根据权利要求1所述的方法，其特征在于，在得到人脸区域和人体区域之后，所述方法还包括：根据所述人脸区域和人体区域的位置，判断所述待处理视频是否有效；

当判断出所述待处理视频无效时，对所述待处理视频进行丢弃处理。

8.根据权利要求7所述的方法，其特征在于，根据以下条件确定所述待处理视频无效：所述待处理视频的前X帧图像中未识别到人脸区域；和/或，所述待处理视频中存在预设帧图像中未识别到人脸区域；和/或，所述待处理视频中连续N帧的人脸区域处于同一位置；和/或，所述待处理视频中连续M帧的人脸区域不在人体区域内；和/或，所述待处理视频中人脸区域不在人体区域内的帧数目大于第四预设阈值；

其中，X、N、M为大于1的整数。

9.根据权利要求1所述的方法，其特征在于，所述根据所述人脸区域和人体区域的位置确定所述每帧图像的截取框位置，包括：针对所述待处理视频中的首帧图像，根据所述首帧图像的人脸区域中心点及人体区域中心点，确定截取框的中心点；

根据所述首帧图像的尺寸比例和所述直播封面的预设尺寸比例，确定所述截取框的尺寸；

基于所述截取框的中心点及所述截取框的尺寸，确定所述首帧图像的截取框位置。

10.根据权利要求9所述的方法，其特征在于，所述根据所述人脸区域中心点和所述人体区域中心点，确定截取框的中心点，包括：根据所述人脸区域中心点和所述人体区域中心点的横坐标，确定所述截取框的中心点的横坐标；

根据所述人脸区域中心点和所述人体区域中心点的纵坐标，确定所述截取框的中心点的纵坐标。

11.根据权利要求9所述的方法，其特征在于，所述根据首帧图像的尺寸比例和所述直播封面的预设尺寸比例，确定所述截取框的尺寸，包括：获取所述首帧图像的尺寸比例的前项与所述直播封面的预设尺寸比例的前项之间的第一比值；以及，获取所述首帧图像的尺寸比例的后项与所述直播封面的预设尺寸比例的后项之间的第二比值；

响应于所述第一比值大于所述第二比值，将所述首帧图像的宽度确定为所述截取框的宽度；

根据所述截取框的宽度和所述直播封面的长宽比，确定所述截取框的长度。

12.根据权利要求11所述的方法，其特征在于，所述根据首帧图像的尺寸比例和所述直播封面的预设尺寸比例，确定所述截取框的尺寸，还包括：响应于所述第一比值小于所述第二比值，将所述首帧图像的长度确定为所述截取框的长度；

根据所述截取框的长度和所述直播封面的长宽比，确定所述截取框的宽度。

13.根据权利要求1所述的方法，其特征在于，所述根据所述人脸区域和人体区域的位置确定所述图像的截取框位置，包括：响应于第i帧图像的人体区域部分位于第i‑1帧图像的截取框内，获取第i帧图像中人脸区域中心点与第i‑1帧图像中人脸区域中心点之间的第一位移、所述第i帧图像中人体区域中心点与所述第i‑1帧图像中人体区域中心点之间的第二位移；

对所述第一位移与所述第二位移进行加权运算，得到第三位移；

根据所述第三位移调整所述第i‑1帧图像的截取框的中心点，以得到所述第i帧图像的截取框位置。

14.根据权利要求1所述的方法，其特征在于，所述根据所述人脸区域和人体区域的位置确定所述图像帧的截取框位置，包括：响应于第i帧图像的人体区域位于第i‑1帧图像的截取框内，获取第i帧图像中人脸区域的边界线与所述第i‑1帧图像的截取框的边界线之间的第一距离；

响应于所述第一距离小于第一目标值，获取所述第i帧图像的人脸区域中心点相对于所述第i‑1帧图像的人脸区域中心点之间的第四位移；所述第一目标值为所述截取框的边长的第三预设倍数；所述第三预设倍数为大于0小于1的实数；

根据所述第四位移调整所述第i‑1帧图像的截取框的中心点，得到所述第i帧图像的截取框位置。

15.根据权利要求1所述的方法，其特征在于，所述根据所述人脸区域和人体区域的位置确定所述图像帧的截取框位置，包括：响应于第i帧图像的人体区域位于第i‑1帧图像的截取框内，获取所述第i帧图像中人体区域的边界线与第i‑1帧图像的截取框的边界线之间的第二距离；

响应于所述第二距离小于第二目标值，获取所述第i帧图像的人脸区域中心点与第i‑1帧图像的人脸区域中心点之间的第一位移、所述第i帧图像的人体区域中心点与第i‑1帧图像的人体区域中心点之间的第二位移；所述第二目标值通过以下方式确定：获取所述截取框的面积与所述人体区域的边长之间的第三比值，将第二预设倍数与所述第三比值之间的乘积确定为所述第二目标值；

对所述第一位移与所述第二位移进行加权运算，得到第五位移；

根据所述第五位移调整所述第i‑1帧图像的截取框的中心点，得到所述第i帧图像的截取框位置。

16.根据权利要求1所述的方法，其特征在于，所述根据所述人脸区域和人体区域的位置确定所述图像帧的截取框位置，包括：响应于第i帧图像的人体区域位于第i‑1帧图像的截取框之内，且，第i帧图像的人脸区域位于所述第i‑1帧图像的截取框中的目标区域，将所述第i‑1帧图像的截取框位置确定为所述第i帧图像的截取框位置。

17.一种生成直播封面的装置，其特征在于，包括：视频截取模块，用于响应于视频截取指令，从当前直播画面中截取待处理视频；

人脸及人体识别模块，用于响应于所述待处理视频的尺寸比例大于所述直播封面的预设尺寸比例，检测所述待处理视频是否为在分屏模式下录制的视频；若是，根据所述待处理视频对应的分屏类型从所述待处理视频中确定有效视频区域；对所述有效视频区域的图像分别进行人脸和人体识别，得到所述人脸区域和人体区域；

封面生成模块，根据所述人脸区域和人体区域的位置确定所述图像帧的截取框位置，并根据从所述截取框位置截取到的图像生成所述直播封面。

18.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～16中任意一项所述的生成直播封面的方法。

19.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～16中任意一项所述的生成直播封面的方法。

生成直播封面的方法及装置、计算机存储介质、电子设备

技术领域

[0001] 本公开涉及视频处理技术领域，特别涉及一种生成直播封面的方法、生成直播封面的装置、计算机存储介质及电子设备。

背景技术

[0002] 随着计算机及互联网技术的迅速发展，相关视频直播领域也在蓬勃兴起。在直播客户端对应的界面中，会显示有多个直播间对应的直播封面，用户可以根据直播封面来选择进入哪一个直播间进行直播观看。因此，一个好的直播间封面能够让主播在诸多直播间中脱颖而出，显著提高用户进入直播间的点击率。

[0003] 目前，一般是从直播画面中的固定位置截取固定长宽比的画面，以制作直播封面，该方案容易造成主播图像展示不完全、直播内容缺失等问题。或者，定位主播的人像位置，并以该人像位置为中心点选取固定长宽比的画面进行截取，该方案虽然在一定程度上使得主播的图像完整展示，但是并不适用于分屏直播画面，截取到的封面中容易带入其他分屏的内容。

[0004] 鉴于此，本领域亟需开发一种新的生成直播封面的方法及装置。

[0005] 需要说明的是，上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。

发明内容

[0006] 本公开的目的在于提供一种生成直播封面的方法、生成直播封面的装置、计算机存储介质及电子设备，进而至少在一定程度上避免了相关技术中封面无法准确反映直播内容的问题。

[0007] 本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

[0008] 根据本公开的第一方面，提供一种生成直播封面的方法，包括：响应于视频截取指令，从当前直播画面中截取待处理视频；响应于所述待处理视频的尺寸比例大于所述直播封面的预设尺寸比例，对所述待处理视频的图像帧分别进行人脸和人体识别，得到人脸区域和人体区域；根据所述人脸区域和人体区域的位置确定所述图像的截取框位置，根据从所述截取框位置截取到的图像生成所述直播封面。

[0009] 在本公开的示例性实施例中，在确定出所述待处理视频的尺寸比例大于所述直播封面的预设尺寸比例之后，所述方法还包括：检测所述待处理视频是否为在分屏模式下录制的视频；若是，根据所述待处理视频对应的分屏类型从所述待处理视频中确定有效视频区域；对所述有效视频区域的图像分别进行人脸和人体识别，得到所述人脸区域和人体区域。

[0010] 在本公开的示例性实施例中，所述分屏类型包括双分屏；所述双分屏通过以下方式确定：对所述待处理视频的各图像帧进行画面分割，得到两个分割图像；各所述分割图像中包含一个独立图像画面；获取所述分割图像之间的结构相似性指标；获取所述结构相似性指标满足预设阈值条件的帧数目；响应于所述帧数目占所述待处理视频的总帧数的比值大于预设比值，确定所述待处理视频的分屏类型为双分屏。

[0011] 在本公开的示例性实施例中，所述分屏类型包括对称分屏；所述对称分屏通过以下方式确定：对所述待处理视频的各图像帧进行画面分割，得到两个分割图像；各所述分割图像中包含一个独立的图像画面；对任一所述分割图像进行左右翻转，并获取所述左右翻转后的分割图像与另一分割图像之间的结构相似性指标；获取所述结构相似性指标满足预设阈值条件的帧数目；响应于所述帧数目占所述待处理视频的总帧数的比值大于预设比值，确定所述待处理视频的分屏类型为对称分屏。

[0012] 在本公开的示例性实施例中，所述分屏类型包括三分屏；所述三分屏通过以下方式确定：对所述待处理视频的各图像帧进行画面分割，得到三个分割图像；各所述分割图像中包含一个独立的图像画面；获取任意两个所述分割图像之间的结构相似性指标；若任一所述结构相似性指标满足预设阈值条件，则将该帧图像确定为目标帧图像；响应于所述目标帧图像的数目占所述待处理视频的总帧数的比值大于预设比值，确定所述待处理视频的分屏类型为三分屏。

[0013] 在本公开的示例性实施例中，所述对所述待处理视频的图像帧分别进行人脸和人体识别，得到人脸区域和人体区域，包括：对所述待处理视频的图像帧分别进行人脸和人体识别，得到人脸特征点和人体特征点；将所述人脸特征点的最小外接矩形确定为所述人脸区域；以及，将所述人体特征点的最小外接矩形确定为所述人体区域。

[0014] 在本公开的示例性实施例中，在得到人脸区域和人体区域之后，所述方法还包括：获取第i帧图像的人脸区域中心点及人体区域中心点；获取所述第i帧图像的关联图像，确定所述关联图像的人脸区域中心点及人体区域中心点；所述关联图像为所述第i帧图像的前n帧图像和所述第i帧图像的后n帧图像；对所述第i帧图像的人脸区域中心点和所述关联图像的人脸区域中心点的坐标进行加权运算，得到平滑后的所述第i帧图像的人脸区域中心点的坐标；对所述第i帧图像的人体区域中心点和所述关联图像的人体区域中心点的坐标进行加权运算，得到平滑后的所述第i帧图像的人体区域中心点的坐标；其中，n为大于或等于1的整数，i大于n。

[0015] 在本公开的示例性实施例中，在得到人脸区域和人体区域之后，所述方法还包括：根据所述人脸区域和人体区域的位置，判断所述待处理视频是否有效；当判断出所述待处理视频无效时，对所述待处理视频进行丢弃处理。

[0016] 在本公开的示例性实施例中，根据以下条件确定所述待处理视频无效：所述待处理视频的前X帧图像中未识别到人脸区域；和/或，所述待处理视频中存在预设帧图像中未识别到人脸区域；和/或，所述待处理视频中连续N帧的人脸区域处于同一位置；和/或，所述待处理视频中连续M帧的人脸区域不在人体区域内；和/或，所述待处理视频中人脸区域不在人体区域内的帧数目大于第四预设阈值；其中，X、N、M为大于1的整数。

[0017] 在本公开的示例性实施例中，所述根据所述人脸区域和人体区域的位置确定所述每帧图像的截取框位置，包括：针对所述待处理视频中的首帧图像，根据所述首帧图像的人脸区域中心点及人体区域中心点，确定截取框的中心点；根据所述首帧图像的尺寸比例和所述直播封面的预设尺寸比例，确定所述截取框的尺寸；基于所述截取框的中心点及所述截取框的尺寸，确定所述首帧图像的截取框位置。

[0018] 在本公开的示例性实施例中，所述根据所述人脸区域中心点和所述人体区域中心点，确定截取框的中心点，包括：根据所述人脸区域中心点和所述人体区域中心点的横坐标，确定所述截取框的中心点的横坐标；根据所述人脸区域中心点和所述人体区域中心点的纵坐标，确定所述截取框的中心点的纵坐标。

[0019] 在本公开的示例性实施例中，所述根据首帧图像的尺寸比例和所述直播封面的预设尺寸比例，确定所述截取框的尺寸，包括：获取所述首帧图像的尺寸比例的前项与所述直播封面的预设尺寸比例的前项之间的第一比值；以及，获取所述首帧图像的尺寸比例的后项与所述直播封面的预设尺寸比例的后项之间的第二比值；响应于所述第一比值大于所述第二比值，将所述首帧图像的宽度确定为所述截取框的宽度；根据所述截取框的宽度和所述直播封面的长宽比，确定所述截取框的长度。

[0020] 在本公开的示例性实施例中，所述根据首帧图像的尺寸比例和所述直播封面的预设尺寸比例，确定所述截取框的尺寸，还包括：响应于所述第一比值小于所述第二比值，将所述首帧图像的长度确定为所述截取框的长度；根据所述截取框的长度和所述直播封面的长宽比，确定所述截取框的宽度。

[0021] 在本公开的示例性实施例中，所述根据所述人脸区域和人体区域的位置确定所述图像的截取框位置，包括：响应于第i帧图像的人体区域部分位于第i‑1帧图像的截取框内，获取第i帧图像中人脸区域中心点与第i‑1帧图像中人脸区域中心点之间的第一位移、所述第i帧图像中人体区域中心点与所述第i‑1帧图像中人体区域中心点之间的第二位移；对所述第一位移与所述第二位移进行加权运算，得到第三位移；根据所述第三位移调整所述第i‑1帧图像的截取框，以得到所述第i帧图像的截取框位置。

[0022] 在本公开的示例性实施例中，所述根据所述人脸区域和人体区域的位置确定所述图像的截取框位置，包括：响应于第i帧图像的人体区域位于第i‑1帧图像的截取框内，获取第i帧图像中人脸区域的边界线与所述第i‑1帧图像的截取框的边界线之间的第一距离；响应于所述第一距离小于第一目标值，获取所述第i帧图像的人脸区域中心点相对于所述第i‑1帧图像的人脸区域中心点之间的第四位移；所述第一目标值为所述截取框的边长的关联值；根据所述第四位移调整所述第i‑1帧图像的截取框，得到所述第i帧图像的截取框位置。

[0023] 在本公开的示例性实施例中，所述根据所述人脸区域和人体区域的位置确定所述图像的截取框位置，包括：响应于第i帧图像的人体区域位于第i‑1帧图像的截取框内，获取所述第i帧图像中人体区域的边界线与第i‑1帧图像的截取框的边界线之间的第二距离；响应于所述第二距离小于第二目标值，获取所述第i帧图像的人脸区域中心点与第i‑1帧图像的人脸区域中心点之间的第一位移、所述第i帧图像的人体区域中心点与第i‑1帧图像的人体区域中心点之间的第二位移；所述第二目标值为根据第二预设倍数、所述截取框的边长、所述人体区域的边长确定的；对所述第一位移与所述第二位移进行加权运算，得到第五位移；根据所述第五位移调整所述第i‑1帧图像的截取框，得到所述第i帧图像的截取框位置。

[0024] 在本公开的示例性实施例中，所述根据所述人脸区域和人体区域的位置确定所述图像的截取框位置，包括：响应于第i帧图像的人体区域位于第i‑1帧图像的截取框之内，且，第i帧图像的人脸区域位于所述第i‑1帧图像的截取框中的目标区域，将所述第i‑1帧图像的截取框位置确定为所述第i帧图像的截取框位置。

[0025] 根据本公开的第二方面，提供一种生成直播封面的装置，包括：视频截取模块，用于响应于视频截取指令，从当前直播画面中截取待处理视频；人脸及人体识别模块，用于响应于所述待处理视频的尺寸比例大于所述直播封面的预设尺寸比例，对所述待处理视频的图像帧分别进行人脸和人体识别，得到人脸区域和人体区域；封面生成模块，根据所述人脸区域和人体区域的位置确定所述图像的截取框位置，并根据从所述截取框位置截取到的图像生成所述直播封面。

[0026] 根据本公开的第三方面，提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的生成直播封面的方法。

[0027] 根据本公开的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的生成直播封面的方法。

[0028] 由上述技术方案可知，本公开示例性实施例中的生成直播封面的方法、生成直播封面的装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

[0029] 在本公开的一些实施例所提供的技术方案中，一方面，响应于视频截取指令，从当前直播画面中截取待处理视频，并在待处理视频的尺寸比例大于直播封面的预设尺寸比例时，对待处理视频的图像帧分别进行人脸和人体识别，得到人脸区域和人体区域，不仅能够保证获取到的待处理视频的有效性，还能避免在待处理视频的额尺寸比例小于或等于直播封面的预设尺寸比例时，从其中截取部分区域所导致的过度裁剪的问题，保证最终生成的直播封面的美观性的画面完整性。另一方面，根据人脸区域和人体区域的位置确定图像的截取框位置，并根据从截取框位置截取到的图像生成直播封面，能够从图像中得到一个有效且合理的画面区域，解决相关技术中仅从图像中心区域截取画面所导致的当主播位置发生变化时截取到无效直播画面的技术问题，保证直播内容的充分展示，提升主播的点击率。

[0030] 本公开应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

[0031] 此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0032] 图1示出本公开实施例中生成直播封面的方法的流程示意图；

[0033] 图2示出本公开实施例中识别人脸区域和人体区域的流程示意图；

[0034] 图3示出本公开实施例中对人脸区域中心点和人体区域中心点进行平滑处理的流程示意图；

[0035] 图4示出本公开实施例中确定首帧图像的截取框位置的流程示意图；

[0036] 图5示出本公开实施例中一种确定第i帧图像的截取框位置的流程示意图；

[0037] 图6示出本公开实施例中另一种确定第i帧图像的截取框位置的流程示意图；

[0038] 图7示出本公开实施例中又一种确定第i帧图像的截取框位置的流程示意图；

[0039] 图8示出本公开示例性实施例中生成直播封面的装置的结构示意图；

[0040] 图9示出本公开示例性实施例中电子设备的结构示意图。

具体实施方式

[0041] 现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

[0042] 本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

[0043] 此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

[0044] 主页中的封面展示是娱乐主播吸引观众的重要方式。一个好的直播间封面能够很好的展示主播的才艺，显著提高用户进入直播间的点击率。但静态的图片展示无法展示主播的当前状态和保留用户在直播间的留存率，从实时直播中的高光时刻中提取直播封面可以达到吸引观众进入房间和留存观众的双重效果。

[0045] 目前，每个主播直播中的画面分辨率和长宽比是各不相同的，而展示直播画面的时候需要将其缩略到指定的长宽比和分辨率，传统的缩放方法容易使直播封面中的主播展示不够充分，导致主播不会占据直播画面太大占比，而固定位置(如图像中心区域)的裁剪方案容易造成直播内容的缺失(如舞蹈动作等)。

[0046] 总体而言，上述方案存在以下缺陷：

[0047] (1)无法追随目标的变化和移动，所以当主播不再处于图像的中心位置时，容易出现主播在截取范围内展示不完全的问题；

[0048] (2)依照固定位置的截取方案，无法判断截取到的直播封面是否是有效的和有内容的直播画面(例如：主播不在画面中或者贴放静态图等)；

[0049] (3)无法对直播时的分屏画面进行针对性的识别和截取，会出现一些内容异常的直播封面。

[0050] 在本公开的实施例中，首先提供了一种生成直播封面的方法，至少在一定程度上克服相关技术中直播封面无法准确反映直播内容的缺陷。

[0051] 图1示出本公开实施例中生成直播封面的方法的流程示意图，该生成直播封面的方法的执行主体可以是直播服务器。

[0052] 参考图1，根据本公开的一个实施例的生成直播封面的方法包括以下步骤：

[0053] 步骤S110，响应于视频截取指令，从当前直播画面中截取待处理视频；

[0054] 步骤S120，响应于待处理视频的尺寸比例大于直播封面的预设尺寸比例，对待处理视频的图像帧分别进行人脸和人体识别，得到人脸区域和人体区域；

[0055] 步骤S130，根据人脸区域和人体区域的位置确定图像的截取框位置，并根据从截取框位置截取到的图像生成直播封面。

[0056] 在图1所示实施例所提供的技术方案中，一方面，响应于视频截取指令，从当前直播画面中截取待处理视频，并在待处理视频的尺寸比例大于直播封面的预设尺寸比例时，对待处理视频的图像帧分别进行人脸和人体识别，得到人脸区域和人体区域，不仅能够保证获取到的待处理视频的有效性，还能避免在待处理视频的额尺寸比例小于或等于直播封面的预设尺寸比例时，从其中截取部分区域所导致的过度裁剪的问题，保证最终生成的直播封面的美观性的画面完整性。另一方面，根据人脸区域和人体区域的位置确定图像的截取框位置，并根据从截取框位置截取到的图像生成直播封面，能够从图像中得到一个有效且合理的画面区域，解决相关技术中仅从图像中心区域截取画面所导致的当主播位置发生变化时截取到无效直播画面的技术问题，保证直播内容的充分展示，提升主播的点击率。

[0057] 以下对图1中的各个步骤的具体实现过程进行详细阐述：

[0058] 在步骤S110中，响应于视频截取指令，从当前直播画面中截取待处理视频。

[0059] 本步骤中，当前直播画面可以是当前时刻正在进行的直播画面，也可以是当前时刻正在被回放的历史直播画面，可以根据实际情况自行设定，本公开对此不作特殊限定。

[0060] 视频截取指令可以是直播服务器自动发送的，也可以是主播通过终端设备向直播服务器发送的指令。示例性的，直播服务器可以实时检测当前直播画面的直播内容，进而，当直播内容满足一定的条件时，例如：当前直播内容中包含主播跳舞、唱歌等一些高光时刻，则直播服务器可以从当前直播画面中截取预定时长的待处理视频。或者，主播可以根据实际情况自行发送视频截取指令，以从当前直播画面中截取待处理视频，截取待处理视频的具体方式可以根据实际情况自行设定，本公开对此不作特殊限定。

[0061] 在步骤S120中，响应于待处理视频的尺寸比例大于直播封面的预设尺寸比例，对待处理视频的图像帧分别进行人脸和人体识别，得到人脸区域和人体区域。

[0062] 本步骤中，可以获取待处理视频的尺寸比例，并将待处理视频的尺寸比例和直播封面的预设尺寸比例进行比对。其中，待处理视频的尺寸比例可以包括待处理视频的长宽比，例如：16:9。直播封面的预设尺寸比例即主播封面所展示的画面尺寸比例，示例性的，不同的用户端对应不同的封面尺寸，用户端可以是电脑端或移动终端等，可以根据实际情况自行设定，本公开对此不作特殊限定。直播封面的预设尺寸比例可以是直播封面的长宽比，例如：1:1。

[0063] 在待处理视频的尺寸比例小于或等于直播封面的预设尺寸比例的情况下，则可以直接将待处理视频确定为主播的直播封面，从而，能够避免过度裁剪所导致的封面中大量留白的情况，保证画面完整性。

[0064] 在待处理视频的尺寸比例大于直播封面的预设尺寸比例的情况下，可以对待处理视频的各个图像帧分别进行人脸和人体识别，得到各个图像帧中的人脸区域和人体区域。具体的，参考图2，图2示出本公开实施例中识别人脸区域和人体区域的流程示意图，包含步骤S201‑步骤S203：

[0065] 在步骤S201中，对待处理视频的图像帧分别进行人脸和人体识别，得到人脸特征点和人体特征点。

[0066] 本步骤中，可以采用人脸检测器(一种生物特征识别技术，通过摄像机采集含有人脸的图像或者视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行人脸定位、人脸识别预处理、记忆存储和比对，从而达到识别不同人身份的目的)对待处理视频进行人脸识别，得到人脸特征点(例如：人脸外轮廓点)，以及，采用人体检测器(类似上述人脸检测器，可用于识别、跟踪人体位置)对待处理视频进行人体识别，得到人体特征点(例如：人体外轮廓点)。

[0067] 示例性的，还可以基于深度神经网络等进行人脸和人体识别，可以根据实际情况自行设定，本公开对此不作特殊限定。

[0068] 在步骤S202中，将人脸特征点的最小外接矩形确定为人脸区域。

[0069] 本步骤中，可以将包含上述人脸特征点的最小外接矩形(minimum bounding rectangle，MBR，是指以二维坐标表示的若干二维形状(例如点、直线、多边形)的最大范围，即以给定的二维形状各顶点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形)确定为人脸区域。

[0070] 在步骤S203中，将人体特征点的最小外接矩形确定为人体区域。

[0071] 本步骤中，可以将人体特征点的最小外接矩形确定为人体区域。

[0072] 在识别完每帧图像中的人脸区域和人体区域之后，可以检测是否存在漏识别情况，当某一帧图像出现漏识别情况时，可以将其前一帧的识别结果确定为该帧的识别结果，以弥补漏检的问题。若识别出某一帧图像中包含多个人脸区域或人体区域，则可以将其前一帧图像的识别结果与该帧图像的识别结果取交集，并将交集确定为该帧图像的识别结果。举例而言，当第6帧图像检测出3个人脸区域或3个人体区域，而第5帧图像检测出1个人脸区域和1个人体区域，则可以将第6帧图像的识别结果调整为：1个人脸区域和1个人体区域，从而，能够避免将一些非人体目标(例如：玩偶、画像、贴图等)识别为人体，保证识别结果的准确性。

[0073] 在一种可选的实施方式中，在上述步骤S120中，当待处理视频的尺寸比例大于直播封面的预设尺寸比例的情况下，还可以检测待处理视频是否为在分屏模式(即将屏幕分成多个界面，在每个界面显示相同或不同的直播内容)下录制的视频，若不是分屏模式下录制的视频，则可以直接执行上述步骤S201‑步骤S203，对待处理视频的各个图像帧进行人脸和人体识别，得到各个图像帧中的人脸区域和人体区域。若待处理视频是分屏模式下录制的视频，则可以根据待处理视频对应的分屏类型从待处理视频中选取一有效视频区域(即多个分屏中的其中一个分屏区域)，进而，参考上述步骤S201‑步骤S203，对有效视频区域的图像分别进行人脸和人体识别，得到人脸区域和人体区域。

[0074] 具体的，上述分屏类型可以包括双分屏、对称分屏及三分屏，可以通过以下方式确定待处理视频的分屏类型：

[0075] 以主播端使用移动终端进行直播为例进行说明，双分屏即移动终端处于横屏状态下，将移动终端分为左半屏和右半屏，左半屏和右半屏的直播内容(例如：主播的跳舞等动作)完全相同，即右半屏的直播内容相当于左半屏直播内容的复制；或者，当移动终端处于竖屏状态下，将移动终端分为上半屏和下半屏，上半屏和下半屏的直播内容完全相同，即下半屏的直播内容相当于上半屏直播内容的复制。对称分屏即移动终端处于横屏状态下，将移动终端分为左半屏和右半屏，左半屏的直播内容和右半屏的直播内容呈镜面对称；或者，当移动终端处于竖屏状态下，将移动终端分为上半屏和下半屏，上半屏的直播内容和下半屏的直播内容呈镜面对称。三分屏即移动终端处于横屏状态下，将移动终端分为左半屏、中间屏和右半屏，三个子屏幕的直播内容完全相同；或者，当移动终端处于竖屏状态下，将移动终端分为上半屏、中间屏和下半屏，三个子屏幕的直播内容完全相同。

[0076] 但主播可以根据自身需求为各个分屏添加不同的显示特效，例如：在左半屏添加“兔耳朵”特效，在中间屏添加“猪鼻子”特效，在右半屏添加“猫耳朵”特效等，可以根据实际情况自行设定，本公开对此不作特殊限定。

[0077] 上述双分屏可以通过以下方式确定：对待处理视频的各图像帧进行画面分割，得到两个分割图像，各个分割图像中包含一个独立图像画面。以主播A唱歌时的任意一帧视频画面为例进行说明，则得到的分割图像P1可以是主播A唱歌时的画面，分割图像P2也是主播A唱歌时的画面，分割图像P2可以是分割图像P1的复制(即画面内容完全相同)，或因主播设置的特效不同而使得分割图像P2与分割图像P1略有差异，例如：分割图像P1中的主播A设置了“猪鼻子”特效，而分割图像P2中的主播A设置了“猫耳朵”特效。

[0078] 在得到分割图像之后，可以基于SSIM算法(structural similarity，用来衡量图片相似度)计算两个分割图像之间的结构相似性指标，并获取结构相似性指标满足预设阈值条件(例如：大于80％，可以根据实际情况自行设定或更改，本公开对此不作特殊限定)的帧数目，举例而言，输入图像总共有100帧，而结构相似性指标满足上述预设阈值条件的帧数目为86帧，则上述帧数目占待处理视频的总帧数的比值为86/100＝86％，大于预设比值85％(可以根据实际情况自行设定或更改，本公开对此不作特殊限定)，则可以确定上述待处理视频的分屏类型为双分屏，进而，示例性的，可以将移动终端处于水平状态时的左半屏或将移动终端处于竖直状态时的上半屏确定为有效视频区域，可以根据实际情况自行设定，本公开对此不作特殊限定。

[0079] 其中，结构相似性指标(英文：structural similarity index，SSIM index)是一种用以衡量两张数位影像相似程度的指标。当两张影像其中一张为无失真影像，另一张为失真后的影像，二者的结构相似性可以看成是失真影像的影像品质衡量指标。相较于传统所使用的影像品质衡量指标，结构相似性在影像品质的衡量上更能符合人眼对影像品质的判断。

[0080] 上述对称分屏可以通过以下方式确定：对待处理视频的各图像帧进行画面分割，得到两个分割图像，对任一分割图像进行左右翻转，并基于结构相似性算法获取左右翻转后的分割图像与另一个分割图像之间的结构相似性指标，并获取结构相似性指标满足预设阈值条件(例如：大于80％，可以根据实际情况自行设定或更改，本公开对此不作特殊限定)的帧数目，举例而言，输入图像总共有100帧，而结构相似性指标满足上述预设阈值条件的帧数目为86帧，则上述帧数目占待处理视频的总帧数的比值为86/100＝86％，大于预设比值85％(可以根据实际情况自行设定或更改，本公开对此不作特殊限定)，则可以确定上述待处理视频的分屏类型为对称分屏，进而，可以将移动终端处于水平状态时的左半屏或将移动终端处于竖直状态时的上半屏确定为有效视频区域，可以根据实际情况自行设定，本公开对此不作特殊限定。

[0081] 上述三分屏可以通过以下方式确定：将待处理视频的图像分割为三个分割图像，获取任意两个分割图像之间的结构相似性指标，即每帧图像对应得到3个结构相似性指标，若上述3个结构相似性指标中任一指标满足预设阈值条件，则确定该帧图像为目标帧图像，进而，当目标帧图像的数目占待处理视频的总帧数的比值大于预设比值时，可以确定待处理视频的分屏类型为三分屏，进而，可以将移动终端处于水平状态时的中间屏或将移动终端处于竖直状态时的中间屏确定为上述有效视频区域，可以根据实际情况自行设定，本公开对此不作特殊限定。

[0082] 通过从多个分屏中确定一有效视频区域并仅对有效视频区域进行人脸和人体识别，一方面，能够防止在分屏模式下，根据多个相同的画面制作直播封面导致封面内容残缺及异常的问题，另一方面，还能够减小后续进行人脸识别和人体识别的数据量，保证识别速度和识别效率。

[0083] 需要说明的是，在上述步骤S203之后(即在识别出人脸区域和人体区域之后)，还可以根据人脸区域和人体区域的位置，判断待处理视频是否有效，在判断出待处理视频无效的时候，可以对待处理视频进行丢弃处理(即不使用该待处理视频制作直播封面)。通过根据人脸区域和人体区域的识别结果，判定待处理视频的有效性，能够避免将非高光时刻的视频做成主播封面所导致的无效封面的情况，保证直播封面内容的丰富性和有效性。

[0084] 具体的，当检测出待处理视频中存在预设帧图像中未识别到人脸区域，例如：待处理视频的前X(例如：10，可以根据实际情况自行设定或更改)帧未识别到人脸区域，则可以确定待处理视频无效。当主播长期处于背对状态，或，主播不在直播画面内，或，主播在直播画面贴了一张静态图片(即直播界面被静态图片遮挡)等情况下，导致15帧图像中未识别到人脸区域，则可以判定待处理视频无效。当待处理视频中连续N帧的人脸区域处于同一位置，例如：连续10帧的人脸区域处于同一位置，则可以判定待处理视频无效。当待处理视频中连续M帧的人脸区域不在人体区域内，例如：连续3帧的人脸区域不在人体区域内，则可以判定待处理视频无效。当待处理视频中人脸区域不在人体区域内的帧数目大于第四预设阈值(例如：大于10帧)，或，人脸区域不在人体区域内的帧数目占总帧数的比例超过比例阈值，例如：超过10％，则可以判定待处理视频无效。

[0085] 需要说明的是，在上述步骤S203之后(即在识别出人脸区域和人体区域之后)，还可以获取每帧图像的人脸区域中心点以及人体区域中心点，并对人脸区域中心点和人体区域中心点进行平滑处理，以提高人脸区域中心点和人体区域中心点的准确度，从而提升后续截取框位置与人体区域的匹配度。具体的，参考图3，图3示出本公开实施例中对人脸区域中心点和人体区域中心点进行平滑处理的流程图，包含步骤S301‑步骤S304：

[0086] 在步骤S301中，获取第i帧图像的人脸区域中心点及人体区域中心点。

[0087] 本步骤中，可以获取第i帧图像(i为帧序号)的人脸区域中心点及人体区域中心点，示例性的，人脸区域中心点可以是人脸区域对应的最小外接矩形的中心点(即矩形两条对角线的交点)，人体区域中心点可以是人体区域对应的最小外接矩形的中心点。

[0088] 在步骤S302中，获取第i帧图像的关联图像，确定关联图像的人脸区域中心点及人体区域中心点。

[0089] 本步骤中，可以获取第i帧图像的前n帧图像以及第i帧图像的后n帧图像。示例性的，以n为2为例进行说明，则第1帧、第2帧图像无需进行平滑处理，第3帧图像的关联图像可以是其前2帧图像(第1帧和第2帧图像)及其后2帧图像(第4帧和第5帧图像)，第4帧图像的关联图像可以是其前2帧图像(第2帧和第3帧图像)及其后2帧图像(第5帧图像和第6帧图像)。

[0090] 进而，可以参照上述步骤S301的相关解释，确定出每个关联图像的人脸区域中心点和人体区域中心点。

[0091] 在步骤S303中，对第i帧图像的人脸区域中心点和关联图像的人脸区域中心点的坐标进行加权运算，得到平滑后的第i帧图像的人脸区域中心点的坐标。

[0092] 本步骤中，以i为3，n为2为例进行说明，则可以基于以下步骤确定平滑后第3帧图像的人脸区域中心点的坐标：将第1帧、第2帧、第3帧、第4帧、第5帧图像的人脸区域中心点的横坐标求和并取平均，得到平滑后第3帧的人脸区域中心点的横坐标，将第1帧、第2帧、第3帧、第4帧、第5帧图像的人脸区域中心点的纵坐标求和并取平均，得到平滑后第3帧的人脸区域中心点的纵坐标。类似的，可以计算出每帧图像的人脸区域中心点平滑后的坐标。

[0093] 在步骤S304中，对第i帧图像的人体区域中心点和关联图像的人体区域中心点的坐标进行加权运算，得到平滑后的第i帧图像的人体区域中心点的坐标。

[0094] 本步骤中，可以参照上述步骤S303的相关解释，确定平滑后的第i帧图像的人体区域中心点的坐标，此处不再赘述。

[0095] 接着参考图1，在步骤S130中，根据人脸区域和人体区域的位置确定图像的截取框位置，并根据从截取框位置截取到的图像生成直播封面。

[0096] 本步骤中，在确定出每帧图像的人脸区域和人体区域之后，可以确定每帧图像中的截取框位置，以根据截取框位置从每帧图像中截取图像，并生成直播封面。

[0097] 对于首帧图像而言，可以参照图4，图4示出本公开实施例中确定首帧图像的截取框位置的流程示意图，包含步骤S401‑步骤S403：

[0098] 在步骤S401中，针对待处理视频中的首帧图像，根据首帧图像的人脸区域中心点及人体区域中心点，确定截取框的中心点。

[0099] 本步骤中，可以将每帧图像平滑后的人脸区域中心点和人体区域中心点的横坐标求和并取均值，得到截取框的中心点的横坐标，将平滑后的人脸区域中心点和人体区域中心点的纵坐标求和并取均值，得到截取框的中心点的纵坐标。

[0100] 在步骤S402中，根据首帧图像的尺寸比例和直播封面的预设尺寸比例，确定截取框的尺寸。

[0101] 本步骤中，可以获取首帧图像的尺寸比例，进而，确定首帧图像的尺寸比例的前项与直播封面的预设尺寸比例的前项之间的第一比值，以及，获取首帧图像的尺寸比例的后项与直播封面的预设尺寸比例的后项之间的第二比值，举例而言，以首帧图像的长宽比为4:3，直播封面的预设尺寸比例为1:1为例进行说明，则首帧图像的尺寸比例的前项为4，直播封面的预设尺寸比例的前项为1，则第一比值为4:1，首帧图像的尺寸比例的后项为3，直播封面的预设尺寸比例的后项为1，则第二比值为3:1，从而，可以确定出第一比值大于第二比值，进而，可以将首帧图像的宽度确定为截取框的宽度。举例而言，假设确定出的首帧图像的长度为40，宽度为30，则可以确定出截取框的宽度为30，而直播封面的长宽比为1:1，则可以确定出截取框的长度也为30，从而可以将首帧图像的宽度固定，仅从长度方向上截取部分图像，避免对长度和宽度都进行截取所导致的抖动感，保证封面视频的稳定性。

[0102] 以首帧图像的长宽比为3:4，直播封面的预设尺寸比例为1:1为例进行说明，则首帧图像的尺寸比例的前项为3，直播封面的预设尺寸比例的前项为1，则第一比值为3:1，首帧图像的尺寸比例的后项为4，直播封面的预设尺寸比例的后项为1，则第二比值为4:1，从而，则第一比值小于第二比值，可以将首帧图像的长度确定为截取框的长度。举例而言，假设确定出的首帧图像的长度为30，宽度为40，则可以确定出截取框的长度为30，而直播封面的长宽比为1:1，则可以确定出截取框的宽度也为30，从而实现将首帧图像的长度固定，仅从宽度方向上截取部分图像，避免对长度和宽度都进行截取所导致的抖动感，保证封面视频的稳定性。

[0103] 在步骤S403中，基于截取框的中心点及截取框的尺寸，确定首帧图像的截取框位置。

[0104] 本步骤中，在确定出截取框的中心点坐标以及截取框的尺寸之后，可以确定出首帧图像的截取框位置。

[0105] 对于除首帧图像之外的其他帧图像而言，根据其人脸区域和人体区域的变动情况，可以通过以下几种方式来确定其截取框位置：

[0106] 当第i帧图像的人体区域部分位于第i‑1帧图像的截取框内，则可以基于图5所示的步骤确定第i帧图像的截取框位置。参考图5，图5示出本公开实施例中一种确定第i帧图像的截取框位置的流程示意图，包含步骤S501‑步骤S504：

[0107] 在步骤S501中，获取第i帧图像中人脸区域中心点与第i‑1帧图像中人脸区域中心点之间的第一位移、第i帧图像中人体区域中心点与第i‑1帧图像中人体区域中心点之间的第二位移。

[0108] 本步骤中，可以将第i帧图像中人脸区域中心点的坐标与第i‑1帧图像中人脸区域中心点的坐标相减，得到第一位移。以及，将第i帧图像中人体区域中心点与第i‑1帧图像中人体区域中心点的坐标相减，得到第二位移。

[0109] 在步骤S502中，对第一位移与第二位移进行加权运算，得到第三位移。

[0110] 本步骤中，示例性的，可以为上述第一位移乘以权重0.2，为上述第二位移乘以权重0.8，以对上述第一位移和第二位移进行加权运算，得到第三位移。

[0111] 在步骤S503中，根据第三位移调整第i‑1帧图像的截取框，以得到第i帧图像的截取框位置。

[0112] 本步骤中，在得到上述第三位移之后，可以根据第三位移调整上述第i‑1帧图像的截取框，例如：将上述第i‑1帧图像的截取框的中心点移动上述第三位移，以得到第i帧图像的截取框位置。

[0113] 基于该实施方式，本公开能够保证截取框能够跟踪上人体的移动，但又不至于过度移动，防止截取框的变化幅度过大，从而避免直播封面镜头抖动，保证直播封面视频的稳定性。

[0114] 当第i帧图像的人体区域完全位于第i‑1帧图像的截取框内时，在另一种可选的实施方式中，可以参考图6，图6示出本公开实施例中另一种确定第i帧图像的截取框位置的流程示意图，包含步骤S601‑步骤S603：

[0115] 在步骤S601中，获取第i帧图像中人脸区域的边界线与第i‑1帧图像的截取框的边界线之间的第一距离。

[0116] 本步骤中，可以获取第i帧图像中人脸区域的边界线(例如：左边界线)与第i‑1帧图像的截取框的边界线(左边界线)之间的第一距离。

[0117] 在步骤S602中，响应于第一距离小于第一目标值，获取第i帧图像的人脸区域中心点相对于第i‑1帧图像的人脸区域中心点之间的第四位移。

[0118] 本步骤中，若上述第一距离小于第一目标值(例如：截取框边长的可以根据实际情况自行设定)，则可以获取第i帧图像的人脸区域中心点相对于第i‑1帧图像的人脸区域中心点之间的第四位移。

[0119] 在步骤S603中，根据第四位移调整第i‑1帧图像的截取框，得到第i帧图像的截取框位置。

[0120] 本步骤中，在获取到上述第四位移之后，可以根据上述第四位移调整第i‑1帧图像的截取框的中心点，以得到第i帧图像的截取框位置。

[0121] 基于该实施方式，本公开能够在人脸接近上一帧图像的截取框边缘(说明人体框也处于上一帧图像的截取框边缘)的情况下，根据人脸的移动距离来调整截取框的位置，避免根据人体的移动距离(人体移动数值范围一般较大，例如：手臂的挥动之类的)来调整截取框所导致的截取框移动范围过大，给直播封面带来抖动的问题。

[0122] 当第i帧图像的人体区域位于第i‑1帧图像的截取框内时，在又一种可选的实施方式中，可以参考图7，图7示出本公开实施例中又一种确定第i帧图像的截取框位置的流程示意图，包含步骤S701‑步骤S704：

[0123] 在步骤S701中，获取第i帧图像中人体区域的边界线与第i‑1帧图像的截取框的边界线之间的第二距离。

[0124] 本步骤中，可以获取第i帧图像中人体区域的边界线(例如：左边界线)与第i‑1帧图像的截取框的边界线(例如：左边界线)之间的第二距离。

[0125] 在步骤S702中，响应于第二距离小于第二目标值，获取第i帧图像的人脸区域中心点与第i‑1帧图像的人脸区域中心点之间的第一位移、第i帧图像的人体区域中心点与第i‑1帧图像的人体区域中心点之间的第二位移。

[0126] 本步骤中，可以将第二距离与第二目标值进行比较，若确定出第二距离小于第二目标值，则可以获取第i帧图像的人脸区域中心点与第i‑1帧图像的人脸区域中心点之间的第一位移、第i帧图像的人体区域中心点与第i‑1帧图像的人体区域中心点之间的第二位移。

[0127] 其中，第二目标值可以通过以下公式计算：

[0128]

[0129] 其中，表示第二预设倍数，a表示截取框的边长，b表示人体框的边长。

[0130] 在步骤S703中，对第一位移与第二位移进行加权运算，得到第五位移。

[0131] 本步骤中，可以将上述第一位移乘以权重0.8，将上述第二位移乘以权重0.2，以对上述第一位移和第二位移进行加权运算，得到第五位移。

[0132] 在步骤S704中，根据第五位移调整第i‑1帧图像的截取框，得到第i帧图像的截取框位置。

[0133] 本步骤中，在得到上述第五位移之后，可以根据第五位移调整第i‑1帧图像的截取框的中心点，以得到第i帧图像的截取框位置。

[0134] 基于该实施方式，本公开能够在人体区域接近上一个截取框边缘的情况下(说明人脸即将超出截取框)，优先考虑人脸的移动距离，以避免人脸超出截取框，同时，也能够避免根据人体移动距离调整截取框的位置所导致的画面的急剧抖动，保证直播封面的视频稳定性。

[0135] 在再一种可选的实施方式中，当第i帧图像的人体区域位于第i‑1帧图像的截取框之内，并且，第i帧图像的人脸区域位于第i‑1帧图像的截取框中的目标区域(例如：三等分之后的中间区域)，则可以认为第i帧图像的截取框能够很好的表达第i帧图像中主播的状态，因此，可以将第i‑1帧图像的截取框位置确定为第i帧图像的截取框位置。

[0136] 通过根据每帧图像中人脸区域和人体区域的位置，自适应调整每帧图像的截取框位置，能够保证得到一个可适配各种情况的平滑稳定的直播封面。

[0137] 本公开还提供了一种生成直播封面的装置，图8示出本公开示例性实施例中生成直播封面的装置的结构示意图；如图8所示，生成直播封面的装置800可以包括视频截取模块810、人脸及人体识别模块820和封面生成模块830。其中：

[0138] 视频截取模块810，用于响应于视频截取指令，从当前直播画面中截取待处理视频；

[0139] 人脸及人体识别模块820，用于响应于所述待处理视频的尺寸比例大于所述直播封面的预设尺寸比例，对所述待处理视频的图像帧分别进行人脸和人体识别，得到人脸区域和人体区域；

[0140] 封面生成模块830，根据所述人脸区域和人体区域的位置确定所述图像的截取框位置，并根据从所述截取框位置截取到的图像生成所述直播封面。

[0141] 在本公开的示例性实施例中，人脸及人体识别模块820，被配置为：

[0142] 在本公开的示例性实施例中，检测所述待处理视频是否为在分屏模式下录制的视频；若是，根据所述待处理视频对应的分屏类型从所述待处理视频中确定有效视频区域；对所述有效视频区域的图像分别进行人脸和人体识别，得到所述人脸区域和人体区域。

[0143] 在本公开的示例性实施例中，所述分屏类型包括双分屏；人脸及人体识别模块820，被配置为：

[0144] 对所述待处理视频的各图像帧进行画面分割，得到两个分割图像；各所述分割图像中包含一个独立图像画面；获取所述分割图像之间的结构相似性指标；获取所述结构相似性指标满足预设阈值条件的帧数目；响应于所述帧数目占所述待处理视频的总帧数的比值大于预设比值，确定所述待处理视频的分屏类型为双分屏。

[0145] 在本公开的示例性实施例中，所述分屏类型包括对称分屏；人脸及人体识别模块820，被配置为：

[0146] 对所述待处理视频的各图像帧进行画面分割，得到两个分割图像；各所述分割图像中包含一个独立的图像画面；对任一所述分割图像进行左右翻转，并获取所述左右翻转后的分割图像与另一分割图像之间的结构相似性指标；获取所述结构相似性指标满足预设阈值条件的帧数目；响应于所述帧数目占所述待处理视频的总帧数的比值大于预设比值，确定所述待处理视频的分屏类型为对称分屏。

[0147] 在本公开的示例性实施例中，所述分屏类型包括三分屏；人脸及人体识别模块820，被配置为：

[0148] 对所述待处理视频的各图像帧进行画面分割，得到三个分割图像；各所述分割图像中包含一个独立的图像画面；获取任意两个所述分割图像之间的结构相似性指标；若任一所述结构相似性指标满足预设阈值条件，则将该帧图像确定为目标帧图像；响应于所述目标帧图像的数目占所述待处理视频的总帧数的比值大于预设比值，确定所述待处理视频的分屏类型为三分屏。

[0149] 在本公开的示例性实施例中，人脸及人体识别模块820，被配置为：

[0150] 对所述待处理视频的图像帧分别进行人脸和人体识别，得到人脸特征点和人体特征点；将所述人脸特征点的最小外接矩形确定为所述人脸区域；以及，将所述人体特征点的最小外接矩形确定为所述人体区域。

[0151] 在本公开的示例性实施例中，人脸及人体识别模块820，被配置为：

[0152] 获取第i帧图像的人脸区域中心点及人体区域中心点；获取所述第i帧图像的关联图像，确定所述关联图像的人脸区域中心点及人体区域中心点；所述关联图像为所述第i帧图像的前n帧图像和所述第i帧图像的后n帧图像；对所述第i帧图像的人脸区域中心点和所述关联图像的人脸区域中心点的坐标进行加权运算，得到平滑后的所述第i帧图像的人脸区域中心点的坐标；对所述第i帧图像的人体区域中心点和所述关联图像的人体区域中心点的坐标进行加权运算，得到平滑后的所述第i帧图像的人体区域中心点的坐标；其中，n为大于或等于1的整数，i大于n。

[0153] 在本公开的示例性实施例中，人脸及人体识别模块820，被配置为：

[0154] 根据所述人脸区域和人体区域的位置，判断所述待处理视频是否有效；当判断出所述待处理视频无效时，对所述待处理视频进行丢弃处理。

[0155] 在本公开的示例性实施例中，根据以下条件确定所述待处理视频无效：所述待处理视频的前X帧图像中未识别到人脸区域；和/或，所述待处理视频中存在预设帧图像中未识别到人脸区域；和/或，所述待处理视频中连续N帧的人脸区域处于同一位置；和/或，所述待处理视频中连续M帧的人脸区域不在人体区域内；和/或，所述待处理视频中人脸区域不在人体区域内的帧数目大于第四预设阈值；其中，X、N、M为大于1的整数。

[0156] 在本公开的示例性实施例中，封面生成模块830，被配置为：

[0157] 针对所述待处理视频中的首帧图像，根据所述首帧图像的人脸区域中心点及人体区域中心点，确定截取框的中心点；根据所述首帧图像的尺寸比例和所述直播封面的预设尺寸比例，确定所述截取框的尺寸；基于所述截取框的中心点及所述截取框的尺寸，确定所述首帧图像的截取框位置。

[0158] 在本公开的示例性实施例中，封面生成模块830，被配置为：

[0159] 根据所述人脸区域中心点和所述人体区域中心点的横坐标，确定所述截取框的中心点的横坐标；根据所述人脸区域中心点和所述人体区域中心点的纵坐标，确定所述截取框的中心点的纵坐标。

[0160] 在本公开的示例性实施例中，封面生成模块830，被配置为：

[0161] 获取所述首帧图像的尺寸比例的前项与所述直播封面的预设尺寸比例的前项之间的第一比值；以及，获取所述首帧图像的尺寸比例的后项与所述直播封面的预设尺寸比例的后项之间的第二比值；响应于所述第一比值大于所述第二比值，将所述首帧图像的宽度确定为所述截取框的宽度；根据所述截取框的宽度和所述直播封面的长宽比，确定所述截取框的长度。

[0162] 在本公开的示例性实施例中，封面生成模块830，被配置为：

[0163] 响应于所述第一比值小于所述第二比值，将所述首帧图像的长度确定为所述截取框的长度；根据所述截取框的长度和所述直播封面的长宽比，确定所述截取框的宽度。

[0164] 在本公开的示例性实施例中，封面生成模块830，被配置为：

[0165] 响应于第i帧图像的人体区域部分位于第i‑1帧图像的截取框内，获取第i帧图像中人脸区域中心点与第i‑1帧图像中人脸区域中心点之间的第一位移、所述第i帧图像中人体区域中心点与所述第i‑1帧图像中人体区域中心点之间的第二位移；对所述第一位移与所述第二位移进行加权运算，得到第三位移；根据所述第三位移调整所述第i‑1帧图像的截取框，以得到所述第i帧图像的截取框位置。

[0166] 在本公开的示例性实施例中，封面生成模块830，被配置为：

[0167] 响应于第i帧图像的人体区域位于第i‑1帧图像的截取框内，获取第i帧图像中人脸区域的边界线与所述第i‑1帧图像的截取框的边界线之间的第一距离；响应于所述第一距离小于第一目标值，获取所述第i帧图像的人脸区域中心点相对于所述第i‑1帧图像的人脸区域中心点之间的第四位移；所述第一目标值为所述截取框的边长的关联值；根据所述第四位移调整所述第i‑1帧图像的截取框，得到所述第i帧图像的截取框位置。

[0168] 在本公开的示例性实施例中，封面生成模块830，被配置为：

[0169] 响应于第i帧图像的人体区域位于第i‑1帧图像的截取框内，获取所述第i帧图像中人体区域的边界线与第i‑1帧图像的截取框的边界线之间的第二距离；响应于所述第二距离小于第二目标值，获取所述第i帧图像的人脸区域中心点与第i‑1帧图像的人脸区域中心点之间的第一位移、所述第i帧图像的人体区域中心点与第i‑1帧图像的人体区域中心点之间的第二位移；所述第二目标值为根据第二预设倍数、所述截取框的边长、所述人体区域的边长确定的；对所述第一位移与所述第二位移进行加权运算，得到第五位移；根据所述第五位移调整所述第i‑1帧图像的截取框，得到所述第i帧图像的截取框位置。

[0170] 在本公开的示例性实施例中，封面生成模块830，被配置为：

[0171] 响应于第i帧图像的人体区域位于第i‑1帧图像的截取框之内，且，第i帧图像的人脸区域位于所述第i‑1帧图像的截取框中的目标区域，将所述第i‑1帧图像的截取框位置确定为所述第i帧图像的截取框位置。

[0172] 上述生成直播封面的装置中各模块的具体细节已经在对应的生成直播封面的方法中进行了详细的描述，因此此处不再赘述。

[0173] 应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

[0174] 此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

[0175] 通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD‑ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

[0176] 本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

[0177] 计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

[0178] 计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

[0179] 计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的方法。

[0180] 此外，在本公开实施例中还提供了一种能够实现上述方法的电子设备。

[0181] 所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

[0182] 下面参照图9来描述根据本公开的这种实施方式的电子设备900。图9显示的电子设备900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

[0183] 如图9所示，电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于：上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930以及显示单元940。

[0184] 其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元910执行，使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元910可以执行如图1中所示的：步骤S110，响应于视频截取指令，从当前直播画面中截取待处理视频；步骤S120，响应于待处理视频的尺寸比例大于直播封面的预设尺寸比例，对待处理视频的图像帧分别进行人脸和人体识别，得到人脸区域和人体区域；步骤S130，根据人脸区域和人体区域的位置确定图像的截取框位置，并根据从截取框位置截取到的图像生成直播封面。

[0185] 存储单元920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)9201和/或高速缓存存储单元9202，还可以进一步包括只读存储单元(ROM)9203。

[0186] 存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204，这样的程序模块9205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

[0187] 总线930可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

[0188] 电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且，电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器960通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

[0189] 本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

生成直播封面的方法及装置、计算机存储介质、电子设备转让专利

申请号 : CN202111337909.2

文献号 : CN114071244B

文献日 : 2022-11-04

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 利国富

申请人 : 广州博冠信息科技有限公司

摘要 :

权利要求 :

说明书 :