内容信息植入方法、装置、服务器和存储介质转让专利

申请号 : CN202110761123.7

文献号 : CN113490009B

文献日 : 2023-04-21

本发明涉及图像处理技术领域，提供了一种内容信息植入方法、装置、服务器和存储介质。通过在直播画面为预设类型画面时，对当前直播画面进行检测；然后在检测到当前直播画面包括特定内容时，确定出特定内容对应的目标类型，和当前直播画面中预设元素构成的第一目标区域；再将目标类型对应的目标特效植入到第一目标区域，得到第一特效画面。从而依据预设元素，将特效灵活地植入到直播画面的不同区域，使特效与直播画面融为一体，提升了用户的观看体验，提升直播的趣味性。

1.一种内容信息植入方法，其特征在于，所述方法包括：

在直播画面为预设类型画面时，对当前直播画面进行检测；

在检测到所述当前直播画面包括特定内容时，确定出所述特定内容对应的目标类型和对所述当前直播画面中的元素进行识别，确定出第一兴趣区域；所述第一兴趣区域表示所述当前直播画面中包括预设元素的区域；

根据所述第一兴趣区域和预设关键点检测模型，得到第一设定数目个关键点；

根据每个关键点在所述当前直播画面中的第一坐标点，确定出所述当前直播画面中的第一目标区域；所述第一目标区域表示所述当前直播画面中预设元素构成的区域；

将所述目标类型对应的目标特效植入到所述第一目标区域，得到第一特效画面；

根据所述目标特效的特效时长，确定出第二设定数目个连续的待植入直播画面；

根据所述第一目标区域，依次确定出每个所述待植入直播画面中的第二目标区域；所述第二目标区域表示所述待植入直播画面中所述预设元素构成的区域；

将所述目标特效植入到每个所述第二目标区域，得到多个第二特效画面；

所述根据所述第一目标区域，依次确定出每个所述待植入直播画面中的第二目标区域的步骤，包括：对目标植入直播画面中的元素进行识别，确定出第二兴趣区域；所述第二兴趣区域表示所述目标植入直播画面中包括所述预设元素的区域；

根据前一兴趣区域、所述第二兴趣区域和预设特征点检测模型，得到变换矩阵；所述前一兴趣区域表示所述目标植入直播画面的前一帧直播画面中包括所述预设元素的区域；

根据所述变换矩阵和每个前一坐标点，得到所述目标植入直播画面中每个关键点的第二坐标点；所述前一坐标点表示所述目标植入直播画面的前一帧直播画面中关键点的坐标点；

根据全部第二坐标点，确定出一个所述第二目标区域；

根据第一目标区域，将每个所述待植入直播画面依次作为所述目标植入直播画面，重复执行所述对目标植入直播画面中的元素进行识别，确定出第二兴趣区域的步骤，确定出每个所述待植入直播画面中的第二目标区域。

2.根据权利要求1所述的方法，其特征在于，所述对当前直播画面进行检测的步骤，包括：根据预设检测模型、所述当前直播画面和多个连续的待定直播画面，得到所述当前直播画面包括所述特定内容的概率值；所述多个连续的待定直播画面中的最后一帧直播画面与所述当前直播画面在时间上连续；

根据所述概率值，对所述当前直播画面进行检测。

3.根据权利要求1或2所述的方法，其特征在于，所述确定出所述特定内容对应的目标类型的步骤，包括：获取所述当前直播画面中预设位置区域的提示信息；

根据所述提示信息，确定出所述目标类型。

4.根据权利要求1所述的方法，其特征在于，所述将所述目标类型对应的目标特效植入到所述第一目标区域，得到第一特效画面的步骤，包括：根据全部第一坐标点，对所述目标特效中的初始图像进行透视变换，得到第一目标特效图像；

将所述第一目标特效图像植入到所述第一目标区域，得到第一特效画面。

5.根据权利要求1所述的方法，其特征在于，在所述根据全部第二坐标点，确定出一个所述第二目标区域的步骤，包括：根据全部前一坐标点、全部第二坐标点和预设公式，对每个所述第二坐标点进行平滑处理，得到每个所述第二坐标点对应的第三坐标点；

所述预设公式为：

diff＝|kpcur‑kppre|；

kpnew＝(1‑m)×kpcur+m×kppre；

其中，kpcur表示前一坐标点；kppre表示第二坐标点；

kpnew表示第三坐标点；a为常数；e表示自然常数e；

根据全部第三坐标点，确定出一个所述第二目标区域。

6.一种内容信息植入信息装置，其特征在于，所述装置包括：

检测模块，用于在直播画面为预设类型画面时，对当前直播画面进行检测；

确定模块，用于在检测到所述当前直播画面包括特定内容时，确定出所述特定内容对应的目标类型和对所述当前直播画面中的元素进行识别，确定出第一兴趣区域；所述第一兴趣区域表示所述当前直播画面中包括预设元素的区域；根据所述第一兴趣区域和预设关键点检测模型，得到第一设定数目个关键点；根据每个关键点在所述当前直播画面中的第一坐标点，确定出所述当前直播画面中的第一目标区域；所述第一目标区域表示所述当前直播画面中预设元素构成的区域；

植入模块，用于将所述目标类型对应的目标特效植入到所述第一目标区域，得到第一特效画面；

加速模块，用于根据所述目标特效的特效时长，确定出第二设定数目个连续的待植入直播画面；根据所述第一目标区域，依次确定出每个所述待植入直播画面中的第二目标区域；所述第二目标区域表示所述待植入直播画面中所述预设元素构成的区域；将所述目标特效植入到每个所述第二目标区域，得到多个第二特效画面；

所述加速模块还用于：对目标植入直播画面中的元素进行识别，确定出第二兴趣区域；

所述第二兴趣区域表示所述目标植入直播画面中包括所述预设元素的区域；根据前一兴趣区域、所述第二兴趣区域和预设特征点检测模型，得到变换矩阵；所述前一兴趣区域表示所述目标植入直播画面的前一帧直播画面中包括所述预设元素的区域；根据所述变换矩阵和每个前一坐标点，得到所述目标植入直播画面中每个关键点的第二坐标点；所述前一坐标点表示所述目标植入直播画面的前一帧直播画面中关键点的坐标点；根据全部第二坐标点，确定出一个所述第二目标区域；根据第一目标区域，将每个所述待植入直播画面依次作为所述目标植入直播画面，重复执行所述对目标植入直播画面中的元素进行识别，确定出第二兴趣区域，确定出每个所述待植入直播画面中的第二目标区域。

7.一种服务器，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至5中任一项所述的方法。

8.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1至5中任一项所述的方法。

内容信息植入方法、装置、服务器和存储介质

技术领域

[0001] 本发明涉及图像处理技术领域，具体而言，涉及一种内容信息植入方法、装置、服务器和存储介质。

背景技术

[0002] 随着观看直播逐渐成为大众主流的娱乐方式，为了增强直播的观赏性和趣味性，会在直播画面中显示特效内容。

[0003] 目前通常是采用的是贴片式的特效显示方式，而这种方式会使得特效内容比较突兀，不能与直播画面融合在一起，从而影响了用户观看直播的体验。

发明内容

[0004] 有鉴于此，本发明的目的在于提供一种内容信息植入方法、装置、服务器和存储介质。

[0005] 为了实现上述目的，本发明实施例采用的技术方案如下：

[0006] 第一方面，本发明提供一种内容信息植入方法，所述方法包括：

[0007] 在直播画面为预设类型画面时，对当前直播画面进行检测；

[0008] 在检测到所述当前直播画面包括特定内容时，确定出所述特定内容对应的目标类型和所述当前直播画面中的第一目标区域；所述第一目标区域表示所述当前直播画面中预设元素构成的区域；

[0009] 将所述目标类型对应的目标特效植入到所述第一目标区域，得到第一特效画面。

[0010] 在可选的实施方式中，所述对当前直播画面进行检测的步骤，包括：

[0011] 根据预设检测模型、所述当前直播画面和多个连续的待定直播画面，得到所述当前直播画面包括所述特定内容的概率值；所述多个连续的待定直播画面中的最后一帧直播画面与所述当前直播画面在时间上连续；

[0012] 根据所述概率值，对所述当前直播画面进行检测。

[0013] 在可选的实施方式中，所述确定出所述当前直播画面中的第一目标区域的步骤，包括：

[0014] 对所述当前直播画面中的元素进行识别，确定出第一兴趣区域；所述第一兴趣区域表示所述当前直播画面中包括所述预设元素的区域；

[0015] 根据所述第一兴趣区域和预设关键点检测模型，得到第一设定数目个关键点；

[0016] 根据每个关键点在所述当前直播画面中的第一坐标点，确定出所述第一目标区域。

[0017] 在可选的实施方式中，所述确定出所述特定内容对应的目标类型的步骤，包括：

[0018] 获取所述当前直播画面中预设位置区域的提示信息；

[0019] 根据所述提示信息，确定出所述目标类型。

[0020] 在可选的实施方式中，所述将所述目标类型对应的目标特效植入到所述第一目标区域，得到第一特效画面的步骤，包括：

[0021] 根据全部第一坐标点，对所述目标特效中的初始图像进行透视变换，得到第一目标特效图像；

[0022] 将所述第一目标特效图像植入到所述第一目标区域，得到第一特效画面。

[0023] 在可选的实施方式中，所述方法还包括：

[0024] 根据所述目标特效的特效时长，确定出第二设定数目个连续的待植入直播画面；

[0025] 根据所述第一目标区域，依次确定出每个所述待植入直播画面中的第二目标区域；所述第二目标区域表示所述待植入直播画面中所述预设元素构成的区域；

[0026] 将所述目标特效植入到每个所述第二目标区域，得到多个第二特效画面。

[0027] 在可选的实施方式中，所述根据所述第一目标区域，依次确定出每个所述待植入直播画面中的第二目标区域的步骤，包括：

[0028] 对目标植入直播画面中的元素进行识别，确定出第二兴趣区域；所述第二兴趣区域表示所述目标植入直播画面中包括所述预设元素的区域；

[0029] 根据前一兴趣区域、所述第二兴趣区域和预设特征点检测模型，得到变换矩阵；所述前一兴趣区域表示所述目标植入直播画面的前一帧直播画面中包括所述预设元素的区域；

[0030] 根据所述变换矩阵和每个前一坐标点，得到所述目标植入直播画面中每个关键点的第二坐标点；所述前一坐标点表示所述目标植入直播画面的前一帧直播画面中关键点的坐标点；

[0031] 根据全部第二坐标点，确定出一个所述第二目标区域；

[0032] 根据第一目标区域，将每个所述待植入直播画面依次作为所述目标植入直播画面，重复执行所述对目标植入直播画面中的元素进行识别，确定出第二兴趣区域的步骤，确定出每个所述待植入直播画面中的第二目标区域。

[0033] 在可选的实施方式中，在所述根据全部第二坐标点，确定出一个所述第二目标区域的步骤，包括：

[0034] 根据全部前一坐标点、全部第二坐标点和预设公式，对每个所述第二坐标点进行平滑处理，得到每个所述第二坐标点对应的第三坐标点；

[0035] 所述预设公式为：

[0036] diff＝|kpcur‑kppre|；

[0037]

[0038] kpnew＝(1‑m)×kpcur+m×kppre；

[0039] 其中，kpcur表示前一坐标点；kppre表示第二坐标点；kpnew表示第三坐标点；a为常数；e表示自然常数e；

[0040] 根据全部第三坐标点，确定出一个所述第二目标区域。

[0041] 第二方面，本发明提供一种内容信息植入装置，所述装置包括：

[0042] 检测模块，用于在直播画面为预设类型画面时，对当前直播画面进行检测；

[0043] 确定模块，用于在检测到所述当前直播画面包括特定内容时，确定出所述特定内容对应的目标类型和所述当前直播画面中的第一目标区域；所述第一目标区域表示所述当前直播画面中预设元素构成的区域；

[0044] 植入模块，用于将所述目标类型对应的目标特效植入到所述第一目标区域，得到第一特效画面。

[0045] 第三方面，本发明提供一种服务器，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现前述实施方式中任一项所述的方法。

[0046] 第四方面，本发明提供一种存储介质，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现前述实施方式中任一项所述的方法。

[0047] 本发明实施例提供的内容信息植入方法、装置、服务器和存储介质。在直播画面为预设类型画面时，对当前直播画面进行检测；然后在检测到当前直播画面包括特定内容时，确定出特定内容对应的目标类型，和当前直播画面中预设元素构成的第一目标区域；再将目标类型对应的目标特效植入到第一目标区域，得到第一特效画面。从而可以实现结合直播过程中的精彩事件植入特效，并且可以依据预设元素，将特效灵活地植入到直播画面的不同区域，从而使特效与直播画面融为一体，提升了用户的观看体验，提升直播的趣味性。

[0048] 为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

[0049] 为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

[0050] 图1示出了本发明实施例提供的一种场景示意图；

[0051] 图2示出了本发明实施例提供的服务器方框示意图；

[0052] 图3示出了本发明实施例提供的内容信息植入方法的一种流程示意图；

[0053] 图4示出了本发明实施例提供的内容信息植入方法的又一种流程示意图；

[0054] 图5示出了本发明实施例提供的内容信息植入方法的又一种流程示意图；

[0055] 图6示出了本发明实施例提供的内容信息植入方法的又一种流程示意图；

[0056] 图7示出了本发明实施例提供的内容信息植入方法的一个示例图；

[0057] 图8示出了本发明实施例提供的内容信息植入方法的又一个示例图；

[0058] 图9示出了本发明实施例提供的内容信息植入方法的又一种流程示意图；

[0059] 图10示出了本发明实施例提供的内容信息植入方法的又一种流程示意图；

[0060] 图11示出了本发明实施例提供的内容信息植入方法的又一种流程示意图；

[0061] 图12示出了本发明实施例提供的内容信息植入方法的又一种流程示意图；

[0062] 图13示出了本发明实施例提供的内容信息植入装置的一种功能模块图。

[0063] 图标：110‑总线；120‑处理器；130‑存储器；170‑通信接口；300‑内容信息植入装置；310‑检测模块；330‑确定模块；350‑植入模块；370‑加速模块。

具体实施方式

[0064] 下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

[0065] 因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0066] 需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

[0067] 在直播过程中会出现一些精彩的瞬间，为了提升用户的观看体验，会结合这些精彩瞬间，在直播画面中显示特效内容，而现有技术中通过是将特效内容悬浮在直播画面，如显示在直播画面中的固定位置，采用贴片式的特效显示方式，可能不能与直播画面融合在一起，使得观看直播的体验不佳，进而本发明提供了一种内容信息植入方法，可以自动捕捉到直播画面中的元素，将特效内容植入到该元素所在的区域，使得特效内容与直播画面融为一体，不仅可以凸显精彩的直播瞬间，还可以提升用户的观看体验。

[0068] 请参阅图1，是本发明实施例提供的一种场景示意图。其中，包括主播端、观众端和服务器。服务器分别与主播端和观众端通信连接，可以实现数据交互。

[0069] 主播端表示主播用户侧的移动终端，观众端表示观众用户侧的移动终端。移动终端可以是智能手机、个人计算机、平板电脑等。

[0070] 服务器用于为主播端和观众端提供服务。在本发明实施例中，服务器接收主播端发送的直播视频流，该直播视频流中包括直播画面，并对该直播画面执行本发明实施例提供的内容信息植入方法，生成特效画面，将包括该特效画面的特效视频流发送给观众端。

[0071] 下面请参照图2，是本发明实施例提供的一种服务器的方框示意图。服务器包括总线110、处理器120、存储器130、通信接口170。

[0072] 总线110可以是将上述元件相互连接并在上述元件之间传递通信(例如控制消息)的电路。

[0073] 处理器120可以通过总线110从上述其它元件(例如存储器130、通信接口170等)接收命令，可以解释接收到的命令，并可以根据所解释的命令来执行计算或数据处理。

[0074] 处理器120可能是一种集成电路芯片，具有信号处理能力。该处理器120可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

[0075] 存储器130可以存储从处理器120或其它元件(例如通信接口170等)接收的命令或数据或者由处理器120或其它元件产生的命令或数据。

[0076] 存储器130可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read‑Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read‑Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read‑Only Memory，EEPROM)等。

[0077] 通信接口170可用于与其他节点设备进行信令或数据的通信。

[0078] 可以理解的是，图2所示的结构仅为服务器的结构示意图，服务器还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

[0079] 下面将以上述的服务器作为执行主体，执行本发明实施例提供的各个方法中的各个步骤，并实现对应技术效果。

[0080] 请参阅图3，图3是本发明实施例提供的一种内容信息植入方法的流程示意图。

[0081] 步骤S202，在直播画面为预设类型画面时，对当前直播画面进行检测；

[0082] 可以理解的是，针对不同直播主题，可以将直播画面分为多种类型。预设类型画面可以是游戏直播画面，即直播的是游戏主题，预设类型画面也可以根据实际需求设置，本发明实施例不做限定。

[0083] 可选地，可以通过CNN模型对主播端发送的直播画面进行识别，当识别到直播画面是游戏直播画面时，对当前直播画面进行检测。该CNN模型可以是采用网络结构backbone为MobileNetV2，类别数为2的模型。

[0084] 步骤S204，在检测到当前直播画面包括特定内容时，确定出特定内容对应的目标类型和当前直播画面中的第一目标区域；

[0085] 可以理解的是，随着游戏的进行，直播画面中可能会出现一些精彩时间，在精彩瞬间会出特定内容，如对抗游戏中，一个游戏角色击杀另一个游戏角色、或者完成游戏事项如游戏角色推塔成功等。不同特定内容有不同的内容类型。

[0086] 第一目标区域表示当前游戏画面中预设元素构成的区域，可选地，该预设元素可以是预先设定的游戏元素，如游戏中的房屋或者旗子等。预设元素可以根据实际需求设定，本发明实施例不做限定。第一目标区域可以理解为特效所要植入的区域。

[0087] 可选地，对当前直播画面是否包括特定内容进行检测，当检测到当前直播画面包括特定内容时，确定出该特定内容对应的目标类型，并且确定出第一目标区域。可以理解的是，确定目标类型和确定第一目标区域的步骤可以是同时执行的，不对其先后顺序进行限定，可以根据实际需求设计。

[0088] 步骤S206，将目标类型对应的目标特效植入到第一目标区域，得到第一特效画面；

[0089] 可以理解的是，服务器中预先存储有特效素材库，该特效素材库包括多个特效素材，该特效素材可以是视频，也就是动态图片或者静态图片。这些特效素材与内容类型对应。

[0090] 可选地，根据目标类型，获取到该目标类型对应的特效素材即目标特效，将目标特效中的第一个特效图像与当前直播画面进行融合，将第一个特图像帧植入到当前直播画面的第一目标区域，可以得到第一特效画面即包括目标特效的直播画面。

[0091] 可选地，可以将检测到包括特定内容的直播画面作为起始直播画面，即插入特效的第一帧直播画面，根据目标特效的特效时长，确定出要植入特效的直播画面的数量，重复上述步骤S202至S206，依次将该目标特效中的每个特效图像插入到对应的直播画面中，得到多个第一特效画面。当得到第一特效画面时，将第一特效画面发送给观众端，使观众端显示的直播画面包括目标特效，以提高观看直播的用户体验。

[0092] 可见基于上述设计，通过在直播画面为预设类型画面时，对当前直播画面进行检测；然后在检测到当前直播画面包括特定内容时，确定出特定内容对应的目标类型，和当前直播画面中预设元素构成的第一目标区域；再将目标类型对应的目标特效植入到第一目标区域，得到第一特效画面。从而可以实现结合直播过程中的精彩事件植入特效，并且可以依据预设元素，将特效灵活地植入到直播画面的不同区域，从而使特效与直播画面融为一体，提高了用户的观看体验，提升了直播的趣味性。

[0093] 针对上述步骤S202，本发明实施例提供了一种可能的实现方式。请参阅图4，可以理解的是，为了便于描述，将步骤S204中的确定出特定内容对应的目标类型标记为步骤S204A，将确定出当前直播画面中的第一目标区域记为步骤S204B。其中，步骤S202可以包括以下步骤：

[0094] 步骤S202‑1，根据预设检测模型、当前直播画面和多个连续的待定直播画面，得到当前直播画面包括特定内容的概率值；

[0095] 其中，多个连续的待定直播画面在当前直播画面之前，并且其最后一帧直播画面与当前直播画面在时间上连续。

[0096] 预设检测模型可以是采用视觉信息(CV，Computer Vision)，以网络结构backbone为MobilenetV2建立的TSM模型(Temporal Shift Module)，TSM模型可以通过时间位移模拟3D建模达到效果和性能的平衡，提高视频理解能力，可以识别出时序图像中的动作。

[0097] 可选地，可以获取当前直播画面的之前的，预设值个连续的直播画面，如当前直播画面之前的前7帧直播画面；将这8个连续直播画面输入到预设检测模型中，得到当前直播画面包括特定内容的概率值。

[0098] 步骤S202‑3，根据概率值，对当前直播画面进行检测；

[0099] 可以理解的是，在游戏进行中，特定内容的出现即表示精彩瞬间的开始，可以根据预设检测模型，得到当前直播画面出现特定内容的概率值，根据该概率值可以用于确定是否以当前直播画面作为插入特效的起始直播画面。

[0100] 可选地，根据概率值，对当前直播画面进行检测，即检测当前直播画面是否包括特定内容。当概率值等于或者大于预设的概率阈值时，表示当前直播画面包括特定内容，将当前直播画面作为插入特效的起始直播画面；当概率值小于预设的概率阈值时，表示当前直播画面不包括特定内容。

[0101] 在检测到当前直播画面中包括特定内容之后，还需要确定出该特定内容对应的内容类型，以便于后续步骤中确定出特定内容对应的特效素材。进而，本发明实施例提供的一种可能的实现方式。请参阅图5。其中，步骤S204A可以包括以下步骤：

[0102] 步骤S204A‑1，获取当前直播画面中预设位置区域的提示信息；

[0103] 步骤S204A‑3，根据提示信息，确定出目标类型；

[0104] 可以理解的是，游戏进行中，当出现精彩瞬间时，该直播画面中即游戏画面中在固定区域会出现游戏的提示信息，可以将该固定区域作为预设位置区域。

[0105] 例如，当出现精彩瞬间时，当前直播画面中包括的特定内容为一个游戏角色击杀另一个游戏角色，会在预设位置区域显示提示信息，即“XX玩家击杀XX玩家”。

[0106] 可以获取包括该提示信息的预设位置区域即区域图像，使用OCR技术(Optical Character Recognition，光学字符识别)对该区域图像进行处理。可以将该区域图像从RGB转换为HSV颜色空间(Hue色调，Saturation饱和度，Value明度)，基于预设的颜色值范围，对该区域图像进行分割，并且利用形态学操作进行去噪，得到仅有提示信息的掩码图，根据该掩码图与多个内容类型进行匹配，得到多个匹配值，将匹配值大于预设的匹配阈值的内容类型，作为目标类型。

[0107] 可见基于上述设计，共同采用CV技术和OCR技术，基于这种多模态信息对当前直播画面进行检测，可以避免直播画面中的其他干扰，降低检测的错误率，从而提高了检测的准确度，可以精确的得到特定内容的类型。

[0108] 针对上述步骤S204B，本发明实施例提供了一种可能的实现方式。请参阅图6，是本发明实施例提供的内容信息植入方法的一种流程示意图。其中，步骤S204B可以包括以下步骤：

[0109] 步骤S204B‑1，对当前直播画面中的元素进行识别，确定出第一兴趣区域；

[0110] 可以理解的是，直播画面中即游戏画面中有多种游戏元素，例如游戏道具、游戏角色等。其中，第一兴趣区域表示当前直播画面中包括预设元素的区域。

[0111] 可选地，可以基于网络结构MobileNetV2的模型，对当前直播画面中的元素进行识别，得到包括预设元素的第一兴趣区域，即ROI区域(Region of interest)。

[0112] 如图7所示，其是以预设元素是房屋的屋顶平面为例的示例图，其中第一兴趣区域包括预设元素。

[0113] 步骤S204B‑3，根据第一兴趣区域和预设关键点检测模型，得到第一设定数目个关键点；

[0114] 其中，预设关键点检测模型可以是利用多分辨率子网多级并联的HRNet模型。

[0115] 可选地，可以将第一兴趣区域作为该预设关键点检测模型的输入，对关键点进行识别，得到第一设定数目个关键点。可以将关键点理解为用于表征预设元素特征信息如轮廓信息的点。

[0116] 在本发明实施例中，预设元素可以是一个具有规则平面的游戏元素，可以通过4个关键点来表示预设元素，进而第一设定数目可以是4。需要说明的是，预设元素和第一设定数目可以根据实际应用设计，本发明实施例不做限定。

[0117] 可选地，可以设置该预设关键点检测模型识别关键点的顺序，该顺序用于表示关键点在该预设元素中的位置和视角，该预设顺序可以是左上、右上、右下、左下。

[0118] 可以根据第一兴趣区域和预设关键点检测模型，可以得到4个热图，基于每个热图中的最大位置，可以分别得到4个关键点。

[0119] 如图7所示，第一兴趣区域包括预设元素即屋顶平面，根据预设关键点检测模型和预设顺序，分别得到4个关键点，即左上位置的关键点1，右上位置的关键点2，右下位置的关键的3，左下位置的关键点4。

[0120] 步骤S204B‑5，根据每个关键点在当前直播画面中的第一坐标点，确定出第一目标区域；

[0121] 可选地，根据每个关键点作为当前直播画面中的第一坐标点，确定出第一目标区域。以图7中的关键点为例，关键1的第一坐标点为(a1，a2)，关键2的第一坐标点为(b1，b2)，关键3的第一坐标点为(c1，c2)，关键4的第一坐标点为(d1，d2)，将第一坐标点围成的区域作为第一目标区域。

[0122] 可以选，也可以基于全部第一坐标点和预设元素的轮廓，所围成的区域作为第一目标区域，如图8所示，是以预设元素是旗子为例的示例图，该第一目标区域是基于全部的关键点的第一坐标点和旗子的轮廓确定的。

[0123] 基于上述步骤，得到第一目标区域后，可以将特效素材植入到第一目标区域中，得到当前直播画面对应的第一特效画面。进而，本发明实施例提供了一种可能实现的方式。请参阅图9，其中，步骤S206可以包括以下步骤：

[0124] 步骤S206‑1，根据全部第一坐标点，对目标特效中的初始图像进行透视变换，得到第一目标特效图像；

[0125] 可以理解的是，直播画面即游戏画面中的预设元素是以一定的视角显示的，可以基于第一目标区域，对目标特效中的特效图像即初始图像进行透视变换，得到透视变换后的特效图像，即第一目标特效图像。

[0126] 可选地，可以根据全部关键点的第一坐标点和初始图像，计算透视变换矩阵。

[0127] 例如，以上述得到的4个关键的第一坐标点(a1，a2)、(b1，b2)、(c1，c2)和(d1，d2)分别代入下面转换公式中的X和Y，将初始图像中的4个顶点的坐标，代入该公式中的x和y，该公式中Z＝1，a33＝1，基于4对坐标点，对应有8个参数，根据8个方程，可以得到透视变换矩阵K中的8个未知量，得到透视变换矩阵K。

[0128] 转换公式: 透视变换矩阵

[0129] 得到透视变换矩阵后，通过OpenCV技术中的warPerspective函数，根据第一目标区域、初始图像和透视变换矩阵，对初始图像进行变换，得到第一目标特效图像。

[0130] 步骤S206‑3，将第一目标特效图像植入到第一目标区域，得到第一特效画面；

[0131] 可选地，基于第一目标区域，可以对当前直播画面进行处理，得到与第一目标区域对应的区域掩码图，将该区域掩码图与第一特效目标图像进行图像融合，将第一目标特效图像植入到当前直播画面的第一目标区域，得到第一特效画面。

[0132] 可见基于上述设计，基于得到的第一目标区域，对特效图像进行处理即透视变换，可以再将变换后的特效图像植入到直播画面中，可以是特效具有与预设元素相同的视角，可以使特效能够更好的融入到直播画面中，从而提升的特效的观赏性。

[0133] 可以理解的是，直播过程中，对实时性要求较高，为了能加速特效的植入，进而本发明实施例提供了一种可能的实现方式。请参阅图10，在步骤S206之后，还可以包括以下步骤：

[0134] S208，根据目标特效的特效时长，确定出第二设定数目个连续的待植入直播画面；

[0135] 可以理解的是，特效素材有设定的持续时间长度即特效时长。

[0136] 基于特效时长，可以确定出要插入特效的帧数量，这个帧数量就是第二设定数目。

[0137] 可选地，假设一帧对应一秒，根据目标特效的特效时长如10秒，除掉起始直播画面即第一帧直播画面，还有9秒，第二设定数目是9，可以确定出9个连续的待植入直播画面。

[0138] 可以理解的是，特效时长和第二设定数目可以根据实际需要设计，本发明实施例不做限定。

[0139] S210，根据第一目标区域，依次确定出每个待植入直播画面中的第二目标区域；

[0140] 可选地，基于起始直播画面的第一目标区域，可以按照时间顺序，逐个确定出每个待植入直播画面的第二目标区域，第二目标区域表示待植入画面中预设元素构成的区域。

[0141] S212，将目标特效植入到每个第二目标区域，得到多个第二特效画面；

[0142] 可选地，可以根据每个第二目标区域和对应的对特效图像，计算每个透视变换矩阵，基于透视变换矩阵对特效图像进行透视变换，得到变换后的特效图像，将变换后的特效图像植入到每个待植入直播画面的第二目标区域，得到多个第二特效画面。当得到第二特效画面时，将该第二特效画面发送给观众端，以提升直播的趣味性。

[0143] 针对步骤S210，本发明实施例提供的一种可能的实现方式。请参阅图11，其中，步骤S210可以包括以下步骤：

[0144] 步骤S210‑1，对目标植入直播画面中的元素进行识别，确定出第二兴趣区域；

[0145] 可选地，将多个待植入直播画面，依次作为目标植入直播画面，可以将目标植入直播画面理解为当前待植入直播画面，可以基于网络结构MobileNetV2的模型，对目标植入直播画面中的元素进行识别，得到第二兴趣区域，第二兴趣区域表示目标植入直播画面中包括预设元素的区域。

[0146] 步骤S210‑3，根据前一兴趣区域、第二兴趣区域和预设特征点检测模型，得到变换矩阵；

[0147] 其中，前一兴趣区域表示目标植入直播画面的前一帧直播画面中包括所述预设元素的区域。

[0148] 预设特征点检测模型是利用SuperPoint的思路，基于预先存储的数据集训练得到的模型KeyPointModel，其可以识别到特征点。

[0149] 可选地，可以将当前待植入直播画面的前一帧直播画面中的包括预设元素的区域，即前一兴趣区域和当前待植入直播画面的第二兴趣区域，作为预设特征点检测模型的输入，分别得到前一兴趣区域的多个特定点和第二兴趣区域中的多个特定点。可以将特征点理解为用于表征预设元素如形状、尺寸等特征的点。

[0150] 根据前一兴趣区域的多个特定点和第二兴趣区域中的多个特征点，基于RANSAC(RANdom SAmple Consensus，随机抽样一致原理)，得到当前待植入直播画面的前一帧直播画面与当前待植入直播画面的变换矩阵。

[0151] 步骤S210‑5，根据变换矩阵和每个前一坐标点，得到目标植入直播画面中每个关键点的第二坐标点；

[0152] 其中，前一坐标点表示目标植入直播画面的前一帧直播画面中关键点的坐标点；

[0153] 可选地，根据变换矩阵和每个前一坐标点，可以得到当前待植入直播画面中每个关键点的第二坐标点。

[0154] 步骤S210‑7，根据全部第二坐标点，确定出一个所述第二目标区域；

[0155] 可选地，可以将全部第二坐标点所围成的区域，作为当前待植入直播画面的第二目标区域。或者将全部第二坐标点和预设元素的轮廓，所围成的区域作为当前待植入直播画面的第二目标区域。

[0156] 步骤S210‑9，根据第一目标区域，将每个待植入直播画面依次作为目标植入直播画面，重复执行对目标植入直播画面中的元素进行识别，确定出第二兴趣区域的步骤，确定出每个待植入直播画面中的第二目标区域；

[0157] 可选地，根据起始直播画面的第一目标区域，可以计算出起始直播画面的下一帧直播画面的第二目标区域，即按照时间顺序，依次将待植入直播画面作为上述的目标植入直播画面，重复步骤S210‑1至S210‑7，得到每个待植入直播画面中的第二目标区域。

[0158] 可见基于上述设计，基于前一兴趣区域和当前待植入直播画面中的第二兴趣区域，得到变换矩阵；通过变换矩阵，基于前一帧直播画面中关键点的坐标点，得到当前待植入直播画面中关键点的坐标点，从而不需要再执行特效内容的检测和目标类型的确定，使当前待植入直播画面与前一帧直播画面的关键点的位置具有关联，从而可以快速地却出每一帧直播画面中待植入特效的区域，加速了特效植入的速度，提高了植入特效的效率。

[0159] 可以理解的是，直播画面的前一帧与后一帧，可能存在抖动，使得插入的特效在视觉上存在明显的抖动，为了使插入的特效更加平滑稳定。进而本发明实施例提供了一种可能的实现方式。请参阅图12，其中，步骤S210‑7还包括以下步骤：

[0160] 步骤S210‑7‑2，根据全部前一坐标点、全部第二坐标点和预设公式，对每个第二坐标点进行平滑处理，得到每个第二坐标点对应的第三坐标点；

[0161] 其中，预设公式为：

[0162] diff＝|kpcur‑kppre|；

[0163]

[0164] kpnew＝(1‑m)×kpcur+m×kppre；

[0165] 其中，kpcur表示前一坐标点；kppre表示第二坐标点；

[0166] kpnew表示第三坐标点；a为常数，可以将a设置为5，e表示自然常数e。

[0167] 可以理解的按照预设顺序即左上、右上、右下和左下，每个前一坐标点与每个第二坐标点一一对应，通过预设公式对每个第二坐标点进行平滑处理，得到每个第二坐标点对应的第三坐标点，第三坐标点是平滑处理后的坐标点。

[0168] 步骤S210‑7‑4，根据全部第三坐标点，确定出一个所述第二目标区域；

[0169] 可选地，可以将全部第三坐标点所围成的区域，作为第二目标区域。或者将全部第三坐标点和预设元素的轮廓，所围成的区域作为第二目标区域。

[0170] 可见基于上述设计，通过预设公式对第二坐标点进行指数平滑，可以确保坐标点的稳定性，从而降低了画面帧之间的抖动对特效植入的影响，使得特效植入更加平滑，提升了特效的观赏性。

[0171] 为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种内容信息植入装置的实现方式。请参阅图13，图13为本发明实施例提供的一种内容信息植入装置300的功能模块图。需要说明的是，本实施例所提供的内容信息植入装置300，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该内容信息植入装置300包括：

[0172] 检测模块310，用于在直播画面为预设类型画面时，对当前直播画面进行检测；

[0173] 确定模块330，用于在检测到当前直播画面包括特定内容时，确定出特定内容对应的目标类型和当前直播画面中的第一目标区域；第一目标区域表示当前直播画面中预设元素构成的区域；

[0174] 植入模块350，用于将目标类型对应的目标特效植入到第一目标区域，得到第一特效画面。

[0175] 可选地，检测模块310还用于：根据预设检测模型、当前直播画面和多个连续的待定直播画面，得到当前直播画面包括特定内容的概率值；多个连续的待定直播画面中的最后一帧直播画面与当前直播画面在时间上连续；

[0176] 根据概率值，对当前直播画面进行检测。

[0177] 可选地，确定模块330还用于：对当前直播画面中的元素进行识别，确定出第一兴趣区域；第一兴趣区域表示当前直播画面中包括预设元素的区域；

[0178] 根据第一兴趣区域和预设关键点检测模型，得到第一设定数目个关键点；

[0179] 根据每个关键点在当前直播画面中的第一坐标点，确定出第一目标区域。

[0180] 可选地，确定模块330还用于：获取当前直播画面中预设位置区域的提示信息；

[0181] 根据提示信息，确定出目标类型。

[0182] 可选地，植入模块350还用于：根据全部第一坐标点，对目标特效中的初始图像进行透视变换，得到第一目标特效图像；

[0183] 将第一目标特效图像植入到第一目标区域，得到第一特效画面。

[0184] 可选地，内容信息植入装置300还包括加速模块370，加速模块370用于，根据目标特效的特效时长，确定出第二设定数目个连续的待植入直播画面；

[0185] 根据第一目标区域，依次确定出每个待植入直播画面中的第二目标区域；第二目标区域表示待植入直播画面中预设元素构成的区域；

[0186] 将目标特效植入到每个第二目标区域，得到多个第二特效画面。

[0187] 可选地，加速模块370还用于：对目标植入直播画面中的元素进行识别，确定出第二兴趣区域；第二兴趣区域表示目标植入直播画面中包括预设元素的区域；

[0188] 根据前一兴趣区域、第二兴趣区域和预设特征点检测模型，得到变换矩阵；前一兴趣区域表示目标植入直播画面的前一帧直播画面中包括预设元素的区域；

[0189] 根据变换矩阵和每个前一坐标点，得到目标植入直播画面中每个关键点的第二坐标点；前一坐标点表示目标植入直播画面的前一帧直播画面中关键点的坐标点；

[0190] 根据全部第二坐标点，确定出一个第二目标区域；

[0191] 根据第一目标区域，将每个待植入直播画面依次作为目标植入直播画面，重复执行对目标植入直播画面中的元素进行识别，确定出第二兴趣区域，确定出每个待植入直播画面中的第二目标区域。

[0192] 可选地，加速模块370还用于：根据全部前一坐标点、全部第二坐标点和预设公式，对每个第二坐标点进行平滑处理，得到每个第二坐标点对应的第三坐标点；

[0193] 预设公式为：

[0194] diff＝|kpcur‑kppre|；

[0195]

[0196] kpnew＝(1‑m)×kpcur+mXkppre；

[0197] 其中，kpcur表示前一坐标点；kppre表示第二坐标点；kpnew表示第三坐标点；a为常数；e表示自然常数e；

[0198] 根据全部第三坐标点，确定出一个第二目标区域。

[0199] 本发明实施例还提供了一种服务器，包括处理器120和存储器130，存储器130存储有计算机程序，处理器执行计算机程序时，实现上述实施例揭示的内容信息植入的方法。

[0200] 本发明实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器120执行时实现本发明实施例揭示的内容信息植入方法。

[0201] 在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

[0202] 另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

[0203] 所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read‑Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

[0204] 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

内容信息植入方法、装置、服务器和存储介质转让专利

申请号 : CN202110761123.7

文献号 : CN113490009B

文献日 : 2023-04-21

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 程凯常 , 章焱 , 张广乾 , 吴晓东

申请人 : 广州虎牙科技有限公司

摘要 :

权利要求 :

说明书 :