直播数据播放方法、装置及存储介质转让专利

申请号 : CN201711243783.6

文献号 : CN107920256B

文献日 : 2020-01-10

本发明公开了一种直播数据播放方法、装置及存储介质，属于互联网技术领域。方法包括：接收直播间中的主播终端发送的原始直播数据；对原始音频数据进行特征提取，得到原始音频数据的第一音频特征；从图像数据库中选取与第一音频特征匹配的图像，作为第一虚拟背景图像；将原始图像数据中的背景图像替换为第一虚拟背景图像，将替换背景图像后得到的虚拟图像数据与原始音频数据作为第一虚拟直播数据，并在直播间中播放第一虚拟直播数据。本发明提供了一种灵活设置背景图像的方式，增强了趣味性，而且所设置的虚拟背景图像与原始音频数据相匹配，能够将原始音频数据以更为直观形象的方式展现给观众用户，提升了播放效果。

1.一种直播数据播放方法，其特征在于，所述方法包括：

接收直播间中的主播终端发送的原始直播数据，所述原始直播数据包括原始图像数据和原始音频数据；

对所述原始音频数据进行特征提取，得到所述原始音频数据的第一音频特征，所述第一音频特征包括音高参数，所述音高参数用于表示所述原始音频数据中的声音振动频率的高低；

从图像数据库中选取与所述第一音频特征匹配的图像，作为第一虚拟背景图像，所述图像数据库中包含多张图像，包括：从图像数据库中选取与所述音高参数匹配的图像，作为所述第一虚拟背景图像，所述图像数据库中包含多张图像；

将所述原始图像数据中的背景图像替换为所述第一虚拟背景图像，将替换背景图像后得到的虚拟图像数据与所述原始音频数据作为第一虚拟直播数据，并在所述直播间中播放所述第一虚拟直播数据；

所述从图像数据库中选取与所述音高参数匹配的图像，作为所述第一虚拟背景图像，包括：所述图像数据库中还包括每张图像的亮度标签，所述亮度标签用于表示对应图像的亮度，从所述图像数据库中选取亮度标签与所述音高参数匹配的图像，作为所述第一虚拟背景图像；或者，对所述图像数据库中的每张图像进行亮度检测，得到每张图像的亮度，从所述图像数据库中选取亮度与所述音高参数匹配的图像，作为所述第一虚拟背景图像。

2.根据权利要求1所述的方法，其特征在于，所述第一音频特征包括关键词，所述关键词用于表示所述原始音频数据的语义；

所述从图像数据库中选取与所述第一音频特征匹配的图像，作为第一虚拟背景图像，所述图像数据库中包含多张图像，包括：从所述图像数据库中选取与所述关键词匹配的图像，作为所述第一虚拟背景图像。

3.根据权利要求2所述的方法，其特征在于，所述从所述图像数据库中选取与所述关键词匹配的图像，作为所述第一虚拟背景图像，还包括：所述图像数据库中还包括每张图像的词汇标签，所述词汇标签用于表示对应图像中包含的词汇，从所述图像数据库中选取词汇标签包含所述关键词的图像，作为所述第一虚拟背景图像；或者，对所述图像数据库中的每张图像进行文本识别，得到每张图像中包含的词汇，从所述图像数据库中选取包含所述关键词的图像，作为所述第一虚拟背景图像。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述在所述直播间中播放所述第一虚拟直播数据之后，所述方法还包括：当所述第一虚拟直播数据的播放时长达到预设时长时，对所述原始音频数据进行特征提取，得到所述原始音频数据的第二音频特征；

从所述图像数据库中选取与所述第二音频特征匹配的图像，作为第二虚拟背景图像，所述第二虚拟背景图像与所述第一虚拟背景图像不同；

将所述第一虚拟背景图像替换为所述第二虚拟背景图像，将替换背景图像后得到的虚拟图像数据与所述原始音频数据作为第二虚拟直播数据，并在所述直播间中播放所述第二虚拟直播数据。

5.一种直播数据播放装置，其特征在于，所述装置包括：

接收模块，用于接收直播间中的主播终端发送的原始直播数据，所述原始直播数据包括原始图像数据和原始音频数据；

特征提取模块，用于对所述原始音频数据进行特征提取，得到所述原始音频数据的第一音频特征，所述第一音频特征包括音高参数，所述音高参数用于表示所述原始音频数据中的声音振动频率高低；

选取模块，用于从图像数据库中选取与所述第一音频特征匹配的图像，作为第一虚拟背景图像；

所述选取模块，包括：音高参数选取单元，用于从图像数据库中选取与所述音高参数匹配的图像，作为所述第一虚拟背景图像，所述图像数据库中包含多张图像；

替换模块，用于将所述原始图像数据中的背景图像替换为所述第一虚拟背景图像；

播放模块，用于将替换背景图像后得到的虚拟图像数据与所述原始音频数据作为第一虚拟直播数据，并在所述直播间中播放所述第一虚拟直播数据；

所述图像数据库中还包括每张图像的亮度标签，所述亮度标签用于表示对应图像的亮度，所述音高参数选取单元，还用于从所述图像数据库中选取亮度标签与所述音高参数匹配的图像，作为所述第一虚拟背景图像；或者，所述音高参数选取单元，还用于对所述图像数据库中的每张图像进行亮度检测，得到每张图像的亮度，从所述图像数据库中选取亮度与所述音高参数匹配的图像，作为所述第一虚拟背景图像。

6.根据权利要求5所述的装置，其特征在于，所述第一音频特征包括关键词，所述关键词用于表示所述原始音频数据的语义；

所述选取模块，包括：

关键词选取单元，用于从所述图像数据库中选取与所述关键词匹配的图像，作为所述第一虚拟背景图像。

7.根据权利要求6所述的装置，其特征在于，

所述图像数据库中还包括每张图像的词汇标签，所述词汇标签用于表示对应图像中包含的词汇，所述关键词选取单元，还用于从所述图像数据库中选取词汇标签包含所述关键词的图像，作为所述第一虚拟背景图像；或者，所述关键词选取单元，还用于对所述图像数据库中的每张图像进行文本识别，得到每张图像中包含的词汇，从所述图像数据库中选取包含所述关键词的图像，作为所述第一虚拟背景图像。

8.根据权利要求5-7任一项所述的装置，其特征在于，所述特征提取模块，还用于当所述第一虚拟直播数据的播放时长达到预设时长时，对所述原始音频数据进行特征提取，得到所述原始音频数据的第二音频特征；

所述选取模块，还用于从所述图像数据库中选取与所述第二音频特征匹配的图像，作为第二虚拟背景图像，所述第二虚拟背景图像与所述第一虚拟背景图像不同；

所述替换模块，还用于将所述第一虚拟背景图像替换为所述第二虚拟背景图像；

所述播放模块，还用于将替换背景图像后得到的虚拟图像数据与所述原始音频数据作为第二虚拟直播数据，并在所述直播间中播放所述第二虚拟直播数据。

9.一种直播数据播放方法，其特征在于，所述方法包括：

接收直播间中的主播终端发送的直播数据，所述直播数据包括图像数据和歌曲数据；

对所述歌曲数据进行特征提取，得到所述歌曲数据的音频特征，所述音频特征包括音高参数，所述音高参数用于表示所述歌曲数据中的声音振动频率的高低；

从图像数据库中选取与所述音高参数匹配的图像，作为虚拟背景图像，所述图像数据库中包含多张图像；

将所述图像数据中的背景图像替换为与所述歌曲数据匹配的虚拟背景图像，包括：将所述图像数据中的背景图像替换为与所述歌曲数据的音高参数匹配的虚拟背景图像；

在所述直播间中播放替换后得到的虚拟直播数据；

所述从图像数据库中选取与所述音高参数匹配的图像，作为虚拟背景图像，包括：所述图像数据库中还包括每张图像的亮度标签，所述亮度标签用于表示对应图像的亮度，从所述图像数据库中选取亮度标签与所述音高参数匹配的图像，作为所述虚拟背景图像；或者，对所述图像数据库中的每张图像进行亮度检测，得到每张图像的亮度，从所述图像数据库中选取亮度与所述音高参数匹配的图像，作为所述虚拟背景图像。

10.根据权利要求9所述的方法，其特征在于，所述将所述图像数据中的背景图像替换为与所述歌曲数据匹配的虚拟背景图像，还包括：将所述图像数据中的背景图像替换为与所述歌曲数据的歌词匹配的虚拟背景图像；或者，将所述图像数据中的背景图像替换为与所述歌曲数据的歌曲名称匹配的虚拟背景图像。

11.一种直播数据播放装置，其特征在于，所述装置包括：

接收模块，用于接收直播间中的主播终端发送的直播数据，所述直播数据包括图像数据和歌曲数据；

特征提取模块，用于对所述歌曲数据进行特征提取，得到所述歌曲数据的音频特征，所述音频特征包括音高参数，所述音高参数用于表示所述歌曲数据中的声音振动频率高低；

选取模块，用于从图像数据库中选取与所述音高参数匹配的图像，作为虚拟背景图像，所述图像数据库中包含多张图像；

替换模块，用于将所述图像数据中的背景图像替换为与所述歌曲数据匹配的虚拟背景图像，包括：所述替换模块将所述图像数据中的背景图像替换为与所述歌曲数据的音高参数匹配的虚拟背景图像；

播放模块，用于在所述直播间中播放替换后得到的虚拟直播数据；

所述图像数据库中还包括每张图像的亮度标签，所述亮度标签用于表示对应图像的亮度，所述选取模块，还用于从所述图像数据库中选取亮度标签与所述音高参数匹配的图像，作为所述虚拟背景图像；或者，所述选取模块，还用于对所述图像数据库中的每张图像进行亮度检测，得到每张图像的亮度，从所述图像数据库中选取亮度与所述音高参数匹配的图像，作为所述虚拟背景图像。

12.根据权利要求11所述的装置，其特征在于，所述替换模块，还用于：将所述图像数据中的背景图像替换为与所述歌曲数据的歌词匹配的虚拟背景图像；或者，将所述图像数据中的背景图像替换为与所述歌曲数据的歌曲名称匹配的虚拟背景图像。

13.一种直播数据播放装置，其特征在于，所述直播数据播放装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至4任一权利要求所述的直播数据播放方法中所执行的操作，或者以实现如权利要求9至10任一权利要求所述的直播数据播放方法中所执行的操作。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至4任一权利要求所述的直播数据播放方法中所执行的操作，或者以实现如权利要求9至10任一权利要求所述的直播数据播放方法中所执行的操作。

直播数据播放方法、装置及存储介质

技术领域

[0001] 本发明涉及互联网技术领域，特别涉及一种直播数据播放方法、装置及存储介质。

背景技术

[0002] 随着互联网技术的快速发展和移动终端的广泛普及，直播已经成为一种广受欢迎的互动方式。通过直播为主播用户和观众用户提供了沟通交流的平台，由主播用户在直播间中进行才艺展示，由观众用户进行观看，极大地丰富了人们的生活。

[0003] 直播过程中，直播间中的主播终端采集主播用户的直播数据，发送给服务器，服务器接收该直播数据，并在直播间中播放该直播数据，则主播终端和进入直播间的观众终端均可观看该直播数据。其中，该直播数据中包括图像数据和音频数据，而该图像数据中包括主播用户以及主播用户后方的背景图像，该背景图像可以为拍摄主播用户所处的环境所得到的图像，也可以为主播用户设置好的图像。观众用户观看该直播数据时，可以看到主播用户以及主播用户后方的背景图像。

[0004] 在实现本发明的过程中，发明人发现相关技术至少存在以下问题：背景图像通常设置的较为单一，缺乏趣味性，导致直播数据的播放效果不佳。

发明内容

[0005] 本发明实施例提供了一种直播数据播放方法、装置及存储介质，可以解决相关技术存在的问题。所述技术方案如下：

[0006] 第一方面，提供了一种直播数据播放方法，所述方法包括：

[0007] 接收直播间中的主播终端发送的原始直播数据，所述原始直播数据包括原始图像数据和原始音频数据；

[0008] 对所述原始音频数据进行特征提取，得到所述原始音频数据的第一音频特征；

[0009] 从图像数据库中选取与所述第一音频特征匹配的图像，作为第一虚拟背景图像，所述图像数据库中包含多张图像；

[0010] 将所述原始图像数据中的背景图像替换为所述第一虚拟背景图像，将替换背景图像后得到的虚拟图像数据与所述原始音频数据作为第一虚拟直播数据，并在所述直播间中播放所述第一虚拟直播数据。

[0011] 可选地，所述第一音频特征包括关键词，所述关键词用于表示所述原始音频数据的语义；

[0012] 所述从图像数据库中选取与所述第一音频特征匹配的图像，作为第一虚拟背景图像，所述图像数据库中包含多张图像，包括：

[0013] 从所述图像数据库中选取与所述关键词匹配的图像，作为所述第一虚拟背景图像。

[0014] 可选地，所述从所述图像数据库中选取与所述关键词匹配的图像，作为所述第一虚拟背景图像，包括：

[0015] 所述图像数据库中还包括每张图像的词汇标签，所述词汇标签用于表示对应图像中包含的词汇，从所述图像数据库中选取词汇标签包含所述关键词的图像，作为所述第一虚拟背景图像；或者，

[0016] 对所述图像数据库中的每张图像进行文本识别，得到每张图像中包含的词汇，从所述图像数据库中选取包含所述关键词的图像，作为所述第一虚拟背景图像。

[0017] 可选地，所述第一音频特征包括音高参数，所述音高参数用于表示所述原始音频数据中的声音振动频率高低；

[0018] 所述从图像数据库中选取与所述第一音频特征匹配的图像，作为第一虚拟背景图像，所述图像数据库中包含多张图像，包括：

[0019] 从所述图像数据库中选取与所述音高参数匹配的图像，作为所述第一虚拟背景图像。

[0020] 可选地，所述从所述图像数据库中选取与所述音高参数匹配的图像，作为所述第一虚拟背景图像，包括：

[0021] 所述图像数据库中还包括每张图像的亮度标签，所述亮度标签用于表示对应图像的亮度，从所述图像数据库中选取亮度标签与所述音高参数匹配的图像，作为所述第一虚拟背景图像；或者，

[0022] 对所述图像数据库中的每张图像进行亮度检测，得到每张图像的亮度，从所述图像数据库中选取亮度与所述音高参数匹配的图像，作为所述第一虚拟背景图像。

[0023] 可选地，所述在所述直播间中播放所述第一虚拟直播数据之后，所述方法还包括：

[0024] 当所述第一虚拟直播数据的播放时长达到预设时长时，对所述原始音频数据进行特征提取，得到所述原始音频数据的第二音频特征；

[0025] 从所述图像数据库中选取与所述第二音频特征匹配的图像，作为第二虚拟背景图像，所述第二虚拟背景图像与所述第一虚拟背景图像不同；

[0026] 将所述第一虚拟背景图像替换为所述第二虚拟背景图像，将替换背景图像后得到的虚拟图像数据与所述原始音频数据作为第二虚拟直播数据，并在所述直播间中播放所述第二虚拟直播数据。

[0027] 第二方面，提供了一种直播数据播放装置，所述装置包括：

[0028] 接收模块，用于接收直播间中的主播终端发送的原始直播数据，所述原始直播数据包括原始图像数据和原始音频数据；

[0029] 特征提取模块，用于对所述原始音频数据进行特征提取，得到所述原始音频数据的第一音频特征；

[0030] 选取模块，用于从图像数据库中选取与所述第一音频特征匹配的图像，作为第一虚拟背景图像，所述图像数据库中包含多张图像；

[0031] 替换模块，用于将所述原始图像数据中的背景图像替换为所述第一虚拟背景图像；

[0032] 播放模块，用于将替换背景图像后得到的虚拟图像数据与所述原始音频数据作为第一虚拟直播数据，并在所述直播间中播放所述第一虚拟直播数据。

[0033] 可选地，所述第一音频特征包括关键词，所述关键词用于表示所述原始音频数据的语义；

[0034] 所述选取模块，包括：

[0035] 关键词选取单元，用于从所述图像数据库中选取与所述关键词匹配的图像，作为所述第一虚拟背景图像。

[0036] 可选地，所述图像数据库中还包括每张图像的词汇标签，所述词汇标签用于表示对应图像中包含的词汇，所述关键词选取单元，还用于从所述图像数据库中选取词汇标签包含所述关键词的图像，作为所述第一虚拟背景图像；或者，

[0037] 所述关键词选取单元，还用于对所述图像数据库中的每张图像进行文本识别，得到每张图像中包含的词汇，从所述图像数据库中选取包含所述关键词的图像，作为所述第一虚拟背景图像。

[0038] 可选地，所述第一音频特征包括音高参数，所述音高参数用于表示所述原始音频数据中的声音振动频率高低；

[0039] 所述选取模块，包括：

[0040] 音高参数选取单元，用于从所述图像数据库中选取与所述音高参数匹配的图像，作为所述第一虚拟背景图像。

[0041] 可选地，所述图像数据库中还包括每张图像的亮度标签，所述亮度标签用于表示对应图像的亮度，所述音高参数选取单元，还用于从所述图像数据库中选取亮度标签与所述音高参数匹配的图像，作为所述第一虚拟背景图像；或者，

[0042] 所述音高参数选取单元，还用于对所述图像数据库中的每张图像进行亮度检测，得到每张图像的亮度，从所述图像数据库中选取亮度与所述音高参数匹配的图像，作为所述第一虚拟背景图像。

[0043] 可选地，所述特征提取模块，还用于当所述第一虚拟直播数据的播放时长达到预设时长时，对所述原始音频数据进行特征提取，得到所述原始音频数据的第二音频特征；

[0044] 所述选取模块，还用于从所述图像数据库中选取与所述第二音频特征匹配的图像，作为第二虚拟背景图像，所述第二虚拟背景图像与所述第一虚拟背景图像不同；

[0045] 所述替换模块，还用于将所述第一虚拟背景图像替换为所述第二虚拟背景图像；

[0046] 所述播放模块，还用于将替换背景图像后得到的虚拟图像数据与所述原始音频数据作为第二虚拟直播数据，并在所述直播间中播放所述第二虚拟直播数据。

[0047] 第三方面，提供了一种直播数据播放方法，所述方法包括：

[0048] 接收直播间中的主播终端发送的直播数据，所述直播数据包括图像数据和歌曲数据；

[0049] 将所述图像数据中的背景图像替换为与所述歌曲数据匹配的虚拟背景图像；

[0050] 在所述直播间中播放替换后得到的虚拟直播数据。

[0051] 可选地，所述将所述图像数据中的背景图像替换为与所述歌曲数据匹配的虚拟背景图像之前，所述方法还包括：

[0052] 对所述歌曲数据进行特征提取，得到所述歌曲数据的音频特征；

[0053] 从图像数据库中选取与所述音频特征匹配的图像，作为与所述歌曲数据匹配的虚拟背景图像，所述图像数据库中包含多张图像。

[0054] 可选地，所述将所述图像数据中的背景图像替换为与所述歌曲数据匹配的虚拟背景图像，包括：

[0055] 将所述图像数据中的背景图像替换为与所述歌曲数据的歌词匹配的虚拟背景图像；或者，

[0056] 将所述图像数据中的背景图像替换为与所述歌曲数据的音高参数匹配的虚拟背景图像；或者，

[0057] 将所述图像数据中的背景图像替换为与所述歌曲数据的歌曲名称匹配的虚拟背景图像。

[0058] 第四方面，提供了一种直播数据播放装置，所述装置包括：

[0059] 接收模块，用于接收直播间中的主播终端发送的直播数据，所述直播数据包括图像数据和歌曲数据；

[0060] 替换模块，用于将所述图像数据中的背景图像替换为与所述歌曲数据匹配的虚拟背景图像；

[0061] 播放模块，用于在所述直播间中播放替换后得到的虚拟直播数据。

[0062] 可选地，所述装置还包括：

[0063] 特征提取模块，用于对所述歌曲数据进行特征提取，得到所述歌曲数据的音频特征；

[0064] 选取模块，用于从图像数据库中选取与所述音频特征匹配的图像，作为与所述歌曲数据匹配的虚拟背景图像，所述图像数据库中包含多张图像。

[0065] 可选地，所述替换模块，用于：

[0066] 将所述图像数据中的背景图像替换为与所述歌曲数据的歌词匹配的虚拟背景图像；或者，

[0067] 将所述图像数据中的背景图像替换为与所述歌曲数据的音高参数匹配的虚拟背景图像；或者，

[0068] 将所述图像数据中的背景图像替换为与所述歌曲数据的歌曲名称匹配的虚拟背景图像。

[0069] 第五方面，提供了一种直播数据播放装置，所述直播数据播放装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如第一方面或第三方面所述的直播数据播放方法中所执行的操作。

[0070] 第六方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如第一方面或第三方面所述的直播数据播放方法中所执行的操作。

[0071] 本发明实施例提供的技术方案带来的有益效果是：

[0072] 本发明实施例提供的方法、装置及存储介质，通过对主播终端提供的原始音频数据进行特征提取，得到音频特征，选取与音频特征匹配的图像作为虚拟背景图像，从而替换原始的背景图像。本发明提供了一种灵活设置背景图像的方式，增强了趣味性，而且所设置的虚拟背景图像与原始音频数据相匹配，能够将原始音频数据以更为直观形象的方式展现给观众用户，提升了播放效果。

附图说明

[0073] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0074] 图1是本发明实施例提供的一种实施环境的示意图；

[0075] 图2是本发明实施例提供的一种直播数据播放方法的流程图；

[0076] 图3是本发明实施例提供的一种直播数据播放方法的流程图；

[0077] 图4是本发明实施例提供的一种操作流程的示意图；

[0078] 图5是本发明实施例提供的一种直播数据播放装置的结构示意图；

[0079] 图6是本发明实施例提供的一种直播数据播放方法的流程图；

[0080] 图7是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

[0081] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0082] 图1是本发明实施例提供的一种实施环境的示意图，参见图1，该实施环境包括主播终端101、直播服务器102和至少一个观众终端103(图1以3个观众终端为例)，主播终端101与直播服务器102之间通过网络连接，至少一个观众终端103与直播服务器102之间也通过网络连接，主播终端101可以通过直播服务器102，与至少一个观众终端103进行数据交互。

[0083] 其中，主播终端101和至少一个观众终端103可以包括手机、计算机、平板电脑等设备。主播终端101基于主播用户的用户标识登录直播服务器102，观众终端103基于观众用户的用户标识登录直播服务器102。

[0084] 主播终端101创建一个直播间，观众终端103可以进入直播间，观看主播终端101提供的直播数据。具体的直播过程中，主播终端101会采集主播用户的直播数据，包括图像数据和音频数据，发送给直播服务器102，直播服务器102会将图像数据中的背景图像替换为与音频数据匹配的虚拟背景图像，再在直播间中进行播放，则主播用户和观众用户观看直播数据时，可以观看到虚拟背景图像。

[0085] 在一种可能实现方式中，主播终端在直播间中直播歌曲数据时，可以将图像数据中的背景图像替换为与歌曲数据匹配的虚拟背景图像，如与歌词匹配的虚拟背景图像或者与歌曲名称匹配的虚拟背景图像等。

[0086] 图2是本发明实施例提供的一种直播数据播放方法的流程图。该发明实施例的执行主体为直播服务器，参见图2，该方法包括：

[0087] 201、接收直播间中的主播终端发送的原始直播数据，原始直播数据包括原始图像数据和原始音频数据。

[0088] 202、对原始音频数据进行特征提取，得到原始音频数据的第一音频特征。

[0089] 203、从图像数据库中选取与第一音频特征匹配的图像，作为第一虚拟背景图像，图像数据库中包含多张图像。

[0090] 204、将原始图像数据中的背景图像替换为第一虚拟背景图像，将替换背景图像后得到的虚拟图像数据与原始音频数据作为第一虚拟直播数据，并在直播间中播放第一虚拟直播数据。

[0091] 本发明实施例提供的方法，通过对主播终端提供的原始音频数据进行特征提取，得到音频特征，选取与音频特征匹配的图像作为虚拟背景图像，从而替换原始的背景图像。提供了一种灵活设置背景图像的方式，增强了趣味性，而且所设置的虚拟背景图像与原始音频数据相匹配，能够将原始音频数据以更为直观形象的方式展现给观众用户，提升了播放效果。

[0092] 可选地，第一音频特征包括关键词，关键词用于表示原始音频数据的语义；

[0093] 从图像数据库中选取与第一音频特征匹配的图像，作为第一虚拟背景图像，图像数据库中包含多张图像，包括：

[0094] 从图像数据库中选取与关键词匹配的图像，作为第一虚拟背景图像。

[0095] 可选地，从图像数据库中选取与关键词匹配的图像，作为第一虚拟背景图像，包括：

[0096] 图像数据库中还包括每张图像的词汇标签，词汇标签用于表示对应图像中包含的词汇，从图像数据库中选取词汇标签包含关键词的图像，作为第一虚拟背景图像；或者，[0097] 对图像数据库中的每张图像进行文本识别，得到每张图像中包含的词汇，从图像数据库中选取包含关键词的图像，作为第一虚拟背景图像。

[0098] 可选地，第一音频特征包括音高参数，音高参数用于表示原始音频数据中的声音振动频率高低；

[0099] 从图像数据库中选取与第一音频特征匹配的图像，作为第一虚拟背景图像，图像数据库中包含多张图像，包括：

[0100] 从图像数据库中选取与音高参数匹配的图像，作为第一虚拟背景图像。

[0101] 可选地，从图像数据库中选取与音高参数匹配的图像，作为第一虚拟背景图像，包括：

[0102] 图像数据库中还包括每张图像的亮度标签，亮度标签用于表示对应图像的亮度，从图像数据库中选取亮度标签与音高参数匹配的图像，作为第一虚拟背景图像；或者，[0103] 对图像数据库中的每张图像进行亮度检测，得到每张图像的亮度，从图像数据库中选取亮度与音高参数匹配的图像，作为第一虚拟背景图像。

[0104] 可选地，在直播间中播放第一虚拟直播数据之后，方法还包括：

[0105] 当第一虚拟直播数据的播放时长达到预设时长时，对原始音频数据进行特征提取，得到原始音频数据的第二音频特征；

[0106] 从图像数据库中选取与第二音频特征匹配的图像，作为第二虚拟背景图像，第二虚拟背景图像与第一虚拟背景图像不同；

[0107] 将第一虚拟背景图像替换为第二虚拟背景图像，将替换背景图像后得到的虚拟图像数据与原始音频数据作为第二虚拟直播数据，并在直播间中播放第二虚拟直播数据。

[0108] 上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

[0109] 图3是本发明实施例提供的一种直播数据播放方法的流程图。该发明实施例的交互主体为主播终端、直播服务器和观众终端，参见图3，该方法包括：

[0110] 301、主播终端打开直播间，采集主播用户的原始直播数据，将原始直播数据发送给直播服务器。

[0111] 本发明实施例应用于直播场景下，主播终端可以打开直播间，在直播间中进行直播，观众终端可以进入直播间，在直播间中观看主播终端的直播数据。

[0112] 其中，原始直播数据包括原始图像数据和原始音频数据。在主播终端采集原始直播数据时，可以通过配置的摄像头对主播用户进行拍摄，得到图像数据，还可以通过配置的麦克风采集主播用户的声音，得到音频数据，该图形数据和该音频数据即可作为主播用户的直播数据。

[0113] 并且，在进行拍摄时，不仅会拍摄到主播用户本人，而且还会拍摄到主播用户后方的环境，因此拍摄得到的图像数据中不仅包括主播用户，还包括拍摄主播用户后方的环境所得到的背景图像。

[0114] 采集到原始直播数据后，主播终端将原始直播数据发送给直播服务器，由直播服务器对原始直播数据进行处理。并且，为了便于直播服务器区分不同的直播间，主播终端还可以向直播服务器发送所在直播间的标识，该标识可以为主播用户的用户标识，或者也可以为直播间的编号等。

[0115] 302、直播服务器接收该原始直播数据，对原始音频数据进行特征提取，得到原始音频数据的第一音频特征。

[0116] 直播服务器接收到该原始直播数据时，对该原始直播数据进行解析，得到原始图像数据和原始音频数据，对该原始音频数据进行特征提取，得到该原始音频数据的第一音频特征，该第一音频特征与原始音频数据的内容相关，能够描述原始音频数据所表达的内容。

[0117] 在一种可能实现方式中，直播服务器对该原始音频数据进行音频识别，识别出该原始音频数据中包含的关键词，作为第一音频特征，该第一音频特征可以表示原始音频数据的语义。

[0118] 在另一种可能实现方式中，直播服务器对该原始音频数据进行音频识别，识别出该原始音频数据的音高参数，该音高参数是指原始音频数据中的音的高低，用于表示原始音频数据中声音振动频率的高低，从而能够表示原始音频数据所表达的情绪。

[0119] 当然，除关键词和音高参数之外，直播服务器还可以提取原始音频数据其他类型的音频特征，如原始音频数据的音色，或者原始音频数据为歌曲数据时，可以提取歌曲数据的歌曲名称或者歌手名称等。

[0120] 303、直播服务器从图像数据库中选取与第一音频特征匹配的图像，作为第一虚拟背景图像。

[0121] 该图像数据库中包含多张图像，该多张图像可以作为备选的虚拟背景图像，从该图像数据库中可以选取要使用的虚拟背景图像。该图像数据库中可以包括多种类型的图像，例如，该图像数据库中可以存储包含某些词汇的图像，这些图像可以与某些歌曲的歌词或者歌曲名称匹配，或者也可以存储某些风景图像，这些图像可以与某些歌曲的意境匹配，或者也可以存储某些人物图像，这些图像可以与某些歌手匹配或者与某些演艺角色匹配。该图像数据库可以由直播服务器预先确定，并且该图像数据库中的图像还可以进行更新。
例如，针对新创作出的歌曲，可以在图像数据库中添加包含该歌曲中歌词的图像。

[0122] 实际应用中，该图像数据库中可以包括MV(Music Video，音乐电视作品)封面、截屏图片或者专辑封面等图像，MV封面与MV所属的歌曲匹配，截屏图片与相应的歌曲或者歌曲名称或者歌手名称匹配，专辑封面与专辑中的歌曲匹配。

[0123] 为了保证所选取的虚拟背景图像与主播用户的直播内容相匹配，直播服务器从图像数据库中选取与第一音频特征匹配的图像，作为第一虚拟背景图像。

[0124] 针对不同类型的音频特征，所选取的虚拟背景图像也不同。在一种可能实现方式中，该第一音频特征包括关键词，则直播服务器从图像数据库中选取与该关键词匹配的图像，作为第一虚拟背景图像。

[0125] 具体地，可以为图像数据库中的每张图像设置一个或多个词汇标签，该词汇标签用于表示图像中包含的词汇，则直播服务器可以从图像数据库中选取标签包含该原始音频数据中关键词的图像，作为第一虚拟背景图像。或者，也可以不设置词汇标签，当获取到原始音频数据中的关键词时，对图像数据库中的每张图像进行文本识别，识别每张图像中包含的词汇，将词汇与关键词进行比对，从图像数据库中选取包含该关键词的图像，作为第一虚拟背景图像。

[0126] 例如，主播用户在直播间中唱歌，唱到歌词“窗外细雨淅淅沥沥”时，可以识别出关键词“细雨”，从而选取一张下雨的图像作为第一虚拟背景图像，从而能够渲染一种下雨的场景，更能给观众用户身临其境之感。

[0127] 在另一种可能实现方式中，该第一音频特征包括音高参数，则直播服务器从图像数据库中选取与音频参数匹配的图像，作为第一虚拟背景图像。

[0128] 具体地，针对图像数据库中的每张图像，可以对图像进行亮度检测，确定图像的亮度，从而为每张图像设置一个亮度标签，用亮度标签来表示图像的亮度。则直播服务器可以从图像数据库中选取亮度标签与音高参数匹配的图像，作为第一虚拟背景图像。或者，也可以不设置亮度标签，当获取到原始音频数据的音高参数时，再对图像数据库中的每张图像进行亮度检测，得到每张图像的亮度，从图像数据库中选取亮度与音高参数匹配的图像，作为第一虚拟背景图像。

[0129] 考虑到音高参数越高，表示主播用户所表达的情绪越高亢，更适合采用亮度较高的背景图像，而音高参数越低，表示主播用户所表达的情绪越低沉，更适合采用亮度较低的背景图像，因此可以将较高的音高参数与较高的图像亮度进行匹配，将较低的音高参数与较低的图像亮度进行匹配，具体的匹配方式可以由直播服务器预先确定。

[0130] 例如，主播用户在直播间中歌唱一个情绪比较高亢的歌曲时，确定的音高参数较高，此时选取一张颜色亮丽的图像作为第一虚拟背景图像，从而渲染了一种高亢激昂的氛围，使得观众用户更能融入到歌曲中。

[0131] 在另一种可能实现方式中，直播服务器可以获取原始音频数据的关键词和音高参数，从图像数据库中选取与关键词和音高参数均匹配的图像，作为第一虚拟背景图像。或者，如果直播服务器获取到了其他类型的音频特征，也可以从图像数据库中选取与该音频特征匹配的图像，作为第一虚拟背景图像。

[0132] 304、直播服务器将原始图像数据中的背景图像替换为第一虚拟背景图像。

[0133] 直播服务器将原始图像数据中的人物和背景进行分割，得到人物图像和背景图像，将背景图像替换为第一虚拟背景图像，将分割出的人物图像与第一虚拟背景图像进行合成，得到虚拟图像数据。

[0134] 其中，在分割时直播服务器可以确定人物图像与背景图像之间的相对位置关系，将人物图像与第一虚拟背景图像进行合成时，仍按照该相对位置关系进行合成，以保证主播用户在虚拟图像数据中所处的位置不变。

[0135] 305、直播服务器将替换背景图像后得到的虚拟图像数据与原始音频数据作为第一虚拟直播数据，发送给直播间中的主播终端和观众终端。

[0136] 306、主播终端和观众终端接收该第一虚拟直播数据，在直播间中播放第一虚拟直播数据。

[0137] 为了保证虚拟图像数据和原始音频数据的同步播放，直播服务器对虚拟图像数据和原始音频数据进行同步处理，并在直播间中同步播放虚拟图像数据和原始音频数据，也即是将虚拟图像数据和原始音频数据同步发送给主播终端和观众终端，主播终端和观众终端在接收到虚拟图像数据和原始音频数据时，在直播间的直播页面上播放虚拟图像数据，并通过扬声器同步播放原始音频数据。此时，由于虚拟图像数据中包含主播用户以及第一虚拟背景图像，因此观众用户可以在观看主播用户并收听原始音频数据的同时，观看第一虚拟背景图像。

[0138] 实际应用中，该虚拟图像数据针对主播用户的人物图像、第一虚拟背景图像以及两者之间的相对位置关系进行了描述，则主播终端和观众终端可以根据该虚拟图像数据进行渲染，从而展示出主播用户的人物图像以及第一虚拟背景图像合成的虚拟图像数据。

[0139] 307、当直播服务器确定第一虚拟直播数据的播放时长达到预设时长时，对原始音频数据进行特征提取，得到原始音频数据的第二音频特征。

[0140] 308、直播服务器从图像数据库中选取与第二音频特征匹配的图像，作为第二虚拟背景图像。

[0141] 309、直播服务器将第一虚拟背景图像替换为第二虚拟背景图像。

[0142] 310、直播服务器将替换背景图像后得到的虚拟图像数据与原始音频数据作为第二虚拟直播数据，发送给直播间中的主播终端和观众终端。

[0143] 311、主播终端和观众终端接收该第二虚拟直播数据，在直播间中播放第二虚拟直播数据。

[0144] 考虑到主播用户直播的内容可能会随着时间的推移而发生变化，因此在上述步骤307-311中，在第一虚拟直播数据开始播放时，直播服务器可以开始定时，当统计的时长达到预设时长时，直播服务器可以重新更换虚拟背景图像，从而保证了虚拟背景图像可以随着直播内容的变化而变化。其中，该预设时长可以为5秒、10秒等，可以由直播服务器默认设置，或者也可以由直播用户设置。上述步骤307-311与上述步骤302-306类似，在此不再赘述。

[0145] 在实际应用中，在主播用户不断进行直播的过程中，直播服务器可以实时地对原始音频数据进行特征提取，并实时地选取匹配的虚拟背景图像，从而可以保证虚拟背景图像可以实时变化。例如，在主播用户唱歌的过程中，虚拟背景图像可以随着歌曲旋律或者歌词实时地变化。

[0146] 在一种可能实现方式中，当主播用户未发出声音时，将不会产生原始音频数据，则直播服务器仅能接收到原始图像数据，而不会接收到原始音频数据，此时直播服务器直接在直播间中展示原始图像数据，也即是采用拍摄的实际背景图像，而不再使用虚拟背景图像。当然，后续主播用户开始发出声音时，直播服务器还可以继续根据接收到的原始音频数据选取虚拟背景图像，来替换拍摄的实际背景图像。

[0147] 相应地，本发明实施例的操作流程可以如图4所示，参见图4，以主播用户唱歌为例，开始唱歌时抓取歌曲中的歌词或歌曲旋律的音高参数，并选取匹配的虚拟背景图像，将虚拟背景图像与主播用户合成为虚拟图像数据，在直播间中播放，当主播用户唱歌结束时，恢复摄像头拍摄的实际背景图像。

[0148] 需要说明的是，本发明实施例提供的采用虚拟背景图像的方式可以由直播服务器默认应用，或者也可以由主播用户进行设置。主播用户在开始进行直播之前，如果希望摆脱当前所处环境的限制而采用虚拟背景图像时，可以开启虚拟背景功能，则在直播过程中直播服务器会为主播用户采用虚拟背景图像，而如果主播用户未开启虚拟背景功能，则直播过程中直播服务器直接采用拍摄的实际背景图像即可。

[0149] 相关技术中，主播用户在直播间中进行某些才艺展示时，都是主播用户自己与观众用户进行互动，互动方式比较单一。而本发明实施例提供的方法，通过对主播终端提供的原始音频数据进行特征提取，得到音频特征，选取与音频特征匹配的图像作为虚拟背景图像，从而替换原始的背景图像。提供了一种灵活设置背景图像的方式，将虚拟背景图像也作为与观众用户进行互动的一种方式，增强了趣味性和新颖性，而且所设置的虚拟背景图像与原始音频数据相匹配，能够将原始音频数据以更为直观形象的方式展现给观众用户，从而将主播用户的情绪更好地表露给观众用户，甚至会出现主播用户意想不到的虚拟背景图像，提高了主播用户和观众用户的活跃度，提升了播放效果。

[0150] 图5是本发明实施例提供的一种直播数据播放装置的结构示意图，参见图5，该装置包括：

[0151] 接收模块501，用于接收直播间中的主播终端发送的原始直播数据，原始直播数据包括原始图像数据和原始音频数据；

[0152] 特征提取模块502，用于对原始音频数据进行特征提取，得到原始音频数据的第一音频特征；

[0153] 选取模块503，用于从图像数据库中选取与第一音频特征匹配的图像，作为第一虚拟背景图像，图像数据库中包含多张图像；

[0154] 替换模块504，用于将原始图像数据中的背景图像替换为第一虚拟背景图像；

[0155] 播放模块505，用于将替换背景图像后得到的虚拟图像数据与原始音频数据作为第一虚拟直播数据，并在直播间中播放第一虚拟直播数据。

[0156] 可选地，第一音频特征包括关键词，关键词用于表示原始音频数据的语义；

[0157] 选取模块503，包括：

[0158] 关键词选取单元，用于从图像数据库中选取与关键词匹配的图像，作为第一虚拟背景图像。

[0159] 可选地，图像数据库中还包括每张图像的词汇标签，词汇标签用于表示对应图像中包含的词汇，关键词选取单元，还用于从图像数据库中选取词汇标签包含关键词的图像，作为第一虚拟背景图像；或者，

[0160] 关键词选取单元，还用于对图像数据库中的每张图像进行文本识别，得到每张图像中包含的词汇，从图像数据库中选取包含关键词的图像，作为第一虚拟背景图像。

[0161] 可选地，第一音频特征包括音高参数，音高参数用于表示原始音频数据中的声音振动频率高低；

[0162] 选取模块503，包括：

[0163] 音高参数选取单元，用于从图像数据库中选取与音高参数匹配的图像，作为第一虚拟背景图像。

[0164] 可选地，图像数据库中还包括每张图像的亮度标签，亮度标签用于表示对应图像的亮度，音高参数选取单元，还用于从图像数据库中选取亮度标签与音高参数匹配的图像，作为第一虚拟背景图像；或者，

[0165] 音高参数选取单元，还用于对图像数据库中的每张图像进行亮度检测，得到每张图像的亮度，从图像数据库中选取亮度与音高参数匹配的图像，作为第一虚拟背景图像。

[0166] 可选地，特征提取模块502，还用于当第一虚拟直播数据的播放时长达到预设时长时，对原始音频数据进行特征提取，得到原始音频数据的第二音频特征；

[0167] 选取模块503，还用于从图像数据库中选取与第二音频特征匹配的图像，作为第二虚拟背景图像，第二虚拟背景图像与第一虚拟背景图像不同；

[0168] 替换模块504，还用于将第一虚拟背景图像替换为第二虚拟背景图像；

[0169] 播放模块505，还用于将替换背景图像后得到的虚拟图像数据与原始音频数据作为第二虚拟直播数据，并在直播间中播放第二虚拟直播数据。

[0170] 上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

[0171] 需要说明的是：上述实施例提供的直播数据播放装置在播放直播数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将直播服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的直播数据播放装置与直播数据播放方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

[0172] 图6是本发明实施例提供的一种直播数据播放方法的流程图。该发明实施例的执行主体为直播服务器，参见图6，该方法包括：

[0173] 601、接收直播间中的主播终端发送的直播数据，直播数据包括图像数据和歌曲数据。

[0174] 602、对歌曲数据进行特征提取，得到歌曲数据的音频特征，从图像数据库中选取与音频特征匹配的图像，作为与歌曲数据匹配的虚拟背景图像。

[0175] 步骤602与上述实施例中的步骤302-303类似，具体过程在此不再赘述。

[0176] 603、将图像数据中的背景图像替换为与歌曲数据匹配的虚拟背景图像。

[0177] 本发明实施例中，针对同一歌曲数据，可以采用不同类型的音频特征，从而得到不同类型的虚拟背景图像。

[0178] 例如，提取歌曲数据中的歌词作为音频特征，则可以将图像数据中的背景图像替换为与歌曲数据的歌词匹配的虚拟背景图像；或者，提取歌曲数据的音高参数作为音频特征，则可以将图像数据中的背景图像替换为与歌曲数据的音高参数匹配的虚拟背景图像；或者，提取歌曲数据的歌曲名称作为音频特征，则可以将图像数据中的背景图像替换为与歌曲数据的歌曲名称匹配的虚拟背景图像。

[0179] 当然，除上述步骤602中提取音频特征的方式之外，还可以采用其他方式获取与歌曲数据匹配的虚拟背景图像。

[0180] 604、在直播间中播放替换后得到的虚拟直播数据。

[0181] 本发明实施例提供的方法，在直播间中直播歌曲数据时，可以选取与歌曲数据匹配的图像作为虚拟背景图像，从而替换原始的背景图像。提供了一种灵活设置背景图像的方式，增强了趣味性，能够将直播的歌曲以更为直观形象的方式展现给观众用户，提升了播放效果。

[0182] 相应地，上述实施例中的接收模块501可以用于执行上述步骤601，特征提取模块502可以用于执行上述步骤602中提取音频特征的步骤，选取模块503可以用于执行上述步骤602中选取图像的步骤，替换模块504可以用于执行上述步骤603，播放模块505可以用于执行上述步骤604。

[0183] 图7是本发明实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

[0184] 服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，一个或一个以上键盘756，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

[0185] 服务器700可以用于执行上述直播数据播放方法中直播服务器所执行的步骤。

[0186] 本发明实施例还提供了一种直播数据播放装置，该直播数据播放装置包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并执行以实现上述实施例的直播数据播放方法中所执行的操作。

[0187] 本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并执行以实现上述实施例的直播数据播放方法中所执行的操作。

[0188] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

[0189] 以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

直播数据播放方法、装置及存储介质转让专利

申请号 : CN201711243783.6

文献号 : CN107920256B

文献日 : 2020-01-10

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 梁艺慧

申请人 : 广州酷狗计算机科技有限公司

摘要 :

权利要求 :

说明书 :