一种多类型音视频混播系统及方法转让专利

申请号 : CN202210813711.5

文献号 : CN115225928B

文献日 : 2023-07-25

本发明涉及一种多类型音视频混播系统及方法，其系统包括：音视频采集发送模块、音视频处理器和播放互动终端，所述音视频采集发送模块分别与所述音视频处理器信号传输连接，所述播放互动终端与所示音视频处理器信号传输连接；所述音视频采集发送模块，包括第一音视频采集器、音视频编码器和音视频发送装置；所述第一音视频采集器包括亿级像素阵列像感器相机；所述音视频处理器，包括音视频类型分析模块、视频转码模块、视频融合器和信息流发送接受模块；所述播放互动终端，包括用户互动模块和音视频播放模块，本发明能够将多种不同类型音频混合显示在统一的信息流当中，使用户能够在同一信息流中能够观看多种类型的音视频。

1.一种多类型音视频混播系统，其特征在于，包括：音视频处理器（200）、播放互动终端（300），所述音视频处理器（200）包括信息流接受模块（204a）、信息流发送模块（204b）、添加标签模块（201）、视频转码模块（202）、视频融合模块（203）；

所述信息流接受模块（204a），接受多个音视频源发送的音视频数据，多个所述音视频数据中至少一部分为不同类型的音视频数据；

所述添加标签模块（201），对各个所述音视频数据添加标签，所述标签与对应的所述音视频数据建立关联；

视频转码模块（202），对各个所述音视频数据中的视频进行统一转码处理，每个所述音视频数据至少得到两个分辨率不同的音视频数据，分辨率低和/或压缩率高的音视频数据作为浏览用音视频数据，分辨率高和/或压缩率低的音视频数据作为播放用音视频数据；

视频融合模块（203），对多个所述浏览用音视频数据进行融合处理，拼接成一个音视频数据流，作为浏览用音视频数据流；

信息流发送模块（204b），以不同的信息流向所述播放互动终端（300）发送所述浏览用音视频数据流和播放用音视频数据，发送所述浏览用音视频数据流的信息流为浏览数据信息流，发送播放用音视频数据的信息流为播放数据信息流；

所述播放互动终端（300），包括通信模块（304）、音视频播放模块（302），用户操作识别模块（303）；

所述通信模块（304）接受所述音视频处理器（200）发送的浏览数据信息流和播放数据信息流；

所述音视频播放模块（302），根据预设条件，选择浏览数据信息流或播放数据信息流进行播放；

所述用户操作识别模块（303）识别所述音视频播放模块（302）播放所述浏览数据信息流时用户的操作模式，包括视频移动操作和视频跳转操作，在识别到所述视频移动操作时，所述音视频播放模块（302）播放所述浏览数据信息流的下一条或上一条音视频，在识别到视频跳转操作时，所述音视频播放模块（302）根据操作所对应的所述标签，跳转到对应的播放数据信息流进行播放。

2.根据权利要求1所述的一种多类型音视频混播系统，其特征在于，

所述用户操作识别模块（303）的识别模式中，包括返回操作，

在播放所述播放数据信息流状态下，所述用户操作识别模块（303）识别到返回操作时，所述音视频播放模块（302）返回所述浏览数据信息流进行播放。

3.根据权利要求2所述的一种多类型音视频混播系统，其特征在于，所述添加标签模块（201），对各个所述音视频数据进行分析，根据所示音视频的类型设定所述标签的图案，所述标签有一个或多个。

4.根据权利要求3所述的一种多类型音视频混播系统，其特征在于，所述添加标签模块（201），将所述标签添加在视频的下侧。

5.根据权利要求4所述的一种多类型音视频混播系统，其特征在于，所述视频转码模块（202），对各个所述音视频数据中的视频进行统一转码处理时，将各个浏览用音视频数据和播放用音视频数据分别调整到相同的分辨率。

6.根据权利要求1至5中任一项所述的一种多类型音视频混播系统，其特征在于，所述视频转码模块（202），对各个所述音视频数据中的视频进行统一转码处理时，生成多个不同分辨率的播放用音视频数据，所述信息流发送模块（204b），以不同的信息流向所述播放互动终端（300）发送不同分辨率的所述播放用音视频数据。

7.一种多类型音视频混播方法，其特征在于，由音视频处理器（200）和播放互动终端（300）执行，其特征在于，包括以下步骤：音视频数据接受步骤（S10），所述音视频处理器（200）接受多个音视频源发送的音视频数据，多个所述音视频数据中至少一部分为不同类型的音视频数据；

添加标签步骤（S20）, 所述音视频处理器（200）对各个所述音视频数据添加标签，所述标签与对应的所述音视频数据建立关联；

视频转码步骤（S40），所述音视频处理器（200）对各个所述音视频数据中的视频进行统一转码处理，每个所述音视频数据至少得到两个分辨率不同的音视频数据，分辨率低和/或压缩率高的音视频数据作为浏览用音视频数据，分辨率高和/或压缩率低的音视频数据作为播放用音视频数据；

视频融合步骤（S50），所述音视频处理器（200）对多个所述浏览用音视频数据进行融合处理，拼接成一个音视频数据流，作为浏览用音视频数据流；

信息流发送步骤（S60），所述音视频处理器（200）以不同的信息流向所述播放互动终端（300）发送所述浏览用音视频数据流和播放用音视频数据，发送所述浏览用音视频数据流的信息流为浏览数据信息流，发送播放用音视频数据的信息流为播放数据信息流；

信息流接受步骤（S110）,所述播放互动终端（300）接受所述音视频处理器（200）发送的浏览数据信息流和播放数据信息流；

音视频播放步骤（S120），所述播放互动终端（300）根据预设条件，选择浏览数据信息流或播放数据信息流进行播放；

用户操作识别步骤（S130）, 所述播放互动终端（300）识别播放所述浏览数据信息流时用户的操作模式，包括视频移动操作和视频跳转操作，音视频切换步骤（S130、S140、S150、S160）,在识别到所述视频移动操作时，所述播放互动终端（300）播放所述浏览数据信息流中下一条或上一条音视频，音视频跳转步骤（S130、S170、S180），所述播放互动终端（300）在识别到视频跳转操作时，根据操作所对应的所述标签，跳转到对应的播放数据信息流进行播放。

8.根据权利要求7所述的一种多类型音视频混播方法，其特征在于，

还包括返回操作识别步骤（S190），在播放所述播放数据信息流状态下，所述播放互动终端（300）识别到返回操作时，返回所述浏览数据信息流进行播放。

9.根据权利要求8所述的一种多类型音视频混播方法，其特征在于，

所述添加标签步骤（S20）中，所述播放互动终端（300）对各个所述音视频数据进行分析，根据所示音视频的类型设定所述标签的图案，所述标签包括一个或多个。

10.根据权利要求7 9中任一项所述的一种多类型音视频混播方法，其特征在于，~所述视频转码步骤（S40）中，所述音视频处理器（200）对各个所述音视频数据中的视频进行统一转码处理时，生成多个不同分辨率的播放用音视频数据，所述信息流发送步骤（S60）中，所述音视频处理器（200）以不同的信息流向所述播放互动终端（300）发送不同分辨率的所述播放用音视频数据。

一种多类型音视频混播系统及方法

[0001] 本申请要求在2022年05月11日提交中国国家知识产权局、申请号为202210532881.6、发明名称为“一种多类型音视频混播系统”的中国专利申请的优先权，其全部内容记载在本申请中。

技术领域

[0002] 本发明总体涉及音视频播放技术领域，特别涉及一种多类型音视频混播系统。

背景技术

[0003] 通过在电子设备等终端中安装有能够播放音视频的播放客户端，用户可以通过客户端欣赏音视频。相关技术中，客户端的主界面可以显示指定的分类，如“VR频道”“直播频道”等，用户可以在相应频道中查看该类型的音频文件并点击播放。但是，相关技术中难以将慢直播、4K、8K、VR垫片视频、互动视频、多机位直播等多种不同类型音频混合显示在统一的信息流当中，用户通常在同一信息流中只能查看单一类型的音视频，无法一个播放客户端界面中同时播放多种不同类型的音视频，影响了用户获得全面丰富的观看体验。

发明内容

[0004] 为针对现有技术存在的无法将不同类型音视频混合显示在同一信息流中播放等缺陷，为了至少部分地实现在同一信息流中播放多种类型音视频的目的，本发明提供了一种多类型音视频混播系统，包括：音视频采集发送模块、音视频处理器和播放互动终端，所述音视频采集发送模块分别与所述音视频处理器信号传输连接，所述播放互动终端与所示音视频处理器信号传输连接；所述音视频采集发送模块，包括第一音视频采集器、音视频编码器和音视频发送装置；所述第一音视频采集器包括亿级像素阵列像感器相机；所述音视频处理器，包括音视频类型分析模块、视频转码模块，视频融合器和信息流发送接受模块；所述播放互动终端，包括用户互动模块和音视频播放模块。

[0005] 可选的，所述音视频编码器，包括4K编码器和/或8K编码器。

[0006] 可选的，所述音视频编码器，还至少包括标清编码器、高清编码器和2K编码器其中之一。

[0007] 可选的，所述用户互动模块，包括用户习惯分析装置和第二音视频采集器。

[0008] 可选的，所述音视频播放模块，至少包括慢直播音视频播放单元、互动视频播放单元和多机位直播视频播放单元其中之一。

[0009] 可选的，所述多类型音视频混播系统，还包括存储器，所述存储器至少与所述音视频采集发送模块、音视频处理器和播放互动终端其中之一连接。

[0010] 本发明实施例提供的上述技术方案的有益效果至少包括：

[0011] 通过采集音视频的类型信息，进行音视频进行融合，并根据用户需求以同一信息流显示在同一界面上，将慢直播、4K、8K、VR垫片视频、互动视频、多机位直播等多种不同类型音频混合显示在统一的信息流当中，使用户能够在同一信息流中能够观看多种类型的音视频，大幅提升了观看体验，提高了观看效率，进一步的，缩短了等待音视频加载的时间。

[0012] 作为本发明的第一技术方案，一种多类型音视频混播系统包括：音视频处理器200、播放互动终端300，

[0013] 所述音视频处理器200包括信息流接受模块204a、信息流发送模块204b、添加标签模块、视频转码模块202、视频融合模块。

[0014] 所述信息流接受模块204a，接受多个音视频源发送的音视频数据，多个所述音视频数据中至少一部分为不同类型的音视频数据。

[0015] 所述添加标签模块，对各个所述音视频数据添加标签，所述标签与对应的所述音视频数据建立关联。

[0016] 视频转码模块202，对各个所述音视频数据中的视频进行统一转码处理，每个所述音视频数据至少得到两个分辨率不同的音视频数据，分辨率低和/或压缩率高的音视频数据作为浏览用音视频数据，分辨率高和/或压缩率低的音视频数据作为播放用音视频数据。

[0017] 视频融合模块，对多个所述浏览用音视频数据进行融合处理，拼接成一个音视频数据流，作为浏览用音视频数据流。

[0018] 信息流发送模块204b，以不同的信息流向所述播放互动终端300发送所述浏览用音视频数据流和播放用音视频数据，发送所述浏览用音视频数据流的信息流为浏览数据信息流，发送播放用音视频数据的信息流为播放数据信息流。

[0019] 所述播放互动终端300，包括通信模块304、音视频播放模块302，用户操作识别模块303。

[0020] 所述通信模块304接受所述音视频处理器200发送的浏览数据信息流和播放数据信息流。

[0021] 所述音视频播放模块302，根据预设条件，选择浏览数据信息流或播放数据信息流进行播放。

[0022] 所述用户操作识别模块303识别所述音视频播放模块302播放所述浏览数据信息流时用户的操作模式，包括视频移动操作和视频跳转操作，在识别到所述视频移动操作时，所述音视频播放模块302播放所述浏览数据信息流的下一条或上一条音视频，在识别到视频跳转操作时，所述音视频播放模块302根据操作所对应的所述标签，跳转到对应的播放数据信息流进行播放。

[0023] 由于1）将不同类型的音视频数据进行统一转码，生成视格式统一的音视频数据，并且对应于转码前的音视频数据，转码后至少具有两个视频格式相同，分辨率和/或压缩率不同的音视频数据，分辨率低和/或压缩率高的音视频数据作为浏览用音视频数据，分辨率高和/或压缩率低的音视频数据作为播放用音视频数据，2）各个浏览用音视频数据融合成一个音视频数据流通过信息流发送给播放互动终端300，播放用音视频数据通过其他信息流发送给播放互动终端300，因此，播放互动终端300在播放浏览音视频信息流时，例如能够通过滑动操作浏览原本不同类型的音视频，需要观看高质量的视频时，例如点击标签即可跳转到高质量的视频。

[0024] 整个播放过程中，无论浏览用音视频数据还是播放用音视频数据，由于音视频格式相同，音视频播放模块302不用为格式的不同而重新加载，在浏览音视频或跳转时，不用为加载数据而出现时间上延迟，音视频的衔接顺滑，提高了用户的观看体验。

[0025] 优选，所述用户操作识别模块303的识别模式中，包括返回操作，

[0026] 在播放所述播放数据信息流状态下，所述用户操作识别模块303识别到返回操作时，所述音视频播放模块302返回所述浏览数据信息流进行播放。

[0027] 因此，用户能够在需要时，返回浏览用音视频，实现在浏览视频和播放视频之间的随意切换。

[0028] 优选，所述添加标签模块，对各个所述音视频数据进行分析，根据所示音视频的类型设定所述标签的图案，所述标签有一个或多个。

[0029] 因此，用户能够根据标签的图案确认音视频的类型。

[0030] 优选，所述添加标签模块，将所述标签添加在视频的下侧。

[0031] 因此，标签不仅容易操作，还不会妨碍用户的视频观看。

[0032] 优选，所述视频转码模块202，对各个所述音视频数据中的视频进行统一转码处理时，将各个浏览用音视频数据和播放用音视频数据分别调整到相同的分辨率。

[0033] 因此，在浏览或观看时，不会因为视频的切换而产生违和感。

[0034] 优选，所述视频转码模块202，对各个所述音视频数据中的视频进行统一转码处理时，生成多个不同分辨率的播放用音视频数据，所述信息流发送模块204b，以不同的信息流向所述播放互动终端300发送不同分辨率的所述播放用音视频数据。

[0035] 因此，在播放互动终端300，用户能够根据实际需要，例如处理能力、网速等选择合适的分辨率播放，避免卡顿等问题发送。

[0036] 作为本发明的第二技术方案，一种多类型音视频混播方法，由音视频处理器200和播放互动终端300执行，包括以下步骤：音视频数据接受步骤S10，所述音视频处理器200接受多个音视频源发送的音视频数据，多个所述音视频数据中至少一部分为不同类型的音视频数据。

[0037] 添加标签步骤S20, 所述音视频处理器200对各个所述音视频数据添加标签，所述标签与对应的所述音视频数据建立关联。

[0038] 视频转码步骤S40，所述音视频处理器200对各个所述音视频数据中的视频进行统一转码处理，每个所述音视频数据至少得到两个分辨率不同的音视频数据，分辨率低和/或压缩率高的音视频数据作为浏览用音视频数据，分辨率高和/或压缩率低的音视频数据作为播放用音视频数据。

[0039] 视频融合步骤S50，所述音视频处理器200对多个所述浏览用音视频数据进行融合处理，拼接成一个音视频数据流，作为浏览用音视频数据流。

[0040] 信息流发送步骤S60，所述音视频处理器200以不同的信息流向所述播放互动终端300发送所述浏览用音视频数据流和播放用音视频数据，发送所述浏览用音视频数据流的信息流为浏览数据信息流，发送播放用音视频数据的信息流为播放数据信息流。

[0041] 信息流接受步骤S110,所述播放互动终端300接受所述音视频处理器200发送的浏览数据信息流和播放数据信息流。

[0042] 音视频播放步骤S120，所述播放互动终端300根据预设条件，选择浏览数据信息流或播放数据信息流进行播放。

[0043] 用户操作识别步骤S130, 所述播放互动终端300识别播放所述浏览数据信息流时用户的操作模式，包括视频移动操作和视频跳转操作，音视频切换步骤S130、S140、S150、S160,在识别到所述视频移动操作时，所述播放互动终端300播放所述浏览数据信息流中下一条或上一条音视频，音视频跳转步骤S130、S170、S180，所述播放互动终端300在识别到视频跳转操作时，根据操作所对应的所述标签，跳转到对应的播放数据信息流进行播放。

[0044] 优选，还包括返回操作识别步骤S190，在播放所述播放数据信息流状态下，所述播放互动终端300识别到返回操作时，返回所述浏览数据信息流进行播放。

[0045] 优选，所述添加标签步骤S20中，所述播放互动终端300对各个所述音视频数据进行分析，根据所示音视频的类型设定所述标签的图案，所述标签包括一个或多个。

[0046] 优选，所述视频转码步骤S40中，所述音视频处理器200对各个所述音视频数据中的视频进行统一转码处理时，生成多个不同分辨率的播放用音视频数据，所述视频融合步骤S50中，对各个所述音视频数据中的视频进行统一转码处理时，生成多个不同分辨率的播放用音视频数据，所述信息流发送步骤S60中，所述音视频处理器200以不同的信息流向所述播放互动终端300发送不同分辨率的所述播放用音视频数据。

附图说明

[0047] 图1为本发明实施例中一种多类型音视频混播系统结构示意图；

[0048] 图2为本发明实施例中一种多类型音视频混播系统中的存储器示意图；

[0049] 图3为本发明实施例中多类型音视频在播放互动终端混播界面截图；

[0050] 图4示出了作为第二实施例的多类型音视频混播系统结构示意图；

[0051] 图5示出了第二实施例的多类型音视频混播系统的结构款图；

[0052] 图6示出了第二实施例中，音视频处理器中的工作流程图；

[0053] 图7示出了第二实施例中，智能手机中的工作流程图；

[0054] 图8示出了第二实施例中，浏览视频时，视频的移动说明图。实施方式

[0055] 下面对本发明的较佳实施例进行详细阐述，参考标号是指本发明中的组件、技术，以便本发明的优点和特征在适合的环境下实现能更易于被理解。下面的描述是对本发明权利要求的具体化，并且与权利要求相关的其它没有明确说明的具体实现也属于权利要求的范围。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

[0056] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

[0057] 为了解决现有技术中存在的问题，本发明实施例提供一种多类型音视频混播系统。

[0058] 本发明实施例一提供一种多类型音视频混播系统，其结构如图1所示，音视频采集发送模块100、音视频处理器200和播放互动终端300，所述音视频采集发送模块100分别与所述音视频处理器200信号传输连接，所述播放互动终端300与所示音视频处理器200信号传输连接；

[0059] 所述音视频采集发送模块100，包括第一音视频采集器101、音视频编码器102和音视频发送装置103；

[0060] 第一音视频采集器101可通过音视频传输接口从包括数字摄像机、摄像头、智能手机等直播设备采集直播音视频，也可以通过数据传输接口或网络传输接口从服务器、存储器等存储设备采集音视频。

[0061] 所述第一音视频采集器101包括亿级像素阵列像感器相机1011。亿级像素阵列像感器相机1011总分辨率1.2亿像素，多镜头阵列式相机，每个镜头输出视频分辨率达到4K（3840x2160），总水平视场角40度，总垂直视场角13度，帧率不低于25fps，总码率200~300Mbps可调，客户端方式为支持8k、4k、1080P、720P等标准分辨率直播，支持8K以下任意分辨率直播，交互延时小于300ms，可以实时截图，单张图片达到1.2亿相素。

[0062] 可选的，所述音视频编码器102，包括4K编码器和/或8K编码器。

[0063] 可选的，所述音视频编码器102，还至少包括标清编码器、高清编码器和2K编码器其中之一。

[0064] 音视频发送装置103，将编码后的音视频通过多种传输形式发送给音视频处理器200。在对音视频处理器200的传输出现异常时，将编码后的音视频传输至存储器中，并将音视频传输信息和存储器地址等信息传输至音视频处理器200。

[0065] 所述音视频处理器200，包括音视频类型分析模块201、视频转码模块202、视频融合器203和信息流发送接受模块204；

[0066] 音视频类型分析模块201将对音视频类型进行分析，并添加相应的标签。用户可点击播放图标或标签信息跳转至全屏进一步查看视频详情，展示视频的技术标签信息，如8K、HDR、帧率。标签包括但不限于：8K、4K、VR、慢直播、多机位直播、互动视频。

[0067] 视频转码模块202，通过对输入的视频文件进行智能转码处理，实现解码支持的输入格式包括但不限于H.264、H.265、VP9，编码支持的输出格式包括但不限于H.264、H.265、VP9，支持的视频封装格式包括但不限于mp4、mov、mkv、avi；通过对内容复杂度自适应的码率控制，根据输入视频的纹理复杂度、运动复杂度以及预编码结果，实现自适应的确定输出视频的编码码率；通过对感兴趣区域编码，实现可基于场景进行码率控制；通过基于深度学习的视频前处理提高视频质量，可对视频进行自适应的画面修复处理，包括锐化、降噪、去压缩失真等；包括多分辨率输出，包括同分辨率输出、上采样及下采样。具体的，在8K转码方面，支持涵盖8K、4K、1080P、720P分辨率的转码，最高可以对8K输入内容进行转码处理，并同时输出多分辨率文件，支持涵盖H.264、hevc, AV1格式的8K编解码能力；支持8K分辨率内容的HLS格式输出；支持8K超高清视频的输入与处理，支持24fps、25fps、30fps, 50fps、60fps帧率输入；支持SDR、HDR输入；支持mp4、mov、mkv、avi视频格式输入。

[0068] 视频融合器203包括单颗CPU、独立显卡两块、万兆网口，其中CPU不低于二十核心，主频不低于2.5GHz，提供不低于48TB存储空间，支持RAID10；内置亿级像素视频数据处理软件；单服务器支持16路以上4K视频输入，同时同步解码；通过拼接融合为1.2亿像素以上视频，实现画布漫游式远程观看，纯Web浏览实时视频，无需安装插件，能够实现20人同时观看任意不同拍摄区域，独立自由缩放、平移交互，交互时延低于300ms，以及多路视频转发。亿级像素阵列像感器相机1011和对应的视频融合器203中，通过亿级像素阵列像感器相机1011和对应的视频融合器203，提供亿级像素融合的视频流输出，相机提供搞分辨率拍摄输入能力，融合器提供拼接融合能力；端上提供SDK，支持画布漫游式远程观看，支持web端浏览实时视频，无需安装对应插件；支持在端上通过SDK访问，支持20人同时观看任意不同拍摄区域，支持独立自有缩放、平移交互；支持多路视频转发。

[0069] 信息流发送接受模块204，将音视频处理器200处理后的音视频数据等信息发送至播放互动终端300，接受来自播放互动终端300的音视频数据、用户习惯信息等信息。

[0070] 所述播放互动终端300，包括用户互动模块301和音视频播放模块302。

[0071] 可选的，所述用户互动模块301，包括用户习惯分析装置和第二音视频采集器。

[0072] 用户习惯分析装置，结合用户指定登录状态信息，根据用户画像，提供精准的内容推荐服务，帮助客户完成新用户冷启动；同时，通过持续的算法学习，不断更新用户的内容偏好，持续推荐感兴趣的内容，更好地留存用户。

[0073] 第二音视频采集器，提供互动视频云服务，包括互动视频播放SDK、互动视频创作子系统、互动视频播控与媒体分发子系统、互动视频支撑子系统等，互动视频创作子系统，支持互动视频在线创作、发布、审核，可根据本项目需求进行界面定制；互动视频创作子系统为创作者提供一站式互动视频内容生产平台，支持用户通过云端可视化制作工具，为视频添加分支选择、视角切换、画面交互等互动组件，使视频具备互动能力；提供互动视频的账号管理、媒资管理（上传、转码、编目、审核、发布）、汇聚分发、统计分析等功能；创作者能够一站式在平台上的完成互动视频作品创作、编辑、审核与项目发布、数据浏览与分析等全流程；互动视频支撑子系统，提供互动视频统计等功能。

[0074] 可选的，所述音视频播放模块302，至少包括慢直播音视频播放单元、互动视频播放单元和多机位直播视频播放单元其中之一。

[0075] 慢直播音视频播放单元，通过在播放互动终端300上提供SDK，支持画布漫游式远程观看，支持web端浏览实时视频，无需安装对应插件；通过SDK访问，实现20人同时观看任意不同拍摄区域，独立自有缩放、平移交互及多路视频转发。

[0076] 互动视频播放单元，通过提供双端SDK，实现互动视频播放，实现互动视频内容在端上的播放、缓冲、渲染、交互等功能；包括时间域互动（如分支选择），空间域互动（如视角切换）和事件型互动（如画面交互）等不同互动方式；可采集用户互动数据，供互动视频创作平台统计分析并指导创作者再创作。

[0077] 多机位直播视频播放单元，基于互联网的多视角直播信号的RTMP或SRT的推送，支持基于互联网的多视角直播信号的RTC同步分发。由于互联网的延迟不确定性，一场直播的不同视角信号在传输和分发过程中会有不同程度的延迟，解决方案应支持根据信源的SEI 时码信息进行多视角信号的自动同步对齐；客户端在收看多视角直播时，列出多视角的信息和各个视角的实时截图，实时截图自动刷新间隔为10s；播放互动终端300在收看多视角直播时，无缝地视角切换：切换视角过程中，直播的音频连续、不可有任何中断；切换后的视角视频应自动与音频对齐；支持多种部署方式，如采用私有化部署方式，当平台的分发能力不够时，可自动调用第三方CDN的RTC直播分发能力；系统支持4路多视角同步切换，支持100路并发观看。

[0078] 可选的，所述多类型音视频混播系统，还包括存储器，如图2所示，所述存储器至少与所述音视频采集发送模块100、音视频处理器200和播放互动终端300其中之一连接。在网络情况不好时，通过延迟播放提升播放流畅性，并在界面上提示视频正在加载，同时音视频采集发送模块100、音视频处理器200和播放互动终端300其中任一可以通过读取存储器中的音视频实现加载，缩短了等待音视频加载的时间。

[0079] 如图3所示，采用本技术方案，发明人在手机APP京8中实现了多类型音视频的同一信息流混合播放，图3展示了VR视频、4K视频、裸眼3D视频和互动视频的混合播放，移动客户端中不同类型的音视频具有统一、和谐的播放界面，形成了较好的观看体验。同时每种类型的音视频都会在界面展示其对应的标签。VR视频将展示“VR 60 全景重新记录世界”标签，4K视频展示“4K超高清体验标签”等。当用户点击这些标签后，将进入该类型视频详情页面进行进一步观看。

[0080] 本发明实施例的上述系统，通过采集音视频的类型信息，进行音视频进行融合，并根据用户需求以同一信息流显示在同一界面上，将慢直播、4K、8K、VR垫片视频、互动视频、多机位直播等多种不同类型音频混合显示在统一的信息流当中，使用户能够在同一信息流中能够观看多种类型的音视频，大幅提升了观看体验，提高了观看效率，进一步的，缩短了等待音视频加载的时间。

[0081] 以下对本发明的第二实施例进行说明。

[0082] 图4示出了作为第二实施例的多类型音视频混播系统结构示意图。

[0083] 音视频分别由VR360摄像机100a、4K摄像机100b、裸眼3D视频数据库100c和互动视频数据库100d产生。4路音视频分别通过互联网发送到音视频处理器200，经处理后推送到智能手机300。智能手机300对应于播放互动终端。

[0084] 音视频处理器200所获取的4路视频：VR视频、4K视频通过摄像机直接采集，裸眼3D视频、互动视频通过数据传输接口从服务器采集。这些视频已经过音视频采集器各自的音视频编码器的编码封装，具有不同的类型：不同的编解码格式和封装格式以及分辨率等特性。

[0085] 例如：VR视频编码、封装格式为H.264，avi；4K视频编码、封装格式VP9，avi；裸眼3D视频编码、封装格式为H.265，mp4；互动视频编码、封装格式为H.264，mkv。

[0086] 如图5所示，VR360摄像机100a、4K摄像机100b、裸眼3D视频数据库100c和互动视频数据库100d分别通过各自的音视频发送装置将音视频发送至信息流接收模块204a，信息流接收模块204a接受后由音视频类型分析模块201进行类型分析和标签添加。

[0087] 音视频类型分析模块201对应于添加标签模块。

[0088] 视频转码模块202，对各个音视频数据中的视频进行统一转码处理，每个音视频数据至少得到两个分辨率不同的音视频数据，分辨率低和/或压缩率高的音视频数据作为浏览用音视频数据，分辨率高和/或压缩率低的音视频数据作为播放用音视频数据。

[0089] 视频融合模块203，对多个浏览用音视频数据进行融合处理，拼接成一个音视频数据流，作为浏览用音视频数据流。

[0090] 信息流发送模块204b，以不同的信息流通过互联网向智能手机300发送浏览用音视频数据流和播放用音视频数据，发送浏览用音视频数据流的信息流称为浏览数据信息流，发送播放用音视频数据的信息流称为播放数据信息流。

[0091] 如图5所示，智能手机300包括通信模块304、音视频播放模块302，用户操作识别模块303。

[0092] 通信模块304接受音视频处理器200发送的浏览数据信息流和播放数据信息流。音视频播放模块302，根据预设条件，选择浏览数据信息流或播放数据信息流进行播放。在本实施例中，音视频播放模块302初始启动时，自动选择浏览数据信息流播放。

[0093] 用户操作识别模块303识别音视频播放模块302播放浏览数据信息流时用户的操作模式，包括视频移动操作和视频跳转操作。本实施例中，为移动操作为在触摸显示屏上用户进行上下滑动时的操作，视频跳转操作为用户点击标签的操作。

[0094] 在播放浏览数据信息流的状态下，识别到视频移动操作时，音视频播放模块302播放浏览数据信息流的下一条或上一条音视频，在识别到视频跳转操作时，音视频播放模块302根据操作所对应的标签，跳转到对应的播放数据信息流进行播放。

[0095] 图6示出了第二实施例中，音视频处理器中的工作流程图。如图6所示，[0096] 在步骤S10中，信息流接受模块204a接受VR360摄像机100a、4K摄像机100b、裸眼3D视频数据库100c和互动视频数据库100d发送的不同类型的音视频信息流。

[0097] 在步骤S20中，音视频类型分析模块201对各音视频的类型进行分析，得到分析结果。例如得到“VR360全景重新记录世界”、“4K超高清体验”、“裸眼3D炫酷视觉盛宴”、“互动视频互动高清体验”以及信息发布人名等。

[0098] 在步骤S30中，音视频类型分析模块201根据分析结果，

[0099] 例如生成“VR360全景重新记录世界”、“4K超高清体验”、“裸眼3D炫酷视觉盛宴”、“互动视频互动高清体验”的图形，该图像作为标签分别添加到各个视频的下侧。即，“VR360全景重新记录世界”标签添加到VR视频，“4K超高清体验”标签添加到4K视频，“裸眼3D炫酷视觉盛宴”标签添加到裸眼3D视频，“互动视频互动高清体验”标签添加到互动视频。各个标签与被添加的音视频建立关联，当用户点击这些标签后，就能跳转到该视频的详情页面进行进一步观看。

[0100] 在步骤S40中，视频转码模块202将VR视频，4K视频，裸眼3D视频，互动视频统一转码为格式统一的视频，例如：编码格式为H.264，封装格式为avi的视频。转码只针对视频，与标签、音频的关联均保持不变。在转码时，每个音视频数据至少得到三个分辨率不同的视频数据：4K、1080P、720P视频。其中1080P作为浏览用音视频数据，其余作为播放用音视频数据。播放用音视频数据上可以进行进一步处理，如添加字幕标识等能提高用户体验的处理。

[0101] 在步骤S50中，视频融合模块203，对4个分辨率为1080的浏览用音视频数据进行融合处理，拼接成一个音视频数据流，作为浏览用音视频数据流。即，视频融合模块203将分辨率为1080P，格式为H.264，avi的VR视频，4K视频，裸眼3D视频，互动视频融合生成1080p融合视频，作为浏览用音视频数据流。

[0102] 在步骤S60中，信息流发送模块204b以不同的信息流向智能手机300发送浏览用音视频数据流和播放用音视频数据，发送浏览用音视频数据流的信息流称为浏览数据信息流，发送播放用音视频数据的信息流称为播放数据信息流。在本实施例中，播放数据信息流有三个，对应的分辨率分别为4K、1080P、720P视频。

[0103] 图7示出了第二实施例中，智能手机中的工作流程图。

[0104] 智能手机30采用触摸屏显示，用户能够对显示的视频进行操作。

[0105] 在步骤S110中，初始时，智能手机300中的通信模块304接受信息流发送模块204b发送的浏览数据信息流。

[0106] 在步骤S120中，音视频播放模块302播放浏览数据信息流中顺序第一的音视频。此时在用户打开的手机界面上显示观看视频的页面，页面上显示信息流中的第一个视频，在播放过程中，用户需求播放下一个视频时，在触摸幕上上下滑动。

[0107] 在步骤S130中，用户操作识别模块303识别用户在触摸屏上是否有上下滑动的操作或点击标签的操作。有上下滑动操作时进入步骤S140，有点击标签的操作时，作为跳转操作，进入步骤S170。

[0108] 在骤S140中，用户操作识别模块303判别用户在触摸屏上的操作是否为下滑操作，下滑操作时进入步骤S150，音视频播放模块302播放浏览数据信息流中的下一个音视频后，返回步骤S130。

[0109] 判定为不是下滑操作时进入步骤S160，音视频播放模块302播放浏览数据信息流中的上一个音视频后，返回步骤S130。初始时，由于播放的是第一音视频，没有上一条，播放的音视频不变。作为变形例，也可以设置成循环移动，初始时，播放信息流中最后的音视频。

[0110] 图8示出了浏览视频时，视频的移动说明图。用户提供向下滑动，智能手机300上显示的视频分别按“VR360全景重新记录世界”、“4K超高清体验”、“裸眼3D炫酷视觉盛宴”、“互动视频互动高清体验”的顺序切换，同样向上滑动时，视频反向切换。

[0111] 各个视频的标签添加在视频P1 P4的下侧区域b1 b4中。作为变形例，统一转码时~ ~也可以同时改变压缩率。

[0112] 以上对本发明的第二实施例进行了说明。

[0113] 现有技术中，通常在客户端主界面显示指定的分类，如“VR频道”、“直播频道”，用户在相应的频道中查看该类型的音视频文件并点击播放。由于同一信息流中只能查看单一类型的，无法在一个客户端界面中同时播放多种不同类型的音视频，在观看视频时，如果类型不同，需要不行切换信息流，不仅操作繁琐，还需要等待音视频的加载时间，降低用户的观看体验。

[0114] 而本发明由于1）将不同类型的音视频数据进行统一转码，生成视格式统一的音视频数据，并且对应于转码前的音视频数据，转码后至少具有两个视频格式相同，分辨率和/或压缩率不同的音视频数据，分辨率低和/或压缩率高的音视频数据作为浏览用音视频数据，分辨率高和/或压缩率低的音视频数据作为播放用音视频数据。

[0115] 2）各个浏览用音视频数据融合成一个音视频数据流通过信息流发送给智能手机，播放用音视频数据通过其他信息流发送给智能手机，因此，智能手机在播放浏览音视频信息流时，例如能够通过滑动操作浏览原本不同类型的音视频，需要观看高质量的视频时，例如点击标签即可跳转到高质量的视频。

[0116] 整个播放过程中，无论浏览用音视频数据还是播放用音视频数据，由于音视频格式相同，音视频播放模块302不用为格式的不同而重新加载，在浏览音视频或跳转时，不用为加载数据而出现时间上延迟，音视频的衔接顺滑，提高了用户的观看体验。

[0117] 应该注意的是，上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。

一种多类型音视频混播系统及方法转让专利

申请号 : CN202210813711.5

文献号 : CN115225928B

文献日 : 2023-07-25

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 陈祥 , 毕江 , 芮浩 , 赵涛 , 冯澈 , 李浩楠 , 欧晓霄 , 宋峥

申请人 : 北京广播电视台

摘要 :

权利要求 :

说明书 :

一种多类型音视频混播系统及方法

技术领域

背景技术

发明内容

附图说明