一种超高清音视频通信方法、系统及计算机可读存储介质转让专利

申请号 : CN202211659282.7

文献号 : CN115643427B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王先来

申请人 : 广州佰锐网络科技有限公司

摘要 :

本发明公开了一种超高清音视频通信方法、系统及计算机可读存储介质,该超高清音视频通信方法,通过多路4K超高清采集设备采集4K超高清细腻的视频画面,可以满足用户使用超高清设备进行超高清音视频通信,实现清晰高效的沟通。超高清音视频通信系统具有自适应硬件编解码模块,可自动选择使用最佳的显卡,提高工作效率;使用GPU渲染图像,加快渲染速度,使客户可以流畅的观看4K超高清视频;采用优化的画中画算法,以支持多路4K视频流高效缩放叠加形成画中画,满足用户对于多种不同场景下进行4K超高清音视频通信。

权利要求 :

1.一种超高清音视频通信方法,其特征是,包括如下步骤:

高清音视频多路采集步骤,通过多路4K画面采集设备采集视频数据,通过输入音频采集设备采集音频数据;

格式匹配步骤,识别所述多路4K画面采集设备各自采集的视频数据的画面的格式是否为YUV格式,若存在视频数据的画面为非YUV格式,则将其对应的4K画面采集设备所采集的视频数据进行解码处理,通过转码处理将其画面转为YUV格式后再进行编码处理,从而输出格式匹配的视频数据;

音视频同步步骤,对所采集的视频数据和音频数据进行时间同步处理得到音视频数据;若所述格式匹配步骤中存在视频数据的画面为非YUV格式,则在时间同步处理中将与该视频数据对应的音频数据延迟该视频数据解码处理、转码处理和编码处理所需总时长;

画中画处理步骤,根据用户的输入操作对多个所述4K画面采集设备采集的视频数据的画面进行像素叠加处理和缩放处理,将经过所述像素叠加处理和缩放处理的视频数据显示在用户指定区域;

传输步骤,将经过所述时间同步处理的音视频数据以数据包分片的形式向外传输,所述数据包分片的大小与所述格式匹配步骤中的非YUV格式视频数据数量和画中画处理步骤中进行像素叠加处理和缩放处理的视频数据数量均负相关。

2.根据权利要求1所述的超高清音视频通信方法,其特征是,所述高清音视频多路采集步骤中,4K画面采集设备包括4K摄像头和4K采集卡。

3.根据权利要求1所述的超高清音视频通信方法,其特征是,所述画中画处理步骤还包括画面透明通道调整步骤,对进行像素叠加处理的多层画面分别增强透明度以实现画中画处理的叠加画面的透明显示。

4.根据权利要求1或3所述的超高清音视频通信方法,其特征是,所述音视频同步步骤中,包括音频标签插入步骤,对所述音视频数据:获取其音频数据在预设时间节点的音频帧的低通幅值作为音频标签;在同一预设时间节点分别抽取全部视频数据的视频帧,通过离散余弦变换的图像压缩将所述音频标签分别嵌入各个视频帧中,在音视频数据向外传输后能够进行音视频同步的自动校验来检查因传输导致的音画不同步问题。

5.根据权利要求4所述的超高清音视频通信方法,其特征是,所述低通幅值作为音频标签是指:对所述低通幅值依次进行多阶处理以得到多阶矩阵,将多阶矩阵的全部多阶矩阵特征值的序列作为音频标签。

6.根据权利要求5所述的超高清音视频通信方法,其特征是,将所述音频标签分别嵌入各个视频帧是指:分别提取各个视频帧预设区域的YUV数据的亮度分量,在进行离散余弦变换的图像压缩处理时,以音频标签的序列的值来修改所述亮度分量在离散余弦变换中的交流分量的中高频系数,从而将所述音频帧嵌入所述视频帧中。

7.根据权利要求1所述的超高清音视频通信方法,其特征是,包括在高清音视频多路采集步骤之前执行的自动设备检测步骤,包括摄像头扫描自检,判断是否完成预设的4K分辨率在预设帧率下的采集;以及包括麦克风扫描自检,通过录音并播放所录制的音频对比以识别麦克风录制和播放状态。

8.计算机可读存储介质,其存储有计算机程序,其特征是,所述计算机程序被处理器执行时能够实现权利要求1 7中任一项所述的超高清音视频通信方法。

~

9.超高清音视频通信系统,包括处理器以及分别与所述处理器通信的4K画面采集设备和输入音频采集设备,其特征是,还包括如权利要求8所述的计算机可读存储介质,该计算机可读存储介质上的计算机程序可被处理器执行。

说明书 :

一种超高清音视频通信方法、系统及计算机可读存储介质

技术领域

[0001] 本发明涉及超高清通信技术领域,特别涉及一种超高清音视频通信方法、系统及计算机可读存储介质,计算机可读存储介质被处理器执行时能实现超高清音视频通信方法。

背景技术

[0002] 随着5G高速网络的普及,音视频通信技术飞速发展,功能日新月异。传统的音视频通信软件,由于清晰度,分辨率,音质画质等问题,逐渐不满足中高端音视频通信应用的需求。特别是对于4K超高清(即4K分辨率UltraHD)视频通信场景,现有的音视频通信方式存在编解码缓慢、传输丢帧、延时极大等问题,无法满足多种多样尤其是超高清视频通信的需求。因此,研发一种能满足流畅进行4K超高清音视频通信方式是个亟待解决的问题。

发明内容

[0003] 本发明所要解决的技术问题是提供一种超高清音视频通信方法,存储有被执行时实现上述方法的计算机程序的计算机可读存储介质,包括该存储介质的系统,该超高清音视频通信方法能够维持清晰流畅的4K超高清实时通信。
[0004] 提供一种超高清音视频通信方法,在当前设备上实现音视频的采集、播放和向外传输,包括如下步骤:
[0005] 高清音视频多路采集步骤,通过多路4K画面采集设备采集视频数据,通过输入音频采集设备采集音频数据;
[0006] 格式匹配步骤,识别所述多路4K画面采集设备各自采集的视频数据的画面的格式是否为YUV格式,若存在视频数据的画面为非YUV格式,则将其对应的4K画面采集设备所采集的视频数据进行解码处理,通过转码处理将其画面转为YUV格式后再进行编码处理,从而输出格式匹配的视频数据;
[0007] 音视频同步步骤,对所采集的视频数据和音频数据进行时间同步处理得到音视频数据;若所述格式匹配步骤中存在视频数据的画面为非YUV格式,则在时间同步处理中将与该视频数据对应的音频数据延迟该视频数据解码处理、转码处理和编码处理所需总时长;
[0008] 画中画处理步骤,在当前设备上对所采集的音视频进行播放时,根据用户的输入操作对多个所述4K画面采集设备采集的视频数据的画面进行像素叠加处理和缩放处理,将经过所述像素叠加处理和缩放处理的视频数据显示在用户指定区域;
[0009] 传输步骤,将经过所述时间同步处理的音视频数据以数据包分片的形式向外传输,所述数据包分片的大小与所述格式匹配步骤中的非YUV格式视频数据数量和画中画处理步骤中进行像素叠加处理和缩放处理的视频数据数量均负相关。
[0010] 优选地,所述高清音视频多路采集步骤中,4K画面采集设备包括4K摄像头和4K采集卡。
[0011] 优选地,所述画中画处理步骤还包括画面透明通道调整步骤,对进行像素叠加处理的多层画面分别增强透明度以实现画中画处理的叠加画面的透明显示。
[0012] 优选地,所述画中画处理步骤中,包括对从外部接收的多个音视频进行画中画处理时执行的音频匹配步骤,识别各个音视频画面所对应的音频数据,得到语音识别结果;基于所述语音识别结果,获取所述语音数据相匹配的多个画面采集通道进行所述画中画处理。
[0013] 优选地,所述语音数据相匹配是指语音重复性达预设程度,则择一显示这些语音数据所对应4K画面采集设备采集的画面。
[0014] 优选地,所述语音数据相匹配是指多路4K画面采集设备采集的画面所对应的音频数据具有连续性,则禁用对这些画面的画中画处理。
[0015] 优选地,所述音视频同步步骤中,包括音频标签插入步骤,对所述音视频数据:获取其音频数据在预设时间节点的音频帧的低通幅值作为音频标签;在同一预设时间节点分别抽取全部视频数据的视频帧,通过离散余弦变换的图像压缩将所述音频标签分别嵌入各个视频帧中。
[0016] 优选地,所述低通幅值作为音频标签是指:对所述低通幅值依次进行多阶处理以得到多阶矩阵,将多阶矩阵的全部多阶矩阵特征值的序列作为音频标签。
[0017] 优选地,多阶处理是指一阶矩处理和二阶矩处理,所述音频标签是指组成二阶矩阵的二阶矩阵特征值的序列。
[0018] 优选地,将所述音频标签分别嵌入各个视频帧是指:分别提取各个视频帧预设区域的YUV数据的亮度分量,在进行离散余弦变换的图像压缩处理时,以音频标签的序列的值来修改所述亮度分量在离散余弦变换中的交流分量的中高频系数,从而将所述音频帧嵌入所述视频帧中。
[0019] 优选地,包括在高清音视频多路采集步骤之前执行的自动设备检测步骤,包括摄像头扫描自检,判断是否完成预设的4K分辨率在预设帧率下的采集;以及包括麦克风扫描自检,通过录音并播放所录制的音频对比以识别麦克风录制和播放状态。
[0020] 还提供一种超高清音视频通信系统,包括处理器以及分别与所述处理器通信的多路4K画面采集设备和输入音频采集设备,还包括预先存储的上述计算机可读存储介质,该计算机可读存储介质上的计算机程序可被处理器执行。
[0021] 有益效果:该超高清音视频通信方法,通过多路4K超高清采集设备采集4K超高清细腻的视频画面,可以满足用户使用超高清设备进行超高清音视频通信,实现清晰高效的沟通。超高清音视频通信系统具有自适应硬件编解码模块,可自动选择使用最佳的显卡,提高工作效率;使用GPU渲染图像,加快渲染速度,使客户可以流畅的观看4K超高清视频;采用优化的画中画算法,以支持多路4K视频流高效缩放叠加形成画中画,满足用户对于多种不同场景下进行4K超高清音视频通信。

附图说明

[0022] 图1是超高清音视频通信方法的步骤流程图。
[0023] 图2是超高清音视频通信方法的逻辑处理流程示意图。

具体实施方式

[0024] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025] 本实施例的超高清音视频通信系统包括自动设备检测模块,4K多路采集模块、自适应硬件编解码模块、高效网络传输模块、快速裁剪显示处理模块、多平台高性能渲染模块和画中画模块,各个模块分别连接处理器并通过处理器执行预先录制的计算机程序实现各个模块功能。该超高清音视频的多路4K画面采集设备和输入音频采集设备可用于远程问诊,视频会议,远程开户等诸多金融,医疗领域,让用户体验到超高清的音视频通话,告别模糊,卡顿的低画质不流畅体验,有效的帮助人类提高了信息表达和传递的效率,扩展了音视频通话的使用场景,具有较广泛的实用价值。
[0026] 本实施例的4K超高清音视频通信系统的通信过程通过如下4K超高清音视频通信方法实现,该方法首先通过自动设备检测保障设备可用;其次同时采集多路4K音视频流,将多路视频流进行画中画叠加成一路视频流;然后再送入自适应硬件编解码模块进行编码工作,编码后数据经过高效网络传输向外传输送达对端的接收端;最后接收端解码后使用快速裁剪显示算法处理视频数据,并通过多平台高性能渲染模块显示出视频。该4K超高清音视频通信系统在当前设备上实现音视频的采集、播放和向外传输,具体步骤说明如下。
[0027] 自动设备检测步骤,包括:摄像头扫描自检,检测扫描摄像头、打开摄像头、采集图像,以及判断是否完成预设的4K分辨率在预设帧率下的采集,从而评估是否为正常摄像头;麦克风扫描自检,自动通过外放播放一段音乐并录音,通过录音并播放所录制的音频对比以识别麦克风录制和播放状态判断麦克风是否正常;显卡检测步骤,读取配置信息选择最新使用的显卡,通过硬件编解码对预设的标准数据进行编解码。系统启动后自动执行自动设备检测步骤,可规避办理业务时才发现设备异常的问题,该检测无需人工操作,自动方便快捷。
[0028] 高清音视频多路采集步骤,通过多路4K画面采集设备采集视频数据,通过输入音频采集设备采集音频数据。优选地,高清音视频多路采集步骤中,4K画面采集设备包括松下、索尼、萤石等4K摄像头和圆刚、美乐威、天创恒达等4K采集卡,可采集获取NV12、YUYV、YUV420P、P010、RGB24等格式的视频流。
[0029] 格式匹配步骤,识别多路4K画面采集设备各自采集的视频数据的画面的格式是否为YUV格式,若存在视频数据的画面为非YUV格式,则将其对应的4K画面采集设备所采集的视频数据进行解码处理,通过转码处理将其画面转为YUV格式后再进行编码处理,从而输出格式匹配的视频数据。
[0030] 系统采集前先探测该指定摄像头或4K采集卡支持的格式,优先采用YUV格式,如只支持MJPG格式,则采集后会自动解码转为YUV格式再传入编解码模块;且如打开采集设备无报错,但一段时间内系统无法从正常采集设备获取到音视频数据,也会识别为错误。
[0031] 通过上述格式匹配实现自适应硬件编解码,自动扫描全部显卡,并从中选择最佳的显卡进行使用。选择最佳显卡的方式是对各个显卡传入预设的4K图像数据,进行持续一段时间的编码工作、解码工作及渲染工作,通过检测处理速度来打分,从而选择出最佳的显卡。
[0032] 音视频同步步骤,对所采集的视频数据和音频数据进行时间同步处理得到音视频数据;若格式匹配步骤中存在视频数据的画面为非YUV格式,则在时间同步处理中将与该视频数据对应的音频数据延迟该视频数据解码处理、转码处理和编码处理所需总时长。
[0033] 本实施例中,音视频同步步骤还包括音频标签插入步骤,对音视频数据:获取其音频数据在预设时间节点的音频帧(如音频播放开始的10秒后第一个有真实音频数据的帧)的低通幅值作为音频标签;在同一预设时间节点分别抽取全部视频数据的视频帧,通过离散余弦变换的图像压缩将音频标签分别嵌入各个视频帧中。通过音频标签插入步骤将音频标签以时间同步的方式嵌入各个视频帧,在音视频向外传输后能够进行音视频同步的自动校验来检查因传输导致的音画不同步问题。
[0034] 其中,低通幅值作为音频标签是指:对低通幅值依次进行多阶处理(如一阶矩处理和二阶矩处理)以得到多阶矩阵(二阶矩阵),将多阶矩阵(二阶矩阵)的全部多阶矩阵特征值(二阶矩阵特征值)的序列作为音频标签。
[0035] 其中,将音频标签分别嵌入各个视频帧是指:分别提取各个视频帧预设区域的YUV数据的亮度分量,各个视频帧的预设区域不同,如有从三路4K画面采集设备采集的视频数据中提取的三个视频帧,则以顺时针方式分别将各个视频帧角点区域作为预设区域,即分别提取三个视频帧的左上角点、右上角点和右下角点的YUV数据的亮度分量,如此则音频标签分别嵌入各个视频帧的区域不同,在后续画中画处理步骤中进行像素叠加处理和缩放处理后对画面的影响较小。
[0036] 在进行离散余弦变换的图像压缩处理时,以音频标签的序列的值来修改亮度分量在离散余弦变换中的交流分量的中高频系数,从而将音频帧数据嵌入视频帧中。本实施例将音频标签嵌入视频帧的方式与现有技术将音频与视频同步压缩处理的方式相同,在此不做赘述。
[0037] 画中画处理步骤,在当前设备上对所采集的音视频进行播放时,根据用户的输入操作对多个4K画面采集设备采集的视频数据的画面进行像素叠加处理和缩放处理,将经过像素叠加处理和缩放处理的视频数据显示在用户指定区域。
[0038] 画中画处理步骤中,还包括画面透明通道调整步骤,对多层画面依次增强透明度以实现画中画叠加画面的透明显示。具体地,通过像素叠加的方式,在采集多个4K画面后,可将指定的某几路4K画面缩放后按照指定区域叠加到其他4K画面上。并且通过对透明通道的调整,可实现画中画叠加画面呈现出透明效果。在透明度设置过程中,执行多层累进的透明度选择,最底层为0,最顶层往下依次设置为:当层m,当层透明度为最顶层的1.m倍的m次方加上m,以实现透明度的阶梯设置。
[0039] 另外,在对视频流进行缩小处理制作前景画面时,采用处理图像缩小时最佳的算法,临近插值法,加快处理速度。在对前景和后景进行叠加时,考虑到不需要有半透明状态,且前景缩放后的分辨率较小,因此没有采用ffmpeg之类的overlay滤镜,而是遍历前景的像素点并对后景对应位置进行替换,并使用NASM汇编语言编写对应的缩放及叠加算法,精简不必要的运行指令,加快处理速度。
[0040] 另外,在画中画处理步骤中,还包括对从外部接收的多个音视频进行画中画处理时执行的音频匹配步骤,识别各个4K画面采集设备采集的画面所对应的音频数据,得到语音识别结果;基于语音识别结果,获取语音数据相匹配的多个画面采集通道进行画中画处理。若语音重复性达预设程度,则择一显示这些语音数据所对应4K画面采集设备采集的画面;若多路4K画面采集设备采集的画面所对应的音频数据具有连续性,则禁用对这些画面的画中画处理。
[0041] 传输步骤,根据格式匹配步骤中的解码转码数量和画中画处理步骤中的画面叠加层数进行传输数据包分片,解码转码数量越多和画面叠加层数则对数据包的分片越频繁。由于4K数据量较大,采用udp传输时,常规会根据当前网络状态,如发送速率、接受速率、丢包率和MTU限制,主动调整数据包分包大小,快速发送,避免因传输数据包过大分片导致的丢包率增大及传输延迟,本实施例根据设备中解码转码数量和画中画处理的层数增加分片处理的频次,实现高效网络传输。
[0042] 优选地,本实施例通过快速裁剪显示算法和多平台高性能渲染实现画面优化。显示渲染前进行裁剪,可指定裁剪区域,根据原始数据yuv420格式在内存中存储特点,连续快速抽取指定区域数据,并通过NASM汇编语言编写裁剪算法,精简运行指令,从而快速到达裁剪效果。可根据当前系统来自动切换渲染方式,在WINDOWS平台,会采用WINDOWS的D3D,而在Linux、IOS、Android、及UOS等信创系统,则会采用Opengl,绕过图形显示接口(GDI)对支持该API的各种硬件直接进行底层操作。将YUV420P等格式的视频数据通过D3D接口拷贝到GPU纹理,使用着色器进行高速转码并渲染。
[0043] 该超高清音视频通信方法,通过多路4K超高清采集设备采集4K超高清细腻的视频画面,可以满足用户使用超高清设备进行超高清音视频通信,实现清晰高效的沟通。超高清音视频通信系统具有自适应硬件编解码模块,可自动选择使用最佳的显卡,提高工作效率;使用GPU渲染图像,加快渲染速度,使客户可以流畅的观看4K超高清视频;采用优化的画中画算法,以支持多路4K视频流高效缩放叠加形成画中画,满足用户对于多种不同场景下进行4K超高清音视频通信。
[0044] 如上仅为本发明创造的实施方式,不以此限定专利保护范围。本领域技术人员在本发明创造的基础上作出非实质性的变化或替换,仍落入专利保护范围。