一种编解码方法及设备转让专利

申请号 : CN202111436404.1

文献号 : CN114222124B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王兆春

申请人 : 广州波视信息科技股份有限公司

摘要 :

本发明提出一种编解码方法及设备方法,所述编码方法包括以下特征:步骤S1.获取待编码的视频帧,并根据前后帧间的关系判断是否为关键帧;步骤S2.如果当前帧为关键帧,做好标记1,写入码头,并确定出第一图像和第二图像,进行像素级标注;将所述关键帧确定的第一图像、第二图像及其对应的标注信息输入至深度神经网络,提取多级语义特征;对所述多级语义特征进行编码,生成不同层级的码流;步骤S3.如果当前帧为非关键帧,做好标记0,写入码头;则直接计算所述非关键帧与其左相邻关键帧的残差,并进行残差编码,生成残差码流信息。本发明的编解码方法利用关键帧判断以及深度神经网络,降低了编解码的成本,并且具有高度的灵活性。

权利要求 :

1.一种编码方法,所述方法包括以下特征:

步骤S1.获取待编码的视频帧,并根据前后帧间的关系判断是否为关键帧;

步骤S2.如果当前帧为关键帧,做好标记1,写入码头,并确定出第一图像和第二图像,进行像素级标注; 将所述关键帧确定的第一图像、第二图像及其对应的标注信息输入至深度神经网络,提取多级语义特征;对所述多级语义特征进行编码,生成不同层级的码流;所述步骤S2中的所述第一图像和第二图像为前景图像和背景图像;

步骤S3.如果当前帧为非关键帧,做好标记0,写入码头;则直接计算所述非关键帧与其左相邻关键帧的残差,并进行残差编码,生成残差码流信息。

2.根据权利要求1所述的编码方法,所述步骤S1通过帧间物体的光流信息进行关键帧判断。

3.根据权利要求1所述的编码方法,所述步骤S2中的多级语义特征包括:超高级语义特征、高级语义特征、中级语义特征以及低级语义特征。

4.根据权利要求1所述的编码方法,所述步骤S2中的多级语义特征的编码层级取决于解码时的视频清晰度,所述视频清晰度为超高清、高清、标清以及流畅四个不同等级。

5.根据权利要求1所述的编码方法,所述步骤S3中的编码方式为VVC编码。

6.一种编码设备,所述编码设备包含处理器以及存储器,存储器中存储有程序指令,所述程序指令运行如权利要求1‑5任一项所述的编码方法。

说明书 :

一种编解码方法及设备

技术领域

[0001] 本发明涉及编解码领域,尤其涉及一种编解码方法及设备,能够对视频帧进行高效的编解码。

背景技术

[0002] 人们对于视频质量的需求与日俱增,然而视频的数据量往往较大,存储和传输视频的硬件资源有限,成本较高,对视频进行编码压缩就显得尤为重要。这项技术深刻影响着人们生活的方方面面,包括数字电视、电影、网络视频、移动视频直播等等。
[0003] 为了达到节约空间的目的,视频图像都是经过编码后才传输的,完整的视频编码方法可以包括预测、变换、量化、熵编码、滤波等过程。其中,预测编码可以包括帧内编码和帧间编码。进一步的,帧间编码是利用视频时间域的相关性,使用邻近已编码图像的像素预测当前像素,以达到有效去除视频时域冗余的目的。此外,帧内编码是指利用视频空间域的相关性,使用当前帧图像的已经编码块的像素预测当前像素,以达到去除视频空域冗余的目的。
[0004] 传统的帧内预测方法,基于自然图像中的纹理往往具有方向性这一假设,使用预定义的几个固定方向模式,在预测时,采用已编码块中与待编码快最邻近的一行像素作为参考像素。枚举地尝试每一个方向,选择编码代价最少的一个模式,编入码流中。该预测方法有效地减少了编码码率。然而,该方法存在缺点。一方面,该方法仅仅使用单行像素作为参考,在低码率高噪声的情形中,单行像素中的噪声会严重影响预测的准确度。
[0005] 现有技术中还有一种编码方法,基于变换量化的编码方法,使用时频变换将图像映射到频域,选择性地减少图像中人类难以察觉的高频信息,能够在少量牺牲视觉质量的情况下,大大减小视频传输的码率,也减少了视频传输的体积。进一步地,由于视频两帧之间有着非常大的相关性和信息冗余,在一帧之内,块与块之间也有很大的纹理连续性,因此在现代编码器中,会使用帧间和帧内预测的方法,来进一步减小视频码率。
[0006] 上述编码方式编码效率不高,适应性能力不足,因此亟需提供一种高效的视频编码方案,能够高效的进行编解码,适应于不同的编码环境。
[0007] 主要创新点:
[0008] 1.本申请在进行编码时首先进行关键帧的判断,对关键帧和非关键帧采用不同的编码方式生成不同的码流,以提高编码效率。
[0009] 2.本申请针对不用的解码需求,可对应在编码时生成不同层级的语义特征,以进行编码生成不同层级的码流,提高自适应能力。
[0010] 3.本申请采用独创的深度神经网络,能够提取不同的层级语义特征,借助所采用的惩罚函数及激励函数,不断优化网络模型,使得提取的层级语义特征准确而不允许,满足不同用户的带宽需求。

发明内容

[0011] 为解决上述问题,本发明提出了一种编码方法,所述方法包括以下特征:
[0012] 步骤S1.获取待编码的视频帧,并根据前后帧间的关系判断是否为关键帧;
[0013] 步骤S2.如果当前帧为关键帧,做好标记1,写入码头,并确定出第一图像和第二图像,进行像素级标注;将所述关键帧确定的第一图像、第二图像及其对应的标注信息输入至深度神经网络,提取多级语义特征;对所述多级语义特征进行编码,生成不同层级的码流;
[0014] 步骤S3.如果当前帧为非关键帧,做好标记0,写入码头;则直接计算所述非关键帧与其左相邻关键帧的残差,并进行残差编码,生成残差码流信息。
[0015] 可选的,所述步骤S1通过帧间物体的光流信息进行关键帧判断。
[0016] 可选的,所述步骤S2中的所述第一图像和第二图像为前景图像和背景图像。
[0017] 可选的,所述步骤S2中的多级语义特征包括:超高级语义特征、高级语义特征、中级语义特征以及低级语义特征。
[0018] 可选的,所述步骤S2中的多级语义特征的编码层级取决于解码时的视频清晰度,所述视频清晰度为超高清、高清、标清以及流畅四个不同等级。
[0019] 可选的,所述步骤S3中的编码方式为VVC编码。
[0020] 相应的,本发明还提出了一种编码设备,所述编码设备包含处理器以及存储器,存储器中存储有程序指令,所述程序指令运行如权利要求上述任一项所述的编码方法。
[0021] 为解决上述问题,本发明还提出了一种解码方法,所述方法包括以下步骤:
[0022] 步骤T1.获取待解码的视频帧,并根据码头标记判断是否为关键帧;
[0023] 步骤T2.如果待解码的视频帧为关键帧,则根据用户选择的解码方式进行码流的重构,生成对应的关键帧视频;
[0024] 步骤T3.如果待解码的视频帧为非关键帧,则根据用户选择的解码方式,基于其左相邻的关键帧以及残差信息对应的码流进行码流的重构,生成对应的非关键帧视频。
[0025] 可选的,所述用户选择解码方式分为超高清、高清、标清以及流畅四个不同等级。
[0026] 相应的,本发明还提出了一种解码设备,所述解码设备包含处理器以及存储器,存储器中存储有程序指令,所述程序指令运行上述任一项所述的解码方法。
[0027] 本申请还提出了一种计算机存储介质,所述存储介质存储有计算机程序指令,所述程序指令用于运行所述任一项所述的方案。

附图说明

[0028] 图1是本发明的主要逻辑流程图。

具体实施方式

[0029] 深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
[0030] 同机器学习方法一样,深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同.例如,卷积神经网络(Convolutional neural networks,简称 CNNs)就是一种深度的监督学习下的机器学习模型,而深度置信网(Deep Belief Nets,简称 DBNs)就是一种无监督学习下的机器学习模型。
[0031] 卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning) 的代表算法之一。
[0032] 深度卷积神经网络DCNN,则是具有多个CNN层的网络结构。
[0033] 深度神经网络中经常采用的激励函数如下:sigmoid函数,tanh函数,ReLU函数。
[0034] sigmoid函数,该函数是将取值为(‑∞,+∞)的数映射到(0,1)之间。sigmoid函数的公式如下:
[0035]
[0036] sigmoid函数作为非线性激活函数,但是其并不被经常使用,它具有以下几个缺点:当 z值非常大或者非常小时,sigmoid函数的导数g′(z)将接近0。这会导致权重W的梯度将接近0,使得梯度更新十分缓慢,即梯度消失。
[0037] tanh函数,tanh函数相较于sigmoid函数要常见一些,该函数是将取值为(‑∞,+∞) 的数映射到(‑1,1)之间,其公式为:
[0038] tanh函数在0附近很短一段区域内可看做线性的。由于tanh函数均值为0,因此弥补了sigmoid函数均值为0.5的缺点。
[0039] ReLU函数,ReLU函数又称为修正线性单元(Rectified Linear Unit),是一种分段线性函数,其弥补了sigmoid函数以及tanh函数的梯度消失问题。ReLU函数的公式如下:
[0040]
[0041] ReLU函数的优点:
[0042] (1)在输入为正数的时候(对于大多数输入z空间来说),不存在梯度消失问题。
[0043] (2)计算速度要快很多。ReLU函数只有线性关系,不管是前向传播还是反向传播,都比sigmod和tanh要快很多。
[0044] ReLU函数的缺点:
[0045] (1)当输入为负时,梯度为0,会产生梯度消失问题。
[0046] 在本领域技术人员能够理解上述基本概念及常规操作方式的基础上,如图1所述,为解决上述问题,提出一种编码方法:
[0047] 步骤S1.获取待编码的视频帧,并根据前后帧间的关系判断是否为关键帧;
[0048] 步骤S2.如果当前帧为关键帧,做好标记1,写入码头,并确定出第一图像和第二图像,进行像素级标注;将所述关键帧确定的第一图像、第二图像及其对应的标注信息输入至深度神经网络,提取多级语义特征;对所述多级语义特征进行编码,生成不同层级的码流;
[0049] 步骤S3.如果当前帧为非关键帧,做好标记0,写入码头;则直接计算所述非关键帧与其左相邻关键帧的残差,并进行残差编码,生成残差码流信息。
[0050] 可选的,所述深度神经网络为DCNN网络,包括输入层、多个隐含层、以及一个输出层,所述输入层信息来自信息采集单元;所述多个隐含层包括一个或多个卷积层、一个或多个池化层以及一个全连接层。
[0051] 可选的,所述池化层的池化方法如下:
[0052] xe=f(1‑φ(ue))
[0053] ue=weφ(xe‑1);
[0054] 其中,xe表示当前层的输出,ue表示惩罚函数φ的输入,we表示当前层的权重,φ表e‑1示惩罚函数,x 表示上一层的输出。
[0055] 可选的,所述隐含层设置有惩罚函数,所述惩罚函数;
[0056]
[0057] N表示所述样本数据集的大小,i取值1~N,yi表示样本xi对应的标签;Qyi表示样本xi 在其标签yi处的权重,Myi表示样本xi在其标签yi处的偏差,Mj表示输出节点j处的偏差;θj,i为样本xi与其对应标签yi的权重夹角。
[0058] 可选的,所述隐含层包含有激励函数,所述激励函数为:
[0059]
[0060] 其中,θyi表示为样本xi与其对应标签yi的向量夹角;所述N表示训练样本个数;Wyi表示当前节点的权重。
[0061] 可选的,所述步骤S1通过帧间物体的光流信息进行关键帧判断。
[0062] 可选的,所述步骤S2中的所述第一图像和第二图像为前景图像和背景图像。
[0063] 可选的,所述步骤S2中的多级语义特征包括:超高级语义特征、高级语义特征、中级语义特征以及低级语义特征。
[0064] 可选的,所述步骤S2中的多级语义特征的编码层级取决于解码时的视频清晰度,所述视频清晰度为超高清、高清、标清以及流畅四个不同等级。
[0065] 可选的,所述步骤S3中的编码方式为VVC编码,也可选其它有损编码或无损编码方式。
[0066] 相应的,本发明还提出了一种编码设备,所述编码设备包含处理器以及存储器,存储器中存储有程序指令,所述程序指令运行如权利要求上述任一项所述的编码方法。
[0067] 为解决上述问题,本发明还提出了一种解码方法,所述方法包括以下步骤:
[0068] 步骤T1.获取待解码的视频帧,并根据码头标记判断是否为关键帧;
[0069] 步骤T2.如果待解码的视频帧为关键帧,则根据用户选择的解码方式进行码流的重构,生成对应的关键帧视频;
[0070] 步骤T3.如果待解码的视频帧为非关键帧,则根据用户选择的解码方式,基于其左相邻的关键帧以及残差信息对应的码流进行码流的重构,生成对应的非关键帧视频。
[0071] 可选的,所述用户选择解码方式分为超高清、高清、标清以及流畅四个不同等级。
[0072] 相应的,本发明还提出了一种解码设备,所述解码设备包含处理器以及存储器,存储器中存储有程序指令,所述程序指令运行上述任一项所述的解码方法。
[0073] 本申请还提出了一种计算机存储介质,所述存储介质存储有计算机程序指令,所述程序指令用于运行所述任一项所述的方案。