用于无参考视频质量预测的方法转让专利

申请号 : CN202210849455.5

文献号 : CN115700750A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 周敏华

申请人 : 安华高科技股份有限公司

摘要 :

本申请针对用于无参考视频质量预测的方法。一种用于无参考视频质量预测的系统包含:视频处理块,其用以接收输入位流且产生第一向量;及神经网络,其用以在使用训练数据训练后提供经预测质量向量。所述训练数据包含所述第一向量及第二向量,且所述第一向量的元素包含根据对所述输入位流的高级语法处理提取的高级特征。

权利要求 :

1.一种用于无参考视频质量预测的系统,所述系统包括:视频处理块,其经配置以接收输入位流且产生第一向量;及神经网络,其经配置以在使用训练数据训练后提供经预测质量向量,其中:

所述训练数据包含所述第一向量及第二向量,且所述第一向量的元素包含根据对所述输入位流的高级语法处理提取的高级特征。

2.根据权利要求1所述的系统,其中所述第一向量包括特征向量,且其中所述第一向量的所述元素进一步包含块级特征。

3.根据权利要求1所述的系统,其中由视频解码块接收的所述输入位流包括编码‑解码链的最后编码器的输出。

4.根据权利要求3所述的系统,其中所述第二向量包括使用由所述编码‑解码链产生的经重构序列及原始序列计算的基准真实视频质量向量。

5.根据权利要求1所述的系统,其中所述第二向量包括所选择质量度量,所述所选择质量度量包含以下各项中的一者:峰值信噪比PSNR、结构类似性指标测量SSIM、多标度MS‑SSIM、视频多元法融合VMF或平均意见得分MOS。

6.根据权利要求1所述的系统,其中所述高级特征包括以下各项中的至少一些:转码指示符、编解码器类型、图片译码类型、图片分辨率、帧速率、位深度、色度格式、经压缩图片大小、高级质量参数、平均时间距离及时间层识别ID。

7.根据权利要求1所述的系统,其中所述神经网络包括能够基于仅含有高级特征的输入特征向量执行视频质量预测的非复杂神经网络。

8.根据权利要求1所述的系统,其中所述神经网络经配置以允许精细化及更新所述神经网络的层或参数的子集以便减少额外负担。

9.根据权利要求1所述的系统,其中所述视频处理块包括视频解码与特征提取块。

10.一种无参考视频质量预测的方法,其包括:接收视频数据流;

通过解码所述视频数据流且提取特征来产生特征向量;及将神经网络配置成在使用训练数据训练后提供经预测质量向量,其中:

所述训练数据包含所述特征向量及基准真实视频质量向量,且产生所述特征向量包括对所述视频数据流的高级语法处理以提取高级特征元素。

11.根据权利要求10所述的方法,其进一步包括由视频解码与提取块接收编码‑解码链的最后编码器的输出。

12.根据权利要求11所述的方法,其中产生所述特征向量进一步包括对所述视频数据流的块级处理以提取块级特征元素。

13.根据权利要求12所述的方法,其进一步包括使用由所述编码‑解码链产生的经重构序列及原始序列计算所述基准真实视频质量向量。

14.根据权利要求10所述的方法,其进一步包括使用具有经减少计数的隐藏层及/或神经元的较不复杂神经网络,基于仅含有高级特征的输入特征向量,执行视频质量预测。

15.根据权利要求10所述的方法,其进一步包括进行配置以允许精细化及更新所述神经网络的层或参数的子集以便减少额外负担。

16.根据权利要求10所述的方法,其进一步包括将所述视频数据流或经解码图片的特性的分类信息嵌入到输入特征向量中,作为额外特征以避免图片级的网络切换。

17.根据权利要求10所述的方法,其进一步包括接收报告经预测视频质量与所观察视频质量之间的差异的用户反馈。

18.根据权利要求17所述的方法,其进一步包括通过利用所述用户反馈来精细化所述神经网络以改善所述经预测质量向量的准确度。

19.一种训练神经网络以用于无参考视频质量预测的方法,所述方法包括:使用编码器‑解码器链来压缩输入数据流以产生经重构数据;

使用所述经重构数据及所述输入数据流来计算第一向量;

使用解码器来解码所述编码器‑解码器链的最后编码器的输出,用于高级及块级特征提取以产生特征向量;及通过处理损失函数来训练神经网络参数。

20.根据权利要求19所述的方法,其中:

所述第一向量包括基准真实视频质量向量,且所述损失函数包括包含所述特征向量、所述基准真实视频质量向量及所述神经网络参数的三变量函数;且所述方法进一步包括:

使用所述特征向量及基于神经网络的推断来计算经预测质量向量;

计算所述经预测质量向量与所述基准真实质量向量之间的预测损失;

使用反向传播来计算所述神经网络的每一网络层的偏导数;

使用随机梯度下降来更新所述神经网络参数;及将所述经更新神经网络参数馈送给所述神经网络。

说明书 :

用于无参考视频质量预测的方法

技术领域

[0001] 本说明一般来说涉及视频处理,且特定来说,涉及用于无参考视频质量预测的方法。

背景技术

[0002] 对于客户端侧视频质量的远程监测,无参考视频质量预测变得越来越重要。利用无参考视频质量预测,可估计视频质量而不必观看所接收视频或需要原始视频内容。通过能够对终端用户报告的视频质量问题进行自动诊断,无参考视频质量预测可帮助减少客户支持成本。常见实践是在像素域中对经解码视频序列执行视频质量分析。更准确方法不仅可使用像素域信息,而且也可使用在不同解码阶段测量的位流特性。
[0003] 在过去的几十年中,已开发出若干种视频压缩标准,例如,国际标准组织(ISO)/国际电工委员会(IEC)移动图片专家组(MPEG)及国际电信联合会(ITU‑)T联合国际标准MPEG‑2/H.262,高级视频译码(AVC)/H.264,高效视频译码(HEVC)/H.265及多功能视频译码
(VVC)/H.266,以及工业标准VP8、VP9和开放媒体视频联盟1(AV1)。终端用户可接收以多种视频格式压缩的视频内容。虽然这些标准提供不同水平的压缩效率且在细节上彼此不同,但所有这些标准使用共同的基于块的混合译码结构。所述共同译码结构使得有可能开发一种用于在客户端侧上进行无参考视频质量预测的通用方法。举例来说,VVC(来自MPEG/ITU‑T的最新视频压缩标准)仍采用基于块的混合译码结构。在VVC中,将图片划分成译码树单元(CTU),所述译码树单元在大小上可高达128x128个像素。通过使用所谓的四叉树加二叉及三叉树(QTBTT)递归块分割结构来将CTU进一步解压缩成不同大小的译码单元(CU)。CU可具有通过使用四叉树分割的四路分裂,通过适应水平或垂直二叉树分割的两路分裂,或通过使用水平或垂直三叉树分割的三路分裂。CU可与CTU一样大且与4x4像素块大小一样小。

发明内容

[0004] 在一个方面中,本申请案针对一种用于无参考视频质量预测的系统,所述系统包括:视频处理块,其接收输入位流且产生第一向量;及神经网络,其经配置以在使用训练数据训练后提供经预测质量向量,其中:所述训练数据包含第一向量及第二向量,且所述第一向量的元素包含根据对输入位流的高级语法处理提取的高级特征。
[0005] 在另一方面中,本申请案针对一种无参考视频质量预测的方法,其包括:接收视频数据流;通过解码所述视频数据流且提取特征来产生特征向量;及将神经网络配置成在使用训练数据训练后提供经预测质量向量,其中:所述训练数据包含特征向量及基准真实视频质量向量,且产生所述特征向量包括对所述视频数据流的高级语法处理以提取高级特征元素。
[0006] 在另一方面中,本申请案针对一种训练神经网络用于无参考视频质量预测的方法,所述方法包括:使用编码器‑解码器链压缩输入数据流以产生经重构数据;使用所述经重构数据及所述输入数据流计算第一向量;使用解码器解码所述编码器‑解码器链的最后编码器的输出,用于高级及块级特征提取以产生特征向量;及通过处理损失函数来训练神经网络参数。

附图说明

[0007] 在所附权利要求书中陈述本技术的特定特征。然而,出于解释目的,在以下各图中陈述本技术的数个实施例。
[0008] 图1是根据本技术的各种方面图解说明基于神经网络的无参考视频质量预测系统的实例的高级图。
[0009] 图2是根据本技术的各种方面图解说明多功能视频译码(VVC)解码器的实例的图式。
[0010] 图3是根据本技术的各种方面图解说明分层译码结构的实例的图式。
[0011] 图4是根据本技术的各种方面图解说明用于视频质量预测的神经网络的实例的示意图。
[0012] 图5是根据本技术的各种方面图解说明用于训练数据产生及网络训练的过程的实例的图式。
[0013] 图6是根据本技术的各种方面图解说明无参考视频质量预测的方法的流程图。
[0014] 图7是图解说明其中可实施本技术的一或多个方面的电子系统的框图。

具体实施方式

[0015] 下文陈述的详细说明打算为对本技术的各种配置的说明且不打算表示可实践本技术的仅有配置。随附图式并入本发明中且构成实施方式的部分,其包含用于提供对本技术的透彻理解的具体细节。然而,本技术不限于本文中所陈述的具体细节且可在不具有这些具体细节的情况下实践。在一些实例中,以框图形式展示结构及组件以避免模糊本技术的概念。
[0016] 本技术针对用于无参考视频质量预测的方法及系统。所揭示技术通过使用神经网络来实施无参考视频质量预测,所述神经网络经训练以预测环路内滤波器之后的经重构图片与原始图片之间的均方根误差(RMSE)值,如下文中更详细描述。RMSE值可转换成视频质量得分,例如峰值信噪比(PSNR)值。
[0017] 图1是根据本技术的各种方面图解说明基于神经网络的无参考视频质量预测系统100的实例的高级图。基于神经网络的无参考视频质量预测系统100(后文称为系统100)包含视频处理块110及神经网络120。视频处理块110是解码与特征提取块,以下关于图2论述其一些方面(视频解码方面)。视频处理块110从对应于图片的输入位流提供特征向量x(t)。
特征向量x(t)的元素划分成两个类别,即从高级语法处理提取的高级特征及从块级解码处理获得的块级特征。
[0018] 高级特征可包含转码指示符、编解码器类型、图片译码类型、图片分辨率、帧速率、位深度、色度格式、经压缩图片大小、高级量化参数(qp)、平均时间距离及时间层ID。转码指示符确定是否转码当前图片。转码意味着首先可以一种格式(例如,AVC/H.264)来压缩及解压缩视频,且接着将其再压缩成相同或不同的格式(例如,HEVC/H.265)。此信息通常在位流中无法获取,但可由服务区经由外部构件传达到客户端。编解码器类型可包含VVC/H.266、HEVC/H.265、AVC/H.264、VP8、VP9、AV1等等。每一编解码器类型可指派给编解码器ID。图片译码类型可包含I‑、B‑及P‑图片,且每一图片类型可指派给ID。举例来说,图片分辨率可以是4K UHD、1080p HD、720p HD等等。基于图片中的亮度样本,可指派ID。帧速率的实例可包含60、50、30、20帧/秒。帧速率正规化为例如120帧/秒。举例来说,位深度可以是8‑位或10‑位且正规化为10‑位。例如,色度格式可以是4:2:0,且每一色度格式可指派给ID,例如,对于4:2:0色度格式,为0。经压缩图片大小通过亮度图片大小正规化以产生每像素位(bbp)值。
高级量化参数(qp)是通过剖析图片的切片标头中的量化参数获得的图片的平均qp。list0平均时间距离表示当前图片与其前向(即,list0)参考图片之间的平均时间距离,所述前向参考图片是通过剖析当前图片的切片级参考图片列表(RPL)获得的。如果list0参考图片不存在,那么将其设定为0。list1平均时间距离表示表示当前图片与其后向(即,list1)参考图片之间的平均时间距离,所述后向参考图片是通过剖析当前图片的切片级RPL获得的。如果list1参考图片不存在,那么将其设定为0。时间层ID对应于当前图片。如下文所论述,基于分层译码结构来指派图片的时间ID。
[0019] 神经网络120提供经预测质量向量p(t),所述经预测质量向量是使得能够预测图片的视频质量的基于神经网络的推断。可以任何适宜的视频度量来测量经预测视频质量,例如PSNR、结构类似性指标测量(SSIM)、多标度结构类似性指标测量(MS‑SSIM)、视频多元法评估融合(VMAF)及平均意见得分(MOS),这取决于针对神经网络训练选择的视频质量。连续图片的经预测视频质量也可经组合以产生视频片段的视频质量预测。
[0020] 图2是根据本技术的各种方面图解说明多功能视频译码(VVC)解码器200的实例(视频解码块的实例)的图式。VVC解码器200(后文称为解码器200)包含高级语法处理202及块级处理204,所述块级处理204包含熵解码引擎210、逆量化块220、逆变换块230、帧内预测模式重构块240、帧内预测块250、环路内滤波器块260、帧间预测块270及运动数据重构块
280。
[0021] 高级语法处理块202包含适合的逻辑与缓冲电路以接收输入位流202且剖析高级语法元素以产生高级特征203,所述高级特征203包含转码指示符、编解码器类型、图片译码类型、图片分辨率、帧速率、位深度、色度格式、经压缩图片大小、高级qp、平均时间距离及时间层ID,如上文关于图1所论述。输入位流202由编码‑解码链的最后编码器(为清晰起见,未展示)的输出构成。高级语法元素可包含序列参数集(SPS)、图片参数集(PPS)、视频参数集(VPS)、图片标头(PH)、切片标头(SH)、自适应参数集(APS)、补充增强信息(SEI)消息等等。接着,将经解码高级信息用于配置解码器200以执行块级解码处理。
[0022] 在块级处,熵解码引擎210解码传入位流202且递送包含量化变换系数212及控制信息214的经解码符号。控制信息包含Δ帧内预测模式(相对于最可能的模式)、帧间预测模式、运动向量差(MVD,相对于运动向量预测符)、合并指标(merge_idx)、量化标度及环路内滤波器参数216。帧内预测重构块240通过导出最可能模式(MPM)列表且使用经解码Δ帧内预测模式来重构译码单元(CU)的帧内预测模式242。运动数据重构块280通过导出高级运动向量预测符(AMVP)列表或合并/跳跃列表且使用MVD来重构运动数据282(例如,运动向量、参考指标(若干指标))。当前图片的经解码运动数据282可充当解码未来图片的时间运动向量预测符(TMVP)274且存储在经解码图片缓冲器(DPB)中。
[0023] 量化变换系数212递送到逆量化块220且接着递送到逆变换块230以重构CU的残余块232。基于已发信帧内或帧间预测模式,解码器200可执行帧内预测或帧间预测(即,运动补偿)以产生CU的预测块282。接着将残余块232与预测块282加在一起以在环路内滤波器之前产生经重构CU。环路内滤波器260对经重构块执行环路内滤波,例如解块滤波、样本自适应偏移(SAO)滤波及自适应环路滤波(ALF)以在环路内滤波器262之后产生经重构CU。将经重构图片264存储在DPB中以充当未来图片的运动补偿的参考图片且也发送到显示器。
[0024] 视频解码处理的基于块的性质使得其在解码器侧上提取特征,而不招致额外处理时延或增加存储器频带耗用。当与仅像素域预测方法相比时,以块级提取的特征帮助改善视频质量预测准确度。
[0025] 参考块级处理204,块级特征可包含以下各项:1)由熵解码引擎210递送的当前图片中经帧内译码块的百分比;2)由熵解码引擎210递送的当前图片中经帧间译码块的百分比;3)由熵解码引擎210递送的当前图片的平均块级qp;4)由熵解码引擎210递送的当前图片的最大块级qp;及5)由熵解码引擎210递送的当前图片的最小块级qp。块级特征也可包含在运动数据重构块280中计算的当前图片的水平运动向量的标准偏差。举例来说,将mvx0(i),i=0,1,...,mvcnt0‑1及mvx1(i),i=0,1,...,mvcnt1‑1设为针对当前图片重构的list0及list1水平运动向量,且将mvcnt0及mvcnt1分别设为图片list0及list1块向量的数目,且通过使用当前预测单元(PU)预期参考块之间的时间距离以块级正规化所述向量。在此情况下,通过以下方程式计算当前图片的水平运动向量的标准偏差sdmax:
[0026]
[0027] 块级特征可包含的另一特征是在运动数据块280中计算的当前图片的平均运动向量大小。举例来说,将(mvx0(i),mvy0(i)),i=0,1,...,mvcnt0‑1及(mvx1(i),mvy1(i),i=0,1,...,mvcnt1‑1设为针对当前图片重构的list0及list1运动向量,将mvcnt0及mvcnt1分别设为图片的list0及list1块向量的数目,且使用当前PU预期参考块之间的时间距离以块级来正规化所述向量。在此情况下,通过以下方程式来计算平均运动向量大小avgmv:
[0028]
[0029] 块级特征也可包含在逆量化块220中计算的当前图片的的低频逆量化变换系数的平均绝对幅值。举例来说,如果变换单元(TU)大小是W*H,那么在按扫描次序(即,位流中的系数译码次序)其在TU中的指标小于W*H/2的情况下,系数界定为低频系数。绝对幅值是对图片的Y、U及V分量求平均而获得的。当然,个别幅值可针对Y、U及V分量单独计算。
[0030] 块级特征的另一可能特征是在逆量化块220中计算的当前图片的高频经逆量化变化系数的平均绝对幅值。举例来说,如果TU大小是W*H,那么在按扫描次序(或位流中的系数译码次序)其在TU中的指标大于或等于W*H/2的情况下,系数界定为高频系数。绝对幅值是对图片的Y、U及V分量求平均而获得的。当然,个别幅值可针对Y、U及V分量单独计算。
[0031] 块级特征可进一步包含由逆变换块230针对Y、U及V分量单独计算的当前图片的预测残余的标准偏差。将resid(i,j),for i=0,1,...,picHeight‑1,j=0,1,...,picWidth‑1设为Y、U或V分量的预测残余图片,通过以下方程式计算分量的预测残余的标准偏差
sdresid:
[0032]
[0033] 块级特征可包含的另一特征是由环路内滤波器块260针对Y、U及V分量单独计算的在环路内滤波器之前及之后的经重构图片之间的均方根误差(RMSE)值。举例来说,如果编解码器(例如,MPEG‑2)不具有环路内滤波器或环路内滤波器被关闭,那么针对所述图片将RMSE设定为0。将dec(i,j)and rec(i,j),for i=0,1,...,picHeight‑1,j=0,1,...,picWidth‑1分别设为在环路内滤波器之前及之后的经重构Y、U或V分量图片。接着,通过以下方程式计算分量的RMSErmse:
[0034]
[0035] 块级特征可进一步包含由环路内滤波器块针对Y、U及V分量单独计算的在环路内滤波器之后的经重构图片的标准偏差。举例来说,将rec(i,j),for i=0,1,...,picHeight‑1,j=0,1,...,picWidth‑1设为在环路内滤波器之后的经重构Y、U或V分量图片。接着,通过以下方程式来计算经重构分量图片的标准偏差sdrec:
[0036]
[0037] 可包含在块级特征中的另一特征是可由环路内滤波器针对Y、U及V分量计算的在环路内滤波器之后的经重构图片的边缘清晰度。举例来说,将rec(i,j),Gx(i,j)and Gy(i,j)for i=0,1,...,picHeight‑1,j=0,1,...,picWidth‑1
[0038] 分别设为在环路内滤波器之后的Y、U或V分量图片及其对应的水平/垂直边缘清晰度图。接着,通过以下方程式来计算经重构分量图片的边缘清晰度edgesharpness:
[0039]
[0040] 其中可通过以下方程式(例如,使用索贝尔滤波器)来计算边缘清晰度图Gx(i,j)and Gy(i,j)for i=0,1,...,picHeight‑1,j=0,1,...,picWidth‑1:
[0041]
[0042] 应注意,在以上方程式中,用于沿着图片边界计算Gx(i,j)and Gy(i,j)的经重构图片样本可超过图片边界,且可给不可用样本填补最接近的图片边界样本。另一解决方案是简单地避免沿着图片边界计算Gx(i,j)and Gy(i,j)且将其设定为0,即,
[0043]
[0044] 图3是根据本技术的各种方面图解说明分层译码结构300的实例的图式。垂直柱展示图片的时间ID(Tid),其与时间可缩放译码有关且在一些方面中,基于图3中展示的分层译码结构300来指派。方框302展示图片的原始译码次序,如在位流中接收的一样。此图式中展示的块(1、2、3...16)表示按显示次序的图片且箭头指示图片的预测相依性。举例来说,箭头0‑8及16‑8指示图片8相依于图片0及16,且箭头8‑4及8‑12展示图片4及12对图片8的相依性。Tid值将图片划分成数个(例如,4)子集。较高Tid值子集的图片在解码中较不有效。举例来说,当图片属于最低有效子集时,能力较弱的解码器可滤除具有Tid=4的图片(具有编号1、3、5、7、9、11、13及15的图片)。
[0045] 图4是根据本技术的各种方面图解说明用于视频质量预测的神经网络400的实例架构的示意图。神经网络400可用于无参考视频质量预测。神经网络400包含输入层410、隐藏层420及输出层430。在一些方面中,输入层410包含数个输入节点412。举例来说,隐藏层420由分别为256、128、64、32及16个神经元的五个全连接隐藏层422组成。
[0046] 输入层410将根据对当前图片的解码提取的特征向量取为输入。由于在此实例中使用的质量度量是PSNR,因此输出层产生Y、U及V分量的RMSE。在一或多个方面中,网络参数的总数约为51,747。所使用的激活函数是经矫正线性单元(ReLU)。为将经预测RMSE转换成PSNR值,可使用以下方程式:
[0047]
[0048] 图5是根据本技术的各种方面图解说明用于训练数据产生及网络训练的过程500的图式。神经网络由网络参数θ及激活函数g()来表示。训练或测试数据向量与经解码图片相关联,所述经解码图片由特征向量x(t)及基准真实视频质量向量q(t)组成。框架500用于产生训练数据。过程500开始于过程步骤510,其中使用所选择压缩标准(格式)、译码结构(例如,全帧内、随机存取及低延迟配置)、位速率等等来执行原始序列502的编码及解码。尽管通常是将序列编码及解码一次,但在一些使用情况下(例如,转码及降码),可使用具有不同压缩格式及位速率的编码阶段与解码阶段的级联将序列编码及解码多次。举例来说,可首先用AVC/H.264来编码及解码序列,且接着将其转码成HEVC/H.265格式。在包含转码及/或降码的所有情况下,在过程步骤520处,使用经重构序列514来计算原始序列502与经重构序列514之间经译码图片的基准真实视频质量向量q(t)。可采用任何适合的质量度量(例如,PSNR、SSIM、MS‑SSIM、视频多元法融合(VMF)及平均意见得分(MOS))来表示基准真实及经预测视频质量向量。最终,将所得位流512(即,编码/解码链中最后编码器的输出)馈送到解码器中,供在过程步骤530处进行高级及块级特征提取以形成所述序列的特征向量x(t)。在给出经标记训练集{(x(0),q(0)),(x(1),q(1)),...,(x(T‑1),q(T‑1))}的情况下,可通过处理(最小化)损失函数J(加上关于参数θ的某一规则化条目)在过程步骤550处训练神经网络参数θ,
[0049]
[0050] 监督式训练步骤包含在推断步骤558处使用特征向量x(t)来计算经预测质量向量p(t);在过程步骤552处计算经预测质量向量p(t)与基准真实质量向量q(t)之间的预测损失。在过程步骤554处,使用反向传播来计算每一网络层的偏导数(梯度)。在过程步骤556处,使用随机梯度下降(SGD)来更新参数θ且将经更新参数θ馈送到图4的神经网络400。重复上述步骤直到满足训练准则。
[0051] 对神经网络400执行可行性研究。在研究中总共使用444,960个训练向量及49,440个测试向量。使用具有四个典型位速率点及恒定位速率(CBR)控制的商用AVC/H.264及HEVC/H.265编码器来产生第一向量集。第二向量集模拟转码/降码环境,其中首先用AVC/H.264编码器来压缩测试序列,接着用HEVC/H.265编码器(即,转码)及AVC/H.264编码器(即,降码)来再压缩经重构序列。如上所述,此处,针对原始序列,而非针对第一遍AVC/H.264编码之后的经重构序列计算在转码/降码情况下的基准真实RMSE。
[0052] 在以平均绝对误差作为损失函数训练2,000最大训练次数之后,平均PSNR(Y、U、V)预测误差(以dB为单位)及失败率针对训练集及测试集分别为(0.20,0.16,0.17)/0.96%及(0.59,0.41,0.39)/11.68%。应注意,此处预测失败率是针对平均YUV PSNR预测误差(即,预测与基准真实Y、U、V PSNR之间的平均绝对PSNR差)大于1dB的训练/测试向量的百分比。
[0053] 在一些实施方案中,替代使用全大小的输入特征向量x(t),可使用特征子集。举例来说,较不复杂网络(例如,具有经减少计数的隐藏层及/或神经元)可使用仅含有视频质量预测的高级特征的输入特征向量。通常无需改变块级解码器硬件/软件,通过使用固件便可提取高级特征。不具有块级特征提取的解码器可部署用于视频质量预测的非复杂或较不复杂的神经网络,而具有完全特征提取能力的其它解码器可部署更复杂的网络。神经网络可具有不同的网参数且可或不可具有相同的网络架构。为与更复杂神经网络共享相同的架构,较不准确网络仍可使用全大小的输入特征向量,但在输入向量中将块级特征设定为零。在一或多个实施方案中,可通过分析位流特性及/或经解码图片将经解码图片分类为不同的内容类别(例如,自然视频、银幕内容等等),或可通过服务器来传达分类信息,且可基于内容分类信息以图片级切换用于视频预测的网络。在一些方面中,可将分类信息作为额外特征添加到输入特征向量,从而避免需要以图片级切换网络。
[0054] 在一些实施方案中,用户可能够报告经预测视频质量与所观察视频质量之间的差异。可通过利用用户反馈来精细化所部署的网络以改善预测准确度。为减小更新视频质量预测网络的额外负担,在一些方面中,仅可精细化及更新网络层或参数的子集。
[0055] 图6是根据本技术的各种方面图解说明无参考视频质量预测的方法600的流程图。方法600包含接收视频数据流(610)且通过解码视频数据流及提取特征来产生特征向量
(620)。方法600进一步包含将神经网络配置成在使用训练数据训练后提供经预测质量向量(630)。训练数据包含特征向量及基准真实视频质量向量,且产生特征向量由提取高级特征元素的对视频数据流的高级语法处理及提取块级特征元素的块级处理组成。
[0056] 图7是图解说明其中可实施本技术的一或多个方面的电子系统的框图。电子系统700可以是通信装置,例如,智能电话、智能手表或平板电脑、桌上型计算机、膝上型计算机、无线路由器、无线接入点(AP)、服务器或其它电子装置。电子系统700可包含各种类型的计算机可读媒体,以及用于各种其它类型的计算机可读媒体的接口。电子系统700包含总线
708、一或多个处理器712、系统存储器704(及/或缓冲器)、只读存储器(ROM)710、永久存储装置702、输入装置接口714、输出装置接口706及一或多个网络接口716,或者其子集及变化形式。
[0057] 总线708共同地表示通信地连接电子系统700的众多内部装置的所有系统、外围及芯片组的总线。在一或多个实施方案中,总线708将一或多个处理器712与ROM 710、系统存储器704及永久存储装置702通信地连接。从这些各种存储器单元,一或多个处理器712检索待执行的指令及待处理的数据以便执行本发明的过程。在不同实施方案中,一或多个处理器712可以是单个处理器或多核心处理器。
[0058] ROM 710存储一或多个处理器712及电子系统700的其它模块需要的静态数据及指令。另一方面,永久存储装置702可以是读取与写入存储器装置。永久存储装置702可以是甚至在电子系统700关闭时存储指令及数据的非易失性存储器单元。在一或多个实施方案中,可将大容量存储装置(例如,磁盘或光盘及其对应盘驱动器)用作永久存储装置702。
[0059] 在一或多个实施方案中,可将可移除存储装置(例如,快闪驱动器及其对应盘驱动器)用作永久存储装置702。像永久存储装置702一样,系统存储器704可以是读取与写入存储器装置。然而,不同于永久存储装置702,系统存储器704可以是易失性读取与写入存储器,例如,随机存取存储器。系统存储器704可存储一或多个处理器712可在运行时需要的指令及数据中的任一者。在一或多个实施方案中,本发明的处理器存储在系统存储器704、永久存储装置702及/或ROM 710中。从这些各种存储器单元,一或多个处理器712检索待执行的指令及待处理的数据以便执行一或多个实施方案的过程。
[0060] 总线708也连接到输入及输出装置接口714及706。输入装置接口714使得用户能够将信息传递到电子系统700且选择对电子系统700的命令。举例来说,可与输入装置接口714搭配使用的输入装置可包含字母数字键盘及指向装置(也称为“游标控制装置”)。举例来说,输出装置接口706可使得能够显示电子系统700产生的图像。举例来说,可与输出装置接口706搭配使用的输出装置可包含打印机及显示装置,例如液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、柔性显示器、平板显示器、固态显示器、投影仪或用于输出信息的任何其它装置。一或多个实施方案可包含用作输入及输出装置两者的装置,例如触摸屏。这些实施方式中,提供给用户的反馈可以是任何形式的感觉性反馈,例如,视觉反馈、听觉反馈或触觉反馈;且可以任何形式接收来自用户的输入,包含声音、语音或触觉输入。
[0061] 最终,如图7中所展示,总线708也通过一或多个网络接口716将电子系统700耦合到一或多个网络及/或一或多个网络节点。以此方式,电子系统700可以是计算机网络的一部分,例如,局域网(LAN)、广域网(WAN)或内联网,或者例如因特网的网络的网络。可结合本发明使用电子系统700的任何或所有组件,尽管所揭示技术也可使用分布式系统来实施,举例来说,分布式处理及存储系统。
[0062] 可使用编码一或多个指令的有形计算机可读存储媒体(或一或多个类型的多个有形计算机可读存储媒体)来部分地或完全地实现本发明范围内的实施方案。有形计算机可读存储媒体在性质上也可以是非暂时性的。
[0063] 计算机可读存储媒体可以是由通用或专用计算装置(包含能够执行指令的任何处理电子装置及/或处理电路)读取、写入或以其它方式存取的存储媒体。举例来说,无限制地,计算机可读媒体可包含任何易失性半导体存储器,例如RAM、DRAM、SRAM、T‑RAM、Z‑RAM或TTRAM。计算机可读媒体也可包含任何非易失性半导体存储器,例如,ROM、PROM、EPROM、EEPROM、NVRAM、快闪存储器、nvSRAM、FeRAM、FeTRAM、MRAM、PRAM、CBRAM、SONOS、RRAM、NRAM、赛道存储器、FJG或千足虫存储器。
[0064] 此外,计算机可读存储媒体可包含任何非半导体存储器,例如,光盘存储装置、磁盘存储装置、磁带、其它磁性存储装置,或者能够存储一或多个指令的任何其它媒体,例如分布式存储系统。在一或多个实施方案中,有形计算机可读存储媒体可直接耦合到计算装置,而在其它实施方案中,有形计算机可读存储媒体可例如经由一或多个有线连接、一或多个无线连接或其任一组合间接地耦合到计算装置。
[0065] 指令可直接执行或可用于产生可执行指令。举例来说,指令可实现为可执行或不可执行机器代码,或者可以高级语言实现为可经编译以产生可执行或不可执行机器代码的指令。此外,指令也可实现为数据或者可包含数据。计算机可执行指令也可以任何格式来组织,包含例程、子例程、程序、数据结构、对象、模块、应用程序、小程序、功能等等。如所属领域的技术人员认识到,细节包含但不限于数目、结构、序列,且指令的组织可显著变化,而不改变底层逻辑、功能、处理及输出。
[0066] 尽管以上论述主要参考执行软件的微处理器或多核心处理器,但一或多个实施方案由一或多个集成电路来执行,例如ASIC或FPGA。在一或多个实施方案中,此些集成电路执行存储在电路自身上的指令。
[0067] 所属领域的技术人员将了解,本文中所描述的各种说明性块、模块、元件、组件、存储器系统及算法可实施为电子硬件、计算机软件或两者的组合。为了图解说明硬件与软件的此可互换性,上文通常已就其功能性来描述各种说明性块、模块、元件、组件、存储器系统及算法。此功能性是实施为硬件还是软件取决于特定应用及施加于总体系统上的设计约束。技术人员可针对每一特定应用以变化的方式实施所描述的功能性。可以不同方式布置(例如,以不同次序布置或以不同方式分割)各种组件及块,所有这些均不背离本技术的范围。
[0068] 应理解,所揭示的过程中的块的任何特定次序或层次是对实例方法的图解说明。基于设计偏好,应理解可重新布置过程中的块的特定次序或层次,或者所图解说明的块未必都执行。可同时执行所述块中的任一者。在一或多个实施方案中,多任务及并行处理可以是有利的。此外,不应将在上文所描述的实施例中的各种系统组件的分离理解为在所有实施例中需要此分离,且应理解,通常可将所描述的程序组件及系统一起集成于单个软件产品中或封装到多个软件产品(例如,基于云的应用程序)或分布式系统的多个装置中。
[0069] 如在此说明书及此申请案的任何权利要求中所使用,术语“基站”、“接收器”、“计算机”、“服务器”、“处理器”及“存储器”均是指电子或其它技术的装置。这些术语不包括人或人群。出于说明书的目的,术语“显示(display)”或“显示(displaying)”意指在电子装置上显示。
[0070] 如本文中所使用,在一系列项目之前的短语“中的至少一者”(其中用术语“及”或者“或”分离所述项目中的任一者)将列表作为整体修改,而非修改列表中的每一成员(即,每一项目)。短语“中的至少一者”不需要选择所列举每一项目中的至少一者,而是所述短语允许包含所述项目的任一者中的至少一者及/或所述项目的任何组合中的至少一者及/或所述项目的每一者中的至少一者的含义。以举例方式,短语“A、B及C中的至少一者”及“A、B或C中的至少一者”各自是指仅A、仅B或仅C;A、B及C的任一组合及/或A、B及C的每一者中的至少一者。
[0071] 谓语词“经配置以”、“可操作以”及“经编程以”并不暗示对一对象的任何特定有形或无形修改,而是打算可互换使用。在一或多个实施方案中,举例来说,处理器经配置以监视并控制操作或组件也可意指处理器经编程以监视并控制所述操作或处理器可操作以监视并控制所述操作。同样地,处理器经配置以执行代码可视为处理器经编程以执行代码或可操作以执行代码。
[0072] 例如“方面”、“所述方面”、“另一方面”、“一些方面”、“一或多个方面”、“实施方案”、“所述实施方案”、“另一实施方案”、“一些实施方案”、“一或多个实施方案”、“实施例”、“所述实施例”、“另一实施例”、“一些实施例”、“一或多个实施例”、“配置”、“所述配置”、“另一配置”、“一些配置”、“一或多个配置”、“本技术”、“本揭示内容”、“本发明”及其各种变化形式等等的短语均出于方便目的且并不暗示与此短语有关的揭示内容对本技术是必不可少的或者此揭示内容适用于本技术的所有配置。与此短语有关的揭示内容可适用于所有配置或者一或多个配置。与此短语有关的揭示内容提供一或多个实例。例如“方面”或“一些方面”的短语可是指一或多个方面且反之亦然,且此类似地适用于其它外语短语。
[0073] 词“示范性”在本文中用于意指“充当实例、例子或图解说明”。在本文中描述为“示范性”或“实例”的实施例不必理解为较其它实施例为优选或有利的。此外,就在具体实施方式或权利要求书中使用术语“包含”、“具有”等来说,此些术语打算以类似于术语“包括”在“包括”用作权利要求中的过渡词时所解释的意义的方式为包含性。
[0074] 所属领域的技术人员已知的或后来知晓的在本揭示内容通篇描述的各种方面的元素的所有结构及功能等效物明确地以引用的方式并入本文中且打算由权利要求书涵盖。此外,本文中所揭示的任何内容均不打算致力于公共的,而不管此揭示内容是否明确地叙述于权利要求书中。任何权利要求元素将不根据35 U.S.C.§112(f)的规定来解释,除非所述元素使用短语“用于…的构件”来明确地叙述,或者在存储器系统权利要求的情况下,所述元素使用短语“用于…的步骤”来叙述。
[0075] 提供先前描述旨在使得任何所属领域的技术人员能够实践本文中所描述的各种方面。所属领域的技术人员将容易明了对这些方面的各种修改,且本文中所界定的通用原理可适用于其它方面。因此,权利要求书并不打算限制于本文中所展示的方面,而是应被赋予与语言权利要求相一致的全部范围,其中以单数形式对一元素的提及并不打算意指“一个且仅一个”(除非具体如此陈述),而是意指“一或多个”。除非另有具体陈述,否则术语“一些”是指一或多个。男性代词(例如,他的)包含女性及中性性别(例如,她的及它的),且反之亦然。如果有的话,那么标题及副标题仅用于方便的目的且并不限制本发明。