图像解码方法及使用其的装置转让专利

申请号 : CN201710145392.4

文献号 : CN107087204A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 亨得利·亨得利金廷宣金哲瑾全柄文丁商五

申请人 : LG 电子株式会社

摘要 :

本发明涉及图像解码方法及使用其的装置。本发明包括一种图像信息解码方法,该方法包括:接收比特流的步骤,该比特流包括网络抽象层(NAL)单元,网络抽象层(NAL)单元包括与编码的图像相关的信息;和解析NAL单元的NAL单元报头的步骤。NAL单元报头包括层信息,该层信息包含用于在扩展的比特流中识别扩展层的reserved_one_5bits和用于识别比特流的时间层的temporal_id。在层信息的temporal_id之前接收层信息的reserved_one_5bits。从而,提供了一种用于在分层的比特流中描述可扩展性信息的方法。

权利要求 :

1.一种用于对图片进行解码的解码装置,所述装置包括:

熵解码器,所述熵解码器被配置为从比特流获得视频信息,所述视频信息包括预测信息和偏移信息;

预测器,所述预测器被配置为基于所述预测信息生成预测块,所述预测块包括预测像素;

加法器,所述加法器被配置为基于所述预测像素重建图片;以及

滤波器,所述滤波器被配置为将环内滤波处理应用于重建的图片,

其中,所述环内滤波处理包括去块滤波处理和采样自适应偏移处理,

其中,所述滤波器将所述去块滤波处理应用于所述重建的图片,以及在完成所述去块滤波处理之后,将采样自适应偏移处理应用于亮度像素和色度像素中的至少一个,其中,所述偏移信息包括指示是否所述采样自适应偏移处理能够被应用于所述亮度像素的第一标志信息和指示是否所述采样自适应偏移处理能够被应用于所述色度像素的第二标志信息,其中,基于所述第一标志信息和所述第二标志信息执行所述采样自适应偏移处理,以及其中,所述偏移信息包括指示由32个带当中的n个带构成的带组的开始带的带信息,与所述n个带当中的带相对应的偏移被应用于所述亮度像素或者所述色度像素。

2.根据权利要求1所述的装置,其中,当所述第一标志信息指示所述采样自适应偏移处理能够被应用于所述亮度像素时,所述偏移信息包括用于指定所述亮度像素的偏移类型的亮度偏移类型信息和用于指定被应用于所述亮度像素的偏移的量值的亮度偏移值信息,以及其中,当所述第二标志信息指示所述采样自适应偏移处理能够被应用于所述色度像素时,所述偏移信息包括用于指定所述色度像素的偏移类型的色度偏移类型信息和用于指定被应用于所述色度像素的偏移的量值的色度偏移值信息。

3.根据权利要求2所述的装置,其中,所述熵解码器使用上下文自适应二进制算数编码,获得所述亮度偏移类型信息、所述亮度偏移值信息、所述色度偏移类型信息,以及所述色度偏移值信息。

4.根据权利要求1所述的装置,其中,所述偏移被应用于其去块滤波处理已经完成的所述重建的图片的所述亮度像素或者所述色度像素,当所述第一标志信息指示所述采样自适应偏移处理能够被应用于所述亮度像素时,所述偏移信息包括用于指定所述亮度像素的偏移类型的亮度偏移类型信息和用于指定被应用于所述亮度像素的偏移的量值的亮度偏移值信息,以及其中,当所述第二标志信息指示所述采样自适应偏移处理能够被应用于所述色度像素时,所述偏移信息包括用于指定所述色度像素的偏移类型的色度偏移类型信息和用于指定被应用于所述色度像素的偏移的量值的色度偏移值信息。

5.根据权利要求4所述的装置,其中,所述亮度偏移类型信息指示是否带偏移被应用于所述亮度像素、边缘偏移被应用于所述亮度像素,或者所述偏移不被应用于所述亮度像素,以及其中,所述色度偏移类型信息指示是否带偏移被应用于所述色度像素、边缘偏移被应用于所述色度像素,或者所述偏移不被应用于所述色度像素。

6.根据权利要求1所述的装置,其中,所述带是像素的整个像素值区域以恒定大小被划分成的区段。

7.根据权利要求1所述的装置,其中,所述n被预先确定为恒定数。

8.根据权利要求1所述的装置,其中,所述带信息进一步指示由32个带当中的n个带构成的带组的最后带。

说明书 :

图像解码方法及使用其的装置

[0001] 本申请是2014年3月26日提交的国际申请日为2013年6月12日的申请号为201380003197.8(PCT/KR2013/005207)的,发明名称为“图像解码方法及使用其的装置”专利申请的分案申请。

技术领域

[0002] 本发明涉及一种视频压缩技术,并且更具体地,涉及一种用于解码比特流中的视频信息的方法和装置。

背景技术

[0003] 近来,对高分辨率和高质量图像的需求已经在各种应用领域中增长。由于图像具有较高的分辨率和较高的质量,所以有关图像的信息量同样增长。
[0004] 随着信息量增长,引入具有各种环境的多功能设备和网络。因此,相同的内容可以以不同等级的质量使用。
[0005] 特别地,由于终端能够支持不同质量的视频并且建立了各种网络环境,在一个环境下启用具有一般质量的视频,同时高质量视频在另一个环境下是可用的。
[0006] 例如,用户可以在家里在具有更高分辨率的大屏幕显示器上欣赏通过便携式终端购买的视频内容。
[0007] 近年来,由于高清晰度(HD)广播服务是可用的,所以大量的用户习惯于高分辨率和高质量视频,并且服务提供商和服务用户也关注具有比HDTV高四倍分辨率的超高清晰度(UHD)服务。
[0008] 因此,存在基于对大容量视频的高效率编码和解码方法,对视频质量,例如,图像质量、分辨率、视频的大小和帧速率提供可扩展性,以便在对于用户需求的不同的环境下提供不同质量的视频服务的需要。

发明内容

[0009] 技术问题
[0010] 本发明的方面是提供一种用于描述在可扩展的比特流中的可扩展性信息的方法和装置。
[0011] 本发明的另一个方面是提供一种用于以灵活的方式表示有关比特流的可扩展性信息的方法和装置。
[0012] 本发明的再一个方面是提供一种用于简化在比特流中的视频编译层类型的方法和装置。
[0013] 技术方案
[0014] 本发明的实施例提供一种解码视频信息的方法,该方法包括:接收包括网络抽象层(NAL)单元的比特流,网络抽象层(NAL)单元包括有关编码的视频的信息;和解析NAL单元的NAL单元报头,其中,NAL单元报头包括层信息,层信息包括在扩展的比特流中识别扩展层的预留_一个_5比特(reserved_one_5bits),和识别比特流的时间层的时间_id(temporal_id),以及在termporal_id之前接收reserved_one_5bits。
[0015] reserved_one_5bits和termporal_id可以被同时地解析。
[0016] 本发明的另一个实施例提供一种解码视频信息的方法,该方法包括:接收包括网络抽象层(NAL)单元的比特流,网络抽象层(NAL)单元包括有关编码的视频的信息,和解析NAL单元的NAL单元报头,其中,NAL单元报头包括对应于NAL单元类型的NAL单元类型信息,NAL单元类型包括当图片组(图片的组)具有开放结构时,作为随机接入点图片的纯随机接入(CRA)图片,和当编码的图片被拼接或者比特流在中间断开时,存在于作为随机接入点的比特流的中间的断链接入(BLA)图片。
[0017] CRA图片可以具有一个NAL单元类型,而不管引导图片如何,引导图片在作为随机接入点的图片之前被输出,并且在作为随机接入点的图片之后被解码。
[0018] 在作为随机接入点的图片之前被输出,并且在作为随机接入点的图片之后被解码的引导图片在BLA图片之后不存在。
[0019] 在作为随机接入点的图片之前输出并且在作为随机接入点的图片之后被解码的引导图片之中的没有被解码但是被去除的引导图片在BLA图片之后不存在。
[0020] 有益效果
[0021] 本发明的实施例提供用于描述在可扩展的比特流中的可扩展性信息的方法和装置。
[0022] 本发明的另一个实施例提供一种用于以灵活的方式表示有关比特流的可扩展性信息的方法和装置。
[0023] 本发明的再一个实施例提供一种用于简化在比特流中的视频编译层类型的方法和装置。

附图说明

[0024] 图1是示意地图示根据本发明的示例性实施例的视频编码装置的框图。
[0025] 图2是示意地图示根据本发明的示例性实施例的视频解码装置的框图。
[0026] 图3示意地图示根据本发明的示例性实施例使用多层的可扩展视频编码结构。
[0027] 图4图示由解码装置处理的编码视频的分层结构。
[0028] 图5图示随机接入图片。
[0029] 图6图示IDR图片。
[0030] 图7图示CRA图片。
[0031] 图8图示根据本发明的示例性实施例的CRA图片到BLA图片的变化。
[0032] 图9是图示根据本发明的编码视频信息的方法的流程图。
[0033] 图10是图示根据本发明的解码视频信息的方法的流程图。

具体实施方式

[0034] 本发明可以不同地变化和修改,并且参考不同的示例性实施例图示,其中一些将详细描述和在附图中示出。但是,这些实施例不意欲限制本发明。在此处使用的术语仅仅是为了描述特定的实施例的目的,并且不意欲限制本发明的技术想法。作为在此处使用的,单个形式“一”、“一个”和“该”意欲也包括多个形式,除非上下文中以别的方式清楚地表示。应该进一步理解,当在本说明书中使用时,该术语“包括”和/或“具有”指定陈述的特征、整数、步骤、操作、要素、部件和/或其组合的存在,但是,不排除一个或多个其它的特征、整数、步骤、操作、要素、部件和/或其组合的存在或者增加。
[0035] 虽然为了描述在视频编码装置/解码装置中不同的区别的功能的方便起见,在附图中图示的要素被独立地示出,但是这样的配置不表示每个要素由单独的硬件组件或者软件组件构成。即,至少二个要素可以被组合为单个要素,或者单个要素可以被分成多个要素去执行功能。应当注意,不脱离本发明的本质的情况下,某些要素被集成为一个组合要素,和/或一个要素被分成多个单独的要素的实施例包括在本发明的范围中。
[0036] 在下文中,本发明示例性实施例将参考附图详细描述。在附图中相同的附图标记自始至终表示相同的要素,并且相同的要素的冗余描述在此处将被省略。
[0037] 图1是示意地图示根据本发明的示例性实施例的视频编码装置的框图。可扩展的视频编码/解码方法或者装置可以通过没有提供可扩展性的一般视频编码/解码方法或者装置的扩展实现,并且图1图示作为可扩展的视频编码装置基础的视频编码装置的示例。
[0038] 参考图1,该视频编码装置100包括图片分割模块105、预测模块110、变换模块115、量化模块120、重排模块125、熵编码模块130、去量化模块135、逆变换模块140、滤波模块145,和存储器150。
[0039] 该图片分割模块105可以将输入图片划分为至少一个块作为处理单元。在这里,作为处理单元的块可以是预测单元(PU)、变换单元(TU),或者编码单元(CU)。
[0040] 由图片分割模块105划分的处理单元块可以具有四树结构。
[0041] 该预测模块110可以包括将描述的执行帧间预测的帧间预测模块,和执行帧内预测的帧内预测模块。该预测模块110通过对来自分割模块105的图片的处理单元执行预测生成预测块。在预测模块110中的图片的处理单元可以是CU、TU或者PU。此外,该预测模块110可以确定是否对处理单元执行的预测是帧间预测或者帧内预测,并且可以确定每个预测方法的细节(例如,预测模式)。在这里,对其执行预测的处理单元可以不同于预测方法和有关预测方法的细节为其确定的处理单元。例如,预测方法和预测模式可以对于每个PU被确定,同时可以对每个TU执行预测。
[0042] 在帧间预测中,基于有关当前图片的先前的和/或后续的图片的至少一个的信息预测块可以通过执行预测被生成。此外,在帧内预测中,基于有关在当前图片内像素的信息预测块可以通过执行预测被生成。
[0043] 跳跃模式、合并模式和运动矢量预测(MVP)模式可以用作帧间预测方法。在帧间预测中,可以选择用于PU的参考图片,并且对应于PU的参考块可以被选择。参考块可以以帧间像素单元被选择。随后,生成具有相对于当前PU最小残留信号和具有最小大小运动矢量的预测块。
[0044] 该预测块可以以整数采样单元,或者以小于整数像素,诸如1/2像素单元和1/4像素单元的像素单元被生成。在这里,该运动矢量可以以小于整数像素的单元表示。
[0045] 有关在帧间预测中选择的参考像素的信息,诸如索引、运动矢量(例如,运动矢量预测器)和参考图片的残留信号经历熵编码,并且传送给解码装置。在跳跃模式中,由于预测块可以是重建的块,所以该残留不能被生成、变换、量化和传送。
[0046] 在帧内预测中,预测模式由PU确定,并且预测可以由PU执行。替选地,预测模式可以由PU确定,并且帧内预测可以在TU中执行。
[0047] 帧内预测模式可以具有33个方向的预测模式,和两个或更多个无方向的模式。无方向的模式可以包括DC预测模式和平面模式。
[0048] 在帧内预测中,该预测块可以在将滤波器施加于参考采样之后被生成。在这里,是否将滤波器施加于参考采样可以关于帧内预测模式和/或当前块的大小被确定。
[0049] PU可以具有不同的大小和形式。例如,在帧间预测中,PU可以是2N×2N、2N×N、N×2N或者N×N块(N是整数)。在帧内预测中,PU可以是2N×2N或者N×N块(N是整数)。在这里,具有N×N块大小的PU可以仅仅应用于特定的情形。例如,具有N×N块大小的PU仅仅可用于最小大小的CU,或者仅仅用于帧内预测。除了具有先前大小的PU之外,PU可以包括N×mN、mN×N、2N×mN和mN×2N块(m<1)。
[0050] 在生成的预测块和初始块之间的残留值(或者,残留块或者残留信号)可以被输入给变换模块115。此外,有关预测模式的信息,和有关用于预测的运动矢量的信息与残留值一起由熵编码模块130编码,并且传送给解码装置。
[0051] 该变换模块115通过TU变换残留块,并且生成变换系数。
[0052] 变换块是采样的矩形块,相同的变换被应用于其。该变换块可以是TU,并且具有四树结构。
[0053] 基于应用于残留块的预测模式和块的大小该变换模块115可以执行变换。
[0054] 例如,当帧内预测应用于残留块,并且该块具有4×4残留阵列时,该变换模块115可以使用离散余弦变换(DCT)变换残留块。另外,该变换模块115可以使用离散正弦变换(DST)变换残留块。
[0055] 该变换模块115可以通过变换生成变换系数的变换块。
[0056] 该量化模块120可以通过量化由变换模块115变换的残留值(即,变换系数)生成量化的变换系数。由量化模块120推导出的系数被提供给去量化模块135和重排模块125。
[0057] 该重排模块125重排由量化模块120提供的量化的变换系数。重排量化的变换系数可以在熵编码模块130中提高编码效率。
[0058] 该重排模块125可以使用系数扫描将量化的变换系数的二维(2D)块重排为一维(1D)矢量。
[0059] 该熵编码模块130可以对由重排模块125重排的量化变换系数执行熵编码。诸如指数Golomb、上下文自适应的可变长度编码(CAVLC),和上下文自适应二进制运算编码(CABAC)的各种编码方法可以在熵编码中使用。该熵编码模块130可以编码各种类型的信息,诸如从重排模块125和预测模块110接收的滤波信息和块内插信息、关于量化的变换系数和CU的块类型的信息、预测模式信息、分割单元信息、PU信息、传送单元信息、运动矢量信息、参考图片信息。
[0060] 此外,该熵编码模块130可以根据需要将变化应用给接收到的参数集或者语法。
[0061] 该去量化模块135对由量化模块120量化的值(变换系数)执行去量化,并且该逆变换模块140对由去量化模块135去量化的值执行逆变换。
[0062] 经由去量化模块135和逆变换模块140生成的残留值被与由预测模块110预测的预测块合并,从而生成重建的块。
[0063] 图1图示重建的块通过经由加法器将残留块与预测块合并生成。在这里,加法器可以被认为是用于生成重建的块(重建的块生成模块)的单独的模块。
[0064] 该滤波器145可以将去块滤波器、自适应循环滤波器(ALF)和采样自适应偏移(SAO)应用于重建的图片。
[0065] 该去块滤波器可以在重建的图片中去除在块之间的边界上生成的块失真。基于通过将具有通过去块滤波器滤波的块的重建的图片与原始图片比较获得的值,ALF可以执行滤波。可以仅仅为了高效率采用ALF。SAO通过其中使用频带偏移或者边缘偏移的像素单元,重建在去块滤波器已经被应用到的残留块和原始图片之间的偏移差。
[0066] 同时,该滤波器145可以不将滤波应用于在帧间预测中使用的重建的块。
[0067] 该存储器150可以存储经由滤波器145推导出的图片或者重建的块。存储在存储器150中的该重建的块或者图片可以提供给执行帧间预测的预测模块110。
[0068] 图2是根据本发明的示例性实施例示意地示出视频解码装置的框图。如上图1所述,可扩展的视频编码/解码方法或者装置可以通过扩展没有提供可扩展性的一般的视频编码/解码方法或者装置实现,和图2图示作为可扩展的视频解码装置基础的视频解码装置的示例。
[0069] 参考图2,该视频解码装置200可以包括熵解码模块210、重排模块215、去量化模块220、逆变换模块225、预测模块230、滤波器235,和存储器240。
[0070] 当视频比特流被从视频编码装置输入时,该输入的比特流可以根据视频编码装置处理视频信息的反过程被解码。
[0071] 例如,如果视频编码装置使用可变长度编码(VLC),诸如CAVLC,去执行熵编码,则该熵解码模块210可以通过实现与在编码装置中使用的相同的VLC表执行熵解码。此外,如果该视频编码装置使用CABAC去执行熵编码,则该熵解码模块210也可以使用CABAC执行熵解码。
[0072] 在由熵解码模块210解码的信息片之中用于生成预测块的信息可以提供给预测模块230。由熵解码模块210熵解码的残留值(即,量化的变换系数)可以输入给重排模块215。
[0073] 基于在编码装置中使用的重排方法,该重排模块215可以重排关于由熵解码模块210熵解码的比特流(即,量化的变换系数)的信息。
[0074] 该重排模块215可以将以1D矢量形式表示的系数重建和重排为以2D块的系数。基于预测模式和应用于当前块(变换块)的变换块的大小该重排模块215可以通过扫描系数生成以2D块(量化的变换系数)的系数。
[0075] 基于从编码装置提供的量化参数和重排的块系数去量化模块220可以执行去量化。
[0076] 该逆变换模块225可以对已经经历由编码装置的变换模块执行的DCT和DST的、由视频编码装置执行的量化结果执行逆DCT和/或逆DST。
[0077] 基于由视频编码装置确定的图片的传输单元或者分割单元可以执行逆变换。该视频编码装置的变换模块可以取决于多个信息元素,诸如,预测方法、当前块的大小和预测方向有选择地执行DCT和/或DST,并且基于有关由视频编码装置的变换模块执行的变换的信息该视频解码装置的逆变换模块225可以执行逆变换。
[0078] 基于有关从熵解码模块210提供的预测块的生成的信息和有关由存储器240提供的预先地解码的块和/或图片的信息,该预测模块230可以生成预测块。
[0079] 如果用于当前PU的预测模式是帧内预测模式,则基于有关在当前图片中的像素的信息帧内预测可以被执行以生成预测块。
[0080] 如果用于当前PU的预测模式是帧间预测模式,则基于包括在当前图片的先前的和后续的图片的至少一个中的信息用于当前PU的帧间预测可以被执行。在这里,用于由视频编码装置提供的当前PU的帧间预测所必需的运动信息,例如,关于运动矢量和参考图片的索引的信息可以通过检查从编码装置接收的跳越标记和合并标记推导出。
[0081] 重建块可以使用由预测模块230生成的预测块和由逆变换模块225提供的残留块生成。图2图示重建的块通过由加法器将预测块与残留块合并来生成。在这里,加法器可以被认为是用于生成重建块(重建块生成模块)的单独的模块。
[0082] 当使用跳跃模式时,不发送残留块,并且预测块是重建块。
[0083] 该重建块和/或图片可以提供给滤波器235。该滤波器235可以将去块滤波、SAO和/或AFL应用于重建块和/或图片。
[0084] 该存储器240可以存储要作为参考图片或者参考块使用的重建的图片或者块,并且将重建的图片供应给输出单元。
[0085] 在解码装置200的熵解码模块210、重排模块215、去量化模块220、逆变换模块225、预测模块230、滤波器235和存储器240之中直接与视频解码相关的组件,例如,熵解码模块210、重排模块215、去量化模块220、逆变换模块225、预测模块230和滤波器235可以定义为与其它的组件分开地解码器或者解码单元。
[0086] 此外,该解码装置200可以进一步包括解析模块(未示出),以解析关于包括在比特流中的编码的视频的信息。该解析模块可以包括熵解码模块210或者被包括在熵解码模块210中。该解析模块可以作为解码单元的一个组件提供。
[0087] 图3示意地图示根据本发明的示例性实施例使用多层的可扩展的视频编码结构。在图3中,图片组(GOP)表示图片组,即,一组图片。
[0088] 需要传输介质去发送视频数据,并且每个传输介质可以取决于各种网络环境呈现不同的性能。可扩展的视频编码方法被提供用于各种传输介质和网络环境。
[0089] 可扩展的视频编码方法是通过利用在层之间的纹理信息、运动信息和残留信号去除在层之间冗余,以提高编码和解码性能的编码方案。该可扩展的视频编码方法可以根据诸如传输比特速率、传输差错率和系统资源的周围的条件,在空间、时间和质量方面提供各种可扩展性。
[0090] 可扩展的视频编码可以使用多层结构被执行,以便提供可应用于不同网络情形的比特流。例如,可扩展的视频编码结构可以包括用于使用一般的视频解码方法压缩视频数据的基础层,和用于使用基础层的解码信息和一般视频解码方法压缩视频数据的增强层。
[0091] 在这里,层是根据空间方面(例如,视频大小)、时间方面(例如,解码顺序、视频输出顺序和帧速率)、质量或者复杂度分类的视频和比特流的集合。此外,基础层可以表示参考层或者基本层,而增强层可以表示增强层。多个层可以相互具有相关性。
[0092] 例如,参考图3,基础层可以由标准定义(SD),由高分辨率(HD)15Hz的帧速率和1Mbps的比特速率、第一增强层、由超高分辨率(4K-UHD)30Hz的帧速率和3.9Mbps的比特速率和第二增强层,60Hz的帧速率和27.2Mbps的比特速率限定。前面提到的格式、帧速率和比特速率仅仅是为了说明性的目的提供的,并且可以根据需要变化和修改。此外,不同的层数可以取决于情形使用。
[0093] 例如,当传输带宽是40Mbps时,第一增强层可以通过降低HD帧速率以15Hz或者更小的帧速率发送。可扩展的视频编码方法可以使用如上参考图3所述的方法在时间、空间和质量方面提供可扩展性。
[0094] 在下文中可扩展的视频编码可以指的是从编码视角可扩展的视频编码,和从解码视角可扩展的视频解码。
[0095] 如上所述,由于不同种类的通信网络和各种类型的终端,可扩展性是当前视频格式的重要功能。
[0096] 同时,包括多层的比特流由网络抽象层(NAL)单元形成,其便于经由分组交换网络的视频适配传输。类似于多层的情形,在包括多个多图视频的多图视频编码中,在多图之间的关系类似于在包括多层的视频中在空间层之间的关系。
[0097] 图4图示由解码装置处理的编码视频的层状结构。
[0098] 该编码的视频被分成用于解码视频,和处理视频本身以及位于VCL和下层系统之间的NAL的视频编译层(VCL),该下层系统发送和存储编码信息。
[0099] 作为NAL的基本单元的NAL单元用来根据预置的标准、实时传输协议(RTP)和传输流(TS)将编码的视频映射到下层系统的比特串上,诸如,文件格式。
[0100] 同时,对于VLC、对应于序列和图片的报头的参数集(图片参数集、序列参数集和视频参数集)和对视频解码处理另外需要的辅助的增强信息(SEI)消息与关于视频(片段数据)的信息分离。存储关于视频信息的VCL包括片段数据和片段报头。
[0101] 如图4所示,NAL单元包括NAL单元报头和在VCL中生成的原始的字节序列有效载荷(RBSP,从视频压缩产生的数据)的二个部分。NAL单元报头包括关于NAL单元类型的信息。
[0102] NAL单元取决于在VCL中生成的RBSP被分成VCL NAL单元和非VCL NAL单元。VCL NAL单元是包括关于视频的信息的NAL单元,并且非VCL NAL单元是包括用于解码视频需要的信息(参数集或者SEI消息)的NAL单元。
[0103] VCL NAL单元可以根据包括在NAL单元中图片的属性和类型被分成不同的类型。
[0104] 同时,关于比特流的可扩展性信息是非常至关紧要的,以便有效地和高效地在内容传送路径的每个节点上变换比特流。在作为用于单个层的视频编码规范的高效率视频编码中,NAL单元报头包括有关与可扩展性信息相关的二个字段,temporal_id和reserved_one_5bits的信息。具有3比特长度的temporal_id表示时间层,并且reserved_one_5bits是用于表示随后另一层信息的区域。时间层表示由VCL NAL单元形成并且临时可扩展的比特流的层,并且具有特定的temporal_id值。
[0105] 本发明提出有效地描述在支持多层的比特流中关于视频的抽象信息和可扩展性信息,并且公开用于信令传送这样的信息的方法和装置。
[0106] 为了描述方便,比特流在下文中被分成二个类型。支持时间可扩展性的比特流仅仅表示为基础类型,而支持时间、空间、质量和视点可扩展性的比特流被表示为扩展类型。
[0107] 表1图示根据本发明的示例性实施例由编码装置编码和由解码装置解码的NAL单元报头的语法。
[0108] [表1]
[0109]
[0110] 在表1中,在包括在NAL单元报头的信息之中,forbidden_zero_bit被设置为0。
[0111] nal_unit_type表示包括在NAL单元中的RBSP的数据结构,并且基于RBSP的数据结构具有多个类型。
[0112] nal_ref_flag是表示在编码时间上关于是否NAL单元在整个比特流中是非参考图片或者参考图片的信息的标记。如果nal_ref_flag是1,则NAL单元包括序列参数集(SPS)、图片参数集(PPS)、适配参数集(APS)或者参考图片的片段。如果nal_ref_flag是0,则NAL单元包括包含非参考图片的部分或者整体的片段。
[0113] 作为可用于支持可扩展性的扩展类型,诸如3D视频编码扩展类型信息的reserved_one_5bits用于识别存在于编码的视频序列(CVS)中的附加层。该层可以是空间可扩展层、质量可扩展层、纹理图或者深度图。
[0114] 当比特流是基础类型时,reserved_one_5bits是0,其可用于确定在比特流的解码单元中包括的数据量。
[0115] temporal_id是用于NAL单元的时间层的标识符。
[0116] layer_id是用于NAL单元的层标识符,并且用于一个接入单元的所有VCL NAL单元具有相同的layer_id值。layer_id可以以8比特信令传送。
[0117] 如表1所示,当nal_unit_type支持单个层比特流,即,比特流是基础类型时,reserved_one_5bits和temporal_id被连续地编码,并且发送给解码装置。当比特流是扩展类型时,layer_id被编码,并且发送给解码装置。
[0118] 例如,在基础层或者基本层中以reserved_one_5bits和temporal_id的顺序执行信令传送,并且作为reserved_one_5bits和temporal_id组合的layer_id可以在扩展层中被信令传送。
[0119] layer_id不仅可以在NAL单元报头中还可以在视频参数集(VPS)中另外被信令传送。
[0120] 同时,NAL单元报头具有2字节的固定大小,并且所有需要的信息被在2字节空间内发送。
[0121] 基础类型比特流仅仅支持时间可扩展性,其由temporal_id语法描述。但是,在扩展类型中,层信息或者相关信息可能需要被包括在NAL单元报头中,并且不用于基础类型的reserved_one_5bits用于发送上述的信息。
[0122] reserved_one_5bits是5比特信号,其可能不足以发送用于扩展类型的所有需要的信息。即,所有32层可以以5比特表示,但是,当比特流支持许多可扩展性类型或者多个图层时,5比特不足以识别所有层。
[0123] 通常,temporal_id被在NAL单元报头中的reserved_one_5bits之前被信令传送。即,temporal_id被首先信令传送以识别时间层,并且然后,用于识别用于扩展类型的层的reserved_one_5bits被信令传送。在时间可扩展性和不同类型的可扩展性之间的区分可能导致混淆。时间可扩展性是可扩展的形式,在这样情况下,时间可扩展性可以被认为类似于其他类型的可扩展性。
[0124] 此外,当temporal_id在reserved_one_5bits之前被信令传送时,3比特被强制地分配以描述时间可扩展性。但是,时间可扩展性并不总是使用,并且扩展类型比特流不能支持时间可扩展性,而是支持不同类型的可扩展性。在这种情况下,针对时间可扩展性分配的3比特是不必要的信息。不必要的temporal_id可用于描述其他类型的可扩展性。
[0125] 考虑这些,在本发明中,temporal_id用作一个信息以在扩展类型比特流中识别层。即,扩展类型不仅使用reserved_one_5bits,而且使用reserved_one_5bits和temporal_id的组合以识别层。
[0126] 此外,当在temporal_id之前以与reserved_one_5bits和temporal_id的传统的信令传送顺序不同的顺序信令传送reserved_one_5bits时,解析效率提高。传统地,首先对3比特temporal_id执行解析,然后对5比特reserved_one_5bits执行解析。但是,在本发明中,二条信息单元,即,reserved_one_5bits和temporal_id可以被同时解析。即,8比特比特流可以一次读取,代替分两次读取5比特比特流和3比特比特流。
[0127] 解析的次数可以根据reserved_one_5bits和temporal_id的信令传送顺序而改变。例如,当temporal_id值是101,并且temporal_id被信令传送时,由解析reserved_one_5bits和temporal_id产生的值是00000101。当temporal_id被首先信令传送时,解析值是
10100000。当temporal_id被根据传统方法首先信令传送时,该解码装置需要解析比特流两次。
[0128] 此外,如果需要8比特信令传送layer_id,则同时地解析reserved_one_5bits和temporal_id被认为类似于解析layer_id,从而改善解析效率。
[0129] 像在本发明中一样,当temporal_id用作一个信息以在扩展类型比特流中识别层时,8比特可用于识别该层,因此,表示在传统方法中层数从32提高到256。
[0130] 此外,在本发明中,由于时间可扩展性视为与其他类型的可扩展性相同,避免关于是否时间可扩展性与其他类型的可扩展性相同的混淆。另外,由于temporal_id可以与其他类型的可扩展性结合用于使用,可扩展性可以以不同的方式表示。
[0131] 此外,在未应用时间可扩展性的比特流中,在比特流中分配用于时间可扩展性的比特可以有效地用于描述其他类型的可扩展性。
[0132] 表2图示根据本发明的另一个示例性实施例的NAL单元报头的语法。
[0133] [表2]
[0134]
[0135] 如在表2中图示的,layer_id是用于NAL单元的时间标识符。用于一个接入单元的所有VCL NAL单元具有相同的layer_id。在支持单个层的比特流中,layer_id的范围从0到7。在作为随机接入点的接入单元中,用于接入单元的所有VCL NAL单元的layer_id是0。
[0136] 在当前的实施例中,将layer_id作为由reserved_one_5bits和temporal_i的组合产生的新的语法被使用。如上所述,支持单个层,即,基础类型的比特流可以具有从0到7范围的layer_id,在这样情况下,layer_id可以用作信令传送与temporal_id相同信息的语法。
[0137] 同时,如果所有非参考图片,特别是对应于最顶端时间层的非参考图片被提取,在提取之后所有剩余图片的nal_ref_flag是1。但是,即使nal_ref_flag是1,在剩余的比特流中抽象的比特流的一些图片,即,对应于顶端时间层的图片变为非参考图片。
[0138] 因此,分配给nal_ref_flag的比特可以用于NAL单元报头的另一个语法元素,例如,temporal_id或者reserved_one_5bits。如果分配给nal_ref_flag的一比特用于temporal_id或者reserved_one_5bits,则包括在比特流中的更大数目的层可以被识别。
[0139] 例如,当分配给nal_ref_flag的一比特用于reserved_one_5bits时,reserved_one_5bits具有一比特以上以变为6比特信号。
[0140] 如上所述,NAL单元可以根据包括在NAL单元中图片的属性和类型被分成不同的类型。
[0141] 表3图示NAL单元类型的示例。
[0142] [表3]
[0143]
[0144] 如在表3中图示的,NAL单元可以取决于是否NAL单元包括关于视频的信息被分成VCL NAL单元和非VCL NAL单元。VCL NAL单元是包括关于视频信息的NAL单元,并且非VCL NAL单元是包括用于解码视频需要的信息(参数集或者SEI消息)的NAL单元。
[0145] VCL NAL单元可以被分成随机接入图片和随机非接入图片。在表3中,具有4至8的nal_unit_type的NAL单元是随机接入图片,并且具有1至3的nal_unit_type的NAL单元不是随机接入图片。
[0146] 图5图示随机接入图片。
[0147] 随机接入图片,即,作为随机接入点的帧内随机接入点(IRAP)图片是在以随机接入的解码顺序中比特流的第一图片,并且仅仅包括I片段。
[0148] 图5示出图片的输出顺序或者显示顺序和解码顺序。如图5所示,该图片的输出顺序可以不同于图片的解码顺序。为了描述方便,该图片被分成组。
[0149] 在第一组(I)中的图片就输出顺序和解码顺序两者而言放在IRAP图片之前,而在第二组(II)中的图片就输出顺序而言放在IRAP图片之前,但是就解码顺序而言在IRAP图片之后。在第三组(III)中的图片就输出顺序和解码顺序两者而言在IRAP图片之后。
[0150] 在第一组(I)中的图片可以不考虑IRAP图片被解码和输出。
[0151] 在IRAP图片之前输出的在第二组(II)中的图片称为引导图片,当IRAP图片用作随机接入点时,引导图片可能在解码处理中导致问题。
[0152] 就输出和解码顺序而言在IRAP图片之后的在第三组(III)中图片称为正常图片。正常图片不用作引导图片的参考图片。
[0153] 在随机接入所发生的比特流中的随机接入点是IRAP图片,并且当在第二组(II)中第一图片被输出时随机接入开始。
[0154] 同时,IRAP图片可以是瞬时解码刷新(IDR)图片、纯随机接入(CRA)图片和断链接入(BLA)图片中的任何一个。
[0155] 图6图示IDR图片。
[0156] IDR图片是当图片组(GOP)具有封闭结构时是随机接入点的图片。IDR图片是IRAP图片,并且因此仅仅包括I片段。IDR图片可以是在解码过程中,或者在比特流中间出现的第一图片。当IDR图片被解码时,存储在解码的图片缓存器(DPB)中的所有参考图片表示为“不用于参考”。
[0157] 在图6中,条形表示图片,并且箭头表示是否一个图片可以将另一个图片作为参考图片使用的参考关系。在箭头上的x标记表示图片无法引用由箭头指示的图片。
[0158] 如图6所示,IDR图片的POC是32,并且具有范围从25到31的POC,并且在IDR图片之前输出的图片是引导图片610。具有大于33的POC的图片是正常图片。
[0159] 在IDR图片之前的引导图片610可以使用IDR图片以及其他的引导图片作为参考图片,但是不能使用在引导图片610之前的先前的图片630。
[0160] 跟随IDR图片的正常图片620可以通过引用IDR图片、引导图片和其它的正常图片被解码。
[0161] 图7图示CRA图片。
[0162] CRA图片是当图片组(GOP)具有开放结构时是随机接入点的图片。CRA图片也是IRAP图片,并且因此仅仅包括I片段。IRD图片可以是在解码过程中的比特流中,或者出现在用于正常播放的比特流中间的第一图片。
[0163] 在图7中,条形表示图片,并且箭头表示是否一个图片可以将另一个图片作为参考图片使用的参考关系。在箭头上的x标记表示图片无法引用由箭头指示的图片。
[0164] 在CRA图片之前的引导图片710可以使用所有CRA图片、其它的引导图片和在引导图片710之前的先前的图片730作为参考图片。
[0165] 但是,在CRA图片之后的正常图片720可以通过引用CRA图片解码,并且但是,其它的正常图片不使用引导图片710作为参考图片。
[0166] BLA图片是具有与CRA图片类似的功能和属性的图片,并且当编码的图片被拼接,或者比特流在中间间断时,存在于作为随机接入点的比特流的中间。但是,由于BLA图片被认为是新的序列的开始,所以与CRA图片不同,当由解码器接收BLA图片时,关于视频的所有参数信息被再次接收。
[0167] BLA图片可以由编码装置确定,或者从编码装置接收比特流的系统可以将接收的CRA图片改变为BLA图片。例如,当比特流被拼接时,该系统将CRA图片改变为BLA图片,并且将BLA图片发送给用于解码视频的解码器。在这里,关于视频的刷新的参数信息也从系统提供给解码器。在本发明中,该解码器指的是包括解码视频的图像处理单元的任何设备,其可以是图2的解码装置,或者作为核心模块用于处理视频的解码模块。
[0168] 回到参考表3,标识用于丢弃(TED)的图片是可以被丢弃的不可解码的引导图片。由于涉及不可用的参考图片,TED图片是不被正常解码的图片,并且在解码和输出过程中被排除。
[0169] 时间层接入(TLA)图片是指示在时间可扩展性中上转换可能位置的图片,其指示在包括TLA图片的子层,或者具有大于TLA图片的termporal_id的子层中是否上转换是可能的。
[0170] 在表3中,表示CRA图片的nal_unit_type是4和5,并且表示BLA图片的nal_unit_type是6和7。CRA图片和BLA图片可以被分类如下。
[0171] -类型4:CRAT(具有TFD的CRA)图片的编码片段
[0172] -类型5:CRANT(没有TFD的CRA)图片的编码片段
[0173] -类型6:BLAT(具有TFD的断链接入单元)图片的编码片段
[0174] -类型7:BLANT(没有TFD的断链接入单元)图片的编码片段
[0175] 但是,具有nal_unit_type是4至7的图片在分解CRA图片和BLA图片中可能是多余的。在具有TFD图片的CRA图片和没有TFD图片的CRA图片之间辨别是不清楚的,并且其不能有效地辨别是否BLA图片涉及TED图片。因此,基于TFD图片的存在分解CRA图片和BLA图片不必要地将冗余增加给NAL单元类型,并且在CRA图片之间和在BAL图片之间辨别是不清楚的,导致混淆。
[0176] 因此,本发明的示例性实施例建议将四个类型构成为二个类型以便避免NAL单元类型的冗余。
[0177] 不考虑TED图片的存在,新的NAL单元类型被仅仅以CRA图片和BLA图片限定。即,在表3中CRA图片可以表示为一个类型,而不是被分成类型4和类型5,并且BLA图片也可以表示为一个类型,而不是被分成类型6和7。
[0178] 在本发明中,起随机接入点作用,并且后面有TED图片的图片被定义为CRA图片,并且表示为一个NAL单元类型。
[0179] 此外,在新的随机接入点以前后面没有TED图片的图片被定义为BLA图片,并且表示为一个NAL单元类型。即,在BLA图片和下一个随机接入点之间不存在TED图片。
[0180] 总之,TED图片、CRA图片和BLA图片可以分别地表示为单独的NAL单元类型,并且基于后面TED的存在,CRA图片和BLA图片正好相互分开,每个没有被分成二个NAL单元类型。
[0181] 因而,将功能上类似的四个NAL单元类型简化为二个类型有助于精确定义NAL单元类型,并且使能够降低复杂度。
[0182] 图8图示根据本发明的示例性实施例将CRA图片改变为BLA图片。图8(a)图示从编码装置输出的原始比特流,并且图8(b)图示从系统提供给解码器的比特流。
[0183] 在图8中,编码的片段(CS)指的是正常编码的片段,并且识别图片的数字是图片的输出顺序,即,POC。
[0184] 当在图8(a)中对比特流的随机接入突然地发生时,解码过程从CRA图片开始。在这种情况下,该系统可以如在图8(b)中将CRA图片的NAL单元类型改变为BAL图片,并且从比特流中去除跟随CRA图片的所有TED图片。
[0185] 随后,如在图8(b)中,接收比特流的解码器可以解码具有POC28的BLA图片,并且连续地解码后面的CS。在这种情况下,该解码器可以在预先确定的延迟时间周期之后解码后面的图片,以便保持输入比特流的图片比特串,即,防止缓冲存储图片的上溢或者下溢。
[0186] 图9是图示根据本发明的编码视频信息方法的流程图。
[0187] 如图9所示,该编码装置可以编码包括关于视频信息的NAL单元(S910)。
[0188] NAL单元报头包括在支持可扩展层的比特流中用于识别可扩展层的层识别信息。该层识别信息可以被编码为语法,诸如reserved_one_5bits和temporal_id或者layer_id。
[0189] 当该比特流支持单个层时,该编码装置连续地编码reserved_one_5bits和temporal_id。当该比特流不是基础类型,而是扩展类型时,该编码装置可以编码layer_id。
[0190] 替选地,该编码装置可以将reserved_one_5bits和temporal_id组合为layer_id作为单个语法信息,并且不考虑由比特流支持的层数,仅仅编码单个语法信息。
[0191] 该编码装置编码在NAL单元报头中关于NAL单元类型的信息。在VCL NAL单元之中作为随机接入点的图片包括IDR图片、CRA图片和BLA图片,并且在IRAP图片之前输出的图片称为引导图片。
[0192] 每个图片被识别有不同的nal_unit_type信息。
[0193] 传统地,基于没有被解码而是可从在引导图片之中的比特流中去除的TED图片的存在,CRA图片和BLA图片每个可以表示为二个NAL单元类型。
[0194] 不考虑TED图片的存在,根据本发明示例性实施例的编码装置分别地编码作为单独的NAL单元类型的TED图片、CRA图片和BLA图片,并且基于后面TED图片的存在分别地编码CRA图片和BLA图片。
[0195] 在另一个实施例中,NAL单元的NAL单元报头可以不包括nal_ref_flag作为指示是否NAL单元包括包括非参考图片的至少一部分或者整个片段的信息。
[0196] 替选地,当除了TED图片以外的可解码的引导图片在BLA图片之后编码的引导图片之中存在时,该编码装置可以将BLA图片编码为新的nal_unit_type信息以识别可解码的引导图片。
[0197] 该编码装置将包括关于编码的视频信息的NAL单元作为比特流发送给解码装置(S902)。
[0198] 图10是图示根据本发明的解码视频信息方法的流程图。
[0199] 参考图10,该解码装置经由比特流接收包括关于编码的视频信息的NAL单元(S1001)。
[0200] NAL单元报头包括基于在支持可扩展层的比特流中用于识别可扩展层的层识别信息和属性区别NAL单元的nal_unit_type信息。
[0201] 该解码装置解析NAL单元报头和NAL有效载荷(S1002)。解析视频信息可以由熵解码模块或者单独的解析模块执行。
[0202] 该解码装置可以经由解析获得包括在NAL单元报头和NAL有效载荷中的各种类型的信息。
[0203] 该解码装置以顺序接收作为在支持单个层的比特流中用于识别层信息的reserved_one_5bits和temporal_id,并且在某时解析二个信息单元。在这种情况下,该信息可以以与用于作为在支持多层的比特流中用于识别层信息的layer_id的模式类似的模式解析。
[0204] 该解码装置也可以解析nal_unit_type以根据类别分解图片,并且据此处理该视频。例如,起随机接入点作用的IDR图片、CRA图片和BLA图片经历对应于I片段的视频处理,而TED图片没有被解码。
[0205] 当该解码装置能够将CRA图片改变为BLA图片时,该解码装置可以从比特流中去除在改变为BLA图片之后接收到的TED图片,或者不解码TED图片。
[0206] 虽然基于流程图示例性系统的方法已经描述有一系列的阶段或者块,但是本发明不局限于该阶段的先前的顺序。某些阶段可以以与如上所述不同的顺序执行或者同时执行。此外,应当注意到,由于前面提到的实施例可以包括示例的各种方面,实施例的组合也可以理解为本发明示例性实施例。因此,本领域技术人员应该理解,可以在这些示例性实施例中进行变化、修改和替换,而不脱离本发明的原理和精神,其范围在所附的权利要求书及其等同物中限定。