一种与H264标准兼容的屏幕内容编码解码方法转让专利

申请号 : CN201510400827.6

文献号 : CN105007483B

文献日 : 2017-11-14

本发明公开了一种与H264标准兼容的屏幕内容编码解码方法，本发明将字典压缩引入传统的视频编码框架中，新增一种针对文本内容的编码模式——字典编码。通过码率和失真的联合优化，为每个图像块选择最恰当的编码模式，文本区域一般选择字典编码，其它区域保留原有的编码方式，从而提高屏幕内容中大量出现的文本区域的压缩质量。同时，通过对H264保留的编码模式的合理利用和字典编码时机的恰当处理，保持了与标准技术的兼容性。本发明具有较高的压缩质量，同时码流与H264标准兼容。

1.一种与H264标准兼容的屏幕内容编码方法，其特征在于，所述的编码方法，包括以下步骤：步骤1：图像块编码比特数预估，选取若干典型的文本屏幕内容组成大的训练数据集，对训练集中的图像逐帧执行字典编码，统计产生的总体比特数，再根据图像块的总数目，将这些比特数折算到单个图像块，即得到单个图像块字典编码方式下的比特数R；

步骤2：在H264标准编码模式和步骤1中得到的字典编码模式中，通过码率失真优化代价函数为每个图像块选取最佳编码模式，对于被选中为字典编码模式的图像块将其模式代码设置为I_PCM，但不立即编码；

步骤3：图像块数据收集，将每个判别为I_PCM的图像块数据写入一个公共缓冲区；重复步骤2，直至一帧图像处理完毕；

步骤4：对每个图像块的像素按列优先顺序重组后执行字典编码，包含亮度和两个色度分量，然后执行字典编码，将字典编码的码流写入H264标准编码的码流的前面，形成复合码流。

2.根据权利要求1所述的与H264标准兼容的屏幕内容编码方法，其特征在于：步骤1中所述的典型的文本屏幕内容包括Word文档、PPT幻灯片、网页、CAD图形。

3.根据权利要求1所述的与H264标准兼容的屏幕内容编码方法，其特征在于：步骤1中所述的字典编码采用的是Lempel-Ziv-Markov chain-Algorithm算法。

4.根据权利要求1所述的与H264标准兼容的屏幕内容编码方法，其特征在于：步骤2中所述的通过码率失真优化代价函数为每个图像块选取最佳编码模式，其具体实现过程是计算图像块在两种编码模式下的失真D和比特数R，然后通过码率失真优化代价函数J＝D+λR选取联合失真J最小的模式作为最佳编码模式；其中J为联合失真，参数λ为拉格朗日参数，λ用于权衡失真与码率间的度量权重。

5.根据权利要求1所述的与H264标准兼容的屏幕内容编码方法，其特征在于，编码后进行解码的方法，包括以下步骤：步骤1：从复合码流中提取字典码流，然后执行字典解码，得到所有模式为I_PCM图像块的解码样点数据；

步骤2：顺序扫描解码样点数据并解析H264码流，对解析出模式为I_PCM的图像块，将其对应的像素样点数据写入H264码流中；

步骤3：执行标准的H264解码过程。

一种与H264标准兼容的屏幕内容编码解码方法

技术领域

[0001] 本发明属于视频编解码技术领域，涉及一种屏幕内容编解码方法，具体涉及一种与H264标准兼容的屏幕内容编码解码方法。技术背景

[0002] 在视频会议、远程教育、远程协作办公系统中，共享计算机屏幕内容是一项重要的功能，屏幕共享为展示和分享远端文档资料提供了一条迅捷的途径。屏幕内容图像是一种文字图形和自然图像混合的图像，包含Word/PDF文档，PPT演讲文档，Web页面等各种类型且日益多样化，同时由于屏幕图像分辨率较高，对网络带宽消耗较大，因此，必须对其进行有效的压缩。

[0003] 混合图像中的文字图形部分包括许多人眼敏感的高频信息，传统的静态图像压标准(如JPEG)和动态视频压缩标准(如H264)基于人眼对自然图像中高频信息不敏感的特点将高频部分粗糙量化，直接用于压缩混合图像，往往导致文字图形模糊不清。一些意在维持文本图形边缘高频信息的改进技术，如空域直接量化、调色板编码、无损压缩，需要修改标准编码框架的内核，无法做到与标准解码器的兼容，影响了屏幕内容共享的互操作性。

发明内容

[0004] 为了解决上述技术问题，本发明提供了一种与H264标准兼容的屏幕内容编码解码方法。

[0005] 本发明所采用的技术方案是：一种与H264标准兼容的屏幕内容编码解码方法，其特征在于，所述的编码方法，包括以下步骤：

[0006] 步骤1：图像块编码比特数预估，选取若干典型的文本屏幕内容组成大的训练数据集，对训练集中的图像逐帧执行字典编码，统计产生的总体比特数，再根据图像块的总数目，将这些比特数折算到单个图像块，即得到单个图像块字典编码方式下的比特数R；

[0007] 步骤2：在H264标准编码模式和步骤1中得到的字典编码模式中，通过码率失真优化代价函数为每个图像块选取最佳编码模式，对于被选中为字典编码模式的图像块将其模式代码设置为I_PCM，但不立即编码；

[0008] 步骤3：图像块数据收集，将每个判别为I_PCM的图像块数据写入一个公共缓冲区；重复步骤2，直至一帧图像处理完毕；

[0009] 步骤4：对每个图像块的像素按列优先顺序重组后执行字典编码，包含亮度和两个色度分量，然后执行字典编码，将字典编码的码流写入H264标准编码的码流的前面，形成复合码流。

[0010] 作为优选，步骤1中所述的典型的文本屏幕内容包括Word文档、PPT幻灯片、网页、CAD图形。

[0011] 作为优选，步骤1中所述的字典编码采用的是Lempel-Ziv-Markov chain-Algorithm算法。

[0012] 作为优选，步骤2中所述的，通过码率失真优化代价函数为每个图像块选取最佳编码模式，其具体实现过程是计算图像块在两种编码模式下的失真D和比特数R，然后通过码率失真优化代价函数J＝D+λR选取联合失真J最小的模式作为最佳编码模式；其中J为联合失真，参数λ为拉格朗日参数，λ用于权衡失真与码率间的度量权重。

[0013] 作为优选，编码后进行解码方法，包括以下步骤：

[0014] 步骤1：从复合码流中提取字典码流，然后执行字典解码，得到所有模式为I_PCM图像块的解码样点数据；

[0015] 步骤2：顺序扫描解码样点数据并解析H264码流，对解析出模式为I_PCM的图像块，将其对应的像素样点数据写入H264码流中；

[0016] 步骤3：执行标准的H264解码过程。

[0017] 与标准化的H264编码技术以及目前一些针对屏幕视频编码的改进方案比较，本发明具有以下优点和积极效果：

[0018] (1)本发明通过新增加的字典编码模式对前景分布稀疏的文本区域采取无损压缩，提高了屏幕视频的编码质量和压缩效率；

[0019] (2)本发明借用H264定义的、但未用到的I_PCM模式指示字典编码模式，因此，码流可被标准的H264解码器识别，不需要修改解码器，保持了标准兼容性。

[0020] (3)本发明新增加的字典编码模式不需要逐块计算编码失真和比特数消耗，因此，不带来运算复杂度的额外增加。

附图说明

[0021] 图1：本发明实施例的编码流程图。

[0022] 图2：本发明实施例的解码流程图。

具体实施方式

[0023] 为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

[0024] 屏幕内容主要以文本、图形为主，前背景色彩层次分明，图像底色单一、前景颜色相对也不丰富，像素颜色空间的数据分布比较稀疏，一般集中在少数的几种数值上，图像块中像素间的局部相关性不强，因此，去空间相关性的变换编码的作用有限；另一方面，不同于自然场景视频，屏幕内容一般不含带噪声，而且文字边缘锐利，量化失真会模糊文字边缘，造成文字不清晰。基于以上两点认识，传统的变换加量化的编码方案不适合高质量的屏幕内容压缩。相反，屏幕内容文本区域像素稀疏分布的特点，恰好适合无损字典压缩。

[0025] 在上述技术思路下，本发明需要重点解决三个关键问题：

[0026] (1)H264等现有压缩标准中定义了多种编码模式，本发明又新增了一种字典编码模式。通常而言，现有的编码模式对具有自然视频属性的区域比较有效，如嵌入的图像、动画等，而新增的编码字典模式一般更适合文本块压缩，错误地选择了编码模式反而会降低整体压缩性能。因此，准确地为每个图像块分配恰当的编码模式很关键。

[0027] (2)字典编码的核心原理就是从历史数据中寻找当前数据的匹配，如果匹配成功，就以数据对(匹配长度、匹配距离)来替代原始数据，从而实现对数据的无损压缩。因此，字典编码的效率与待编码数据的长度密切相关，一次编码输入的数据越多，效率越高，反之越低。用WinZip或WinRar等工具压缩文件的大量实践也证明了这一点。然而，16x16像素图像块的原始数据长度很短，逐个单独进行压缩必将极大地限制了字典编码器的性能。如何通过适当的数据重组保证字典编码效率至关重要。

[0028] (3)新增的字典编码模式显然不能被符合H264等标准的解码器所接受，直接将码流送给标准解码器解码，解码器会视为错误；修改解码器内核可以做到对增加的模式的兼容性，但在很多场合下，解码器对用户和程序开发人员来说都是透明的，不具备修改的条件，如硬件解码器。因此，如何将字典与现有标准混合编码的码流在送入解码器内核前还原为标准的码流从而维持标准兼容性很重要。

[0029] 针对上述问题，本发明在分析H264编码标准和代表性字典压缩技术的特点的基础上，逐一提出如下解决方法。

[0030] (1)视频编码通常根据码率失真优化(RDO)来选择最优的编码模式，优选的编码模式要同时给出最小编码失真与码率消耗，即优化的代价函数为J＝D+λR，其中J为联合失真，D为有损编码带来的图像失真，R为按该模式编码产生的比特数，参数λ为拉格朗日参数，权衡失真与码率间的度量权重，一般事先通过统计或经验的方式预设置好。H264原有的编码模式执行的是有损编码，失真D和比特数R指标都要统计，但在字典编码模式下，由于是无损编码，失真实际为零，只需要衡量比特数。通常有损编码通过将变换、量化等环节产生的参数送入熵编码器编码、再根据实际编码的比特数来确定参数R的值，但在字典编码模式下，如果也采取这种思路，由于字典编码器对于少量数据的压缩性能不佳，压缩效率将被低估，导致产生的比特数R要高出比实际编码情况，从而带来模式判断不准确，很多本该判断为字典编码的块可能被误判为其它模式。因此，本发明在衡量字典编码一个图像块需要的比特数时，不是对图像块进行实际的编码来获得，而是采取训练的方式为图像块预先估计一个数值。具体做法是，选取若干典型的文本屏幕内容组成大的训练数据集，然后对训练集中的图像逐帧执行字典编码，统计产生的总体比特数，再根据图像块的总数目，将这些比特数折算到单个图像块，即得到单个图像块字典编码方式下的比特数预估值。这个过程事先离线训练好，真实的编码过程中使用该预估值替代RDO公式中的R进行RDO优化选择。

[0031] (2)签于字典编码器在处理块级别的少量数据时压缩效率受限，因此本发明对判别为字典编码模式的图像块不立即单独执行编码，而是收集到一起，等一帧图像处理完后，再集中执行一次字典编码，压缩码流与标准的码流复合成一个完整的码流。同时，考虑到字符在点阵字库中所占像素点的高度往往大于宽度，因此，为加强像素间的邻域重复性从而提高字典编码效率，访问16x16像素点阵结构的图像块时，不是按常规的行优先顺序扫描，而是按列优先顺序扫描。通过这两个措施对图像块进行合理的重组，将有效提升字典编码效率。

[0032] (3)通常而言，在编码器中自定义一种标准之外的模式要做到标准兼容几乎不可能，本发明采用的编码器内核只进行字典编码模式判断、编码器外集中执行编码的思路为保持标准兼容性创造了机会。而且，H264标准定义了一种I_PCM编码模式，这个模式只是对像素样点数据直接封装，不进行任何有损或无损压缩，因此，在正常以压缩为导向的应用中几乎不用，因此，可以利用该模式来指示字典编码。总结起来，本发明在编解码器端采取的标准兼容性策略如下：编码器内核将判别为字典编码模式的块用I_PCM模式指示，但不编码，对收集的数据在编码器外集中编码，然后将码流复用在正常的H264码流前面；解码器在进入内核解码前，提取出字典码流，执行字典解码，然后预扫描一趟字典解码的结果和H264码流，将字典解码恢复的样点数据依次映射到编码模式为I_PCM的宏块处，完成这个预处理过程后，再执行标准的H264解码操作。由于字典解码的结果为原始样点数据，H264解码器按照I_PCM模式来理解不会引起任何歧义。通过如上编码器端的后处理步骤及解码器端相应的预处理步骤，在不修改解码器内核的前提下，本发明提出的字典编码方法能与标准的H264解码器兼容。

[0033] 请见图1，本发明提供的一种与H264标准兼容的屏幕内容编码解码方法，所述的编码方法，包括以下步骤：

[0034] 步骤1：图像块编码比特数预估，选取若干典型的文本屏幕内容(包括Word文档、PPT幻灯片、网页、CAD图形)组成大的训练数据集，对训练集中的图像逐帧执行字典编码，统计产生的总体比特数，再根据图像块的总数目，将这些比特数折算到单个图像块，即得到单个图像块字典编码方式下的比特数R；

[0035] 本实施例选取代表性的屏幕内容组成训练数据集，包含50幅Word文档图像，50幅PPT文档图像，50幅网页图像，字典编码器采用LZMA(Lempel-Ziv-Markov chain-Algorithm)算法。

[0036] 步骤2：在H264标准编码模式和步骤1中得到的字典编码模式中，通过码率失真优化代价函数为每个图像块选取最佳编码模式，对于被选中为字典编码模式的图像块将其模式代码设置为I_PCM，但不立即编码；

[0037] 其中码率失真优化代价函数为每个图像块选取最佳编码模式，其具体实现过程是计算图像块在两种编码模式下的失真D和比特数R，然后通过码率失真优化代价函数J＝D+λR选取联合失真J最小的模式作为最佳编码模式；其中J为联合失真，参数λ为拉格朗日参数，λ用于权衡失真与码率间的度量权重。

[0038] 本实施例的拉格朗日参数按照经验公式λ＝2qp/6-2确定，其中qp为量化参数。

[0039] 步骤3：图像块数据收集，将每个判别为I_PCM的图像块数据写入一个公共缓冲区；重复步骤2，直至一帧图像处理完毕；

[0040] 步骤4：对每个图像块的像素按列优先顺序重组后执行字典编码，包含亮度和两个色度分量，然后执行字典编码，将字典编码的码流写入H264标准编码的码流的前面，形成复合码流。

[0041] 请见图2，本发明提供的一种与H264标准兼容的屏幕内容解码方法，包括以下步骤：

[0042] 步骤1：从复合码流中提取字典码流，然后执行字典解码，得到所有模式为I_PCM图像块的解码样点数据；

[0043] 步骤2：顺序扫描解码样点数据并解析H264码流，对解析出模式为I_PCM的图像块，将其对应的像素样点数据写入H264码流中；

[0044] 步骤3：执行标准的H264解码过程。

[0045] 本发明将字典压缩引入传统的视频编码框架中，新增一种针对文本内容的编码模式——字典编码。通过码率和失真的联合优化，为每个图像块选择最恰当的编码模式，文本区域一般选择字典编码，其它区域保留原有的编码方式，从而提高屏幕内容中大量出现的文本区域的压缩质量。同时，通过对H264保留的编码模式的合理利用和字典编码时机的恰当处理，保持了与标准技术的兼容性。本发明具有较高的压缩质量，同时码流与H264标准兼容。

[0046] 应当理解的是，本说明书未详细阐述的部分均属于现有技术。

[0047] 应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

一种与H264标准兼容的屏幕内容编码解码方法转让专利

申请号 : CN201510400827.6

文献号 : CN105007483B

文献日 : 2017-11-14

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王中元 , 傅佑铭 , 何政

申请人 : 武汉大学

摘要 :

权利要求 :

说明书 :

一种与H264标准兼容的屏幕内容编码解码方法

技术领域

发明内容

附图说明

具体实施方式