一种面向可穿戴设备的视频直播方法转让专利

申请号 : CN201610303886.6

文献号 : CN105959705B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王中元朱荣傅佑铭何政

申请人 : 武汉大学

摘要 :

本发明公开了一种面向可穿戴设备的视频直播方法,包括发送端处理和接收端处理;发送端将高清视频信号的空间分辨率降低4倍,再执行标准的视频编码,从而大大降低编码数据量给无线网络造成的压力,接收端通过超分辨率重建还原出应有的分辨率。借助视频编码器固有的运动矢量信息加快超分辨率重建需要的时域运动匹配;同时,在视频编解码环路中引入重建残差补偿环节,消除超分的高清图像与真实高清图像间的失真。本发明在基本不额外损伤高清视频品质的前提下极大地提升了可穿戴设备的移动视频直播效率。

权利要求 :

1.一种面向可穿戴设备的视频直播方法,其特征在于:包括发送端处理和接收端处理;

所述发送端处理包括以下步骤:

步骤A1:视频下采样;

采用双线性插值算法对原始高分辨率图像下采样M倍,M≥4;

步骤A2:视频编码;

执行标准的视频编码算法编码下采样的视频帧;

步骤A3:视频超分辨率重建;

运用视频帧超分辨率重建技术,依次通过邻域搜索窗口的运动矢量求取、时空近邻像素集构造、重建权重优化、待插补像素的合成,将编码器产生的低分辨率解码图像还原为高分辨率图像,获得超分辨率重建图像;

步骤A4:重建残差预测;

用原始高分辨率图像减去超分辨率重建图像得到重建残差;

步骤A5:残差编码;

直接对残差进行量化和标准的熵编码;

步骤A6:码流复用;

一帧图像的残差码流附加在标准的视频码流后,在网络拥塞时,优先发送视频码流;

所述接收端处理包括以下步骤:

步骤B1:视频解码;

执行标准的视频解码;

步骤B2:残差解码;

对提取出的残差码流进行熵解码、反量化恢复残差信号;

步骤B3:视频超分辨率重建;

执行与发送端完全一样的超分辨率重建步骤;

步骤B4:残差补偿;

将解码后的残差叠加到重建后的超分辨率图像上,得到最终的输出结果。

2.根据权利要求1所述的面向可穿戴设备的视频直播方法,其特征在于,步骤A3中所述邻域搜索窗口的运动矢量求取,具体实现过程是:若超分辨的邻域窗口块不能与编解码的宏块完全重叠,而是跨越几个宏块,则窗口块的运动矢量应由这几个被跨越的宏块合成得到;其中合成规则为,每个宏块对合成运动矢量的贡献由重叠面积占窗口面积的比例决定,用公示 表示;这里,n表示被跨越的宏块数目,MVi、Ri分别表示每个宏块的运动矢量和面积占比,MVw即是所求的窗口运动矢量。

3.根据权利要求1所述的面向可穿戴设备的视频直播方法,其特征在于,步骤A3中所述时空近邻像素集构造,具体实现过程是:以待插补像素为中心但不包括待插补像素的一矩形邻域窗口内的像素构成空间近邻像素集合;时间近邻像素集合由前一帧窗口内的像素组成,前一帧邻域窗口的空间位置由当前帧邻域窗口的位置偏移运动矢量得到。

4.根据权利要求1所述的面向可穿戴设备的视频直播方法,其特征在于,步骤A3中所述重建权重优化,具体实现过程包括以下子步骤:步骤3.1:构造稀疏表达字典;

以近邻像素集合中的每个像素为中心划分一个个矩形片,片的尺寸小于上面邻域搜索窗口的尺寸,所有矩形片构成稀疏表达字典的样本;

步骤3.2:构造观测图像片;

以待插补像素为中心划分一个矩形片作为稀疏表达的观测图像片;

步骤3.3:建立基于相似性约束的视频超分辨率重建稀疏表达模型;

稀疏表达模型如下式所示:

*

其中:w 为稀疏表达系数矢量的最优解,矢量B为待插补像素Px所在的片;矩阵A代表字典,由{An|1≤n≤N}列组合形成,其中An为对应的近邻像素Pn所在的片;w={wn|1≤n≤N}即为稀疏表达系数矢量,也即超分辨率重建权重矢量;D为相似性约束矩阵,为一对角方阵,对角线元素Dnn设为dn,dn用矢量B和An的欧氏距离表示,即dn=||B-An||2。

5.根据权利要求1所述的面向可穿戴设备的视频直播方法,其特征在于,步骤A3中所述待插补像素的合成,具体实现过程是:待插补像素通过近邻像素加权求和得到;这一过程表示为:其中,Px为待插补像素,{Pn|1≤n≤N}为近邻像素集合,{wn|1≤n≤N}为近邻像素对应的权重,N为近邻像素的数量。

说明书 :

一种面向可穿戴设备的视频直播方法

技术领域

[0001] 本发明属于视频通信技术领域,涉及一种视频直播方法,具体涉及一种面向可穿戴设备的视频直播方法。技术背景
[0002] 可穿戴设备(Wearable Devices)正成为科技界和电子发烧友追逐的大热门。可穿戴设备是指穿戴在身上的一种便携式智能设备,其包含了独立的计算芯片,时刻保持响应和网络连接状态,能够感知环境,进行人机交互。据研究显示,2012年全球可穿戴设备市场收入为27亿美元,预计到2018年,市场规模将达到83亿美元,出货量达到1.34亿台,未来5年的年复合增长率高达17.71%。2012年,中国可穿戴设备市场规模达到6.1亿元,出货量230万部,随着全民健康意识的加强,估计2015年规模将达到115亿元,出货量将超过4000万部。以Google Glass、三星Gear Glass、GoPro摄像机为代表的视频可穿戴设备具有视频摄录功能,在体育运动、娱乐、公安执法等场合发挥了独特的作用,通过3G、4G、Wifi、卫星网络等无线网络,可穿戴设备还可以将视频实时发送到远端用户或云端。可穿戴设备的视频直播功能极大地丰富了可穿戴设备的用途,例如远程可视救援、远程可视协助、新闻直播报道、远程指挥调度、保险理赔、极限体育运动、景区风景分享都可以借助视频直播来实现。
[0003] 可穿戴设备只能通过无线网络进行视频通信,众所周知,视频数据量非常庞大,特别是当前对使用者更有吸引力的高清视频,在带宽有限且缺乏保障的移动无线网络中传输高清视频面临极大的挑战。可穿戴设备的通信环境比一般应用场合更为苛刻,可穿戴设备时刻处于移动状态下,接收信号极不稳定,尤其是在极限体育运动这种剧烈的运动环境下,网络通信条件更为恶劣,带宽频繁波动,信道丢包、误码甚至通信中断情况时有发生。按照现有视频编码技术的水准,在可穿戴设备的使用环境中流畅地传输高清视频,编码效率须得成倍提升,但现有的最先进的视频编码标准H.265较目前普遍应用的标准H.264也只能提高30~50%,况且H.265的运算复杂度居高不下,不太适合低功耗的可穿戴应用平台。

发明内容

[0004] 为了解决上述技术问题,本发明将视频超分辨率技术和视频编码技术相结合,提供了一种面向可穿戴设备的视频直播方法。
[0005] 本发明所采用的技术方案是:1.一种面向可穿戴设备的视频直播方法,其特征在于:包括发送端处理和接收端处理;
[0006] 所述发送端处理包括以下步骤:
[0007] 步骤A1:视频下采样;
[0008] 采用双线性插值算法对原始高分辨率图像下采样M倍,M≥4;
[0009] 步骤A2:视频编码;
[0010] 执行标准的视频编码算法编码下采样的视频帧;
[0011] 步骤A3:视频超分辨率重建;
[0012] 运用视频帧超分辨率重建技术,依次通过邻域搜索窗口的运动矢量求取、时空近邻像素集构造、重建权重优化、待插补像素的合成,将编码器产生的低分辨率解码图像还原为高分辨率图像,获得超分辨率重建图像;
[0013] 步骤A4:重建残差预测;
[0014] 用原始高分辨率图像减去超分辨率重建图像得到重建残差;
[0015] 步骤A5:残差编码;
[0016] 直接对残差进行量化和标准的熵编码;
[0017] 步骤A6:码流复用;
[0018] 一帧图像的残差码流附加在标准的视频码流后,在网络拥塞时,优先发送视频码流;
[0019] 所述接收端处理包括以下步骤:
[0020] 步骤B1:视频解码;
[0021] 执行标准的视频解码;
[0022] 步骤B2:残差解码;
[0023] 对提取出的残差码流进行熵解码、反量化恢复残差信号;
[0024] 步骤B3:视频超分辨率重建;
[0025] 执行与发送端完全一样的超分辨率重建步骤;
[0026] 步骤B4:残差补偿;
[0027] 将解码后的残差叠加到重建后的超分辨率图像上,得到最终的输出结果。
[0028] 作为优选,步骤3中所述邻域搜索窗口的运动矢量求取,具体实现过程是:若超分辨的邻域窗口块不能与编解码的宏块完全重叠,而是跨越几个宏块,则窗口块的运动矢量应由这几个被跨越的宏块合成得到;其中合成规则为,每个宏块对合成运动矢量的贡献由重叠面积占窗口面积的比例决定,用公示 表示;这里,n表示被跨越的宏块数目,MVi、Ri分别表示每个宏块的运动矢量和面积占比,MVw即是所求的窗口运动矢量。
[0029] 作为优选,步骤3中所述时空近邻像素集构造,具体实现过程是:以待插补像素为中心但不包括待插补像素的一矩形邻域窗口内的像素构成空间近邻像素集合;时间近邻像素集合由前一帧窗口内的像素组成,前一帧邻域窗口的空间位置由当前帧邻域窗口的位置偏移运动矢量得到。
[0030] 作为优选,步骤3中所述重建权重优化,具体实现过程包括以下子步骤:
[0031] 步骤3.1:构造稀疏表达字典;
[0032] 以近邻像素集合中的每个像素为中心划分一个个矩形片,片的尺寸小于上面邻域搜索窗口的尺寸,所有矩形片构成稀疏表达字典的样本;
[0033] 步骤3.2:构造观测图像片;
[0034] 以待插补像素为中心划分一个矩形片作为稀疏表达的观测图像片;
[0035] 步骤3.3:建立基于相似性约束的视频超分辨率重建稀疏表达模型;
[0036] 稀疏表达模型如下式所示:
[0037]
[0038] 其中:矢量B为待插补像素Px所在的片;矩阵A代表字典,由{An|1≤n≤N}列组合形成,其中An为对应的近邻像素Pn所在的片;w={wn|1≤n≤N}即为稀疏表达系数矢量,也即超分辨率重建权重矢量;D为相似性约束矩阵,为一对角方阵,对角线元素Dnn设为dn,dn用矢量B和An的欧氏距离表示,即dn=||B-An||2。
[0039] 作为优选,步骤3中所述待插补像素的合成,具体实现过程是:待插补像素通过近邻像素加权求和得到;这一过程表示为:
[0040]
[0041] 其中,Px为待插补像素,{Pn|1≤n≤N}为近邻像素集合,{wn|1≤n≤N}为近邻像素对应的权重,N为近邻像素的数量。
[0042] 与单纯利用视频编码技术降低通信数据量的视频直播方法相比,本发明具有以下优点和积极效果:
[0043] (1)本发明将视频的空间分辨率缩小了4倍再编码,显著降低了压缩视频数据量,适合可穿戴设备所处的移动通信场景;
[0044] (2)本发明通过时空域近邻相似块的超分辨率重建、重建残差补偿等手段,增强了视频超分辨率的效果,能最大限度地恢复下采样损失的高频细节信息,因而除视频编码固有的失真外,基本不额外损伤高清视频品质。
[0045] (3)本发明巧妙地利用了视频编码器内在的运动矢量信息,加快时域近邻图像块的匹配效率,适宜在可穿戴设备的低功耗平台实现。

附图说明

[0046] 图1:本发明实施例的发送端处理流程图;
[0047] 图2:本发明实施例的接收端处理流程图。

具体实施方式

[0048] 为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
[0049] 图像视频的超分辨技术通过运用机器学习原理能够恢复出比普通的插值放大丰富得多的高频细节信息,实践表明,缩小后的高清视频经过超分辨率还原后的画面品质几乎与原始视频无异。如果在发送端将高清视频信号的分辨率降低4倍,接收端再通过超分辨率重建还原出应有的分辨率,那么编码数据量给无线网络造成的压力将大大降低,这样就可以在基本不损伤高清视频品质的前提下极大地提升可穿戴设备的视频直播效率。而且,视频编码器天然地提供了视频超分辨率重建所需要的图像块时域匹配信息—运动矢量,为超分辨率重建创造了便利条件。因此,将视频超分辨率技术和视频编码技术相结合,将得到一种优良的适合于可穿戴设备的移动视频直播方法。
[0050] 本发明基于的理论依据和技术原理:视频信号具有时空平稳变化的特点,像素在空间局部范围内高度相似,时间上相邻帧之间高度相关。利用这一特性,视频超分辨率中的待插补像素可由时空近邻的像素重建得到。空间近邻像素比较容易获得,但时域近邻像素由于目标或摄像机的运动,需要估计运动信息。搜索运动矢量是一个复杂的计算过程,事实上,运动矢量是视频编解码中必不可少的参数,因此,与视频编解码相结合的视频超分辨率完全可以利用视频编解码器已经计算好的运动矢量信息。
[0051] 由于图像下采样带来高频信息的损失,重建的高分辨率图像与原始图像间或多或少存在差异。为了弥补这种差异或损失,本发明在视频编解码环路中引入重建残差补偿模块,尽可能消除超分的高清图像与真实高清图像间的失真。具体思路是,发送端编码和传输超分辨率重建后的高清图像与真实高清图像间的残差,接收端接收到这部分残差数据后,执行逆操作补偿到超分的高清图像上,但其代价是发送端也必须增加超分辨率模块。鉴于残差信号的能量和相关性都很弱,故在重建残差的编码上,跳过DCT变换,直接进行空域量化编码。
[0052] 基于上述原理,本发明提供的一种面向可穿戴设备的视频直播方法,包括发送端处理和接收端处理;
[0053] 请见图1,本实施例的发送端处理,具体实现包括以下步骤:
[0054] 步骤1:视频下采样,采用双线性插值算法对输入图像下采样4倍;
[0055] 步骤2:视频编码,执行标准的H.264视频编码算法编码下采样的视频帧;
[0056] 步骤3:视频超分辨率重建,运用视频帧超分辨率重建技术将编码器产生的低分辨率解码图像还原为高分辨率图像,进一步包括如下子步骤;
[0057] 步骤3.1:邻域搜索窗口的运动矢量求取
[0058] 超分辨的邻域窗口块不能保证与编解码的宏块完全重叠,而是可能跨越几个宏块,窗口块的运动矢量应由这几个被跨越的宏块合成得到。合成规则是,每个宏块对合成运动矢量的贡献由重叠面积占窗口面积的比例决定,用公示 表示。这里,n表示被跨越的宏块数目,MVi、Ri分别表示每个宏块的运动矢量和面积占比,MVw即是所求的窗口运动矢量。
[0059] 步骤3.2:时空近邻像素集构造,采用如下方法:
[0060] ①以待插补像素为中心的一15x15矩形邻域窗口内的像素(不包括待插补像素)构成空间近邻像素集合;
[0061] ②时间近邻像素集合由前一帧窗口内的像素组成,前一帧邻域窗口的空间位置由当前帧邻域窗口的位置偏移步骤3.1所述方法求取的运动矢量得到。
[0062] 步骤3.3:重建权重优化,进一步包括如下子步骤:
[0063] ①构造稀疏表达字典,以近邻像素集合中的每个像素为中心划分一个个5x5[0064] 的矩形片,所有矩形片构成稀疏表达字典的样本;
[0065] ②构造观测图像片,以待插补像素为中心划分一个5x5矩形片作为稀疏表达的观测图像片;
[0066] ③建立基于相似性约束的视频超分辨率重建稀疏表达模型。鉴于不同近邻图像片与插补图像片的相似性不同,提高相似近邻片的重建权重有益于超分辨率重建,为达到这一目的,本发明将相似性约束引入稀疏表达,对稀疏表达模型的L1范数正则项施加相似度加权约束,相似度用图像片的欧氏距离计算。综上所述,最终构建的稀疏表达模型如下式所示
[0067]
[0068] 矢量B为待插补像素Px所在的片,矩阵A代表字典,由{An|1≤n≤N}列组合形成,其中An为对应的近邻像素Pn所在的片,w={wn|1≤n≤N}即为稀疏表达系数矢量,也即超分辨率重建权重矢量,D为相似性约束矩阵,为一对角方阵,对角线元素Dnn设为dn,dn用矢量B和An的欧氏距离表示,即dn=||B-An||2。
[0069] 步骤3.4:待插补像素的合成,采用如下方法:
[0070] 待插补像素通过近邻像素加权求和得到。这一过程表示为
[0071]
[0072] 其中,Px为待插补像素,{Pn|1≤n≤N}为近邻像素集合,{wn|1≤n≤N}为近邻像素对应的权重,N=449为近邻像素的数量。
[0073] 步骤4:重建残差预测,用原始高分辨率图像减去超分辨率重建图像得到重建残差;
[0074] 步骤5:残差编码,直接对残差进行空域量化和H.264标准的熵编码;
[0075] 步骤6:码流复用,一帧图像的残差码流附加在标准的H.264视频码流后,在网络拥塞时,优先发送视频码流。
[0076] 请见图2,本实施例的接收端方法包括以下步骤:
[0077] 步骤1:视频解码,执行标准的H.264视频解码;
[0078] 步骤2:残差解码,对提取出的残差码流进行熵解码、反量化恢复残差信号;
[0079] 步骤3:视频超分辨率重建,执行与发送端完全一样的超分辨率重建步骤;
[0080] 步骤4:残差补偿,将解码后的残差叠加到重建后的超分辨率图像上,得到最终的输出结果。
[0081] 应当理解的是,本说明书未详细阐述的部分均属于现有技术。
[0082] 应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。