一种针对视觉映射目标值的增强编码方法转让专利

申请号 : CN201611102813.7

文献号 : CN106503696B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 潘力立

申请人 : 电子科技大学

摘要 :

本发明专利提出了一种针对视觉映射目标值的增强编码方法,属于计算机视觉技术领域,涉及视觉映射技术。采集到的图像并进行特征提取,并记录对应的目标值;之后,对目标值进行增强编码,编码的每一位为0/1二值变量;接着,建立原始输入图像特征和二值编码之间的映射关系;然后将所有的输入图像根据上述映射关系映射到二值编码,最后,再利用随机森林方法建立二值编码和目标值之间的映射关系。对于新的测试图片,提取图像特征,再利用已学到的模型估计二值编码,并将二值编码回归到目标值。该发明专利具有在样本稀疏且分布不均匀情况下,对提高样本识别率,及识别的精确度。

权利要求 :

1.一种针对视觉映射目标值的增强编码方法;该方法包括:步骤1:采集N幅输入图像,并根据采集每幅图像时标定各图像对应的目标值;

步骤2:将步骤1中得到的图像提取视觉特征,并记任意第n幅图像对应的视觉特征向量步骤3:将所有N幅图像对应特征向量按顺序排列可以得到输入数据矩阵X,即X=[x1,x2,...,xN];

步骤5:将N幅图像对应的目标值向量按顺序排列为数据矩阵Y,即Y=[y1,y2,...,yN];

步骤6:对输出的目标值向量进行增强编码;

对于yn的每一维ynj进行二值编码方法为:根据ynj的取值范围为[-M1+1,M2],该取值范围根据实际情况设定,则对ynj先调整取值范围到[1,M1+M2],令M=M1+M2之后根据 的值进行二值编码,编码的长度为 的编码向量an,[·]表示取整符号;获得编码向量an的前M维对应的编码为:其中k表示编码向量an的维度;

an的M+1维到2M对应的编码是:

an的2M+1维到 维对应的编码是:

an的 维到 维对应编码是:

步骤7:建立从输入特征 到 的回归模型,并对模型进行求解,获取模型各参数;

步骤8:利用步骤7中获取的模型参数,将特征从 映射到增强编码空间,即得到步骤9:为了将增强编码最后映射到目标值,建立 和输出目标值 之间映射关系,利用随机森林模型建立二者之间的联系,随机树的数目和随机树的特征维数根据增强编码的长度和训练样本的数目进行选择;

步骤10:当给定待估计样本时,首先利用步骤7中建立的模型将输入特征映射到增强编码,再将增强编码映射利用步骤9中的随机森林模型映射到目标值。

2.如权利要求1所述的一种针对视觉映射目标值的增强编码方法,其特征在于所述步骤7中的回归模型为浅层模型或深层模型。

说明书 :

一种针对视觉映射目标值的增强编码方法

技术领域

[0001] 本发明属于计算机视觉技术领域,涉及视觉映射技术,主要应用于姿态估计,视线跟踪和年龄估计等视觉估计问题中。

背景技术

[0002] 在计算机视觉中,视觉映射是指学习输入图像特征与输出变量之间映射函数的过程,以便在输入新图像时,估计该输入图像对应的目标输出值。具体来讲,视觉映射包括:人体姿态估计、头部姿态估计、视线估计和物体跟踪等。详见参考文献:O.Williams,A.Blake,and R.Cipolla,Sparse and Semi-Supervised Visual Mapping with the S3GP,in IEEE Conference Computer on Computer Vision and Pattern Recognition,pp.230-237,2006.
[0003] 作为计算机视觉的一个重要分支,视觉映射改变了许多场合下由人逐一根据图像内容估计目标输出的情况。取而代之,由计算机根据输入图像内容,通过已有视觉映射函数预测输出,从而实现由摄像机和电脑代替人眼和大脑对图像进行全自动分析和估计。目前,该技术已开始被应用于与人们生活密切相关的多个产业。其中,头部姿态估计被应用于汽车安全驾驶产业,视线估计和人体姿态估计被应用于智能人机接口及游戏产业,物体跟踪被应用于智能交通等产业,人体姿态估计被应用于人机交互领域。相信随着计算机硬件处理能力的不断提高和视觉映射中关键技术问题的逐步解决,其应用前景将更加广阔。
[0004] 在用于视觉映射问题的模型中,各类回归模型已被证实为解决该问题最好的模型。在建立回归模型时候,通常需要将输入图像特征映射到目标值(例如:头部姿态、年龄、身体姿态和视线方向等)。在一些特定问题中目标值范围是确定的,并且是等间隔分布的,例如:年龄、视线方向对应的角度和姿态对应的角度。针对这类目标值,直接建立从原始特征到目标值的映射会存在目标值分布稀疏并且不均匀的问题,为了解决此类问题,同时提高算法的性能,我们提出了增强编码方法对目标值进行编码。

发明内容

[0005] 本发明提供了一种视觉映射目标值的增强编码方法,目标值编码后更适合建立和输入之间的映射关系。首先对采集到的图像并进行特征提取(原始灰度、HOG、SIFT和Harr等),并记录对应的目标值(年龄、姿态角度和视线方向等);之后,对目标值进行增强编码,编码的每一位为0/1二值变量;接着,建立原始输入图像特征和二值编码之间的映射关系;然后将所有的输入图像根据上述映射关系映射到二值编码,最后,再利用随机森林方法建立二值编码和目标值之间的映射关系。对于新的测试图片,提取图像特征,再利用已学到的模型估计二值编码,并将二值编码回归到目标值。该发明专利解决了样本稀疏且分布不均匀情况下,视觉映射已有方法估计效果欠佳的问题。
[0006] 为了方便地描述本发明内容,首先对一些术语进行定义。
[0007] 定义1:视觉映射。即将视觉特征回归到目标值。
[0008] 定义1:输入特征。在视觉估计问题中,常常需要对原始图像提取视觉特征,例如梯度方向直方图特征、局部二值特征等。
[0009] 定义2:目标值。在视觉估计问题中,常常需要根据输入特征估计对应的输出值,例如根据面部图像估计年龄,根据头部图像估计头部角度偏转,这里的年龄和头部角度偏转即是目标值。
[0010] 定义3:梯度方向直方图。梯度方向直方图特征。利用像素强度梯度或边缘的方向分布描述一幅图像中的物体的表象和形状的视觉特征提取方法。其实现方法先将图像分成小的叫做方格单元的连通区域;然后采集方格单元中各像素点的梯度方向或边缘方向直方图;最后把这些直方图组合起来就可以构成特征描述子。为了提高精确度,还可以把这些局部直方图在图像的更大的区间(block)中进行对比度归一化(contrast-normalized),此方法通过先计算各直方图在这个区间(block)中的密度,然后根据这个密度值对区间中的各个方格单元做归一化。通过该归一化能对光照变化和阴影有更强的鲁棒性。
[0011] 定义3:浅层回归模型。直接从输入特征进行一层带权重的组合得到估计值。
[0012] 定义4:深层回归模型。将输入特征进行带权重的组合得到下一层的隐特征,再对隐特征进行加权组合得到下一层隐特征,类似的一直往下估计可以得到最后的目标值。
[0013] 定义5:随机森林。在机器学习中,随机森林是一个包含多个决策树的分类器或回归器,并且其输出的类别是由个别树输出的类别和数值的众数而定。
[0014] 本发明详细技术方案为一种针对视觉映射目标值的增强编码方法;该方法包括:
[0015] 步骤1:采集N幅输入图像,并根据采集每幅图像时标定各图像对应的目标值;
[0016] 步骤2:将步骤1中得到的图像提取视觉特征,并记任意第n幅图像对应的视觉特征向量
[0017] 步骤3:将所有N幅图像对应特征向量按顺序排列可以得到输入数据矩阵X,即X=[x1,x2,...,xN];
[0018] 步骤5:将N幅图像对应的目标值向量按顺序排列为数据矩阵Y,即Y=[y1,y2,...,yN];
[0019] 步骤6:对输出的目标值向量进行增强编码;
[0020] 对于yn的每一维ynj进行二值编码方法为:根据ynj的取值范围为[-M1+1,M2],该取值范围根据实际情况设定,则对ynj先调整取值范围到[1,M1+M2],令M=M1+M2[0021]
[0022] 之后根据 的值进行二值编码,编码的长度为的编码向量an,[·]表示取整符号;获得编码向量an的前M维对应的编码为:
[0023]
[0024] 其中k表示编码向量an的维度;
[0025] an的M+1维到2M对应的编码是:
[0026]
[0027] an的2M+1维到 维对应的编码是:
[0028]
[0029] an的 维到 维对应编码是:
[0030]
[0031] 步骤6:建立从输入特征 到 的回归模型,并对模型进行求解,获取模型各参数;
[0032] 步骤7:利用步骤6中获取的模型参数,将特征从 映射到增强编码空间,即得到
[0033] 步骤8:为了将增强编码最后映射到目标值,建立 和输出目标值 之间映射关系,利用随机森林模型建立二者之间的联系,随机树的数目和随机树的特征维数根据增强编码的长度和训练样本的数目进行选择;
[0034] 步骤9:当给定待估计样本时,首先利用步骤6中建立的模型将输入特征映射到增强编码,再将增强编码映射利用步骤8中的随机森林模型映射到目标值。
[0035] 进一步的,所述步骤6中的回归模型为浅层模型或深层模型。
[0036] 本发明首先对采集到的图像并进行特征提取,并记录对应的目标值;之后,对目标值进行增强编码,编码的每一位为0/1二值变量;接着,建立原始输入图像特征和二值编码之间的映射关系;然后将所有的输入图像根据上述映射关系映射到二值编码,最后,再利用随机森林方法建立二值编码和目标值之间的映射关系。对于新的测试图片,提取图像特征,再利用已学到的模型估计二值编码,并将二值编码回归到目标值。该发明专利具有在样本稀疏且分布不均匀情况下,对提高样本识别率,及识别的精确度。

附图说明

[0037] 图1是视觉映射示意图(头部姿态估计、身体姿态估计和视线估计)。
[0038] 图2是编码示意图示意图。

具体实施方式

[0039] 实现语言:Matlab,C/C++
[0040] 硬件平台:Intel core2 E7400+4G DDR RAM
[0041] 软件平台:Matlab2012a,VisualStdio2010
[0042] 根据本发明的方法,首先明确需要解决的视觉映射问题,并采集相关图像(头部图像、身体图像和面部图像等)并标定目标值(头部姿态角度,身体姿态角度和年龄)。根据本发明专利,首先利用Matlab或者C语言编写程序学习图像到增强编码的映射模型,以及从增强编码到目标值的随机森林模型;之后对输入的待估计图像进行视觉映射,估计目标值。本发明的方法可以用于各种计算机视觉中的视觉映射问题,明显提高直接映射方法(从输入特征到目标值)的性能。
[0043] 本发明结合说明书附图对技术方案进行进一步的说明:一种针对视觉映射目标值的增强编码方法;该方法包括:
[0044] 步骤1:采集N幅输入图像(见图1),并根据采集每幅图像时标定各图像对应的目标值;以头部姿态估计为例,N幅输入图像即为N幅头部图像,标定值则为头部姿态yn,yn的第一维表示俯仰角,第二维表示倾斜角,第三维表示旋转角,下标n表示第n幅图像对应的姿态;在实际应用中,如果是身体姿态估计问题,输入图像为身体图像,目标值为身体各部分之间的角度。如果是视线估计问题,输入图像为眼部图像,目标值为视线方向(水平方向角度和垂直方向角度);
[0045] 步骤2:将步骤1中得到的图像提取视觉特征,并记任意第n幅图像对应的视觉特征向量 同样以头部姿态为例,视觉特征一般为提取梯度方向直方图特征,则表示第n幅图像的梯度方向直方图特征;
[0046] 步骤3:将所有N幅图像对应特征向量按顺序排列可以得到输入数据矩阵X,即X=[x1,x2,...,xN];
[0047] 步骤5:将N幅图像对应的目标值向量按顺序排列为数据矩阵Y,即Y=[y1,y2,...,yN];
[0048] 步骤6:对输出的目标值向量进行增强编码(见图2);
[0049] 对于yn的每一维ynj进行二值编码方法为:根据ynj的取值范围为[-M1+1,M2],该取值范围根据实际情况设定,则对ynj先调整取值范围到[1,M1+M2],令M=M1+M2[0050]
[0051] 之后根据 的值进行二值编码,编码的长度为的编码向量an,[·]表示取整符号;获得编码向量an的前M维对应的编码为:
[0052]
[0053] 其中k表示编码向量an的维度;
[0054] an的M+1维到2M对应的编码是:
[0055]
[0056] an的2M+1维到 维对应的编码是:
[0057]
[0058] an的 维到 维对应编码是:
[0059]
[0060] 步骤6:建立从输入特征 到 的回归模型,并对模型进行求解,获取模型各参数,该模型为浅层模型或深层模型;
[0061] 步骤7:利用步骤6中获取的模型参数,将特征从 映射到增强编码空间,即得到
[0062] 步骤8:为了将增强编码最后映射到目标值,建立 和输出目标值 之间映射关系,利用随机森林模型建立二者之间的联系,随机树的数目和随机树的特征维数根据增强编码的长度和训练样本的数目进行选择;
[0063] 步骤9:当给定待估计样本时,首先利用步骤6中建立的模型将输入特征映射到增强编码,再将增强编码映射利用步骤8中的随机森林模型映射到目标值;以头部姿态估计为例,输入特征是梯度方向直方图特征,之后映射的增强编码,再从增强编码映射到头部姿态。