识别视频中人体行为的方法和系统转让专利

申请号 : CN201310754550.8

文献号 : CN104751111B

文献日 : 2019-02-22

本发明提供了一种识别视频中人体行为的方法，所述方法包括：提取目标视频中的特征点；将特征点周围时间和空间邻域内固定的像素点和特征点组成点对；将所述点对形成时空3D共生特征，时空3D共生特征包括3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征；根据时空3D共生特征提取目标视频表示的多视角超向量；将多视角超向量带入支持向量机分类器中对目标视频中的人体行为进行识别。根据时空3D共生特征提取目标视频表示的多视角超向量更能够反映复杂的表观结构和运动结构，因而利用视频表示的多视角超向量进行人体行为识别，能够提高了人体行为识别的精确度。

1.一种识别视频中人体行为的方法，所述方法包括：

提取目标视频中的特征点；

将特征点周围时间和空间邻域内固定的像素点和所述特征点组成点对；

将所述点对形成时空3D共生特征，时空3D共生特征包括3D共生梯度方向直方图特征、

3D共生光流直方图特征和3D共生运动边界直方图特征；

对所述时空3D共生特征进行联合统一建模，并区分所述时空3D共生特征中各特征间的共享信息和独立信息，对所述共享信息的超向量和独立信息的超向量进行串联，得到所述目标视频表示的多视角超向量；其中，所述共享信息的超向量为对所述时空3D共生特征进行联合统一建模后得到的高斯模型的隐变量拼接得到的向量，所述独立信息的超向量是对所述时空3D共生特征进行联合统一建模后得到的模型分别相对于所述时空3D共生特征的梯度向量；

将多视角超向量带入支持向量机分类器中对所述目标视频中的人体行为进行识别。

2.根据权利要求1所述的方法，其特点在于，提取点对形成时空3D共生特征的步骤为：对所述点对进行联合量化，并统计所述点对的梯度方向的特征得到共生矩阵；

将所述共生矩阵辅成向量，并串联形成时空3D共生特征。

3.根据权利要求1所述的方法，其特征在于，所述对所述时空3D共生特征进行联合统一建模，并区分所述时空3D共生特征中各特征间的共享信息和独立信息，对所述共享信息的超向量和独立信息的超向量进行串联，得到所述目标视频表示的多视角超向量的步骤为：对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型；

从所述混合典型相关分析模型中提取作为所述目标视频表示的多视角超向量。

4.根据权利要求3所述的方法，其特征在于，所述对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型的步骤为:将所述时空3D共生特征中任意两种特征的空间划分为多个局部空间；

对所述多个局部空间依次建立典型相关分析模型；

根据所述典型相关分析模型建立混合典型相关分析模型。

5.根据权利要求3所述的方法，其特征在于，所述从所述混合典型相关分析模型中提取作为所述目标视频表示的多视角超向量的步骤为：在所述混合典型相关分析模型中的局部高斯中提取隐变量，并将所述隐变量拼起来得到共享信息的超向量；

根据所述混合典型相关分析模型求所述3D共生特征的独立信息的超向量；

将所述独立信息的超向量和所述共享信息的超向量串联起来，以得到所述目标视频表示的多视角超向量。

6.一种识别视频中人体行为的系统，其特征在于，所述系统包括：特征点提取模块，用于提取目标视频中的特征点；

点对组成模块，用于将所述特征点周围时间和空间邻域内固定的像素点和所述特征点组成点对；

特征形成模块，用于将所述点对形成时空3D共生特征，所述时空3D共生特征包括3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征；

超向量提取模块，用于对所述时空3D共生特征进行联合统一建模，并区分所述时空3D共生特征中各特征间的共享信息和独立信息，对所述共享信息的超向量和独立信息的超向量进行串联，得到所述目标视频表示的多视角超向量；其中，所述共享信息的超向量为对所述时空3D共生特征进行联合统一建模后得到的高斯模型的隐变量拼接得到的向量，所述独立信息的超向量是对所述时空3D共生特征进行联合统一建模后得到的模型分别相对于所述时空3D共生特征的梯度向量；

人体行为识别模块，用于将所述多视角超向量带入支持向量机分类器中对所述目标视频中的人体行为进行识别。

7.根据权利要求6所述的系统，其特征在于，所述特征形成模块包括：共生矩阵获取单元，用于对所述点对进行联合量化，并统计所述点对的梯度方向的特征得到共生矩阵；

时空3D共生特征形成单元，用于将所述共生矩阵辅成向量，并串联形成时空3D共生特征。

8.根据权利要求6所述的系统，其特征在于，所述超向量提取模块包括：模型建立单元，用于对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型；

多视图超向量提取单元，用于从所述模型中提取作为所述目标视频表示的多视角超向量。

9.根据权利要求8所述的系统，其特征在于，所述模型建立单元包括:空间划分单元，用于将所述时空3D共生特征中任意两种特征的空间划分为多个局部空间；

典型模型建立单元，用于对所述多个局部空间依次建立典型相关分析模型；

混合模型建立单元，用于根据所述典型相关分析模型建立混合典型相关分析模型。

10.根据权利要求8所述的系统，其特征在于，所述多视图超向量提取单元包括：共享信息的超向量获取单元，用于在所述混合典型相关分析模型中的局部高斯中提取隐变量，并将所述隐变量拼起来得到共享信息的超向量；

独立信息的超向量获取单元，用于根据所述混合典型相关分析模型求所述3D共生特征的独立信息的超向量；

多视角超向量获取单元，用于将所述独立信息的超向量和所述共享信息的超向量串联起来，以得到所述目标视频表示的多视角超向量。

识别视频中人体行为的方法和系统

技术领域

[0001] 本发明涉及计算机视觉领域，特别是涉及一种识别视频中人体行为的方法和系统。

背景技术

[0002] 人体行为识别是通过计算机视觉方法判断和识别视频中的人正在进行的行为，例如通过对视频中的人体行为进行识别可以知道视频中的人是在跑动或者散步，视频表示方法直接影响人体行为识别的最终效果。

[0003] 传统的视频表示方法主要是基于多种时空局部特征融合的方法，此类方法首先在视频中抽取局部时空长方体块，然后在原始帧中提取梯度方向直方图(Histogram of Gradient orientation,HOG)特征，在光流帧中提取光流梯度方向直方图(Histogram of Flow gradient orientation,HOF)特征和运动边界直方图 (Motion Boundary Histogram,MBH)特征。而在利用这些不同特征的特征融合阶段，常用的有两种方法。一种是早期融合法，即所有的特征串联形成一个长特征进行编码和聚合以形成中层的视频表示；
另一种是后期融合法，即将单种特征进行编码和聚合形成多个中层视频表示方法，然后将中层表示串联或者在单个特征得到分类得分后进行加权融合；最后，将中层视频表示输入至分类器进行人体行为识别。

[0004] 传统方法中，在人体行为识别中提取局部特征(如HOG、HOF和MBH)虽然考虑了表观和运动信息，但是这种信息只局限在单帧中，其中帧的上下文表观及运动信息被忽略，这将导致人体行为识别不够精确。

发明内容

[0005] 基于此，有必要针对在视频中对人体行为识别不够精确问题，提供一种能精确对视频中的人体行为进行识别的实现对视频中人体行为识别的方法。

[0006] 此外还有必要提供一种能精确对视频中的人体行为进行识别的实现对视频中人体行为识别的系统。

[0007] 一种识别视频中人体行为的方法，所述方法包括：

[0008] 提取目标视频中的特征点；

[0009] 将所述特征点周围时间和空间邻域内固定的像素点和所述特征点组成点对；

[0010] 将所述点对形成时空3D共生特征，所述时空3D共生特征包括3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征；

[0011] 根据所述时空3D共生特征提取所述目标视频表示的多视角超向量；

[0012] 将所述多视角超向量带入支持向量机分类器中对所述目标视频中的人体行为进行识别。

[0013] 在其中一个实施例中，所述根据所述点对形成时空3D共生特征的步骤为：

[0014] 对所述点对进行联合量化，并统计所述点对的梯度方向的特征得到共生矩阵；

[0015] 将所述共生矩阵辅成向量，并串联形成时空3D共生特征。

[0016] 在其中一个实施例中，所述根据所述时空3D共生特征提取所述目标视频表示的多视角超向量的步骤为：

[0017] 对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型；

[0018] 从所述混合典型相关分析模型中提取作为所述目标视频表示的多视角超向量。

[0019] 在其中一个实施例中，所述对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型的步骤为:

[0020] 将所述时空3D共生特征中任意两种特征的空间划分为多个局部空间；

[0021] 对所述多个局部空间依次建立典型相关分析模型；

[0022] 根据所述典型相关分析模型建立混合典型相关分析模型。

[0023] 在其中一个实施例中，所述从所述混合典型相关分析模型中提取作为所述目标视频表示的多视角超向量的步骤为：

[0024] 在所述混合典型相关分析模型中的局部高斯中提取隐变量，并将所述隐变量拼起来得到共享信息的超向量；

[0025] 根据所述混合典型相关分析模型求所述3D共生特征的独立信息的超向量；

[0026] 将所述独立信息的超向量和所述共享信息的超向量串联起来，以得到所述目标视频表示的多视角超向量。

[0027] 一种识别视频中人体行为的系统，其特征在于，所述系统包括：

[0028] 特征点提取模块，用于提取目标视频中的特征点；

[0029] 点对组成模块，用于将所述特征点周围时间和空间邻域内固定的像素点和所述特征点组成点对；

[0030] 特征形成模块，用于将所述点对形成时空3D共生特征，所述时空3D共生特征包括3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征；

[0031] 超向量提取模块，用于根据所述时空3D共生特征提取所述目标视频表示的多视角超向量；

[0032] 人体行为识别模块，用于将所述多视角超向量带入支持向量机分类器中对所述目标视频中的人体行为进行识别。

[0033] 在其中一个实施例中，所述特征形成模块包括：

[0034] 共生矩阵获取单元，用于对所述点对进行联合量化，并统计所述点对的梯度方向的特征得到共生矩阵；

[0035] 时空3D共生特征形成单元，用于将所述共生矩阵辅成向量，并串联形成时空3D共生特征。

[0036] 在其中一个实施例中，所述超向量提取模块包括：

[0037] 模型建立单元，用于对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型；

[0038] 多视图超向量提取单元，用于从所述模型中提取作为所述目标视频表示的多视角超向量。

[0039] 在其中一个实施例中，所述模型建立单元包括:

[0040] 空间划分单元，用于将所述时空3D共生特征中任意两种特征的空间划分为多个个局部空间；

[0041] 典型模型建立单元，用于对所述多个局部空间依次建立典型相关分析模型；

[0042] 混合模型建立单元，用于根据所述典型相关分析模型建立混合典型相关分析模型。

[0043] 在其中一个实施例中，所述多视图超向量提取单元包括：

[0044] 共享信息的超向量获取单元，用于在所述混合典型相关分析模型中的局部高斯中提取隐变量，并将所述隐变量拼起来得到共享信息的超向量；

[0045] 独立信息的超向量获取单元，用于根据所述混合典型相关分析模型求所述 3D共生特征的独立信息的超向量；

[0046] 多视角超向量获取单元，用于将所述独立信息的超向量和所述共享信息的超向量串联起来，以得到所述目标视频表示的多视角超向量。

[0047] 上述实现对视频中人体行为识别的方法和系统，通过对目标视频中的特征点和特征点周围时间和空间邻域内的像素点组成点对，根据组成的点对形成时空3D共生特征，由于组成的点对包含目标视频中的特征点周围时间和空间领域内的像素点，使得在时空3D共生特征中的局部特征提取过程中考虑到了特征点时空上下文信息，因此根据时空3D共生特征提取目标视频表示的多视角超向量更能反应复杂的表观结构和运动结构，因而利用视频表示的多视角超向量进行人体行为识别，能够提高了人体行为识别的精确度。

附图说明

[0048] 图1为一个实施例中实现对视频中人体行为识别的方法的流程图；

[0049] 图2为一个实施例中根据所述点对形成时空3D共生特征的流程图；

[0050] 图3为一个实施例中时空3D共生特征形成过程的流程图；

[0051] 图4为一个实施例中根据所述时空3D共生特征提取所述目标视频表示的多视角超向量的流程图；

[0052] 图5为一个实施例中对所述时空3D共生特征中任意两种特征分别建立混合典型相关分析模型的流程图；

[0053] 图6为一个实施例中从所述模型中提取作为所述目标视频表示的多视角超向量的流程图；

[0054] 图7为一个实施例中利用混合典型相关分析模型提取隐变量的流程图；

[0055] 图8为一个实施例中多视角超向量编码和识别过程的流程图；

[0056] 图9为一个实施例中一种识别视频中人体行为的系统的结构示意图；

[0057] 图10为一个实施例中特征形成模块的结构示意图；

[0058] 图11为一个实施例中超向量提取模块的结构示意图；

[0059] 图12为一个实施例中模型建立单元的结构示意图；

[0060] 图13为一个实施例中多视图超向量提取单元的结构示意图。

具体实施方式

[0061] 如图1所示，在一个实施例中，一种识别视频中人体行为的方法，该方法包括：

[0062] 步骤S110，提取目标视频中的特征点。

[0063] 本实施例中，首先在目标视频每一帧中以网格宽度为S(S为预先设定的一个阈值)个像素密集地抽取像素点，对所抽取的像素点计算其自相关矩阵M：

[0064]

[0065] 其中Gx，Gy分别表示该像素的水平梯度和垂直梯度。计算自相关矩阵M的特征值λ1和λ2，当满足：min(λ1，λ2)≥Tλ即为目标视频中的特征点，其中Tλ为事先设置的一个阈值。所提取的特征点是一些去除平滑区域的稠密点。

[0066] 步骤S120，将特征点周围时间和空间邻域内固定的像素点和特征点组成点对。

[0067] 本实施例中，特征点周围时间和空间邻域内固定的像素点是指离特征点水平右方、垂直下方和时间上有一定间隔的点。优选的，选择离特征点水平右方、垂直下方和时间上方间隔为2的点作为固定的像素点与特征点组成点对。

[0068] 步骤S130，将点对形成时空3D共生特征，所述时空3D共生特征包括3D 梯度方向直方图特征、3D光流直方图特征和3D共生运动边界直方图。

[0069] 本实施例中，时空3D共生特征分别是：3D共生梯度方向直方图特征(3D Co-occurrence Histogram of Gradient orientation,3D-CoHOG)、3D共生光流直方图特征(3D Co-occurrence Histogram of Flow gradient orientation,3D-HOF)和3D 共生运动边界直方图特征(3D Co-occurrence Motion Boundary Histogram, 3D-CoMBH)。根据上述组成的点对形成3D共生特征。具体的，对每一点对在一个大区域内联合量化和统计其基于梯度方向的特征，得到一个共生矩阵，将每一个共生矩阵铺成一个向量并串联形成时空 3D 共生特征。

[0070] 步骤S140，根据时空3D共生特征提取目标视频表示的多视角超向量。

[0071] 步骤S150，将多视角超向量带入支持向量机分类器中对目标视频中的人体行为进行识别。

[0072] 本实施例中，根据时空3D共生特征得到视频表示的多视角超向量，将上述多视角超向量带入支持向量机(Support Vector Machine，简称SVM)分类器中即可对目标视频中的人体行为进行识别。由于在时空3D共生特征中的局部特征提取过程中考虑到了特征点时空上下文信息，因此根据时空3D共生特征提取目标视频表示的多视角超向量更能反应复杂的表观结构和运动结构，因而利用视频表示的多视角超向量进行人体行为识别，能够提高了人体行为识别的精确度。

[0073] 如图2所示，在一个实施例中，步骤S130包括：

[0074] 步骤S131，对点对进行联合量化，并统计点对的梯度方向的特征得到共生矩阵。

[0075] 步骤S133，将共生矩阵辅成向量，并串联形成时空3D共生特征。

[0076] 本实施例中，如图3所示，给定一个视频中的局部长方体块，假设其大小为M×N×T，对该长方体块进行时空3D共生特征的提取包括以下处理步骤：

[0077] 步骤1：梯度、光流计算及其方向量化。为了方便说明，将角度范围360度划分为Nbin等份。梯度计算及其方向量化：对于梯度方向直方图特征，首先利用 3×3的索贝尔(Sobel)算子计算长方体块内每个特征点的水平梯度Gx和垂直梯度 Gy，再利用反正切函数求出梯度方向角度θg＝arctan(Gy/Gx)，记录梯度幅值然后将该角度划归为所在的角度区间Bg；

[0078] 光流计算及其方向量化：对于光流直方图特征，首先计算每个特征点的光流(u,v),同样利用反正切函数求出梯度方向角度θf＝arctan(v/u)，然后将该角度划归为所在的角度区间Bf,记录梯度幅值对于直方图特征，计算完光流后，再对光流的水平分量u和垂直分量v分别求梯度，然后分别得到光流水平分量梯度角度区间Bmx和光流垂直分量角度区间Bmy，梯度幅值分别记为Emx和 Emy。

[0079] 步骤2：时空梯度方向共生矩阵的生成。如图3所示，假设一个共生点相对与当前点P(i,j,t0)的偏移量为(x,y,t)，则该偏移量在长方体块中形成的共生矩阵的每一项如下所示：

[0080]

[0081] 其中，k,i,j分别表示该立方体块的帧号，行号和列号。Ek代表第k帧的梯度幅值，根据不同的特征，Ek可以是步骤1中Eg、Ef、Emu和Emv任意一种，Bk表示第k帧所有点的方向量化所在区间，Bk(i,j)＝p即表示第k帧的第(i,j,k)点的方向量化区间为第p份。

[0082] 步骤3：时空3D共生特征的提取。假设在时空坐标中有Noffset个偏移量，针对每个偏移量都进行步骤2操作，每一种类型的特征都得到Noffset个共生矩阵，在每一种特征内将Noffset个共生矩阵按行或者列展开成向量并串联形成最终的3D共生特征向量，分别为3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征。

[0083] 如图4所示，在一个实施例中，步骤140包括：

[0084] 步骤S141，对时空3D共生特征中任意两种特征分别建立混合典型相关分析模型。

[0085] 步骤S143，从模型中提取作为目标视频表示的多视角超向量。

[0086] 本实施例中，从上述获取的时空3D共生特征中任意提取其中的两种特征，将这两种特征串联起来就得到了包含多视角信息的新特征。为了对串联得到的新特征进一步的建模，利用典型相关分析模型抽取新特征里面被两种特征共享的一部分特征，但是典型相关分析模型只能处理线性相关关系。在实际的数据中，不同的特征之间往往有非线性的相关性，因此本发明提出了混合典型相关分析模型来对新特征进行建模。

[0087] 混合典型相关分析模型将特征空间划分成多个局部空间，并在每个局部空间用混合典型相关分析模型建模，因为局部区域中的相关性可以被近似为线性关系，这样全局非线性关系就能通过局部线性的混合典型相关分析模型来建模。混合典型相关分析模型可对时空3D共生特征进行联合统一建模，并区分各特征间共享信息和各自独立的信息，以便分别编码，提高了人体行为识别的精确度。

[0088] 如图5所示，在一个实施例中，步骤S141包括:

[0089] 步骤S1411，将时空3D共生特征中任意两种特征的空间划分为多个局部空间。

[0090] 步骤S1413，对多个局部空间依次建立典型相关分析模型。

[0091] 步骤S1415，根据典型相关分析模型建立混合典型相关分析模型。

[0092] 本实施例中，混合典型相关分析模型是多个高斯分布的求和加权平均，局部高斯就是单个高斯分布。混合典型相关分析模型为：

[0093] p(v)＝Σkwkp(v|k)

[0094] 每个p(v|k)都是一个高斯模型(高斯模型带有两个参数，一个是均值，一个是协方差矩阵)叫做局部高斯，k就是指的第k个局部高斯。v＝(x,y)，表示ν是由x和y两个向量直接拼起来的向量。wk为加权平均的系数(实数系数)。p(v)即为混合典型相关分析模型。

[0095] 典型相关分析模型是对每对不同的特征描述子(比如说HOG和HOF，记为特征描述子x和特征描述子y)，x和y可以被分解为共享的一部分(通过z表示)，常数偏移的一部分还有噪声之和：

[0096] x＝Wxz+μx+εx

[0097] y＝Wyz+μy+εy

[0098] 令v＝(x,y)，那么ν将服从一个高斯分布p(v)。与混合典型相关分析模型区别的是典型相关分析模型只有一个高斯，也就是说k＝1，wk＝1，高斯分布总的个数数目为1。而混合典型相关分析模型是多个高斯的加权求和，根据典型相关分析模型建立混合典型相关分析模型，将典型相关分析推广到混合典型相关分析模型上，提高了对目标视频中人体行为识别精度。

[0099] 建立混合典型相关分析模型包括以下处理步骤：

[0100] 步骤1：初始化混合典型相关分析模型的参数。首先对时空3D共生特征进行 k-means的聚合算法处理，得到图像词汇表{vk}k＝1,...K其中vk是3D共生特征的k个中心，作为每个局部高斯的中心；提取对应于从时空3D共生特征中的第一特征x 和第二特征y的局部协相关矩阵和作为每个局部高斯的协方差矩阵，k表示第k个局部高斯。再对每个局部高斯进行单个典型相关分析，得到对应于每个局部高斯的参数，亦即投影矩阵每个局部模型的权重设为相同，亦即ωk＝1/K，ωk就
是对应于每个高斯的权重系数。

[0101] 步骤2：混合典型相关分析模型期望最大化算法的求平均步。基于初始化的模型参数，计算对应于第一特征x和第二特征y的隐变量和后验概率γi,k的估计。首先在第k个局部高斯下，计算第一特征x和第二特征y中第i个特征描述子的后验概率γi,k，计算公式如下：

[0102]

[0103] 更新相应于每个局部模型中隐变量的期望，协方差和相关矩阵。其计算公式如下：

[0104]

[0105]

[0106]

[0107] 步骤3：混合典型相关分析模型期望最大化算法，基于隐变量和后验概率γi,k更新混合典型相关分析模型的其它参数，亦即每个局部高斯模型的权重中心，协方差矩阵以及投影矩阵。其计算公式如下：

[0108]

[0109]

[0110]

[0111]

[0112]

[0113]

[0114]

[0115] 步骤4：重复进行步骤2和步骤3，直到参数收敛抑或达到迭代的最大次数为止。

[0116] 如图6所示，在一个实施例中，步骤S143包括：

[0117] 步骤S1431，在混合典型相关分析模型中的局部高斯中提取隐变量，并将隐变量拼起来得到共享信息的超向量。

[0118] 本实施例中，如图7所示，共享信息的超向量是通过混合模型的每个局部高斯中提取的隐变量拼起来得到的。

[0119] 步骤S1433，根据混合典型相关模型求3D共生特征的独立信息的超向量。

[0120] 步骤S1435，将独立信息的超向量和共享信息的超向量串联起来，以得到目标视频表示的多视角超向量。

[0121] 本实施例中，图8为多视角超向量的获取过程图，提取目标视频表示的多视角超向量包括以下的几个步骤：

[0122] 步骤1：进行混合典型相关分析模型EM算法的求平均步一次，从时空3D共生特征中得到相应的隐变量的估计，再将这些估计通过后验概率γi,k进行加权整合，就得到每个局部高斯模型隐变量的估计。计算公式如下：

[0123]

[0124] 共享信息的超向量表示Z就是所有局部隐变量的串联。

[0125] 步骤2：求混合典型相关分析模型分别相对于第一特征x和第二特征y的参数和的梯度向量gx和gy。这里给出相对于第一特征x的梯度向量的计算公式：

[0126]

[0127]

[0128] 其中，μ为局部高斯的中心，Σ为局部高斯的协方差矩阵。ω为混合典型相关分析模型中局部高斯的求和权重系数，W为从隐变量z到x或y的线性变换矩阵。γ为混合典型相关分析模型下每个样本后验概率，Ψ为x或y的在每个局部高斯下的协方差矩阵。相对于第二特征y的梯度向量根据上述计算公式可类似求得。

[0129] 步骤3：如图8所示，将共享信息的超向量Z和独立信息的超向量gx，gy串联起来就得到最后的多视角超向量表示。

[0130] 如图9所示，在一个实施例中，一种识别视频中人体行为的系统包括：

[0131] 特征点提取模块110，点对组成模块120，特征形成模块130，超向量提取模块140，人体行为识别模150。

[0132] 特征点提取模块110，用于提取目标视频中的特征点。

[0133] 本实施例中，首先在目标视频每一帧中以网格宽度为S(S为预先设定的一个阈值)个像素密集地抽取像素点，对所抽取的像素点计算其自相关矩阵M：

[0134]

[0135] 其中Gx，Gy分别表示该像素的水平梯度和垂直梯度。计算自相关矩阵M的特征值λ1和λ2，当满足：min(λ1，λ2)≥Tλ即为目标视频中的特征点，其中Tλ为事先设置的一个阈值。所提取的特征点是一些去除平滑区域的稠密点。

[0136] 点对组成模块120，用于将所述特征点周围时间和空间邻域内固定的像素点和所述特征点组成点对。

[0137] 本实施例中，特征点周围时间和空间邻域内固定的像素点是指离特征点水平右方、垂直下方和时间上有一定间隔的点。优选的，选择离特征点水平右方、垂直下方和时间上方间隔为2的点作为固定的像素点与特征点组成点对。

[0138] 特征形成模块130，用于将所述点对形成时空3D共生特征，所述时空3D 共生特征包括3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征。

[0139] 本实施例中，时空3D共生特征分别是：3D共生梯度方向直方图特征(3D Co-occurrence Histogram of Gradient orientation,3D-CoHOG)、3D共生光流直方图特征(3D Co-occurrence Histogram of Flow gradient orientation,3D-HOF)和3D 共生运动边界直方图特征(3D Co-occurrence Motion Boundary Histogram, 3D-CoMBH)。根据上述组成的点对形成3D共生特征。具体的，对每一点对在一个大区域内联合量化和统计其基于梯度方向的特征，得到一个共生矩阵，将每一个共生矩阵铺成一个向量并串联形成时空3D共生特征。

[0140] 超向量提取模块140，用于根据所述时空3D共生特征提取所述目标视频表示的多视角超向量。

[0141] 人体行为识别模块150，用于将所述多视角超向量带入支持向量机分类器中对所述目标视频中的人体行为进行识别。

[0142] 本实施例中，根据时空3D共生特征得到视频表示的多视角超向量，将上述多视角超向量带入支持向量机分类器中即可对目标视频中的人体行为进行识别。由于在时空3D共生特征中的局部特征提取过程中考虑到了特征点时空上下文信息，因此根据时空3D共生特征提取目标视频表示的多视角超向量更能反应复杂的表观结构和运动结构，因而能提高支持向量机分类器利用视频表示的多视角超向量进行人体行为识别的精确度。

[0143] 如图10所示，在一个实施例中，特征形成模块130包括：

[0144] 共生矩阵获取单元131，用于对点对进行联合量化，并统计点对的梯度方向的特征得到共生矩阵。

[0145] 共生矩阵获取单元132，用于将共生矩阵辅成向量，并串联形成时空3D共生特征。

[0146] 本实施例中，如图3所示，给定一个视频中的局部长方体块，假设其大小为 M×N×T，共生矩阵获取单元S131对该长方体块进行时空3D共生特征的提取包括以下处理步骤：

[0147] 步骤1：梯度、光流计算及其方向量化。为了方便说明，将角度范围360度划分为Nbin等份。梯度计算及其方向量化：对于梯度方向直方图特征，首先利用 3×3的索贝尔算子计算长方体块内每个特征点的水平梯度Gx和垂直梯度Gy，再利用反正切函数求出梯度方向角度θg＝arctan(Gy/Gx)，记录梯度幅值然后将该角度划归为所在的角度区间Bg；

[0148] 光流计算及其方向量化：对于光流直方图特征，首先计算每个特征点的光流(u,v),同样利用反正切函数求出梯度方向角度θf＝arctan(v/u)，然后将该角度划归为所在的角度区间Bf,记录梯度幅值对于直方图特征，计算完光流后，再对光流的水平分量u和垂直分量v分别求梯度，然后分别得到光流水平分量梯度角度区间Bmx和光流垂直分量角度区间Bmy，梯度幅值分别记为Emx和 Emy。

[0149] 步骤2：时空梯度方向共生矩阵的生成。如图3所示，假设一个共生点相对与当前点P(i,j,t0)的偏移量为(x,y,t)，则该偏移量在长方体块中形成的共生矩阵的每一项如下所示：

[0150]

[0151] 其中，k,i,j分别表示该立方体块的帧号，行号和列号。Ek代表第k帧的梯度幅值，根据不同的特征，Ek可以是步骤1中Eg、Ef、Emu和Emv任意一种，Bk表示第k帧所有点的方向量化所在区间，Bk(i,j)＝p即表示第k帧的第(i,j,k)点的方向量化区间为第p份。

[0152] 步骤3：时空3D共生特征的提取。假设在时空坐标中有Noffset个偏移量，针对每个偏移量都进行步骤2操作，每一种类型的特征都得到Noffset个共生矩阵，在每一种特征内将Noffset个共生矩阵按行或者列展开成向量并串联形成最终的3D共生特征向量，分别为3D共生梯度方向直方图特征、3D共生光流直方图特征和3D共生运动边界直方图特征。

[0153] 如图11所示，在一个实施例中，超向量提取模块140包括：

[0154] 模型建立单元141，用于对时空3D共生特征中任意两种特征分别建立混合典型相关分析模型。

[0155] 多视角超向量提取单元142，用于从模型中提取作为目标视频表示的多视角超向量。

[0156] 本实施例中，从上述获取的时空3D共生特征中任意提取其中的两种特征，将这两种特征串联起来就得到了包含多视角信息的新特征。为了对串联得到的新特征进一步的建模，利用典型相关分析模型抽取新特征里面被两种特征共享的一部分特征，但是典型相关分析模型只能处理线性相关关系。在实际的数据中，不同的特征之间往往有非线性的相关性，因此本发明提出了混合典型相关分析模型来对新特征进行建模。

[0157] 混合典型相关分析模型将特征空间划分成多个局部空间，并在每个局部空间用混合典型相关分析模型建模，因为局部区域中的相关性可以被近似为线性关系，这样全局非线性关系就能通过局部线性的混合典型相关分析模型来建模。混合典型相关分析模型可对时空3D共生特征进行联合统一建模，并区分各特征间共享信息和各自独立的信息，以便分别编码，提高了人体行为识别的精确度。

[0158] 如图12所示，在一个实施例中，模型建立单元141包括:

[0159] 空间划分单元1411，用于将时空3D共生特征中任意两种特征的空间划分为多个个局部空间。

[0160] 典型模型建立单元1412，用于对多个局部空间依次建立典型相关分析模型。

[0161] 混合模型建立单元1413，用于根据典型相关分析模型建立混合典型相关分析模型。

[0162] 本实施例中，混合典型相关分析模型是多个高斯分布的求和加权平均，局部高斯就是单个高斯分布。混合典型相关分析模型为：

[0163] p(v)＝Σkwkp(v|k)

[0164] 每个p(v|k)都是一个高斯模型(高斯模型带有两个参数，一个是均值，一个是协方差矩阵)叫做局部高斯，k就是指的第k个局部高斯。v＝(x,y)，表示ν是由x和y两个向量直接拼起来的向量。wk为加权平均的系数(实数系数)。p(v)即为混合典型相关分析模型。

[0165] 典型相关分析模型是对每对不同的特征描述子(比如说HOG和HOF，记为特征描述子x和特征描述子y)，x和y可以被分解为共享的一部分(通过z表示)，常数偏移的一部分还有噪声之和：

[0166] x＝Wxz+μx+εx

[0167] y＝Wyz+μy+εy

[0168] 令v＝(x,y)，那么ν将服从一个高斯分布p(v)。与混合典型相关分析模型区别的是典型相关分析模型只有一个高斯，也就是说k＝1，wk＝1，高斯分布总的个数数目为1。而混合典型相关分析模型是多个高斯的加权求和，根据典型相关分析模型建立混合典型相关分析模型，将典型相关分析推广到混合典型相关分析模型上，提高了对目标视频中人体行为识别精度。

[0169] 混合模型建立单元1413建立混合典型相关分析模型包括以下处理步骤：

[0170] 步骤1：初始化混合典型相关分析模型的参数。首先对时空3D共生特征进行 k-means的聚合算法处理，得到图像词汇表{vk}k＝1,...K其中vk是3D共生特征的k个中心，作为每个局部高斯的中心；提取对应于从时空3D共生特征中的第一特征x 和第二特征y的局部协相关矩阵和作为每个局部高斯的协方差矩阵，k表示第k个局部高斯。再对每个局部高斯进行单个典型相关分析，得到对应于每个局部高斯的参数，亦即投影矩阵每个局部模型的权重设为相同，亦即ωk＝1/K，ωk就是
对应于每个高斯的权重系数。

[0171] 步骤2：混合典型相关分析模型期望最大化算法的求平均步。基于初始化的模型参数，计算对应于第一特征x和第二特征y的隐变量和后验概率γi,k的估计。首先在第k个局部高斯下，计算第一特征x和第二特征y中第i个特征描述子的后验概率γi,k，计算公式如下：

[0172]

[0173] 更新相应于每个局部模型中隐变量的期望，协方差和相关矩阵。其计算公式如下：

[0174]

[0175]

[0176]

[0177] 步骤3：混合典型相关分析模型期望最大化算法，基于隐变量和后验概率γi,k更新混合典型相关分析模型的其它参数，亦即每个局部高斯模型的权重中心，协方差矩阵以及投影矩阵。其计算公式如下：

[0178]

[0179]

[0180]

[0181]

[0182]

[0183]

[0184]

[0185] 步骤4：重复进行步骤2和步骤3，直到参数收敛抑或达到迭代的最大次数为止。

[0186] 如图13所示，在一个实施例中，多视角超向量提取单元142包括：

[0187] 共享信息的超向量获取单元1421，用于在混合典型相关分析模型中的局部高斯中提取隐变量，并将隐变量拼起来得到共享信息的超向量。

[0188] 本实施例中，如图7所示，共享信息的超向量是通过混合模型的每个局部高斯中提取的隐变量拼起来得到的。

[0189] 独立信息的超向量获取单元1422，用于根据混合典型相关分析模型求3D共生特征的独立信息的超向量。

[0190] 多视角超向量获取单元1423，用于将独立信息的超向量和共享信息的超向量串联起来，以得到目标视频表示的多视角超向量。

[0191] 本实施例中，图8为多视角超向量的获取过程图，独立信息的超向量获取单元1422提取目标视频表示的多视角超向量包括以下的几个步骤：

[0192] 步骤1：进行混合典型相关分析模型EM算法的求平均步一次，从时空3D共生特征中得到相应的隐变量的估计，再将这些估计通过后验概率γi,k进行加权整合，就得到每个局部高斯模型隐变量的估计。计算公式如下：

[0193]

[0194] 共享信息的超向量表示Z就是所有局部隐变量的串联。

[0195] 步骤2：求混合典型相关分析模型分别相对于第一特征x和第二特征y的参数和的梯度向量gx和gy。这里给出相对于第一特征x的梯度向量的计算公式：

[0196]

[0197]

[0198] 其中，μ为局部高斯的中心，Σ为局部高斯的协方差矩阵。ω为混合典型相关分析模型中局部高斯的求和权重系数，W为从隐变量z到x或y的线性变换矩阵。γ为混合典型相关分析模型下每个样本后验概率，Ψ为x或y的在每个局部高斯下的协方差矩阵。相对于第二特征y的梯度向量根据上述计算公式可类似求得。

[0199] 步骤3：如图8所示，将共享信息的超向量Z和独立信息的超向量gx，gy串联起来就得到最后的多视角超向量表示。

[0200] 以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

识别视频中人体行为的方法和系统转让专利

申请号 : CN201310754550.8

文献号 : CN104751111B

文献日 : 2019-02-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 乔宇 , 蔡卓伟 , 彭小江

申请人 : 深圳先进技术研究院

摘要 :

权利要求 :

说明书 :