一种基于深度学习的人体朝向预测方法及装置转让专利

申请号 : CN201710282729.6

文献号 : CN107122736B

文献日 : 2020-06-12

本发明实施例提供了一种基于深度学习的人体朝向预测方法及装置，应用于视频分析技术领域，所述方法包括：获取待检测视频对应的帧序列的每一帧中每一个行人的位置；根据位置和预先建立的行人时空特征预测模型，通过卷积神经网络提取每一个行人的空间特征。根据空间特征和行人时空特征预测模型，通过门结构的循环神经网络提取帧序列的时间特征，得到每一个行人的时空特征。提取时空特征中的方向特征，得到每一个行人的人体朝向。本发明实施例针对行人的空间特征和时间特征进行建模，通过提供丰富的历史连续变化信息来辅助当前帧的预测，提高了人体朝向预测的准确性。

1.一种基于深度学习的人体朝向预测方法，其特征在于，包括：

在对人体朝向数据库进行训练时，通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值；

计算所述人体朝向预测值与人体朝向真实值的偏差；

根据权重序列损失函数：

确定所述人体朝向数据库中所有图片的整体偏差Lwei，其中， x′i＝xi-max(x1,…,xn)，Ln表示所述人体朝向数据库中的第n张图片的人体朝向的偏差，Wn表示权重损失函数的权重，xi表示第i张图片的空间特征；

在判断所述整体偏差Lwei大于或等于预设阈值时，重新对所述人体朝向数据库进行训练，返回所述通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值的步骤，直至所述整体偏差Lwei小于所述预设阈值；

在判断所述整体偏差Lwei小于所述预设阈值时，建立行人时空特征预测模型；

获取待检测视频对应的帧序列的每一帧中每一个行人的位置；

根据所述位置和预先建立的行人时空特征预测模型，通过卷积神经网络提取所述每一个行人的空间特征；

根据所述空间特征和所述行人时空特征预测模型，通过门结构的循环神经网络提取所述帧序列的时间特征，得到所述每一个行人的时空特征；

提取所述时空特征中的方向特征，得到所述每一个行人的人体朝向。

2.根据权利要求1所述的基于深度学习的人体朝向预测方法，其特征在于，所述根据所述空间特征和所述行人时空特征预测模型，通过门结构的循环神经网络提取所述帧序列的时间特征，得到所述每一个行人的时空特征，包括：如果t-1时刻所述门结构的循环神经网络模型输出的时空特征为ht-1，t时刻所述门结构的循环神经网络模型输入的空间特征为xt，根据公式：

zt＝sigmoid(Wzxt+Uzht-1+bz)，

rt＝sigmoid(Wrxt+Urht-1+br)，确定t时刻门结构的循环神经网络模型输出的时空特征ht，其中，zt表示t时刻更新门的输出结果，rt表示t时刻重置门的输出结果，所述更新门、所述重置门和隐藏层位于所述门结构的循环神经网络模型中，表示中间变量，⊙表示向量之间的点乘，Wz表示更新门的空间特征xt的权重，Uz表示更新门的时空特征ht-1的权重，bz表示更新门的惩罚量，W表示隐藏层的空间特征xt的权重，U表示隐藏层rt和ht-1的点乘的权重，bh表示隐藏层的惩罚量，Wr表示重置门的空间特征xt的权重，Ur表示重置门的ht-1的权重，br表示重置门的惩罚量。

3.根据权利要求1所述的基于深度学习的人体朝向预测方法，其特征在于，所述获取待检测视频对应的帧序列的每一帧中每一个行人的位置，包括：通过基于区域的全卷积网络R-FCN提取所述每一个行人的位置。

4.根据权利要求1所述的基于深度学习的人体朝向预测方法，其特征在于，所述提取所述时空特征中的方向特征，得到所述每一个行人的人体朝向，包括：通过卷积神经网络提取所述时空特征中的方向特征，得到所述每一个行人的人体朝向。

5.一种基于深度学习的人体朝向预测装置，其特征在于，包括：

预测值计算模块，用于在对人体朝向数据库进行训练时，通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值；

偏差计算模块，用于计算所述人体朝向预测值与人体朝向真实值的偏差；

整体偏差计算模块，用于根据权重序列损失函数：

确定所述人体朝向数据库中所有图片的整体偏差Lwei，其

中， x′i＝xi-max(x1,…,xn)，Ln表示所述人体朝向数据库中的第n张图片的人体朝向的偏差，Wn表示权重损失函数的权重，xi表示第i张图片的空间特征；

循环执行模块，用于在判断所述整体偏差Lwei大于或等于预设阈值时，重新对所述人体朝向数据库进行训练，返回所述通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值的步骤，直至所述整体偏差Lwei小于所述预设阈值；

模型建立模块，用于在判断所述整体偏差Lwei小于所述预设阈值时，建立行人时空特征预测模型；

位置获取模块，用于获取待检测视频对应的帧序列的每一帧中每一个行人的位置；

空间特征提取模块，用于根据所述位置和预先建立的行人时空特征预测模型，通过卷积神经网络提取所述每一个行人的空间特征；

时空特征获取模块，用于根据所述空间特征和所述行人时空特征预测模型，通过门结构的循环神经网络提取所述帧序列的时间特征，得到所述每一个行人的时空特征；

人体朝向预测模块，用于提取所述时空特征中的方向特征，得到所述每一个行人的人体朝向。

6.根据权利要求5所述的基于深度学习的人体朝向预测装置，其特征在于，所述时空特征获取模块具体用于，如果t-1时刻所述门结构的循环神经网络模型输出的时空特征为ht-1，t时刻所述门结构的循环神经网络模型输入的空间特征为xt，根据公式：

zt＝sigmoid(Wzxt+Uzht-1+bz)，

7.根据权利要求5所述的基于深度学习的人体朝向预测装置，其特征在于，所述位置获取模块具体用于，通过基于区域的全卷积网络R-FCN提取所述每一个行人的位置。

8.根据权利要求5所述的基于深度学习的人体朝向预测装置，其特征在于，所述人体朝向预测模块具体用于，通过卷积神经网络提取所述时空特征中的方向特征，得到所述每一个行人的人体朝向。

一种基于深度学习的人体朝向预测方法及装置

技术领域

[0001] 本发明涉及视频分析技术领域，特别是涉及一种基于深度学习的人体朝向预测方法及装置。

背景技术

[0002] 智能视频监控系统在当前城市安防、交通管理、环境监测等领域有着广泛的应用，针对行人行为的监控分析系统在城市的人流量管理、特殊事件防范、交通安全等方面扮演着重要角色。其中，智能视频监控是信号采集与传输、图像处理、计算机视觉、机器学习和模式识别等多学科交叉的研究方向。目前针对行人行为的监控分析系统的研究非常广泛，例如，人群密度估计、人流量统计、行人姿态识别、特殊事件检测等等。然而，行人人体朝向预测是行人行为分析的基础。行人人体朝向预测是指，给定一个视频，根据每一帧的视觉特征、时空信息等，在视频中定位每一个行人的位置，并判断其身体的朝向(如东、西、南、北)。

[0003] 目前行人人体朝向预测主要包括：根据单帧的图像特征进行人体朝向的判断以及通过视频的连续性利用多帧的时间特征进行行人人体朝向的判断。基于单帧图像对行人人体朝向预测的方法包括：2维方法和3维方法。其中，2维方法指的是仅依靠图片中的颜色特征和纹理特征，或者深度学习提取的高级抽象特征进行人体朝向的判断。例如，利用局部的纹理特征如HOG(Histogram of Oriented Gradient，方向梯度直方图)，LBP(Local Binary Patterns，局部二值模式)等算子，然后通过SVM(Support Vector Machine，支持向量机)训练出分类的模型，对行人进行朝向的分类。另外，通过对不同模型的融合，得到一个更加精确的后融合模型，进行分类得到更加精确的结果。而3维方法在2维方法的基础上通过引入图像的深度信息，或者同一场景的多角度信息，来增加特征维度，使得模型提取的特征更加丰富，对目标人体朝向描述的更加精确，这样使得3维方法得到了很高的预测精度。基于连续帧的行人人体朝向预测方法包括：通过更新模型给予模型随时间变化而变化的能力，这使得模型在不同的时间拥有不同的参数，从而对行人人体朝向的预测更加精确；利用隐马尔科夫算法对时间序列建模提取时间特征，也提高了行人人体朝向预测的准确性。

[0004] 可见，上述2维方法虽然可以完成对行人人体朝向的判断，但是由于只考虑到了单帧的信息，该方法对光照和遮挡有很低的鲁棒性。3维方法由于获取深度信息和多角度拍摄信息在实际场景中是不现实且不合理的，所以3维方法很难得到实用。因此，根据单帧的图像特征进行人体朝向的判断由于损失掉了许多有用信息，使得预测结果对光照、遮挡、多向性的鲁棒性较低，导致人体朝向预测的准确性比较低。通过视频的连续性利用多帧的时间特征进行行人人体朝向的判断对行人前进的多向性鲁棒性很低，使得人体朝向预测的准确性比较低，无法适用于实际监控系统中。

发明内容

[0005] 本发明实施例的目的在于提供一种基于深度学习的人体朝向预测方法及装置，以提高人体朝向预测的准确性。具体技术方案如下：

[0006] 本发明实施例公开了一种基于深度学习的人体朝向预测方法，包括：

[0007] 获取待检测视频对应的帧序列的每一帧中每一个行人的位置；

[0008] 根据所述位置和预先建立的行人时空特征预测模型，通过卷积神经网络提取所述每一个行人的空间特征；

[0009] 根据所述空间特征和所述行人时空特征预测模型，通过门结构的循环神经网络提取所述帧序列的时间特征，得到所述每一个行人的时空特征；

[0010] 提取所述时空特征中的方向特征，得到所述每一个行人的人体朝向。

[0011] 可选的，在所述获取待检测视频对应的帧序列的每一帧中每一个行人的位置之前，本发明实施例的基于深度学习的人体朝向预测方法还包括：

[0012] 在对人体朝向数据库进行训练时，通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值；

[0013] 计算所述人体朝向预测值与人体朝向真实值的偏差；

[0014] 根据权重序列损失函数：确定所述人体朝向数据库中所有图片的整体偏差Lwei，其中， x′i＝
xi-max(x1，...，xn)，Ln表示所述人体朝向数据库中的第n张图片的人体朝向的偏差，Wn表示权重损失函数的权重，xi表示第i张图片的空间特征；

[0015] 在判断所述整体偏差Lwei大于或等于预设阈值时，重新对所述人体朝向数据库进行训练，返回所述通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值的步骤，直至所述整体偏差Lwei小于所述预设阈值；

[0016] 在判断所述整体偏差Lwei小于所述预设阈值时，建立所述行人时空特征预测模型。

[0017] 可选的，所述根据所述空间特征和所述行人时空特征预测模型，通过门结构的循环神经网络提取所述帧序列的时间特征，得到所述每一个行人的时空特征，包括：

[0018] 如果t-1时刻所述门结构的循环神经网络模型输出的时空特征为ht-1，t时刻所述门结构的循环神经网络模型输入的空间特征为xt，

[0019] 根据公式：

[0020] zt＝sigmoid(Wzxt+Uzht-1+bz)，

[0021]

[0022] rt＝sigmoid(Wrxt+Urht-1+br)，确定t时刻门结构的循环神经网络模型输出的时空特征ht，

[0023] 其中，zt表示t时刻更新门的输出结果，rt表示t时刻重置门的输出结果，所述更新门、所述重置门和隐藏层位于所述门结构的循环神经网络模型中，表示中间变量，⊙表示向量之间的点乘，Wz表示更新门的空间特征xt的权重，Uz表示更新门的时空特征ht-1的权重，bz表示更新门的惩罚量，W表示隐藏层的空间特征xt的权重，U表示隐藏层rt和ht-1的点乘的权重，bh表示隐藏层的惩罚量，Wr表示重置门的空间特征xt的权重，Ur表示重置门的ht-1的权重，br表示重置门的惩罚量。

[0024] 可选的，所述获取待检测视频对应的帧序列的每一帧中每一个行人的位置，包括：

[0025] 通过基于区域的全卷积网络R-FCN提取所述每一个行人的位置。

[0026] 可选的，所述提取所述时空特征中的方向特征，得到所述每一个行人的人体朝向，包括：

[0027] 通过卷积神经网络提取所述时空特征中的方向特征，得到所述每一个行人的人体朝向。

[0028] 本发明实施例还公开了一种基于深度学习的人体朝向预测装置，包括：

[0029] 位置获取模块，用于获取待检测视频对应的帧序列的每一帧中每一个行人的位置；

[0030] 空间特征提取模块，用于根据所述位置和预先建立的行人时空特征预测模型，通过卷积神经网络提取所述每一个行人的空间特征；

[0031] 时空特征获取模块，用于根据所述空间特征和所述行人时空特征预测模型，通过门结构的循环神经网络提取所述帧序列的时间特征，得到所述每一个行人的时空特征；

[0032] 人体朝向预测模块，用于提取所述时空特征中的方向特征，得到所述每一个行人的人体朝向。

[0033] 可选的，本发明实施例的基于深度学习的人体朝向预测装置，还包括：

[0034] 预测值计算模块，用于在对人体朝向数据库进行训练时，通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值；

[0035] 偏差计算模块，用于计算所述人体朝向预测值与人体朝向真实值的偏差；

[0036] 整体偏差计算模块，用于根据权重序列损失函数：确定所述人体朝向数据库中所有图片的整体偏差Lwei，其
中， x′i＝xi-max(x1，...，xn)，Ln表示所述人体朝向数据库中的第n张图片的人体朝向的偏差，Wn表示权重损失函数的权重，xi表示第i张图片的空间特征；

[0037] 循环执行模块，用于在判断所述整体偏差Lwei大于或等于预设阈值时，重新对所述人体朝向数据库进行训练，返回所述通过卷积神经网络和门结构的循环神经网络计算所述人体朝向数据库中每一张图片的人体朝向预测值的步骤，直至所述整体偏差Lwei小于所述预设阈值；

[0038] 模型建立模块，用于在判断所述整体偏差Lwei小于所述预设阈值时，建立所述行人时空特征预测模型。

[0039] 可选的，所述时空特征获取模块具体用于，如果t-1时刻所述门结构的循环神经网络模型输出的时空特征为ht-1，t时刻所述门结构的循环神经网络模型输入的空间特征为xt，

[0040] 根据公式：

[0041] zt＝sigmoid(Wzxt+Uzht-1+bz)，

[0042]

[0043] rt＝sigmoid(Wrxt+Urht-1+br)，确定t时刻门结构的循环神经网络模型输出的时空特征ht，

[0044] 其中，zt表示t时刻更新门的输出结果，rt表示t时刻重置门的输出结果，所述更新门、所述重置门和隐藏层位于所述门结构的循环神经网络模型中，表示中间变量，⊙表示向量之间的点乘，Wz表示更新门的空间特征xt的权重，Uz表示更新门的时空特征ht-1的权重，bz表示更新门的惩罚量，W表示隐藏层的空间特征xt的权重，U表示隐藏层rt和ht-1的点乘的权重，bh表示隐藏层的惩罚量，Wr表示重置门的空间特征xt的权重，Ur表示重置门的ht-1的权重，br表示重置门的惩罚量。

[0045] 可选的，所述位置获取模块具体用于，通过基于区域的全卷积网络R-FCN提取所述每一个行人的位置。

[0046] 可选的，所述人体朝向预测模块具体用于，通过卷积神经网络提取所述时空特征中的方向特征，得到所述每一个行人的人体朝向。

[0047] 本发明实施例提供的基于深度学习的人体朝向预测方法及装置，通过获取待检测视频对应的帧序列的每一帧中每一个行人的位置，根据位置和预先建立的行人时空特征预测模型，通过卷积神经网络提取每一个行人的空间特征。根据空间特征和行人时空特征预测模型，通过门结构的循环神经网络提取帧序列的时间特征，得到每一个行人的时空特征。提取时空特征中的方向特征，得到每一个行人的人体朝向。本发明实施例通过行人空间特征的历史连续变化信息来辅助当前帧的预测，提高了人体朝向预测的准确性。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

[0048] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0049] 图1为本发明实施例的基于深度学习的人体朝向预测方法的一种流程图；

[0050] 图2为本发明实施例的基于深度学习的人体朝向预测方法的另一种流程图；

[0051] 图3为本发明实施例的门结构的循环神经网络的流程图；

[0052] 图4为本发明实施例的基于深度学习的人体朝向预测装置的结构图。

具体实施方式

[0053] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0054] 在视频理解与视频分析中，针对行人的分析是很重要的部分。人体朝向预测是行人分析中的基础，也很重要的部分，对后续行人跟踪、行人姿态识别、行人流量统计等有着至关重要的影响。通常根据行人的外观视觉特征(衣着颜色、纹理、部件)等信息在监控视频中分析行人的人体朝向。然而，监控场景的光照影响、摄像机视角的多样性、行人移动的多向性和行人间的遮挡问题等等使得人体朝向预测的准确性比较低。

[0055] 现有技术中，基于单帧的行人人体朝向预测方法可以得到较为准确的结果，但预测结果对光照变化、人群遮挡以及行人多形性等问题上表现出较低的鲁棒性，因此，人体朝向预测的准确性比较低。虽然3维特征的引入可以提升系统的鲁棒性，但由于较高的技术难度，使得该方法并不适用于普遍的监控系统中。而连续帧预测方法无法应对复杂的行人移动情况，导致无法应用在监控系统中。本发明实施例提供了一种基于深度学习的人体朝向预测方法及装置，通过深度学习得到一个稳定准确的预测模型，提高了人体朝向预测的准确性。

[0056] 深度学习是机器学习的一个分支，通过非监督式或半监督式的特征学习和分层特征提取的高效算法来替代手工获取特征。目前主要的深度学习框架包括：深度神经网络、卷积神经网络、深度信念网络和递归神经网络等。

[0057] 参见图1，图1为本发明实施例的基于深度学习的人体朝向预测方法的一种流程图，包括以下步骤：

[0058] S101，获取待检测视频对应的帧序列的每一帧中每一个行人的位置。

[0059] 本发明实施例中，行人空间特征的提取需要依据行人在图片中的位置，一般的，待检测视频中的行人是运动的，那么，行人在每一张图片中的位置是不同的，为了提取待检测视频对应的帧序列的每一帧中行人的空间特征，本发明实施例需要获取待检测视频对应的帧序列的每一帧中每一个行人的位置。

[0060] S102，根据位置和预先建立的行人时空特征预测模型，通过卷积神经网络提取每一个行人的空间特征。

[0061] 具体的，在确定每一帧中每一个行人的位置之后，根据该位置和行人时空特征预测模型，通过卷积神经网络提取每一个行人的空间特征。与传统的颜色特征和纹理特征不同，本发明实施例采用卷积神经网络提取行人的高级抽象特征，相比于传统特征，由于深度学习的卷积层，使得高级抽象特征包含更加抽象的概念，例如：朝向，姿态等等。可选的，通过经典的VGG(Visual Geometry Group)模型的全连接层来获取行人的空间特征，即针对每一个行人的位置，得到4096维的空间特征。当然，通过其他模型提取行人的空间特征也属于本发明实施例的保护范围。由于本发明实施例需要对帧序列提取时间特征，因此，针对每一个行人提取N帧的空间特征可表示为{fi1,fi2…fiN}，其中，fiN表示第N帧的空间特征，N为大于1的整数。

[0062] 需要说明的是，VGG为牛津大学工程科学的一个组织，该组织通过对表情数据库进行深度学习建立的模型为VGG模型，VGG模型的特征为VGG特征，VGG特征包括：卷积神经网络的FC6层特征。

[0063] S103，根据空间特征和行人时空特征预测模型，通过门结构的循环神经网络提取帧序列的时间特征，得到每一个行人的时空特征。

[0064] 本发明实施例中，行人时空特征预测模型中保存的是空间特征和时空特征的对应关系，将帧序列的空间特征输入行人时空特征预测模型，通过门结构的循环神经网络提取帧序列的时间特征，进而得到每一个行人的时空特征，其中，时空特征为空间特征和时间特征的综合特征。行人时空特征预测模型是通过门结构的循环神经网络建立的，因此，与传统模型相比，行人时空特征预测模型中的门结构使得该模型可以记忆更久的时间特征，并且该模型的门结构较为简单，在训练和预测时，可以更加快速地获得预测结果，从而进行实时预测。

[0065] 在循环神经网络中，神经元的输出可以在下一个时刻直接作用到自身，即第i层神经元在t时刻的输入，除了包括上一层神经元在t时刻的输出以外，还包括t-1时刻的输出。因此，循环神经网络可以应对时间序列上的变化，这种对时间特征的提取能力在自然语言处理、语音识别、手写体识别等应用中有的非常重要的作用。而门结构的循环神经网络在循环神经网络的基础上增加门结构，门结构的循环神经网络的记忆效果可通过门结构来进行控制，门结构包括：更新门和充值门，这两个门结构使得门结构的循环神经网络可以进行长时间的时间特征记忆。行人时空特征预测模型的建立方法在下文将会进行详细描述，在此不再赘述。

[0066] S104，提取时空特征中的方向特征，得到每一个行人的人体朝向。

[0067] 需要说明的是，通过行人时空特征预测模型得到的时空特征是一个高维的特征向量，该特征向量中包括表示人体朝向的方向特征(如东、西、南、北)，也包括与人体朝向无关的其他的时空特征。因此，通过提取时空特征中的方向特征，即可得到每一个行人的人体朝向。

[0068] 可见，本发明实施例的基于深度学习的人体朝向预测方法，通过获取待检测视频对应的帧序列的每一帧中每一个行人的位置，根据位置和预先建立的行人时空特征预测模型，通过卷积神经网络提取每一个行人的空间特征。根据空间特征和行人时空特征预测模型，通过门结构的循环神经网络提取帧序列的时间特征，得到每一个行人的时空特征。提取时空特征中的方向特征，得到每一个行人的人体朝向。本发明实施例通过行人空间特征的历史连续变化信息来辅助当前帧的预测，提高了人体朝向预测的准确性。

[0069] 参见图2，图2为本发明实施例的基于深度学习的人体朝向预测方法的另一种流程图，包括以下步骤：

[0070] S201，在对人体朝向数据库进行训练时，通过卷积神经网络和门结构的循环神经网络计算人体朝向数据库中每一张图片的人体朝向预测值。

[0071] 本发明实施例中，人体朝向数据库为包含多个行人的图像数据库，通常，每一个行人包含多张连续的图像序列，并且每一个行人对应的图像序列中包含多个人体朝向。因此，通过对该人体朝向数据库进行训练，可以建立图像和人体朝向的对应关系。可选的，人体朝向数据库可以包括：CASIA人体朝向数据库和MCG-RGBD人体朝向数据库等。在对人体朝向数据库进行训练时，通过卷积神经网络提取图像的空间特征，通过门结构的卷积神经网络提取图像序列的时间特征，进而计算人体朝向数据库中每一张图片的人体朝向预测值。

[0072] S202，计算人体朝向预测值与人体朝向真实值的偏差。

[0073] 具体的，对于进行训练的人体朝向数据库中的图像，图像中的每一个行人具有与该行人相对应的确定的人体朝向真实值。一般的，通过S201得到的人体朝向预测值与人体朝向真实值存在偏差，计算人体朝向预测值与人体朝向真实值的偏差，通过该偏差确定是否对人体朝向数据库继续进行训练。

[0074] S203，根据权重序列损失函数：确定人体朝向数据库中所有图片的整体偏差Lwei，其中， x′i＝
xi-max(x1，...，xn)，Ln表示人体朝向数据库中的第n张图片的人体朝向的偏差，Wn表示权重损失函数的权重，xi表示第i张图片的空间特征。

[0075] 需要说明的是，传统的损失函数仅仅考虑最后一帧的预测结果与真实值的偏差，并以此作为纠正训练方向的依据。但是，行人的每一帧的朝向是多向并且不确定的，因此，传统的损失函数很难表示出真实偏差。有鉴于此，本发明实施例提出了一个多帧的权重序列损失函数，计算每一帧与该帧真实值的偏差，并且根据不同帧的重要程度来决定该帧所对应的偏差的权重。最后，再对所有新的权重偏差进行加和，即可得到一个更加合理的整体偏差，用来指引新的模型的训练。

[0076] 在对人体朝向预测时，由于首先要考虑行人移动时朝向的多变性和变化的不连续性，因此，可选的，本发明实施例中仅考虑行人朝向发生变化的视频帧，即在当前t时刻，行人的朝向与t-1时刻不同，那么，该时刻损失函数的权重即为1，若朝向为发生变化，则不考虑，即该时刻损失函数的权重为0。除此之外，最后一帧的偏差始终列入考虑范围之内。通过该策略，本发明实施例可以使深度学习框架捕捉到更准确的朝向变化时的特征变化，使得深度学习框架可以更好地对当前t时刻的行人身体朝向进行预测。

[0077] S204，判断整体偏差Lwei是否小于预设阈值。

[0078] 当S204的判断结果为否时，返回S201；当S204的判断结果为是时，执行S205，建立行人时空特征预测模型。

[0079] 具体的，当S204的判断结果为否时，表明整体偏差Lwei仍然比较大，需要重新对人体朝向数据库进行训练，那么，返回S201，重复执行以上步骤。当S204的判断结果为是时，表明整体偏差Lwei已经达到预期目标，可以建立行人时空特征预测模型。其中，预设阈值为根据实际情况设定的值，在此不做限定。

[0080] 本发明实施例的一种实现方式中，根据空间特征和行人时空特征预测模型，通过门结构的循环神经网络提取帧序列的时间特征，得到每一个行人的时空特征，包括：

[0081] 如果t-1时刻门结构的循环神经网络模型输出的时空特征为ht-1，t时刻门结构的循环神经网络模型输入的空间特征为xt，

[0082] 根据公式：

[0083] zt＝sigmoid(Wzxt+Uzht-1+bz)，

[0084]

[0085] rt＝sigmoid(Wrxt+Urht-1+br)，确定t时刻门结构的循环神经网络模型输出的时空特征ht。

[0086] 其中，zt表示t时刻更新门的输出结果，rt表示t时刻重置门的输出结果，更新门、重置门和隐藏层位于门结构的循环神经网络模型中，表示中间变量，⊙表示向量之间的点乘，Wz表示更新门的空间特征xt的权重，Uz表示更新门的时空特征ht-1的权重，bz表示更新门的惩罚量，W表示隐藏层的空间特征xt的权重，U表示隐藏层rt和ht-1的点乘的权重，bh表示隐藏层的惩罚量，Wr表示重置门的空间特征xt的权重，Ur表示重置门的ht-1的权重，br表示重置门的惩罚量。

[0087] 需要说明的是，在经过了前一时刻的行人空间特征的提取之后，针对一个连续的视频帧，将得到的特征矩阵输入到循环神经网络中，但是，传统的单神经元激活函数为tanh的循环神经网络，该网络结构简单，并且只能利用当前帧的前一帧的特征信息，无法从之前的视频帧中提取长时间的特征信息。因此，本发明实施例通过门结构的循环神经网络模型以提取长时间的时间特征，参见图3，图3为本发明实施例的门结构的循环神经网络的流程图。可以看出，t时刻门结构的循环神经网络模型输出的时空特征ht，不仅与t时刻输入的空间特征xt相关，也与t-1时刻的时空特征ht-1相关，而t-1时刻的时空特征ht-1与t-2时刻的时空特征ht-2以及t-1时刻输入的空间特征xt-1相关，以此类推，门结构的循环神经网络模型可以提取长时间的时间特征，以达到更好的人体预测结果。

[0088] 本发明实施例的一种实现方式中，获取待检测视频对应的帧序列的每一帧中每一个行人的位置，包括：

[0089] 通过基于区域的全卷积网络R-FCN提取每一个行人的位置。

[0090] 本发明实施例中，为了在待检测视频中得到行人的精确位置，通过目前表现最好的物体定位神经网络R-FCN(Region-based Fully Convolutional Networks，基于区域的全卷积网络)提取每一个行人的位置。该方法采用物体检测策略，包括：区域建议和区域分类，以求达到更好的精度。此外，该方法提出位置敏感打分图，可以考虑到平移不变性，对目标的平移做出准确响应。通过已有的模型，本发明实施例通过该模型得到待检测视频中每一个行人的精确位置及矩形框。

[0091] 本发明实施例的一种实现方式中，提取时空特征中的方向特征，得到每一个行人的人体朝向，包括：

[0092] 通过卷积神经网络提取时空特征中的方向特征，得到每一个行人的人体朝向。

[0093] 具体的，卷积神经网络中的全连接层在卷积神经网络中起到“分类器”的作用，主要是对数据降维。由于卷积神经网络输出的信息中有冗余，去掉冗余信息有助于提高网络效率。因此，可选的，本发明实施例中，将输出的高维特征经过全连接层进行处理，输出8维的数据，该8维数据即可表示人体朝向。

[0094] 相应于上述方法实施例，本发明实施例还公开了一种基于深度学习的人体朝向预测装置，参见图4，图4为本发明实施例的基于深度学习的人体朝向预测装置的结构图，包括：

[0095] 位置获取模块401，用于获取待检测视频对应的帧序列的每一帧中每一个行人的位置。

[0096] 空间特征提取模块402，用于根据位置和预先建立的行人时空特征预测模型，通过卷积神经网络提取每一个行人的空间特征。

[0097] 时空特征获取模块403，用于根据空间特征和行人时空特征预测模型，通过门结构的循环神经网络提取帧序列的时间特征，得到每一个行人的时空特征。

[0098] 人体朝向预测模块404，用于提取时空特征中的方向特征，得到每一个行人的人体朝向。

[0099] 本发明实施例的基于深度学习的人体朝向预测装置，通过获取待检测视频对应的帧序列的每一帧中每一个行人的位置，根据位置和预先建立的行人时空特征预测模型，通过卷积神经网络提取每一个行人的空间特征。根据空间特征和行人时空特征预测模型，通过门结构的循环神经网络提取帧序列的时间特征，得到每一个行人的时空特征。提取时空特征中的方向特征，得到每一个行人的人体朝向。本发明实施例通过行人空间特征的历史连续变化信息来辅助当前帧的预测，提高了人体朝向预测的准确性。

[0100] 需要说明的是，本发明实施例的装置是应用上述基于深度学习的人体朝向预测方法的装置，则上述基于深度学习的人体朝向预测方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

[0101] 可选的，本发明实施例的基于深度学习的人体朝向预测装置，还包括：

[0102] 预测值计算模块，用于在对人体朝向数据库进行训练时，通过卷积神经网络和门结构的循环神经网络计算人体朝向数据库中每一张图片的人体朝向预测值。

[0103] 偏差计算模块，用于计算人体朝向预测值与人体朝向真实值的偏差。

[0104] 整体偏差计算模块，用于根据权重序列损失函数：确定人体朝向数据库中所有图片的整体偏差Lwei，其中，
x′i＝xi-max(x1，...，xn)，Ln表示人体朝向数据库中的第n张图片的人体朝向的偏差，Wn表示权重损失函数的权重，xi表示第i张图片的空间特征。

[0105] 循环执行模块，用于在判断整体偏差Lwei大于或等于预设阈值时，重新对人体朝向数据库进行训练，返回通过卷积神经网络和门结构的循环神经网络计算人体朝向数据库中每一张图片的人体朝向预测值的步骤，直至整体偏差Lwei小于预设阈值。

[0106] 模型建立模块，用于在判断整体偏差Lwei小于预设阈值时，建立行人时空特征预测模型。

[0107] 可选的，时空特征获取模块具体用于，如果t-1时刻门结构的循环神经网络模型输出的时空特征为ht-1，t时刻门结构的循环神经网络模型输入的空间特征为xt，[0108] 根据公式：

[0109] zt＝sigmoid(Wzxt+Uzht-1+bz)，

[0110]

[0111] rt＝sigmoid(Wrxt+Urht-1+br)，确定t时刻门结构的循环神经网络模型输出的时空特征ht，

[0112] 其中，zt表示t时刻更新门的输出结果，rt表示t时刻重置门的输出结果，更新门、重置门和隐藏层位于门结构的循环神经网络模型中，表示中间变量，⊙表示向量之间的点乘，Wz表示更新门的空间特征xt的权重，Uz表示更新门的时空特征ht-1的权重，bz表示更新门的惩罚量，W表示隐藏层的空间特征xt的权重，U表示隐藏层rt和ht-1的点乘的权重，bh表示隐藏层的惩罚量，Wr表示重置门的空间特征xt的权重，Ur表示重置门的ht-1的权重，br表示重置门的惩罚量。

[0113] 可选的，位置获取模块具体用于，通过基于区域的全卷积网络R-FCN提取每一个行人的位置。

[0114] 可选的，人体朝向预测模块具体用于，通过卷积神经网络提取时空特征中的方向特征，得到每一个行人的人体朝向。

[0115] 需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

[0116] 本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

[0117] 以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

一种基于深度学习的人体朝向预测方法及装置转让专利

申请号 : CN201710282729.6

文献号 : CN107122736B

文献日 : 2020-06-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 马华东 , 刘武 , 刘培业

申请人 : 北京邮电大学

摘要 :

权利要求 :

说明书 :