基于立体视觉的对象聚集检测方法和装置转让专利

申请号 : CN201510244490.4

文献号 : CN106296721B

文献日 : 2019-01-25

提供了基于立体视觉的对象聚集检测方法和装置。获取目标场景的当前帧输入图像、在当前帧之前预定时间间隔的先前帧输入图像以及相应的深度信息；从当前帧和先前帧的输入图像中提取对应于检测对象的前景像素，根据相应的深度信息，将对应于检测对象的前景像素投影到地平面以获得包括前景投影区块的前景投影图；根据在当前帧和先前帧的输入图像中的对应于检测对象的前景像素的图像特征的差别，在地平面上投影表示检测对象的运动的运动前景投影区块以获得运动前景投影图；利用所述运动前景投影区块腐蚀所述前景投影区块，以获得静止前景投影区块；根据所获得的静止前景投影区块判断是否存在对象聚集。由此，能够实现高效并且准确的实时检测。

1.一种基于立体视觉的对象聚集检测方法，包括：获取步骤，获取目标场景的当前帧输入图像、在当前帧之前预定时间间隔的先前帧输入图像以及相应的深度信息；

前景投影步骤，从当前帧和先前帧的输入图像中提取对应于检测对象的前景像素，根据相应的深度信息，将对应于检测对象的前景像素投影到地平面以获得包括前景投影区块的前景投影图；

运动前景投影步骤，根据在当前帧和先前帧的输入图像中的对应于检测对象的前景像素的图像特征的差别，在地平面上投影表示检测对象的运动的运动前景投影区块以获得运动前景投影图；

腐蚀步骤，利用所述运动前景投影区块腐蚀所述前景投影区块，以获得静止前景投影区块；以及判断步骤，根据所获得的静止前景投影区块判断是否存在对象聚集。

2.如权利要求1所述的方法，其中，所述运动前景投影步骤包括：对所述当前帧和先前帧的输入图像的图像特征进行帧差操作；

利用相应的深度信息将帧差操作的结果转换为三维世界坐标系中的点云；

将该点云投影到地平面上以生成差分投影图；以及对所述差分投影图和所述前景投影图进行像素与操作，以生成运动前景投影区块。

3.如权利要求1所述的方法，其中，所述运动前景投影步骤包括：利用相应的深度信息将在当前帧和先前帧的输入图像中所提取的检测对象的前景像素分别转换为三维世界坐标系中的点云；

将该三维世界坐标系的空间均分为多个三维立方体；

统计每一个立方体中对应于当前帧和先前帧的点云的图像特征的直方图，并计算每个立方体对于当前帧和先前帧的直方图距离；

根据所述直方图距离判断每个立方体中在所述当前帧和先前帧之间是否存在运动；以及基于具有运动的立方体生成运动前景投影图。

4.如权利要求3所述的方法，其中，所述运动前景投影步骤还包括：将每一个立方体进一步划分为多个子立方体，其中，计算每个立方体中的直方图距离包括：

统计该立方体中的每个子立方体中点云的图像特征的直方图；

为每个子立方体赋予相应的权重；以及

计算对于两个时刻每个子立方体中的直方图距离，并对它们加权求和，作为该立方体的直方图距离。

5.如权利要求1-4中任意一项所述的方法，还包括：聚类步骤，用于对在所述腐蚀步骤中获得的静止前景投影区块中的邻近静止前景投影区块进行聚类，其中所述判断步骤根据聚类后的静止前景投影区块判断是否存在对象聚集。

6.如权利要求1-4中任意一项所述的方法，还包括：聚类步骤，用于在所述腐蚀步骤之前，对在所述前景投影步骤中获得的前景投影区块进行聚类，其中，在所述腐蚀步骤中，利用所述运动前景投影区块腐蚀聚类后的前景投影区块，以获得静止前景投影区块。

7.如权利要求5所述的方法，其中，所述判断步骤包括：统计所获得的静止前景投影区块中的像素的数量，以判断是否存在对象聚集。

8.如权利要求5所述的方法，其中，所述判断步骤包括：估计所获得的静止前景投影区块中的对象数量，以判断是否存在对象聚集。

9.如权利要求6所述的方法，其中，所述聚类步骤包括：根据深度信息得到对于所提取的前景像素的投影表面积图和投影高度图；

基于所述投影表面积图和投影高度图进行聚类以获得聚类后的前景投影区块。

10.一种基于立体视觉的人群聚集检测装置，包括：获取部件，获取目标场景的当前帧输入图像、在当前帧之前预定时间间隔的先前帧输入图像以及相应的深度信息；

前景投影部件，从当前帧和先前帧的输入图像中提取对应于检测对象的前景，根据相应的深度信息，将对应于检测对象的前景投影到地平面以获得包括前景投影区块的前景投影图；

运动前景投影部件，根据在当前帧和先前帧的输入图像中的对应于检测对象的前景像素的图像特征的差别，在地平面上投影表示检测对象的运动的运动前景投影区块；

腐蚀部件，利用所述运动前景投影区块腐蚀所述前景投影区块，以获得静止前景投影区块；以及判断部件，根据所获得的静止前景投影区块判断是否存在对象聚集。

基于立体视觉的对象聚集检测方法和装置

技术领域

[0001] 本发明总体上涉及图像和视频处理领域。更具体地，本发明涉及基于立体视觉实时地检测场景中是否有对象聚集的方法和装置。

背景技术

[0002] 在视频监控研究领域，公共场所的人流分析一直以来都是一个重点研究的方向，并且有着广泛的应用前景。如何更加有效地对高密度的人流进行有效地管理，防止意外事故的发生一直是人们普遍关注的社会问题。而公共场所人流分析中的一个重要方面则是人群聚集的实时检测与预警，从而可以避免诸如踩踏等悲剧的发生。另外，在很多情况下，对于某些安全敏感度高的地方，如政府部门广场等，中等或者大规模人群聚集的出现常常预示着某些异常事件的发生，应当及时通知安保人员给予干预或者密切关注。

[0003] 然而，要实现对真实场景下人员聚集的实时准确检测也存在着诸多的挑战。图1(a)和1(b)示出了拍摄于北京东直门公交枢纽视频的画面，图中高密度人群，行人与行人之间的遮挡，不规律的自然条件下光照变化等都是影响准确检测、的不利因素。目前，现有的基于视频来检测人群聚集的方法大致可被分为两大类：

[0004] 基于行人检测和跟踪的方法：这种方法完全通过单人的检测和跟踪来实现人群的聚集检测。通过人的检测结果来统计人数，而行人的状态(驻留或者运动)则是通过跟踪算法来识别的。由此可知，这一方法通常只适合于低密度人群的场景。在真实场景中，杂乱的背景，人与人之间的遮挡，以及光照的变化通常会使得检测跟踪算法失效，从而无法给出准确的结果。

[0005] 基于底层特征的方法：这种方法一般先通过建立场景的背景模型，然后利用背景减除法提取场景中的前景—行人。之后提取前景区域的特征，如前景区域的像素个数、前景区域轮廓的长度、纹理等特征作为输入，采用回归的方式估计场景中的人数。而为了区分行人的运动和静止，通常采用光流来估计。由此可见，对于人数估计，这种基于底层特征的方法对于背景的杂乱、人之间的相互遮挡、相机透视投影畸变造成的影响较为敏感；而基于光流的运动估计通常是一种耗时的操作，在没有硬件加速的情况下，很难满足实时性的需求，其运动估计效果的好坏也受制于环境中光照的变化、图像的分辨率以及人距离相机的远近等因素。

发明内容

[0006] 考虑到以上问题，希望提供能够高效并且准确地进行实时检测的对象聚集检测方法和装置。

[0007] 根据本发明的一个方面，提供了基于立体视觉的对象聚集检测方法，该方法可以包括以下步骤：获取步骤，获取目标场景的当前帧输入图像、在当前帧之前预定时间间隔的先前帧输入图像以及相应的深度信息；前景投影步骤，从当前帧和先前帧的输入图像中提取对应于检测对象的前景像素，根据相应的深度信息，将对应于检测对象的前景像素投影到地平面以获得包括前景投影区块的前景投影图；运动前景投影步骤，根据在当前帧和先前帧的输入图像中的对应于检测对象的前景像素的图像特征的差别，在地平面上投影表示检测对象的运动的运动前景投影区块以获得运动前景投影图；腐蚀步骤，利用所述运动前景投影区块腐蚀所述前景投影区块，以获得静止前景投影区块；以及判断步骤，根据所获得的静止前景投影区块判断是否存在对象聚集。

[0008] 在一个实施例中，该运动前景投影步骤可以包括：对所获得的当前帧和先前帧的输入图像的图像特征进行帧差操作；利用相应的深度信息将帧差操作的结果转换为三维世界坐标系中的点云；将该点云投影到地平面上以生成差分投影图；以及对所述差分投影图和所述前景投影图进行像素与操作，以生成运动前景投影区块。

[0009] 在另一实施例中，该运动前景投影步骤可以包括：利用相应的深度信息将在当前帧和先前帧的输入图像中所提取的人的前景像素分别转换为三维世界坐标系中的点云；将该三维世界坐标系的空间均分为多个三维立方体；统计每一个立方体中对应于当前帧和先前帧的点云的图像特征的直方图，并计算每个立方体对于当前帧和先前帧的直方图距离；根据所述直方图距离判断每个立方体中在所述当前帧和先前帧之间是否存在运动；以及基于具有运动的立方体生成运动前景投影图。

[0010] 根据本发明的另一方面，提供了基于立体视觉的人群聚集检测装置，其可以包括：获取部件，获取目标场景的当前帧输入图像、在当前帧之前预定时间间隔的先前帧输入图像以及相应的深度信息；前景投影部件，从当前帧和先前帧的输入图像中提取对应于检测对象的前景，根据相应的深度信息，将对应于检测对象的前景投影到地平面以获得包括前景投影区块的前景投影图；运动前景投影部件，根据在当前帧和先前帧的输入图像中的对应于检测对象的前景像素的图像特征的差别，在地平面上投影表示检测对象的运动的运动前景投影区块；腐蚀部件，利用所述运动前景投影区块腐蚀所述前景投影区块，以获得静止前景投影区块；以及判断部件，根据所获得的静止前景投影区块判断是否存在对象聚集。

[0011] 根据本发明的人群聚集检测方法和装置，利用深度信息将要检测的目标场景图像中的前景以及运动的前景投影在地平面上，从前景的投影图中腐蚀掉运动前景投影部分，基于由此得到的静止前景投影图来判断是否存在聚集对象，从而可以实现更加高效并且准确的实时检测。

附图说明

[0012] 图1(a)和1(b)是示出真实场景中发生的人群聚集情况的示意图；

[0013] 图2(a)和2(b)是分别示出聚集人群与路过人群的示意图；

[0014] 图3是示出根据本发明的一个实施例的人群聚集检测的方法的流程图；

[0015] 图4是示出获得前景投影图的过程的一个具体例子的示意图；

[0016] 图5是示出根据本发明的一个实施例的差分投影方法的流程图；

[0017] 图6是示出根据T-1时刻的灰度图以及T时刻的灰度图所获得的灰度差分图的示意图；

[0018] 图7是示出根据深度信息将灰度差分图中的白色像素转换为点云的示意图；

[0019] 图8是示出对差分投影图和前景投影图进行像素与操作的结果的示意图；

[0020] 图9是示出根据本发明的一个实施例的局部小立方体直方图方法的流程图；

[0021] 图10和图11是示出小立方体直方图方法中的直方图距离的示意图；

[0022] 图12是示出腐蚀操作的示意图；

[0023] 图13(a)和13(b)是示出聚类操作的示意图；

[0024] 图14是示出生成投影高度图和投影表面积图的过程的示意图；

[0025] 图15是示出基于投影表面积图和投影高度图的聚类操作的示意图；

[0026] 图16是示出根据本发明的一个实施例的人群聚集检测装置的功能框图；以及[0027] 图17是示出根据本发明的一个实施例的实现人群聚集检测的系统的硬件配置的框图。

具体实施方式

[0028] 为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

[0029] 真实场景中的人群聚集检测主要包括两个方面：人群数目的估计和人的运动估计。首先，需阐明聚集人群与路过人群之间的区别。图2(a)和(b) 分别表示了这两种人群。在图2(a)中圆圈内的人群这里称之为路过人群，尽管这些行人聚集在了一起，但是他们只是经过该区域，并没有停留下来。相反，在图2(b)中，行人聚集在了一起且在原地停留了下来，只有很小的身体晃动，我们将此图中的人群称为聚集人群，也就是本发明要检测的对象。基于上述分析可知，区分这两种人群的关键在于识别人群的运动。

[0030] 如之前所述，聚集人群常常会存在相互之间的遮挡，而传统的基于人的检测跟踪的方法是在彩色或者灰度图上进行的，缺少足够的深度信息，导致检测结果不准确。

[0031] 考虑到此，本发明提出了基于立体视觉来检测对象聚集的方法和装置，其中利用深度信息将要检测的目标场景图像中的前景以及运动的前景投影在地平面上，从前景的投影图中腐蚀掉运动前景投影部分，基于由此得到的静止前景投影图来判断是否存在聚集对象，从而可以实现更加高效并且准确的实时检测。

[0032] 图3是图示根据本发明的一个实施例的对象聚集检测方法的流程图。如图3所示，根据此实施例的检测方法300可以包括以下步骤：获取步骤S310，获取目标场景的当前帧输入图像、在当前帧之前预定时间间隔的先前帧输入图像以及相应的深度信息；前景投影步骤S320，从当前帧和先前帧的输入图像中提取对应于检测对象的前景像素，根据相应的深度信息，将对应于检测对象的前景像素投影到地平面以获得包括前景投影区块的前景投影图；运动前景投影步骤S330，根据在当前帧和先前帧的输入图像中的对应于检测对象的前景像素的图像特征的差别，在地平面上投影表示检测对象的运动的运动前景投影区块以获得运动前景投影图；腐蚀步骤S340，利用所述运动前景投影区块腐蚀所述前景投影区块，以获得静止前景投影区块；以及判断步骤 S350，根据所获得的静止前景投影区块判断是否存在对象聚集。

[0033] 在步骤S310中，获取目标场景的输入图像以及相应的深度信息。可以通过相机拍摄目标场景而获得输入图像，也可以通过网络或者任何其他途径获取输入图像。或者，该图像也可以是由摄像机拍摄的视频中的视频帧。在实时监测的情况下，该输入图像可以是通过相机实时获取的。

[0034] 本发明可以应用的输入图像包括但不限于彩色图像、灰度图像、深度图像、视差图像等等。在输入图像是深度图像或者视差图像的情况下，可以直接获得深度信息。在输入图像是彩色图像、灰度图像等的情况下，可以另外获取该输入图像的相应深度信息，比如通过双目相机对与输入图像相同的目标场景进行拍摄以生成该目标场景的深度图，从而获取深度信息，这对本领域技术人员而言是熟知的，在此不再赘述。在以下，以灰度图像作为输入图像的示例进行描述，然而，本领域技术人员很清楚，同样的处理也适用于任何其他输入图像。

[0035] 在步骤S310中所获取的输入图像包括当前帧的输入图像和先前帧的输入图像，并且获取对应于当前帧和先前帧的深度信息。以下，以人群作为检测对象的例子进行描述。

[0036] 如之前所述，检测人群聚集的一个重要方面是区分路过人群以及聚集人群，而为了判断当前帧输入图像所拍摄的目标场景中是否存在路过人群，需要参照先前帧的输入图像来判断是否存在人的运动，这将在下文对运动前景投影步骤S330的详细描述中进一步阐述。为此，需要获取当前帧和先前帧的输入图像。

[0037] 需要注意的是，在此所述的当前帧和先前帧并不是一定连续的两帧，两者可以是相差预定时间间隔的两帧。在以下的例子中，将T时刻的输入图像作为当前帧图像并且将T-1时刻的输入图像作为先前帧图像进行描述，但是，本领域技术人员很清楚，这仅仅是举例，该预定时间间隔可以取决于具体应用环境而设置。

[0038] 在步骤S320中，从所获取的当前帧和先前帧的输入图像中提取对应于人的前景像素，根据相应的深度信息，将对应于人的前景像素投影到地平面以获得包括前景投影区块的前景投影图。当前比较常用的用于提取前景的方法大都是基于背景减除的方法，其基本思路是：预先为目标场景建立一个背景模型，当开始检测时，将从当前帧提取的信息与背景模型做差分操作，将图像中差异度较大的区域判定为当前帧中的前景区域。在本发明中，以任何方式建立的背景模型均可以采用。例如，可以采用静态背景建模的方法或者是动态背景建模的方法，如混合高斯模型等。

[0039] 无论以何种方式，在从输入图像中提取了对应于人的前景像素之后，就可以根据相应的深度信息，将对应于人的前景像素投影到地平面以获得包括前景投影区块的前景投影图。例如，图4示出了获得前景投影图的过程的一个具体例子。如图4所示，可以分别利用当前帧(T时刻)和先前帧(T-1时刻)的深度信息将从当前帧提取的前景像素(T时刻的前景掩模)和从先前帧提取的前景像素(T-1时刻的前景掩模)转换为同一真实三维空间中的点云，并将这些点云投影到地平面上，从而获得前景投影图，该前景投影图中包含对于当前帧和先前帧的叠加的前景投影区块。

[0040] 如之前所述，为了检测是否存在聚集人群，应当从前景投影区块中去除对应于运动的行人(即路过人群)的部分，而为了判断是否存在人的运动，需要参照当前帧和先前帧来判断。因此，在运动前景投影步骤S330中，根据在当前帧和先前帧的输入图像中的对应于人的前景像素的图像特征的差别，在地平面上投影表示人的运动的运动前景投影区块以获得运动前景投影图。

[0041] 本发明可以应用的前景像素的图像特征的示例包括但不限于颜色特征、灰度特征等等。图像中的任意前景像素点的这些特征在当前帧和先前帧之间如果存在一定的变化，则表明该前景像素点可能存在运动。利用相应的深度信息将所有存在运动的像素点投影到地平面上，就能够得到表示人的运动的运动前景投影区块，从而获得运动前景投影图。

[0042] 以下，将参照具体示例详细描述本发明所提出的获得运动前景投影图的方法。

[0043] 图5示出了根据本发明的一个实施例的差分投影方法的流程图。如图5 所示，该差分投影方法500可以包括以下步骤：步骤S510，对所获得的当前帧和先前帧的输入图像的图像特征进行帧差操作；步骤S520，利用相应的深度信息将帧差操作的结果转换为三维世界坐标系中的点云；步骤S530，将该点云投影到地平面上以生成差分投影图；以及步骤S540，对所述差分投影图和所述前景投影图进行像素与操作，以生成运动前景投影区块。

[0044] 在步骤S510中，可以对所获得的当前帧和先前帧的输入图像按像素进行图像特征的帧差操作。在步骤S310中所获得的输入图像为灰度图像的情况下，可以采用像素的灰度值进行帧差操作。然后，对输入图像中的每个像素的灰度值之差进行阈值化，也就是说，对灰度值之差大于等于预定阈值的像素，可以将其取为值1，而对于对灰度值之差小于该预定阈值的像素，可以将其取为值0，由此可以获得一幅二值化的图像，在此将其称之为灰度差分图。

[0045] 图6示出了根据T-1时刻的灰度图以及T时刻的灰度图所获得的灰度差分图的示意图。在该图中的白色像素即阈值化之后取值为1的像素，表明与该像素对应的点在T-1时刻以及T时刻之间存在运动。图6所示的这三幅图中的圆形框标记出了聚集人群在图像中的位置。因为聚集人群较之行走的人相对静止，将他们的对应区域做前后帧的像素差分操作所得的差值较小，因此，选取一个合适的阈值，在阈值化后的灰度差分图中将不会有对应于聚集人群区域的白色像素。该阈值可以由本领域技术人员根据经验而设置，或者取决于具体应用场景而设置。

[0046] 需要注意的是，虽然在此以灰度图为例进行了具体描述，但是该差分操作同样适合于其他类型的输入图像，比如彩色图像、深度图像、视差图像等等，相应地，用于进行帧差操作的图像特征可以是颜色信息、深度信息、视差信息等等。另外，在阈值化中所使用的[0047] 在步骤S520中，利用相应的深度信息将帧差操作的结果转换为三维世界坐标系中的点云。例如，仍以上述的灰度差分图为例，根据T-1时刻以及T 时刻的深度信息，可以将阈值化后的灰度差分图中的白色像素点投影成为三维世界坐标系中的点云。图7示出了根据深度信息将灰度差分图中的白色像素转换为点云的示意图。

[0048] 然后，在步骤S530中，将这些点云投影到三维世界坐标系中的地平面上以生成差分投影图。图7中还示出了根据上述的灰度差分图而获得的差分投影图。

[0049] 在步骤S540中，对所述差分投影图和所述前景投影图进行像素与操作，以生成运动前景投影区块。如上所述，二值化的差分投影图中的白色像素区域表示可能存在行人的运动，且其运动幅度超过了预定阈值从而过滤掉静止人群中一些微小的身体摆动等。在步骤S320中所得的前景投影图中的前景投影区块代表投影图视角下的潜在的人群聚集区域，是用于检测聚集人群的候选区域。基于上述两幅图像，对其相应的每个像素做“与”操作，得到另一幅图，在此称为运动前景投影图。

[0050] 基于差分投影图和前景投影图进行像素与操作的原因如下。在步骤S510 中的帧差操作是在当前帧和先前帧的整幅输入图像上进行的，这样可能引入由于环境光照的变化导致的前后两帧图像发生变化，例如树枝的摇晃等。因此，将先前所获得的前景投影区块与在步骤S530中适合的差分投影图进行逻辑“与”操作可以滤去由于非行人所导致的运动前景投影图上的运动区域。

[0051] 图8是示出对差分投影图和前景投影图进行像素与操作的结果的示意图。图8中的圆形框示出了一个聚集的人群，通过如此进行的像素“与”操作，前景投影图下对应于聚集行人的投影区块被帧差投影图“移除”，从而可以得到代表在鸟瞰视角下的运动前景投影图。

[0052] 运动前景投影图反映的是行人在鸟瞰图下的运动区域，且通过深度进行归一化后，运动区域的大小与人的远近无关，这将有利于提高人群聚集检测的准确度。

[0053] 由此，根据该差分投影方法500，获得当前帧和先前帧图像中的像素的图像特征的变化，利用相应的深度信息将具有图像特征变化的像素点转换为三维空间中的点云，并将这些点云投影到地平面上从而获得运动前景投影图。

[0054] 然而，根据本发明的另一实施例，可以首先将当前帧和先前帧图像中的前景像素投影为到三维空间中的点云，根据三维空间中的点云的图像特征在当前帧和先前帧之间的变化来确定运动前景投影区块。以下，参考图9描述根据此实施例的局部小立方体直方图方法。

[0055] 如图9所示，该局部小立方体直方图方法可以包括以下步骤：步骤 S910，利用相应的深度信息将在当前帧和先前帧的输入图像中所提取的人的前景像素分别转换为三维世界坐标系中的点云；步骤S920，将该三维世界坐标系的空间均分为多个三维立方体；步骤S930，统计每一个立方体中对应于当前帧和先前帧的点云的图像特征的直方图，并计算每个立方体对于当前帧和先前帧的直方图距离；步骤S940，根据所述直方图距离判断每个立方体中在所述当前帧和先前帧之间是否存在运动；以及步骤S950，基于具有运动的立方体生成运动前景投影图。

[0056] 图10和图11是示出该小立方体直方图方法中的直方图距离的示意图。在图10和图11的左图中分别示出了在T-1时刻以及T时刻的目标场景中的两个人，并且图10和图11中的左起第二图分别示出了在T-1时刻以及T时刻这两个人在三维世界坐标系中的点云，并且该三维世界坐标系的空间被均分为多个三维立方体。

[0057] 在步骤930中，统计每一个立方体中对应于当前帧和先前帧的点云的图像特征的直方图。例如，在输入图像是灰度图像的情况下，统计每个立方体中的点云的灰度值，以获得灰度直方图。在另一例子中，在输入图像是彩色图像的情况下，可以统计每个立方体中的点云的颜色值(比如分别统计R、G、 B三通道的颜色值)，以获得颜色直方图。当然，可以统计的图像特征不限于此。

[0058] 在具体应用时，考虑到人的头肩等较高部位被遮挡住的可能性较小，而腿脚等较低部位被遮挡的可能性较大，对每一个小的立方体，可以进一步将其划分为了多个子立方体，为每个子立方体赋予不同的权值，通常位于高处的子立方体将拥有较大的权重，而低处的赋予较小的权值。然后，分别统计落在每个子立方体中点的颜色直方图。

[0059] 图10和图11中的左起第三图分别示出了将每个立方体自上至下划分为三个子立方体，图10和图11中的左右图分别示出了统计得到在T-1时刻以及T时刻的每个子立方体的灰度直方图以及为每个子立方体分配的权值Wh、 Wm和Wl。其中，Wh>Wm>Wl，并且Wh+Wm+Wl＝1。

[0060] 由图10及图11可以看出，在T-1时刻，左边的人正在穿过该三维图中的小圆圈所标记的立方体空间，而在T时刻，左边的人已经穿过该空间，而右边的人正在穿过该空间。由于两人所穿衣服的颜色不同，而导致在T-1时刻和T时刻该立方体中的每个子立方体中的点云的颜色直方图发生了改变。或者，反映在灰度图上，在T-1时刻和T时刻该立方体中的每个子立方体的点云的灰度改变，导致灰度直方图也发生变化。

[0061] 因此，我们计算这两个时刻每个小立方体中的多个相应子立方体的直方图之间的距离，按照权值对它们求和，作为该立方体在这两个时刻之间的直方图距离D，如以下公式(1)所示：

[0062] D＝Wh×Dist(HisthighVo,lT,HisthighVo,lT+1)+Wm×Dist(HistmidVol,T,HistmidVol,T+1)+Wl×Dist(HistlowVol,T,HistlowVol,T+1) (1)

[0063] 其中，参数Wh、Wm和Wl分别代表分配给小立方体中的上中下三个子立方体的权重，Hist代表每个子立方体中的直方图，而Dist(·)则表示求两个直方图之间的距离。对于颜色直方图，可以通过计算在T-1时刻以及T时刻相应子立方体的颜色信息的统计值之差作为直方图距离，类似地，对于灰度直方图，可以通过计算在T-1时刻以及T时刻相应子立方体的灰度信息的统计值之差作为直方图距离。

[0064] 对于静止的行人，由于其所占据的小立方体中的点云的图像特征变化较小，因此按照以上公式(1)所计算出来的直方图距离的值将较小；相反，对于路过的行人，该直方图距离值将会较大。也就是说，直方图距离可以被用作一个衡量是否有行人运动的指标，用于区分聚集人群或是路过人群。

[0065] 因此，在步骤S940中，可以根据所述直方图距离判断每个立方体中在当前帧和先前帧之间是否存在运动。例如，可以预先设置一个阈值，对于直方图距离大于等于该阈值的立方体，认为其相应的前景像素在先前帧与当前帧之间存在运动，而对于直方图距离小于该阈值的立方体，认为其相应的前景像素在先前帧与当前帧之间不存在运动。

[0066] 由此，在步骤S950中，可以根据具有运动的立方体生成运动前景投影图。例如，可以将具有运动的每个立方体投影在三维世界坐标系的地平面上作为运动前景投影区块，由此获得运动前景投影图。

[0067] 需要注意的是，虽然在以上示例中将每个小立方体划分为三个子立方体，但这仅仅是一个示例，在其他例子中，可以将每个小立方体划分为更多或者更少的子立方体，或者，也可以不划分小立方体而直接统计每个小立方体的图像特征直方图。

[0068] 根据以上方法，将当前帧和先前帧图像中的前景像素投影为到三维空间中的点云，根据三维空间中的点云的图像特征在当前帧和先前帧之间的变化来确定运动前景投影区块。

[0069] 无论是根据上述实施例的差分投影方法500还是根据本实施例的局部小立方体直方图方法，都是利用深度信息将人的运动反映在鸟瞰视角下的投影图上，由此克服了人与人之间的相互遮挡、人距离相机的远近等因素的影响，能够准确地识别人的运动。

[0070] 由此，在步骤S330中，根据在当前帧和先前帧的输入图像中的对应于人的前景像素的图像特征的差别，在地平面上进行投影，获得运动前景投影图。

[0071] 接下来，回到图3，在腐蚀步骤S340，利用所获得的运动前景投影区块腐蚀在步骤S320中所获得的前景投影区块，以获得静止前景投影区块。

[0072] 在此，可以将腐蚀操作定义为：将前景投影图上的像素设为黑色(即值为0)，如果其在运动前景投影图上的对应像素为白色(即其值为非0)。图 12示出了腐蚀操作的示意图。经此操作过后，已经从前景投影区块中移除了运动前景部分，因此将通过腐蚀操作而获得的区块称为静止前景投影区块，将经过腐蚀操作后的投影图称为静止前景投影图。在该静止前景投影图中，非0像素所代表的区域(即静止前景投影区块)表示有静止的行人存在，需要进一步判断这些静止的行人是否其构成聚集人群。

[0073] 因此，在步骤S350中，根据所获得的静止前景投影区块判断是否存在人群聚集。例如，在判断之前，可以对在步骤S340中所获得的静止前景投影区块中的邻近静止前景投影区块进行聚类，然后根据聚类后的静止前景投影区块判断是否存在人群聚集。图13(a)和13(b)示出了聚类操作的示意图。在图13(a)所示的聚类前的静止前景投影图中的静止前景投影区块1、2在经过聚类操作后被聚类为同一静止前景投影区块1’，如图13(b)所示。在此，不限制可以采用的聚类方法，任何不需要预先指定聚类数目的聚类方法均可以采用，比如连通域分析方法、meanshift算法等。

[0074] 在以上例子中，描述了在腐蚀操作之后对静止前景投影区块进行聚类操作，然而，可选地，也可以在腐蚀操作之前进行聚类操作。具体地，可以对在前景投影步骤S320中所获得的前景投影区块进行聚类以获得聚类后的前景投影区块，然后，在腐蚀步骤S340中，可以利用运动前景投影区块腐蚀聚类后的前景投影区块，以获得静止前景投影区块。

[0075] 例如，可以利用本领域中常用的投影高度图和投影表面积图进行前景投影区块的聚类。以下首先简要介绍投影高度图和投影表面积图，它们的生成过程如图14所示。具体地，可以从双目摄像机获取目标场景的颜色图和深度图后，通过背景减除法提取前景像素，然后把提取到的前景像素投影到三维世界坐标系中，并且将世界坐标系沿垂直于XOZ平面的方向分成等底面积的小立方体，称之为BIN,然后基于BIN，生成这两种图：

[0076] 投影高度图：统计落入每个BIN中的最高点的高度，反映在图上为：高度越高，亮度越亮；

[0077] 投影表面积图：保存的是落入每个BIN中的像素点的个数，反映在图上为：点数越多，亮度越亮。

[0078] 有关投影视图的更多细节参见T.Darrel于2001年的论文“Plan-view trajectory estimation with dense stereo background model”以及Michael Harville 于2003年的论文“Stereo Person Tracking with Adaptive Plan-View Templates of Height and Occupancy Statistics”。

[0079] 由此，在步骤S320中，对于所提取的前景像素，可以利用深度信息得到其投影表面积图和投影高度图，基于该投影表面积图和投影高度图做聚类操作以获得聚类的前景投影区块。图15示出了基于投影表面积图和投影高度图的该聚类操作的示意图。如图15所示，获得T-1时刻和T时刻的前景掩膜，以及这两时刻相应的深度图，将前景掩膜转换成三维空间中的点云并投影到地平面，进而生成投影表面积图和投影高度图。基于这两种统计特征图，可以获得鸟瞰图下的前景投影区块聚类结果，如图15中最右侧图所示。

[0080] 回到步骤S350，在获得静止前景投影区块后，可以基于待判断的静止前景投影区块中的像素的数量来判断该静止前景投影区块是否是人群聚集区域。

[0081] 例如，可以统计每个待判断的静止前景投影区块中的像素的数量，并将每个待判断的静止前景投影区块中的像素的数量与预先设置的像素数量阈值比较，当该静止前景投影区块中的像素的数量大于等于该阈值时，则判断该静止前景投影区块中存在人群聚集。对于该像素数量阈值，可以由本领域技术人员根据具体应用情况或者要检测的聚集程度而设置。

[0082] 举例而言，如果要检测10人以上的人群聚集，则可以设置与10个人对应的像素数量阈值，比如100个像素，当待判断的静止前景投影区块中的像素的数量大于等于100个像素时，则判断该静止前景投影区块中存在10人以上的人群聚集。当然，这仅仅是举例，在实际应用时，本领域技术人员可以根据经验设置像素数量阈值，并且对于不同的人群密集程度检测要求，可以设置不同的像素数量阈值。

[0083] 在另一例子中，可以估计待判断的静止前景投影区块中的人数，以判断是否存在人群聚集。例如，可以利用回归模型方法来估计静止前景投影区块中的人数。具体地，可以提取该静止前景投影区块的相关特征，如块的面积大小，周长等，作为已经建立的关于人数与这些所提取特征的回归模型的输入，由此估计人数。当然，用于估计人数的方法不限于采用基于底层特征回归的方法，并且本发明可以采用任何其他能够估计人数的方法，比如可以将静止前景投影区块中的投影点反投回图像中从而采用分割的方法来实现人数的估计。如果估计的待判断的静止前景投影区块中的人数超过预定阈值，例如10人，则认为存在人群聚集。

[0084] 更进一步地，为了进一步辨别人群密集程度以便做出相应的应对措施，还可以同时设置几个不同的风险度阈值。例如，可以分别设置低风险级别阈值(例如10人)、中等风险级别阈值(例如50人)、高风险级别阈值(例如 100人)等等，当估计的人数大于低风险级别阈值而小于中等风险级别阈值时，可以输出判断结果并发出提醒，表明存在人群聚集并需要持续关注其动态。当估计的人数大于中等风险级别阈值而小于高等风险级别阈值时，可以发出预警表明存在大量人群聚集，可能需要进行人流限制或者其他干预措施以避免人群进一步聚集。而当估计的人数大于高风险级别阈值时，可以立即发出警告，表明目标场所中人群密集程度高，可能存在安全隐患，需要立即进行疏散以免引发安全问题。

[0085] 由此，不但能够判断目标场景中是否存在人群聚集，还能够判断人群聚集程度，以便能够针对不同的人群密集程度采取不同的应对措施。

[0086] 从而，无论是对腐蚀操作之前的前景投影区块进行聚类操作并对聚类后的前景投影区块进行腐蚀操作以获得静止前景投影区块，还是对经过腐蚀操作而获得的静止前景投影区块进行聚类操作以获得聚类后的静止前景投影区块，在步骤S350中，基于所获得的静止前景投影区块判断是否存在人群聚集，并输出判断结果。

[0087] 由此，根据本发明的人群聚集检测方法300，利用深度信息将要检测的目标场景图像中的前景以及运动的前景投影在地平面上，从前景的投影图中腐蚀掉运动前景投影部分，基于由此得到的静止前景投影图来判断是否存在聚集人群。此方法不易受环境的光照变化等的影响，并且可以有效避免由于人距离相机的远近不同以及相互遮挡引起的运动检测不准确的问题，从而可以实现高效并且准确的实时检测。

[0088] 以下参考图16描述根据本发明的另一实施例的基于立体视觉的人群聚集检测装置。如图16所示，该人群聚集检测装置1600包括：获取部件1610，获取目标场景的当前帧输入图像、在当前帧之前预定时间间隔的先前帧输入图像以及相应的深度信息；前景投影部件1620，从当前帧和先前帧的输入图像中提取对应于人的前景，根据相应的深度信息，将对应于人的前景投影到地平面以获得包括前景投影区块的前景投影图；运动前景投影部件1630，根据在当前帧和先前帧的输入图像中的对应于人的前景像素的图像特征的差别，在地平面上投影表示人的运动的运动前景投影区块；腐蚀部件1640，利用所述运动前景投影区块腐蚀所述前景投影区块，以获得静止前景投影区块；以及判断部件1650，根据所获得的静止前景投影区块判断是否存在人群聚集。

[0089] 在一个实施例中，该运动前景投影部件1630可以对所述当前帧和先前帧的输入图像的图像特征进行帧差操作，利用相应的深度信息将帧差操作的结果转换为三维世界坐标系中的点云，将该点云投影到地平面上以生成差分投影图，并对所述差分投影图和所述前景投影图进行像素与操作，以生成运动前景投影区块。

[0090] 在另一实施例中，该运动前景投影部件1630可以利用相应的深度信息将在当前帧和先前帧的输入图像中所提取的人的前景像素分别转换为三维世界坐标系中的点云，将该三维世界坐标系的空间均分为多个三维立方体，统计每一个立方体中对应于当前帧和先前帧的点云的图像特征的直方图，并计算每个立方体对于当前帧和先前帧的直方图距离，根据所述直方图距离判断每个立方体中在所述当前帧和先前帧之间是否存在运动，基于具有运动的立方体生成运动前景投影图。

[0091] 可选地，该运动前景投影部件1630可以将每一个立方体进一步划分为多个子立方体，统计该立方体中的每个子立方体中点云的图像特征的直方图，为每个子立方体赋予相应的权重，并计算对于所述两个时刻每个子立方体中的直方图距离，并对它们加权求和，作为该立方体的直方图距离。

[0092] 在另一实施例中，该人群聚集检测装置1600还可以包括聚类部件(未示出)，用于对该腐蚀部件1640所获得的静止前景投影区块中的邻近静止前景投影区块进行聚类，并且所述判断部件1650可以根据聚类后的静止前景投影区块判断是否存在人群聚集。

[0093] 在另一实施例中，该聚类部件可以在所述腐蚀部件1640进行腐蚀操作之前，对所述前景投影部件1620所获得的前景投影区块进行聚类，并且所述腐蚀部件可以利用所述运动前景投影区块腐蚀聚类后的前景投影区块，以获得静止前景投影区块。例如，该聚类部件可以根据深度信息得到对于所提取的前景像素的投影表面积图和投影高度图，并基于所述投影表面积图和投影高度图进行聚类以获得聚类后的前景投影区块。

[0094] 作为一个例子，该判断部件1650可以统计所获得的静止前景投影区块中的像素的数量，以判断是否存在人群聚集。或者，该判断部件1650可以估计所获得的静止前景投影区块中的人数，以判断是否存在人群聚集。

[0095] 根据本发明的人群聚集检测装置1600，利用深度信息将要检测的目标场景图像中的前景以及运动的前景投影在地平面上，从前景的投影图中腐蚀掉运动前景投影部分，基于由此得到的静止前景投影图来判断是否存在聚集人群。此方法不易受环境的光照变化等的影响，并且可以有效避免由于人距离相机的远近不同以及相互遮挡引起的运动检测不准确的问题，从而可以实现高效并且准确的实时检测。

[0096] 接下来，参考图17描述根据本发明的一个实施例的实现人群聚集检测的系统的硬件配置。如图17所示，该检测系统1700包括：输入设备1710，用于从外部输入将要处理的图像，例如，该图像可以包括但不限于彩色图像、灰度图像、深度图像、视差图像等等，该输入设备1710可以包括例如键盘、鼠标、以及通信网络及其所连接的远程输入设备等等；处理设备1720，用于实施上述的按照本发明实施例的人群聚集检测方法，或者实施为上述的按照本发明实施例的人群聚集检测装置，例如处理设备1720可以包括计算机的中央处理器或其它的具有处理能力的芯片等等，可以连接到诸如因特网的网络 (未示出)，根据处理过程的需要而从网络获取需要的数据等；输出设备1730，用于向外部输出上述人群聚集检测结果(比如是否存在人群聚集以及人群聚集的规模等)，该输出设备1730可以包括例如显示器、打印机、以及通信网络及其所连接的远程输出设备等等；以及存储设备1740，用于以易失或非易失的方式存储上述处理过程所涉及的图像、数据、所获得的结果、命令以及中间数据等等，该存储设备1740可以包括例如随机存取存储器(RAM)、只读存储器(ROM)、硬盘、或半导体存储器等等的各种易失或非易失性存储器。

[0097] 当然，为了简化，图17中仅示出了该系统中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，系统1700还可以包括任何其他适当的组件。

[0098] 根据本发明，提供了人群聚集检测方法和装置，其中，将所获得的目标场景的图像中的对应于人的前景像素投影到地平面以获得包括前景投影区块，根据对应于人的前景像素的图像特征在当前帧和先前帧中的差别，在地平面上投影表示人的运动的运动前景投影区块，利用运动前景投影区块腐蚀前景投影区块以获得静止前景投影区块，根据所获得的静止前景投影区块判断是否存在人群聚集。由此，可以不易受环境的光照变化等的影响，并且可以有效避免由于人距离相机的远近不同以及相互遮挡引起的运动检测不准确的问题，从而实现高效并且准确的实时检测。

[0099] 在投影运动前景投影区块时，本发明提出了差分投影方法以及小立方体直方图方法，其中利用深度信息将存在人的运动的区域投影在地平面上，从而能够将聚集人群与路过人群区分开，为随后的聚集人群的检测打下良好基础。

[0100] 虽然在以上实施例中以人作为检测对象进行描述，但是本发明提出的聚集检测方法的检测对象不限于人。

[0101] 本公开中涉及的装置、设备、系统的方框图仅作为例示性的例子，并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

[0102] 本公开中的步骤流程图以及以上方法描述仅作为例示性的例子，并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤。如本领域技术人员将认识到的，可以按任意顺序进行以上实施例中的步骤的顺序。诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序；这些词语仅用于引导读者通读这些方法的描述。此外，例如使用冠词“一个”、“一”或者“该”对于单数的要素的任何引用不被解释为将该要素限制为单数。

[0103] 提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

基于立体视觉的对象聚集检测方法和装置转让专利

申请号 : CN201510244490.4

文献号 : CN106296721B

文献日 : 2019-01-25

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王千 , 范圣印 , 王鑫 , 乔刚 , 诸加丹

申请人 : 株式会社理光

摘要 :

权利要求 :

说明书 :