一种基于颜色拓扑结构的行人搜索识别方法转让专利

申请号 : CN201410344623.0

文献号 : CN104077605B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 胡海苗曾国栋耿艳兵李波

申请人 : 北京航空航天大学

摘要 :

本发明提出了一种基于颜色拓扑结构的行人搜索识别方法,主要包括四个步骤:第一,将行人图像通过均值漂移方法聚类分割成多个子区域;第二,计算每个子区域的中心点坐标、确定相邻子区域,并计算每个子区域和相邻子区域的梯度及颜色平均值的差值和每个子区域的权重,生成颜色拓扑结构特征;第三,对颜色拓扑结构特征作距离度量,并结合LBP、HOG特征基于EMD度量算法得到的度量值进行加权融合;最后,将所有候选行人图像和目标行人图像的相似性度量值按降序排序,将相似性最高的行人图像出现过的视频片段作为搜索结果返回。本发明能获得较高识别准确率,适用于室外远距离视频监控应用中的行人搜索识别。

权利要求 :

1.一种基于颜色拓扑结构的行人搜索识别方法,其特征在于包括如下步骤:

(1)采用均值漂移方法对行人图像进行分割,划分成多个互不重叠的子区域,使得颜色相近的像素点处于同一个子区域中;

(2)计算每个子区域的中心点坐标,确定子区域在水平方向和垂直方向上的相邻子区域;

(3)计算子区域与相邻子区域中心点之间的梯度、颜色平均值的差值和每个子区域的权值,分别对所有中心点之间的梯度和颜色平均值的差值进行加权直方图统计;最后将中心点之间的梯度、颜色平均值的差值和颜色平均值的加权直方图组合成颜色拓扑结构特征;

(4)根据颜色拓扑结构特征,并结合局部二值模式(LBP)、方向梯度直方图(HOG)特征,分别计算目标行人图像和所有候选行人图像之间的相似性度量值,对计算得到的相似性度量值降序排列,将相似性最高的行人图像所在的视频片段作为搜索结果返回;

所述步骤(3)中,计算子区域与相邻子区域中心点之间的梯度通过以下公式计算得到:

其中Rt代表每个子区域, 代表相邻子区域;cent_x(R)和cent_y(R)代表子区域R中心点的水平和垂直坐标;Angle(Rt)代表子区域和相邻子区域中心点之间的梯度,处于区间(0,180°)之中;

所述步骤(3)中,颜色平均值的差值通过以下公式计算得到:

其中avg_H(R),avg_S(R),avg_V(R)分别代表子区域R上所有像素点在颜色空间HSV上的平均值;H_change(Rt),S_change(Rt),V_change(Rt)是子区域和相邻子区域的颜色平均值的差值,处于区间(-255,255)之中。

2.如权利要求1所述的基于颜色拓扑结构的行人搜索识别方法,其特征在于所述步骤(2)中统计每个子区域中最左边和最右边的像素点位置的平均值作为每个子区域的中心点水平坐标,统计每个子区域中最上边和最下边像素点位置的平均值作为每个子区域的中心点垂直坐标。

3.如权利要求1所述的基于颜色拓扑结构的行人搜索识别方法,其特征在于所述步骤(2)中确定子区域在水平方向和垂直方向上的相邻子区域方法为:根据子区域中心点垂直坐标的大小将所有子区域分成若干层,同一层中的子区域根据中心点的水平坐标大小从左向右排列;水平方向上的相邻子区域定义为同一层内右边紧挨着的第一个子区域,垂直方向上的相邻子区域定义为下一层中与当前子区域水平坐标最近的子区域。

4.如权利要求1所述的基于颜色拓扑结构的行人搜索识别方法,其特征在于所述步骤(4)中,对步骤(3)中组合成的颜色拓扑结构特征,根据伯明翰(Birmingham)距离进行相似性度量值计算,并与LBP、HOG特征根据EMD(Earth Mover's Distance)距离计算得到的相似性度量值进行加权融合,得到最终的相似性度量值。

说明书 :

一种基于颜色拓扑结构的行人搜索识别方法

技术领域

[0001] 本发明涉及一种面向视频监控的行人搜索识别方法,尤其涉及一种基于颜色拓扑结构的行人搜索识别方法,属于计算机视觉和模式识别领域。

背景技术

[0002] 智能视频监控技术是计算机视觉领域近年来新兴的研究方向,由于它具有非接触性,能够利用网络实现远程监控,极大减少人力和工作量,因此在城市安防、智能交通、军事侦查众多领域得到了广泛引用,具有重要的研究意义和应用前景。行人搜索识别广泛应用于指定行人搜索,多目标跟踪和跨摄像头目标接力跟踪等研究领域,是计算机视觉和模式识别领域重点关注的内容之一。
[0003] 面向视频监控的行人搜索识别主要是从已存储的视频中找出包含有指定行人目标的视频片段。主要工作流程是对输入视频和要搜索的已存储视频作运动目标检测与分割:将输入视频中检测出的行人图像作为目标行人,将要搜索的已存储视频中检测出的行人图像作为候选行人;通过对目标行人图像和候选行人图像进行相似度度量,按照距离大小进行排序并返回排名靠前的行人图像所在的视频片段。排名越靠前的行人图像和目标行人身份相同的概率越大,从而实现视频中行人的搜索识别。
[0004] 目前行人搜索识别方法主要分为基于生物特征的搜索识别和基于表观的搜索识别两种。其中基于生物特征有虹膜、指纹、人脸等,这些特征在室外监控场景中由于复杂背景的干扰、距离远都很难获取,因此不适用于室外监控的行人搜索识别。相比较而言,行人衣着的颜色、纹理等表观信息易获取且能够对行人进行较全面有效的描述,因此基于表观的行人搜索识别方法是目前主流的方法,该方法的主要工作分为图像特征提取和特征的相似度度量。
[0005] 在基于表观的行人搜索识别中,提取的特征根据类型主要划分为颜色特征和纹理特征:(1)基于颜色的特征提取。应用最广泛的颜色特征是颜色统计直方图特征,它描述了图像颜色的统计分布信息。除此之外,也有方法针对主要的颜色信息进行了统计,他们认为使用主要的几种颜色足够表达目标表观并可以忽略那些精细的颜色带来的干扰,建立了主颜色光谱直方图表示模型来构建表现模型。(2)基于纹理的特征提取。常见的纹理特征有局部二值模式LBP(Local Binary PatternC,梯度方向直方图HOG(Histogram of Oriented GradientC,灰度共生矩阵等。其中LBP和HOG是基于结构的方法,灰度共生矩阵是基于统计数据的方法,它们都通过灰度的空间相关特性来进行建模,在图像中搜索重复的模式。
[0006] 在基于表观的行人搜索识别中,相似性度量一般用各种距离公式对图像提取的特征进行度量,常见的距离度量公式有欧式距离、马氏距离、伯明翰距离等。现有方法中也常将多种特征分别进行相似性度量,并将多种特征的度量结果进行线性融合;也有方法将人划分为头部区域、上半身区域、下半身区域等多个区域分别进行相似性度量最后进行线性融合。
[0007] 在上述已有的工作基础上,行人搜索识别工作面临许多困难,诸如来自背景的干扰、遮挡、光照变化、行人姿态变化和视角变化。针对这些问题研究人员已经提出一些解决方法:例如通过提取前景区域来减少背景干扰、通过直方图均衡化等图像处理来降低光照变化的影响,通过将图像分块并提取局部区域特征来增强在行人姿态变化和视角变化情况下的识别率。尽管如此,针对视频监控中的行人搜索识别技术仍然存在以下问题:
[0008] 颜色特征在行人搜索识别领域被大多数方法所采用。实际环境中光照变化使得颜色特征不够鲁棒,将导致两方面问题:一方面,不同行人图像的颜色统计特征可能相同,使得不同行人目标被识别为相同行人目标;另一方面,同一行人不同图像的颜色统计特征可能相差很大,使得相同行人目标被识别为不同行人目标。以上问题将严重影响视频中行人身份识别的准确性。
[0009] 虽然颜色统计信息在光照变化下不足够鲁棒,但颜色在物理空间上的分布信息却可以基本保持稳定。此外,根据已有对人眼识别的研究发现:人眼识别目标是一个从全局到局部的过程。而颜色在空间上的分布信息是一种全局的高层次语义特征,是人眼识别目标过程中的重要依据。因此颜色在空间上的分布能够较为准确地描述行人的外观,有效地进行视频中行人的搜索识别。

发明内容

[0010] 本发明技术解决问题:克服现有技术的不足,提供一种新的基于颜色拓扑结构的行人搜索识别方法,该方法与当前主流方法相比可以较好地提高识别准确率,并且适用于实际的室外监控场景应用中的行人搜索识别。
[0011] 为实现上述目的,本发明采用下述技术方案。
[0012] 一种基于颜色拓扑结构的行人搜索识别方法,包括如下步骤:
[0013] (1)采用均值漂移方法对行人图像进行分割,划分成多个互不重叠的子区域,使得颜色相近的像素点处于同一个子区域中;
[0014] (2)计算每个子区域的中心点坐标,确定子区域在水平方向和垂直方向上的相邻子区域;
[0015] (3)计算子区域与相邻子区域的梯度和颜色平均值的差值,并计算每个子区域的权值,分别将所有计算得到的梯度值和颜色平均值的差值作加权直方图统计作为颜色拓扑结构特征;
[0016] (4)根据颜色拓扑结构特征,并结合局部二值模式(LBP)、方向梯度直方图(HOG)特征,分别计算目标行人图像和所有候选行人图像之间的相似性度量值,对计算得到的相似性度量值降序排列,将相似性最高的行人图像所在的视频片段作为搜索结果返回。
[0017] 如上所述的基于颜色拓扑结构的行人搜索识别方法,其特征在于所述步骤(2)中统计每个子区域中最左边和最右边的像素点位置的平均值作为每个子区域的中心点水平坐标,统计每个子区域中最上边和最下边像素点位置的平均值作为每个子区域的中心点垂直坐标。
[0018] 如上所述的基于颜色拓扑结构的行人搜索识别方法,其特征在于所述步骤(2)中为了确定哪些子区域是相邻的,本发明根据子区域中心点垂直坐标的大小将所有子区域分成若干层,同一层中的子区域根据中心点的水平坐标大小从左向右排列。水平方向上的相邻子区域定义为同一层内右边紧挨着的第一个子区域,垂直方向上的相邻子区域定义为下一行中与当前子区域水平坐标最近的子区域。
[0019] 如上所述的基于颜色拓扑结构的行人搜索识别方法,其特征在于所述步骤(3)中,和相邻子区域的梯度值通过以下公式计算得到:
[0020]
[0021]
[0022]
[0023] 其中Rt代表图像划分后的每个子区域, 代表相邻子区域;cent_x(R)和cent_y(R)分别代表子区域R的中心点水平和垂直坐标,Angle(Rt)是子区域Rt和相邻子区域 中心点的梯度。
[0024] 颜色平均值的差值通过以下公式计算得到:
[0025]
[0026]
[0027]
[0028] 其中avg_H(R),avg_S(R),avg_V(R)分别代表子区域R上所有像素点在颜色空间HSV上的平均值,H_change(Rt),S_change(Rt),V_change(Rt)是子区域Rt和相邻子区域的颜色平均值的差值。
[0029] 相邻子区域中心点的梯度统计各种梯度值出现概率得到36维特征;相邻子区域在HSV(Hue Saturation Value)三个通道的颜色平均值的差值统计各种差值出现概率得到72维特征;子区域颜色平均值统计直方图得到36维特征;颜色拓扑结构特征由相邻子区域的梯度统计直方图、颜色平均值的差值统计直方图和颜色平均值统计直方图共同组成,共144维。
[0030] 如上所述的基于颜色拓扑结构的行人搜索识别方法,其特征在于所述步骤(4)中,对目标行人图像和候选行人图像提取的颜色拓扑结构特征利用伯明翰(Birmingham)距离作相似性度量,并和LBP、HOG特征利用EMD(Earth Mover's Distance)陆地移动距离得到的度量值进行加权融合。
[0031] 为此,本发明提出了一种颜色拓扑结构的行人搜索识别方法,该方法与当前主流方法相比可以较好地提高识别准确率,并且适用于实际的室外监控场景应用中的行人搜索识别。
[0032] 即通过颜色拓扑结构来描述颜色在物理空间上的分布信息来加强搜索识别。该方法将图像通过颜色聚类分割成多个子区域,计算相邻子区域之间的梯度、色彩差值和每个子区域的权值,然后作加权直方图统计,生成颜色拓扑结构特征。对颜色拓扑结构特征进行相似性度量,并和其他特征度量值进行融合。实验结果表明,该发明可以提高行人搜索识别的准确率。

附图说明

[0033] 图1为本发明的框架图;
[0034] 图2为行人图像子区域划分示意图;
[0035] 图3为行人子区域加权匹配示意图;
[0036] 图4为行人搜索识别结果示意图;
[0037] 图5为行人搜索识别准确率比较示意图。

具体实施方式

[0038] 下面结合附图和具体实施方式对本发明作进一步的详细说明。
[0039] 如图1所示,本发明提出了一种基于颜色拓扑结构的行人搜索识别方法主要包括以下四个部分:第一,采用均值漂移方法将行人图像划分成多个互不重叠的子区域,使得颜色相近的像素点处于同一个子区域中。第二,计算每个子区域的中心点坐标,确定子区域在水平方向和垂直方向上的相邻子区域。第三,计算子区域与相邻子区域的梯度、颜色平均值的差值和每个子区域的权值,并对所有梯度值和颜色平均值的差值进行加权直方图统计生成颜色拓扑结构特征;第四,根据颜色拓扑结构特征,并结合局部二值模式(LBP)、方向梯度直方图(HOG)特征,计算目标行人图像和所有候选行人图像之间的相似性度量值。
[0040] 本发明根据不同视频中行人搜索识别易受光照、视角、姿态等变化情况下,提出了一种新的特征用于描述颜色在物理空间上的分布,即颜色拓扑结构。并利用颜色拓扑结构提出一种新的行人搜索识别方法:利用均值漂移方法将图像聚类成多个子区域,计算相邻子区域中心点的梯度和颜色平均值的差值来描述颜色在物理空间上的分布,再计算每个子区域的权值,然后作加权的直方图统计,生成描述颜色拓扑结构的特征。对颜色拓扑结构特征进行距离度量,并和其他特征度量值进行融合。
[0041] 本发明尤其适用于室外远距离监控视频中的行人搜索识别工作。
[0042] 下面展开具体说明,图1展示了根据本发明的一个实施例的方法的流程图,包括:
[0043] 首先对图像进行高斯滤波去噪,并对图像提取行人前景区域降低背景干扰。再将行人图像前景区域采用均值漂移方法进行聚类,分割为多个互不重叠的子区域,使得颜色相近的像素点处于同一个子区域中。下面具体介绍根据本发明所提供的生成颜色拓扑结构特征的具体步骤:
[0044] (1)基于相邻区域的梯度和颜色平均值的差值计算方法
[0045] 颜色拓扑结构描述的是颜色在物理空间上的分布信息,而在物理空间上的分布信息由相邻子区域的相对位置和颜色平均值的差值共同决定。为了确定哪些子区域是相邻的,本发明根据子区域中心点垂直坐标y的大小将所有子区域分成若干层,同一层中的子区域根据中心点的水平坐标x大小从左向右排列。如图2所示,一张图像被分割成9个子区域并划分成5层,其中Rt表示第i层的第j个子区域。
[0046] 相邻子区域中心点之间的梯度可以反映颜色变化在空间方向上的信息,同时梯度也已被广泛用于描述像素的空间结构和外观,因此决定采用相邻子区域中心点之间的梯度作为描述颜色拓扑结构特征的一部分。
[0047] 相邻子区域中心点之间的梯度又分为水平和垂直两个方向上的梯度。水平方向上的梯度为子区域Rt和同一层右边紧挨着的第一个子区域 中心点之间的梯度,即GradientX(Rt);垂直方向上的梯度为子区域Rt和下一行对x坐标最近的子区域 中心点之间的梯度,即GradientY(Rt)。Rt的水平和垂直方向梯度的计算方法如下所示。
[0048]
[0049]
[0050]
[0051] 其中cent_x(Rt)和cent_y(Rt)代表子区域Rt中心点的水平和垂直坐标, 代表子区域Rt水平方向和垂直方向的相邻子区域。通过计算子区域Rt和水平、垂直方向相邻的子区域的梯度Angle(Rt),并对子区域的梯度作统计直方图作为最终颜色拓扑结构特征的一部分。
[0052] 子区域中心点之间的梯度能够用来描述颜色分布在空间上的拓扑方向变化信息,但是它没有描述颜色变化的具体值。为了加强对颜色在拓扑空间上分布信息的描述,将相邻子区域颜色平均值的变化值作为特征的一部分。子区域Rt和水平、垂直方向上相邻子区域 、 (其中相邻子区域 的定义同上)的颜色平均值的差值计算如下:
[0053]
[0054]
[0055]
[0056] 其中avg_H(R),avg_S(R),avg_V(R)分别代表子区域R上所有像素点在颜色空间HSV上的平均值,最后将图像上H_change(Rt),S_change(Rt),V_change(Rt)在所有子区域水平和垂直方向上的颜色平均值的差值作统计直方图作为颜色拓扑结构特征的一部分(详见第3部分)。
[0057] (2)对每个子区域计算权重的方法
[0058] 图像分割成多个子区域后,事实上每个子区域由于颜色敏感度不同、块大小不同等因素在匹配过程中作用大小也是不同的。另一方面,不同行人可能拥有类似的颜色拓扑结构。如图3所示,三个不同行人都穿黑色的上衣,上衣中间部分是灰色,下半身整体都是黑色。如果仍旧使用原有颜色拓扑结构特征去识别,可能会导致误匹配。但可以观察到三个行人上衣中间的灰色部分是比例大小是不同的,本发明可以利用这一点来加强识别。因此通过对不同的子区域赋予不同的权值大小来提高识别准确率,即加权颜色拓扑结构(Weighted Color Topology,WCT)。
[0059] 基础的颜色拓扑结构特征对所有的子区域都采用相同的权值,没有考虑到不同子区域在匹配过程中的作用大小不同。由于一些颜色显著或者比较大的子区域在识别过程中能够更好地帮助识别,因此权重的大小和颜色的显著性及子区域大小成正比例关系。本发明将每个颜色权重大小定义为当前块的颜色与图像中所有块的颜色平均值的距离大小及块中像素点个数的乘积,如公式(5)所示:
[0060]
[0061]
[0062] 其中RM为整张图像划分的子区域集合,Rk是RM中任何一个子区域,L是所有子区域划分的层数,Ct是第t层中的子区域个数;对于一个子区域Rt,regNum(Rt)是子区域Rt的像素点个数,Sailence(Rt)是子区域Rt的显著性度量值,weight(Rt)是子区域Rt的的权重。
[0063] 计算颜色拓扑结构和计算颜色拓扑结构特征的过程基本一致,除了计算子区域Rt的权值weight(Rt)和最后的统计直方图计算过程。原有的统计直方图计算过程中,每个子区域的梯度或者颜色平均值的差值只统计一次,但在颜色拓扑结构中统计weight(Rt)次(详见第3部分)。
[0064] (3)基于加权的颜色拓扑结构特征生成
[0065] 上述相邻子区域中心点的梯度和颜色平均值的差值用来描述颜色在物理空间上的分布信息,这种包含了颜色拓扑结构信息的特征能够有效对应光照变化。
[0066] 在颜色拓扑结构特征的描述子设计中,相邻子区域中心点的梯度计算结果是0~180°,统计直方图在0~180划分18个bin(即特征为18维),水平和垂直方向上的梯度统计共为2*18=36维;相邻子区域颜色平均值在HSV(Hue Saturation Value)三通道上差值每次计算结果为-255~255。在H通道上的统计直方图在-255~255划分18个bin(即特征为18维),在S通道上的统计直方图在-255~255划分9个bin(即特征为9维),在V通道上的统计直方图在-255~255划分9个bin(即特征为9维)。之所以在H、S、V三个通道上保存的特征维数不一样,是因为在光照变化情况下色度(Hue)能够保持相对稳定,而饱和度(Saturation)、亮度(Value)则更容易受到光照变化影响,因此保存的特征维数相对较少。这样在水平和垂直方向上子区域的颜色差的统计直方图共2*(18+9+9)=72维。
[0067] 颜色统计直方图是重要的颜色特征之一,它准确地描述了不同色彩在整幅图像中所占的比例,在行人搜索识别的方法中被广泛采用。因此,在颜色拓扑结构特征中也加入颜色统计直方图:将所有子区域的颜色平均值在HSV三个通道上分别作直方图统计,而每个子区域的颜色平均值在HSV三个通道上的值都处于0~255之间。在H通道上的统计直方图在0~255划分18个bin(即特征为18维),在S通道上的统计直方图在0~255划分9个bin(即特征为9维),在V通道上的统计直方图在0~255划分9个bin(即特征为9维)。这样子区域的颜色平均值在HSV三个通道上的颜色直方图共18+9+9=36维。
[0068] 颜色拓扑结构特征由相邻子区域中心点的梯度(36维)与颜色平均值的差值(72维)和子区域颜色平均值直方图(36维)共同组成,共144维。但每个子区域在匹配过程中的作用大小是由权值定义的(参照权重计算),因此在作直方图统计过程中每个子区域统计的次数是不一样的:在没有权重的直方图统计中,每个子区域的梯度或者颜色平均值的差值只统计一次;而在加权的直方图统计中,每个子区域的梯度或者颜色平均值的差值统计weight(Rt)次。
[0069] 生成颜色拓扑结构特征之后,可以利用特征进行相似性距离度量。下面具体介绍对生成颜色拓扑结构特征距离度量和与其他度量值线性融合的具体步骤:
[0070] (1)对目标行人图像A和候选行人图像B分别提取颜色拓扑结构特征,然后采用公式(6)即伯明翰(Birmingham)距离作相似性度量。
[0071]
[0072] 其中,IA和IB分别代表目标行人图像A和候选行人图像B的颜色拓扑结构特征,L是颜色拓扑结构特征的维数,dWCST是由公式(6)计算得来的距离度量值。
[0073] (2)将颜色拓扑结构特征的距离度量值和RFSF、eSDC_knn两个算法度量值进行融合:d(IA,IB)=βRFSF·dRFSF(IA,IB)+βSDC·dSDC(IA,IB)+βWCST·dWCST(IA,IB)  (7)[0074] 在上述公式中,对dWCST和dRFSF、dSDC距离度量值进行线性加权融合得到最后的距离度量d(IA,IB)。dWCST是基于颜色拓扑结构的伯明翰距离度量,而dRFSF是由RFSF算法得到度量值,dSDC是由eSDC_knn算法得到的度量值。其中βRFSF等于0.5,βSDC等于0.3和βWCST等于0.2。dWCST、dRFSF和dSDC都属于(0,1)区间内,保证最终的d(IA,IB)仍然处于属于(0,1)区间内。
[0075] 对输入视频中目标行人图像和要搜索的已存储视频中所有候选行人图像提取颜色拓扑结构特征并进行相似性度量,并和其他度量值进行融合得到最终的度量值。按照加权的距离度量值从小到大排序,排名越靠前的图像与输入视频中目标行人图像距离越小,与输入视频中目标行人图像身份相同的概率越大。行人搜索识别结果如示意图4所示。
[0076] 将本发明提出的基于颜色拓扑结构的算法(CT)、基于加权颜色拓扑结构特征的算法(WCT)和RFSF算法(未采用颜色拓扑结构特征)进行了比对。实验在ETHZ数据集上进行,实验设置与RFSF算法相同,每次实验重复10次取平均值,最后的识别准确率由累积匹配特征(Cumulative Matching Characteristic,CMC)曲线表示。实验结果CMC曲线如图5所示,CT和WCT平均识别率高于RFSF。与RFSF算法相比,WCT算法在ETHZ数据集三个序列的首选识别率平均提高了3.67%。实验结果表明与当前其他算法相比,基于颜色拓扑结构的行人再识别算法可以有效提高识别准确率。
[0077] 以上公开的仅为本发明的具体实施例。根据本发明提供的技术思想,本领域的技术人员能思及的变化,都应落入本发明的保护范围内。