基于监控视频的非法遛狗事件检测方法、装置转让专利
申请号 : CN202110492720.4
文献号 : CN112906678B
文献日 : 2021-07-09
发明人 : 杨帆 , 冯帅 , 刘利卉 , 胡建国
申请人 : 南京甄视智能科技有限公司
摘要 :
权利要求 :
1.一种基于监控视频的非法遛狗事件检测方法,其特征在于,包括以下步骤:步骤A、对监控视频的图像帧进行狗和人的检测,如图像帧中没有检测到狗,则判断“状态正常”并返回;如果图像帧中只有狗没有人,则判断“狗未拴绳”并返回;否则,进入步骤B;
步骤B、估算图像帧中人与狗之间的距离并判断是否超过预设距离阈值,如是,则判断“狗未拴绳”并返回;否则,进入步骤C;
步骤C、从图像帧中截取包含狗的图像并输入狗拴绳识别模型,如狗拴绳识别模型的输出为“狗已拴绳”或“狗未拴绳”,则将结果输出并返回;否则,进入步骤D;所述狗拴绳识别模型为预先训练好的卷积神经网络模型,其输入为含有狗的图像,其输出为“狗已拴绳”、“狗未拴绳”及“不确定”这三个类别;所述从图像帧中截取的包含狗的图像具体为第一感兴趣区域图像和第二感兴趣区域图像,第一感兴趣区域图像为狗的检测框图像,第二感兴趣区域图像为对狗的检测框图像进行扩边所得到的图像;所述卷积神经网络模型具有两个训练样本输入分支,第一个分支用于对第一感兴趣区域图像先进行若干次卷积,然后沿卷积通道方向池化,最后将其归一化指数处理为注意力特征图;第二个分支用于对第二感兴趣区域图像先进行若干次卷积,得到与注意力特征图的尺度大小相同的多通道特征图,并用注意力特征图分别与该多通道特征图的每个通道特征图相乘,然后对所得结果进行至少一次卷积后依次进行池化、线性化及归一化指数处理;第一个分支使用包含小幅度旋转和视角变换在内的数据扩增方式训练,第二个分支使用不包含小幅度旋转和视角变换的数据扩增方式训练;
步骤D、从图像帧中找出距离狗最近的k个人,对每个人截取出同时包含狗和这个人的最大检测框,k为大于0的自然数;将所得到的k个检测框图像输入人狗关系识别模型,并根据人狗关系识别模型的输出判断“狗已拴绳”或者“狗未拴绳”;所述人狗关系识别模型为预先训练好的神经网络模型,其输入为同时包含狗和人的图片,其输出为“狗已拴绳”或者“狗未拴绳”这两个类别。
2.如权利要求1所述基于监控视频的非法遛狗事件检测方法,其特征在于,所述卷积神经网络模型为可重构卷积网络模型。
3.如权利要求1所述基于监控视频的非法遛狗事件检测方法,其特征在于,所述对狗的检测框图像进行扩边具体是指:对狗的检测框图像的上边和左、右两边进行扩边。
4.如权利要求1~3任一项所述基于监控视频的非法遛狗事件检测方法,其特征在于,所述扩边的比例为15%‑20%。
5.如权利要求1所述基于监控视频的非法遛狗事件检测方法,其特征在于,所述人狗关系识别模型由前端的局部和初步特征提取模块以及后端的全局人狗关系注意力模块组成;
所述局部和初步特征提取模块用于对输入图像进行若干次卷积,所得到的特征图作为全局人狗关系注意力模块的输入;所述全局人狗关系注意力模块为改进的Vision Transformer模型,其对所输入的特征图进行有重叠的分割。
6.如权利要求1所述基于监控视频的非法遛狗事件检测方法,其特征在于,用以下方法估算图像帧中人与狗之间的距离:用人与狗之间的像素水平距离除以人检测框的宽度,再乘以基准人体宽度;所述基准人体宽度的取值为0.25米~0.5米。
7.一种基于监控视频的非法遛狗事件检测装置,其特征在于,包括:狗和人检测器模型,用于对监控视频的图像帧进行狗和人的检测;
第一判断模块,如狗和人检测器模型在图像帧中没有检测到狗,则判断“状态正常”并返回;如果图像帧中只有狗没有人,则判断“狗未拴绳”并返回;否则,调用狗和人距离估算模型;
狗和人距离估算模型,用于估算图像帧中人与狗之间的距离;
第二判断模块,用于判断估算出的人与狗之间的距离是否超过预设距离阈值,如是,则判断“狗未拴绳”并返回;否则,从图像帧中截取包含狗的图像并输入狗拴绳识别模型;
狗拴绳识别模型,其为预先训练好的卷积神经网络模型,其输入为含有狗的图像,其输出为“狗已拴绳”、“狗未拴绳”及“不确定”这三个类别;所述从图像帧中截取的包含狗的图像具体为第一感兴趣区域图像和第二感兴趣区域图像,第一感兴趣区域图像为狗的检测框图像,第二感兴趣区域图像为对狗的检测框图像进行扩边所得到的图像;所述卷积神经网络模型具有两个训练样本输入分支,第一个分支用于对第一感兴趣区域图像先进行若干次卷积,然后沿卷积通道方向池化,最后将其归一化指数处理为注意力特征图;第二个分支用于对第二感兴趣区域图像先进行若干次卷积,得到与注意力特征图的尺度大小相同的多通道特征图,并用注意力特征图分别与该多通道特征图的每个通道特征图相乘,然后对所得结果进行至少一次卷积后依次进行池化、线性化及归一化指数处理;第一个分支使用包含小幅度旋转和视角变换在内的数据扩增方式训练,第二个分支使用不包含小幅度旋转和视角变换的数据扩增方式训练;
第三判断模块,如狗拴绳识别模型的输出为“狗已拴绳”或“狗未拴绳”,则将结果输出并返回;否则,从图像帧中找出距离狗最近的k个人,对每个人截取出同时包含狗和这个人的最大检测框,并将所得到的k个检测框图像输入人狗关系识别模型,k为大于0的自然数;
人狗关系识别模型,其为预先训练好的神经网络模型,其输入为同时包含狗和人的图片,其输出为“狗已拴绳”或者“狗未拴绳”这两个类别。
8.如权利要求7所述基于监控视频的非法遛狗事件检测装置,其特征在于,所述卷积神经网络模型为可重构卷积网络模型。
9.如权利要求7所述基于监控视频的非法遛狗事件检测装置,其特征在于,所述对狗的检测框图像进行扩边具体是指:对狗的检测框图像的上边和左、右两边进行扩边。
10.如权利要求7~9任一项所述基于监控视频的非法遛狗事件检测装置,其特征在于,所述扩边的比例为15%‑20%。
11.如权利要求7所述基于监控视频的非法遛狗事件检测装置,其特征在于,所述人狗关系识别模型由前端的局部和初步特征提取模块以及后端的全局人狗关系注意力模块组成;所述局部和初步特征提取模块用于对输入图像进行若干次卷积,所得到的特征图作为全局人狗关系注意力模块的输入;所述全局人狗关系注意力模块为改进的Vision Transformer模型,其对所输入的特征图进行有重叠的分割。
12.如权利要求7所述基于监控视频的非法遛狗事件检测装置,其特征在于,用以下方法估算图像帧中人与狗之间的距离:用人与狗之间的像素水平距离除以人检测框的宽度,再乘以基准人体宽度;所述基准人体宽度的取值为0.25米~0.5米。
说明书 :
基于监控视频的非法遛狗事件检测方法、装置
技术领域
背景技术
均明确将此种行为列为违法行为。对于此种违法行为,如果采用传统的人力监控和劝阻方
式,则需要耗费大量人力,实际上是不可行的。如果能够利用现有街道内的高空安防摄像头
对非法遛狗的行为进行检测,不仅可以做到实时性的监控,还能节约人力、物力成本,而且
设备维护与维修也很容易,因此这种基于监控视频的非法遛狗检测系统具有很好的应用和
推广价值。
别对人和狗进行检测定位,并不能识别或者不能有效的识别出狗是否拴绳以及人和狗的关
系即人是否牵狗。
发明内容
步骤B;
别模型为预先训练好的卷积神经网络模型,其输入为含有狗的图像,其输出为“狗已拴绳”、
“狗未拴绳”及“不确定”这三个类别;
并根据人狗关系识别模型的输出判断“狗已拴绳”或者“狗未拴绳”;所述人狗关系识别模型
为预先训练好的神经网络模型,其输入为同时包含狗和人的图片,其输出为“狗已拴绳”或
者“狗未拴绳”这两个类别。
趣区域图像为对狗的检测框图像进行扩边所得到的图像;所述卷积神经网络模型具有两个
训练样本输入分支,第一个分支用于对第一感兴趣区域图像先进行若干次卷积,然后沿卷
积通道方向池化,最后将其归一化指数处理为注意力特征图;第二个分支用于对第二感兴
趣区域图像先进行若干次卷积,得到与注意力特征图的尺度大小相同的多通道特征图,并
用注意力特征图分别与该多通道特征图的每个通道特征图相乘,然后对所得结果进行至少
一次卷积后依次进行池化、线性化及归一化指数处理;第一个分支使用包含小幅度旋转和
视角变换在内的数据扩增方式训练,第二个分支使用不包含小幅度旋转和视角变换的数据
扩增方式训练。
输入图像进行若干次卷积,所得到的特征图作为全局人狗关系注意力模块的输入;所述全
局人狗关系注意力模块为改进的Vision Transformer模型,其对所输入的特征图进行有重
叠的分割。
米。
估算模型;
型;
个人的最大检测框,并将所得到的k个检测框图像输入人狗关系识别模型,k为大于0的自然
数;
趣区域图像为对狗的检测框图像进行扩边所得到的图像;所述卷积神经网络模型具有两个
训练样本输入分支,第一个分支用于对第一感兴趣区域图像先进行若干次卷积,然后沿卷
积通道方向池化,最后将其归一化指数处理为注意力特征图;第二个分支用于对第二感兴
趣区域图像先进行若干次卷积,得到与注意力特征图的尺度大小相同的多通道特征图,并
用注意力特征图分别与该多通道特征图的每个通道特征图相乘,然后对所得结果进行至少
一次卷积后依次进行池化、线性化及归一化指数处理;第一个分支使用包含小幅度旋转和
视角变换在内的数据扩增方式训练,第二个分支使用不包含小幅度旋转和视角变换的数据
扩增方式训练。
输入图像进行若干次卷积,所得到的特征图作为全局人狗关系注意力模块的输入;所述全
局人狗关系注意力模块为改进的Vision Transformer模型,其对所输入的特征图进行有重
叠的分割。
米。
务逻辑,各个算法模块在设计时均考虑到计算效率和速度,整体识别流程在满足一定精度
的前提下,多数情况可以用较少的计算量识别出是否有遛狗不拴绳的不文明行为,少数情
况需要更大的和精度更高的模型进行识别。
附图说明
具体实施方式
步骤B;
别模型为预先训练好的卷积神经网络模型,其输入为含有狗的图像,其输出为“狗已拴绳”、
“狗未拴绳”及“不确定”这三个类别;
并根据人狗关系识别模型的输出判断“狗已拴绳”或者“狗未拴绳”;所述人狗关系识别模型
为预先训练好的神经网络模型,其输入为同时包含狗和人的图片,其输出为“狗已拴绳”或
者“狗未拴绳”这两个类别。
估算模型;
型;
个人的最大检测框,并将所得到的k个检测框图像输入人狗关系识别模型,k为大于0的自然
数;
趣区域图像为对狗的检测框图像进行扩边所得到的图像;所述卷积神经网络模型具有两个
训练样本输入分支,第一个分支用于对第一感兴趣区域图像先进行若干次卷积,然后沿卷
积通道方向池化,最后将其归一化指数处理为注意力特征图;第二个分支用于对第二感兴
趣区域图像先进行若干次卷积,得到与注意力特征图的尺度大小相同的多通道特征图,并
用注意力特征图分别与该多通道特征图的每个通道特征图相乘,然后对所得结果进行至少
一次卷积后依次进行池化、线性化及归一化指数(SoftMax)处理;第一个分支使用包含小幅
度旋转和视角变换在内的数据扩增方式训练,第二个分支使用不包含小幅度旋转和视角变
换的数据扩增方式训练。
输入图像进行若干次卷积,所得到的特征图作为全局人狗关系注意力模块的输入;所述全
局人狗关系注意力模块为改进的Vision Transformer模型,其对所输入的特征图进行有重
叠的分割。
说:
可能是(狗拴绳或者狗拴绳不确定)因为狗的标签是狗本身局部区域像素所决定的,不考虑
与人的关系。
有狗即可。人狗关系识别模型则需要保证人和狗同时存在,而且二者之间的距离需要满足
要求。本实施例中各模型的数据预处理方式具体如下:
(包含狗绳部分很少),expand_roi是根据向上及向两边扩边截取(增大狗绳的可见范围),
本实施例的扩边比例为20%。把ROI图片区域存储到硬盘,并保存相应的路径和标签。
估算人和狗距离persondog_real_distance,将人和狗距离小于一定距离T且ID标识符不同
的,求人和狗标注框的最大框,其标签为“行人”。将求解的最大框图片区域存储到硬盘,并
保存相应的路径和标签。
施例中仅仅使用yolov4模型作为训练模型,并将其类别从80类降低到狗和人这2类,然后用
标注好的数据集微调,同时预测时使用相对较大的输入尺度(960x576),进一步提升其在目
标监控场景下和小目标检测的精度。
实施例中是根据行人实际宽度先验信息对狗和人距离进行估算,具体如下:假设狗和人检
测器模型所获得的人的检测框为person(x_person,y_person,w_person,h_person),x_
person,y_person为人检测框的中心点横、纵坐标,w_person,h_person分别为人检测框的
宽和高;狗的检测框dog(x_dog,y_dog,w_dog,h_dog),x_dog,y_dog为狗检测框的中心点坐
标,w_dog,h_dog分别为人检测框的宽和高;常规监控视角((摄像头高度2米以上,俯角大于
15度))下的行人实际宽度先验范围0.25米‑0.5米(行人侧面到正面),取其平均值
meanWidth=0.375米为基准人体宽度;人与狗之间的像素水平距离persondog_pixel_
distance=||x_person‑x_dog||,则狗和人之间的估算距离: persondog_real_distance=
persondog_pixel_distance×meanWidth/w_person 。根据persondog_real_distance可以
过滤一些简单的明显没有拴绳遛狗以及遛狗的狗绳长度超出要求的情况。同时狗和人距离
估算模型还可用于数据预处理以及作为人狗关系识别模型的前置算法模块。
不是垂直(可以允许小幅度偏角,例如水平正负偏角小于10度)向下,那么则返回“狗已拴
绳”;如果狗拴绳且狗绳状态是垂直向下,那么则返回“不确定”。不确定的原因是有些狗拴
绳子,但是没有被牵着,狗身体附近的绳子为垂直向下状态此时的狗绳状态与人距离狗特
别近是可能一致。如果“不确定”需要后续更复杂的人狗关系识别模型进行后续识别。识别
狗拴绳状态的关键是识别出狗脖子区域的狗绳状态,具体需要识别出两个特征是狗是否戴
着狗绳以及绳子的方向是否是垂直向下。
绳子方向而减少数据扩增操作会导致网络对其它特征的识别问题(例如狗脖子区域),同时
会导致泛化能力变差。为了在识别方向的同时保留较强的数据扩增操作,本发明提出基于
数据扩增指导的特征增强注意力模型,采用具有两个训练样本输入分支的卷积神经网络模
型,第一个分支用于对original_roi先进行若干次卷积,然后沿卷积通道方向池化,最后将
其归一化指数处理为注意力特征图;第二个分支用于对expand_roi先进行若干次卷积,得
到与注意力特征图的尺度大小相同的多通道特征图,并用注意力特征图分别与该多通道特
征图的每个通道特征图相乘,然后对所得结果进行至少一次卷积后依次进行池化、线性化
及归一化指数处理;第一个分支使用包含小幅度旋转和视角变换在内的数据扩增方式训
练,第二个分支使用不包含小幅度旋转和视角变换的数据扩增方式训练。
责狗绳方向识别,通过在注意力融合分支里加入特征增强分支提取的互补信息,来增强对
狗脖子附近区域的注意力(网络自适应性)。特征增强分支可以使用包括小幅度旋转、视角
变换在内的各种数据扩增方式训练,而注意力融合分支则不能使用这两种数据扩增方式,
因为会影响图像的语义信息。如果只使用一个分支采用扩边之后的感兴趣区域作为输入,
则在训练时不能充分对数据进行旋转、视角变换等数据扩增操作,会降低模型的泛化能力。
本发明使用这种特征融合的方式,使得提取的特征更有表征能力。由于狗拴绳识别模型已
经采用了两个大的分支,考虑到计算效率和精度,本实施例的主干网络采用单分支的可重
构卷积网络repvgg。repvgg是一种重参数化网络,只在训练时存在类似于resnet的残差连
接,在推理时可通过重参数化操作把连接合并,形成只有3x3卷积以及relu层的类vgg单通
路结构的极简架构,在通用GPU和具有NPU加速单元的AI芯片上具有极高的效率。
向上及左右扩边截取(增大狗绳的可见范围),扩边比例太小或者太大均不合适,实验论证
向上及左右扩边比例在15%‑20%效果最佳。两个ROI含有不同像素特征的输入区域,目的是
分别可以获取狗脖子区域以及悬空狗绳及其方向的特征。针对狗绳这种特别微小且容易被
狗毛遮挡和需要识别朝向的问题,本发明针对这些难点设计了狗拴绳识别模型,一种优选
的模型结构如图1所示,两个分支的主干网络(stage模块组成的部分)均由repvgg基础改
进。两个分支的输入均缩放到128x128x3,并做归一化到‑1到1然后分别输入到各自的主干
网络。
下采样。当输入128x128x3的图像时,stage3的特征尺度为48x8x8,然后沿通道方向最大池
化输入到AVPool3D得到1x8x8的特征图,经过reshape之后将其输入到Softmax层形成尺度
为8x8的注意力特征图。
征图逐通道相乘,输出1280x8x8经过增强的特征图,之后经过stage4,输出1280x4x4的特征
图,然后再输入到AVPool2D,输出尺度为1280x1x1,最终经过reshape之后输入到分类器。
合分支的基础学习率设置为0.005,权重衰减参数设置为0.0001。其中特征增强分支采用的
数据扩增为:小幅度旋转(水平正负30度),视角变换,水平镜像反转,随机裁剪,色彩抖动,
彩色图像转灰度图像;注意力融合分支采用的数据扩增方法不采用小幅度旋转(水平正负
30度)和视角变换,其余与特征增强分支保持一致。使用8块NVIDIA 2080TI GPU随机初始化
训练,批大小(batch size)设置成256,一共迭代80轮,每20轮两个分支的学习率同时降低
一半。
中绳子的状态)以及更抽象的全局行为特征(人与狗的关系,狗是否被人牵着)。考虑到CNN
更加善于提取局部特征,而Transformer模型对全局特征具有很大的增益同时也对局部特
征有不错的表现,因此考虑采用Transformer模型。Transformer率先使用在自然语言处理
领域,目前将其用于计算机视觉领域的研究非常火热,由于图像的维度比自然语言大很多,
因此采用Transformer结构为主的计算机视觉算法(例如vit)大多有着计算量大,且并行度
不够高的问题。为此,本发明采用CNN+Vision Transformer为基础设计算法网络结构,分为
前后两部分,第一部分是局部和初级特征提取模块,第二部分是全局人狗关系注意力模块。
不同于现有Vision Transformer算法直接将原图无重叠的分割,本发明方法为先通过重参
数化CNN提取初级局部特征同时降低维度,然后经过一个有重叠的分割,作为Transformer
encode部分的输入,通过改进的Vision Transformer结构来获取更加全局的特征。先通过
CNN提取特征可以使得局部和初级特征更加具有表征能力,有重合的分割使得每个被分割
的区域包含相对完整的目标信息,有重叠分割可以使不同分割的特征区域有着更好的信息
交互。这样可以更好的兼顾全局特征和局部特征,同时大幅降低计算量。
用与repvgg B0一致的参数结构,当输入256x256x3的图像时,stage3输出的特征尺度为
256x16x16;然后对特征图进行有重叠的分割,分割窗口size为4x4,重合区域比例为25%。经
过overlap split层进行有重叠分割输出的特征为25×256×4×4。经过patch embedding
(线性变换)之后输出的特征图为25×4096,与可学习的位置编码相加,并增加一个类别向
量维度(class token),输出维度26*4096。后续输入到26个并行的Transformer模块,然后
输入到MLP Head层,最后连接一个softmax层作为分类器。
平正负30度),水平镜像反转,随机裁剪,色彩抖动,彩色图像以一定概率转灰度图像。使用8
块NVIDIA 2080TI GPU随机初始化训练,批大小(batch size)设置成64,一共迭代200轮,每
50轮学习率除以10。
示,包括以下步骤:
米),如果超过T则返回“狗未拴绳”,如果没有超过则进入步骤6;
例为15%~20%;然后输入到狗拴绳识别模型,可能输出的结果为“狗已拴绳”,“狗未拴绳”,
“不确定”,如果输出结果是“不确定”,则进入步骤7;
检测框输入到人狗关系识别模型,输出结果为“狗已拴绳”或者“狗未拴绳”。