基于监控视频的非法遛狗事件检测方法、装置转让专利

申请号 : CN202110492720.4

文献号 : CN112906678B

文献日 : 2021-07-09

本发明公开了一种基于监控视频的非法遛狗事件检测方法，包括：步骤A、对图像帧进行狗和人的检测，如没有检测到狗，则判断“状态正常”并返回；如果只有狗没有人，则判断“狗未拴绳”并返回；否则，进入步骤B；步骤B、估算人与狗之间的距离并判断是否超过距离阈值，如是，则判断“狗未拴绳”并返回；否则，进入步骤C；步骤C、截取包含狗的图像并输入狗拴绳识别模型，如输出为“狗已拴绳”或“狗未拴绳”，则将结果输出并返回；否则，进入步骤D；步骤D、找出距离狗最近的k个人，截取最大检测框图像输入人狗关系识别模型，并根据模型输出判断“狗已拴绳”或者“狗未拴绳”。本发明还公开了一种基于监控视频的非法遛狗事件检测装置。

1.一种基于监控视频的非法遛狗事件检测方法，其特征在于，包括以下步骤：步骤A、对监控视频的图像帧进行狗和人的检测，如图像帧中没有检测到狗，则判断“状态正常”并返回；如果图像帧中只有狗没有人，则判断“狗未拴绳”并返回；否则，进入步骤B；

步骤B、估算图像帧中人与狗之间的距离并判断是否超过预设距离阈值，如是，则判断“狗未拴绳”并返回；否则，进入步骤C；

步骤C、从图像帧中截取包含狗的图像并输入狗拴绳识别模型，如狗拴绳识别模型的输出为“狗已拴绳”或“狗未拴绳”，则将结果输出并返回；否则，进入步骤D；所述狗拴绳识别模型为预先训练好的卷积神经网络模型，其输入为含有狗的图像，其输出为“狗已拴绳”、“狗未拴绳”及“不确定”这三个类别；所述从图像帧中截取的包含狗的图像具体为第一感兴趣区域图像和第二感兴趣区域图像，第一感兴趣区域图像为狗的检测框图像，第二感兴趣区域图像为对狗的检测框图像进行扩边所得到的图像；所述卷积神经网络模型具有两个训练样本输入分支，第一个分支用于对第一感兴趣区域图像先进行若干次卷积，然后沿卷积通道方向池化，最后将其归一化指数处理为注意力特征图；第二个分支用于对第二感兴趣区域图像先进行若干次卷积，得到与注意力特征图的尺度大小相同的多通道特征图，并用注意力特征图分别与该多通道特征图的每个通道特征图相乘，然后对所得结果进行至少一次卷积后依次进行池化、线性化及归一化指数处理；第一个分支使用包含小幅度旋转和视角变换在内的数据扩增方式训练，第二个分支使用不包含小幅度旋转和视角变换的数据扩增方式训练；

步骤D、从图像帧中找出距离狗最近的k个人，对每个人截取出同时包含狗和这个人的最大检测框，k为大于0的自然数；将所得到的k个检测框图像输入人狗关系识别模型，并根据人狗关系识别模型的输出判断“狗已拴绳”或者“狗未拴绳”；所述人狗关系识别模型为预先训练好的神经网络模型，其输入为同时包含狗和人的图片，其输出为“狗已拴绳”或者“狗未拴绳”这两个类别。

2.如权利要求1所述基于监控视频的非法遛狗事件检测方法，其特征在于，所述卷积神经网络模型为可重构卷积网络模型。

3.如权利要求1所述基于监控视频的非法遛狗事件检测方法，其特征在于，所述对狗的检测框图像进行扩边具体是指：对狗的检测框图像的上边和左、右两边进行扩边。

4.如权利要求1～3任一项所述基于监控视频的非法遛狗事件检测方法，其特征在于，所述扩边的比例为15%‑20%。

5.如权利要求1所述基于监控视频的非法遛狗事件检测方法，其特征在于，所述人狗关系识别模型由前端的局部和初步特征提取模块以及后端的全局人狗关系注意力模块组成；

所述局部和初步特征提取模块用于对输入图像进行若干次卷积，所得到的特征图作为全局人狗关系注意力模块的输入；所述全局人狗关系注意力模块为改进的Vision Transformer模型，其对所输入的特征图进行有重叠的分割。

6.如权利要求1所述基于监控视频的非法遛狗事件检测方法，其特征在于，用以下方法估算图像帧中人与狗之间的距离：用人与狗之间的像素水平距离除以人检测框的宽度，再乘以基准人体宽度；所述基准人体宽度的取值为0.25米～0.5米。

7.一种基于监控视频的非法遛狗事件检测装置，其特征在于，包括：狗和人检测器模型，用于对监控视频的图像帧进行狗和人的检测；

第一判断模块，如狗和人检测器模型在图像帧中没有检测到狗，则判断“状态正常”并返回；如果图像帧中只有狗没有人，则判断“狗未拴绳”并返回；否则，调用狗和人距离估算模型；

狗和人距离估算模型，用于估算图像帧中人与狗之间的距离；

第二判断模块，用于判断估算出的人与狗之间的距离是否超过预设距离阈值，如是，则判断“狗未拴绳”并返回；否则，从图像帧中截取包含狗的图像并输入狗拴绳识别模型；

狗拴绳识别模型，其为预先训练好的卷积神经网络模型，其输入为含有狗的图像，其输出为“狗已拴绳”、“狗未拴绳”及“不确定”这三个类别；所述从图像帧中截取的包含狗的图像具体为第一感兴趣区域图像和第二感兴趣区域图像，第一感兴趣区域图像为狗的检测框图像，第二感兴趣区域图像为对狗的检测框图像进行扩边所得到的图像；所述卷积神经网络模型具有两个训练样本输入分支，第一个分支用于对第一感兴趣区域图像先进行若干次卷积，然后沿卷积通道方向池化，最后将其归一化指数处理为注意力特征图；第二个分支用于对第二感兴趣区域图像先进行若干次卷积，得到与注意力特征图的尺度大小相同的多通道特征图，并用注意力特征图分别与该多通道特征图的每个通道特征图相乘，然后对所得结果进行至少一次卷积后依次进行池化、线性化及归一化指数处理；第一个分支使用包含小幅度旋转和视角变换在内的数据扩增方式训练，第二个分支使用不包含小幅度旋转和视角变换的数据扩增方式训练；

第三判断模块，如狗拴绳识别模型的输出为“狗已拴绳”或“狗未拴绳”，则将结果输出并返回；否则，从图像帧中找出距离狗最近的k个人，对每个人截取出同时包含狗和这个人的最大检测框，并将所得到的k个检测框图像输入人狗关系识别模型，k为大于0的自然数；

人狗关系识别模型，其为预先训练好的神经网络模型，其输入为同时包含狗和人的图片，其输出为“狗已拴绳”或者“狗未拴绳”这两个类别。

8.如权利要求7所述基于监控视频的非法遛狗事件检测装置，其特征在于，所述卷积神经网络模型为可重构卷积网络模型。

9.如权利要求7所述基于监控视频的非法遛狗事件检测装置，其特征在于，所述对狗的检测框图像进行扩边具体是指：对狗的检测框图像的上边和左、右两边进行扩边。

10.如权利要求7～9任一项所述基于监控视频的非法遛狗事件检测装置，其特征在于，所述扩边的比例为15%‑20%。

11.如权利要求7所述基于监控视频的非法遛狗事件检测装置，其特征在于，所述人狗关系识别模型由前端的局部和初步特征提取模块以及后端的全局人狗关系注意力模块组成；所述局部和初步特征提取模块用于对输入图像进行若干次卷积，所得到的特征图作为全局人狗关系注意力模块的输入；所述全局人狗关系注意力模块为改进的Vision Transformer模型，其对所输入的特征图进行有重叠的分割。

12.如权利要求7所述基于监控视频的非法遛狗事件检测装置，其特征在于，用以下方法估算图像帧中人与狗之间的距离：用人与狗之间的像素水平距离除以人检测框的宽度，再乘以基准人体宽度；所述基准人体宽度的取值为0.25米～0.5米。

基于监控视频的非法遛狗事件检测方法、装置

技术领域

[0001] 本发明属于机器视觉技术领域，具体涉及一种基于监控视频的非法遛狗事件检测方法。

背景技术

[0002] 随着社会发展，越来越多人开始养狗作为宠物，随之而来的遛狗不牵绳等不文明行为也严重干扰了他人，为此，各地的法规以及近期出台的《中华人民共和国动物防疫法》
均明确将此种行为列为违法行为。对于此种违法行为，如果采用传统的人力监控和劝阻方
式，则需要耗费大量人力，实际上是不可行的。如果能够利用现有街道内的高空安防摄像头
对非法遛狗的行为进行检测，不仅可以做到实时性的监控，还能节约人力、物力成本，而且
设备维护与维修也很容易，因此这种基于监控视频的非法遛狗检测系统具有很好的应用和
推广价值。

[0003] 利用监控摄像头的视频对非法遛狗行为进行识别，对于识别算法的精准度以及实时性要求较高，因此，采用基于深度学习的检测算法较合理。然而现有公开的技术主要是分
别对人和狗进行检测定位，并不能识别或者不能有效的识别出狗是否拴绳以及人和狗的关
系即人是否牵狗。

发明内容

[0004] 本发明所要解决的技术问题在于克服现有技术不足，提供一种基于监控视频的非法遛狗事件检测方法，能够对遛狗是否拴绳进行准确识别，且计算量较低，实时性更好。

[0005] 本发明具体采用以下技术方案解决上述技术问题：

[0006] 一种基于监控视频的非法遛狗事件检测方法，包括以下步骤：

[0007] 步骤A、对监控视频的图像帧进行狗和人的检测，如图像帧中没有检测到狗，则判断“状态正常”并返回；如果图像帧中只有狗没有人，则判断“狗未拴绳”并返回；否则，进入
步骤B；

[0008] 步骤B、估算图像帧中人与狗之间的距离并判断是否超过预设距离阈值，如是，则判断“狗未拴绳”并返回；否则，进入步骤C；

[0009] 步骤C、从图像帧中截取包含狗的图像并输入狗拴绳识别模型，如狗拴绳识别模型的输出为“狗已拴绳”或“狗未拴绳”，则将结果输出并返回；否则，进入步骤D；所述狗拴绳识
别模型为预先训练好的卷积神经网络模型，其输入为含有狗的图像，其输出为“狗已拴绳”、
“狗未拴绳”及“不确定”这三个类别；

[0010] 步骤D、从图像帧中找出距离狗最近的k个人，对每个人截取出同时包含狗和这个人的最大检测框，k为大于0的自然数；将所得到的k个检测框图像输入人狗关系识别模型，
并根据人狗关系识别模型的输出判断“狗已拴绳”或者“狗未拴绳”；所述人狗关系识别模型
为预先训练好的神经网络模型，其输入为同时包含狗和人的图片，其输出为“狗已拴绳”或
者“狗未拴绳”这两个类别。

[0011] 作为其中一个优选技术方案，所述从图像帧中截取的包含狗的图像具体为第一感兴趣区域图像和第二感兴趣区域图像，第一感兴趣区域图像为狗的检测框图像，第二感兴
趣区域图像为对狗的检测框图像进行扩边所得到的图像；所述卷积神经网络模型具有两个
训练样本输入分支，第一个分支用于对第一感兴趣区域图像先进行若干次卷积，然后沿卷
积通道方向池化，最后将其归一化指数处理为注意力特征图；第二个分支用于对第二感兴
趣区域图像先进行若干次卷积，得到与注意力特征图的尺度大小相同的多通道特征图，并
用注意力特征图分别与该多通道特征图的每个通道特征图相乘，然后对所得结果进行至少
一次卷积后依次进行池化、线性化及归一化指数处理；第一个分支使用包含小幅度旋转和
视角变换在内的数据扩增方式训练，第二个分支使用不包含小幅度旋转和视角变换的数据
扩增方式训练。

[0012] 优选地，所述卷积神经网络模型为可重构卷积网络模型。

[0013] 优选地，所述对狗的检测框图像进行扩边具体是指：对狗的检测框图像的上边和左、右两边进行扩边。

[0014] 优选地，所述扩边的比例为15%‑20%。

[0015] 作为其中又一个优选技术方案，所述人狗关系识别模型由前端的局部和初步特征提取模块以及后端的全局人狗关系注意力模块组成；所述局部和初步特征提取模块用于对
输入图像进行若干次卷积，所得到的特征图作为全局人狗关系注意力模块的输入；所述全
局人狗关系注意力模块为改进的Vision Transformer模型，其对所输入的特征图进行有重
叠的分割。

[0016] 优选地，用以下方法估算图像帧中人与狗之间的距离：用人与狗之间的像素水平距离除以人检测框的宽度，再乘以基准人体宽度；所述基准人体宽度的取值为0.25米～0.5
米。

[0017] 根据同一发明构思还可以得到以下技术方案：

[0018] 一种基于监控视频的非法遛狗事件检测装置，包括：

[0019] 狗和人检测器模型，用于对监控视频的图像帧进行狗和人的检测；

[0020] 第一判断模块，如狗和人检测器模型在图像帧中没有检测到狗，则判断“状态正常”并返回；如果图像帧中只有狗没有人，则判断“狗未拴绳”并返回；否则，调用狗和人距离
估算模型；

[0021] 狗和人距离估算模型，用于估算图像帧中人与狗之间的距离；

[0022] 第二判断模块，用于判断估算出的人与狗之间的距离是否超过预设距离阈值，如是，则判断“狗未拴绳”并返回；否则，从图像帧中截取包含狗的图像并输入狗拴绳识别模
型；

[0023] 狗拴绳识别模型，其为预先训练好的卷积神经网络模型，其输入为含有狗的图像，其输出为“狗已拴绳”、“狗未拴绳”及“不确定”这三个类别；

[0024] 第三判断模块，如狗拴绳识别模型的输出为“狗已拴绳”或“狗未拴绳”，则将结果输出并返回；否则，从图像帧中找出距离狗最近的k个人，对每个人截取出同时包含狗和这
个人的最大检测框，并将所得到的k个检测框图像输入人狗关系识别模型，k为大于0的自然
数；

[0025] 人狗关系识别模型，其为预先训练好的神经网络模型，其输入为同时包含狗和人的图片，其输出为“狗已拴绳”或者“狗未拴绳”这两个类别。

[0026] 作为其中一个优选技术方案，所述从图像帧中截取的包含狗的图像具体为第一感兴趣区域图像和第二感兴趣区域图像，第一感兴趣区域图像为狗的检测框图像，第二感兴
趣区域图像为对狗的检测框图像进行扩边所得到的图像；所述卷积神经网络模型具有两个
训练样本输入分支，第一个分支用于对第一感兴趣区域图像先进行若干次卷积，然后沿卷
积通道方向池化，最后将其归一化指数处理为注意力特征图；第二个分支用于对第二感兴
趣区域图像先进行若干次卷积，得到与注意力特征图的尺度大小相同的多通道特征图，并
用注意力特征图分别与该多通道特征图的每个通道特征图相乘，然后对所得结果进行至少
一次卷积后依次进行池化、线性化及归一化指数处理；第一个分支使用包含小幅度旋转和
视角变换在内的数据扩增方式训练，第二个分支使用不包含小幅度旋转和视角变换的数据
扩增方式训练。

[0027] 优选地，所述卷积神经网络模型为可重构卷积网络模型。

[0028] 优选地，所述对狗的检测框图像进行扩边具体是指：对狗的检测框图像的上边和左、右两边进行扩边。

[0029] 优选地，所述扩边的比例为15%‑20%。

[0030] 作为其中又一个优选技术方案，所述人狗关系识别模型由前端的局部和初步特征提取模块以及后端的全局人狗关系注意力模块组成；所述局部和初步特征提取模块用于对
输入图像进行若干次卷积，所得到的特征图作为全局人狗关系注意力模块的输入；所述全
局人狗关系注意力模块为改进的Vision Transformer模型，其对所输入的特征图进行有重
叠的分割。

[0031] 优选地，用以下方法估算图像帧中人与狗之间的距离：用人与狗之间的像素水平距离除以人检测框的宽度，再乘以基准人体宽度；所述基准人体宽度的取值为0.25米～0.5
米。

[0032] 相比现有技术，本发明技术方案具有以下有益效果：

[0033] 本发明解决了社区，街道，公园等地方遛狗不拴绳行为无法通过计算机视觉准确识别的难题。本发明针对遮挡，目标较小以及目标之间的复杂关系设计了相关的算法和业
务逻辑，各个算法模块在设计时均考虑到计算效率和速度，整体识别流程在满足一定精度
的前提下，多数情况可以用较少的计算量识别出是否有遛狗不拴绳的不文明行为，少数情
况需要更大的和精度更高的模型进行识别。

附图说明

[0034] 图1为狗拴绳识别模型的一种优选结构示意图；

[0035] 图2为人狗关系识别模型的一种优选结构示意图；

[0036] 图3为具体实施方式中的非法遛狗事件检测流程示意图。

具体实施方式

[0037] 针对现有技术不足，本发明的解决思路是利用机器视觉算法来对遛狗不拴绳行为进行检测，并通过对算法的优化，来降低计算量并提升精度。

[0038] 具体而言，本发明所提出的基于监控视频的非法遛狗事件检测方法，包括以下步骤：

[0039] 步骤A、对监控视频的图像帧进行狗和人的检测，如图像帧中没有检测到狗，则判断“状态正常”并返回；如果图像帧中只有狗没有人，则判断“狗未拴绳”并返回；否则，进入
步骤B；

[0040] 步骤B、估算图像帧中人与狗之间的距离并判断是否超过预设距离阈值，如是，则判断“狗未拴绳”并返回；否则，进入步骤C；

[0041] 步骤C、从图像帧中截取包含狗的图像并输入狗拴绳识别模型，如狗拴绳识别模型的输出为“狗已拴绳”或“狗未拴绳”，则将结果输出并返回；否则，进入步骤D；所述狗拴绳识
别模型为预先训练好的卷积神经网络模型，其输入为含有狗的图像，其输出为“狗已拴绳”、
“狗未拴绳”及“不确定”这三个类别；

[0042] 步骤D、从图像帧中找出距离狗最近的k个人，对每个人截取出同时包含狗和这个人的最大检测框，k为大于0的自然数；将所得到的k个检测框图像输入人狗关系识别模型，
并根据人狗关系识别模型的输出判断“狗已拴绳”或者“狗未拴绳”；所述人狗关系识别模型
为预先训练好的神经网络模型，其输入为同时包含狗和人的图片，其输出为“狗已拴绳”或
者“狗未拴绳”这两个类别。

[0043] 本发明所提出的基于监控视频的非法遛狗事件检测装置，包括：

[0044] 狗和人检测器模型，用于对监控视频的图像帧进行狗和人的检测；

[0045] 第一判断模块，如狗和人检测器模型在图像帧中没有检测到狗，则判断“状态正常”并返回；如果图像帧中只有狗没有人，则判断“狗未拴绳”并返回；否则，调用狗和人距离
估算模型；

[0046] 狗和人距离估算模型，用于估算图像帧中人与狗之间的距离；

[0047] 第二判断模块，用于判断估算出的人与狗之间的距离是否超过预设距离阈值，如是，则判断“狗未拴绳”并返回；否则，从图像帧中截取包含狗的图像并输入狗拴绳识别模
型；

[0048] 狗拴绳识别模型，其为预先训练好的卷积神经网络模型，其输入为含有狗的图像，其输出为“狗已拴绳”、“狗未拴绳”及“不确定”这三个类别；

[0049] 第三判断模块，如狗拴绳识别模型的输出为“狗已拴绳”或“狗未拴绳”，则将结果输出并返回；否则，从图像帧中找出距离狗最近的k个人，对每个人截取出同时包含狗和这
个人的最大检测框，并将所得到的k个检测框图像输入人狗关系识别模型，k为大于0的自然
数；

[0050] 人狗关系识别模型，其为预先训练好的神经网络模型，其输入为同时包含狗和人的图片，其输出为“狗已拴绳”或者“狗未拴绳”这两个类别。

[0051] 以上技术方案中，狗拴绳识别模型和人狗关系识别模型是其中的核心部分，直接决定了检测效果和效率。为此，本发明进一步对这两个模块分别进行了优化设计。

[0052] 作为其中一个优选技术方案，所述从图像帧中截取的包含狗的图像具体为第一感兴趣区域图像和第二感兴趣区域图像，第一感兴趣区域图像为狗的检测框图像，第二感兴
趣区域图像为对狗的检测框图像进行扩边所得到的图像；所述卷积神经网络模型具有两个
训练样本输入分支，第一个分支用于对第一感兴趣区域图像先进行若干次卷积，然后沿卷
积通道方向池化，最后将其归一化指数处理为注意力特征图；第二个分支用于对第二感兴
趣区域图像先进行若干次卷积，得到与注意力特征图的尺度大小相同的多通道特征图，并
用注意力特征图分别与该多通道特征图的每个通道特征图相乘，然后对所得结果进行至少
一次卷积后依次进行池化、线性化及归一化指数（SoftMax）处理；第一个分支使用包含小幅
度旋转和视角变换在内的数据扩增方式训练，第二个分支使用不包含小幅度旋转和视角变
换的数据扩增方式训练。

[0053] 作为其中又一个优选技术方案，所述人狗关系识别模型由前端的局部和初步特征提取模块以及后端的全局人狗关系注意力模块组成；所述局部和初步特征提取模块用于对
输入图像进行若干次卷积，所得到的特征图作为全局人狗关系注意力模块的输入；所述全
局人狗关系注意力模块为改进的Vision Transformer模型，其对所输入的特征图进行有重
叠的分割。

[0054] 为了便于公众理解，下面通过一个优选实施例并结合附图来对本发明的技术方案进行详细说明：

[0055] 一、数据标注和预处理：

[0056] 本发明检测装置中有狗和人检测器模型、狗拴绳识别模型和人狗关系识别模型这三个模型需要预先训练。数据标注和预处理具体如下：

[0057] 标注类别名称：行人，行人遛狗，狗，狗拴绳，狗拴绳不确定

[0058] 标注数据方式：对图像中的人和狗标注矩形框，矩形框以紧贴目标的形式标注（保持与业界通用数据集一致）；在此基础上本发明提出增加人和狗关系的标注规则，具体来
说：

[0059] （1）如果有人拴绳遛狗，则分别在狗和行人原有标签基础上加上同一个ID标识符,一般情况为每个人和N个狗（N>=1）共享一个ID（一个人可能溜多个狗）,注意此时狗的标签
可能是（狗拴绳或者狗拴绳不确定）因为狗的标签是狗本身局部区域像素所决定的，不考虑
与人的关系。

[0060] （2）每张图片内部每对遛狗行为的ID都是唯一的，但是不同的图像之前是否唯一不作要求。

[0061] 数据预处理方式：把标注好的数据进行预处理，处理之后的数据需要训练狗拴绳识别模型和人狗关系识别模型。狗拴绳识别模型是以狗为中心，即截取的区域内只要保证
有狗即可。人狗关系识别模型则需要保证人和狗同时存在，而且二者之间的距离需要满足
要求。本实施例中各模型的数据预处理方式具体如下：

[0062] 1、狗拴绳识别模型：对狗的检测框进行截取两次ROI（region of interes）感兴趣区域，分别是original_roi和expand_roi；original_roi是根据狗的原始检测框bbox截取
（包含狗绳部分很少），expand_roi是根据向上及向两边扩边截取（增大狗绳的可见范围），
本实施例的扩边比例为20%。把ROI图片区域存储到硬盘，并保存相应的路径和标签。

[0063] 2、人狗关系识别模型：对于同一组ID标识符，分别求包含人和狗标注框的最大框（可以将ID相同的标注框框在一起），其标签标注为“遛狗”；同时调用狗和人距离估算模型，
估算人和狗距离persondog_real_distance，将人和狗距离小于一定距离T且ID标识符不同
的，求人和狗标注框的最大框，其标签为“行人”。将求解的最大框图片区域存储到硬盘，并
保存相应的路径和标签。

[0064] 3、狗和人检测模型：在原有标注基础上将行人与行人遛狗合并成“行人”类别，将狗，狗拴绳，狗拴绳不确定合并成“狗”，用于检测模型微调。

[0065] 二、各模型结构及训练流程：

[0066] 1、狗和人检测器模型：

[0067] 狗和人检测器模型可使用现有的各种技术，例如Faster RCNN，SDD，RetinaNet等。本实施例使用在coco数据集上训练的yolov4模型，其本身就包括狗和人的类别。本具体实
施例中仅仅使用yolov4模型作为训练模型，并将其类别从80类降低到狗和人这2类，然后用
标注好的数据集微调，同时预测时使用相对较大的输入尺度（960x576），进一步提升其在目
标监控场景下和小目标检测的精度。

[0068] 2、狗和人距离估算模型：

[0069] 由于安防监控常用的单目摄像头无法获取深度信息，不能通过深度信息获取高精度的距离估算，因此需要对狗和人距离进行估算。具体估算可采用现有的各种方法，本具体
实施例中是根据行人实际宽度先验信息对狗和人距离进行估算，具体如下：假设狗和人检
测器模型所获得的人的检测框为person（x_person,y_person,w_person,h_person），x_
person，y_person为人检测框的中心点横、纵坐标，w_person，h_person分别为人检测框的
宽和高；狗的检测框dog（x_dog,y_dog,w_dog,h_dog），x_dog，y_dog为狗检测框的中心点坐
标，w_dog，h_dog分别为人检测框的宽和高；常规监控视角（（摄像头高度2米以上，俯角大于
15度））下的行人实际宽度先验范围0.25米‑0.5米（行人侧面到正面），取其平均值
meanWidth=0.375米为基准人体宽度；人与狗之间的像素水平距离persondog_pixel_
distance=||x_person‑x_dog||，则狗和人之间的估算距离： persondog_real_distance=
persondog_pixel_distance×meanWidth/w_person 。根据persondog_real_distance可以
过滤一些简单的明显没有拴绳遛狗以及遛狗的狗绳长度超出要求的情况。同时狗和人距离
估算模型还可用于数据预处理以及作为人狗关系识别模型的前置算法模块。

[0070] 3、狗拴绳识别模型：

[0071] 算法模型搭建：模型输入是含有狗的图片，输出有三个，分别是“狗已拴绳”，“狗未拴绳”，“不确定”。如果狗没拴绳，那么返回结果状态是“狗未拴绳”；如果狗拴绳且狗绳状态
不是垂直（可以允许小幅度偏角，例如水平正负偏角小于10度）向下，那么则返回“狗已拴
绳”；如果狗拴绳且狗绳状态是垂直向下，那么则返回“不确定”。不确定的原因是有些狗拴
绳子，但是没有被牵着，狗身体附近的绳子为垂直向下状态此时的狗绳状态与人距离狗特
别近是可能一致。如果“不确定”需要后续更复杂的人狗关系识别模型进行后续识别。识别
狗拴绳状态的关键是识别出狗脖子区域的狗绳状态，具体需要识别出两个特征是狗是否戴
着狗绳以及绳子的方向是否是垂直向下。

[0072] 由于需要识别绳子方向是否垂直向下，所以一般的模型结构无法使用旋转、视角变换等数据扩增操作，而不能使用这些数据扩增操作将会抑制模型的性能；如果为了识别
绳子方向而减少数据扩增操作会导致网络对其它特征的识别问题（例如狗脖子区域），同时
会导致泛化能力变差。为了在识别方向的同时保留较强的数据扩增操作，本发明提出基于
数据扩增指导的特征增强注意力模型，采用具有两个训练样本输入分支的卷积神经网络模
型，第一个分支用于对original_roi先进行若干次卷积，然后沿卷积通道方向池化，最后将
其归一化指数处理为注意力特征图；第二个分支用于对expand_roi先进行若干次卷积，得
到与注意力特征图的尺度大小相同的多通道特征图，并用注意力特征图分别与该多通道特
征图的每个通道特征图相乘，然后对所得结果进行至少一次卷积后依次进行池化、线性化
及归一化指数处理；第一个分支使用包含小幅度旋转和视角变换在内的数据扩增方式训
练，第二个分支使用不包含小幅度旋转和视角变换的数据扩增方式训练。

[0073] 本实施例中的狗拴绳识别模型由两个分支组成，分别是特征增强分支和注意力融合分支。特征增强分支主要提取狗脖子附近是否有狗绳的注意力特征，注意力融合分支负
责狗绳方向识别，通过在注意力融合分支里加入特征增强分支提取的互补信息，来增强对
狗脖子附近区域的注意力（网络自适应性）。特征增强分支可以使用包括小幅度旋转、视角
变换在内的各种数据扩增方式训练，而注意力融合分支则不能使用这两种数据扩增方式，
因为会影响图像的语义信息。如果只使用一个分支采用扩边之后的感兴趣区域作为输入，
则在训练时不能充分对数据进行旋转、视角变换等数据扩增操作，会降低模型的泛化能力。
本发明使用这种特征融合的方式，使得提取的特征更有表征能力。由于狗拴绳识别模型已
经采用了两个大的分支，考虑到计算效率和精度，本实施例的主干网络采用单分支的可重
构卷积网络repvgg。repvgg是一种重参数化网络，只在训练时存在类似于resnet的残差连
接，在推理时可通过重参数化操作把连接合并，形成只有3x3卷积以及relu层的类vgg单通
路结构的极简架构，在通用GPU和具有NPU加速单元的AI芯片上具有极高的效率。

[0074] 模型输入是对狗的检测框进行截取两次感兴趣区域，分别是original_roi和expand_roi。original_roi是根据狗的原始bbox截取（包含狗绳部分很少），expand_roi是
向上及左右扩边截取（增大狗绳的可见范围），扩边比例太小或者太大均不合适，实验论证
向上及左右扩边比例在15%‑20%效果最佳。两个ROI含有不同像素特征的输入区域，目的是
分别可以获取狗脖子区域以及悬空狗绳及其方向的特征。针对狗绳这种特别微小且容易被
狗毛遮挡和需要识别朝向的问题，本发明针对这些难点设计了狗拴绳识别模型，一种优选
的模型结构如图1所示，两个分支的主干网络（stage模块组成的部分）均由repvgg基础改
进。两个分支的输入均缩放到128x128x3，并做归一化到‑1到1然后分别输入到各自的主干
网络。

[0075] 特征增强分支的stage0‑stage3采用类repvgg A0的参数结构，同时为了降低计算量将其每个stage卷积输出通道数都优化为64，每个stage通过卷积的步长（strde=2）进行
下采样。当输入128x128x3的图像时，stage3的特征尺度为48x8x8，然后沿通道方向最大池
化输入到AVPool3D得到1x8x8的特征图，经过reshape之后将其输入到Softmax层形成尺度
为8x8的注意力特征图。

[0076] 注意力融合分支的stage0‑stage5采用与repvgg B0一致的参数结构，当输入128x128x3的图像时，stage3的特征尺度为1280x8x8，然后与特征增强分支输出的注意力特
征图逐通道相乘，输出1280x8x8经过增强的特征图，之后经过stage4，输出1280x4x4的特征
图，然后再输入到AVPool2D，输出尺度为1280x1x1，最终经过reshape之后输入到分类器。

[0077] 模型训练流程：

[0078] 采用sofmax交叉熵loss函数，优化器采用训练速度较快的ADAM，两个分支的初始学习率（learning rate）进行单独设置，特征增强分支基础学习率设置为0.0001，注意力融
合分支的基础学习率设置为0.005，权重衰减参数设置为0.0001。其中特征增强分支采用的
数据扩增为：小幅度旋转（水平正负30度），视角变换，水平镜像反转，随机裁剪，色彩抖动，
彩色图像转灰度图像；注意力融合分支采用的数据扩增方法不采用小幅度旋转（水平正负
30度）和视角变换，其余与特征增强分支保持一致。使用8块NVIDIA 2080TI GPU随机初始化
训练，批大小（batch size）设置成256，一共迭代80轮，每20轮两个分支的学习率同时降低
一半。

[0079] 4、人狗关系识别模型：

[0080] 人狗关系识别模型的主要目的是降低整体计算量，同时解决上级算法模块无法直接识别确定结果的问题。此模块需要同时具备识别局部特征（悬空绳子，狗脖子区域，人手
中绳子的状态）以及更抽象的全局行为特征（人与狗的关系，狗是否被人牵着）。考虑到CNN
更加善于提取局部特征，而Transformer模型对全局特征具有很大的增益同时也对局部特
征有不错的表现，因此考虑采用Transformer模型。Transformer率先使用在自然语言处理
领域，目前将其用于计算机视觉领域的研究非常火热，由于图像的维度比自然语言大很多，
因此采用Transformer结构为主的计算机视觉算法（例如vit）大多有着计算量大，且并行度
不够高的问题。为此，本发明采用CNN+Vision Transformer为基础设计算法网络结构，分为
前后两部分，第一部分是局部和初级特征提取模块，第二部分是全局人狗关系注意力模块。
不同于现有Vision Transformer算法直接将原图无重叠的分割，本发明方法为先通过重参
数化CNN提取初级局部特征同时降低维度，然后经过一个有重叠的分割，作为Transformer
encode部分的输入，通过改进的Vision Transformer结构来获取更加全局的特征。先通过
CNN提取特征可以使得局部和初级特征更加具有表征能力，有重合的分割使得每个被分割
的区域包含相对完整的目标信息，有重叠分割可以使不同分割的特征区域有着更好的信息
交互。这样可以更好的兼顾全局特征和局部特征，同时大幅降低计算量。

[0081] 如图2所示，本实施例的人狗关系识别模型由前端的局部和初步特征提取模块以及后端的全局人狗关系注意力模块组成；局部和初步特征提取模块中的stage0‑stage3采
用与repvgg B0一致的参数结构，当输入256x256x3的图像时，stage3输出的特征尺度为
256x16x16；然后对特征图进行有重叠的分割，分割窗口size为4x4，重合区域比例为25%。经
过overlap split层进行有重叠分割输出的特征为25×256×4×4。经过patch embedding
（线性变换）之后输出的特征图为25×4096，与可学习的位置编码相加，并增加一个类别向
量维度（class token），输出维度26*4096。后续输入到26个并行的Transformer模块，然后
输入到MLP Head层，最后连接一个softmax层作为分类器。

[0082] 模型训练流程：

[0083] 采用sofmax交叉熵loss函数，优化器采用训练速度较快的ADAM，初始学习率（learning rate）设置为0.001，权重衰减参数设置为0.00005。数据扩增为：小幅度旋转（水
平正负30度），水平镜像反转，随机裁剪，色彩抖动，彩色图像以一定概率转灰度图像。使用8
块NVIDIA 2080TI GPU随机初始化训练，批大小（batch size）设置成64，一共迭代200轮，每
50轮学习率除以10。

[0084] 三、检测装置的检测流程：

[0085] 构建好各个模型并完成训练后即可进行非法遛狗事件的在线或离线检测，装置的输出状态有三个，分别是“状态正常”，“狗未拴绳”和“狗已拴绳”。检测的整体流程如图3所
示，包括以下步骤：

[0086] 步骤1、将视频流解码后的图片帧输入；

[0087] 步骤2、将图像尺度缩小至960x576，使用狗和人检测器模型进行检测；

[0088] 步骤3、判断图像中是否有狗，如果没有，返回“状态正常”，如果有则进入步骤4；

[0089] 步骤4、判断图像中是否有人，如果没有，返回“狗未拴绳”，如果有则进入步骤5；

[0090] 步骤5、使用狗和人距离估算模型，并判断persondog_real_distance是否超过阈值T（具体的阈值可以根据需求设定，例如上海要求狗绳的长度不能超过2米，T可以设置成2
米），如果超过T则返回“狗未拴绳”，如果没有超过则进入步骤6；

[0091] 步骤6、对狗的检测框截取两次感兴趣区域，分别是original_roi和expand_roi，original_roi是根据狗的原始bbox截取，expand_roi是根据向上及左右扩边截取，扩边比
例为15%～20%；然后输入到狗拴绳识别模型，可能输出的结果为“狗已拴绳”，“狗未拴绳”，
“不确定”，如果输出结果是“不确定”，则进入步骤7；

[0092] 步骤7、根据狗和人距离估算模型的结果，对狗附近的人按与狗的距离进行排序，获取与狗的距离最近的k个人，并两两求解最大检测框（与处理标注数据一致），然后将k个
检测框输入到人狗关系识别模型，输出结果为“狗已拴绳”或者“狗未拴绳”。

基于监控视频的非法遛狗事件检测方法、装置转让专利

申请号 : CN202110492720.4

文献号 : CN112906678B

文献日 : 2021-07-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 杨帆 , 冯帅 , 刘利卉 , 胡建国

申请人 : 南京甄视智能科技有限公司

摘要 :

权利要求 :

说明书 :