基于语义编解码的低带宽人群场景安防监控方法及系统转让专利

申请号 : CN202310980716.1

文献号 : CN116708725B

文献日 : 2023-10-31

本发明提供了一种基于语义编解码的低带宽人群场景安防监控方法及系统，涉及人工智能视频监控领域。本发明中，用户接口获取用户自定义信息，图像处理子系统获取针对人群的监控视频，并对监控视频中包括的连续多帧监控视频帧进行处理，将用户自定义信息作为指引信息，得到每一帧监控视频帧包括的目标对象的素描图和语义属性信息，并发送至图像重建子系统，按照预设周期发送监控视频帧包括的背景区域；图像重建子系统基于目标对象的素描图、语义属性信息和当前周期接收到的背景区域，重建监控视频帧。本发明采用语义编解码的方法，在传输和存储数据时有效压缩数据量，能够节省大量的带宽资源，降低传输成本，以在带宽受限的情况下实现高效的人群安防监控。

1.一种基于语义编解码的低带宽人群场景安防监控方法，其特征在于，应用于安防场景监控系统，所述系统包括：图像处理子系统、图像重建子系统、用户接口；所述方法包括：通过所述用户接口获取用户自定义信息，所述用户自定义信息用于指定感兴趣的目标对象；

通过所述图像处理子系统获取针对人群的监控视频，并对所述监控视频中包括的连续多帧监控视频帧进行处理，将所述用户自定义信息作为指引信息，得到每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息，将所述每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息发送至所述图像重建子系统，按照预设周期将监控视频帧包括的背景区域发送至所述图像重建子系统；

通过所述图像重建子系统基于目标对象的素描图、目标对象的语义属性信息和当前周期接收到的背景区域，重建监控视频帧，得到监控视频；

所述图像处理子系统包括：图像获取装置、图像处理装置，所述图像处理装置包括：目标分割模块、语义编码模块；获取针对人群的监控视频，并对所述监控视频中包括的连续多帧监控视频帧进行处理，包括：通过所述图像获取装置获取监控视频；

通过所述目标分割模块从所述监控视频中包括的连续多帧监控视频帧中分割出目标对象；

通过所述语义编码模块提取所述目标对象的素描图以及所述目标对象的语义属性信息；

所述目标分割模块，包括：第一分支、第二分支；通过所述目标分割模块从所述监控视频中包括的连续多帧监控视频帧中分割出目标对象，包括：针对监控视频包括的每一帧监控视频帧，所述第一分支将所述监控视频帧输入图像编码器生成图像嵌入，再将所述图像嵌入输入掩膜解码器；所述第二分支基于监控视频得到图像特征，基于用户自定义信息得到文本特征，将所述文本特征与图像特征进行融合，得到融合特征，将所述融合特征输入位置编码器，得到位置信息，将所述位置信息输入掩膜解码器，所述掩膜解码器输出目标对象的掩膜。

2.根据权利要求1所述的基于语义编解码的低带宽人群场景安防监控方法，其特征在于，所述系统还包括：行为识别子系统，所述方法还包括：通过所述图像处理子系统将所述素描图发送至行为识别子系统；

通过所述行为识别子系统基于所述素描图，确定人群行为类型。

3.根据权利要求1所述的基于语义编解码的低带宽人群场景安防监控方法，其特征在于，所述语义编码模块由预训练的深度学习模型组成，所述预训练的深度学习模型包括：素描图提取子模型和语义信息提取子模型，提取所述目标对象的素描图以及所述目标对象的语义属性信息，包括：利用所述素描图提取子模型，根据连续多帧目标对象的掩膜，得到连续多帧目标对象的素描图；

利用所述语义信息提取子模型，根据连续多帧目标对象的掩膜提取目标对象的语义属性信息，所述连续多帧目标对象的掩膜是：所述目标分割模块对所述监控视频中包括的连续多帧图像分别进行分割、得到的目标对象掩膜序列。

4.根据权利要求2所述的基于语义编解码的低带宽人群场景安防监控方法，其特征在于，所述行为识别子系统，包括：目标行为识别模块，通过所述行为识别子系统基于所述素描图，确定人群行为类型，包括：将所述监控视频包括的连续多帧目标对象的素描图输入所述目标行为识别模型，得到人群行为类型。

5.根据权利要求4所述的基于语义编解码的低带宽人群场景安防监控方法，其特征在于，所述行为识别子系统，还包括：图像增强模块，通过所述行为识别子系统基于所述素描图，确定人群行为类型，包括：利用所述图像增强模块，应用形态学处理，分别对连续多帧目标对象的素描图进行增强，以突出目标对象的形态变化信息，得到连续多帧目标对象的增强素描图；

将所述监控视频包括的连续多帧目标对象的增强素描图输入所述目标行为识别模型，得到人群行为类型。

6.根据权利要求1所述的基于语义编解码的低带宽人群场景安防监控方法，其特征在于，所述图像重建子系统，包括：语义解码模块；所述语义解码模块包括：目标对象重建子模块、融合子模块；通过所述图像重建子系统基于目标对象的素描图、目标对象的语义属性信息和当前周期接收到的背景区域，重建监控视频帧，包括：所述目标对象重建子模块，针对每一帧目标对象的素描图，将目标对象的语义属性信息作为监督，将所述素描图输入预训练的目标对象重建模型，对目标对象进行重建；

所述融合子模块，将所述目标对象和当前周期接收到的背景区域进行融合，得到监控视频。

7.一种基于语义编解码的低带宽人群场景安防监控系统，其特征在于，所述系统包括：图像处理子系统、图像重建子系统、用户接口；

所述用户接口，用于获取用户自定义信息，所述用户自定义信息用于指定感兴趣的目标对象；

所述图像处理子系统，用于获取针对人群的监控视频，并对所述监控视频中包括的连续多帧监控视频帧进行处理，将所述用户自定义信息作为指引信息，得到每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息，将所述每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息发送至所述图像重建子系统，按照预设周期将监控视频帧包括的背景区域发送至所述图像重建子系统；

所述图像重建子系统，用于基于目标对象的素描图、目标对象的语义属性信息和当前周期接收到的背景区域，重建监控视频帧，得到监控视频；

所述图像处理子系统包括：图像获取装置、图像处理装置；

所述图像获取装置，用于获取监控视频；

所述图像处理装置包括：目标分割模块、语义编码模块；

所述目标分割模块，用于从所述监控视频中包括的连续多帧监控视频帧中分割出目标对象；

所述语义编码模块，用于提取所述目标对象的素描图以及所述目标对象的语义属性信息；

所述目标分割模块，包括：第一分支和第二分支；所述第一分支用于：针对监控视频包括的每一帧监控视频帧，将所述监控视频帧输入图像编码器生成图像嵌入，再将所述图像嵌入输入掩膜解码器；

所述第二分支用于：基于监控视频得到图像特征，基于用户自定义信息得到文本特征，将所述文本特征与图像特征进行融合，得到融合特征，将所述融合特征输入位置编码器，得到位置信息，将所述位置信息输入掩膜解码器，所述掩膜解码器输出目标对象的掩膜。

8.根据权利要求7所述的基于语义编解码的低带宽人群场景安防监控系统，其特征在于，所述系统还包括：行为识别子系统；

所述图像处理子系统，还用于将所述素描图发送至行为识别子系统；

所述行为识别子系统，用于基于所述素描图，确定人群行为类型。

基于语义编解码的低带宽人群场景安防监控方法及系统

技术领域

[0001] 本发明实施例涉及人工智能视频监控领域，尤其涉及一种基于语义编解码的低带宽人群场景安防监控方法及系统。

背景技术

[0002] 目前，行业内在人群监控领域已经取得了一定的进展，尤其是在人群密度分析、人脸检测等方面已经相对准确。随着人工智能技术的发展，相关技术中，尝试采用人工智能算法实现较为全面的人群监控，但是仍然存在以下问题：1、相关技术中采用的算法对人群场景往往只能进行密度分析、人流检测等简单的监控识别，对于踩踏、扔置危险物等行为则由于距离视角原因难以检测；2、在高密度人群场所，由于大量用户同时访问网络，导致网络拥塞，带宽条件相对较差，而传输和存储大量的图像或视频数据需要高带宽支持，相关技术在带宽受限的情况下难以实现高效的实时监控和数据传输。

发明内容

[0003] 本发明实施例提供一种基于语义编解码的低带宽人群场景安防监控方法及系统，以至少部分解决相关技术中存在的问题。

[0004] 本发明实施例第一方面，提供了一种基于语义编解码的低带宽人群场景安防监控方法，所述系统包括：图像处理子系统、图像重建子系统、用户接口；所述方法包括：

[0005] 通过所述用户接口获取用户自定义信息，所述用户自定义信息用于指定感兴趣的目标对象；

[0006] 通过所述图像处理子系统获取针对人群的监控视频，并对所述监控视频中包括的连续多帧监控视频帧进行处理，将所述用户自定义信息作为指引信息，得到每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息，将所述每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息发送至所述图像重建子系统，按照预设周期将监控视频帧包括的背景区域发送至所述图像重建子系统；

[0007] 通过所述图像重建子系统基于目标对象的素描图、目标对象的语义属性信息和当前周期接收到的背景区域，重建监控视频帧，得到监控视频。

[0008] 可选的，所述系统还包括：行为识别子系统；所述方法还包括：

[0009] 通过所述图像处理子系统将所述素描图发送至行为识别子系统；

[0010] 通过所述行为识别子系统基于所述素描图，确定人群行为类型。

[0011] 可选的，所述图像处理子系统包括：图像获取装置、图像处理装置，所述图像处理装置包括：目标分割模块、语义编码模块；获取针对人群的监控视频，并对所述监控视频中包括的连续多帧监控视频帧进行处理，包括：

[0012] 通过所述图像获取装置获取监控视频；

[0013] 通过所述目标分割模块从所述监控视频中包括的连续多帧监控视频帧中分割出目标对象；

[0014] 通过所述语义编码模块提取所述目标对象的素描图以及所述目标对象的语义属性信息。

[0015] 可选的，所述目标分割模块，包括：第一分支、第二分支；通过所述目标分割模块从所述监控视频中包括的连续多帧监控视频帧中分割出目标对象，包括：

[0016] 针对监控视频包括的每一帧监控视频帧，所述第一分支将所述监控视频帧输入图像编码器生成图像嵌入，再将所述图像嵌入输入掩膜解码器；所述第二分支基于监控视频得到图像特征，基于用户自定义信息得到文本特征，将所述文本特征与图像特征进行融合，得到融合特征，将所述融合特征输入位置编码器，得到位置信息，将所述位置信息输入掩膜解码器，所述掩膜解码器输出目标对象的掩膜。

[0017] 可选的，所述语义编码模块由预训练的深度学习模型组成，所述预训练的深度学习模型包括：素描图提取子模型和语义信息提取子模型，提取所述目标对象的素描图以及所述目标对象的语义属性信息，包括：

[0018] 利用所述素描图提取子模型，根据连续多帧目标对象的掩膜，得到连续多帧目标对象的素描图；

[0019] 利用所述语义信息提取子模型，根据连续多帧目标对象的掩膜提取目标对象的语义属性信息，所述连续多帧目标对象的掩膜是：所述目标分割模块对所述监控视频中包括的连续多帧图像分别进行分割、得到的目标对象掩膜序列。

[0020] 可选的，所述行为识别子系统，包括：目标行为识别模块，通过所述行为识别子系统基于所述素描图，确定人群行为类型，包括：

[0021] 将所述监控视频包括的连续多帧目标对象的素描图输入所述目标行为识别模型，得到人群行为类型。

[0022] 可选的，所述行为识别子系统，还包括：图像增强模块，通过所述行为识别子系统基于所述素描图，确定人群行为类型，包括：

[0023] 利用所述图像增强模块，应用形态学处理，分别对连续多帧目标对象的素描图进行增强，以突出目标对象的形态变化信息，得到连续多帧目标对象的增强素描图；

[0024] 将所述监控视频包括的连续多帧目标对象的增强素描图输入所述目标行为识别模型，得到人群行为类型。

[0025] 可选的，所述图像重建子系统，包括：语义解码模块；所述语义解码模块包括：目标对象重建子模块、融合子模块；通过所述图像重建子系统基于目标对象的素描图、目标对象的语义属性信息和当前周期接收到的背景区域，重建监控视频帧，包括：

[0026] 所述目标对象重建子模块，针对每一帧目标对象的素描图，将目标对象的语义属性信息作为监督，将所述素描图输入预训练的目标对象重建模型，对目标对象进行重建；

[0027] 所述融合子模块，将所述目标对象和当前周期接收到的背景区域进行融合，得到监控视频。

[0028] 本发明实施例第二方面，提供了一种基于语义编解码的低带宽人群场景安防监控系统，所述系统包括：图像处理子系统、图像重建子系统、用户接口；

[0029] 所述用户接口，用于获取用户自定义信息，所述用户自定义信息用于指定感兴趣的目标对象；

[0030] 所述图像处理子系统，用于获取针对人群的监控视频，并对所述监控视频中包括的连续多帧监控视频帧进行处理，将所述用户自定义信息作为指引信息，得到每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息，将所述每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息发送至所述图像重建子系统，按照预设周期将监控视频帧包括的背景区域发送至所述图像重建子系统；

[0031] 所述图像重建子系统，用于基于目标对象的素描图、目标对象的语义属性信息和当前周期接收到的背景区域，重建监控视频帧，得到监控视频。

[0032] 可选的，所述系统还包括：行为识别子系统；

[0033] 所述图像处理子系统，还用于将所述素描图发送至行为识别子系统；

[0034] 所述行为识别子系统，用于基于所述素描图，确定人群行为类型。

[0035] 可选的，所述图像处理子系统包括：图像获取装置、图像处理装置；

[0036] 所述图像获取装置，用于获取监控视频；

[0037] 所述图像处理装置包括：目标分割模块、语义编码模块；

[0038] 所述目标分割模块，用于从所述监控视频中包括的连续多帧监控视频帧中分割出目标对象；

[0039] 所述语义编码模块，用于提取所述目标对象的素描图以及所述目标对象的语义属性信息。

[0040] 可选的，所述目标分割模块，包括：第一分支和第二分支；所述第一分支用于：针对监控视频包括的每一帧监控视频帧，将所述监控视频帧输入图像编码器生成图像嵌入，再将所述图像嵌入输入掩膜解码器；

[0041] 所述第二分支用于：基于监控视频得到图像特征，基于用户自定义信息得到文本特征，将所述文本特征与图像特征进行融合，得到融合特征，将所述融合特征输入位置编码器，得到位置信息，将所述位置信息输入掩膜解码器，所述掩膜解码器输出目标对象的掩膜。

[0042] 可选的，所述语义编码模块由预训练的深度学习模型组成，所述预训练的深度学习模型包括：素描图提取子模型和语义信息提取子模型；

[0043] 所述素描图提取子模型，用于根据连续多帧目标对象的掩膜，得到连续多帧目标对象的素描图；

[0044] 所述语义信息提取子模型，用于根据连续多帧目标对象的掩膜提取目标对象的语义属性信息，所述连续多帧目标对象的掩膜是：所述目标分割模块对所述监控视频中包括的连续多帧图像分别进行分割、得到的目标对象掩膜序列。

[0045] 可选的，所述行为识别子系统，包括：目标行为识别模块，所述目标行为识别模块，用于将所述监控视频包括的连续多帧目标对象的素描图输入目标行为识别模型，得到人群行为类型。

[0046] 可选的，所述行为识别子系统，还包括：图像增强模块，所述图像增强模块，用于应用形态学处理，分别对连续多帧目标对象的素描图进行增强，以突出目标对象的形态变化信息。

[0047] 可选的，所述图像重建子系统，包括：语义解码模块；

[0048] 所述语义解码模块包括：目标对象重建子模块、融合子模块；

[0049] 所述目标对象重建子模块，用于针对每一帧目标对象的素描图，将目标对象的语义属性信息作为监督，将所述素描图输入预训练的目标对象重建模型，对目标对象进行重建；

[0050] 所述融合子模块，用于将所述目标对象和当前周期接收到的背景区域进行融合，得到监控视频。

[0051] 本发明具有以下优点：

[0052] 节省带宽：本发明实施例中，采用语义编解码的方法，在传输和存储数据时能够有效地压缩数据量。相较于传统的图像或视频传输方式，本发明实施例中，本发明实施例能够节省大量的带宽资源，降低传输成本，从而在带宽受限的情况下也可以实现高效的人群安防监控。

[0053] 自定义目标：传统的安防监控系统在目标检测和分割方面存在一定的局限性，往往只能对特定类型的目标进行检测，难以满足不同场景下的需求。而本发明实施例中，可以获取用户自定义信息，将该自定义信息作为指引信息，对监控视频帧进行分割，从而可以通过用户自定义信息选择性地检测和分割特定的人群或物体，例如老人、小孩穿特定颜色衣服的人、或者异常物品等，从而提高安全性和效率。本发明实施例提供的监控系统可以实现定制化的功能，使得该监控系统可以更加灵活适用于各种不同的应用场景，满足特定需求，提升了监控系统的适用性和实用性。

[0054] 远距离监控：在一些较远视角下的人群场景中，传统的安防监控系统往往难以实现对目标的细粒度分割，导致无法准确识别个体行为和属性。而本发明实施例提供的监控系统能够实现对人群中目标对象的细粒度目标分割，使得系统在较远视角下的人群场景中也能够有效进行安防监控，无需增加更多的监控设备和人力资源，从而节省了监控成本并提升了监控效果。

附图说明

[0055] 为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

[0056] 图1是本发明实施例的一种基于语义编解码的低带宽人群场景安防监控方法的流程示意图；

[0057] 图2是本发明实施例的一种基于语义编解码的低带宽人群场景安防监控方法的流程示意图；

[0058] 图3是本发明实施例的一种基于语义编解码的低带宽人群场景安防监控方法中的目标分割模块的数据处理流程示意图；

[0059] 图4是本发明实施例的一种基于语义编解码的低带宽人群场景安防监控方法中的语义编码模块的数据处理流程示意图；

[0060] 图5是本发明实施例的一种基于语义编解码的低带宽人群场景安防监控方法中的目标行为识别模块的数据处理流程示意图；

[0061] 图6是本发明实施例的一种基于语义编解码的低带宽人群场景安防监控方法中的图像重建子系统的数据处理流程示意图；

[0062] 图7是本发明实施例的一种基于语义编解码的低带宽人群场景安防监控系统的架构示意图；

[0063] 图8是本发明实施例的一种基于语义编解码的低带宽人群场景安防监控系统的架构示意图。

具体实施方式

[0064] 为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

[0065] 参照图1，示出了本发明实施例的一种基于语义编解码的低带宽人群场景安防监控方法的流程示意图，如图1所示，本发明实施例提供的基于语义编解码的低带宽人群场景安防监控方法应用于安防场景监控系统，所述系统包括：图像处理子系统、图像重建子系统、用户接口；所述方法包括以下步骤：

[0066] S101，通过所述用户接口获取用户自定义信息，所述用户自定义信息用于指定感兴趣的目标对象。

[0067] 其中，所述用户接口，用于获取用户自定义信息，所述用户自定义信息用于指定感兴趣的目标对象。

[0068] 具体地，本发明实施例中，用户可以通过用于接口输入自定义信息，以选择需要检测的特定的人群或物体（例如老人、小孩、穿特定颜色衣服的人或者特定形状、特定颜色的物体），从而后续可以依据该自定义信息对监控视频帧进行分割。

[0069] S102，通过所述图像处理子系统获取针对人群的监控视频，并对所述监控视频中包括的连续多帧监控视频帧进行处理，将所述用户自定义信息作为指引信息，得到每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息，将所述每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息发送至所述图像重建子系统，按照预设周期将监控视频帧包括的背景区域发送至所述图像重建子系统。

[0070] 具体地，本发明实施例中，图像处理子系统，可以包括图像获取装置，例如：摄像头，还可以包括图像处理装置，所述图像处理装置可以与所述摄像头有线连接，以直接快速获取到摄像头采集到的监控视频。

[0071] 本发明实施例中，目标对象即为用户自定义信息指定的感兴趣的对象。

[0072] 本发明实施例中，目标对象的素描图包含了目标对象的高层语义信息。所述目标对象的语义属性信息包括：由监控视频中包括的连续帧图像得到关于目标对象的语义属性信息（如肢体姿势、动作等）、以及底层语义信息（例如：颜色、轮廓、边缘、纹理、形状特征等）。

[0073] 本发明实施例中，采用语义编解码的方法，将摄像头采集到的监控视频帧转换为目标对象的素描图、目标对象的语义属性信息，并进行实时传输，同时，按照预设周期将监控视频帧包括的背景区域发送至所述图像重建子系统。从而可以在传输过程和存储数据时有效地压缩数据量，节省大量的带宽资源，降低传输成本，从而在带宽受限的情况下也可以实现高效的人群安防监控。

[0074] S103，通过所述图像重建子系统基于目标对象的素描图、目标对象的语义属性信息和当前周期接收到的背景区域，重建监控视频帧，得到监控视频。

[0075] 本发明实施例中，图像重建子系统，可以对接收到的语义信息进行解码，还原视频帧，得到监控视频。

[0076] 本发明实施例中，通过语义编解码技术，降低了图像和视频数据的传输和存储需求，从而在带宽受限的环境下实现高效的人群场景安防监控。

[0077] 参照图2，示出了本发明实施例的一种基于语义编解码的低带宽人群场景安防监控方法的流程示意图，如图2所示，本发明实施例提供的基于语义编解码的低带宽人群场景安防监控方法应用于安防场景监控系统，所述系统包括：图像处理子系统、图像重建子系统、行为识别子系统、用户接口；所述方法包括以下子步骤：

[0078] S201，通过所述用户接口获取用户自定义信息，所述用户自定义信息用于指定感兴趣的目标对象。

[0079] S202，通过所述图像处理子系统获取针对人群的监控视频，并对所述监控视频中包括的连续多帧监控视频帧进行处理，将所述用户自定义信息作为指引信息，得到每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息，将所述每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息发送至所述图像重建子系统，按照预设周期将监控视频帧包括的背景区域发送至所述图像重建子系统；

[0080] 在一种可选的实施方式中，所述图像处理子系统包括：图像获取装置、图像处理装置所述图像处理子系统包括：图像获取装置、图像处理装置，所述图像处理装置包括：目标分割模块、语义编码模块；获取针对人群的监控视频，并对所述监控视频中包括的连续多帧监控视频帧进行处理，包括：

[0081] 通过所述图像获取装置获取监控视频；

[0082] 通过所述目标分割模块从所述监控视频中包括的连续多帧监控视频帧中分割出目标对象；

[0083] 通过所述语义编码模块提取所述目标对象的素描图以及所述目标对象的语义属性信息。

[0084] 在一种可选的实施方式中，所述目标分割模块，包括：第一分支、第二分支；如图3所示，图3示出了本发明实施例中目标分割模块的数据处理流程示意图。

[0085] 具体的，针对监控视频包括的每一帧监控视频帧，所述第一分支将所述监控视频帧输入图像编码器生成图像嵌入，再将所述图像嵌入输入掩膜解码器；所述第二分支基于监控视频得到图像特征，基于用户自定义信息得到文本特征，将所述文本特征与图像特征进行融合，得到融合特征，将所述融合特征输入位置编码器，得到位置信息，将所述位置信息输入掩膜解码器，所述掩膜解码器输出目标对象的掩膜。

[0086] 具体的，本发明实施例中，第二条分支是通过用户自定义目标对象（特定的人或者物品），使用Transformer模型将用户自定义信息作为指引，与图像特征进行融合，并通过位置编码器，得到位置信息，将位置信息输入掩膜解码器，掩膜解码器对所述位置信息和图像嵌入进行处理，最终输出目标对象的掩膜。本发明实施例中，目标对象分割模块可以对多目标进行细粒度分割，且在目标被遮挡时也可以准确分割。

[0087] 如图3所示，其中，输入图片具体为：输入监控视频包括的每一帧监控视频帧。输入文本具体为：输入用户自定义信息。

[0088] Transformer模型是一种基于自注意力机制（self‑attention）的深度学习模型，可以用于处理序列数据，广泛应用于诸如机器翻译、文本生成、语义理解等任务中。Transformer模型通过引入自注意力机制允许模型在计算序列中的每个位置时，能够考虑到其他所有位置的信息。从而学习到不同位置的依赖关系，并且可以并行计算提高效率。其中，Transformer模型由编码器（Encoder）和解码器（Decoder）组成。编码器负责将输入序列编码成上下文向量表示，解码器则利用上下文向量生成输出序列。编码器和解码器都由多层的自注意力机制和前馈神经网络组成。在自注意力机制中，模型根据输入序列中每个位置的信息来计算查询（Query）、键（Key）和值（Value）。然后通过计算注意力权重，将其他位置的信息与当前位置进行加权求和，得到一个综合了其他位置信息的表示。

[0089] 从而，本发明实施例中，对监控视频帧可以实现细粒度的目标对象分割，可以应用在较远视角下的人群场景安防监控，节省监控成本。

[0090] 所述语义编码模块，用于提取所述目标对象的素描图以及所述目标对象的语义属性信息和背景区域的语义属性信息。

[0091] 在一种可选的实施方式中，所述语义编码模块由预训练的深度学习模型组成，所述预训练的深度学习模型包括：素描图提取子模型和语义信息提取子模型。

[0092] 提取所述目标对象的素描图以及所述目标对象的语义属性信息，包括：

[0093] 利用所述素描图提取子模型，根据连续多帧目标对象的掩膜，得到连续多帧目标对象的素描图；

[0094] 利用所述语义信息提取子模型，根据连续多帧目标对象的掩膜提取目标对象的语义属性信息，所述连续多帧目标对象的掩膜是：所述目标分割模块对所述监控视频中包括的连续多帧图像分别进行分割、得到的目标对象掩膜序列。

[0095] 具体的，如图4所示，图4示出了本发明实施例中语义编码模块的数据处理流程示意图。

[0096] 具体的，本发明实施例中，语义提取模块由预训练的深度学习模型组成。其中，PiDiNet是一种轻量化边缘检测网络，可以快速地提取目标对象的素描图，使用C3D（Convolute 3D）可以提取连续帧图像的其他语义属性信息，如肢体姿势、动作等，存储为特征向量。

[0097] 具体的，C3D（Convolutional 3D，三维卷积）是一种基于深度学习的视频分类网络模型。C3D模型是一种在时域上对视频数据进行建模和处理的网络结构。C3D通过利用时间维度上的卷积运算来提取视频数据中的时序信息。

[0098] C3D模型结合了二维卷积和三维卷积，既能够学习空间特征，也能够学习时间特征。它通过将视频数据拆解成一系列连续的视频帧，并将这些帧作为输入，在网络中进行卷积操作，可以有效地从视频数据中提取空间和时间上的特征，并用于视频分类、行为识别、动作检测等任务。

[0099] C3D模型在视频分析领域具有广泛的应用，如视频内容理解、视频监控、视频推荐等。通过对视频数据进行端到端的处理和学习，C3D模型可以自动地从视频中学习到高层次的语义信息，为视频分析和相关应用提供有力支持。

[0100] 所述行为识别子系统，用于基于所述素描图，确定人群行为类型。

[0101] 本发明实施例中，行为识别子系统可以通过目标对象的素描图获取目标对象的高层语义信息实现快速、精确、可控的安防信息提取和异常行为识别。

[0102] S203，通过所述图像处理子系统将所述素描图发送至行为识别子系统。

[0103] 本发明实施例中，可以将图像处理子系统作为发送端，在发送端设置用户接口，接收用户自定义信息，并对采集到的监控视频帧进行处理，得到监控视频帧对应的语义信息，并发送给图像重建子系统和行为识别子系统。

[0104] 本发明实施例中，图像重建子系统和行为识别子系统作为接收端，接收发送端发送的监控视频帧对应的语义信息，以对监控视频帧进行重建，对监控视频帧中包括的图像内容进行识别，确定人群行为类型。

[0105] 具体的，本发明实施例中，所述图像重建子系统和行为识别子系统可以设置在同一终端，也可以设置在不同终端。其中行为识别子系统，还可以设置有输出端口，以输出行为提示信息，以提示用户对该人群行为及时响应。

[0106] 具体的，本发明实施例中，在得到每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息之后，图像处理子系统可以同时将所述每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息发送至所述图像重建子系统，以及将将所述素描图发送至行为识别子系统。

[0107] S204，通过所述行为识别子系统基于所述素描图，确定人群行为类型。

[0108] 在一种可选的实施方式中，所述行为识别子系统，包括：目标行为识别模块，通过所述行为识别子系统基于所述素描图，确定人群行为类型，包括：

[0109] 具体的，本发明实施例中，行为识别子系统中包括：目标行为识别模块。如图5所示，其示出了本发明实施例中目标行为识别模块的数据处理流程示意图。

[0110] 具体地，由于素描图包含了目标对象的高层语义信息，因此目标行为识别模块可以以素描图作为输入，完成分类任务，识别出目标行为。其中，目标行为可以为用户预设的行为类别。本发明实施例中，考虑到输入的素描图可以为连续多帧目标对象的素描图，采用LRCN（Long‑term Recurrent Convolutional Networks）对素描图序列进行分类，具体网络结构为：先使用传统CNN提取输入图片的特征，然后将这些具备时序关联的图片的特征送入后续的LSTM网络进行处理，并得到时序的输出。

[0111] 在一种可选的实施方式中，所述行为识别子系统，还包括：图像增强模块，通过所述行为识别子系统基于所述素描图，确定人群行为类型，包括：

[0112] 利用所述图像增强模块，应用形态学处理，分别对连续多帧目标对象的素描图进行增强，以突出目标对象的形态变化信息，得到连续多帧目标对象的增强素描图；

[0113] 将所述监控视频包括的连续多帧目标对象的增强素描图输入所述目标行为识别模型，得到人群行为类型。

[0114] 具体的，本发明实施例中，还可以在将素描图输入LRCN前，应用形态学处理对素描图进行增强，以突出目标的形态变化信息。

[0115] S205，通过所述图像重建子系统基于目标对象的素描图、目标对象的语义属性信息和当前周期接收到的背景区域，重建监控视频帧，得到监控视频

[0116] 在一种可选的实施方式中，所述图像重建子系统，包括：语义解码模块；所述语义解码模块包括：目标对象重建子模块、融合子模块；通过所述图像重建子系统基于目标对象的素描图、目标对象的语义属性信息和当前周期接收到的背景区域，重建监控视频帧，包括：

[0117] 所述目标对象重建子模块，针对每一帧目标对象的素描图，将目标对象的语义属性信息作为监督，将所述素描图输入预训练的目标对象重建模型，对目标对象进行重建；

[0118] 所述融合子模块，将所述目标对象和当前周期接收到的背景区域进行融合，得到监控视频。

[0119] 如图6所示，其示出了本发明实施例中图像重建子系统的数据处理流程示意图。

[0120] 本发明实施例中，可以使用自制的人像数据集对BicycleGAN进行训练，在获取到摄像头发送的语义信息（目标对象的素描图和目标对象的语义属性信息）后，使用BicycleGAN的生成器进行目标重建。

[0121] GAN（生成对抗网络）由生成器和判别器组成，一般的GAN都难以控制生成图像的属性，且往往是一对一的图像映射，而BicycleGAN可以生成多样化的图像，即一对多映射，并通过其他语义属性信息作为监督，使生成的图像尽可能地与源图像相同。

[0122] BicycleGAN的核心思想是引入一个约束，使得生成器不仅能够生成逼真的输出图像，还能够保持与输入图像的一致性。它通过两个生成器和两个判别器组成，其中一个生成器将输入图像映射到输出图像空间，另一个生成器将输出图像映射回输入图像空间。同时，两个判别器分别评估输入图像和输出图像的真实性。

[0123] 为了实现一致性约束，BicycleGAN引入了一个重建损失和一个循环一致性损失。重建损失用于度量输入图像和通过两个生成器产生的输出图像之间的距离，循环一致性损失用于度量从输出图像反向生成的重构输入图像与原始输入图像之间的相似性。通过引入这些额外的损失函数，BicycleGAN能够在图像转换任务中提供更好的控制和一致性。

[0124] 在这种情况下，所述步骤S205包括：

[0125] 所述目标对象重建子模块，针对每一帧目标对象的素描图，将目标对象的语义属性信息作为监督，将所述素描图输入预训练的目标对象重建模型，对目标对象进行重建；

[0126] 所述融合子模块，将所述目标对象和当前周期接收到的背景区域进行融合，得到监控视频。

[0127] 本发明实施例中，可利用上述训练好的生成器基于每一帧目标对象的素描图和目标对象的语义属性信息对目标对象进行重建，再将目标对象和当前周期接收到的背景区域融合，得到监控视频帧，进而在接收端得到监控视频。

[0128] 本发明实施例提出的基于语义编解码的低带宽人群场景安防监控方法，可以对监控视频帧中包括的所有用户指定的感兴趣的目标对象进行准确实时地检测和分割，用户还可以根据实际需要进行定制化目标设置，对特定人群进行检测分割，以满足不同应用场景下的特定需求，提升系统的适用性和实用性。本发明实施例中，可以实现对场景监控视频的高效压缩，减少传输和存储的数据量，降低码率开销。

[0129] 本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

[0130] 基于同一发明构思，本发明实施例还提供了一种基于语义编解码的低带宽人群场景安防监控系统，如图7所示，所述系统包括：图像处理子系统、图像重建子系统、用户接口；

[0131] 所述用户接口，用于获取用户自定义信息，所述用户自定义信息用于指定感兴趣的目标对象；

[0132] 所述图像处理子系统，用于获取针对人群的监控视频，并对所述监控视频中包括的连续多帧监控视频帧进行处理，将所述用户自定义信息作为指引信息，得到每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息，将所述每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息发送至所述图像重建子系统，按照预设周期将监控视频帧包括的背景区域发送至所述图像重建子系统；

[0133] 所述图像重建子系统，用于基于目标对象的素描图、目标对象的语义属性信息和当前周期接收到的背景区域，重建监控视频帧，得到监控视频。

[0134] 基于同一发明构思，本发明实施例还提供了一种基于语义编解码的低带宽人群场景安防监控系统，如图8所示，所述系统包括：图像处理子系统、图像重建子系统、用户接口、行为识别子系统；

[0135] 所述用户接口，用于获取用户自定义信息，所述用户自定义信息用于指定感兴趣的目标对象；

[0136] 所述图像处理子系统，用于获取针对人群的监控视频，并对所述监控视频中包括的连续多帧监控视频帧进行处理，将所述用户自定义信息作为指引信息，得到每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息，将所述每一帧监控视频帧包括的目标对象的素描图、目标对象的语义属性信息发送至所述图像重建子系统，按照预设周期将监控视频帧包括的背景区域发送至所述图像重建子系统；

[0137] 所述图像重建子系统，用于基于目标对象的素描图、目标对象的语义属性信息和当前周期接收到的背景区域，重建监控视频帧，得到监控视频；

[0138] 所述图像处理子系统，还用于将所述素描图发送至行为识别子系统；

[0139] 所述行为识别子系统，用于基于所述素描图，确定人群行为类型。

[0140] 可选的，所述图像处理子系统包括：图像获取装置、图像处理装置；

[0141] 所述图像获取装置，用于获取监控视频；

[0142] 所述图像处理装置包括：目标分割模块、语义编码模块；

[0143] 所述目标分割模块，用于从所述监控视频中包括的连续多帧监控视频帧中分割出目标对象；

[0144] 所述语义编码模块，用于提取所述目标对象的素描图以及所述目标对象的语义属性信息。

[0145] 可选的，所述目标分割模块，包括：第一分支和第二分支；所述第一分支用于：针对监控视频包括的每一帧监控视频帧，将所述监控视频帧输入图像编码器生成图像嵌入，再将所述图像嵌入输入掩膜解码器；

[0146] 所述第二分支用于：基于监控视频得到图像特征，基于用户自定义信息得到文本特征，将所述文本特征与图像特征进行融合，得到融合特征，将所述融合特征输入位置编码器，得到位置信息，将所述位置信息输入掩膜解码器，所述掩膜解码器输出目标对象的掩膜。

[0147] 可选的，所述语义编码模块由预训练的深度学习模型组成，所述预训练的深度学习模型包括：素描图提取子模型和语义信息提取子模型；

[0148] 所述素描图提取子模型，用于根据连续多帧目标对象的掩膜，得到连续多帧目标对象的素描图；

[0149] 所述语义信息提取子模型，用于根据连续多帧目标对象的掩膜提取目标对象的的语义属性信息，所述连续多帧目标对象的掩膜是：所述目标分割模块对所述监控视频中包括的连续多帧图像分别进行分割、得到的目标对象掩膜序列。

[0150] 可选的，所述行为识别子系统，包括：目标行为识别模块，所述目标行为识别模块，用于将所述监控视频包括的连续多帧目标对象的素描图输入目标行为识别模型，得到人群行为类型。

[0151] 可选的，所述行为识别子系统，还包括：图像增强模块，所述图像增强模块，用于应用形态学处理，分别对连续多帧目标对象的素描图进行增强，以突出目标对象的形态变化信息。

[0152] 可选的，所述图像重建子系统，包括：语义解码模块；

[0153] 所述语义解码模块包括：目标对象重建子模块、融合子模块；

[0154] 所述目标对象重建子模块，用于针对每一帧目标对象的素描图，将目标对象的语义属性信息作为监督，将所述素描图输入预训练的目标对象重建模型，对目标对象进行重建；

[0155] 所述融合子模块，用于将所述目标对象和当前周期接收到的背景区域进行融合，得到监控视频。

[0156] 对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

[0157] 本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。

[0158] 本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程基于语义编解码的低带宽人群场景安防监控方法终端设备的处理器以产生一个机器，使得通过计算机或其他可编程基于语义编解码的低带宽人群场景安防监控方法终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0159] 这些计算机程序指令也可存储在能引导计算机或其他可编程基于语义编解码的低带宽人群场景安防监控方法终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0160] 这些计算机程序指令也可装载到计算机或其他可编程基于语义编解码的低带宽人群场景安防监控方法终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0161] 尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

[0162] 最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

[0163] 以上对本发明所提供的一种基于语义编解码的低带宽人群场景安防监控方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

基于语义编解码的低带宽人群场景安防监控方法及系统转让专利

申请号 : CN202310980716.1

文献号 : CN116708725B

文献日 : 2023-10-31

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 程宝平 , 陶晓明 , 尚子钦 , 黄炎 , 谢小燕

申请人 : 清华大学 , 中移(杭州)信息技术有限公司

摘要 :

权利要求 :

说明书 :