地铁乘客行人违法行为智能分析方法及装置转让专利

申请号 : CN202210573569.1

文献号 : CN114677650B

文献日 : 2022-09-09

本发明涉及人工智能领域，揭露了一种地铁乘客行人违法行为智能分析方法及装置，包括：获取地铁中公共区域摄像头的监控影像，并提取监控影像中的音频，得到监控音频；对监控音频进行音量监测及语义识别，并根据监测结果或识别结果对预设语音行为库中的语音行为进行筛选，得到目标语音行为集；对监控影像中的视频帧进行筛选，得到多个分帧图像；利用深度学习模型识别每个分帧图像中的动作行为，得到目标违法行为集；利用目标违法行为集对预设提醒语音库中的提醒语音进行筛选组合，得到目标提醒语音将目标提醒语音发送至摄像头以使摄像头播放目标提醒语音。本发明提高地铁乘客行人的违法行为识别分析的准确率。

1.一种地铁乘客行人违法行为智能分析方法，其特征在于，所述方法包括：获取地铁中公共区域摄像头预设时间区间的监控影像，并提取所述监控影像中的音频，得到监控音频；

对所述监控音频进行音量监测及语义识别，并根据监测结果或识别结果对预设语音行为库中的语音行为进行筛选，得到目标语音行为集；

对所述监控影像中的视频帧进行筛选，得到多个分帧图像；

利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量；

根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量进行组合，得到图像特征矩阵；

利用预构建的注意力机制函数对所述图像特征矩阵中的每个图像特征向量进行加权计算，得到图像加权特征矩阵，其中，所述注意力机制函数为：其中，为所述图像特征矩阵位置顺序为的图像特征向量；为所述图像特征矩阵中图像特征向量的位置顺序，N为所述图像特征向量的总数量；是多层感知机，为所述图像特征矩阵位置顺序为的图像特征向量输入多层感知机后输出的结果，r为图像加权特征矩阵；

对所述图像加权特征矩阵进行降维操作，得到目标特征向量；

利用softmax函数对所述目标特征向量进行计算，得到不同预设动作行为的识别概率，并将识别概率最高的所述动作行为确定为目标动作行为；

利用所述目标语音行为集及所有所述目标动作行为对预设违法行为集中的违法行为进行筛选，得到目标违法行为集；

基于预设的违法行为与提醒语音的映射关系利用所述目标违法行为集对预设提醒语音库中的提醒语音进行筛选组合，得到目标提醒语音；

将所述目标提醒语音发送至所述摄像头以使所述摄像头播放所述目标提醒语音；

所述对所述监控音频进行音量监测及语义识别，并根据监测结果或识别结果对预设语音行为库中的语音行为进行筛选，得到目标语音行为集，包括：计算所述监控音频中音量超过预设音量阈值的音频时长；

判断所述音频时长是否超过预设时长阈值，得到判断结果；

将所述监控音频转化为文本格式，得到监控文本；

对所述监控文本进行意图识别，得到文本意图；

将所述判断结果或所述文本意图作为筛选条件以筛选预设语音行为库中的语音行为，得到所述目标语音行为集；

所述利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量，包括：将所述分帧图像输入所述VGG模型，并获取所述VGG模型中最后一层全连接层中每个节点的节点输出值；

将所有所述节点输出值按照对应节点在所述全连接层中的先后顺序进行纵向组合，得到所述图像特征向量；

所述利用所述目标语音行为集及所有所述目标动作行为对预设违法行为集中的违法行为进行筛选，得到目标违法行为集，包括：将所述目标语音行为集与所有所述目标动作行为进行去重汇总，得到乘客行为集；

将所述乘客行为集与所述违法行为集进行交集运算，得到目标违法行为集；

所述基于预设的违法行为与提醒语音的映射关系利用所述目标违法行为集对预设提醒语音库中的提醒语音进行筛选组合，得到目标提醒语音，包括：基于预设的违法行为与提醒语音的映射关系查询所述目标违法行为集中每种违法行为在所述提醒语音库中对应的提醒语音，得到违法提醒语音；

将所有所述违法提醒语音封装为一个音频文件，得到所述目标提醒语音。

2.如权利要求1所述的地铁乘客行人违法行为智能分析方法，其特征在于，所述利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量，包括：对所述分帧图像中的人体姿态识别，得到人体姿态图像；

将人体姿态图像输入所述VGG模型，并获取所述VGG模型中最后一层全连接层中每个节点的节点输出值；

将所有所述节点输出值按照对应节点在所述全连接层中的先后顺序进行纵向组合，得到所述图像特征向量。

3.如权利要求1所述的地铁乘客行人违法行为智能分析方法，其特征在于，所述根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量进行组合，得到图像特征矩阵，包括：根据所述分帧图像在所述监控影像中的先后顺序将所述分帧图像对应的所述图像特征向量作为矩阵列数据依次填充至预设的空白矩阵，得到所述图像特征矩阵。

4.如权利要求1所述的地铁乘客行人违法行为智能分析方法，其特征在于，所述对所述图像加权特征矩阵进行降维操作，得到所述目标特征向量，包括：利用预设的降维卷积核对所述图像加权特征矩阵进行卷积，得到降维图像矩阵；

保留所述降维图像矩阵中每一列元素的最大值，得到目标特征向量。

5.如权利要求1所述的地铁乘客行人违法行为智能分析方法，其特征在于，所述对所述图像加权特征矩阵进行降维操作，得到所述目标特征向量，包括：选取所述图像加权特征矩阵中每一列所有元素的平均值作为该列的列特征值；

将所有所述列特征值根据所述列特征值在所述图像加权特征矩阵对应的列的先后顺序进行组合，得到所述目标特征向量。

6.用于实现如权利要求1‑5任一项所述方法的一种地铁乘客行人违法行为智能分析装置，其特征在于，所述装置包括：语音行为识别模块，用于获取地铁中公共区域摄像头预设时间区间的监控影像，并提取所述监控影像中的音频，得到监控音频；对所述监控音频进行音量监测及语义识别，并根据监测结果或识别结果对预设语音行为库中的语音行为进行筛选，得到目标语音行为集；

动作行为识别模块，用于对所述监控影像中的视频帧进行筛选，得到多个分帧图像；利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量；根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量进行组合，得到图像特征矩阵；利用预构建的注意力机制函数对所述图像特征矩阵中的每个图像特征向量进行加权计算，得到图像加权特征矩阵；对所述图像加权特征矩阵进行降维操作，得到目标特征向量；

利用softmax函数对所述目标特征向量进行计算，得到不同预设动作行为的识别概率，并将识别概率最高的所述动作行为确定为目标动作行为；

违法行为筛选模块，用于利用所述目标语音行为集及所有所述目标动作行为对预设违法行为集中的违法行为进行筛选，得到目标违法行为集；

提醒语音匹配发送模块，用于基于预设的违法行为与提醒语音的映射关系利用所述目标违法行为集对预设提醒语音库中的提醒语音进行筛选组合，得到目标提醒语音；将所述目标提醒语音发送至所述摄像头以使所述摄像头播放所述目标提醒语音。

地铁乘客行人违法行为智能分析方法及装置

技术领域

[0001] 本发明涉及人工智能技术领域，尤其涉及一种地铁乘客行人违法行为智能分析方法及装置。

背景技术

[0002] 随着公共交通的发展，各种公共出行方式也日渐收到人们的青睐，地铁以其独特的交通优势成为了人们公共出行的首要选择，但随着乘坐地铁的人数越来越多，乘坐地铁时乘客行人的违法行为也日渐真多，为了及时制止乘客的违法行为，需要对地铁乘客行人的违法行为进行识别分析。

[0003] 但是，现有的地铁乘客违法行为识别分析方法只能根据乘客行人的音频识别相应的违法行为，识别分析的维度单一，导致地铁乘客行人的违法行为识别分析的准确率较低。

发明内容

[0004] 本发明提供一种地铁乘客行人违法行为智能分析方法及装置，其主要目的在于提高地铁乘客行人的违法行为识别分析的准确率。

[0005] 为实现上述目的，本发明提供的一种地铁乘客行人违法行为智能分析方法，包括：

[0006] 获取地铁中公共区域摄像头预设时间区间的监控影像，并提取所述监控影像中的音频，得到监控音频；

[0007] 对所述监控音频进行音量监测及语义识别，并根据监测结果或识别结果对预设语音行为库中的语音行为进行筛选，得到目标语音行为集；

[0008] 对所述监控影像中的视频帧进行筛选，得到多个分帧图像；

[0009] 利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量；

[0010] 根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量进行组合，得到图像特征矩阵；

[0011] 利用预构建的注意力机制函数对所述图像特征矩阵中的每个图像特征向量进行加权计算，得到图像加权特征矩阵，其中，所述注意力机制函数为：

[0012]

[0013] 其中，为所述图像特征矩阵位置顺序为的图像特征向量；为所述图像特征矩阵中图像特征向量的位置顺序，N为所述图像特征向量的总数量；是多层感知机，为所述图像特征矩阵位置顺序为的图像特征向量输入多层感知机后输出的结果，r为图像加权特征矩阵。

[0014] 对所述图像加权特征矩阵进行降维操作，得到目标特征向量；

[0015] 利用softmax函数对所述目标特征向量进行计算，得到不同预设动作行为的识别概率，并将识别概率最高的所述动作行为确定为目标动作行为；

[0016] 利用所述目标语音行为集及所有所述目标动作行为对预设违法行为集中的违法行为进行筛选，得到目标违法行为集；

[0017] 基于预设的违法行为与提醒语音的映射关系利用所述目标违法行为集对预设提醒语音库中的提醒语音进行筛选组合，得到目标提醒语音；

[0018] 将所述目标提醒语音发送至所述摄像头以使所述摄像头播放所述目标提醒语音。

[0019] 可选地，所述对所述监控音频进行音量监测及语义识别，并根据监测结果或识别结果对预设语音行为库中的语音行为进行筛选，得到目标语音行为集，包括：

[0020] 计算所述监控音频中音量超过预设音量阈值的音频时长；

[0021] 判断所述音频时长是否超过预设时长阈值，得到判断结果；

[0022] 将所述监控音频转化为文本格式，得到监控文本；

[0023] 对所述监控文本进行意图识别，得到文本意图；

[0024] 将所述判断结果或所述文本意图作为筛选条件以筛选预设语音行为库中的语音行为，得到所述目标语音行为集。

[0025] 可选地，所述利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量，包括：

[0026] 将所述分帧图像输入所述VGG模型，并获取所述VGG模型中最后一层全连接层中每个节点的节点输出值；

[0027] 将所有所述节点输出值按照对应节点在所述全连接层中的先后顺序进行纵向组合，得到所述图像特征向量。

[0028] 可选地，所述利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量，包括：

[0029] 对所述分帧图像中的人体姿态识别，得到人体姿态图像；

[0030] 将人体姿态图像输入所述VGG模型，并获取所述VGG模型中最后一层全连接层中每个节点的节点输出值；

[0031] 将所有所述节点输出值按照对应节点在所述全连接层中的先后顺序进行纵向组合，得到所述图像特征向量。

[0032] 可选地，所述根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量进行组合，得到图像特征矩阵，包括：

[0033] 根据所述分帧图像在所述监控影像中的先后顺序将所述分帧图像对应的所述图像特征向量作为矩阵列数据依次填充至预设的空白矩阵，得到所述图像特征矩阵。

[0034] 可选地，所述对所述图像加权特征矩阵进行降维操作，得到所述目标特征向量，包括：

[0035] 利用预设的降维卷积核对所述图像加权特征矩阵进行卷积，得到降维图像矩阵；

[0036] 保留所述降维图像矩阵中每一列元素的最大值，得到目标特征向量。

[0037] 可选地，所述对所述图像加权特征矩阵进行降维操作，得到所述目标特征向量，包括：

[0038] 选取所述图像加权特征矩阵中每一列所有元素的平均值作为该列的列特征值；

[0039] 将所有所述列特征值根据所述列特征值在所述图像加权特征矩阵对应的列的先后顺序进行组合，得到所述目标特征向量。

[0040] 可选地，所述利用所述目标语音行为集及所有所述目标动作行为对预设违法行为集中的违法行为进行筛选，得到目标违法行为集，包括：

[0041] 将所述目标语音行为集与所有所述目标动作行为进行去重汇总，得到乘客行为集；

[0042] 将所述乘客行为集与所述违法行为集进行交集运算，得到目标违法行为集。

[0043] 可选地，所述基于预设的违法行为与提醒语音的映射关系利用所述目标违法行为集对预设提醒语音库中的提醒语音进行筛选组合，得到目标提醒语音，包括：

[0044] 基于预设的违法行为与提醒语音的映射关系查询所述目标违法行为集中每中违法行为在所述提醒语音库中对应的提醒语音，得到违法提醒语音；

[0045] 将所有所述违法提醒语音封装为一个音频文件，得到所述目标提醒语音。

[0046] 为了解决上述问题，本发明还提供一种地铁乘客行人违法行为智能分析装置，所述装置包括：

[0047] 语音行为识别模块，用于获取地铁中公共区域摄像头预设时间区间的监控影像，并提取所述监控影像中的音频，得到监控音频；对所述监控音频进行音量监测及语义识别，并根据监测结果或识别结果对预设语音行为库中的语音行为进行筛选，得到目标语音行为集；

[0048] 动作行为识别模块，用于对所述监控影像中的视频帧进行筛选，得到多个分帧图像；利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量；根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量进行组合，得到图像特征矩阵；利用预构建的注意力机制函数对所述图像特征矩阵中的每个图像特征向量进行加权计算，得到图像加权特征矩阵；对所述图像加权特征矩阵进行降维操作，得到目标特征向量；利用softmax函数对所述目标特征向量进行计算，得到不同预设动作行为的识别概率，并将识别概率最高的所述动作行为确定为目标动作行为；

[0049] 违法行为筛选模块，用于利用所述目标语音行为集及所有所述目标动作行为对预设违法行为集中的违法行为进行筛选，得到目标违法行为集；

[0050] 提醒语音匹配发送模块，用于基于预设的违法行为与提醒语音的映射关系利用所述目标违法行为集对预设提醒语音库中的提醒语音进行筛选组合，得到目标提醒语音；将所述目标提醒语音发送至所述摄像头以使所述摄像头播放所述目标提醒语音。

[0051] 为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

[0052] 存储器，存储至少一个指令；及

[0053] 处理器，执行所述存储器中存储的指令以实现上述所述的地铁乘客行人违法行为智能分析方法。

[0054] 为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的地铁乘客行人违法行为智能分析方法。

[0055] 本发明实施例对所述监控音频进行音量监测及语义识别，并根据监测结果或识别结果对预设语音行为库中的语音行为进行筛选，得到目标语音行为集；对所述监控影像中的视频帧进行筛选，得到多个分帧图像；利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量；根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量进行组合，得到图像特征矩阵；利用预构建的注意力机制函数对所述图像特征矩阵中的每个图像特征向量进行加权计算，得到图像加权特征矩阵；对所述图像加权特征矩阵进行降维操作，得到目标特征向量；利用softmax函数对所述目标特征向量进行计算，得到不同预设动作行为的识别概率，并将识别概率最高的所述动作行为确定为目标动作行为；利用所述目标语音行为集及所有所述目标动作行为对预设违法行为集中的违法行为进行筛选，得到目标违法行为集；从音频和图像两个维度使用地铁乘客行人的违法行为，识别的维度更加多元，识别分析的准确率更高，因此本发明提出的地铁乘客行人违法行为智能分析方法、装置，可以提高了地铁乘客行人的违法行为识别分析准确率。

附图说明

[0056] 图1为本发明一实施例提供的地铁乘客行人违法行为智能分析方法的流程示意图；

[0057] 图2为图1实施例其中一个步骤的流程示意图；

[0058] 图3为图1实施例其中一个步骤的流程示意图；

[0059] 图4为本发明一实施例提供的地铁乘客行人违法行为智能分析装置的功能模块图；

[0060] 图5为本发明一实施例提供的实现所述地铁乘客行人违法行为智能分析方法的电子设备的结构示意图。

[0061] 本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

[0062] 应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0063] 本申请实施例提供一种地铁乘客行人违法行为智能分析方法。所述地铁乘客行人违法行为智能分析方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述地铁乘客行人违法行为智能分析方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

[0064] 实施例1：

[0065] 参照图1所示，为本发明一实施例提供的地铁乘客行人违法行为智能分析方法的流程示意图。在本实施例中，所述地铁乘客行人违法行为智能分析方法包括：

[0066] S1、获取地铁中公共区域摄像头预设时间区间的监控影像，并提取所述监控影像中的音频，得到监控音频；

[0067] 本发明实施例中为了营造良好的地铁乘车环境，需要利用地铁中公共区域的摄像头的监控影像进行分析识别乘客的违法行为及时进行提醒。

[0068] 详细地，本发明实施例中为了保证可以及时提醒乘客，所述监控影像为距离当前时间较近的监控影像，较佳的，所述时间区间为距离当前时间30秒内的时间段，本发明实施例中所述时间区间的左端点为当前时间，本发明实施例对所述时间区间的左端点不做限制。

[0069] 进一步地，本发明实施例中由于乘客的违法行为不仅时动作上的还可能是声音上的，如：大声音外放、大声喧哗等；需要对所述监控影像中的音频进行检测识别，因此，本发明实施例中提取所述监控影像的音频，得到所述监控音频。

[0070] 本发明实施例中所述违法行为相关政府规定或法律禁止及不建议在地铁上进行的行为。

[0071] 具体地，本发明实施例可以用录音、音轨分离、格式转换等方法提取所述监控影像中的音频，本发明实施例对提取所述监控影像中音频的方法不做限制。

[0072] S2、对所述监控音频进行音量监测及语义识别，并根据监测结果或识别结果对预设语音行为库中的语音行为进行筛选，得到目标语音行为集；

[0073] 本发明实施例中对所述监控音频进行音量监测及语义识别，得到所述目标语音行为，包括：

[0074] 计算所述监控音频中音量超过预设音量阈值的音频时长；

[0075] 判断所述音频时长是否超过预设时长阈值，得到判断结果；

[0076] 将所述监控音频转化为文本格式，得到所述监控文本；

[0077] 对所述监控文本进行意图识别，得到文本意图；

[0078] 本发明实施例中意图识别的方法不做限制。

[0079] 将所述判断结果或所述文本意图作为筛选条件以筛选预设语音行为库中中的语音行为，得到目标语音行为集，其中，所述语音行为库中包含不同判断结果或文本意图对应的行为，如：判断结果为超过，对应的行为为“喧哗或外放行为”，文本意图为“辱骂”，对应的行为为“辱骂行为”。

[0080] S3、对所述监控影像中的视频帧进行筛选，得到多个分帧图像；

[0081] 本发明实施例中由于所述监控影像中的所有视频帧进行筛选的计算资源消耗较大，因此，为了降低资源消耗，本发明实施例中根据预设的时间间隔选取所述监控影像中的视频帧作为所述分帧图像。可选地，本发明实施例中所述时间间隔为所述监控影像中相邻两个视频帧时间间隔的倍数。

[0082] S4、利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量；

[0083] 详细地，本发明实施例中利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量，包括：

[0084] 将所述分帧图像输入所述VGG模型，并获取所述VGG模型中最后一层全连接层中每个节点的节点输出值；

[0085] 将所有所述节点输出值按照对应节点在所述全连接层中的先后顺序进行纵向组合，得到所述图像特征向量。

[0086] 例如：全连接层共有3个节点，按顺序分别为第一节点、第二节点、第三节点，其中，将所述分帧图像输入所述VGG模型后，第一节点的节点输出值为1，第二节点的节点输出值为2、第三个节点的节点输出值为3，那么将三个节点输出值按照对应的节点在所述全连接层中的先后顺序进行纵向组合，得到所述图像特征向量。

[0087] 进一步地，本发明实施例中利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量，包括：

[0088] 对所述分帧图像中的人体姿态识别，得到人体姿态图像；

[0089] 可选地，本发明实施例中可利用OpenPose对所述分帧图像中的人体姿态识别，本发明实施例人体姿态识别使用的方法或模型不做限制。

[0090] 将人体姿态图像输入所述VGG模型，并获取所述VGG模型中最后一层全连接层中每个节点的节点输出值；

[0091] 将所有所述节点输出值按照对应节点在所述全连接层中的先后顺序进行纵向组合，得到所述图像特征向量。

[0092] S5、根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量进行组合，得到图像特征矩阵；

[0093] 详细地，本发明实施例中根据所述分帧图像在所述监控影像中的先后顺序将对应所述图像特征向量进行组合，得到图像特征矩阵，包括：

[0094] 根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量作为矩阵列数据依次填充至预设的空白矩阵，得到所述图像特征矩阵。

[0095] 本发明另一实施例中，所述根据所述分帧图像在所述监控影像中的先后顺序将对应所述图像特征向量进行组合，得到图像特征矩阵，包括：

[0096] 根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量作为矩阵行数据依次填充至预设的空白矩阵，得到所述图像特征矩阵。

[0097] S6、利用预构建的注意力机制函数对所述图像特征矩阵中的每个图像特征向量进行加权计算，得到图像加权特征矩阵，其中，所述注意力机制函数为：

[0098]

[0099] 其中，为所述图像特征矩阵位置顺序为的图像特征向量；为所述图像特征矩阵中图像特征向量的位置顺序，N为所述图像特征向量的总数量；是多层感知机（MLP，Multilayer Perceptron），为所述图像特征矩阵位置顺序为的图像特征向量输入多层感知机后输出的结果，r为图像加权特征矩阵。

[0100] S7、对所述图像加权特征矩阵进行降维操作，得到目标特征向量；

[0101] 参阅图2所示，本发明实施例对所述图像加权特征矩阵进行降维操作，得到所述目标特特征向量，包括：

[0102] S71、利用预设的降维卷积核对所述图像加权特征矩阵进行卷积，得到降维图像矩阵；

[0103] S72、保留所述降维图像矩阵中每一列元素的最大值，得到目标特征向量。

[0104] 本发明另一实施例中对所述图像加权特征矩阵进行降维操作，得到所述目标特征向量，包括：

[0105] 选取所述图像加权特征矩阵中每一列元素的最大值作为该列的列特征值；

[0106] 将所有所述列特征值根据所述列特征值在所述图像加权特征矩阵对应的列的先后顺序进行组合，得到所述目标特征向量。

[0107] 本发明另一实施例中对所述图像加权特征矩阵进行降维操作，得到所述目标特征向量，包括：

[0108] 选取所述图像加权特征矩阵中每一行元素的最大值作为该行的列特征值；

[0109] 将所有所述行特征值根据所述行特征值在所述图像加权特征矩阵对应的行的先后顺序进行组合，得到所述目标特征向量。

[0110] 参阅图3所示，本发明另一实施例中对所述图像加权特征矩阵进行降维操作，得到所述目标特征向量，包括：

[0111] 选取所述图像加权特征矩阵中每一列所有元素的平均值作为该列的列特征值；

[0112] 将所有所述列特征值根据所述列特征值在所述图像加权特征矩阵对应的列的先后顺序进行组合，得到所述目标特征向量。

[0113] S8、利用softmax函数对所述目标特征向量进行计算，得到不同预设动作行为的识别概率，并将识别概率最高的所述动作行为确定为目标动作行为；

[0114] 本发明实施例中利用softmax函数对所述目标特征向量进行计算，得到不同预设行为的识别概率，并将识别概率最高的所述动作违法行为确定为目标动作行为。其中，所述预设行为包括正常行为及各种违法行为。

[0115] S9、利用所述目标语音行为集及所有所述目标动作行为对预设违法行为集中的违法行为进行筛选，得到目标违法行为集；

[0116] 本发明实施例中所述违法行为集为人为设定的地铁中乘客违法行为的集合。

[0117] 进一步地，本发明实施例中利用所述目标语音行为集及所有所述目标动作行为对预设违法行为中的违法行为行为进行筛选，得到目标违法行为集，包括：将所述目标语音行为集与所有所述目标动作行为进行去重汇总，得到乘客行为集；将所述乘客行为集与所述违法行为集进行交集运算，得到目标违法行为集。

[0118] 例如：目标语音行为集包括：行为A、行为B，所有所述目标动作行为包括：行为B、行为C、行为D，所述违法行为集包括：行为B、行为C，那么所述乘客行为集包括：行为A、行为B、行为C、行为D，所述目标违法行为集为所述乘客行为集与所述违法行为集的交集包括：行为B、行为C。

[0119] S10、基于预设的违法行为与提醒语音的映射关系利用所述目标违法行为集对预设提醒语音库中的提醒语音进行筛选组合，得到目标提醒语音；

[0120] 本发明实施例中不同的违法行为对应的提醒语音是不同的，不同的违法行为对应的提醒语音有着固定的映射关系，因此，可以根据违法行为与提醒语音的映射关系筛选预设提醒语音库每种违法行为对应的提醒语音，所述提醒语音为提醒用户停止违法行为的语音，如：违法行为为外放声音，那么对应的提醒语音为“车厢内保持安静，请勿外放声音，谢谢合作”。

[0121] 详细地，本发明实施例中基于预设的违法行为与提醒语音的映射关系利用所述目标违法行为集对预设提醒语音库中的提醒语音进行筛选组合，得到目标提醒语音，包括：

[0122] 基于预设的违法行为与提醒语音的映射关系查询所述目标违法行为集中每中违法行为在所述提醒语音库中对应的提醒语音，得到违法提醒语音；

[0123] 将所有所述违法提醒语音封装为一个音频文件，得到所述目标提醒语音。

[0124] S11、将所述目标提醒语音发送至所述摄像头以使所述摄像头播放所述目标提醒语音。

[0125] 本发明实施例中将所述目标提醒语音发送至所述摄像头以使所述摄像头播放所述目标提醒语音，用来提醒所述公共区域内的乘客及时纠正自己的违法行为，营造良好的乘车环境。

[0126] 本发明另一实施例中还可以将所述目标提醒语音发送至所述摄像头后，还可以将所述摄像头的位置坐标发送至地铁安全员的终端设备，以提醒地铁安全员该摄像头的监控区域内有乘客有违法行为。

[0127] 实施例2：

[0128] 如图4所示，是本发明一实施例提供的地铁乘客行人违法行为智能分析装置的功能模块图，其可以实现实施例1中的监测方法。

[0129] 本发明所述地铁乘客行人违法行为智能分析装置100可以安装于电子设备中。根据实现的功能，所述地铁乘客行人违法行为智能分析装置100可以包括语音行为识别模块101、动作行为识别模块102、违法行为筛选模块103、提醒语音匹配发送模块104。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

[0130] 所述语音行为识别模块101用于获取地铁中公共区域摄像头预设时间区间的监控影像，并提取所述监控影像中的音频，得到监控音频；对所述监控音频进行音量监测及语义识别，并根据监测结果或识别结果对预设语音行为库中的语音行为进行筛选，得到目标语音行为集；

[0131] 所述动作行为识别模块102用于对所述监控影像中的视频帧进行筛选，得到多个分帧图像；利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量；根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量进行组合，得到图像特征矩阵；利用预构建的注意力机制函数对所述图像特征矩阵中的每个图像特征向量进行加权计算，得到图像加权特征矩阵；对所述图像加权特征矩阵进行降维操作，得到目标特征向量；利用softmax函数对所述目标特征向量进行计算，得到不同预设动作行为的识别概率，并将识别概率最高的所述动作行为确定为目标动作行为；

[0132] 所述违法行为筛选模块103用于利用所述目标语音行为集及所有所述目标动作行为对预设违法行为集中的违法行为进行筛选，得到目标违法行为集；

[0133] 所述提醒语音匹配发送模块103用于基于预设的违法行为与提醒语音的映射关系利用所述目标违法行为集对预设提醒语音库中的提醒语音进行筛选组合，得到目标提醒语音；将所述目标提醒语音发送至所述摄像头以使所述摄像头播放所述目标提醒语音。

[0134] 详细地，本发明实施例中所述地铁乘客行人违法行为智能分析装置100中的所述各模块在使用时采用与上述的图1中所述的地铁乘客行人违法行为智能分析方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

[0135] 实施例3：

[0136] 如图5所示，是本发明一实施例提供的实现地铁乘客行人违法行为智能分析方法的电子设备的结构示意图。

[0137] 所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如地铁乘客行人违法行为智能分析方法程序12。

[0138] 其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡（Smart Media Card， SMC）、安全数字（Secure Digital， SD）卡、闪存卡（Flash Card）等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如地铁乘客行人违法行为智能分析方法程序12的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

[0139] 所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心（Control Unit），利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块（例如地铁乘客行人违法行为智能分析方法程序等），以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

[0140] 所述总线可以是外设部件互连标准（peripheral component interconnect，简称PCI）总线或扩展工业标准结构（extended industry standard architecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

[0141] 图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

[0142] 例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi‑Fi模块等，在此不再赘述。

[0143] 进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口（如WI‑FI接口、蓝牙接口等），通常用于在该电子设备1与其他电子设备之间建立通信连接。

[0144] 可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light‑Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

[0145] 应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

[0146] 所述电子设备1中的所述存储器11存储的地铁乘客行人违法行为智能分析方法程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

[0147] 获取地铁中公共区域摄像头预设时间区间的监控影像，并提取所述监控影像中的音频，得到监控音频；

[0148] 对所述监控音频进行音量监测及语义识别，并根据监测结果或识别结果对预设语音行为库中的语音行为进行筛选，得到目标语音行为集；

[0149] 对所述监控影像中的视频帧进行筛选，得到多个分帧图像；

[0150] 利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量；

[0151] 根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量进行组合，得到图像特征矩阵；

[0152] 利用预构建的注意力机制函数对所述图像特征矩阵中的每个图像特征向量进行加权计算，得到图像加权特征矩阵；

[0153] 对所述图像加权特征矩阵进行降维操作，得到目标特征向量；

[0154] 利用softmax函数对所述目标特征向量进行计算，得到不同预设动作行为的识别概率，并将识别概率最高的所述动作行为确定为目标动作行为；

[0155] 利用所述目标语音行为集及所有所述目标动作行为对预设违法行为集中的违法行为进行筛选，得到目标违法行为集；

[0156] 基于预设的违法行为与提醒语音的映射关系利用所述目标违法行为集对预设提醒语音库中的提醒语音进行筛选组合，得到目标提醒语音；

[0157] 将所述目标提醒语音发送至所述摄像头以使所述摄像头播放所述目标提醒语音。

[0158] 具体地，所述处理器10对上述指令的具体实现方法可参考图1至图5对应实施例中相关步骤的描述，在此不赘述。

[0159] 进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read‑Only Memory）。

[0160] 本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：

[0161] 获取地铁中公共区域摄像头预设时间区间的监控影像，并提取所述监控影像中的音频，得到监控音频；

[0162] 对所述监控音频进行音量监测及语义识别，并根据监测结果或识别结果对预设语音行为库中的语音行为进行筛选，得到目标语音行为集；

[0163] 对所述监控影像中的视频帧进行筛选，得到多个分帧图像；

[0164] 利用训练完成的VGG模型对所述分帧图像进行特征提取，得到图像特征向量；

[0165] 根据所述分帧图像在所述监控影像中的先后顺序将对应的所述图像特征向量进行组合，得到图像特征矩阵；

[0166] 利用预构建的注意力机制函数对所述图像特征矩阵中的每个图像特征向量进行加权计算，得到图像加权特征矩阵；

[0167] 对所述图像加权特征矩阵进行降维操作，得到目标特征向量；

[0168] 利用softmax函数对所述目标特征向量进行计算，得到不同预设动作行为的识别概率，并将识别概率最高的所述动作行为确定为目标动作行为；

[0169] 利用所述目标语音行为集及所有所述目标动作行为对预设违法行为集中的违法行为进行筛选，得到目标违法行为集；

[0170] 基于预设的违法行为与提醒语音的映射关系利用所述目标违法行为集对预设提醒语音库中的提醒语音进行筛选组合，得到目标提醒语音；

[0171] 将所述目标提醒语音发送至所述摄像头以使所述摄像头播放所述目标提醒语音。

[0172] 在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

[0173] 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

[0174] 另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

[0175] 对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

[0176] 本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

[0177] 最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

地铁乘客行人违法行为智能分析方法及装置转让专利

申请号 : CN202210573569.1

文献号 : CN114677650B

文献日 : 2022-09-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 黄鑫 , 胡明 , 雷新 , 何光荣

申请人 : 武汉卓鹰世纪科技有限公司

摘要 :

权利要求 :

说明书 :