基于计算机视觉的建筑工地人员危险行为识别方法转让专利

申请号 : CN202210776516.X

文献号 : CN114842560B

文献日 : 2022-09-20

本发明涉及数据处理技术领域，具体涉及基于计算机视觉的建筑工地人员危险行为识别方法。方法包括：获取当前时间段内各帧待检测图像中目标人员的各关键点和空间坐标；根据所述目标人员的各关键点，构建所述目标人员的人体图；根据所述目标人员对应的右脚关键点的空间坐标和左脚关键点的空间坐标，得到所述目标人员的最小边界距离；根据所述目标人员对应的各关键点的空间坐标，得到当前时间段内目标人员的重心影响量；根据各帧待检测图像中目标人员的人体图，构建时空人体图；根据时空人体图、重心影响量、所述最小边界距离和训练好的目标识别网络，得到目标人员的动作行为。本发明提高了对建筑工人的搬运行为进行判断的可靠性。

1.一种基于计算机视觉的建筑工地人员危险行为识别方法，其特征在于，该方法包括以下步骤：获取建筑工地中目标人员在当前时间段内的待分析视频片段；所述待分析视频片段包括连续帧待检测图像，所述待检测图像中每个像素点对应一个深度值；

获取各帧待检测图像中目标人员对应的各关键点和所述各关键点对应的特征向量；根据各帧待检测图像中目标人员对应的各关键点，构建各帧待检测图像中目标人员对应的人体图；所述特征向量由关键点对应的空间坐标和关键点编码构建得到；

根据各帧待检测图像中目标人员对应的右脚关键点对应的空间坐标和左脚关键点对应的空间坐标，得到各帧待检测图像中目标人员对应的最小边界距离；所述最小边界距离为目标人员与建筑物边界的最近距离；

根据各帧待检测图像中目标人员对应的各关键点对应的空间坐标，得到当前时间段内目标人员对应的平均重心高度；根据所述平均重心高度，得到当前时间段内目标人员对应的重心影响量；

根据各帧待检测图像中目标人员对应的人体图，构建待分析视频片段对应的时空人体图；根据所述时空人体图、所述重心影响量、各帧待检测图像中目标人员对应的最小边界距离和训练好的目标识别网络，得到当前时间段内目标人员的动作行为；

获取各帧待检测图像中目标人员对应的各关键点和所述各关键点对应的特征向量；根据各帧待检测图像中目标人员对应的各关键点，构建各帧待检测图像中目标人员对应的人体图，包括：利用OpenPose模型分别对各帧待检测图像进行处理，得到各帧待检测图像中各目标人员对应的各关键点；

以各帧待检测图像的左下角的顶点为坐标原点，获取各帧待检测图像中目标人员对应的各关键点对应的空间坐标；所述空间坐标包括关键点在对应待检测图像中的横坐标、纵坐标和关键点对应的深度值；

对于任一待检测图像中的目标人员：

对该目标人员对应的各关键点进行One‑Hot编码，得到该待检测图像中的目标人员对应的各关键点对应的关键点编码；将该待检测图像中的目标人员对应的各关键点对应的空间坐标和关键点编码进行拼接，构建该待检测图像中的目标人员对应的各关键点对应的特征向量；

将该目标人员对应的各关键点按照预设连接规则进行连接，得到该目标人员对应的人体图；

所述根据各帧待检测图像中目标人员对应的右脚关键点对应的空间坐标和左脚关键点对应的空间坐标，得到各帧待检测图像中目标人员对应的最小边界距离，包括：对于任一待检测图像中的目标人员：

根据该待检测图像中的目标人员对应的右脚关键点对应的空间坐标和左脚关键点对应的空间坐标，计算得到该待检测图像中目标人员对应的定位点的空间坐标；

以该待检测图像中目标人员对应的定位点为原点，根据该待检测图像中各像素点的横坐标和纵坐标，对该待检测图像进行霍夫变换，得到对应的参数空间；

根据所述参数空间，获取该待检测图像中的所有直线和所有直线到原点的距离；

获取该待检测图像中每条直线上的各像素点以及各像素点对应的深度值；对于任一直线：判断该直线上各像素点对应的深度值之和是否大于等于预设的判断阈值，若大于等于，则判定该直线为建筑物边缘对应的直线，若小于，则判定该直线为承重柱对应的直线；

从各目标直线中选取出到原点的距离最小的目标直线，将该目标直线到原点的距离作为该待检测图像中目标人员对应的最小边界距离；所述目标直线为建筑物边缘对应的直线；

所述根据各帧待检测图像中目标人员对应的各关键点对应的空间坐标，得到当前时间段内目标人员对应的平均重心高度；根据所述平均重心高度，得到当前时间段内目标人员对应的重心影响量，包括：对于任一待检测图像中目标人员：计算该待检测图像中目标人员对应的各关键点对应的横坐标的均值，作为该待检测图像中目标人员对应的重心的横坐标；计算该待检测图像中目标人员对应的各关键点对应的纵坐标的均值，作为该待检测图像中目标人员对应的重心的纵坐标；计算该待检测图像中目标人员对应的各关键点对应的深度值的均值，作为该待检测图像中目标人员对应的重心的深度值；根据所述重心的横坐标、纵坐标和深度值，得到所述重心的空间坐标；

根据各帧待检测图像中目标人员对应的重心的空间坐标和各帧待检测图像中目标人员对应的定位点的空间坐标，计算得到各帧待检测图像中目标人员对应的重心的高度；

根据各帧待检测图像中目标人员对应的重心的高度，构建重心变化函数，所述重心变化函数的自变量为帧数；根据所述重心变化函数，计算所述重心变化函数的样本熵；

根据所述重心变化函数，计算当前时间段内目标人员的平均重心高度；

计算当前时间段内目标人员的平均重心高度与上一个时间段内目标人员对应的平均重心高度的差值的绝对值，记为差异程度；

根据所述重心变化函数的样本熵和所述差异程度，计算当前时间段内目标人员对应的重心影响量；

所述根据所述重心变化函数，计算当前时间段内目标人员的平均重心高度的公式为：

其中，为当前时间段内目标人员的平均重心高度，为所述重心变化函数，为当前时间段包含的帧数。

2.根据权利要求1所述的基于计算机视觉的建筑工地人员危险行为识别方法，其特征在于，根据该待检测图像中的目标人员对应的右脚关键点对应的空间坐标和左脚关键点对应的空间坐标，计算得到该待检测图像中目标人员对应的定位点的空间坐标，包括：计算该待检测图像中的目标人员对应的右脚关键点对应的横坐标和左脚关键点对应的横坐标的平均值，作为所述定位点对应的横坐标；

计算该待检测图像中的目标人员对应的右脚关键点对应的纵坐标和左脚关键点对应的纵坐标的平均值，作为所述定位点对应的纵坐标；

计算该待检测图像中的目标人员对应的右脚关键点对应的深度值和左脚关键点对应的深度值的平均值，作为所述定位点对应的深度值；

根据所述定位点对应的横坐标、纵坐标和深度值，得到所述定位点对应的空间坐标。

3.根据权利要求1所述的基于计算机视觉的建筑工地人员危险行为识别方法，其特征在于，根据所述重心变化函数的样本熵和所述差异程度，计算当前时间段内目标人员对应的重心影响量的公式为：其中，为当前时间段内目标人员对应的重心影响量，为所述重心变化函数的样本熵，为所述差异程度，为比例参数。

4.根据权利要求1所述的基于计算机视觉的建筑工地人员危险行为识别方法，其特征在于，根据各帧待检测图像中目标人员对应的人体图，构建待分析视频片段对应的时空人体图，包括：获取各帧待检测图像中目标人员对应的各关键点的序号；

按照时间顺序将当前时间段内各时刻下目标人员对应的人体图中的序号相同的关键点相连，得到待分析视频片段对应的时空人体图；所述各时刻下目标人员为各帧待检测图像中的目标人员，一个时刻对应一帧待检测图像。

5.根据权利要求4所述的基于计算机视觉的建筑工地人员危险行为识别方法，其特征在于，根据所述时空人体图、所述重心影响量、各帧待检测图像中目标人员对应的最小边界距离和训练好的目标识别网络，得到当前时间段内目标人员的动作行为，包括：对于时空人体图中任一时刻下目标人员对应的任一关键点：根据当前时间段对应的重心影响量，得到该关键点对应的空间宽度；根据该时刻对应的待检测图像中目标人员对应的最小边界距离，得到该关键点对应的时间宽度；根据该关键点对应的空间宽度，获取该关键点对应的空间邻域集合；根据该关键点对应的时间宽度，获取该关键点对应的时间邻域集合；根据该关键点对应的空间邻域集合和时间邻域集合，得到该关键点对应的邻域集合；

将当前时间段对应的时空人体图、时空人体图中各时刻对应的人体图中各关键点对应的时间宽度和各关键点对应的空间宽度输入到训练好的目标识别网络中，得到当前时间段内目标人员的动作行为；

所述将当前时间段对应的时空人体图、时空人体图中各时刻对应的人体图中各关键点对应的时间宽度和各关键点对应的空间宽度输入到训练好的目标识别网络中，得到当前时间段内目标人员的动作行为，包括：所述目标识别网络包括注意力机制和多层感知器；

对于注意力机制：计算输入到网络中的时空人体图中各时刻对应的人体图中各关键点与对应的邻域集合中各关键点之间的权重；根据时空人体图中各时刻对应的人体图中各关键点与对应的邻域集合中各关键点之间的权重，对输入的时空人体图中各时刻对应的人体图中各关键点对应的特征向量进行聚合处理，得到时空人体图中各时刻对应的人体图中各关键点对应的目标特征向量；

对于多层感知器：按照时空人体图中各时刻对应的人体图中各关键点的序号的排列顺序，将各时刻对应的人体图中各关键点对应的目标特征向量依次拼接在一起，得到各时刻对应的片段向量；将各时刻对应的片段向量按照时间顺序进行首尾拼接，得到当前时间段对应的综合向量；将所述综合向量输入到多层感知器中，得到当前时间段内目标人员的动作行为；所述动作行为包括正常搬运和违规抛物。

6.根据权利要求5所述的基于计算机视觉的建筑工地人员危险行为识别方法，其特征在于，所述根据当前时间段对应的重心影响量，得到该关键点对应的空间宽度的计算公式为：其中，为该关键点对应的空间宽度，为空间宽度上限，为当前时间段内目标人员对应的重心影响量，为第一比例系数，为取整函数；

所述根据该时刻对应的待检测图像中目标人员对应的最小边界距离，得到该关键点对应的时间宽度的计算公式为：其中，为该关键点对应的时间宽度，为该时刻对应的目标人员对应的最小边界距离，为第二比例系数，为时间宽度上限。

7.根据权利要求5所述的基于计算机视觉的建筑工地人员危险行为识别方法，其特征在于，所述该关键点对应的空间邻域集合包括：以该关键点对应的空间宽度为第一邻域范围，在该时刻对应的人体图中选取该关键点的第一邻域范围内的各关键点作为该关键点对应的空间邻域集合；所述该关键点对应的时间邻域集合包括：以该关键点对应的时间宽度为第二邻域范围，在当前时间段内选取该时刻的第一邻域范围内各时刻对应的人体图中与该关键点的序号和该关键点对应的空间邻域集合中的各关键点的序号相同的各关键点作为该关键点对应的时间邻域集合。

基于计算机视觉的建筑工地人员危险行为识别方法

技术领域

[0001] 本发明涉及数据处理技术领域，具体涉及基于计算机视觉的建筑工地人员危险行为识别方法。

背景技术

[0002] 建筑行业是一种基础的建设行业，由于建筑工地的地形复杂，容易发生安全事故，因此建筑工人是一种高危职业；一方面在建筑工地中由于物体打击造成的人员死亡事故占了很大一部分，另一方面是有些建筑工人面对大量重的建筑材料时，可能会抱有侥幸心理，贪图方便，不进行搬运，而是直接向高于所在平面或低于所在平面的地方抛掷钢管水泥等建筑材料，进而可能砸到其他的建筑工人，引发严重的生命安全事故。因此，人们安排了监工来监督建筑工人，使建筑工人按照规定对建筑材料进行搬运，并对违反者进行警告。

[0003] 考虑到监工难以时时刻刻的监视所有的建筑工人，并且观察具有主观性，难以对建筑工人的搬运行为进行准确的判断，可靠性较低。

发明内容

[0004] 为了解决现有技术难以对建筑工人的搬运行为进行准确判断的问题，本发明的目的在于提供一种基于计算机视觉的建筑工地人员危险行为识别方法，所采用的技术方案具体如下：

[0005] 本发明提供了一种基于计算机视觉的建筑工地人员危险行为识别方法包括以下步骤：

[0006] 获取建筑工地中目标人员在当前时间段内的待分析视频片段；所述待分析视频片段包括连续帧待检测图像，所述待检测图像中每个像素点对应一个深度值；

[0007] 获取各帧待检测图像中目标人员对应的各关键点和所述各关键点对应的特征向量；根据各帧待检测图像中目标人员对应的各关键点，构建各帧待检测图像中目标人员对应的人体图；所述特征向量由关键点对应的空间坐标和关键点编码构建得到；

[0008] 根据各帧待检测图像中目标人员对应的右脚关键点对应的空间坐标和左脚关键点对应的空间坐标，得到各帧待检测图像中目标人员对应的最小边界距离；所述最小边界距离为目标人员与建筑物边界的最近距离；

[0009] 根据各帧待检测图像中目标人员对应的各关键点对应的空间坐标，得到当前时间段内目标人员对应的平均重心高度；根据所述平均重心高度，得到当前时间段内目标人员对应的重心影响量；

[0010] 根据各帧待检测图像中目标人员对应的人体图，构建待分析视频片段对应的时空人体图；根据所述时空人体图、所述重心影响量、各帧待检测图像中目标人员对应的最小边界距离和训练好的目标识别网络，得到当前时间段内目标人员的动作行为。

[0011] 优选的，获取各帧待检测图像中目标人员对应的各关键点和所述各关键点对应的特征向量；根据各帧待检测图像中目标人员对应的各关键点，构建各帧待检测图像中目标人员对应的人体图，包括：

[0012] 利用OpenPose模型分别对各帧待检测图像进行处理，得到各帧待检测图像中各目标人员对应的各关键点；

[0013] 以各帧待检测图像的左下角的顶点为坐标原点，获取各帧待检测图像中目标人员对应的各关键点对应的空间坐标；所述空间坐标包括关键点在对应待检测图像中的横坐标、纵坐标和关键点对应的深度值；

[0014] 对于任一待检测图像中的目标人员：

[0015] 对该目标人员对应的各关键点进行One‑Hot编码，得到该待检测图像中的目标人员对应的各关键点对应的关键点编码；将该待检测图像中的目标人员对应的各关键点对应的空间坐标和关键点编码进行拼接，构建该待检测图像中的目标人员对应的各关键点对应的特征向量；

[0016] 将该目标人员对应的各关键点按照预设连接规则进行连接，得到该目标人员对应的人体图。

[0017] 优选的，所述根据各帧待检测图像中目标人员对应的右脚关键点对应的空间坐标和左脚关键点对应的空间坐标，得到各帧待检测图像中目标人员对应的最小边界距离，包括：

[0018] 对于任一待检测图像中的目标人员：

[0019] 根据该待检测图像中的目标人员对应的右脚关键点对应的空间坐标和左脚关键点对应的空间坐标，计算得到该待检测图像中目标人员对应的定位点的空间坐标；

[0020] 以该待检测图像中目标人员对应的定位点为原点，根据该待检测图像中各像素点的横坐标和纵坐标，对该待检测图像进行霍夫变换，得到对应的参数空间；

[0021] 根据所述参数空间，获取该待检测图像中的所有直线和所有直线到原点的距离；

[0022] 获取该待检测图像中每条直线上的各像素点以及各像素点对应的深度值；对于任一直线：判断该直线上各像素点对应的深度值之和是否大于等于预设的判断阈值，若大于等于，则判定该直线为建筑物边缘对应的直线，若小于，则判定该直线为承重柱对应的直线；

[0023] 从各目标直线中选取出到原点的距离最小的目标直线，将该目标直线到原点的距离作为该待检测图像中目标人员对应的最小边界距离；所述目标直线为建筑物边缘对应的直线。

[0024] 优选的，根据该待检测图像中的目标人员对应的右脚关键点对应的空间坐标和左脚关键点对应的空间坐标，计算得到该待检测图像中目标人员对应的定位点的空间坐标，包括：

[0025] 计算该待检测图像中的目标人员对应的右脚关键点对应的横坐标和左脚关键点对应的横坐标的平均值，作为所述定位点对应的横坐标；

[0026] 计算该待检测图像中的目标人员对应的右脚关键点对应的纵坐标和左脚关键点对应的纵坐标的平均值，作为所述定位点对应的纵坐标；

[0027] 计算该待检测图像中的目标人员对应的右脚关键点对应的深度值和左脚关键点对应的深度值的平均值，作为所述定位点对应的深度值；

[0028] 根据所述定位点对应的横坐标、纵坐标和深度值，得到所述定位点对应的空间坐标。

[0029] 优选的，所述根据各帧待检测图像中目标人员对应的各关键点对应的空间坐标，得到当前时间段内目标人员对应的平均重心高度；根据所述平均重心高度，得到当前时间段内目标人员对应的重心影响量，包括：

[0030] 对于任一待检测图像中目标人员：计算该待检测图像中目标人员对应的各关键点对应的横坐标的均值，作为该待检测图像中目标人员对应的重心的横坐标；计算该待检测图像中目标人员对应的各关键点对应的纵坐标的均值，作为该待检测图像中目标人员对应的重心的纵坐标；计算该待检测图像中目标人员对应的各关键点对应的深度值的均值，作为该待检测图像中目标人员对应的重心的深度值；根据所述重心的横坐标、纵坐标和深度值，得到所述重心的空间坐标；

[0031] 根据各帧待检测图像中目标人员对应的重心的空间坐标和各帧待检测图像中目标人员对应的定位点的空间坐标，计算得到各帧待检测图像中目标人员对应的重心的高度；

[0032] 根据各帧待检测图像中目标人员对应的重心的高度，构建重心变化函数，所述重心变化函数的自变量为帧数；根据所述重心变化函数，计算所述重心变化函数的样本熵；

[0033] 根据所述重心变化函数，计算当前时间段内目标人员的平均重心高度；

[0034] 计算当前时间段内目标人员的平均重心高度与所述上一个时间段内目标人员对应的平均重心高度的差值的绝对值，记为差异程度；

[0035] 根据所述重心变化函数的样本熵和所述差异程度，计算当前时间段内目标人员对应的重心影响量；

[0036] 所述根据重心变化函数，计算当前时间段内目标人员的平均重心高度的公式为：

[0037]

[0038] 其中，为当前时间段内目标人员的平均重心高度，为所述重心变化函数，为当前时间段包含的帧数。

[0039] 优选的，根据所述重心变化函数的样本熵和所述差异程度，计算当前时间段内目标人员对应的重心影响量的公式为：

[0040]

[0041] 其中，为当前时间段内目标人员对应的重心影响量，为所述重心变化函数的样本熵，为所述差异程度，为比例参数。

[0042] 优选的，根据各帧待检测图像中目标人员对应的人体图，构建待分析视频片段对应的时空人体图，包括：

[0043] 获取各帧待检测图像中目标人员对应的各关键点的序号；

[0044] 按照时间顺序将当前时间段内各时刻下目标人员对应的人体图中的序号相同的关键点相连，得到待分析视频片段对应的时空人体图；所述各时刻下目标人员为各帧待检测图像中的目标人员，一个时刻对应一帧待检测图像。

[0045] 优选的，根据所述时空人体图、所述重心影响量、各帧待检测图像中目标人员对应的最小边界距离和训练好的目标识别网络，得到当前时间段内目标人员的动作行为，包括：

[0046] 对于时空人体图中任一时刻下目标人员对应的任一关键点：根据当前时间段对应的重心影响量，得到该关键点对应的空间宽度；根据该时刻对应的待检测图像中目标人员对应的最小边界距离，得到该关键点对应的时间宽度；根据该关键点对应的空间宽度，获取该关键点对应的空间邻域集合；根据该关键点对应的时间宽度，获取该关键点对应的时间邻域集合；根据该关键点对应的空间邻域集合和时间邻域集合，得到该关键点对应的邻域集合；

[0047] 将当前时间段对应的时空人体图、时空人体图中各时刻对应的人体图中各关键点对应的时间宽度和各关键点对应的空间宽度输入到训练好的目标识别网络中，得到当前时间段内目标人员的动作行为；

[0048] 所述将当前时间段对应的时空人体图、时空人体图中各时刻对应的人体图中各关键点对应的时间宽度和各关键点对应的空间宽度输入到训练好的目标识别网络中，得到当前时间段内目标人员的动作行为，包括：

[0049] 所述目标识别网络包括注意力机制和多层感知器；

[0050] 对于注意力机制：计算输入到网络中的时空人体图中各时刻对应的人体图中各关键点与对应的邻域集合中各关键点之间的权重；根据时空人体图中各时刻对应的人体图中各关键点与对应的邻域集合中各关键点之间的权重，对输入的时空人体图中各时刻对应的人体图中各关键点对应的特征向量进行聚合处理，得到时空人体图中各时刻对应的人体图中各关键点对应的目标特征向量；

[0051] 对于多层感知器：按照时空人体图中各时刻对应的人体图中各关键点的序号的排列顺序，将各时刻对应的人体图中各关键点对应的目标特征向量依次拼接在一起，得到各时刻对应的片段向量；将各时刻对应的片段向量按照时间顺序进行首尾拼接，得到当前时间段对应的综合向量；将所述综合向量输入到多层感知器中，得到当前时间段内目标人员的动作行为；所述动作行为包括正常搬运和违规抛物。

[0052] 优选的，所述根据当前时间段对应的重心影响量，得到该关键点对应的空间宽度的计算公式为：

[0053]

[0054] 其中，为该关键点对应的空间宽度，为空间宽度上限，为当前时间段内目标人员对应的重心影响量，为第一比例系数，为取整函数；

[0055] 所述根据该时刻对应的待检测图像中目标人员对应的最小边界距离，得到该关键点对应的时间宽度的计算公式为：

[0056]

[0057] 其中，为该关键点对应的时间宽度，为该时刻对应的目标人员对应的最小边界距离，为第二比例系数，为时间宽度上限。

[0058] 优选的，所述该关键点对应的空间邻域集合包括：以该关键点对应的空间宽度为第一邻域范围，在该时刻对应的人体图中选取该关键点的第一邻域范围内的各关键点作为该关键点对应的空间邻域集合；所述该关键点对应的时间邻域集合包括：以该关键点对应的时间宽度为第二邻域范围，在当前时间段内选取该时刻的第一邻域范围内各时刻对应的人体图中与该关键点的序号和该关键点对应的空间邻域集合中的各关键点的序号相同的各关键点作为该关键点对应的时间邻域集合。

[0059] 本发明具有如下有益效果：

[0060] 本发明首先获取建筑工地中目标人员在当前时间段内的待分析视频片段和待分析视频片段中各帧待检测图像中目标人员对应的各关键点和所述各关键点对应的空间坐标；根据获取的数据，本发明根据各帧待检测图像中目标人员对应的各关键点，构建各帧待检测图像中目标人员对应的人体图；然后根据各帧待检测图像中目标人员对应的右脚关键点对应的空间坐标和左脚关键点对应的空间坐标，得到各帧待检测图像中目标人员对应的最小边界距离，并根据各帧待检测图像中目标人员对应的各关键点对应的空间坐标，得到当前时间段内目标人员对应的重心影响量；最后根据各帧待检测图像中目标人员对应的人体图，构建待分析视频片段对应的时空人体图，进而根据所述时空人体图、所述重心影响量、各帧待检测图像中目标人员对应的最小边界距离和训练好的目标识别网络，得到当前时间段内目标人员的动作行为。本发明引入了计算机视觉技术代替监工来识别建筑工人的行为，克服了监工对建筑工人的搬运行为进行判断存在主观性的问题，提高了对建筑工人的搬运行为进行判断的可靠性。

附图说明

[0061] 为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

[0062] 图1为本发明提供的一种基于计算机视觉的建筑工地人员危险行为识别方法的流程图。

具体实施方式

[0063] 为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功能效果，以下结合附图及较佳实施例，对依据本发明提出的一种基于计算机视觉的建筑工地人员危险行为识别方法进行详细说明如下。

[0064] 除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

[0065] 下面结合附图具体的说明本发明所提供的一种基于计算机视觉的建筑工地人员危险行为识别方法的具体方案。

[0066] 基于计算机视觉的建筑工地人员危险行为识别方法实施例：

[0067] 如图1所示，本实施例的一种基于计算机视觉的建筑工地人员危险行为识别方法包括以下步骤：

[0068] 步骤S1，获取建筑工地中目标人员在当前时间段内的待分析视频片段；所述待分析视频片段包括连续帧待检测图像。

[0069] 考虑到在建筑工地中监工难以时时刻刻的监视所有的建筑工人，并且由于观察具有主观性，难以对建筑工人的搬运行为进行准确的判断，可靠性较低；本实施例引入了计算机视觉技术代替监工来识别建筑工人的行为，判断施工现场建筑工人是否存在违规抛掷建筑材料的行为，进而对由于事故造成的人身伤害的情况进行预防。

[0070] 由于建筑工人的行为较为复杂，日常也有很多搬运的动作，因此对建筑工人的行为识别的过程也是比较困难的。本实施例利用计算机视觉和人工智能技术来解决以上问题。

[0071] 本实施例在易发生违规抛物的场地中安装高分辨率RGBD相机，以实时录制工地的视频，其帧率为30FPS，即每秒有30帧图像，每帧图像中的每个像素点对应一个深度值；本实施例在对工地进行视频录制时，每隔2秒截取一个视频片段，然后对视频片段中的人员的行为进行分析。本实施例以当前时间段内的视频片段中任意一个建筑人员为例进行分析，所述当前时间段为当前时刻之前2秒的时间段，本实施例将当前时间段内的视频片段记为待检测视频片段，将待检测视频片段中的连续帧图像记为待检测图像，将所述任意一个建筑人员记为目标人员。

[0072] 步骤S2，获取各帧待检测图像中目标人员对应的各关键点和所述各关键点对应的特征向量；根据各帧待检测图像中目标人员对应的各关键点，构建各帧待检测图像中目标人员对应的人体图。

[0073] 本实施例以待检测图像的左下角的顶点为坐标原点构建三维直角坐标系，其中，x轴为图像的水平方向（即横坐标），y轴为图像的竖直方向（即纵坐标），z轴为垂直于图像的方向，z轴表示的各像素点对应的深度值，进而可以得到待检测图像中各像素点对应的三维空间坐标（记为空间坐标），以得到对应的三维图像。

[0074] 本实施例为了对待分析视频片段中目标人员的行为进行识别，本实施例首先利用OpenPose模型分别对待分析视频片段对应的各帧待检测图像进行处理，得到各帧待检测图像中各目标人员对应的各关键点；目标人员对应的各关键点包括：鼻子关键点，脖子关键点，右肩膀关键点，右手肘关键点，右手手腕关键点，右手中指指尖关键点，左肩膀关键点，左手肘关键点，左手手腕关键点，左手中指指尖关键点，右胯关键点、右膝关键点、右脚关键点、左胯关键点、左膝关键点、左脚关键点、右眼关键点、左眼关键点、右耳关键点、左耳关键点，共20个关键点（即一张待检测图像中目标人员对应20个关键点），上述顺序为各关键点的排列顺序，其角标为对应关键点的序号，例如右脚关键点，则右脚关键点是序号为13的关键点；OpenPose模型中的相关组件可以解决关键点的归属问题，得到属于目标人员的各关键点；所述OpenPose模型为现有技术，在此就不再赘述。

[0075] 至此本实施例能够得到各帧待检测图像中目标人员对应的各关键点，以及各关键点对应的空间坐标，所述各关键点对应的空间坐标为各关键点在对应待检测图像中的对应的像素点的空间坐标。

[0076] 对于任一待检测图像中的目标人员：对该待检测图像中的目标人员对应的各关键点进行One‑Hot编码，得到该待检测图像中的目标人员对应的各关键点对应的编码，记为关键点编码，例如鼻子关键点对应的关键点编码为(1,0,0,…,0)；所述关键点编码能够反映对应关键点为哪一个身体部位，以便后续进行关键点的连接。本实施例中所述One‑Hot编码为现有技术，在此就不再赘述。

[0077] 本实施例根据各帧待检测图像中的目标人员对应的各关键点对应的空间坐标和关键点编码，构建各帧待检测图像中的目标人员对应的各关键点对应的特征向量，所述特征向量是由对应的空间坐标和关键点编码拼接得到的；所述特征向量用来作为后续的网络的输入。

[0078] 本实施例根据各帧待检测图像中的目标人员对应的各关键点，构建各帧待检测图像中的目标人员对应的人体图；对于任一待检测图像中的目标人员：本实施例按照预设连接规则将该待检测图像中的目标人员对应的各关键点进行连接（即根据人体不同部位的位置来进行连接），即预设连接规则为：，，，，，，，，，，，，，，
，，，，；将该待检测图像中的目标人员对应的
各关键点进行连接后，得到该待检测图像中的目标人员对应的人体图；所述人体图中的每个关键点对应一个特征向量。

[0079] 步骤S3，根据各帧待检测图像中目标人员对应的右脚关键点对应的空间坐标和左脚关键点对应的空间坐标，得到各帧待检测图像中目标人员对应的最小边界距离；所述最小边界距离为目标人员与建筑物边界的最近距离。

[0080] 考虑到违规抛掷建筑材料的动作的特点是执行动作的建筑工人需要使用一定的力量才能进行抛掷，并且执行动作的地点一般在建筑结构的边缘；因此本实施例分别对各帧待检测图像中目标人员与建筑物边缘的距离进行分析，具体的：

[0081] 对于任一待检测图像中的目标人员：

[0082] 首先获取该待检测图像中目标人员对应的右脚关键点对应的空间坐标和左脚关键点对应的空间坐标；根据所述右脚关键点对应的空间坐标和左脚关键点对应的空间坐标，计算得到该待检测图像中目标人员对应的定位点的空间坐标，所述定位点用来确定该待检测图像中目标人员所处位置的点；所述定位点的空间坐标为：

[0083]

[0084] 其中，为该待检测图像中目标人员对应的定位点的空间坐标，为该待检测图像中目标人员对应的定位点的横坐标，为该待检测图像中目标人员对应的定位点的纵坐标，为该待检测图像中目标人员对应的定位点的深度值，为该待检测图像中目标人员对应的右脚关键点的横坐标，为该待检测图像中目标人员对应的左脚关键点的横坐标，为该待检测图像中目标人员对应的右脚关键点的纵坐标，为该待检测图像中目标人员对应的左脚关键点的纵坐标，为该待检测图像中目标人员对应的右脚关键点的深度值，为该待检测图像中目标人员对应的左脚关键点的深度值；则该待检测图像中目标人员对应的定位点的空间坐标为：。

[0085] 然后本实施例将三维图像转换为二维图像（即仅关注该待检测图像中各像素点的横坐标和纵坐标）；使用霍夫直线拟合该目标人员所在的建筑物的边界，进而得到该目标人员与建筑物边缘的最近距离（记为最小边缘距离），具体的：

[0086] 根据该待检测图像中各像素点的横坐标和纵坐标，对该待检测图像进行霍夫变换，转化为参数空间；在参数空间中，以该待检测图像中目标人员对应的定位点作为参数空间坐标系的原点，且图像中每个像素点都转化成了一条直线；然后根据霍夫变换中的算法得到图像中的所有直线，每条直线表示为，其中，为直线到原点的距离，为方向角。

[0087] 进一步地，获取该待检测图像中每条直线上的各像素点以及各像素点对应的深度值；根据该待检测图像中每条直线上的各像素点对应的深度值判断直线是否为承重柱；考虑到图像中承重柱对应的直线上的像素点的深度值基本上是相同的，因此对于任一直线：判断该直线上各像素点对应的深度值之和是否大于等于预设的判断阈值，若大于等于，则判定该直线为建筑物边缘对应的直线，若小于，则判定该直线为承重柱对应的直线。所述预设的判断阈值的大小根据实际需要进行设置。

[0088] 判断一条直线是否为建筑物中垂直的承重柱对应的直线，便于后续将其忽视，因为违规抛物行为考虑的是建筑物边缘的直线，而不是承重柱的直线；至此，本实施例得到了该待检测图像中建筑物边缘对应的直线，记为目标直线；本实施例从各目标直线中选取最小的目标直线（即到原点的距离最小的目标直线），将该目标直线对应的作为该待检测图像中目标人员对应的最小边界距离。

[0089] 至此本实施例能够得到各帧待检测图像中目标人员对应的最小边界距离。

[0090] 步骤S4，根据各帧待检测图像中目标人员对应的各关键点对应的空间坐标，得到当前时间段内目标人员对应的平均重心高度；根据所述平均重心高度，得到当前时间段内目标人员对应的重心影响量。

[0091] 考虑到当建筑工人进行建筑材料搬运时，由于手持重物会影响建筑工人的行走速度，并且由于建筑材料的重量不同，建筑工人的重心也会发生不同的变化，即在建筑工人的重心发生变化的时间点，往往是由于建筑材料的重量发生了变化；因此在建筑工人搬运或抛掷的过程中必然会导致重心位置的变化。

[0092] 接下来，本实施例根据各帧待检测图像中目标人员的重心的位置，得到当前时间段内目标人员对应的重心影响量；所述重心影响量反映了当前时间段内目标人员的重心的变化情况，具体的：

[0093] 首先获取各帧待检测图像中目标人员对应的重心的空间坐标，对于任一待检测图像中目标人员，该待检测图像中目标人员对应的重心的空间坐标为：

[0094]

[0095] 其中，为该待检测图像中目标人员对应的重心的空间坐标，为该待检测图像中目标人员对应的重心的横坐标，为该待检测图像中目标人员对应的重心的纵坐标，为该待检测图像中目标人员对应的重心的深度值，为该待检测图像中目标人员对应的序号为i的关键点对应的横坐标，为该待检测图像中目标人员对应的序号为i的关键点对应的纵坐标，为该待检测图像中目标人员对应的序号为i的关键点对应的深度值；即该待检测图像中目标人员对应的重心的空间坐标为：。

[0096] 然后，本实施例根据各帧待检测图像中目标人员对应的重心的空间坐标和各帧待检测图像中目标人员对应的定位点的空间坐标，计算得到各帧待检测图像中目标人员对应的重心的高度，对于任一待检测图像中目标人员对应的重心的高度，即：

[0097]

[0098] 其中，为该待检测图像中目标人员对应的重心的高度。至此，本实施例能够得到各帧待检测图像中目标人员对应的重心的高度。

[0099] 本实施例根据各帧待检测图像中目标人员对应的重心的高度，得到随帧数变化而变化的重心变化函数，即所述重心变化函数的自变量为帧数；根据所述重心变化函数，计算所述重心变化函数的样本熵，所述样本熵能够反映重心高度变化的无序程度，样本熵越大，说明在当前时间段内重心变化的越无序，重心变化越不稳定；样本熵越小，说明在当前时间段内重心变化的越有序，重心变化越稳定；本实施例中计算样本熵的过程为公知技术，在此就不再赘述。

[0100] 根据重心变化函数，计算当前时间段内目标人员的平均重心高度，即：

[0101]

[0102] 其中，为当前时间段内目标人员的平均重心高度，m为当前时间段对应的帧数，本实施例中当前时间段对应60帧待检测图像，即m=60。

[0103] 同理，本实施例根据上述过程，获取当前时间段的上一个时间段内目标人员对应的平均重心高度；计算当前时间段内目标人员的平均重心高度与所述上一个时间段内目标人员对应的平均重心高度的差值的绝对值，记为差异程度。

[0104] 最后本实施例根据所述重心变化函数的样本熵和所述差异程度，计算当前时间段内目标人员对应的重心影响量，即：

[0105]

[0106] 其中，为当前时间段内目标人员对应的重心影响量，为所述重心变化函数的样本熵，为所述差异程度，为比例参数，所述比例参数用来衡量和的比例，的取值根据实际需要进行设置。

[0107] 至此本实施例得到了当前时间段内目标人员对应的重心影响量。

[0108] 步骤S5，根据各帧待检测图像中目标人员对应的人体图，构建待分析视频片段对应的时空人体图；根据所述时空人体图、所述重心影响量、各帧待检测图像中目标人员对应的最小边界距离和训练好的目标识别网络，得到当前时间段内目标人员的动作行为。

[0109] 为了对待分析视频片段中目标人员的行为进行分析，本实施例根据各帧待检测图像中目标人员对应的人体图，来构建待分析视频片段对应时空人体图，具体的：

[0110] 当前时间段对应的每一帧对应当前时间段内的一个时刻，每一个时刻对应一个待检测图像中目标人员的人体图；即每一个时刻对应一个该时刻下目标人员的人体图。

[0111] 本实施例按照时间顺序将当前时间段内各时刻下目标人员对应的人体图中的序号相同的关键点相连，进而得到待分析视频片段对应的时空人体图。

[0112] 本实施例根据步骤S3和步骤S4得到了的各帧待检测图像中目标人员对应的最小边界距离和当前时间段内目标人员对应的重心影响量，自适应地构建时空人体图中每个时刻对应的人体图中各关键点对应的邻域集合，所述邻域集合包括空间邻域集合和时间邻域集合，具体的：

[0113] 对于时空人体图中任一时刻下目标人员对应的任一关键点：

[0114] 第一，根据当前时间段对应的重心影响量，得到该关键点对应的空间宽度。本实施例将该时刻对应的人体图中与该关键点直接相连的关键点称为该关键点对应的一阶关键点；将该时刻对应的人体图中不包括一阶关键点的剩下的各关键点中凡是与一阶关键点相连的关键点称为该关键点对应的二阶关键点；将该时刻对应的人体图中除去该关键点对应的一阶关键点和二阶关键点外的其他关键点中凡是与二阶关键点相连的关键点称为该关键点对应的三阶关键点，以此类推；该关键点对应的所有阶关键点属于该时刻对应的人体图中的各关键点，不超出该人体图。本实施例将该关键点对应的空间宽度作为第一邻域范围，用来确定该关键点对应的空间邻域集合，例如，若该关键点对应的空间宽度为2（即此时第一邻域范围为2），则该关键点对应的空间邻域集合包括该关键点对应的各一阶关键点和各二阶关键点（即在该时刻对应的人体图中该关键点的第一邻域范围内的各关键点）；若该关键点对应的空间宽度为3（即此时第一邻域范围为3），则该关键点对应的空间邻域集合包括该关键点对应的各一阶关键点、各二阶关键点和各三阶关键点（即在该时刻对应的人体图中该关键点的第一邻域范围内的各关键点）。本实施例中该关键点对应的空间宽度的计算公式为：

[0115]

[0116] 其中，为该关键点对应的空间宽度，为空间宽度上限，为当前时间段内目标人员对应的重心影响量，为第一比例系数，为取整函数（向下取整）；的取值根据实际需要来设置；的大小应与该关键点对应的最高阶关键点的阶数相同，所以的大小需根据实际需要来设置；根据上述公式，G越大，说明当前时间段内目标人员对应的重心越不稳定，越需要增加空间邻域的感知范围。

[0117] 第二，根据该时刻对应的待检测图像中目标人员对应的最小边界距离，得到该关键点对应的时间宽度。本实施例将该关键点对应的时间宽度作为该时刻的第二邻域范围T，选取当前时间段内该时刻之前的T个时刻对应的人体图中与该关键点的序号和该关键点对应的空间邻域集合中的各关键点的序号相同的各关键点，选取当前时间段内该时刻之后的T个时刻对应的人体图中与该关键点的序号和该关键点对应的空间邻域集合中的各关键点的序号相同的各关键点，作为该关键点对应的时间邻域集合（若该时刻之前或之后不足T个时刻，则将当前时间段内该时刻之前或之后的所有时刻对应的人体图中获取该关键点对应的时间邻域集合），即当前时刻之前的T个时刻时间和之后的T个时刻作为该时刻的第二邻域范围；本实施例中该关键点对应的时间宽度的计算公式为：

[0118]

[0119] 其中，为该关键点对应的时间宽度，为该时刻对应的目标人员对应的最小边界距离（即该帧待检测图像中目标人员对应的最小边界距离），为第二比例系数，为时间宽度上限；本实施例中根据实际需要来设置；为可取的最大时间宽度，其大小需根据当前时间段包含的各时刻的数量（即帧数）来设置；根据上述公式，最小边界距离越小，说明目标人员与建筑物边缘越接近，应增加时间邻域的范围。

[0120] 至此本实施例能够得到时空人体图中各时刻对应的人体图中各关键点对应的空间邻域集合和时间邻域集合，进而得到时空人体图中各时刻对应的人体图中的各关键点对应的邻域集合。本实施例根据重心影响量、各帧待检测图像中目标人员对应的最小边界距离来调节时空人体图中各关键点的感知域，将越可能是违规抛物的行为进行更深层次的聚合，越不可能是违规抛物的行为进行少的聚合，以此降低计算量。

[0121] 然后本实施例将当前时间段对应的时空人体图、时空人体图中各时刻对应的人体图中各关键点对应的时间宽度和各关键点对应的空间宽度输入到训练好的目标识别网络中，以得到当前时间段内目标人员的动作行为。所述目标识别网络为多层神经网络，包括注意力机制（GAT）和多层感知器（MLP），其注意力网络的输出为多层感知器的输入。

[0122] 本实施例利用注意力机制对输入的时空人体图中各时刻对应的人体图中各关键点对应的特征向量进行多次的聚合处理，最终得到时空人体图中各时刻对应的人体图中各关键点对应的目标特征向量，具体的：

[0123] 本实施例首先计算时空人体图中各时刻对应的人体图中各关键点与对应的邻域集合中各关键点之间的权重；然后根据时空人体图中各时刻对应的人体图中各关键点与对应的邻域集合中各关键点之间的权重，对输入的时空人体图中各时刻对应的人体图中各关键点对应的特征向量进行多次的聚合处理，聚合完成后，得到时空人体图中各时刻对应的人体图中各关键点对应的目标特征向量；本实施例中聚合次数需根据实际需要来决定。本实施例中所述邻域集合根据输入到网络中的各关键对应的时间宽度和空间宽度来确定；所述注意力机制为现有技术，其计算权重和聚合的过程在此就不再详细赘述。

[0124] 接下来本实施例按照时空人体图中各时刻对应的人体图中各关键点的序号的排列顺序，将各时刻对应的人体图中各关键点对应的目标特征向量依次拼接在一起，得到各时刻对应的片段向量；然后再将各时刻对应的片段向量按照时间顺序进行首尾拼接，得到当前时间段对应的综合向量。

[0125] 最后将注意力机制输出得到的当前时间段对应的综合向量作为多层感知器MLP的输入，进而基于该多层感知器MLP输出目标人员在当前时间段内的动作行为，所述动作行为包括正常搬运、违规抛物、其它，具体可根据实际需要来调整。

[0126] 本实施例训练目标识别网络的训练过程为：

[0127] 首先使用MMact公开数据集进行无监督的预训练，然后对预训练过的目标识别网络进行微调，即：录制真人模拟正常搬运、违规抛物和日常工作等行为的视频片段，然后利用本实施例的处理方法对视频片段进行处理，进而获取对目标识别网络进行训练的训练样本；训练目标识别网络的损失函数为交叉熵损失函数，优化器为Adam，具体训练过程为现有技术，在此就不再赘述。

[0128] 对于训练好的目标识别网络能够准确识别建筑工人违规抛掷建筑材料的动作行为，若识别到建筑人员的行为是危险行为，则及时提醒管理人员进行制止，以保证有关建筑工人的安全。

[0129] 本实施例首先获取建筑工地中目标人员在当前时间段内的待分析视频片段和待分析视频片段中各帧待检测图像中目标人员对应的各关键点和所述各关键点对应的空间坐标；根据获取的数据，本实施例根据各帧待检测图像中目标人员对应的各关键点，构建各帧待检测图像中目标人员对应的人体图；然后根据各帧待检测图像中目标人员对应的右脚关键点对应的空间坐标和左脚关键点对应的空间坐标，得到各帧待检测图像中目标人员对应的最小边界距离，并根据各帧待检测图像中目标人员对应的各关键点对应的空间坐标，得到当前时间段内目标人员对应的重心影响量；最后根据各帧待检测图像中目标人员对应的人体图，构建待分析视频片段对应的时空人体图，进而根据所述时空人体图、所述重心影响量、各帧待检测图像中目标人员对应的最小边界距离和训练好的目标识别网络，得到当前时间段内目标人员的动作行为。本实施例引入了计算机视觉技术代替监工来识别建筑工人的行为，克服了监工对建筑工人的搬运行为进行判断存在主观性的问题，提高了对建筑工人的搬运行为进行判断的可靠性。

[0130] 需要说明的是：以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

基于计算机视觉的建筑工地人员危险行为识别方法转让专利

申请号 : CN202210776516.X

文献号 : CN114842560B

文献日 : 2022-09-20

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 吴成锐 , 吴成福 , 李银凤 , 徐伟

申请人 : 广东瑞恩科技有限公司

摘要 :

权利要求 :

说明书 :