连续动作的识别方法、装置、介质及设备转让专利

申请号 : CN202011459110.6

文献号 : CN112464882B

文献日 : 2021-09-10

本说明书实施例公开了一种连续动作的识别方法、装置及电子设备，该方法包括将多帧图像序列分别输入操作对象识别模型和操作工人识别模型，获得操作对象检测框和操作人员检测框；筛选出操作人员位于操作对象的工作区域内的操作人员图像；将筛选出来的操作人员图像输入肢体识别模型，获得操作人员的肢体关键点坐标；对待所有帧图像中的肢体关键点坐标进行标准化处理；计算标准化处理后的肢体关键点坐标与各标准动作集合的相似度得分，当相似度得分大于分数阈值时，判断操作人员执行了相应的动作。有助于操作情况进行监控的准确率，克服现有技术依靠人工记录操作对象使用情况时存在的不准确、不真实的技术问题，降低了企业的人力和物力成本。

1.一种连续动作的识别方法，其特征在于，所述方法包括：将多帧具有时序关系的图像分别输入操作对象识别模型和操作人员识别模型，在每帧图像中分别获得操作对象检测框和操作人员检测框；

根据所述操作对象检测框和所述操作人员检测框筛选出位于操作对象的工作区域内的操作人员图像；

将筛选出来的操作人员图像输入肢体识别模型，在每帧图像中获得所述操作人员的肢体关键点坐标；

对所有帧图像中所述操作人员的肢体关键点坐标进行标准化处理；

计算标准化处理后的操作人员的肢体关键点坐标与各标准动作集合的相似度得分，当所述相似度得分大于分数阈值时，判断所述操作人员执行了与标准动作集合中相应的动作；

其中，所述对所有帧图像中所述操作人员的肢体关键点坐标进行标准化处理包括：对每帧图像中所述操作人员的肢体关键点的坐标进行平滑处理并进行均值计算，获得所述操作人员的骨骼中心；

计算每帧图像中所述骨骼中心到事先训练好的操作对象表面直线的投影长度，在所有帧图像中获得投影长度集合；

根据所有帧图像中操作人员的肢体关键点坐标集合和投影长度集合对所述操作人员的肢体关键点坐标进行长度标准化和数目标准化处理，其中，为肢体关键点的坐标，i表示肢体关键点的类型，j表示该帧图像的时间序号；

其中，所述长度标准化的公式如下：其中，，为标准距离，，即为所述投影长度集合中的最大值；

所述数目标准化的公式如下：

其中，int[x]为x的取整，，r表示肢体关键点的序号，为第i个肢体关键点在肢体关键点坐标集合中的个数，为第i个肢体关键点在所述标准动作集中的个数，表示标准化处理后的肢体关键点集合；

其中，所述计算标准化处理后的操作人员的肢体关键点坐标与各标准动作集的相似度得分，当所述相似度得分大于分数阈值时，判断所述操作人员执行了与标准动作集中相应的动作包括：

对于所有帧图像，采用长度为t的时间窗，按照时间方向以预设步长滑动，计算每个时间窗内所述标准化处理后的肢体关键点集合与各标准动作集的相似度得分，得到每个时间窗内相似度得分结果，其中，n表示待测视频的帧率，g表示时间窗的中心时间，其中，相似度计算公式如下：

其中，m表示一个标准动作集中的帧数，表示标准动作集，表示标准动作信息集的平均值，表示时间窗内动作集，表示时间窗内动作信息集的平均值，，

其中，、、分别表示操作人员的手腕、手肘、肩膀关键点坐标，方程表示过所述操作人员的骨骼中心且垂直于操作对象表面的直线方程，其中，k和b表示过所述操作人员的骨骼中心且垂直于操作对象表面的直线方程的参数，方程表示操作对象表面的直线方程，和表示操作对象表面的直线方程的参数；

将所有时间窗内的相似度得分结果组成向量并乘以相应的权重后获得总相似度得分，当所述总相似度得分大于得分阈值时，判断所述操作人员执行了与标准动作集合中相应的动作，并记录总相似度得分大于得分阈值的时间段。

2.根据权利要求1所述的连续动作的识别方法，其特征在于，所述操作对象为消毒柜，所述标准动作及中的动作包括打开消毒柜门、关闭消毒柜门、向消毒柜内搬运餐具和向消毒柜外搬运餐具。

3.根据权利要求1所述的连续动作的识别方法，其特征在于，所述根据所述操作对象检测框和所述操作人员检测框筛选出位于操作对象的工作区域内的操作人员图像包括：计算所述操作对象检测框的中心点和所述操作人员检测框的中心点之间的欧氏距离；

当所述欧氏距离小于距离阈值时，筛选出位于操作对象的工作区域内的操作人员图像。

4.根据权利要求1所述的连续动作的识别方法，其特征在于，在记录总相似度得分大于得分阈值的时间段之后，所述方法还包括：判断所述操作人员在相同时间段内是否执行了两个以上的动作；

若是，则删掉相同时间段内执行的两个以上的动作，得到待测视频内的连续动作。

5.根据权利要求1所述的连续动作的识别方法，其特征在于，对每帧图像中所述操作人员的肢体关键点的坐标进行平滑处理并进行均值计算，获得所述操作人员的骨骼中心包括：

根据各肢体关键点的坐标，判断是否存在异常的肢体关键点；

当存在异常的肢体关键点时，对当前帧图像中异常的肢体关键点使用前后预设帧图像中对应部位的肢体关键点的坐标进行均值计算，获得平滑处理后各肢体关键点的坐标；

计算平滑处理后各肢体关键点的坐标的平均值，获得所述操作人员的骨骼中心。

6.一种连续动作的识别装置，其特征在于，所述装置包括：检测模块，用于将多帧具有时序关系的图像分别输入操作对象识别模型和操作人员识别模型，在每帧图像中分别获得操作对象检测框和操作人员检测框；

筛选模块，用于根据所述操作对象检测框和所述操作人员检测框筛选出位于操作对象的工作区域内的操作人员图像；

肢体识别模块，用于将筛选出来的操作人员图像输入肢体识别模型，在每帧图像中获得所述操作人员的肢体关键点坐标；

标准化模块，用于对所有帧图像中所述操作人员的肢体关键点坐标进行标准化处理；

相似度模块，用于计算标准化处理后的操作人员的肢体关键点坐标与各标准动作集合的相似度得分，当所述相似度得分大于分数阈值时，判断所述操作人员执行了与标准动作集合中相应的动作；

其中，所述标准化模块用于对所有帧图像中所述操作人员的肢体关键点坐标进行标准化处理包括：

对每帧图像中所述操作人员的肢体关键点的坐标进行平滑处理并进行均值计算，获得所述操作人员的骨骼中心；

计算每帧图像中所述骨骼中心到事先训练好的操作对象表面直线的投影长度，在所有帧图像中获得投影长度集合；

其中，所述长度标准化的公式如下：其中，，为标准距离，，即为所述投影长度集合中的最大值；

所述数目标准化的公式如下：

其中，int[x]为x的取整，，r表示肢体关键点的序号，第i个肢体关键点在肢体关键点坐标集合中的个数，为第i个肢体关键点在所述标准动作集中的个数，表示标准化处理后的肢体关键点集合；

其中，所述相似度模块用于计算标准化处理后的操作人员的肢体关键点坐标与各标准动作集的相似度得分，当所述相似度得分大于分数阈值时，判断所述操作人员执行了与标准动作集中相应的动作包括：

其中，m表示一个标准动作集中的帧数，表示标准动作集，表示标准动作信息集的平均值，表示时间窗内动作集，表示时间窗内动作信息集的平均值，，

其中，、、分别表示操作人员的手腕、手肘、肩膀关键点坐标，方程表示过所述操作人员的骨骼中心且垂直于操作对象表面的直线方程，其中，k和b表示过所述操作人员的骨骼中心且垂直于操作对象表面的直线方程的参数，方程表示操作对象表面的直线方程，和示操作对象表面的直线方程的参数；

7.一种电子设备，其特征在于，包括：存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1‑5中任一项所述的连续动作的识别方法。

8.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述权利要求1‑5中任一项所述的连续动作的识别方法。

连续动作的识别方法、装置、介质及设备

技术领域

[0001] 本说明书涉及计算机视觉技术领域，尤其是涉及一种连续动作的识别方法、连续动作的识别装置、电子设备、计算机可读存储介质以及计算机程序。

背景技术

[0002] 学校、企业、工厂等食堂就餐人数较多，食品安全涉及方方面面，不仅要保证食材来源可靠、加工过程的安全卫生，同时如果餐具消毒不到位，残留的食物残渣将产生有害物
质、滋生有害病菌，会对学校、企业、工厂里的用餐员工的健康造成威胁，而消毒柜的正确使
用可有效对餐具进行消毒杀菌，减少重大食物中毒事故及食源性疾病的发生，因此，对消毒
柜使用情况的研究调查变得越来越重要。

[0003] 传统的消毒柜使用情况监测依赖于人工记录，例如包括消毒柜的使用时间和操作人员，这种书面化监测方法的真实性低、且存在伪造记录的可能性，无法准确真是地对消毒
柜的使用情况进行监管。因此，如何高效、准确的对学校、企业、工厂等食堂内消毒柜的使用
情况进行监测成为一个亟待解决的问题。

发明内容

[0004] 本说明书实施例的目的在于提供一种连续动作的识别方法、连续动作的识别装置、电子设备、计算机可读存储介质及计算机程序，可以对操作人员执行的连续操作进行识
别，基于识别结果判断操作人员是否对操作对象执行了某种操作，从而能够高效、准确的对
操作对象的使用情况进行监测，提升了食品安全的监管效率，降低了人力和物力成本。

[0005] 为实现上述目的，第一方面，本说明书提供一种连续动作的识别方法，所述方法包括：

[0006] 将多帧具有时序关系的图像分别输入操作对象识别模型和操作人员识别模型，在每帧图像中分别获得操作对象检测框和操作人员检测框；

[0007] 根据所述操作对象检测框和所述操作人员检测框筛选出位于操作对象的工作区域内的操作人员图像；

[0008] 将筛选出来的操作人员图像输入肢体识别模型，在每帧图像中获得所述操作人员的肢体关键点坐标；

[0009] 对所有帧图像中所述操作人员的肢体关键点坐标进行标准化处理；

[0010] 计算标准化处理后的操作人员的肢体关键点坐标与各标准动作集合的相似度得分，当所述相似度得分大于分数阈值时，判断所述操作人员执行了与标准动作集合中相应
的动作。

[0011] 可选的，所述操作对象为消毒柜，所述标准动作及中的动作包括打开消毒柜门、关闭消毒柜门、向消毒柜内搬运餐具和向消毒柜外搬运餐具。

[0012] 可选的，所述根据所述操作对象检测框和所述操作人员检测框筛选出位于操作对象的工作区域内的操作人员图像包括：

[0013] 计算所述操作对象检测框的中心点和所述操作人员检测框的中心点之间的欧氏距离；

[0014] 当所述欧氏距离小于距离阈值时，筛选出位于操作对象的工作区域内的操作人员图像。

[0015] 可选的，所述对所有帧图像中所述操作人员的肢体关键点坐标进行标准化处理包括：

[0016] 对每帧图像中所述操作人员的肢体关键点的坐标进行平滑处理并进行均值计算，获得所述操作人员的骨骼中心；

[0017] 计算每帧图像中所述骨骼中心到事先训练好的操作对象表面直线的投影长度，在所有帧图像中获得投影长度集合{lj}；

[0018] 根据所有帧图像中操作人员的肢体关键点坐标集合和投影长度集合{lj}对所述操作人员的肢体关键点坐标进行长度标准化和数目标准化处理，其中，
为肢体关键点的坐标，i表示肢体关键点的类型，j表示该帧图像的时间序号；

[0019] 其中，所述长度标准化的公式如下：

[0020]

[0021] 其中， l标为标准距离，l＝max(lj)，即l为所述投影长度集合{lj}中的最大值；

[0022] 所述数目标准化的公式如下：

[0023]

[0024] 其中，int[x]为x的取整，x＝b×r， r表示肢体关键点的序号，ni为第i个肢体关键点在肢体关键点坐标集合中的个数，ni为第i个肢体关键点在所述
标准动作集中的个数，表示标准化处理后的肢体关键点集合。

[0025] 可选的，所述计算标准化处理后的操作人员的肢体关键点坐标与各标准动作集的相似度得分，当所述相似度得分大于分数阈值时，判断所述操作人员执行了与标准动作集
中相应的动作包括：

[0026] 对于所有帧图像，采用长度为t的时间窗，按照时间方向以预设步长滑动，计算每个时间窗内所述标准化处理后的肢体关键点集合与各标准动作集的相似度得分，得到每个
时间窗内相似度得分结果sg，其中，n表示待测视频的帧率，g表示时间窗的中心时间，其中，
相似度计算公式如下：

[0027]

[0028] 其中，m表示一个标准动作集中的帧数，Y＝{Yj}表示标准动作集，表示标准动作信息集的平均值，X＝{Xj}表示时间窗内动作集，表示时间窗内动作信息集的平均值，

[0029]

[0030]

[0031]

[0032]

[0033] 其中，分别表示操作人员的手腕、手肘、肩膀关键点坐标，方程kx‑y+b＝0表示过所述操作人员的骨骼中心且垂直于操作对象表面的直线方程，
其中，k和b表示过所述操作人员的骨骼中心且垂直于操作对象表面的直线方程的参数，方
程k′x‑y+b′＝0表示操作对象表面的直线方程，k′和b′表示操作对象表面的直线方程的参
数；

[0034] 将所有时间窗内的相似度得分结果{sg}组成向量并乘以相应的权重后获得总相似度得分，当所述总相似度得分大于得分阈值时，判断所述操作人员执行了与标准动作集
合中相应的动作，并记录总相似度得分大于得分阈值的时间段。

[0035] 可选的，在记录总相似度得分大于得分阈值的时间段之后，所述方法还包括：

[0036] 判断所述操作人员在相同时间段内是否执行了两个以上的动作；

[0037] 若是，则删掉相同时间段内执行的两个以上的动作，得到待测视频内的连续动作。

[0038] 可选的，对每帧图像中所述操作人员的肢体关键点的坐标进行平滑处理并进行均值计算，获得所述操作人员的骨骼中心包括：

[0039] 根据各肢体关键点的坐标，判断是否存在异常的肢体关键点；

[0040] 当存在异常的肢体关键点时，对当前帧图像中异常的肢体关键点使用前后预设帧图像中对应部位的肢体关键点的坐标进行均值计算，获得平滑处理后各肢体关键点的坐
标；

[0041] 计算平滑处理后各肢体关键点的坐标的平均值，获得所述操作人员的骨骼中心。

[0042] 第二方面，本说明书实施例提供一种连续动作的识别装置，所述装置包括：

[0043] 检测模块，用于将多帧具有时序关系的图像分别输入操作对象识别模型和操作人员识别模型，在每帧图像中分别获得操作对象检测框和操作人员检测框；

[0044] 筛选模块，用于根据所述操作对象检测框和所述操作人员检测框筛选出位于操作对象的工作区域内的操作人员图像；

[0045] 肢体识别模块，用于将筛选出来的操作人员图像输入肢体识别模型，在每帧图像中获得所述操作人员的肢体关键点坐标；

[0046] 标准化模块，用于对所有帧图像中所述操作人员的肢体关键点坐标进行标准化处理；

[0047] 相似度模块，用于计算标准化处理后的操作人员的肢体关键点坐标与各标准动作集合的相似度得分，当所述相似度得分大于分数阈值时，判断所述操作人员执行了与标准
动作集合中相应的动作。

[0048] 第三方面，本说明书提供一种电子设备，包括：

[0049] 存储器，用于存储计算机程序；

[0050] 处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述第一方面任一项所述的连续动作的识别方法。

[0051] 第四方面，本说明书提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述第一方面任一项所述的连续动作的识别方法。

[0052] 本说明书一个或多个实施例提供的连续动作的识别方法、连续动作的识别装置、电子设备、计算机可读存储介质及计算机程序，可以使用深度学习的方法获得待测图像中
的操作对象检测框和操作人员检测框，之后筛选出位于操作对象的工作区域内的操作人员
图像，输入肢体识别模型后获得各肢体关键点的坐标，对待测视频中的肢体关键点坐标进
行标准化处理后，计算标准化处理后的肢体关键点坐标与各标准动作集合的相似度得分，
当所述相似度得分大于分数阈值时，判断所述操作人员执行了与标准动作集合中相应的动
作。本说明书公开的连续动作的识别方法，有助于提高操作人员对操作对象执行连续操作
动作时监控的准确率，克服现有技术依靠人工记录时存在的不准确、不真实的技术问题，进
一步提高了食品安全监管效率，降低了企业的人力和物力成本。

附图说明

[0053] 为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是
本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的
前提下，还可以根据这些附图获得其他的附图。在附图中：

[0054] 图1为本说明书提供的一种连续动作的识别方法实施例的流程示意图；

[0055] 图2为本说明书提供的一些实施例中的进行操作对象识别的示意图；

[0056] 图3为本说明书提供的一些实施例中进行操作人员识别的示意图；

[0057] 图4为本说明书提供的一些实施例中进行肢体识别的示意图；

[0058] 图5为本说明书提供的一些实施例中标准动作集中4个动作的示意图；

[0059] 图6为本说明书提供的一种连续动作的识别装置实施例的结构示意图。

具体实施方式

[0060] 为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完
整地描述，显然，所描述的实施例仅是说明书一部分实施例，而不是全部的实施例。基于说
明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有
其他实施例，都应当属于本说明书实施例方案保护的范围。

[0061] 本说明书提供的实施例可以应用于终端设备、计算机系统及服务器等电子设备，其可与众多其他通用或者专用的计算机系统环境或者配置一起操作。适于与终端设备、计
算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算机系统、环境和/或
配置的例子，包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手
持或者膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型
计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

[0062] 终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、
目标程序、组件、逻辑以及数据结构等等，它们执行特定的任务或者实现特定的抽象数据类
型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由
通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包
括存储设备的本地或远程计算系统存储介质上。

[0063] 参见图1，图1是本说明书提供的一种连续动作的识别方法实施例流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者
无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或
模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置
的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述方法或模块结
构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或
模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括
分布式处理、服务器集群的实施环境)。具体的一个实施例如图1所示，本说明书提供的连续
动作的识别方法的一个实施例中，所述方法可以包括如下步骤：

[0064] S200:将多帧具有时序关系的图像序列分别输入操作对象识别模型和操作工人识别模型，在多帧图像中获得操作对象检测框和操作人员检测框。

[0065] 在一个可选示例中，本说明书中可以实时的将多帧具有时序关系的待测图像分别输入预先训练的操作对象识别模型中进行操作对象识别，所述多帧具有时序关系的待测图
像可以为视频中的多个连续的视频帧，也可以为从视频中的多个连续的视频帧中切分出来
的多个图像块。由于视频中的多个连续的视频帧具有时序关系，因此，通过对视频帧切分所
获得的多个图像块也具有时序关系。本申请中的具有时序关系的待测图像的大小应满足操
作对象识别模型对输入图像大小的预设要求，例如，待测图像的大小可以包括但不限于224
×224。将多帧图像分别输入操作对象识别模型后，可以在每一帧待测图像中获得操作对象
检测框，该操作对象检测框可包括操作对象检测框的坐标信息。

[0066] 同时，还需要将上述多帧具有时序关系的待测图像分别输入预先训练好的操作人员识别模型中进行操作人员识别，获得操作人员检测框。该操作人员检测框可包括操作人
员检测框的坐标信息和对应帧图像的时间。

[0067] 需要说明的是，本发明实施例不限制将多帧图像输入操作对象识别模型和操作人员识别模型的顺序，在本发明一些示例中，可以先将多帧图像输入预先训练好的操作对象
识别模型进行操作对象识别，再将多帧图像输入预先训练好的操作人员识别模型中进行操
作人员识别；在本发明另一些示例中，也可以现将多帧图像输入预先训练好的操作人员识
别模型进行操作人员识别，再将多帧图像输入预先训练好的操作对象识别模型中进行操作
对象识别。

[0068] 本说明书实施例中，首先需要训练操作对象识别模型和操作人员识别模型，其中，操作识别模型和操作人员识别模型的拓扑结构可以为卷积神经网络。

[0069] 在一个可选示例中，所述卷积神经网络可以是具有深度学习能力的卷积神经网络，包括但不限于多个卷积层，该卷积神经网络还可以包括：池化层、全连接层以及用于执
行分类操作的层等。所述卷积神经网络能够实现深度学习，与其他深度学习结构相比，深度
卷积神经网络在图像识别方面展示出更加突出的性能。

[0070] 在对待测图像进行操作对象检测之前，可以通过预先使用包含丰富操作对象标注信息的数据集作为训练样本，对卷积神经网络的图像分类任务进行训练，获得具有操作对
象分类作用的操作对象识别模型。

[0071] 利用该经过训练的操作对象识别模型对多帧具有时序关系的待测图像进行测试，可以获得待测图像中各区域的操作对象置信度。其中，操作对象置信度为该区域的图像为
操作对象的概率，将该操作对象置信度和预设的操作对象置信度阈值进行比较，可以将各
区域图像进行分类，区分出操作对象区域和非操作对象区域，从而获得操作对象检测框及
操作对象检测框的坐标信息。

[0072] 同理，在对待测图像进行操作人员检测之前，可以通过预先使用包含丰富操作人员标注信息的数据集作为训练样本，对卷积神经网络的图像分类任务进行训练，获得具有
操作人员分类作用的操作人员识别模型。

[0073] 利用经过训练的操作人员识别模型对多帧具有时序关系的待测图像进行测试，可以获得待测图像中各区域的操作人员置信度。其中，操作人员置信度为该区域的图像为操
作人员的概率，将该操作人员置信度和预设的操作人员置信度阈值进行比较，可以将各区
域图像进行分类，区分出操作人员区域和非操作人员区域，从而获得操作人员检测框及操
作人员检测框的坐标信息和对应帧的时间。

[0074] 需要说明的是，本发明对所述操作对象和操作人员不进行限定，只要是工作人员对某种物体执行连续操作的都在本发明的保护范围内。在一些示例中，所述操作对象可以
为企业、学校、工厂等食堂内的消毒柜，所述操作人员可以为食堂内操作消毒柜的工作人
员，在另一些实例中，所述操作对象可以为企业流水线上的电子产品、衣服等，所述操作人
员可以为流水线上的工人。

[0075] 本说明书实施例以操作对象为企业、学校、工厂等食堂内的消毒柜，所述操作人员为操作消毒柜的工作人员为例进行说明。请参考图2，图2为本说明书提供的一些实施例中
进行操作对象识别的示意图。其中，将待测图像输入预先训练好的操作对象识别模型，获得
操作对象检测框，也即图2中所示的消毒柜。

[0076] 请参考图3，图3为本说明书提供的一些实施例中进行操作人员识别的示意图，其中，将待测图像输入预先训练好的操作人员识别模型，获得操作人员检测框和对应帧图像
的采集时间，也即图3所示的工作人员。

[0077] S220:根据所述操作对象检测框和所述操作人员检测框筛选出位于操作对象的工作区域内的操作人员图像。

[0078] 本说明书实施例中，为了提高识别效率，有必要在多帧具有时序关系的待测图像中剔除一些不符合条件的图像，例如当操作人员和操作对象之间的距离太远时，说明操作
人员没有对操作对象执行操作，因此可以剔除掉这些图像，从而缩小数据处理量，提高识别
效率。

[0079] 在本发明一些示例中，所述筛选出操作人员位于操作对象的工作区域内的多帧图像，一种可能的实施方式是通过以下步骤实现：

[0080] S221.计算所述操作对象检测框的中心点和所述操作人员检测框的中心点之间的欧式距离。

[0081] 根据上述步骤中获得的操作对象检测框的坐标信息和操作人员检测框的坐标信息，可以分别计算出操作对象检测框的中心点坐标和操作人员检测框的中心点坐标，之后
根据二者的中心点的坐标能够获得二者之间的欧式距离。根据两个点的坐标计算两点之间
的欧式距离，属于本领域技术人员的公知常识，此处不再赘述。

[0082] 将操作对象检测框的坐标记为(x，y，w，h)，其中(x，y)为操作对象检测框左上方的坐标，(w，h)为操作对象检测框的宽和高，将操作人员检测框的坐标记为(x′，y′，w′，h′)，其
中(x′，y′)为操作人员检测框的左上方坐标，(w′，h′)为操作人员检测框的宽和高。

[0083] 对检测到的操作人员是否在操作对象(x，y，w，h)的工作区域邻域内进行判定，将不在操作区域邻域内的食堂工人坐标删去，得到工位内的食堂工人位置坐标(x″，y″，w″，
h″)计算公式如下：

[0084]

[0085]

[0086] 其中，d为操作对象的边界阈值，fL为0时将对应的操作对象检测框的坐标删去。

[0087] S222.当所述欧式距离小于距离阈值时，筛选筛选出位于操作对象的工作区域内的操作人员图像。

[0088] 在本发明中，当操作对象检测框的中心点和操作人员检测框的中心点之间的距离大于距离阈值时，可以将对应的操作人员检测框的坐标删除，保留操作对象检测框的中心
点和操作人员检测框的中心点之间的距离小于阈值的操作人员检测框。

[0089] S240.将筛选出来的操作人员图像输入肢体识别模型，在每帧图像中获得所述操作人员的肢体关键点坐标。

[0090] 在本发明中，可以将位于操作对象工作区域内的操作人员图像输入预先训练的肢体识别模型中进行肢体识别，该肢体识别模型的拓扑结构可以为卷积神经网络。

[0091] 在一个可选示例中，所述卷积神经网络可以为具有深度学习能力的卷积神经网络，包括但不限于索哥卷积层，该卷积神经网络还可以包括：池化层、全连接层以及用于执
行分类操作的层等。所述卷积神经网络能够实现深度学习，与其他深度学习结构相比，深度
卷积神经网络在图像识别方面展示出更加突出的性能。

[0092] 在一个可选示例中，所述卷积神经网络也可以是轻量级的卷积神经网络，从而缩小处理时间，提高检测速度。

[0093] 在一个可选示例中，所述卷积神经网络也可以是几个级联的卷积神经网络，从而具有更好的识别性能。

[0094] 在进行肢体检测之前，可以通过预先使用包含丰富骨骼关节点标注信息的数据集作为训练样本，对卷积神经网络的图像分类任务进行训练，获得具有肢体分类作用的操作
人员识别模型。其中，所述骨骼关节点至少包括：手腕、手肘、肩膀等。

[0095] 利用该经过训练的肢体识别模型对待测图像进行测试，可以定位出待测图像中操作人员的手腕、手肘、肩膀等肢体关键点，将上述肢体关键点按顺序连接组成操作人员的基
本骨架。

[0096] 请参见图4，图4为本说明书提供的一些实施例中进行肢体识别的示意图。将符合条件的图像输入预先训练好的肢体识别模型，利用该经过训练的肢体识别模型对满足条件
的多帧图像进行测试，可以定位出工人的手腕、手肘、肩膀等关节点，将上述关节点按顺序
连接组成工人的基本骨架。

[0097] S260.对所有帧图像中所述操作人员的肢体关键点坐标进行标准化处理。

[0098] 在本步骤中，对待测视频的每一帧图像都执行上述S200‑S240的操作，在每帧图像中获得位于操作对象的工作区域内的操作人员的肢体关键点坐标，从而在待测视频中获得
操作人员的肢体关键点坐标集合

[0099] 其中，对待测视频中所述操作人员的肢体关键点坐标进行标准化处理一种可能的实施方式是通过以下步骤实现：

[0100] S261.对每帧图像中所述操作人员的肢体关键点的坐标进行平滑处理并进行均值计算，获得所述操作人员的骨骼中心。

[0101] 在一些可选示例中，可以通过以下方式获得操作人员的骨骼中心：

[0102] S2611.根据各肢体关键点的坐标，判断是否存在异常的肢体关键点。

[0103] 在本步骤中，可以计算各肢体关键点之间的两两距离，当距离大于预设阈值时，判断该肢体关键点异常的肢体关键点，需要该对异常的肢体关键点进行平滑处理。

[0104] S2612.当存在异常的肢体关键点时，对当前帧图像中异常的肢体关键点使用前后预设帧图像中对应部位的肢体关键点的坐标进行均值计算，获得平滑处理后各肢体关键点
的坐标。

[0105] 在步骤中，当存在异常的骨骼关键点时，对于当前帧图像中异常的肢体关键点，可以使用前后两帧图像中该部位的肢体关键点的坐标进行均值计算，获得平滑处理后各肢体
关键点的坐标。

[0106] S2613.计算平滑处理后各肢体关键点的坐标的平均值，获得所述操作人员的骨骼中心。

[0107] 在本说明书中，将动作集中每帧图像的骨骼关节点进行平滑处理后，再将每帧图像中操作人员的骨骼关节点坐标加和后求平均，在每帧图像中获得操作人员的骨骼中心，
如此，可以将每帧图像中的操作人员的骨骼框架看做一个点。

[0108] S262.计算每帧图像中所述骨骼中心到事先训练好的操作对象表面直线的投影长度，在所有帧图像中获得投影长度集合{lj}。

[0109] 其中，操作对象表面的直线可以通过历史数据训练得到，例如，当操作对象为消毒柜时，该操作对象表面可以是消毒柜面向操作人员的面。可以在每帧图像中获得操作人员
的骨骼中心到操作对象表面的直线的投影长度，从而在待测视频中获得投影长度集合
{lj}。

[0110] S263.根据所有帧图像中操作人员的肢体关键点坐标集合和投影长度集合{lj}对所述操作人员的肢体关键点坐标进行长度标准化和数目标准化处理，其
中，为肢体关键点的坐标，i表示肢体关键点的类型，j表示该帧图像的时间序号。

[0111] 其中，所述长度标准化的公式如下：

[0112]

[0113] 其中， l标为标准距离，v＝max(lj)，即l为所述投影长度集合{lj}中的最大值；

[0114] 所述数目标准化的公式如下：

[0115]i

[0116] 其中，int[x]为x的取整，x＝b×r， r表示肢体关键点的序号，n为第i个肢体关键点在肢体关键点坐标集合中的个数，ni为第i个肢体关键点在所述
标准动作集中的个数，将所述肢体关键点集合进行长度标准化和数目标准化之后获得标准
化处理后的肢体关键点集台

[0117] S280.计算标准化处理后的操作人员的肢体关键点坐标与各标准动作集合的相似度得分，当所述相似度得分大于分数阈值时，判断所述操作人员执行了与标准动作集合中
相应的动作。

[0118] 例如：标准动作集中包括A1、A2、A3、A4四个动作集，其中，A1表示拉开柜门、A2表示向外运输餐具、A3表示向内运输餐具、A4表示关闭柜门，则分别计算标准化处理后的肢体关
键点集合与标准动作集中的各类动作集A1、A2、A3、A4的相似度得分，根据相似度得分判断
操作人员执行了标准动作集中的哪种操作。例如，假如通过计算相似度得分，获得待测视频
的肢体关键点集合与标准动作集A1的相似度得分大于得分阈值，则判断操作人员执行了拉
开柜门的操作。如图5所示，图5为本说明书提供的一些实施例中标准动作集中4个动作的示
意图，分别表示拉开柜门、向外运输餐具、向内运输餐具、关闭柜门。

[0119] 在一些可选示例中，步骤S280计算标准化处理后的操作人员的肢体关键点坐标与各标准动作集合的相似度得分，当所述相似度得分大于分数阈值时，判断所述操作人员执
行了与标准动作集合中相应的动作，一种可能的实施方式是通过如下步骤实现：

[0120] S281.对于待测视频的多帧图像，采用长度为t的时间窗，按照时间方向以预设步长骨动，计算每个时间窗内所述标准化处理后的肢体关键点集合与各标准动作集合的相
似度得分，得到每个时间窗内相似度得分结果sk。

[0121] 其中，n表示待测视频的帧率，g表示时间窗的中心时间，其中，相似度计算公式如下：

[0122]

[0123] 其中，m表示一个标准动作集中的帧数，Y＝{Yj}表示标准动作集，表示标准动作信息集的平均值，X＝{Xj}表示时间窗内动作集，表示时间窗内动作信息集的平均值，

[0124]

[0125]

[0126]

[0127]

[0128] 其中，分别表示操作人员的手腕、手肘、肩膀关键点坐标，方程kx‑y+b＝0表示过所述操作人员的骨骼中心且垂直于操作对象表面的直线方程，其
中，k和b表示过所述操作人员的骨骼中心且垂直于操作对象表面的直线方程的参数，方程
k′x‑y+b′＝0表示操作对象表面的直线方程，k′和b′表示操作对象表面的直线方程的参数。

[0129] 在一些实施例中，过所述操作人员的骨骼中心且垂直于操作对象表面的直线方程的参数和操作对象表面的直线方程的参数可以根据历史经验数据训练后获得。

[0130] S282.将所有时间窗内的相似度得分结果{sg}组成向量并乘以相应的权重后获得总相似度得分，当所述总相似度得分大于得分阈值时，判断所述操作人员执行了与标准动
作集合中相应的动作，并记录总相似度得分大于得分阈值的时间段。

[0131] 在使用皮尔逊相关系数计算每个时间窗内的动作与标准动作集的关联性后，将所1 n
有时间窗内的相似度得分组成向量s＝(s ，...，s)，其中，n表示时间窗的总数，之后对向量
T
中每个元素乘以相应的权重u＝(u1，...，un) ，获得总相似度得分，其中，u1，…，un表示每个
时间窗对应的全重，当所述总相似度得分大于得分阈值时，判断所述操作人员执行了与所
述标准动作集合中该动作对应的操作，并记录总相似度得分大于得分阈值的时间段。

[0132] 例如，待测视频的肢体关键点坐标集合与标准动作集中动作A1的相似度得分为0.82，与标准动作集中动作A2的相似度得分为0.47，与标准动作集中动作A3的相似度得分
为‑0.23，与标准动作集中动作A4的相似度得分为‑0.18，得分阈值取值为0.7，则判断操作
人员执行了与动作A1相对应的操作。

[0133] 在一些可选示例中，若判定存在检测动作，记录相似度得分sg大于相似度阈值的连续动作时间段，得到动作发生时间段t＝(ts，te)，其中，ts表示相似度得分sg大于相似度
阈值的连续动作时间段的起始时间，te表示相似度得分sg大于相似度阈值的连续动作时间
段的截止时间。

[0134] 在一些可选示例中，将待测视频的每个动作集合分别与标准动作集合进行相似度判断后，得到检测视频内打开柜门、关闭柜门、向柜内搬运和向柜外搬运四个动作的检测结
果及动作发生时间段，对检测结果进行逻辑判断，判断所述操作人员在相同时间段内是否
执行了两个以上的动作，删去不合理结果(例：不能在同一时间段内同时发生打开柜门和关
闭柜门这两动作)，得到最后连续动作的检测结果。

[0135] 本说明书一个或多个实施例提供的连续动作的识别方法，可以使用深度学习的方法获得待测图像中的操作对象检测框和操作人员检测框，之后筛选出位于操作对象的工作
区域内的操作人员图像，输入肢体识别模型后获得各肢体关键点的坐标，对待测视频中的
肢体关键点坐标进行标准化处理后，计算标准化处理后的肢体关键点坐标与各标准动作集
合的相似度得分，当所述相似度得分大于分数阈值时，判断所述操作人员执行了与标准动
作集合中相应的动作。本说明书公开的连续动作的识别方法，有助于提高操作人员对操作
对象执行连续操作动作时监控的准确率，并能够记录存在连续操作的时间段，克服现有技
术依靠人工记录时存在的不准确、不真实的技术问题，进一步提高了食品安全监管效率，降
低了企业的人力和物力成本。

[0136] 本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。具体的可以参照
前述相关处理相关实施例的描述，在此不做一一赘述。

[0137] 上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来
执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺
序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可
以的或者可能是有利的。

[0138] 基于上述实施例提供的方法，说明书一个或多个实施例还提供一种连续动作的识别装置，请参见图6，图6是本说明书提供的一种连续动作的识别装置实施例的结构示意图，
所述装置可以包括检测模块300，筛选模块320，肢体识别模块340，标准化模块360和相似度
模块380。

[0139] 其中，所述检测模块300用于将多帧具有时序关系的图像分别输入操作对象识别模型和操作人员识别模型，在每帧图像中分别获得操作对象检测框和操作人员检测框。

[0140] 所述筛选模块320用于根据所述操作对象检测框和所述操作人员检测框筛选出位于操作对象的工作区域内的操作人员图像。

[0141] 所述肢体识别模块340用于将筛选出来的操作人员图像输入肢体识别模型，在每帧图像中获得所述操作人员的肢体关键点坐标。

[0142] 所述标准化模块360用于对所有帧图像中所述操作人员的肢体关键点坐标进行标准化处理。

[0143] 所述相似度模块380用于计算标准化处理后的操作人员的肢体关键点坐标与各标准动作集合的相似度得分，当所述相似度得分大于分数阈值时，判断所述操作人员执行了
与标准动作集合中相应的动作。

[0144] 在一些可选示例中，所述筛选模块可包括计算单元和筛选单元，其中，所述计算单元用于计算所述操作对象检测框的中心点和所述操作人员检测框的中心点之间的欧氏距
离，所述筛选单元用于当所述欧氏距离小于距离阈值时，筛选出位于操作对象的工作区域
内的操作人员图像。

[0145] 在一些可选示例中，所述标准化模块可包括平滑处理单元、投影长度单元、标准化单元。

[0146] 其中，所述平滑处理单元用于对每帧图像中所述操作人员的肢体关键点的坐标进行平滑处理并进行均值计算，获得所述操作人员的骨骼中心。

[0147] 在一些实施例中，所述平滑处理单元根据各肢体关键点的坐标，判断是否存在异常的肢体关键点；当存在异常的肢体关键点时，对当前帧图像中异常的肢体关键点使用前
后预设帧图像中对应部位的肢体关键点的坐标进行均值计算，获得平滑处理后各肢体关键
点的坐标；计算平滑处理后各肢体关键点的坐标的平均值，获得所述操作人员的骨骼中心。

[0148] 所述投影长度单元用于计算每帧图像中所述骨骼中心到事先训练好的操作对象表面直线的投影长度，在待测视频中获得投影长度集合{lj}。

[0149] 所述标准化单元用于根据待测视频中操作人员的肢体关键点坐标集合和投影长度集合{lj}对待测视频中所述操作人员的肢体关键点坐标进行长
度标准化和数目标准化处理，其中，为肢体关键点的坐标，i表示肢体关键点的类
型，j表示该帧图像的时间序号；

[0150] 其中，所述长度标准化的公式如下：

[0151]

[0152] 其中， l标为标准距离，l＝max(lj)，即l为所述投影长度集合{lj}中的最大值；

[0153] 所述数目标准化的公式如下：

[0154]i

[0155] 其中，int[x]为x的取整，x＝b×r， n 为第i个肢体关键点在肢体关键点坐标集合中的个数，ni为第i个肢体关键点在所述标准动作集中的个数，将
所述肢体关键点集合进行长度标准化和数目标准化之后获得标准化处理后的肢体关键点
集合

[0156] 所述相似度模块可包括相似度计算单元和比较单元。

[0157] 其中，所述相似度计算单元用于对于待测视频的多帧图像，采用长度为t的时间窗，按照时间方向以预设步长滑动，计算每个时间窗内所述标准化处理后的肢体关键点集
合与各标准动作集合的相似度得分，得到每个时间窗内相似度得分结果sg，其中，n表示待
测视频的帧率，g表示时间窗的中心时间，其中，相似度计算公式如下：

[0158]

[0159] 其中，m表示一个标准动作集中的帧数，Y＝{Yj}表示标准动作集，表示标准动作信息集的平均值，X＝{Xj}表示时间窗内动作集，表示时间窗内动作信息集的平均值，

[0160]

[0161]

[0162]

[0163]

[0164] 其中，分别表示操作人员的手腕、手肘、肩膀关键点坐标，方程kx‑y+b＝0表示过所述操作人员的骨骼中心且垂直于操作对象表
面的直线方程，其中，k和b表示过所述操作人员的骨骼中心且垂直于操作对象表面的直线
方程的参数，方程k′x‑y+b′＝0表示操作对象表面的直线方程，k′和b′表示操作对象表面的
直线方程的参数。

[0165] 所述比较单元用于将所有时间窗内的相似度得分结果{sg}组成向量并乘以相应的权重后获得总相似度得分，当所述总相似度得分大于得分阈值时，判断所述操作人员执
行了与标准动作集合中相应的动作，并记录总相似度得分大于得分阈值的时间段。

[0166] 在一些可选示例中，将待测视频的每个动作集合分别与标准动作集合进行相似度判断后，得到检测视频内打开柜门、关闭柜门、向柜内搬运和向柜外搬运四个动作的检测结
果及动作发生时间段，对检测结果进行逻辑判断，判断所述操作人员在相同时间段内是否
执行了两个以上的动作，删去不合理结果(例：不能在同一时间段内同时发生打开柜门和关
闭柜门这两动作)，得到最后连续动作的检测结果。

[0167] 本说明书一个或多个实施例提供的连续动作的识别装置，可以使用深度学习的方法获得待测场景中的操作对象检测框和操作人员检测框，之后筛选出符合条件的多帧图
像，使用聚类方法按照识别将多帧图像进行分类，获得至少一个动作集合，将每个动作集合
与标准动作集合中的动作进行相似度比对，获得相似度得分，根据相似度得分判断操作人
员执行的操作。本说明书公开的连续动作的操作信息识别方法，有助于提高操作人员对操
作对象的操作情况进行监控的准确率，克服现有技术依靠人工记录操作对象使用情况时存
在的不准确、不真实的技术问题，进一步提高了食品安全监管效率，降低了企业的人力和物
力成本。

[0168] 需要说明的，上述所述的连续动作的识别装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

[0169] 相应的，本说明书实施例还公开了一种电子设备，所述电子设备，包括存储器，处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计
算机程序时实现本说明书上述任一实施例中所述的连续动作的识别方法的步骤。

[0170] 相应的，本说明书实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本说明书上述任一实施例中所述的连续动作的识别方法
的步骤。

[0171] 本说明书实施例并不局限于必须是符合标准数据模型/模板或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的
实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些
修改或变形后的数据获取、存储、判断、处理方式等获取的实施例，仍然可以属于本说明书
的可选实施方案范围之内。

[0172] 本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实
施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例
的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、
“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料
或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意
性表述并不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特
点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，
本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的
特征进行结合和组合。

[0173] 以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何
修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

连续动作的识别方法、装置、介质及设备转让专利

申请号 : CN202011459110.6

文献号 : CN112464882B

文献日 : 2021-09-10

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 梁帆

申请人 : 东莞先知大数据有限公司

摘要 :

权利要求 :

说明书 :