产线作业管理与视频处理方法、装置、设备及存储介质转让专利

申请号 : CN202210002789.9

文献号 : CN114022827B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 任文婷孙凯苏吉普

申请人 : 阿里巴巴(中国)有限公司

摘要 :

本申请实施例提供一种产线作业管理与视频处理方法、装置、设备及存储介质。在本申请实施例中,针对生产线上包含生产动作的视频帧序列,从瞬时姿态估计和长时动作识别两个维度识别视频帧序列中视频帧的瞬时姿态特征和长时动作特征,基于视频帧的长时动作特征进行动作边界信息的识别,进而同时基于动作边界信息、瞬时姿态特征和长时动作特征针对视频帧序列进行动作分割,不仅可自动准确地识别出视频帧序列中出现的各类生产动作及其持续时长,而且结合动作边界信息的动作分割还能降低动作转换过程中容易出现动作误识别的概率,能够更好地修正动作分割中的过分割现象。

权利要求 :

1.一种基于视频分割的产线作业管理方法,其特征在于,包括:

获取生产线上包含生产动作的视频帧序列,所述视频帧序列包括多个视频帧;

将所述多个视频帧分别输入至姿态估计网络和特征编码网络进行瞬时姿态估计和长时动作识别,得到所述多个视频帧的瞬时姿态特征和长时动作特征;

将所述多个视频帧的长时动作特征输入至边界生成网络,以识别所述多个视频帧中的动作边界信息;

将所述多个视频帧的瞬时姿态特征和长时动作特征输入至级联网络进行视频帧级别的动作分类,得到所述多个视频帧的初始动作分类结果;

根据所述动作边界信息,采用自注意力机制对所述多个视频帧的初始动作分类结果进行修正,得到所述多个视频帧的目标动作分类结果;

基于所述多个视频帧的目标动作分类结果对所述视频帧序列中属于同一动作类别的连续视频帧进行合并,得到所述视频帧序列中包含的各类生产动作及其持续时长;

基于所述视频帧序列中包含的各类生产动作及其持续时长,生成产线作业引导信息,将所述产线作业引导信息输出至生产线上的显示终端,以指导产线人员的后续作业。

2.根据权利要求1所述的方法,其特征在于,将所述多个视频帧的长时动作特征输入至边界生成网络,以识别所述多个视频帧中的动作边界信息,包括:将所述多个视频帧的长时动作特征输入边界生成网络进行动作边界信息的置信度预测,得到所述多个视频帧的动作边界分类置信度,作为所述动作边界信息;

相应地,根据所述动作边界信息,采用自注意力机制对所述多个视频帧的初始动作分类结果进行修正,得到所述多个视频帧的目标动作分类结果,包括:将所述动作边界信息和所述多个视频帧的初始动作分类结果输入池化层,在所述池化层中采用自注意力机制对相邻视频帧进行平滑池化操作,以得到所述多个视频帧的目标动作分类结果。

3.根据权利要求2所述的方法,其特征在于,在所述池化层中采用自注意力机制对相邻视频帧进行平滑池化操作,以得到所述多个视频帧的目标动作分类结果,包括:根据所述多个视频帧的动作边界分类置信度与所述多个视频帧的初始动作分类结果生成自注意力权重,基于所述自注意力权重对所述多个视频帧的初始动作分类结果进行修正,得到所述多个视频帧的目标动作分类结果。

4.根据权利要求2所述的方法,其特征在于,将所述多个视频帧的姿态特征和长时动作特征输入至级联网络进行视频帧级别的动作分类,得到所述多个视频帧的初始动作分类结果,包括:对于每个视频帧,将所述视频帧的姿态特征和长时动作特征拼接形成融合特征,将所述融合特征输入由n个子网络级联形成的级联网络对所述视频帧进行动作分类,得到所述视频帧的初始动作分类置信度;

其中,前n‑1个子网络按照特征维度由大到小的顺序依次预测所述视频帧在不同特征维度上的动作分类置信度,第n个子网络用于融合前面n‑1个子网预测出的所述视频帧在不同特征维度上的动作分类置信度,得到所述视频帧的初始动作分类置信度,n是≥2的正整数。

5.根据权利要求4所述的方法,其特征在于,将所述融合特征输入由n个子网络级联形成的级联网络对所述视频帧进行动作分类,得到所述视频帧的初始动作分类置信度,包括:在前n‑1个子网络中的每个子网络内部,根据其上一子网络预测出的所述视频帧在上一特征维度上的动作分类置信度,调整针对所述视频帧使用的内部权重;根据调整后的内部权重,预测所述视频帧在当前特征维度上的动作分类置信度。

6.根据权利要求5所述的方法,其特征在于,根据其上一子网络预测出的所述视频帧在上一特征维度上的动作分类置信度,调整针对所述视频帧使用的内部权重,包括:根据其上一子网络预测出的所述视频帧在上一特征维度上的动作分类置信度,识别出第一动作类别和/或第二动作类别;所述第一动作类别是指所述视频帧在上一特征维度上的动作分类置信度低于第一阈值的动作类别,所述第二动作类别是指所述视频帧在上一特征维度上的动作分类置信度高于第二阈值的动作类别;

针对所述第一动作类别,增大针对所述视频帧在第一动作类别上使用的内部权重,和/或,针对所述第二动作类别,减小针对所述视频帧在第二动作类别上使用的内部权重。

7.根据权利要求1所述的方法,其特征在于,基于所述视频帧序列中包含的各类生产动作及其持续时长,生成产线作业引导信息,包括:基于所述视频帧序列中包含的各类生产动作及其持续时长,确定非规范生产动作以及对应的目标作业人员;生成所述非规范生产动作对应的改进提示信息和规范性生产动作的教学视频,将所述改进提示信息和所述规范性生产动作的教学视频作为所述目标作业人员对应的产线作业引导信息;

和/或,

基于所述视频帧序列中包含的各类生产动作及其持续时长,结合所述生产线上已有的订单数据,预测所述生产线的订单完成时间;根据所述订单完成时间确定所述生产线在未来时段内的接单量,将所述生产线在未来时段内的接单量作为所述产线作业引导信息,以引导产线管理人员合理接单。

8.一种用于生产线的视频处理方法,其特征在于,包括:

获取生产线上包含生产动作的视频帧序列,所述视频帧序列包括多个视频帧;

将所述多个视频帧分别输入至姿态估计网络和特征编码网络进行瞬时姿态估计和长时动作识别,得到所述多个视频帧的瞬时姿态特征和长时动作特征;

将所述多个视频帧的长时动作特征输入至边界生成网络,以识别所述多个视频帧中的动作边界信息,并将所述多个视频帧的瞬时姿态特征和长时动作特征输入至级联网络进行视频帧级别的动作分类,得到所述多个视频帧的初始动作分类结果;

根据所述动作边界信息,采用自注意力机制对所述多个视频帧的初始动作分类结果进行修正,得到所述多个视频帧的目标动作分类结果;

基于所述多个视频帧的目标动作分类结果对所述视频帧序列中属于同一动作类别的连续视频帧进行合并,得到所述视频帧序列中包含的各类生产动作及其持续时长。

9.根据权利要求8所述的方法,其特征在于,将所述多个视频帧分别输入至特征编码网络和姿态估计网络进行瞬时姿态估计和长时动作识别,得到所述多个视频帧的姿态特征和长时动作特征,包括:对于每个视频帧,将所述视频帧输入姿态估计网络进行瞬时姿态估计,得到所述视频帧的瞬时姿态特征;

从所述视频帧序列中获取包含所述视频帧在内的视频片段,将所述视频片段输入特征编码网络进行长时动作识别,得到所述视频帧的长时动作特征。

10.一种用于生产线的视频处理装置,其特征在于,包括:

获取模块,用于获取生产线上包含生产动作的视频帧序列,所述视频帧序列包括多个视频帧;

识别模块,用于将所述多个视频帧分别输入至姿态估计网络和特征编码网络进行瞬时姿态估计和长时动作识别,得到所述多个视频帧的瞬时姿态特征和长时动作特征;

识别模块,还用于将所述多个视频帧的长时动作特征输入至边界生成网络,以识别所述多个视频帧中的动作边界信息;

分类模块,用于将所述多个视频帧的瞬时姿态特征和长时动作特征输入至级联网络进行视频帧级别的动作分类,得到所述多个视频帧的初始动作分类结果;

修正模块,用于根据所述动作边界信息,采用自注意力机制对所述多个视频帧的初始动作分类结果进行修正,得到所述多个视频帧的目标动作分类结果;

合并模块,用于基于所述多个视频帧的目标动作分类结果对所述视频帧序列中属于同一动作类别的连续视频帧进行合并,得到所述视频帧序列中包含的各类生产动作及其持续时长。

11.一种产线管理设备,其特征在于,包括:存储器和处理器;

所述存储器,用于存储计算机程序;

所述处理器耦合至所述存储器,用于执行所述计算机程序以用于执行权利要求1‑7任一项所述方法中的步骤。

12.一种计算机设备,其特征在于,包括:存储器和处理器;

所述存储器,用于存储计算机程序;

所述处理器耦合至所述存储器,用于执行所述计算机程序以用于执行权利要求8或9所述方法中的步骤。

13.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,致使所述处理器实现权利要求1‑9中任一项所述的方法。

说明书 :

产线作业管理与视频处理方法、装置、设备及存储介质

技术领域

[0001] 本申请涉及智能制造技术领域,尤其涉及一种产线作业管理与视频处理方法、装置、设备及存储介质。

背景技术

[0002] 随着云计算、物联网、人工智能等技术的不断发展,涌现出越来越多的数字化工厂。数字化工厂能够实现产品从原料采购、产品设计以及生产加工等全生产链条的数字化处理;还能够按照柔性制造模式进行生产制造。其中,柔性制造模式是指通过系统结构、人员组织、运作方式和市场营销等方面的改革,使生产系统能对市场需求变化作出快速地适应,同时消除冗余无用的损耗,力求企业获得更大的效益。在柔性制造模式下,数字化工厂以消费者需求为核心,重构传统以产定销的生产模式,实现按需智造。
[0003] 目前,在数字化生产过程中,有一些生产环节需要操作人员参与。例如,在服装智造领域中的车缝产线上,至少需要车缝工人手动执行以下几个车缝动作:取裁片并配对、抚平和/或移正压脚位、与其它各种配对裁片或附件合车、止口/线头修剪和放裁片等。由于车缝工人对生产工序动作的熟练程度不同,最终工序完成耗时与GTS标准工序时间也会有所不同,其中部分工序完成超时是因为存在不属于标准工序动作的浮余动作。为了帮助车缝工人改进生产动作,有必要识别出浮余动作,但在实际产线中,教练员和小组长也难以系统化掌握每个车缝工人的生产动作,因此需要一种能够自动识别出车缝工人的生产动作的解决方案,以便于及时纠正错误生产动作,减少工序耗时,帮助提高车缝效率。

发明内容

[0004] 本申请的多个方面提供一种产线作业管理与视频处理方法、装置、设备及存储介质,用以自动准确地识别出视频帧序列中出现的各类生产动作及其持续时长。
[0005] 本申请实施例提供一种基于视频分割的产线作业管理方法,包括:获取生产线上包含生产动作的视频帧序列,所述视频帧序列包括多个视频帧;对所述多个视频帧分别进行瞬时姿态估计和长时动作识别,得到所述多个视频帧的瞬时姿态特征和长时动作特征;根据所述多个视频帧的长时动作特征识别所述多个视频帧中的动作边界信息;根据所述多个视频帧中的动作边界信息、瞬时姿态特征和长时动作特征对所述视频帧序列进行动作分割,得到所述视频帧序列中包含的各类生产动作及其持续时长;基于所述视频帧序列中包含的各类生产动作及其持续时长,生成产线作业引导信息,将所述产线作业引导信息输出至生产线上的显示终端,以指导产线人员的后续作业。
[0006] 本申请实施例提供一种用于生产线的视频处理方法,包括:获取生产线上包含生产动作的视频帧序列,视频帧序列包括多个视频帧;对多个视频帧分别进行瞬时姿态估计和长时动作识别,得到多个视频帧的瞬时姿态特征和长时动作特征;根据多个视频帧的长时动作特征识别多个视频帧中的动作边界信息,并根据多个视频帧的瞬时姿态特征和长时动作特征进行视频帧级别的动作分类,得到多个视频帧的初始动作分类结果;根据动作边界信息,采用自注意力机制对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果;基于多个视频帧的目标动作分类结果对视频帧序列中属于同一动作类别的连续视频帧进行合并,得到视频帧序列中包含的各类生产动作及其持续时长。
[0007] 本申请实施例还提供一种用于生产线的视频处理装置,包括:获取模块,用于获取生产线上包含生产动作的视频帧序列,视频帧序列包括多个视频帧;识别模块,用于对多个视频帧分别进行瞬时姿态估计和长时动作识别,得到多个视频帧的瞬时姿态特征和长时动作特征;识别模块,还用于根据多个视频帧的长时动作特征识别多个视频帧中的动作边界信息;分类模块,用于根据多个视频帧的瞬时姿态特征和长时动作特征进行视频帧级别的动作分类,得到多个视频帧的初始动作分类结果;修正模块,用于根据动作边界信息,采用自注意力机制对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果;合并模块,用于基于多个视频帧的目标动作分类结果对视频帧序列中属于同一动作类别的连续视频帧进行合并,得到视频帧序列中包含的各类生产动作及其持续时长。
[0008] 本申请实施例还提供一种产线管理设备,包括:存储器和处理器;存储器,用于存储计算机程序;处理器耦合至存储器,用于执行计算机程序以用于执行本申请实施例提供的产线作业管理方法中的步骤。
[0009] 本申请实施例还提供一种计算机设备,包括:存储器和处理器;存储器,用于存储计算机程序;处理器耦合至存储器,用于执行计算机程序以用于执行本申请实施例提供的视频处理方法中的步骤。
[0010] 本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序被处理器执行时,致使处理器实现执行本申请实施例提供的视频处理方法中的步骤。
[0011] 在本申请实施例中,针对生产线上包含生产动作的视频帧序列,从瞬时姿态估计和长时动作识别两个维度识别视频帧序列中视频帧的瞬时姿态特征和长时动作特征,基于视频帧的长时动作特征进行动作边界信息的识别,进而同时基于动作边界信息、瞬时姿态特征和长时动作特征针对视频帧序列进行动作分割,不仅可自动准确地识别出视频帧序列中出现的各类生产动作及其持续时长,而且结合动作边界信息的动作分割还能降低从一个动作到另一个动作的动作转换过程中容易出现动作误识别的概率,能够更好地修正动作分割中的过分割现象,尤其是在应用于车缝产线时,能够准确、及时帮助车缝工人纠正错误生产动作,减少工序耗时,提高车缝效率。另外,该方法对于各个动作持续时长差异较大或动作检测难度较大的任务也有较好地识别效果。

附图说明

[0012] 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0013] 图1a为本申请示例性实施例提供的一种基于视频分割的产线作业管理方法的流程示意图;
[0014] 图1b为本申请一示例性实施例提供的一种用于生产线的视频处理方法的流程示意图;
[0015] 图2为本申请实施例适用的一种视频处理的网络模型原理图;
[0016] 图3为本申请实施例适用的一种姿态估计网络的结构示意图;
[0017] 图4为本申请实施例适用的一种动作分类结果修正过程图;
[0018] 图5为本申请实施例适用的一种服装智造场景下视频处理系统的结构示意图;
[0019] 图6为本申请一示例性实施例提供的一种用于生产线的视频处理装置的结构示意图;
[0020] 图7为本申请一示例性实施例提供的一种计算机设备的结构示意图。

具体实施方式

[0021] 为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0022] 针对车缝产线需要及时纠正车缝工人的错误生产动作,减少工序耗时,提高车缝效率的需求,在本申请一些实施例中,针对生产线上包含生产动作的视频帧序列,从瞬时姿态估计和长时动作识别两个维度识别视频帧序列中视频帧的瞬时姿态特征和长时动作特征,基于视频帧的长时动作特征进行动作边界信息的识别,进而基于动作边界信息、瞬时姿态特征和长时动作特征针对视频帧序列进行动作分割,不仅可自动准确地识别出视频帧序列中出现的各类生产动作及其持续时长,而且结合动作边界信息的动作分割还能降低从一个动作到另一个动作的动作转换过程中容易出现动作误识别的概率,能够更好地修正动作分割中的过分割现象,尤其是在应用于车缝产线时,能够准确、及时帮助车缝工人纠正错误生产动作,减少工序耗时,提高车缝效率。另外,该方法对于各个动作持续时长差异较大或动作检测难度较大的任务也有较好地识别效果。
[0023] 基于上述,在本申请一些实施例中,提供一种基于视频分割的产线作业管理方法。在本申请另外一些实施例中,提供一种用于生产线的视频处理方法。下面分别对本申请实施例提供的用于生产线的视频处理方法和基于视频分割的产线作业管理方法进行详细说明。
[0024] 首先,本申请实施例提供一种产线作业管理方法,该方法可应用于生产线上的产线管理设备中,由产线管理设备基于对生产线上的视频帧序列的动作分割结果对生产线进行作业管理。其中,产线管理设备可以是云端服务器,也可以是部署在产线现场中的终端设备,还可以是距离产线现场较近的边缘云节点中的边缘设备,对此不做限定。如图1a所示,该方法包括:
[0025] 11、获取生产线上包含生产动作的视频帧序列,该视频帧序列包括多个视频帧;
[0026] 12、对上述多个视频帧分别进行瞬时姿态估计和长时动作识别,得到多个视频帧的瞬时姿态特征和长时动作特征;
[0027] 13、根据多个视频帧的长时动作特征识别所述多个视频帧中的动作边界信息;
[0028] 14、根据多个视频帧中的动作边界信息、瞬时姿态特征和长时动作特征对上述视频帧序列进行动作分割,得到视频帧序列中包含的各类生产动作及其持续时长;
[0029] 15、基于视频帧序列中包含的各类生产动作及其持续时长,生成产线作业引导信息,将该产线作业引导信息输出至生产线上的显示终端,以指导产线人员的后续作业。
[0030] 在本申请实施例中,可以在生产线上部署至少一个视频采集设备,例如摄像头,在利用摄像头采集生产线上生产对象执行生产动作产生的视频帧序列,该视频帧序列包括多个视频帧。生产对象是指生产线上的作业人员,例如可以是车缝产线上的车缝工人。生产对象执行哪些生产动作由生产对象负责的工序或工段而定,以车缝产线为例,生产对象负责的工序是车缝工序,则其需要执行的生产动作为车缝产线要求完成的生产动作,例如取裁片并配对、抚平和/或移正压脚位、与其它各种配对裁片或附件合车、止口/线头修剪和放裁片等生产动作。
[0031] 在获取到包含生产动作的视频帧序列之后,一方面对于视频帧序列中的每个视频帧分别进行瞬时姿态估计,得到各视频帧的瞬时姿态特征;另一方面对每个视频帧进行长时动作识别以得到视频帧的长时动作特征。
[0032] 进一步,根据多个视频帧的长时动作特征进行识别多个视频帧中的动作边界信息。多个视频帧中的动作边界信息可以帮助从视频帧序列中确定各个动作的起始帧、结束帧和中间帧。之后,同时根据多个视频帧中的动作边界信息、瞬时姿态特征和长时动作特征对上述视频帧序列进行动作分割,得到视频帧序列中包含的各类生产动作及其持续时长。
[0033] 在一可选实施例中,根据多个视频帧中的动作边界信息、瞬时姿态特征和长时动作特征对上述视频帧序列进行动作分割,得到视频帧序列中包含的各类生产动作及其持续时长的一种实施过程包括:根据多个视频帧的瞬时姿态特征和长时动作特征进行视频帧级别的动作分类,得到多个视频帧的初始动作分类结果;根据动作边界信息,采用自注意力机制对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果;基于多个视频帧的目标动作分类结果对视频帧序列中属于同一动作类别的连续视频帧进行合并,得到视频帧序列中包含的各类生产动作及其持续时长。
[0034] 在得到视频帧序列中包含的各类生产动作及其持续时长之后,可以根据视频帧序列中包含的各类生产动作及其持续时长,生成产线作业引导信息,并输出至生产线上的显示终端,以指导产线人员的后续作业。其中,产线作业引导信息可以是各种与生产相关的引导信息,例如可以是促使生产线上的作业人员改进生产动作,提高生产效率的产线作业引导信息,也可以是促使生产线在未来时段内合理接收订单,避免产线负担过重,保证合理生产的产线作业引导信息。需要说明的是,根据产线作业引导信息的不同,与产线作业引导信息适配的产线人员也会有所不同,例如可以是生产线上的作业人员,也可以是生产线上的管理人员。
[0035] 在一可选实施例中,基于视频帧序列中包含的各类生产动作及其持续时长,可以分析各产线作业人员的生产动作是否规范,例如包括识别生产动作是否存在浮余动作,动作熟练程度是否达标等,基于此,可确定非规范生产动作以及对应的目标作业人员;之后,生成非规范生产动作对应的改进提示信息和规范性生产动作的教学视频,将非规范生产动作的改进提示信息和规范性生产动作的教学视频作为目标作业人员对应的产线作业引导信息。其中,非规范生产动作的改进提示信息可以包括对非规范生产动作的问题说明、可能的原因和改进的方向等信息。在该可选实施例中,产线作业引导信息可以具体到每个产线作业人员,有利于帮助每个产线作业人员改进生产动作,提高生产效率,进而提高整个生产线的生产效率。
[0036] 进一步可选地,也可以识别出整个视频帧序列中各个非规范生产动作,并统计各个非规范生产动作对应的目标作业人员的数量和/或非规范生产动作的出现频次,根据目标作业人员的数量和/或非规范生产动作的出现频率,从各个非规范生产动作中选择有针对性的非规范动作,作为目标非规范动作;生成目标非规范动作的改进提示信息和对应的规范性生产动作的教学视频作为整个生产线上的产线作业引导信息,并将该产线作业引导信息输出至生产线对应的显示屏幕上,供整个生产线上的产线作业人员参考和学习。
[0037] 进一步可选地,无论是各产线人员对应的显示终端,还是整个生产线上的显示屏幕,可以在第一界面的第一区域内显示改进提示信息,在第一界面的第二区域中显示一视频播放窗口,在该视频播放窗口中显示规范性生产动作的教学视频,当然,也不限于这种显示方式。
[0038] 在一可选实施例中,基于视频帧序列中包含的各类生产动作及其持续时长,可以分析生产线上各产线作业人员的生产效率,结合该生产线上已有的订单数据,预测该生产线的订单完成时间;根据该订单完成时间确定生产线在未来时段内的接单量,将生产线在未来时段内的接单量作为产线作业引导信息,以引导产线管理人员合理接单。这样,可以避免产线负担过重,保证合理生产,同时也可以避免要赶任务导致的生产质量下降,保证产线质量。
[0039] 在此说明,上述实施例中,各步骤的详细实现可参见下述实施例中相同或相似步骤的详细实施方式,在此暂不赘述。
[0040] 在本申请实施例中,针对生产线上包含生产动作的视频帧序列,从瞬时姿态估计和长时动作识别两个维度识别视频帧序列中视频帧的瞬时姿态特征和长时动作特征,基于视频帧的长时动作特征进行动作边界信息的识别,进而同时基于动作边界信息、瞬时姿态特征和长时动作特征针对视频帧序列进行动作分割,不仅可自动准确地识别出视频帧序列中出现的各类生产动作及其持续时长,而且结合动作边界信息的动作分割还能降低从一个动作到另一个动作的动作转换过程中容易出现动作误识别的概率,能够更好地修正动作分割中的过分割现象,基于该动作分割结果生成产线作业引导信息,有利于极大地改善产线效率,保证合理生产,提高生产质量。尤其是,在应用于车缝产线时,能够准确、及时帮助车缝工人纠正错误生产动作,减少工序耗时,提高车缝效率。另外,该方法对于各个动作持续时长差异较大或动作检测难度较大的任务也有较好地识别效果。
[0041] 其次,本实施例提供的用于生产线的视频处理方法可以应用到各种涉及生产动作识别的产线场景中。例如,在车缝作业场景中,可以通过各种视频采集设备(如各类摄像头)对车缝作业过程进行拍摄,得到包含车缝产线上各类生产动作的视频帧序列,采用本申请实施例提供的视频处理方法对车缝产线上的视频帧序列进行处理,以得到车缝工人在车缝作业过程中执行的各个车缝动作以及各个车缝动作的持续时长。但是,本申请实施例提供的视频处理方法并不局限于各种产线场景,其它具有动作识别的场景同样可以采用本申请实施例提供的视频处理方法。例如,在健身运动场景中,一个健身单元往往包括多个健身动作,对健身过程进行拍摄,得到健身视频,采用本申请实施例提供的视频处理方法处理健身视频,以得到健身人士在健身过程中执行的各个健身动作以及各个健身动作的持续时长。又例如,在仿生机器人推介场景中,仿生机器人可以模拟真实人类或真实动物做出不同仿生动作。对仿生机器人执行仿生动作的过程进行拍摄,得到仿生动作视频,采用本申请实施例提供的视频处理方法处理仿生动作视频,以得到仿生机器人执行的各个仿生动作以及各个仿生动作的持续时长。
[0042] 在本申请下述实施例中,以本申请实施例提供的视频处理方法应用于生产线为例进行说明。以下结合附图,详细说明本申请各实施例提供的技术方案。
[0043] 图1b为本申请一示例性实施例提供的一种用于生产线的视频处理方法的流程示意图。参见图1b,该方法可以包括以下步骤:
[0044] 101、获取生产线上包含生产动作的视频帧序列,该视频帧序列包括多个视频帧。
[0045] 102、对多个视频帧分别进行瞬时姿态估计和长时动作识别,得到多个视频帧的瞬时姿态特征和长时动作特征。
[0046] 103、根据多个视频帧的长时动作特征识别多个视频帧中的动作边界信息,并根据多个视频帧的瞬时姿态特征和长时动作特征进行视频帧级别的动作分类,得到多个视频帧的初始动作分类结果。
[0047] 104、根据动作边界信息,采用自注意力机制对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果。
[0048] 105、基于多个视频帧的目标动作分类结果对视频帧序列中属于同一动作类别的连续视频帧进行合并,得到视频帧序列中包含的各类生产动作及其持续时长。
[0049] 在本申请实施例中,视频帧序列是在生产线上生产对象执行生产动作过程中进行拍摄得到的视频,该视频帧序列包括多个视频帧。其中,生产对象执行哪些生产动作由生产对象负责的工序或工段而定。例如,生产对象为车缝产线上的车缝工人时,其负责的工序是车缝工序,则其需要执行的生产动作为车缝产线要求完成的生产动作,例如取裁片并配对、抚平和/或移正压脚位、与其它各种配对裁片或附件合车、止口/线头修剪和放裁片等生产动作。
[0050] 当然,在本申请实施例提供的方法应用到非生产线场景的情况下,动作执行对象不再是是生产对象,相应地的需要识别的动作也不再是生产动作。例如,在本实施例的视频处理方法用于对健身视频进行动作识别与分割的情况下,动作执行对象为健身人士,该对象执行的动作为健身动作。又例如,在本实施例的视频处理方法用于对仿生机器人的服务视频进行动作识别与分割的情况下,动作执行对象是仿生机器人,例如在仿生机器人是为舞蹈学习者提供舞蹈服务的舞蹈机器人,其执行的动作为舞蹈动作;又例如在仿生机器人是为用户提供迎宾服务的迎宾机器人时,其执行的动作为迎宾动作;又例如,在仿生机器人是为用户提供挖掘服务的螃蟹机器人时,其执行的动作为挖掘动作;又例如,在仿生机器人为机器狗时,其执行的动作为奔跑、走路以及弹跳等。
[0051] 在获取到包含生产动作的视频帧序列之后,对于视频帧序列中的每个视频帧分别进行瞬时姿态估计,得到各视频帧的瞬时姿态特征。进一步可选的,在对视频帧进行瞬时姿态估计时,可以对视频帧中对象关键点进行姿态估计,将对象关键点的瞬时姿态特征作为视频帧的瞬时姿态特征。其中,对象关键点可以视对象的类型灵活定义。例如,在生产对象为真实人体时,对象关键点可以是指人体各个主要关节部位,例如手、手臂、手肘、手腕、肩膀、头、脖子、脚踝、膝盖等。又如,在生产对象为仿生机器人时,对象关键点可以是是指仿生机器人的各个主要关节部位,例如仿生手、仿生手臂、仿生手肘、仿生手腕、仿生肩膀、仿生头、仿生脖子、仿生脚踝以及仿生膝盖等。具体举例来说,在车缝作业场景中,需要识别每个视频帧中的车缝工人的手部姿态,手部姿态例如握拳、持物或者抬手等等。
[0052] 进一步可选的,为了提高姿态估计准确度,可以预先训练一个可以估计视频帧中对象关键点的瞬时姿态特征的姿态估计网络。于是,如图2所示,在对视频帧序列中每个视频帧进行瞬时姿态估计时,可以将该将视频帧输入姿态估计网络进行瞬时姿态估计中,得到视频帧的瞬时姿态特征。在本申请实施例中,并不限定姿态估计网络的具体实现结构,各种具有姿态估计功能的神经网络结构都适用于本申请实施例。在本申请的一可选实施例中,如图3所示,姿态估计网络可以包含多个级联的卷积神经网络层,这些卷积神经网络层之间形成至少一个沙漏型的结构;在每个沙漏型结构中,包括两部分卷积神经网络层,第一部分的卷积神经网络层对输入的视频帧不断下采样到一个很小的分辨率(例如第一尺寸)得到第一特征图,第二部分的卷积神经网络层再对第一特征图逐渐进行上采样,直到上采样到第二尺寸的特征为止,得到第二特征图,其中,第一尺寸和第二尺寸是指特征图的大小,且第二尺寸远大于第一尺寸;另外,在相邻两个沙漏型结构中,上一沙漏型结构输出的第二特征图,将作为下一沙漏型结构的输入,下一沙漏型结构中第一部分的卷积神经网络层不断对上一沙漏型结构输出的第二特征图进行下采样得到第一特征图,之后下一沙漏型结构中第二部分的卷积神经网络层不断对第一特征图进行上采样得到第二特征图,如此反复不断重复,直至最后一个沙漏型结构输出第二特征图,作为视频帧的瞬时姿态特征。
[0053] 在本实施例中,除了需要对每个视频帧进行瞬时姿态估计以得到视频帧的姿态特征,还需要对每个视频帧进行长时动作识别以得到视频帧的长时动作特征。视频帧的长时动作特征反映的是视频帧中出现的是哪个的动作,例如,车缝作业场景中包括以下几种车缝动作,取裁片并配对、抚平和/或移正压脚位、与其它各种配对裁片或附件合车、止口/线头修剪和放裁片。
[0054] 由于长时动作的时间跨度比较大,为了准确识别每个视频帧的长时动作特征,可以预先训练一个能够对包括多个视频帧的视频片段进行长时动作识别的特征编码网络,这样,对视频帧序列中的任一视频帧,可以从该视频帧序列中获取包括该视频帧在内的视频片段,将视频片段输入至特征编码网络中进行长时动作识别,得到该视频片段对应的长时动作特征,也即对该视频片段中包括的各视频帧进行特征提取得到长时动作特征,如图2所示。
[0055] 进一步可选的,为了准确识别视频帧的长时动作特征,在从视频帧序列中获取包含每个视频帧在内的视频片段时,可以从视频帧序列中获取以该视频帧为中心的连续视频帧,得到视频片段。在本申请一些可选实施例中,根据应用场景的不同,该视频片段的长度可灵活设定,例如在一些生产线上,该视频片段的长度可以是连续8帧,连续16帧,在另一些生产线上,该视频片段的长度可以是连续4帧,连续20帧等。另外,在本申请一些可选实施例中,允许针对不同持续时长的动作,选用不同长度的视频片段,为针对不同持续时长的动作能够自适应的进行时域信息的提取提供条件,为后续基于长时动作特征进行动作边界信息识别提供更为丰富的时域信息。具体地,对视频帧序列中的任一视频帧,在从视频帧序列中获取包含该视频帧在内的视频片段时,可以根据该视频帧的瞬时姿态特征,预估该视频帧可能属于的动作类别的持续时长,根据该视频帧可能属于的动作类别的持续时长,选择与该持续时长适配的视频片段长度,根据该视频片段长度从视频帧序列中获取以该视频帧为中心的连续视频帧,作为包含该视频帧在内的视频片段。在本实施例中,不同持续时长的动作,对应的视频片段长度不同,可以预先根据经验设定动作持续时长与视频片段长度之间的对应关系,进而在实际应用中基于该对应关系选择视频片段长度。
[0056] 在本实施例中,视频帧序列是在生产对象执行动作过程中拍摄到的视频,由于每个动作持续一定时长,在视频帧序列中包括每个动作的连续若干个视频帧。将每个动作的连续若干个视频帧中的第一个视频帧称作为起始帧,起始帧对应的时间节点为该动作开始的时间节点;将每个动作的连续若干个视频帧中的最后一个视频帧称作为结束帧,结束帧对应的时间节点为该动作结束的时间节点;将每个动作的连续若干个视频帧中的除第一个和最后一个视频帧之外的视频帧称中间帧,中间帧对应的时间节点为该动作持续过程中的时间节点。但是需要说明的是,上文中获取的包含视频帧在内的视频片段不一定只包含同一动作的视频帧,可能包含两个或两个以上动作的视频帧。
[0057] 在本实施例中,可以根据多个视频帧的长时动作特征进行识别多个视频帧中的动作边界信息。多个视频帧中的动作边界信息可以帮助从视频帧序列中确定各个动作的起始帧、结束帧和中间帧。具体而言,若某个视频帧的长时动作特征与其上一个视频帧的长时动作特征不同,则该视频帧为具有相应长时动作特征的动作的起始帧,则该视频帧的动作边界信息指示该视频帧为相应动作的起始帧;若某个视频帧的长时动作特征与其下一个视频帧的长时动作特征不同,则该视频帧为具有相应长时动作特征的动作的结束帧,则该视频帧的动作边界信息指示该视频帧为相应动作的结束帧;若某个视频帧的长时动作特征与其上一个和下一个视频帧的长时动作特征相同,则该视频帧为具有相应长时动作特征的动作的中间帧,则该视频帧的动作边界信息指示该视频帧为相应动作的中间帧。进一步可选的,各个视频帧的动作边界信息可以包括各个视频帧为起始帧的概率或置信度,或者包括各个视频帧为结束帧的概率或置信度。
[0058] 在本申请实施例中,为了准确获得多个视频帧各自的动作分类结果,首先结合多个视频帧的瞬时姿态特征和长时动作特征对多个视频帧中的每个视频帧进行视频帧级别的动作分类,得到多个视频帧各自的初始动作分类结果。接着,根据多个视频帧中的动作边界信息并采用自注意力机制对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果。举例来说,车缝作业视频分别包括视频帧1、视频帧2……视频帧n等n个视频帧,其中,n为大于2的整数。视频帧1至视频帧5的初步动作分类结果均为车缝动作1,视频帧6至视频7的初步动作分类结果均为车缝动作2,但是,车缝作业视频的动作边界信息指示视频帧5是中间帧,视频帧6是结束帧而不是起始帧,这时,需要对视频帧5和6的初步动作分类结果进行修正。
[0059] 值得注意的是,对视频帧序列进行视频帧级别的动作分类,可以得到每个视频帧的初始动作分类结果。在每个视频帧的初始动作分类结果中,可以包括该每个视频帧中出现的动作属于哪种动作类别的概率或者该每个视频帧中出现的动作属于哪种动作类别的置信度,但并不是为限。
[0060] 进一步可选的,为了准确获得多个视频帧中的动作边界信息,可以预先训练一个基于多个视频帧的长时动作特征进行动作边界信息预测的边界生成网络。另外,本申请实施例并不限制边界生成网络的网络结构,例如,边界生成网络包括依次串联的多个卷积层和sigmoid(激活函数)层,边界生成网络的输出结果可以是每个视频帧的动作边界分类置信度,基于该动作边界分类置信度可确定视频帧中出现的动作是中间动作还是动作边界。其中,一个完整的动作按照时间先后顺序被划分为起始动作、中间动作和结束动作,起始动作和结束动作为动作边界。
[0061] 于是,如图2所示,根据多个视频帧的长时动作特征识别多个视频帧中的动作边界信息的一种实施过程是:将多个视频帧的长时动作特征输入边界生成网络进行动作边界信息的置信度预测,得到多个视频帧的动作边界分类置信度,作为动作边界信息。
[0062] 相应地,如图2所示,将多个视频帧的动作边界信息和多个视频帧的初始动作分类结果输入至边界修正模块中进行修正。其中,边界修正模块根据动作边界信息,采用自注意力机制对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果的一种实施过程是:将动作边界信息和多个视频帧的初始动作分类结果输入池化层,在池化层中采用自注意力机制对相邻视频帧进行平滑池化操作,以得到多个视频帧的目标动作分类结果。在本申请实施例中,结合动作边界信息进行动作分割与识别,可以有效解决动作分割中的过分割现象。同时,利用池化层进行平滑池化操作能够较好地改善后续得到的动作分类结果的平滑程度,将两个动作之间的相互影响隔离开,减少出现相邻视频帧的动作分类结果完全不一致的情况,对于动作持续时间长和动作检测难度较大的任务具有精准的识别效果。
[0063] 在一可选实现方式中,在池化层中采用自注意力机制对相邻视频帧进行平滑池化操作,以得到多个视频帧的目标动作分类结果的实施过程是:根据多个视频帧的动作边界分类置信度与多个视频帧的初始动作分类结果生成自注意力权重,基于自注意力权重对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果。
[0064] 示例性的,参见图4,在修正多个视频帧的初始动作分类结果时,首先可以将多个视频帧各自的动作边界分类置信度与多个视频帧各自的初始动作分类结果(初始动作分类结果例如为每个视频帧中出现的动作属于哪种动作类别的置信度)进行矩阵乘法运算,并利用激活函数softmax处理矩阵乘法运算结果,得到多个视频帧各自的自注意力权重;将多个视频帧各自的自注意力权重与多个视频帧各自的初始动作分类结果进行矩阵乘法运算,得到多个视频帧各自的目标动作分类结果。
[0065] 在得到多个视频帧各自的目标动作分类结果之后,基于多个视频帧各自的目标动作分类结果对视频帧序列中属于同一动作类别的连续视频帧进行合并,得到视频帧序列中包含的各类动作及其持续时长。例如,车缝作业视频分别包括视频帧1、视频帧2……视频帧n等n个视频帧,视频帧1至视频帧10对应的目标动作分类结果均为车缝动作1,视频帧11至视频帧20对应的目标动作分类结果均为车缝动作2……视频帧21至视频帧n对应的目标动作分类结果均为车缝动作3,则车缝作业视频中包括四种车缝动作,车缝动作1的持续时长为从视频帧1至视频帧10对应的时间段,车缝动作2的持续时长为从视频帧11至视频帧20对应的时间段,车缝动作2的持续时长为从视频帧11至视频帧20对应的时间段,车缝动作3的持续时长为从视频帧21至视频帧n对应的时间段。
[0066] 本申请实施例提供的视频处理方法,针对生产线上包含生产动作的视频帧序列,从瞬时姿态估计和长时动作识别两个维度识别视频帧序列中视频帧的瞬时姿态特征和长时动作特征,一方面同时结合视频帧的瞬时姿态特征和长时动作特征进行帧级别的动作分类,另一方面基于视频帧的长时动作特征进行动作边界信息的识别,进而基于动作边界信息采用自注意力机制对视频帧级别的动作分类结果进行修正,不仅可自动准确地识别出视频帧序列中出现的各类生产动作及其持续时长,而且结合动作边界信息的进一步修正操作还能降低从一个动作到另一个动作的动作转换过程中容易出现动作误识别的概率,能够更好地修正动作分割中的过分割现象,尤其是在应用于车缝产线时,能够准确、及时帮助车缝工人纠正错误生产动作,减少工序耗时,提高车缝效率。另外,该方法对于各个动作持续时长差异较大或动作检测难度较大的任务也有较好地识别效果。
[0067] 在本申请的一些实施例中,为了准确确定视频帧的动作分类结果,可以预先训练一个动作分类网络,利用该动作分类网络进行视频帧级别的动作分类。本申请实施例对动作分类网络的实现形态不做限制,动作分类网络例如可以是特征金字塔网络(feature pyramid networks,FPN)或者级联网络。
[0068] 进一步可选的,为了更加准确进行视频帧级别的动作分类,可以预先训练一个能够进行视频帧级别的动作分类的级联网络。作为一种示例,如图2所示,级联网络是由n个子网络级联形成的,其中,前n‑1个子网络按照特征维度由大到小的顺序依次预测每个视频帧在不同特征维度上的动作分类置信度,第n个子网络用于融合前面n‑1个子网预测出的每个视频帧在不同特征维度上的动作分类置信度,得到每个视频帧的初始动作分类置信度,n是≥2的正整数。其中,每个视频帧的初始动作分类置信度包括每个视频帧在每个动作类别下的置信度。
[0069] 于是,在一可选实现方式中,根据多个视频帧的姿态特征和长时动作特征进行视频帧级别的动作分类,得到多个视频帧的初始动作分类结果的一种实施过程是:对于每个视频帧,将视频帧的姿态特征和长时动作特征拼接形成融合特征,将融合特征输入由n个子网络级联形成的级联网络对视频帧进行动作分类,得到视频帧的初始动作分类置信度。
[0070] 进一步可选的,将融合特征输入由n个子网络级联形成的级联网络对视频帧进行动作分类,得到视频帧的初始动作分类置信度的一种实施过程是:在前n‑1个子网络中的每个子网络内部,根据其上一子网络预测出的视频帧在上一特征维度上的动作分类置信度,调整针对视频帧使用的内部权重;根据调整后的内部权重,预测视频帧在当前特征维度上的动作分类置信度。
[0071] 进一步可选的,根据其上一子网络预测出的视频帧在上一特征维度上的动作分类置信度,调整针对视频帧使用的内部权重的一种实施过程是:根据其上一子网络预测出的视频帧在上一特征维度上的动作分类置信度,识别出第一动作类别和/或第二动作类别;第一动作类别是指视频帧在上一特征维度上的动作分类置信度低于第一阈值的动作类别,第二动作类别是指视频帧在上一特征维度上的动作分类置信度高于第二阈值的动作类别;针对第一动作类别,增大针对视频帧在第一动作类别上使用的内部权重,和/或,针对第二动作类别,减小针对视频帧在第二动作类别上使用的内部权重。
[0072] 为了便于本领域技术人员更好地理解,介绍一个实际应用中的视频处理系统。图5为本申请实施例适用的一种服装智造场景下视频处理系统的结构示意图。参见图5,该系统包括摄像头10和视频处理装置20。其中,视频处理装置20与摄像头10通信连接。
[0073] 其中,摄像头10部署在数字化工厂环境的车间中,用于采集车缝作业视频。实际应用中,可以在车间中部署多个摄像头10,多个摄像头10可以提高车缝作业视频的采集效率,另外,不同摄像头10可以有不同拍摄视角。
[0074] 进一步的,如图5所示,该系统还可以视频处理装置20,该视频处理装置20可以承担识别车缝作业视频中出现的车缝动作及其持续时长的任务。本申请实施例对视频处理装置20的设备形态不做限制。例如,视频处理装置20可以是个人数字处理(personal digital assistant,简称PDA)设备、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer,简称PC))等;又如,视频处理装置20也可以是集中式服务器、分布式服务器以及云端服务器。
[0075] 尽管图5中示出了一个摄像头10、一个数字化工厂环境、一个车间、一个视频处理装置20,但不意味着本申请实施例限制上述设备、数字化工厂环境以及车间的数量,依据不同场景需求,可以是不同数量的设备、数字化工厂环境以及车间。
[0076] 下面结合图5所示的车缝作业场景,对本实施例提供的服装智造场景下视频处理系统的工作原理进行详细说明。
[0077] 参见图5,摄像头10对车缝工人进行车缝作业的过程进行图像采集,得到车缝作业视频并发送给视频处理装置20,视频处理装置20采用本申请实施例提供的视频处理方法处理车缝作业视频。具体而言,整个视频处理过程包括以下步骤:
[0078] S1、基于滑动窗口依次从车缝作业视频中获取包括多个视频帧的视频片段,并将该视频片段输入至特征编码网络中进行长时动作识别,得到该视频片段对应的长时动作特征。应理解,由于车缝作业视频被滑动窗口划分为多个视频片段,特征编码网络依次输出该车缝作业视频的多个长时动作特征。
[0079] 值得注意的是,利用滑动窗口依次从车缝作业视频中视频片段进行后续处理,能够较好地改善后续得到的动作分类结果的平滑程度,将两个动作之间的相互影响隔离开,减少出现相邻视频帧的动作分类结果完全不一致的情况,对于动作持续时间长和动作检测难度较大的任务具有精准的识别效果。
[0080] S2、将车缝作业视频中多个视频帧依次输入至姿态估计网络中,以得到多个视频帧各自的瞬时姿态特征。
[0081] S3、将多个长时动作特征输入至边界生成网络中,可以得到车缝作业视频中多个视频帧征各自对应的动作边界分类置信度。
[0082] S4、将多个长时动作特征和多个视频帧各自的瞬时姿态特征进行拼接,并将拼接特征输入至级联网络中进行动作分类,得到车缝作业视频中多个视频帧各自的初始动作分类结果。
[0083] 值得说明的是,利用包括n个子网络的级联网络作为动作分类的主干网络,前n‑1个子网络用于预测视频帧在不同特征维度上的动作分类置信度,第n个子网络用于融合前面n‑1个子网预测出的视频帧在不同特征维度上的动作分类置信度,并通过反向传播调整每个子网络权重分布。在调整各个子网络的权重时:首先把第一个子网络的权重W初始化为全1向量,然后对于前n‑1个子网络:每个子网络i都根据上一个子网络i‑1对于每个视频帧的动作分类置信度自适应调整当前网络对于该视频帧的权重。例如,对于子网络i‑1输出动作分类置信度高的视频帧降低权重,对于子网络i‑1动作分类置信度低的的视频帧提高权重,从而最终得到一个权重矩阵能够使得每个视频帧都有对应明显权重较大的子网络进行处理。
[0084] S5、利用多个视频帧征各自对应的动作边界分类置信度对多个视频帧各自的初始动作分类结果进行修正,得到多个视频帧各自的目标动作分类结果。
[0085] S6、基于多个视频帧各自的目标动作分类结果,识别车缝作业视频中出现的各个车缝动作及其持续时长。
[0086] 例如,假设视频采集的帧率(FPS)为αFPS,则单个视频帧的持续时间为1/α秒,则合并了m帧的某个动作的持续时长为m/α秒,其中,m为正整数。在本申请实施例中,结合动作边界信息进行动作分割与识别,可以有效解决动作分割中的过分割现象。同时,基于级联网络中的多个子网络可以自适应地调整不同视频帧对应的权重,进而自适应地处理不同尺度与难度的分类任务。
[0087] 需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤101至步骤103的执行主体可以为设备A;又比如,步骤101和102的执行主体可以为设备A,步骤103的执行主体可以为设备B;等等。
[0088] 另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
[0089] 图6为本申请一示例性实施例提供的一种用于生产线的视频处理装置的结构示意图。如图6所示,该装置包括:获取模块61、识别模块62、分类模块63、修正模块64以及合并模块65。
[0090] 其中,获取模块61,用于获取生产线上包含生产动作的视频帧序列,视频帧序列包括多个视频帧。
[0091] 识别模块62,用于对多个视频帧分别进行瞬时姿态估计和长时动作识别,得到多个视频帧的瞬时姿态特征和长时动作特征。
[0092] 识别模块62,还用于根据多个视频帧的长时动作特征识别多个视频帧中的动作边界信息。
[0093] 分类模块63,用于根据多个视频帧的瞬时姿态特征和长时动作特征进行视频帧级别的动作分类,得到多个视频帧的初始动作分类结果。
[0094] 修正模块64,用于根据动作边界信息,采用自注意力机制对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果。
[0095] 合并模块65,用于基于多个视频帧的目标动作分类结果对视频帧序列中属于同一动作类别的连续视频帧进行合并,得到视频帧序列中包含的各类生产动作及其持续时长。
[0096] 进一步可选的,识别模块62进行瞬时姿态估计和长时动作识别时,具体用于:对于每个视频帧,将视频帧输入姿态估计网络进行瞬时姿态估计,得到视频帧的瞬时姿态特征;从视频帧序列中获取包含视频帧在内的视频片段,将视频片段输入特征编码网络进行长时动作识别,得到视频帧的长时动作特征。
[0097] 进一步可选的,识别模块62根据多个视频帧的长时动作特征识别多个视频帧中的动作边界信息时,具体用于:将多个视频帧的长时动作特征输入边界生成网络进行动作边界信息的置信度预测,得到多个视频帧的动作边界分类置信度,作为动作边界信息;相应地,修正模块64根据动作边界信息,采用自注意力机制对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果时,具体用于:将动作边界信息和多个视频帧的初始动作分类结果输入池化层,在池化层中采用自注意力机制对相邻视频帧进行平滑池化操作,以得到多个视频帧的目标动作分类结果。
[0098] 进一步可选的,修正模块64在池化层中采用自注意力机制对相邻视频帧进行平滑池化操作,以得到多个视频帧的目标动作分类结果时,具体用于:根据多个视频帧的动作边界分类置信度与多个视频帧的初始动作分类结果生成自注意力权重,基于自注意力权重对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果。
[0099] 进一步可选的,分类模块63根据多个视频帧的姿态特征和长时动作特征进行视频帧级别的动作分类,得到多个视频帧的初始动作分类结果时,具体用于:对于每个视频帧,将视频帧的姿态特征和长时动作特征拼接形成融合特征,将融合特征输入由n个子网络级联形成的级联网络对视频帧进行动作分类,得到视频帧的初始动作分类置信度;其中,前n‑1个子网络按照特征维度由大到小的顺序依次预测视频帧在不同特征维度上的动作分类置信度,第n个子网络用于融合前面n‑1个子网预测出的视频帧在不同特征维度上的动作分类置信度,得到视频帧的初始动作分类置信度,n是≥2的正整数。
[0100] 进一步可选的,分类模块63将融合特征输入由n个子网络级联形成的级联网络对视频帧进行动作分类,得到视频帧的初始动作分类置信度时,具体用于:在前n‑1个子网络中的每个子网络内部,根据其上一子网络预测出的视频帧在上一特征维度上的动作分类置信度,调整针对视频帧使用的内部权重;根据调整后的内部权重,预测视频帧在当前特征维度上的动作分类置信度。
[0101] 进一步可选的,分类模块63根据其上一子网络预测出的视频帧在上一特征维度上的动作分类置信度,调整针对视频帧使用的内部权重时,具体用于:根据其上一子网络预测出的视频帧在上一特征维度上的动作分类置信度,识别出第一动作类别和/或第二动作类别;第一动作类别是指视频帧在上一特征维度上的动作分类置信度低于第一阈值的动作类别,第二动作类别是指视频帧在上一特征维度上的动作分类置信度高于第二阈值的动作类别;针对第一动作类别,增大针对视频帧在第一动作类别上使用的内部权重,和/或,针对第二动作类别,减小针对视频帧在第二动作类别上使用的内部权重。
[0102] 图6的视频处理装置可以执行图1b所示实施例的视频处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的视频处理装置其中各个模块、单元执行操作的具体方式已经在有关该数字化生产管理系统的实施例中进行了详细描述,此处将不做详细阐述说明。
[0103] 图7为本申请一示例性实施例提供的一种计算机设备的结构示意图。如图7所示,该计算机设备包括:存储器71和处理器72。
[0104] 存储器71,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
[0105] 存储器71可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
[0106] 处理器72,与存储器71耦合,用于执行存储器71中的计算机程序,以用于:获取生产线上包含生产动作的视频帧序列,视频帧序列包括多个视频帧;对多个视频帧分别进行瞬时姿态估计和长时动作识别,得到多个视频帧的瞬时姿态特征和长时动作特征;根据多个视频帧的长时动作特征识别多个视频帧中的动作边界信息;根据多个视频帧的瞬时姿态特征和长时动作特征进行视频帧级别的动作分类,得到多个视频帧的初始动作分类结果;根据动作边界信息,采用自注意力机制对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果;基于多个视频帧的目标动作分类结果对视频帧序列中属于同一动作类别的连续视频帧进行合并,得到视频帧序列中包含的各类生产动作及其持续时长。
[0107] 进一步可选的,处理器72进行瞬时姿态估计和长时动作识别时,具体用于:对于每个视频帧,将视频帧输入姿态估计网络进行瞬时姿态估计,得到视频帧的瞬时姿态特征;从视频帧序列中获取包含视频帧在内的视频片段,将视频片段输入特征编码网络进行长时动作识别,得到视频帧的长时动作特征。
[0108] 进一步可选的,处理器72根据多个视频帧的长时动作特征识别多个视频帧中的动作边界信息时,具体用于:将多个视频帧的长时动作特征输入边界生成网络进行动作边界信息的置信度预测,得到多个视频帧的动作边界分类置信度,作为动作边界信息;
[0109] 相应地,处理器72根据动作边界信息,采用自注意力机制对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果时,具体用于:将动作边界信息和多个视频帧的初始动作分类结果输入池化层,在池化层中采用自注意力机制对相邻视频帧进行平滑池化操作,以得到多个视频帧的目标动作分类结果。
[0110] 进一步可选的,处理器72在池化层中采用自注意力机制对相邻视频帧进行平滑池化操作,以得到多个视频帧的目标动作分类结果时,具体用于:根据多个视频帧的动作边界分类置信度与多个视频帧的初始动作分类结果生成自注意力权重,基于自注意力权重对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果。
[0111] 进一步可选的,处理器72根据多个视频帧的姿态特征和长时动作特征进行视频帧级别的动作分类,得到多个视频帧的初始动作分类结果时,具体用于:对于每个视频帧,将视频帧的姿态特征和长时动作特征拼接形成融合特征,将融合特征输入由n个子网络级联形成的级联网络对视频帧进行动作分类,得到视频帧的初始动作分类置信度;其中,前n‑1个子网络按照特征维度由大到小的顺序依次预测视频帧在不同特征维度上的动作分类置信度,第n个子网络用于融合前面n‑1个子网预测出的视频帧在不同特征维度上的动作分类置信度,得到视频帧的初始动作分类置信度,n是≥2的正整数。
[0112] 进一步可选的,处理器72将融合特征输入由n个子网络级联形成的级联网络对视频帧进行动作分类,得到视频帧的初始动作分类置信度时,具体用于:在前n‑1个子网络中的每个子网络内部,根据其上一子网络预测出的视频帧在上一特征维度上的动作分类置信度,调整针对视频帧使用的内部权重;根据调整后的内部权重,预测视频帧在当前特征维度上的动作分类置信度。
[0113] 进一步可选的,处理器72根据其上一子网络预测出的视频帧在上一特征维度上的动作分类置信度,调整针对视频帧使用的内部权重时,具体用于:根据其上一子网络预测出的视频帧在上一特征维度上的动作分类置信度,识别出第一动作类别和/或第二动作类别;第一动作类别是指视频帧在上一特征维度上的动作分类置信度低于第一阈值的动作类别,第二动作类别是指视频帧在上一特征维度上的动作分类置信度高于第二阈值的动作类别;
针对第一动作类别,增大针对视频帧在第一动作类别上使用的内部权重,和/或,针对第二动作类别,减小针对视频帧在第二动作类别上使用的内部权重。
[0114] 进一步,如图7所示,该计算机设备还包括:通信组件73、显示器74、电源组件75、音频组件76等其它组件。图7中仅示意性给出部分组件,并不意味着计算机设备只包括图7所示组件。另外,图7中虚线框内的组件为可选组件,而非必选组件,具体可视计算机设备的产品形态而定。本实施例的计算机设备可以实现为台式电脑、笔记本电脑、智能手机或IOT设备等终端设备,也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的计算机设备实现为台式电脑、笔记本电脑、智能手机等终端设备,可以包含图7中虚线框内的组件;若本实施例的计算机设备实现为常规服务器、云服务器或服务器阵列等服务端设备,则可以不包含图7中虚线框内的组件。
[0115] 相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述视频处理方法实施例中的各步骤。
[0116] 本申请实施例还提供一种产线管理装置,可基于视频分割结果进行产线作业管理。该产线管理装置包括:视频获取模块、特征识别模块、边界识别模块、动作分割模块和信息生成模块。其中,视频获取模块,用于获取生产线上包含生产动作的视频帧序列,该视频帧序列包括多个视频帧;特征识别模块,用于对多个视频帧分别进行瞬时姿态估计和长时动作识别,得到多个视频帧的瞬时姿态特征和长时动作特征;边界识别模块,用于根据多个视频帧的长时动作特征识别所述多个视频帧中的动作边界信息;动作切割模块,用于根据多个视频帧中的动作边界信息、瞬时姿态特征和长时动作特征对视频帧序列进行动作分割,得到视频帧序列中包含的各类生产动作及其持续时长;信息生成模块,用于基于视频帧序列中包含的各类生产动作及其持续时长,生成产线作业引导信息,将该产线作业引导信息输出至生产线上的显示终端,以指导产线人员的后续作业。
[0117] 在此说明,特征识别模块进行瞬时姿态估计和长时动作识别的详细实现方式可参见上述实施例中的识别模块62进行瞬时姿态估计和长时动作识别的详细实现,在此不再赘述。边界识别模块进行动作边界信息识别的详细实现方式可参见上述实施例中的识别模块62进行动作边界信息识别的详细实现,在此不再赘述。
[0118] 在一可选实施例中,动作切割模块包括分类单元、修正单元和合并单元;其中,分类单元用于:根据多个视频帧的瞬时姿态特征和长时动作特征进行视频帧级别的动作分类,得到多个视频帧的初始动作分类结果;修正单元,用于根据动作边界信息,采用自注意力机制对多个视频帧的初始动作分类结果进行修正,得到多个视频帧的目标动作分类结果;合并单元,用于基于多个视频帧的目标动作分类结果对视频帧序列中属于同一动作类别的连续视频帧进行合并,得到视频帧序列中包含的各类生产动作及其持续时长。
[0119] 在此说明,上述分类单元、修正单元和合并单元的详细实现可参见上述实施例中分类模块、修正模块和合并模块的详细实现,在此不再赘述。
[0120] 进一步,在一可选实施例中,上述信息生成模块具体用于:基于视频帧序列中包含的各类生产动作及其持续时长,确定非规范生产动作以及对应的目标作业人员;生成非规范生产动作对应的改进提示信息和规范性生产动作的教学视频,将所述改进提示信息和所述规范性生产动作的教学视频作为所述目标作业人员对应的产线作业引导信息;和/或,基于视频帧序列中包含的各类生产动作及其持续时长,结合生产线上已有的订单数据,预测所述生产线的订单完成时间;根据所述订单完成时间确定所述生产线在未来时段内的接单量,将所述生产线在未来时段内的接单量作为所述产线作业引导信息,以引导产线管理人员合理接单。
[0121] 上述产线管理装置可以执行本申请实施例的产线作业管理方法,其实现原理和技术效果不再赘述。
[0122] 除上述产线管理装置之外,本申请实施例还提供一种产线管理设备,该产线管理设备与上述计算机设备具有相同或相似的实现结构,故不再图示。本实施例的产线管理设备包括存储器和处理器;处理器与存储器耦合,用于执行存储器中存储的计算机程序,以用于:获取生产线上包含生产动作的视频帧序列,所述视频帧序列包括多个视频帧;对所述多个视频帧分别进行瞬时姿态估计和长时动作识别,得到多个视频帧的瞬时姿态特征和长时动作特征;根据多个视频帧的长时动作特征识别多个视频帧中的动作边界信息;根据多个视频帧中的动作边界信息、瞬时姿态特征和长时动作特征对视频帧序列进行动作分割,得到视频帧序列中包含的各类生产动作及其持续时长;基于视频帧序列中包含的各类生产动作及其持续时长,生成产线作业引导信息,将产线作业引导信息输出至生产线上的显示终端,以指导产线人员的后续作业。
[0123] 在一可选实施例中,处理器在根据多个视频帧中的动作边界信息、瞬时姿态特征和长时动作特征对视频帧序列进行动作分割时,具体用于:根据所述多个视频帧的瞬时姿态特征和长时动作特征进行视频帧级别的动作分类,得到所述多个视频帧的初始动作分类结果;根据所述动作边界信息,采用自注意力机制对所述多个视频帧的初始动作分类结果进行修正,得到所述多个视频帧的目标动作分类结果;基于所述多个视频帧的目标动作分类结果对所述视频帧序列中属于同一动作类别的连续视频帧进行合并,得到所述视频帧序列中包含的各类生产动作及其持续时长。
[0124] 在一可选实施例中,处理器在生成产线作业引导信息时,具体用于:基于视频帧序列中包含的各类生产动作及其持续时长,确定非规范生产动作以及对应的目标作业人员;生成非规范生产动作对应的改进提示信息和规范性生产动作的教学视频,将改进提示信息和规范性生产动作的教学视频作为目标作业人员对应的产线作业引导信息;和/或,基于视频帧序列中包含的各类生产动作及其持续时长,结合生产线上已有的订单数据,预测生产线的订单完成时间;根据订单完成时间确定生产线在未来时段内的接单量,将生产线在未来时段内的接单量作为产线作业引导信息,以引导产线管理人员合理接单。
[0125] 关于上述各操作的详细实施过程,可参见前述实施例中的相同或相应描述,在此不再赘述。
[0126] 相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述产线作业管理方法实施例中的各步骤。
[0127] 上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
[0128] 上述显示器包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
[0129] 上述电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
[0130] 上述音频组件,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
[0131] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。
[0132] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0133] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0134] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0135] 在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
[0136] 内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
[0137] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD‑ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
[0138] 还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0139] 以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。