对象重建方法、对象重建模型的训练方法、装置及设备转让专利

申请号 : CN202310431145.6

文献号 : CN116452741B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吕以豪卢飞翔李龙腾张良俊

申请人 : 北京百度网讯科技有限公司

摘要 :

本公开提供了对象重建方法、对象重建模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实和深度学习技术领域。具体实现方案为:对待处理图像序列中的多个待处理图像分别进行特征提取,得到初始特征图序列,待处理图像序列包括待重建的对象;针对初始特征图序列中的每个初始特征图,基于初始特征图,生成关于对象的全局特征和局部特征组,得到全局特征序列和局部特征组序列;基于全局特征序列和局部特征组序列,生成用于重建对象的对象模型参数序列;以及基于对象模型参数序列对对象进行重建,得到目标模型序列。

权利要求 :

1.一种对象重建方法,包括:

对待处理图像序列中的多个待处理图像分别进行特征提取,得到初始特征图序列,其中,所述待处理图像序列包括待重建的对象;

针对所述初始特征图序列中的每个初始特征图,基于所述初始特征图,生成关于所述对象的全局特征和局部特征组,得到全局特征序列和局部特征组序列;

基于所述全局特征序列和局部特征组序列,生成用于重建所述对象的对象模型参数序列;以及基于所述对象模型参数序列对所述对象进行重建,得到目标模型序列;

其中,所述基于所述全局特征序列和局部特征组序列,生成用于重建所述对象的对象模型参数序列,包括:基于所述全局特征序列和所述局部特征组序列,得到第一潜在编码组序列;

基于所述第一潜在编码组序列,生成全局潜在编码;

基于所述全局潜在编码和所述第一潜在编码组序列,得到第二潜在编码组序列;以及基于所述第二潜在编码组序列,生成所述对象模型参数序列。

2.根据权利要求1所述的方法,其中,所述基于所述全局特征序列和所述局部特征组序列,得到第一潜在编码组序列,包括:针对所述全局特征序列中的每个全局特征,

从所述局部特征组序列中确定与所述全局特征相匹配的目标局部特征组,其中,所述全局特征和与所述全局特征相匹配的所述目标局部特征组为同一待处理图像的图像特征;

基于所述目标局部特征组,得到第一融合特征;以及

基于预定数量个所述全局特征和所述第一融合特征,得到第一潜在编码组。

3.根据权利要求2所述的方法,其中,所述基于预定数量个所述全局特征和所述第一融合特征,得到第一潜在编码组,包括:重复执行下述操作,直至当前轮次等于第一预定轮次阈值,将当前轮次第一潜在编码组作为所述第一潜在编码组:在确定所述当前轮次小于所述第一预定轮次阈值的情况下,基于所述第一融合特征和所述当前轮次第一潜在编码组,得到下一轮次第一潜在编码组。

4.根据权利要求3所述的方法,其中,所述基于预定数量个所述全局特征和所述第一融合特征,得到第一潜在编码组,还包括:基于所述第一融合特征和预定数量个所述全局特征,得到第一轮次第一潜在编码组。

5.根据权利要求1所述的方法,其中,所述基于所述第一潜在编码组序列,生成全局潜在编码,包括:针对所述第一潜在编码组序列中的每个第一潜在编码组,基于所述第一潜在编码组,得到平均后的第一潜在编码;以及将与所述第一潜在编码组序列一一对应的平均后的第一潜在编码序列进行拼接,得到所述全局潜在编码。

6.根据权利要求1所述的方法,其中,所述基于所述全局潜在编码和所述第一潜在编码组序列,得到第二潜在编码组序列,包括:基于所述全局潜在编码,生成第二融合特征;以及

针对所述第一潜在编码组序列中的每个第一潜在编码组,基于所述第二融合特征和所述第一潜在编码组,得到所述第二潜在编码组。

7.根据权利要求6所述的方法,其中,所述基于所述第二融合特征和所述第一潜在编码组,得到所述第二潜在编码组,包括:重复执行下述操作,直至当前轮次等于第二预定轮次阈值,将当前轮次第二潜在编码组作为所述第二潜在编码组:在确定所述当前轮次小于所述第二预定轮次阈值的情况下,基于所述第二融合特征和所述当前轮次第二潜在编码组,得到下一轮次第二潜在编码组。

8.根据权利要求7所述的方法,其中,所述基于所述第二融合特征和所述第一潜在编码组,得到所述第二潜在编码组,还包括:基于所述第二融合特征和所述第一潜在编码组,得到第一轮次第二潜在编码组。

9.根据权利要求1至8中任一项所述的方法,其中,所述初始特征图包括背景区域和包含所述对象的前景区域,所述基于所述初始特征图,生成关于所述对象的全局特征和局部特征组,包括:基于所述初始特征图,生成掩膜图,其中,所述掩膜图包括多个像素点以及与多个像素点一一对应的像素值;

基于所述多个像素点各自的像素值,从所述多个像素点中确定多个目标像素点,其中,所述目标像素点用于表征所述对象的像素点;以及基于多个所述目标像素点和所述初始特征图,确定所述全局特征和所述局部特征组。

10.根据权利要求9所述的方法,其中,所述基于多个所述目标像素点和所述初始特征图,确定所述全局特征,包括:基于所述初始特征图,确定多个所述目标像素点各自的特征向量;以及基于多个所述目标像素点的第一像素点数量和多个所述目标像素点各自的特征向量,确定所述全局特征。

11.根据权利要求9所述的方法,其中,所述基于所述目标像素点和所述初始特征图,确定所述局部特征组,包括:基于多个所述目标像素点彼此之间的位置关系,对多个所述目标像素点进行分类,得到多个像素点集合,其中,每个所述像素点集合包括同一类别的多个所述目标像素点;以及针对所述多个像素点集合中的每个像素点集合,基于所述初始特征图,确定与所述像素点集合相对应的局部特征,得到所述局部特征组。

12.根据权利要求11所述的方法,其中,所述基于所述初始特征图,确定与所述像素点集合相对应的局部特征,包括:针对所述像素点集合中的每个目标像素点,基于所述初始特征图,确定所述目标像素点的特征向量;以及基于所述像素点集合中的多个所述目标像素点的第二像素点数量和多个所述目标像素点各自的所述特征向量,确定所述局部特征。

13.根据权利要求9所述的方法,其中,所述基于所述初始特征图,生成掩膜图,包括:对所述初始特征图进行卷积,得到卷积后特征图;

对所述卷积后特征图进行激活,得到激活后特征图;以及

对所述激活后特征图进行规范化操作,得到所述掩膜图。

14.一种对象重建模型的训练方法,包括:

对样本图像序列中的多个样本图像分别进行特征提取,得到样本初始特征图序列,其中,所述样本图像序列包括待重建的样本对象;

针对所述样本初始特征图序列中的每个样本初始特征图,基于所述样本初始特征图,生成关于所述样本对象的样本全局特征和样本局部特征组,得到样本全局特征序列和样本局部特征组序列;

基于所述样本全局特征序列和样本局部特征组序列,生成用于重建所述样本对象的样本对象模型参数序列;以及利用所述样本对象模型参数序列和与所述样本图像序列相匹配的样本对象模型参数标签序列,训练所述对象重建模型;

其中,所述基于所述样本全局特征序列和样本局部特征组序列,生成用于重建所述样本对象的样本对象模型参数序列,包括:基于所述样本全局特征序列和所述样本局部特征组序列,得到样本第一潜在编码组序列;

基于所述样本第一潜在编码组序列,生成样本全局潜在编码;

基于所述样本全局潜在编码和所述样本第一潜在编码组序列,得到样本第二潜在编码组序列;以及基于所述样本第二潜在编码组序列,生成所述样本对象模型参数序列。

15.根据权利要求14所述的方法,其中,所述基于所述样本全局特征序列和所述样本局部特征组序列,得到样本第一潜在编码组序列,包括:针对所述样本全局特征序列中的每个样本全局特征,

从所述样本局部特征组序列中确定与所述样本全局特征相匹配的样本目标局部特征组,其中,所述样本全局特征和与所述样本全局特征相匹配的所述样本目标局部特征组为同一样本图像的图像特征;

基于所述样本目标局部特征组,得到样本第一融合特征;以及基于预定数量个所述样本全局特征和所述样本第一融合特征,得到样本第一潜在编码组。

16.根据权利要求15所述的方法,其中,所述基于预定数量个所述样本全局特征和所述样本第一融合特征,得到样本第一潜在编码组,包括:重复执行下述操作,直至当前轮次等于第三预定轮次阈值,将当前轮次样本第一潜在编码组作为所述样本第一潜在编码组:在确定所述当前轮次小于所述第三预定轮次阈值的情况下,基于所述样本第一融合特征和所述当前轮次样本第一潜在编码组,得到下一轮次样本第一潜在编码组。

17.根据权利要求16所述的方法,其中,所述基于预定数量个所述样本全局特征和所述样本第一融合特征,得到样本第一潜在编码组,还包括:基于所述样本第一融合特征和预定数量个所述样本全局特征,得到第一轮次样本第一潜在编码组。

18.根据权利要求14所述的方法,其中,所述基于所述样本第一潜在编码组序列,生成样本全局潜在编码,包括:针对所述样本第一潜在编码组序列中的每个样本第一潜在编码组,基于所述样本第一潜在编码组,得到平均后的样本第一潜在编码;以及将与所述样本第一潜在编码组序列一一对应的平均后的样本第一潜在编码序列进行拼接,得到所述样本全局潜在编码。

19.根据权利要求14所述的方法,其中,所述基于所述样本全局潜在编码和所述样本第一潜在编码组序列,得到样本第二潜在编码组序列,包括:基于所述样本全局潜在编码,生成样本第二融合特征;以及针对所述样本第一潜在编码组序列中的每个样本第一潜在编码组,基于所述样本第二融合特征和所述样本第一潜在编码组,得到所述样本第二潜在编码组。

20.根据权利要求19所述的方法,其中,所述基于所述样本第二融合特征和所述样本第一潜在编码组,得到所述样本第二潜在编码组,包括:重复执行下述操作,直至当前轮次等于第四预定轮次阈值,将当前轮次样本第二潜在编码组作为所述样本第二潜在编码组:在确定所述当前轮次小于所述第四预定轮次阈值的情况下,基于所述样本第二融合特征和所述当前轮次样本第二潜在编码组,得到下一轮次样本第二潜在编码组。

21.根据权利要求20所述的方法,其中,所述基于所述样本第二融合特征和所述样本第一潜在编码组,得到所述样本第二潜在编码组,还包括:基于所述样本第二融合特征和所述样本第一潜在编码组,得到第一轮次样本第二潜在编码组。

22.根据权利要求14至21中任一项所述的方法,其中,所述样本对象模型参数序列中的每个样本对象模型参数包括样本姿态参数和样本体态参数,所述方法还包括:针对所述样本对象模型参数序列中的每个样本对象模型参数,基于所述样本姿态参数和所述样本体态参数,生成样本目标模型;以及基于所述样本目标模型,确定样本三维关键点信息。

23.根据权利要求22所述的方法,其中,所述利用所述样本对象模型参数序列和与所述样本图像序列相匹配的样本对象模型参数标签序列,训练所述对象重建模型,包括:基于所述样本对象模型参数序列和与所述样本图像序列相匹配的样本对象模型参数标签序列,生成第一损失值;

基于与所述样本图像序列相匹配的样本三维关键点信息序列和与所述样本图像序列相匹配的关键点标签,生成第二损失值;以及基于所述第一损失值和所述第二损失值,训练所述对象重建模型。

24.根据权利要求14至21中任一项所述的方法,其中,基于所述样本初始特征图,生成关于所述样本对象的样本全局特征和多个样本局部特征,包括:基于所述样本初始特征图,生成样本掩膜图,其中,所述样本掩膜图包括多个样本像素点以及与多个样本像素点一一对应的像素值;

基于所述样本掩膜图,从所述多个样本像素点中确定多个样本目标像素点,其中,所述样本目标像素点用于表征所述样本对象的像素点;以及基于多个所述目标像素点和所述样本初始特征图,确定所述样本全局特征和所述多个样本局部特征。

25.根据权利要求24所述的方法,其中,所述基于多个所述目标样本像素点和所述样本初始特征图,确定所述样本全局特征,包括:基于所述样本初始特征图,确定多个所述样本目标像素点各自的样本特征向量;以及基于多个所述样本目标像素点的样本第一像素点数量和多个所述样本目标像素点各自的所述样本特征向量,确定所述样本全局特征。

26.根据权利要求24所述的方法,其中,所述基于所述样本目标像素点和所述样本初始特征图,确定所述多个样本局部特征,包括:基于多个所述样本目标像素点彼此之间的位置关系,对多个所述样本目标像素点进行分类,得到多个样本像素点集合,其中,每个所述样本像素点集合包括同一类别的多个所述样本目标像素点;以及针对所述多个样本像素点集合中的每个样本像素点集合,基于所述样本初始特征图,确定与所述样本像素点集合相对应的样本局部特征,得到所述多个样本局部特征。

27.根据权利要求26所述的方法,其中,所述基于所述样本初始特征图,确定与所述样本像素点集合相对应的样本局部特征,包括:针对所述样本像素点集合中的每个样本目标像素点,基于所述样本初始特征图,确定所述样本目标像素点的样本特征向量;以及基于所述样本像素点集合中的多个所述样本目标像素点的样本第二像素点数量和多个所述样本目标像素点各自的所述样本特征向量,确定所述样本局部特征。

28.根据权利要求24所述的方法,其中,所述基于所述样本初始特征图,生成样本掩膜图,包括:对所述样本初始特征图进行卷积,得到样本卷积后特征图;

对所述样本卷积后特征图进行激活,得到样本激活后特征图;以及对所述样本激活后特征图进行规范化操作,得到所述样本掩膜图。

29.一种对象重建装置,包括:

特征提取模块,用于对待处理图像序列中的多个待处理图像分别进行特征提取,得到初始特征图序列,其中,所述待处理图像序列包括待重建的对象;

第一生成模块,用于针对所述初始特征图序列中的每个初始特征图,基于所述初始特征图,生成关于所述对象的全局特征和局部特征组,得到全局特征序列和局部特征组序列;

第二生成模块,用于基于所述全局特征序列和局部特征组序列,生成用于重建所述对象的对象模型参数序列;以及重建模块,用于基于所述对象模型参数序列对所述对象进行重建,得到目标模型序列;

其中,所述第二生成模块包括:

第一编码子模块,用于基于所述全局特征序列和所述局部特征组序列,得到第一潜在编码组序列;

第二编码子模块,用于基于所述第一潜在编码组序列,生成全局潜在编码;

第三编码子模块,用于基于所述全局潜在编码和所述第一潜在编码组序列,得到第二潜在编码组序列;以及第一生成子模块,用于基于所述第二潜在编码组序列,生成所述对象模型参数序列。

30.根据权利要求29所述的装置,其中,所述第一编码子模块包括:第一确定单元,用于针对所述全局特征序列中的每个全局特征,从所述局部特征组序列中确定与所述全局特征相匹配的目标局部特征组,其中,所述全局特征和与所述全局特征相匹配的所述目标局部特征组为同一待处理图像的图像特征;

第一编码单元,用于基于所述目标局部特征组,得到第一融合特征;以及第二编码单元,用于基于预定数量个所述全局特征和所述第一融合特征,得到第一潜在编码组。

31.根据权利要求30所述的装置,其中,所述第二编码单元用于:重复执行下述操作,直至当前轮次等于第一预定轮次阈值,将当前轮次第一潜在编码组作为所述第一潜在编码组:在确定所述当前轮次小于所述第一预定轮次阈值的情况下,基于所述第一融合特征和所述当前轮次第一潜在编码组,得到下一轮次第一潜在编码组。

32.根据权利要求31所述的装置,其中,所述第一编码单元还用于:基于所述第一融合特征和预定数量个所述全局特征,得到第一轮次第一潜在编码组。

33.根据权利要求29所述的装置,其中,所述第二编码子模块包括:第三编码单元,用于针对所述第一潜在编码组序列中的每个第一潜在编码组,基于所述第一潜在编码组,得到平均后的第一潜在编码;以及第四编码单元,用于将与所述第一潜在编码组序列一一对应的平均后的第一潜在编码序列进行拼接,得到所述全局潜在编码。

34.根据权利要求29所述的装置,其中,所述第三编码子模块包括:第五编码单元,用于基于所述全局潜在编码,生成第二融合特征;以及第六编码单元,用于针对所述第一潜在编码组序列中的每个第一潜在编码组,基于所述第二融合特征和所述第一潜在编码组,得到所述第二潜在编码组。

35.根据权利要求34所述的装置,其中,所述第六编码单元用于:重复执行下述操作,直至当前轮次等于第二预定轮次阈值,将当前轮次第二潜在编码组作为所述第二潜在编码组:在确定所述当前轮次小于所述第二预定轮次阈值的情况下,基于所述第二融合特征和所述当前轮次第二潜在编码组,得到下一轮次第二潜在编码组。

36.根据权利要求35所述的装置,其中,所述第六编码单元还用于:基于所述第二融合特征和所述第一潜在编码组,得到第一轮次第二潜在编码组。

37.根据权利要求29至36中任一项所述的装置,其中,所述初始特征图包括背景区域和包含所述对象的前景区域,所述第一生成模块包括:

第二生成子模块,用于基于所述初始特征图,生成掩膜图,其中,所述掩膜图包括多个像素点以及与多个像素点一一对应的像素值;

第一确定子模块,用于基于所述多个像素点各自的像素值,从所述多个像素点中确定多个目标像素点,其中,所述目标像素点用于表征所述对象的像素点;以及第二确定子模块,用于基于多个所述目标像素点和所述初始特征图,确定所述全局特征和所述局部特征组。

38.根据权利要求37所述的装置,其中,所述第二确定子模块包括:第二确定单元,用于基于所述初始特征图,确定多个所述目标像素点各自的特征向量;

以及

第三确定单元,用于基于多个所述目标像素点的第一像素点数量和多个所述目标像素点各自的特征向量,确定所述全局特征。

39.根据权利要求37所述的装置,其中,所述第二确定子模块包括:分类单元,用于基于多个所述目标像素点彼此之间的位置关系,对多个所述目标像素点进行分类,得到多个像素点集合,其中,每个所述像素点集合包括同一类别的多个所述目标像素点;以及第四确定单元,用于针对所述多个像素点集合中的每个像素点集合,基于所述初始特征图,确定与所述像素点集合相对应的局部特征,得到所述局部特征组。

40.根据权利要求39所述的装置,其中,所述第四确定单元包括:第一确定子单元,用于针对所述像素点集合中的每个目标像素点,基于所述初始特征图,确定所述目标像素点的特征向量;以及第二确定子单元,用于基于所述像素点集合中的多个所述目标像素点的第二像素点数量和多个所述目标像素点各自的所述特征向量,确定所述局部特征。

41.根据权利要求37所述的装置,其中,所述第二生成子模块包括:卷积单元,用于对所述初始特征图进行卷积,得到卷积后特征图;

激活单元,用于对所述卷积后特征图进行激活,得到激活后特征图;以及规范化单元,用于对所述激活后特征图进行规范化操作,得到所述掩膜图。

42.一种对象重建模型的训练装置,包括:

样本特征提取模块,用于对样本图像序列中的多个样本图像分别进行特征提取,得到样本初始特征图序列,其中,所述样本图像序列包括待重建的样本对象;

样本第一生成模块,用于针对所述样本初始特征图序列中的每个样本初始特征图,基于所述样本初始特征图,生成关于所述样本对象的样本全局特征和样本局部特征组,得到样本全局特征序列和样本局部特征组序列;

样本第二生成模块,用于基于所述样本全局特征序列和样本局部特征组序列,生成用于重建所述样本对象的样本对象模型参数序列;以及训练模块,用于利用所述样本对象模型参数序列和与所述样本图像序列相匹配的样本对象模型参数标签序列,训练所述对象重建模型;

其中,所述样本第二生成模块包括:

样本第一编码子模块,用于基于所述样本全局特征序列和所述样本局部特征组序列,得到样本第一潜在编码组序列;

样本第二编码子模块,用于基于所述样本第一潜在编码组序列,生成样本全局潜在编码;

样本第三编码子模块,用于基于所述样本全局潜在编码和所述样本第一潜在编码组序列,得到样本第二潜在编码组序列;以及样本第一生成子模块,用于基于所述样本第二潜在编码组序列,生成所述样本对象模型参数序列。

43.根据权利要求42所述的装置,其中,所述样本第一编码子模块包括:样本第一确定单元,用于针对所述样本全局特征序列中的每个样本全局特征,从所述样本局部特征组序列中确定与所述样本全局特征相匹配的样本目标局部特征组,其中,所述样本全局特征和与所述样本全局特征相匹配的所述样本目标局部特征组为同一样本图像的图像特征;

样本第一编码单元,用于基于所述样本目标局部特征组,得到样本第一融合特征;以及样本第二编码单元,用于基于预定数量个所述样本全局特征和所述样本第一融合特征,得到样本第一潜在编码组。

44.根据权利要求43所述的装置,其中,所述样本第二编码单元用于:重复执行下述操作,直至当前轮次等于第三预定轮次阈值,将当前轮次样本第一潜在编码组作为所述样本第一潜在编码组:在确定所述当前轮次小于所述第三预定轮次阈值的情况下,基于所述样本第一融合特征和所述当前轮次样本第一潜在编码组,得到下一轮次样本第一潜在编码组。

45.根据权利要求44所述的装置,其中,所述样本第二编码单元还用于:基于所述样本第一融合特征和预定数量个所述样本全局特征,得到第一轮次样本第一潜在编码组。

46.根据权利要求42所述的装置,其中,所述样本第二编码子模块包括:样本第三编码单元,用于针对所述样本第一潜在编码组序列中的每个样本第一潜在编码组,基于所述样本第一潜在编码组,得到平均后的样本第一潜在编码;以及样本第四编码单元,用于将与所述样本第一潜在编码组序列一一对应的平均后的样本第一潜在编码序列进行拼接,得到所述样本全局潜在编码。

47.根据权利要求42所述的装置,其中,所述样本第三编码子模块包括:样本第五编码单元,用于基于所述样本全局潜在编码,生成样本第二融合特征;以及样本第六编码单元,用于针对所述样本第一潜在编码组序列中的每个样本第一潜在编码组,基于所述样本第二融合特征和所述样本第一潜在编码组,得到所述样本第二潜在编码组。

48.根据权利要求47所述的装置,其中,所述样本第六编码单元用于:重复执行下述操作,直至当前轮次等于第四预定轮次阈值,将当前轮次样本第二潜在编码组作为所述样本第二潜在编码组:在确定所述当前轮次小于所述第四预定轮次阈值的情况下,基于所述样本第二融合特征和所述当前轮次样本第二潜在编码组,得到下一轮次样本第二潜在编码组。

49.根据权利要求48所述的装置,其中,所述样本第六编码单元还用于:基于所述样本第二融合特征和所述样本第一潜在编码组,得到第一轮次样本第二潜在编码组。

50.根据权利要求42至49中任一项所述的装置,其中,所述样本对象模型参数序列中的每个样本对象模型参数包括样本姿态参数和样本体态参数,所述对象重建模型的训练装置还包括:样本第三生成模块,用于针对所述样本对象模型参数序列中的每个样本对象模型参数,基于所述样本姿态参数和所述样本体态参数,生成样本目标模型;以及样本确定模块,用于基于所述样本目标模型,确定样本三维关键点信息。

51.根据权利要求50所述的装置,其中,所述训练模块包括:第一损失确定子模块,用于基于所述样本对象模型参数序列和与所述样本图像序列相匹配的样本对象模型参数标签序列,生成第一损失值;

第二损失确定子模块,用于基于与所述样本图像序列相匹配的样本三维关键点信息序列和与所述样本图像序列相匹配的关键点标签,生成第二损失值;以及训练子模块,用于基于所述第一损失值和所述第二损失值,训练所述对象重建模型。

52.根据权利要求42至49中任一项所述的装置,其中,所述样本第一生成模块包括:样本第二生成子模块,用于基于所述样本初始特征图,生成样本掩膜图,其中,所述样本掩膜图包括多个样本像素点以及与多个样本像素点一一对应的像素值;

样本第一确定子模块,用于基于所述样本掩膜图,从所述多个样本像素点中确定多个样本目标像素点,其中,所述样本目标像素点用于表征所述样本对象的像素点;以及样本第二确定子模块,用于基于多个所述目标像素点和所述样本初始特征图,确定所述样本全局特征和所述多个样本局部特征。

53.根据权利要求52所述的装置,其中,所述样本第二确定子模块包括:样本第二确定单元,用于基于所述样本初始特征图,确定多个所述样本目标像素点各自的样本特征向量;以及样本第三确定单元,用于基于多个所述样本目标像素点的样本第一像素点数量和多个所述样本目标像素点各自的所述样本特征向量,确定所述样本全局特征。

54.根据权利要求52所述的装置,其中,所述样本第二确定子模块包括:样本分类单元,用于基于多个所述样本目标像素点彼此之间的位置关系,对多个所述样本目标像素点进行分类,得到多个样本像素点集合,其中,每个所述样本像素点集合包括同一类别的多个所述样本目标像素点;以及样本第四确定单元,用于针对所述多个样本像素点集合中的每个样本像素点集合,基于所述样本初始特征图,确定与所述样本像素点集合相对应的样本局部特征,得到所述多个样本局部特征。

55.根据权利要求54所述的装置,其中,所述样本第四确定单元,包括:样本第一确定子单元,用于针对所述样本像素点集合中的每个样本目标像素点,基于所述样本初始特征图,确定所述样本目标像素点的样本特征向量;以及样本第二确定子单元,用于基于所述样本像素点集合中的多个所述样本目标像素点的样本第二像素点数量和多个所述样本目标像素点各自的所述样本特征向量,确定所述样本局部特征。

56.根据权利要求52所述的装置,其中,所述样本第二生成子模块包括:样本卷积单元,用于对所述样本初始特征图进行卷积,得到样本卷积后特征图;

样本激活单元,用于对所述样本卷积后特征图进行激活,得到样本激活后特征图;以及样本规范化单元,用于对所述样本激活后特征图进行规范化操作,得到所述样本掩膜图。

57.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至28中任一项所述的方法。

58.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至28中任一项所述的方法。

说明书 :

对象重建方法、对象重建模型的训练方法、装置及设备

技术领域

[0001] 本公开涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实和深度学习技术领域,具体涉及对象重建方法、对象重建模型的训练方法、装置、电子设备、存储介质以及程序产品。

背景技术

[0002] 计算机视觉技术是一门研究如何使用计算机“看”的科学。可以将计算机视觉技术应用于图像识别、图像语义理解、图像检索、三维对象重建、虚拟现实、同步定位与地图构建等场景中。针对每个场景,如何利用计算机视觉技术使得生成的结果合理且精准,值得探索。

发明内容

[0003] 本公开提供了一种对象重建方法、对象重建模型的训练方法、装置、电子设备、存储介质以及程序产品。
[0004] 根据本公开的一方面,提供了一种对象重建方法,包括:对待处理图像序列中的多个待处理图像分别进行特征提取,得到初始特征图序列,其中,上述待处理图像序列包括待重建的对象;针对上述初始特征图序列中的每个初始特征图,基于上述初始特征图,生成关于上述对象的全局特征和局部特征组,得到全局特征序列和局部特征组序列;基于上述全局特征序列和局部特征组序列,生成用于重建上述对象的对象模型参数序列以及基于上述对象模型参数序列对上述对象进行重建,得到目标模型序列。
[0005] 根据本公开的另一方面,提供了一种对象重建模型的训练方法,包括:对样本图像序列中的多个样本图像分别进行特征提取,得到样本初始特征图序列,其中,上述样本图像序列包括待重建的样本对象;针对上述样本初始特征图序列中的每个样本初始特征图,基于上述样本初始特征图,生成关于上述样本对象的样本全局特征和样本局部特征组,得到样本全局特征序列和样本局部特征组序列;基于上述样本全局特征序列和样本局部特征组序列,生成用于重建上述样本对象的样本对象模型参数序列;以及利用上述样本对象模型参数序列和与上述样本图像序列相匹配的样本对象模型参数标签序列,训练上述对象重建模型。
[0006] 根据本公开的另一方面,提供了一种对象重建装置,包括:特征提取模块,用于对待处理图像序列中的多个待处理图像分别进行特征提取,得到初始特征图序列,其中,上述待处理图像序列包括待重建的对象;第一生成模块,用于针对上述初始特征图序列中的每个初始特征图,基于上述初始特征图,生成关于上述对象的全局特征和局部特征组,得到全局特征序列和局部特征组序列;第二生成模块,用于基于上述全局特征序列和局部特征组序列,生成用于重建上述对象的对象模型参数序列;重建模块,用于基于上述对象模型参数序列对上述对象进行重建,得到目标模型序列。
[0007] 根据本公开的另一方面,提供了一种对象重建模型的训练装置,包括:样本特征提取模块,用于对样本图像序列中的多个样本图像分别进行特征提取,得到样本初始特征图序列,其中,上述样本图像序列包括待重建的样本对象;样本第一生成模块,用于针对上述样本初始特征图序列中的每个样本初始特征图,基于上述样本初始特征图,生成关于上述样本对象的样本全局特征和样本局部特征组,得到样本全局特征序列和样本局部特征组序列;样本第二生成模块,用于基于上述样本全局特征序列和样本局部特征组序列,生成用于重建上述样本对象的样本对象模型参数序列;以及训练模块,用于利用上述样本对象模型参数序列和与上述样本图像序列相匹配的样本对象模型参数标签序列,训练上述对象重建模型。
[0008] 根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本公开的方法。
[0009] 根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本公开的方法。
[0010] 根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如本公开的方法。
[0011] 应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

[0012] 附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013] 图1示意性示出了根据本公开实施例的可以应用对象重建方法及装置的示例性系统架构;
[0014] 图2示意性示出了根据本公开实施例的对象重建方法的流程图;
[0015] 图3示意性示出了根据本公开实施例的人体重建方法的流程示意图;
[0016] 图4示意性示出了根据本公开实施例的对象重建模型的结构示意图;
[0017] 图5示意性示出了根据本公开实施例的特征提取方法的流程图;
[0018] 图6示意性示出了根据本公开实施例的对象重建模型的训练方法的流程图;
[0019] 图7示意性示出了根据本公开实施例的对象重建装置的框图;
[0020] 图8示意性示出了根据本公开实施例的对象重建模型的训练装置的框图;以及[0021] 图9示意性示出了根据本公开实施例的适于实现对象重建方法的电子设备的框图。

具体实施方式

[0022] 以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023] 本公开提供了一种对象重建方法、对象重建模型的训练方法、装置、电子设备、存储介质以及程序产品。
[0024] 根据本公开的实施例,提供了一种对象重建方法,包括:对待处理图像序列中的多个待处理图像分别进行特征提取,得到初始特征图序列。待处理图像序列包括待重建的对象。针对初始特征图序列中的每个初始特征图,基于初始特征图,生成关于对象的全局特征和局部特征组,得到全局特征序列和局部特征组序列。基于全局特征序列和局部特征组序列,生成用于重建对象的对象模型参数序列。基于对象模型参数序列对对象进行重建,得到目标模型序列。
[0025] 在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
[0026] 在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
[0027] 图1示意性示出了根据本公开实施例的可以应用对象重建方法及装置的示例性系统架构。
[0028] 需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用对象重建方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的对象重建方法及装置。
[0029] 如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
[0030] 用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
[0031] 终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
[0032] 服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
[0033] 需要说明的是,本公开实施例所提供的对象重建方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的对象重建装置也可以设置于终端设备101、
102、或103中。
[0034] 或者,本公开实施例所提供的对象重建方法一般也可以由服务器105执行。相应地,本公开实施例所提供的对象重建装置一般可以设置于服务器105中。本公开实施例所提供的对象重建方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的对象重建装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
[0035] 例如,在足球比赛过程中,终端设备101、102、103可以获取比赛视频,然后将获取的比赛视频发送给服务器105,由服务器105对比赛视频进行拆帧处理,得到待处理图像序列;对待处理图像序列中的多个待处理图像分别进行特征提取,得到初始特征图序列。待处理图像序列中包括待重建的对象例如运动员。针对初始特征图序列中的每个初始特征图,基于初始特征图,生成关于对象的全局特征和局部特征组,得到全局特征序列和局部特征组序列。基于全局特征序列和局部特征组序列,生成用于重建对象的对象模型参数序列。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对待处理图像序列进行分析,并最终得到重建后的目标模型序列。
[0036] 应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0037] 应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
[0038] 图2示意性示出了根据本公开实施例的对象重建方法的流程图。
[0039] 如图2所示,该方法包括操作S210~S240。
[0040] 在操作S210,对待处理图像序列中的多个待处理图像分别进行特征提取,得到初始特征图序列。待处理图像序列包括待重建的对象。
[0041] 在操作S220,针对初始特征图序列中的每个初始特征图,基于初始特征图,生成关于对象的全局特征和局部特征组,得到全局特征序列和局部特征组序列。
[0042] 在操作S230,基于全局特征序列和局部特征组序列,生成用于重建对象的对象模型参数序列。
[0043] 在操作S240,基于对象模型参数序列对对象进行重建,得到目标模型序列。
[0044] 根据本公开的实施例,待处理图像中的待建模的对象可以包括人物对象、动物对象或者机械体对象。待处理图像序列中的多个待处理图像为按照时序排列的。可以利用本公开实施例提供的对象重建方法,基于待处理图像序列,生成用于重建对象的对象模型参数序列。对象模型参数序列可以包括多个对象模型参数,多个对象模型参数与待处理图像序列中的多个待处理图像一一对应。基于对象模型参数序列,生成关于对象的目标模型序列。该目标模型序列中的每个目标模型可以作为虚拟模型,例如表征对象的动作、姿态的模拟模型。由此可以将本公开实施例提供的对象重建方法应用于虚拟现实、增强现实、人机交互、动作识别等场景中。
[0045] 例如,将本公开实施例提供的对象重建方法应用于动作识别场景中,可以采集运动员在训练或者比赛过程中的视频,将包含运动员的视频作为待处理图像序列,利用本公开实施例提供的对象重建方法,得到关于运动员的重建后的目标模型序列。目标模型序列中的每个目标模型包括运动员的姿态动作等信息。可以利用目标模型序列,确定运动员运动的连贯性。此外,还可以基于目标模型序列中的关键目标模型,确定运动员手臂与腿部的摆动频率、幅度、角度等信息,结合关键环节的各项指标,统计并量化分析运动员的动作是否达标。
[0046] 根据本公开的实施例,可以利用特征提取网络对待处理图像序列分别进行特征提取,得到初始特征图序列。初始特征图序列包括多个初始特征图。初始特征图可以用于表征待处理图像的特征。初始特征图的类型不做限定,例如可以为N*H*W的特征图,N用于表征初始特征图的通道数,H用于表征初始特征图的高,W用于表征初始特征图的宽。特征提取网络可以包括以下至少一项:CNN(Convolutional Neural Networks,卷积神经网络)、ResNet(Residual Network,残差网络)、ShuffleNet(一种轻量级网络)。
[0047] 根据本公开的实施例,关于对象的全局特征,可以指排除了待处理图像中的背景信息的全局特征。可以对初始特征图进行特征提取,得到相对初始特征图高阶的全局特征。但是并不局限于此。还可以将排除了背景信息后的初始特征图作为全局特征。只要是包含了待建模对象的整体语义信息的全局特征即可。
[0048] 根据本公开的实施例,关于对象的局部特征组包括多个局部特征。局部特征组中的每个局部特征,可以指排除了待处理图像中的背景信息的局部特征。可以对初始特征图进行特征提取,得到相对初始特征图高阶的全局特征。对全局特征进行拆分,得到局部特征组。但是并不局限于此。还可以直接对排除了背景信息后的初始特征图进行拆分,得到局部特征组。只要是包含了待建模对象的部分语义信息的局部特征即可。
[0049] 根据本公开的实施例,基于全局特征序列和局部特征组序列,生成对象模型参数序列,可以包括:将全局特征序列和局部特征组序列,输入至对象重建模型中,生成对象模型参数序列。对象模型参数序列与初始特征图序列一一对应。对象重建模型可以包括图形卷积网络、编码解码器或者生成对抗网络中的一种或多种。
[0050] 根据本公开的实施例,对象模型参数序列中的每个对象模型参数包括姿态参数和体态参数。基于对象模型参数序列对对象进行重建,得到目标模型序列可以包括:针对对象模型参数序列中的每个对象模型参数,基于姿态参数和体态参数,生成目标模型。得到与对象模型参数序列一一对应的目标模型序列。
[0051] 根据本公开的实施例,对象模型参数可以包括姿态参数和形状参数。姿态参数可以包括对象各个关节的旋转角度,例如对象的头部、手腕等关节的转角。形状参数可以包括对象的轮廓形状和大小,例如对象的高矮、胖瘦等。
[0052] 根据本公开的实施例,基于姿态参数和形状参数,生成目标模型可以包括:将姿态参数、形状参数输入至姿态模拟模型中,得到目标模型。但是并不局限于此。还可以将姿态参数、形状参数和相机参数输入至姿态模拟模型中,得到目标模型。相机参数可以为三维数据,例如相机参数包括像素在三维空间和二维空间之间进行投影映射的缩放量和偏移量。
[0053] 根据本公开的实施例,姿态模拟模型可以包括预先设置的三维模型,由固定数量的参数控制形态变化的三维模型。例如可以将对象模型参数输入至姿态模拟模型中,得到更新后的姿态模拟模型。更新后的姿态模拟模型呈现与待处理图像中的对象各个关节角度相匹配的形态。在待重建的对象为人体对象的情况下,姿态模拟模型可以包括SMPL(Skinned Multi‑Person Linear Model,蒙皮多人线性模型)模型。可以基于目标模型,得到人体的三维关键点信息。
[0054] 根据本公开的实施例,基于对象模型参数和姿态模拟模型,生成目标模型。能够实现端到端的三维模型重建的同时,实现重建后的三维模型的准确性和快速性。
[0055] 根据本公开的实施例,利用排除了背景信息的全局特征和局部特征组,生成对象模型参数,排除了因待处理图像中的背景信息带来的噪声,进而提高了生成的对象模型参数的精度。此外,可以通过全局特征表达待建模的对象的整体特性,通过局部特征组表达待建模的对象的不同部位的局部特性,由此使得生成的对象模型参数是基于整体和细节双重特性来生成的,进而提高对象重建的可行性的同时,提高重建后的目标模型的合理性。此外,基于全局特征序列和局部特征组序列,生成对象模型参数序列,能够充分利用待处理图像序列例如连续视频帧之间的时序相关性,使得基于对象模型参数序列生成的目标模型序列在时序上抖动性低且平滑性高。
[0056] 图3示意性示出了根据本公开实施例的人体重建方法的流程示意图。
[0057] 如图3所示,待处理图像序列包括按照时序排列的第一待处理图像311、第二待处理图像312和第三待处理图像313。第一待处理图像311、第二待处理图像312和第三待处理图像313中均包括待建模的第一对象P310和第二对象P320。在第一待处理图像311中,第一对象P310和第二对象P320均为面向前方双腿并拢且双手自然下垂。在第二待处理图像312中,第一对象P310面向第二对象P320,双腿并拢且双手自然下垂。第二对象P320面向前方,双腿微分且双手交叉放置胸前。在第三待处理图像313中,第一对象P310为双腿微分,两个手臂弯曲指向右方。第二对象P320面向第一对象P310,双手放置背后且双腿微分。可以对第一待处理图像311、第二待处理图像312和第三待处理图像313分别进行特征提取,得到初始特征图序列320。基于初始特征图序列320,得到目标特征序列330。目标特征序列330中的每个目标特征包括全局特征和局部特征组。基于目标特征序列330,得到对象模型参数序列340。将对象模型参数序列340输入至SMPL模型,得到目标模型序列。目标模型序列包括与第一待处理图像311中的两个对象的姿势相匹配的第一目标模型351、与第二待处理图像312中的两个对象的姿势相匹配的第二目标模型352和与第三待处理图像313中的两个对象的姿势相匹配的第三目标模型353。
[0058] 根据相关示例,可以利用对象重建模型例如包含自注意力机制的编码解码器(Transformer),处理待处理图像序列,得到目标模型序列。目标模型序列中的每个目标模型中的体表节点的数据,是通过对象重建模型直接生成的。
[0059] 与通过对象重建模型直接得到目标模型序列的方式相比,利用本公开实施例提供的对象重建方法,能够结合姿态模拟模型,基于对象模型参数序列生成目标模型序列,在降低处理数据量的同时,提高目标模型序列的重建效果,使得生成的目标模型序列平滑性好,避免出现目标模型序列中的目标模型的皮肤凹凸不平的问题。
[0060] 根据本公开的实施例,针对如图2所示的操作S230,基于全局特征序列和局部特征组序列,生成用于重建对象的对象模型参数序列,可以包括如下操作。
[0061] 例如,基于全局特征序列和局部特征组序列,得到第一潜在编码组序列。基于第一潜在编码组序列,生成全局潜在编码。基于全局潜在编码和第一潜在编码组序列,得到第二潜在编码组序列。基于第二潜在编码组序列,生成对象模型参数序列。
[0062] 根据本公开的实施例,可以利用对象重建模型执行如图2所示的操作S230。对象重建模型可以包括第一重建模块、第二重建模块和输出层。例如,可以将全局特征序列和局部特征组序列输入至第一重建模块中,得到第一潜在编码组序列。基于第一潜在编码组序列,生成全局潜在编码。将全局潜在编码和第一潜在编码组序列输入至第二重建模块中,得到第二潜在编码组序列。将第二潜在编码组序列输入至输出层,得到对象模型参数序列。
[0063] 根据本公开的实施例,第一重建模块可以包括视觉编码解码器。但是并不局限于此,还可以包括视觉编码解码器的编码器。只要是具有自注意力机制的特征融合的网络结构即可。
[0064] 根据本公开的实施例,第二重建模块可以包括视觉编码解码器。但是并不局限于此,还可以包括视觉编码解码器的编码器。只要是具有自注意力机制的特征融合的网络结构即可。
[0065] 根据本公开的实施例,输出层可以包括全连接层和激活层。
[0066] 根据本公开的可选实施例,对象重建模型可以包括第一视觉编码解码器、第二视觉编码解码器和输出层。第一视觉编码解码器和第二视觉编码解码器各自的编码器包括级联的自注意力机制、归一化层和前馈层。第一视觉编码解码器和第二视觉编码解码器各自的解码器包括级联的自注意力机制、归一化层和前馈层。
[0067] 根据本公开的实施例,对全局特征序列和局部特征组序列进行多轮编码整合,提高特征整合能力。
[0068] 根据相关示例,可以采用全局重建方法得到对象模型参数,例如,将全局特征序列输入至第一视觉编码解码器中,得到第一潜在编码组序列。将第一潜在编码组序列输入至第二视觉编码解码器中,得到第二潜在编码组序列。将第二潜在编码组序列输入至输出层,得到对象模型参数序列。但是并不局限于此。还可以采用局部重建方法得到对象模型参数,例如,将多个局部特征组序列输入至第一视觉编码解码器中,得到第一潜在编码组序列。将第一潜在编码组序列输入至第二视觉编码解码器中,得到第二潜在编码组序列。将第二潜在编码组序列输入至输出层,得到对象模型参数序列。
[0069] 与全局重建方法和局部重建方法相比,利用本公开实施例提供的对象重建方法,能够利用局部特征组中的多个局部特征,使重点局部特征的关注度得到提高,以及突出多个局部特征彼此之间的关联关系。将多个局部特征与全局特征结合,使得基于多个局部特征和全局特征得到的第一潜在编码组序列以及第二潜在编码组序列所包含的语义信息全面的同时,重点语义信息突出。此外,将全局特征序列和局部特征组序列同时进行处理,能够使得对象重建模型能够结合不同时序之间的全局特征以及局部特征组,突出时序中不同的多个待处理图像彼此之间的共性特征、差异特征和关联特征,进而使得生成的对象模型参数序列彼此之间具有连续性和真实性。
[0070] 根据本公开的实施例,基于全局特征序列和局部特征组序列,得到第一潜在编码组序列,可以包括:针对全局特征序列中的每个全局特征,从局部特征组序列中确定与全局特征相匹配的目标局部特征组。全局特征和与全局特征相匹配的目标局部特征组为同一待处理图像的图像特征。基于目标局部特征组,得到第一融合特征。基于预定数量个全局特征和第一融合特征,得到第一潜在编码组。
[0071] 例如,可以将目标局部特征组例如M个目标局部特征同时作为查询(query)特征、关键(key)特征和值(value)特征输入至第一视觉编码解码器的编码器中,得到第一融合特征。将预定数量个全局特征例如N个全局特征作为查询特征,第一融合特征同时作为关键特征和值特征,输入至第一视觉编码解码器的解码器中,得到第一潜在编码组例如N个第一潜在编码。进而得到与全局特征序列相对应的第一潜在编码组序列。
[0072] 根据本公开的可选实施例,基于预定数量个全局特征和第一融合特征,得到第一潜在编码组,可以包括:重复执行下述操作,直至当前轮次等于第一预定轮次阈值,将当前轮次第一潜在编码组作为第一潜在编码组:在确定当前轮次小于第一预定轮次阈值的情况下,基于第一融合特征和当前轮次第一潜在编码组,得到下一轮次第一潜在编码组。
[0073] 根据本公开的实施例,通过上述迭代过程,将当前轮次的第一潜在编码组输入至第一视觉编码解码器的解码器中,以获得下一轮次的第一潜在编码组,由此形成一个逐步优化潜在编码组的过程,进而使得潜在编码组逐级优化,有利于生成精准且有效的第一潜在编码组序列。
[0074] 根据本公开的实施例,基于预定数量个全局特征和第一融合特征,得到第一潜在编码组,可以还包括:确定待处理图像序列中的多个待处理图像各自的对象的对象数量。将对象数量最大的作为预定数量。基于第一融合特征和预定数量个全局特征,得到第一轮次第一潜在编码组。
[0075] 根据本公开的实施例,利用对象数量个全局特征作为查询向量同时输入至第一视觉编码解码器的解码器中,能够同时对多个对象进行处理,在保证对象模型参数的精度的同时,提高处理效率。
[0076] 根据本公开的实施例,基于第一潜在编码组序列,生成全局潜在编码,包括:针对第一潜在编码组序列中的每个第一潜在编码组,基于第一潜在编码组,得到平均后的第一潜在编码。将与第一潜在编码组序列一一对应的平均后的第一潜在编码序列进行拼接,得到全局潜在编码。
[0077] 例如,第一潜在编码组序列包括第一潜在编码组S1、第一潜在编码组S2和第一潜在编码组S3。对第一潜在编码组S1中的N个第一潜在编码求平均,得到平均后的第一潜在编码S1’。依次类推,得到与第一潜在编码组S2相对应的平均后的第一潜在编码S2’以及得到与第一潜在编码组S3相对应的平均后的第一潜在编码S3’。将与第一潜在编码组序列一一对应的平均后的第一潜在编码序列进行拼接,得到全局潜在编码。全局潜在编码包括平均后的第一潜在编码S1’+平均后的第一潜在编码S2’+平均后的第一潜在编码S3’。
[0078] 根据本公开的实施例,全局潜在编码是将平均后的第一潜在编码序列进行拼接得到的,由此全局潜在编码整合了待处理图像序列中的所有特征,使得全局潜在编码充分利用了序列中时序特征之间的关联性,进而使得利用全局潜在编码得到的第二潜在编码组精准且有效。
[0079] 根据本公开的实施例,基于全局潜在编码和第一潜在编码组序列,得到第二潜在编码组序列,可以包括:基于全局潜在编码,生成第二融合特征。针对第一潜在编码组序列中的每个第一潜在编码组,基于第二融合特征和第一潜在编码组,得到第二潜在编码组。
[0080] 例如,可以将全局潜在编码同时作为查询(query)特征、关键(key)特征和值(value)特征输入至第二视觉编码解码器的编码器中,得到第二融合特征。将第一潜在编码组例如N个第一潜在编码作为查询特征,第二融合特征同时作为关键特征和值特征,输入至第二视觉编码解码器的解码器中,得到第二潜在编码组例如N个第二潜在编码。
[0081] 根据本公开的可选实施例,基于第二融合特征和第一潜在编码组,得到第二潜在编码组,可以包括:重复执行下述操作,直至当前轮次等于第二预定轮次阈值,将当前轮次第二潜在编码组作为第二潜在编码组:在确定当前轮次小于第二预定轮次阈值的情况下,基于第二融合特征和当前轮次第二潜在编码组,得到下一轮次第二潜在编码组。
[0082] 根据本公开的实施例,基于第二融合特征和第一潜在编码组,得到第二潜在编码组,还可以包括:基于第二融合特征和第一潜在编码组,得到第一轮次第二潜在编码组。
[0083] 根据本公开的实施例,通过上述迭代过程,将当前轮次第二潜在编码组输入至第二视觉编码解码器的解码器中,以获得下一轮次第二潜在编码组,由此形成一个逐步优化潜在编码组的过程,进而使得潜在编码组逐级优化,有利于生成精准且有效的第二潜在编码组序列,进而有利于生成精准且有效的对象模型参数。
[0084] 图4示意性示出了根据本公开实施例的对象重建模型的结构示意图。
[0085] 如图4所示,对象重建模型包括第一视觉编码解码器、第二视觉编码解码器和输出层M450。第一视觉编码解码器包括第一编码器M410和第一解码器M420。第二视觉编码解码器包括第二编码器M430和第二解码器M440。
[0086] 如图4所示,待处理图像序列410包括L个待处理图像。基于待处理图像序列410,得到全局特征序列420和局部特征组序列430。全局特征序列420包括与L个待处理图像一一对应的L个全局特征。局部特征组序列430包括与L个待处理图像一一对应的L个局部特征组。每个局部特征组包括M个局部特征。M为大于1的整数。L为大于1的整数。
[0087] 如图4所示,可以将局部特征组序列430同时作为查询特征Q、关键特征K和值特征V输入至第一编码器M410中,得到第一融合特征序列440。第一融合特征序列440包括与L个局部特征组一一对应的L个第一融合特征。确定待处理图像中的对象的对象数量为N。N为大于或者等于1的整数。对全局特征序列420中的每个全局特征复制N次,得到全局特征组序列421。每个全局特征组包括N个全局特征。将全局特征组序列421作为查询特征Q,第一融合特征序列440同时作为关键特征K和值特征V输入至第一解码器M420中,得到第一轮次第一潜在编码组序列。第一轮次第一潜在编码组序列包括与第一融合特征序列440一一对应的L个第一轮次第一潜在编码组。每个第一轮次第一潜在编码组包括与全局特征组一一对应的N个第一轮次第一潜在编码。
[0088] 如图4所示,将第一融合特征序列440和第一轮次第一潜在编码组序列输入至第一解码器M420中,得到第二轮次第一潜在编码组序列。在确定第二轮次小于第一预定轮次阈值例如预定轮次阈值I的情况下,将第二轮次第一潜在编码组序列作为查询特征Q,和第一融合特征序列440输入至第一解码器M420中,得到第三轮次第一潜在编码组序列。I为大于或者等于2的整数。依此类推。在确定第i轮次小于预定轮次阈值I的情况下,将第i轮次第一潜在编码组序列作为查询特征Q,和第一融合特征序列440输入至第一解码器M420中,得到第i+1轮次第一潜在编码组序列。在确定第i轮次等于预定轮次阈值I的情况下,将第i轮次第一潜在编码组序列作为第一潜在编码组序列。
[0089] 如图4所示,针对第一潜在编码组序列中的每个第一潜在编码组,基于第一潜在编码组,得到平均后的第一潜在编码。将与第一潜在编码组序列一一对应的平均后的第一潜在编码序列进行拼接,得到全局潜在编码450。
[0090] 如图4所示,可以将全局潜在编码450同时作为查询特征Q、关键特征K和值特征V输入至第二编码器M430中,得到第二融合特征460。将第一潜在编码组序列作为查询特征Q,第二融合特征460同时作为关键特征K和值特征V输入至第二解码器M440中,得到第一轮次第二潜在编码组序列。
[0091] 如图4所示,将第二融合特征460和第一轮次第二潜在编码组序列输入至第二解码器M440中,得到第二轮次第二潜在编码组序列。在确定第二轮次小于第二预定轮次阈值例如预定轮次阈值I的情况下,将第二轮次第二潜在编码组序列作为查询特征Q,和第二融合特征460输入至第二解码器M440中,得到第三轮次第二潜在编码组序列。依此类推,在确定第i轮次小于预定轮次阈值I的情况下,将第i轮次第二潜在编码组序列作为查询特征Q,和第二融合特征460输入至第二解码器M440中,得到第i+1轮次第二潜在编码组序列。在确定第i轮次等于预定轮次阈值I的情况下,将第i轮次第二潜在编码组序列作为第二潜在编码组序列。
[0092] 如图4所示,将第二潜在编码组序列输入至输出层M450中,得到对象模型参数序列470。
[0093] 根据本公开的实施例,初始特征图包括背景区域和包含对象的前景区域。
[0094] 根据本公开的实施例,针对如图2所示的操作S220,基于初始特征图,生成关于对象的全局特征和局部特征组,可以包括如图5所示的特征提取方法。
[0095] 图5示意性示出了根据本公开实施例的特征提取方法的流程图。
[0096] 如图5所示,该方法包括操作S510~S540。
[0097] 在操作S510,对待处理图像进行特征提取,得到初始特征图。
[0098] 在操作S520,基于初始特征图,生成掩膜图。
[0099] 在操作S530,基于多个像素各自的像素值,从多个像素中确定多个目标像素。
[0100] 在操作S540,基于多个目标像素和初始特征图,生成关于对象的目标特征。
[0101] 根据本公开的实施例,目标特征可以包括全局特征和局部特征组。
[0102] 根据本公开的实施例,待处理图像包括背景区域和包含对象的前景区域。可以通过如图5所示的方法,利用掩膜图(Mask),将初始特征图中的背景区域去除,使得目标特征为包含对象的前景区域的特征。由此使得目标特征为去除背景区域的特征,有效特征的占比高、噪声小。
[0103] 根据本公开的实施例,针对如图5所示的操作S520,基于初始特征图,生成掩膜图,可以包括:对初始特征图进行卷积,得到卷积后特征图。对卷积后特征图进行激活,得到激活后特征图。对激活后特征图进行规范化操作,得到掩膜图。
[0104] 根据本公开的实施例,基于初始特征图,生成掩膜图,可以包括:将初始特征图输入至特征提取网络中,得到掩膜图。特征提取网络可以包括依次堆叠的卷积层、激活层和归一化层。卷积层、激活层和归一化层各自的堆叠层数不做限定。卷积层可以包括卷积神经网络、激活层可以包括线性整流函数(Rectified Linear Unit,ReLU)。归一化层也可以称为规范化层(Normalization)。
[0105] 根据本公开的实施例,可以利用卷积层对初始特征图进行卷积,得到卷积后特征图。利用激活层对卷积后特征图进行激活,得到激活后特征图。利用归一化层对激活后特征图进行规范化操作,得到掩膜图。
[0106] 根据本公开的实施例,利用本公开实施例提供的特征提取网络处理初始特征图,生成掩膜图,特征提取网络的网络结构轻量化,由此达到实现方式简单的同时,处理效率高。
[0107] 根据本公开的实施例,掩膜图包括多个像素以及与多个像素一一对应的像素值。基于多个像素各自的像素值,从多个像素中确定多个目标像素。目标像素用于表征对象的像素。
[0108] 根据本公开的实施例,可以设置预定像素阈值。在像素值大于预定像素阈值的情况下,将与像素值相对应的像素作为目标像素。在像素值小于预定像素阈值的情况下,将与像素值相对应的像素作为非目标像素,例如用于表征背景区域的像素。
[0109] 根据本公开的实施例,利用掩膜图将非目标像素与目标像素区分开,以便基于目标像素和初始特征图得到的全局特征和多个局部特征是滤除了背景区域信息的特征,进而使得全局特征和多个局部特征的噪声小。
[0110] 根据本公开的实施例,基于多个目标像素和初始特征图,确定全局特征,可以包括如下操作。
[0111] 例如,基于初始特征图,确定多个目标像素各自的特征向量。基于多个目标像素的第一像素数量和多个目标像素各自的特征向量,确定全局特征。
[0112] 根据本公开的实施例,全局特征Fg可以通过如下公式(1)确定。
[0113]
[0114] 其中,n代表掩膜图中多个目标像素的第一像素数量;forward是掩膜图中由多个目标像素组成的全局目标像素集合;Mi,j是初始特征图中像素位置为(i,j)的目标像素的特征向量。
[0115] 根据本公开的实施例,利用本公开实施例提供的全局特征提取方法,能够利用掩码图中的目标像素,对初始特征图中的关于对象所在前景区域均匀提取特征。全局特征提取原理直观、计算简单且处理效率高。
[0116] 根据本公开的实施例,基于目标像素和初始特征图,确定多个局部特征,可以包括如下操作。
[0117] 例如,基于多个目标像素彼此之间的位置关系,对多个目标像素进行分类,得到多个像素集合。每个像素集合包括同一类别的多个目标像素。针对多个像素集合中的每个像素集合,基于初始特征图,确定与像素集合相对应的局部特征,得到局部特征组。
[0118] 根据本公开的实施例,基于多个目标像素彼此之间的位置关系,对多个目标像素进行分类,得到多个像素集合,可以包括:多个像素集合可以包括M个像素集合。从多个目标像素中确定位置均匀的M个目标像素作为M个基准目标像素。M个基准目标像素所在的位置作为M个基准位置。M个基准目标像素被划分为M个类别。多个目标像素中的除M个基准目标像素外的目标像素可以称为多个待划分类别目标像素。针对多个待划分类别目标像素中的每个待划分类别目标像素,可以分别执行下述操作。例如,根据待划分类别目标像素S1的位置与M个基准位置各自之间的距离,确定待划分类别目标像素S1与基准目标像素是否为一类。在待划分类别目标像素S1的位置与M个基准位置中的M1基准位置之间的距离小于预定阈值的情况下,确定待划分类别目标像素S1与基准目标像素M1为同一类别。确定待划分类别目标像素S1与基准目标像素M1为一个像素集合中的两个目标像素。
[0119] 根据本公开的实施例,基于多个目标像素彼此之间的位置关系,对多个目标像素进行分类,得到多个像素集合,还可以包括:基于多个目标像素彼此之间的位置关系,确定包含多个目标像素的外形框。将外形框分为多个子框。将处于同一子框内的多个目标像素确定为一个类别,作为一个像素集合。得到多个像素集合。
[0120] 根据本公开的实施例,基于初始特征图,确定与像素集合相对应的局部特征,可以包括:针对像素集合中的每个目标像素,基于初始特征图,确定多个目标像素各自的特征向量。基于像素集合中的多个目标像素的第二像素数量和多个目标像素各自的特征向量,确定局部特征。
[0121] 根据本公开的实施例,局部特征 可以通过如下公式(2)确定。
[0122]
[0123] 其中,fk表示M个类别中第k类别的像素集合;nk表示第k类别中像素集合的第二像素数量;Mi,j是初始特征图中像素位置为(i,j)的目标像素的特征向量。
[0124] 根据本公开的实施例,利用本公开实施例提供的局部特征生成方式,能够快速准确地提取出预定数量的关于前景区域的局部特征,不受目标大小与形状的限制。确定原理直观、实现简单且可行性强。
[0125] 图6示意性示出了根据本公开实施例的对象重建模型的训练方法的流程图。
[0126] 如图6所示,该方法包括操作S610~S640。
[0127] 在操作S610,对样本图像序列中的多个样本图像分别进行特征提取,得到样本初始特征图序列。样本图像序列包括待重建的样本对象。
[0128] 在操作S620,针对样本初始特征图序列中的每个样本初始特征图,基于样本初始特征图,生成关于样本对象的样本全局特征和样本局部特征组,得到样本全局特征序列和样本局部特征组序列。
[0129] 在操作S630,基于样本全局特征序列和样本局部特征组序列,生成用于重建样本对象的样本对象模型参数序列。
[0130] 在操作S640,利用样本对象模型参数序列和与样本图像序列相匹配的样本对象模型参数标签序列,训练对象重建模型。
[0131] 根据本公开的实施例,利用排除了背景信息的样本全局特征和多个样本局部特征,生成样本对象模型参数,排除了因样本图像中的背景信息带来的噪声,进而提高了生成的样本对象模型参数的精度,由此可以提高对象重建模型的训练精度和效率。
[0132] 根据本公开的实施例,基于样本全局特征序列和样本局部特征组序列,生成用于重建样本对象的样本对象模型参数序列,可以包括:基于样本全局特征序列和样本局部特征组序列,得到样本第一潜在编码组序列。基于样本第一潜在编码组序列,生成样本全局潜在编码。基于样本全局潜在编码和样本第一潜在编码组序列,得到样本第二潜在编码组序列。基于样本第二潜在编码组序列,生成样本对象模型参数序列。
[0133] 根据本公开的实施例,基于样本全局特征序列和样本局部特征组序列,得到样本第一潜在编码组序列,可以包括:针对样本全局特征序列中的每个样本全局特征,从样本局部特征组序列中确定与样本全局特征相匹配的样本目标局部特征组。样本全局特征和与样本全局特征相匹配的样本目标局部特征组为同一样本图像的图像特征。基于样本目标局部特征组,得到样本第一融合特征。基于预定数量个样本全局特征和样本第一融合特征,得到样本第一潜在编码组。
[0134] 根据本公开的实施例,基于预定数量个样本全局特征和样本第一融合特征,得到样本第一潜在编码组,包括:重复执行下述操作,直至当前轮次等于第三预定轮次阈值,将当前轮次样本第一潜在编码组作为样本第一潜在编码组:在确定当前轮次小于第三预定轮次阈值的情况下,基于样本第一融合特征和当前轮次样本第一潜在编码组,得到下一轮次样本第一潜在编码组。
[0135] 根据本公开的实施例,基于预定数量个样本全局特征和样本第一融合特征,得到样本第一潜在编码组,还包括:基于样本第一融合特征和预定数量个样本全局特征,得到第一轮次样本第一潜在编码组。
[0136] 根据本公开的实施例,基于样本第一潜在编码组序列,生成样本全局潜在编码,包括:针对样本第一潜在编码组序列中的每个样本第一潜在编码组,基于样本第一潜在编码组,得到平均后的样本第一潜在编码。将与样本第一潜在编码组序列一一对应的平均后的样本第一潜在编码序列进行拼接,得到样本全局潜在编码。
[0137] 根据本公开的实施例,基于样本全局潜在编码和样本第一潜在编码组序列,得到样本第二潜在编码组序列,包括:基于样本全局潜在编码,生成样本第二融合特征。针对样本第一潜在编码组序列中的每个样本第一潜在编码组,基于样本第二融合特征和样本第一潜在编码组,得到样本第二潜在编码组。
[0138] 根据本公开的实施例,基于样本第二融合特征和样本第一潜在编码组,得到样本第二潜在编码组,包括:重复执行下述操作,直至当前轮次等于第四预定轮次阈值,将当前轮次样本第二潜在编码组作为样本第二潜在编码组:在确定当前轮次小于第四预定轮次阈值的情况下,基于样本第二融合特征和当前轮次样本第二潜在编码组,得到下一轮次样本第二潜在编码组。
[0139] 根据本公开的实施例,基于样本第二融合特征和样本第一潜在编码组,得到样本第二潜在编码组,还包括:基于样本第二融合特征和样本第一潜在编码组,得到第一轮次样本第二潜在编码组。
[0140] 根据本公开的实施例,样本对象模型参数序列中的每个样本对象模型参数包括样本姿态参数和样本体态参数。对象重建模型的训练方法还可以包括:样本对象模型参数序列中的每个样本对象模型参数,基于样本姿态参数和样本体态参数,生成样本目标模型。基于样本目标模型,确定样本三维关键点信息。
[0141] 根据本公开的实施例,利用样本对象模型参数序列和与样本图像序列相匹配的样本对象模型参数标签序列,训练对象重建模型,包括:基于样本对象模型参数序列和与样本图像序列相匹配的样本对象模型参数标签序列,生成第一损失值。基于与样本图像序列相匹配的样本三维关键点信息序列和与样本图像序列相匹配的关键点标签,生成第二损失值。基于第一损失值和第二损失值,训练对象重建模型。但是并不局限于此。基于样本对象模型参数序列和与样本图像序列相匹配的样本对象模型参数标签序列,生成第一损失值。基于第一损失值,训练对象重建模型。
[0142] 根据本公开的实施例,与基于第一损失值训练对象重建模型的方法相比,基于第一损失值和第二损失值训练对象重建模型,可以使得经训练的对象重建模型的精度高,提高鲁棒性。
[0143] 根据本公开的实施例,第一损失值L1可以通过如下公式(3)确定。
[0144]
[0145] 其中,θl表示样本对象模型参数序列中的第1个样本姿态参数;θl′表示模型参数标签序列中的第1个姿态参数标签;βl表示样本对象模型参数序列中的第1个样本形状参数;βl′表示模型参数标签序列中的第1个形状参数标签;L为样本对象模型参数序列中样本对象模型参数的数量。
[0146] 根据本公开的实施例,第二损失值L2可以通过如下公式(4)确定。
[0147]
[0148] 其中,Jl表示样本三维关键点信息序列中的第1个样本三维关键点信息;Jl′表示关键点标签序列中的第1个关键点标签。
[0149] 根据本公开的实施例,基于第一损失值和第二损失值训练对象重建模型,可以包括:对第一损失值和第二损失值加权求和,得到目标损失值。基于目标损失值调整对象重建模型的参数,直至达到预设训练条件。预设训练条件可以包括:预定训练轮次或者目标损失值收敛。
[0150] 根据本公开的实施例,基于样本初始特征图,生成关于样本对象的样本全局特征和多个样本局部特征,包括:基于样本初始特征图,生成样本掩膜图。样本掩膜图包括多个样本像素点以及与多个样本像素点一一对应的像素值。基于样本掩膜图,从多个样本像素点中确定多个样本目标像素点,其中,样本目标像素点用于表征样本对象的像素点。基于多个目标像素点和样本初始特征图,确定样本全局特征和多个样本局部特征。
[0151] 根据本公开的实施例,基于多个目标样本像素点和样本初始特征图,确定样本全局特征,包括:基于样本初始特征图,确定多个样本目标像素点各自的样本特征向量。基于多个样本目标像素点的样本第一像素点数量和多个样本目标像素点各自的样本特征向量,确定样本全局特征。
[0152] 根据本公开的实施例,基于样本目标像素点和样本初始特征图,确定多个样本局部特征,包括:基于多个样本目标像素点彼此之间的位置关系,对多个样本目标像素点进行分类,得到多个样本像素点集合。每个样本像素点集合包括同一类别的多个样本目标像素点。针对多个样本像素点集合中的每个样本像素点集合,基于样本初始特征图,确定与样本像素点集合相对应的样本局部特征,得到多个样本局部特征。
[0153] 根据本公开的实施例,基于样本初始特征图,确定与样本像素点集合相对应的样本局部特征,包括:针对样本像素点集合中的每个样本目标像素点,基于样本初始特征图,确定样本目标像素点的样本特征向量;以及
[0154] 基于样本像素点集合中的多个样本目标像素点的样本第二像素点数量和多个样本目标像素点各自的样本特征向量,确定样本局部特征。
[0155] 根据本公开的实施例,基于样本初始特征图,生成样本掩膜图,包括:对样本初始特征图进行卷积,得到样本卷积后特征图。对样本卷积后特征图进行激活,得到样本激活后特征图。对样本激活后特征图进行规范化操作,得到样本掩膜图。
[0156] 需要说明的是,本公开的实施例中待处理图像和样本图像、初始特征图和样本初始特征图、全局特征和样本全局特征、局部特征和样本局部特征等术语,仅为了便于理解而设置不同名称,但并不存在操作上以及性质上的区别,对象重建模型的训练方法部分的描述可具体参考对象重建方法部分,在此不再赘述。
[0157] 图7示意性示出了根据本公开实施例的对象重建装置的框图。
[0158] 如图7所示,对象重建装置700,包括:特征提取模块710、第一生成模块720、第二生成模块730以及重建模块740。
[0159] 特征提取模块710,用于对待处理图像序列中的多个待处理图像分别进行特征提取,得到初始特征图序列。待处理图像序列包括待重建的对象。
[0160] 第一生成模块720,用于针对初始特征图序列中的每个初始特征图,基于初始特征图,生成关于对象的全局特征和局部特征组,得到全局特征序列和局部特征组序列。
[0161] 第二生成模块730,用于基于全局特征序列和局部特征组序列,生成用于重建对象的对象模型参数序列。
[0162] 重建模块740,用于基于对象模型参数序列对对象进行重建,得到目标模型序列。
[0163] 根据本公开的实施例,第二生成模块包括:第一编码子模块、第二编码子模块、第三编码子模块以及第一生成子模块。
[0164] 第一编码子模块,用于基于全局特征序列和局部特征组序列,得到第一潜在编码组序列。
[0165] 第二编码子模块,用于基于第一潜在编码组序列,生成全局潜在编码。
[0166] 第三编码子模块,用于基于全局潜在编码和第一潜在编码组序列,得到第二潜在编码组序列。
[0167] 第一生成子模块,用于基于第二潜在编码组序列,生成对象模型参数序列。
[0168] 根据本公开的实施例,第一编码子模块包括:第一确定单元、第一编码单元以及第二编码单元。
[0169] 第一确定单元,用于针对全局特征序列中的每个全局特征,
[0170] 从局部特征组序列中确定与全局特征相匹配的目标局部特征组。全局特征和与全局特征相匹配的目标局部特征组为同一待处理图像的图像特征;
[0171] 第一编码单元,用于基于目标局部特征组,得到第一融合特征。
[0172] 第二编码单元,用于基于预定数量个全局特征和第一融合特征,得到第一潜在编码组。
[0173] 根据本公开的实施例,第二编码单元用于:
[0174] 重复执行下述操作,直至当前轮次等于第一预定轮次阈值,将当前轮次第一潜在编码组作为第一潜在编码组:
[0175] 在确定当前轮次小于第一预定轮次阈值的情况下,基于第一融合特征和当前轮次第一潜在编码组,得到下一轮次第一潜在编码组。
[0176] 根据本公开的实施例,第一编码单元还用于:
[0177] 基于第一融合特征和预定数量个全局特征,得到第一轮次第一潜在编码组。
[0178] 根据本公开的实施例,第二编码子模块包括:第三编码单元以及第四编码单元。
[0179] 第三编码单元,用于针对第一潜在编码组序列中的每个第一潜在编码组,基于第一潜在编码组,得到平均后的第一潜在编码。
[0180] 第四编码单元,用于将与第一潜在编码组序列一一对应的平均后的第一潜在编码序列进行拼接,得到全局潜在编码。
[0181] 根据本公开的实施例,第三编码子模块包括:第五编码单元以及第六编码单元。
[0182] 第五编码单元,用于基于全局潜在编码,生成第二融合特征。
[0183] 第六编码单元,用于针对第一潜在编码组序列中的每个第一潜在编码组,基于第二融合特征和第一潜在编码组,得到第二潜在编码组。
[0184] 根据本公开的实施例,第六编码单元用于:
[0185] 重复执行下述操作,直至当前轮次等于第二预定轮次阈值,将当前轮次第二潜在编码组作为第二潜在编码组:
[0186] 在确定当前轮次小于第二预定轮次阈值的情况下,基于第二融合特征和当前轮次第二潜在编码组,得到下一轮次第二潜在编码组。
[0187] 根据本公开的实施例,第六编码单元还用于:
[0188] 基于第二融合特征和第一潜在编码组,得到第一轮次第二潜在编码组。
[0189] 根据本公开的实施例,对象模型参数序列中的每个对象模型参数包括姿态参数和体态参数。
[0190] 根据本公开的实施例,初始特征图包括背景区域和包含对象的前景区域。
[0191] 根据本公开的实施例,第一生成模块包括:第二生成子模块、第一确定子模块以及第二确定子模块。
[0192] 第二生成子模块,用于基于初始特征图,生成掩膜图。掩膜图包括多个像素点以及与多个像素点一一对应的像素值。
[0193] 第一确定子模块,用于基于多个像素点各自的像素值,从多个像素点中确定多个目标像素点,其中,目标像素点用于表征对象的像素点。
[0194] 第二确定子模块,用于基于多个目标像素点和初始特征图,确定全局特征和局部特征组。
[0195] 根据本公开的实施例,第二确定子模块包括:第二确定单元以及第三确定单元。
[0196] 第二确定单元,用于基于初始特征图,确定多个目标像素点各自的特征向量。
[0197] 第三确定单元,用于基于多个目标像素点的第一像素点数量和多个目标像素点各自的特征向量,确定全局特征。
[0198] 根据本公开的实施例,第二确定子模块包括:分类单元以及第四确定单元。
[0199] 分类单元,用于基于多个目标像素点彼此之间的位置关系,对多个目标像素点进行分类,得到多个像素点集合。每个像素点集合包括同一类别的多个目标像素点。
[0200] 第四确定单元,用于针对多个像素点集合中的每个像素点集合,基于初始特征图,确定与像素点集合相对应的局部特征,得到局部特征组。
[0201] 根据本公开的实施例,第四确定单元包括:第一确定子单元以及第二确定子单元。
[0202] 第一确定子单元,用于针对像素点集合中的每个目标像素点,基于初始特征图,确定目标像素点的特征向量。
[0203] 第二确定子单元,用于基于像素点集合中的多个目标像素点的第二像素点数量和多个目标像素点各自的特征向量,确定局部特征。
[0204] 根据本公开的实施例,第二生成子模块包括:卷积单元、激活单元以及规范化单元。
[0205] 卷积单元,用于对初始特征图进行卷积,得到卷积后特征图。
[0206] 激活单元,用于对卷积后特征图进行激活,得到激活后特征图。
[0207] 规范化单元,用于对激活后特征图进行规范化操作,得到掩膜图。
[0208] 图8示意性示出了根据本公开实施例的对象重建装置的框图。
[0209] 如图8所示,对象重建模型的训练装置800,包括:样本特征提取模块810、样本第一生成模块820、样本第二生成模块830以及训练模块840。
[0210] 样本特征提取模块810,用于对样本图像序列中的多个样本图像分别进行特征提取,得到样本初始特征图序列。样本图像序列包括待重建的样本对象。
[0211] 样本第一生成模块820,用于针对样本初始特征图序列中的每个样本初始特征图,基于样本初始特征图,生成关于样本对象的样本全局特征和样本局部特征组,得到样本全局特征序列和样本局部特征组序列。
[0212] 样本第二生成模块830,用于基于样本全局特征序列和样本局部特征组序列,生成用于重建样本对象的样本对象模型参数序列。
[0213] 训练模块840,用于利用样本对象模型参数序列和与样本图像序列相匹配的样本对象模型参数标签序列,训练对象重建模型。
[0214] 根据本公开的实施例,样本第二生成模块包括:样本第一编码子模块、样本第二编码子模块、样本第三编码子模块以及样本第一生成子模块。
[0215] 样本第一编码子模块,用于基于样本全局特征序列和样本局部特征组序列,得到样本第一潜在编码组序列。
[0216] 样本第二编码子模块,用于基于样本第一潜在编码组序列,生成样本全局潜在编码。
[0217] 样本第三编码子模块,用于基于样本全局潜在编码和样本第一潜在编码组序列,得到样本第二潜在编码组序列。
[0218] 样本第一生成子模块,用于基于样本第二潜在编码组序列,生成样本对象模型参数序列。
[0219] 根据本公开的实施例,样本第一编码子模块包括:样本第一确定单元、样本第一编码单元以及样本第二编码单元。
[0220] 样本第一确定单元,用于针对样本全局特征序列中的每个样本全局特征,从样本局部特征组序列中确定与样本全局特征相匹配的样本目标局部特征组。样本全局特征和与样本全局特征相匹配的样本目标局部特征组为同一样本图像的图像特征。
[0221] 样本第一编码单元,用于基于样本目标局部特征组,得到样本第一融合特征。
[0222] 样本第二编码单元,用于基于预定数量个样本全局特征和样本第一融合特征,得到样本第一潜在编码组。
[0223] 根据本公开的实施例,样本第二编码单元用于:
[0224] 重复执行下述操作,直至当前轮次等于第三预定轮次阈值,将当前轮次样本第一潜在编码组作为样本第一潜在编码组:
[0225] 在确定当前轮次小于第三预定轮次阈值的情况下,基于样本第一融合特征和当前轮次样本第一潜在编码组,得到下一轮次样本第一潜在编码组。
[0226] 根据本公开的实施例,样本第二编码单元还用于:
[0227] 基于样本第一融合特征和预定数量个样本全局特征,得到第一轮次样本第一潜在编码组。
[0228] 根据本公开的实施例,样本第二编码子模块包括:样本第三编码单元以及样本第四编码单元。
[0229] 样本第三编码单元,用于针对样本第一潜在编码组序列中的每个样本第一潜在编码组,基于样本第一潜在编码组,得到平均后的样本第一潜在编码。
[0230] 样本第四编码单元,用于将与样本第一潜在编码组序列一一对应的平均后的样本第一潜在编码序列进行拼接,得到样本全局潜在编码。
[0231] 根据本公开的实施例,样本第三编码子模块包括:样本第五编码单元以及样本第六编码单元。
[0232] 样本第五编码单元,用于基于样本全局潜在编码,生成样本第二融合特征。
[0233] 样本第六编码单元,用于针对样本第一潜在编码组序列中的每个样本第一潜在编码组,基于样本第二融合特征和样本第一潜在编码组,得到样本第二潜在编码组。
[0234] 根据本公开的实施例,样本第六编码单元用于:
[0235] 重复执行下述操作,直至当前轮次等于第四预定轮次阈值,将当前轮次样本第二潜在编码组作为样本第二潜在编码组:
[0236] 在确定当前轮次小于第四预定轮次阈值的情况下,基于样本第二融合特征和当前轮次样本第二潜在编码组,得到下一轮次样本第二潜在编码组。
[0237] 根据本公开的实施例,样本第六编码单元还用于:
[0238] 基于样本第二融合特征和样本第一潜在编码组,得到第一轮次样本第二潜在编码组。
[0239] 根据本公开的实施例,样本对象模型参数序列中的每个样本对象模型参数包括样本姿态参数和样本体态参数。
[0240] 根据本公开的实施例,对象重建模型的训练装置还包括:样本第三生成模块以及样本确定模块。
[0241] 样本第三生成模块,用于样本对象模型参数序列中的每个样本对象模型参数,基于样本姿态参数和样本体态参数,生成样本目标模型。
[0242] 样本确定模块,用于基于样本目标模型,确定样本三维关键点信息。
[0243] 根据本公开的实施例,训练模块包括:第一损失确定子模块、第二损失确定子模块以及训练子模块。
[0244] 第一损失确定子模块,用于基于样本对象模型参数序列和与样本图像序列相匹配的样本对象模型参数标签序列,生成第一损失值。
[0245] 第二损失确定子模块,用于基于与样本图像序列相匹配的样本三维关键点信息序列和与样本图像序列相匹配的关键点标签,生成第二损失值。
[0246] 训练子模块,用于基于第一损失值和第二损失值,训练对象重建模型。
[0247] 根据本公开的实施例,样本第一生成模块包括:样本第二生成子模块、样本第一确定子模块以及样本第二确定子模块。
[0248] 样本第二生成子模块,用于基于样本初始特征图,生成样本掩膜图。样本掩膜图包括多个样本像素点以及与多个样本像素点一一对应的像素值。
[0249] 样本第一确定子模块,用于基于样本掩膜图,从多个样本像素点中确定多个样本目标像素点。样本目标像素点用于表征样本对象的像素点。
[0250] 样本第二确定子模块,用于基于多个目标像素点和样本初始特征图,确定样本全局特征和多个样本局部特征。
[0251] 根据本公开的实施例,样本第二确定子模块包括:样本第二确定单元以及样本第三确定单元。
[0252] 样本第二确定单元,用于基于样本初始特征图,确定多个样本目标像素点各自的样本特征向量。
[0253] 样本第三确定单元,用于基于多个样本目标像素点的样本第一像素点数量和多个样本目标像素点各自的样本特征向量,确定样本全局特征。
[0254] 根据本公开的实施例,样本第二确定子模块包括:样本分类单元以及样本第四确定单元。
[0255] 样本分类单元,用于基于多个样本目标像素点彼此之间的位置关系,对多个样本目标像素点进行分类,得到多个样本像素点集合。每个样本像素点集合包括同一类别的多个样本目标像素点。
[0256] 样本第四确定单元,用于针对多个样本像素点集合中的每个样本像素点集合,基于样本初始特征图,确定与样本像素点集合相对应的样本局部特征,得到多个样本局部特征。
[0257] 根据本公开的实施例,样本第四确定单元包括:样本第一确定子单元以及样本第二确定子单元。
[0258] 样本第一确定子单元,用于针对样本像素点集合中的每个样本目标像素点,基于样本初始特征图,确定样本目标像素点的样本特征向量。
[0259] 样本第二确定子单元,用于基于样本像素点集合中的多个样本目标像素点的样本第二像素点数量和多个样本目标像素点各自的样本特征向量,确定样本局部特征。
[0260] 根据本公开的实施例,样本第二生成子模块包括:样本卷积单元、样本激活单元以及样本规范化单元。
[0261] 样本卷积单元,用于对样本初始特征图进行卷积,得到样本卷积后特征图。
[0262] 样本激活单元,用于对样本卷积后特征图进行激活,得到样本激活后特征图。
[0263] 样本规范化单元,用于对样本激活后特征图进行规范化操作,得到样本掩膜图。
[0264] 根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0265] 根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开实施例的方法。
[0266] 根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开实施例的方法。
[0267] 根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开实施例的方法。
[0268] 图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0269] 如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
[0270] 设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0271] 计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如对象重建方法。例如,在一些实施例中,对象重建方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的对象重建方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行对象重建方法。
[0272] 本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0273] 用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0274] 在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0275] 为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0276] 可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
[0277] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
[0278] 应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0279] 上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。