一种人体模板动态表达方法、装置、设备及介质转让专利

申请号 : CN202311424381.1

文献号 : CN117173368B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 邱见明陈华荣刘泊宁郑泽荣

申请人 : 杭州新畅元科技有限公司

摘要 :

本发明涉及一种人体模板动态表达方法、装置、设备及介质,包括:对人体模板动作序列进行处理得到数据矩阵,将数据矩阵视作K组数据;计算并初始化K组数据的均值、协方差矩阵及权重,采用这些参数来重建动态符号距离场;并分向投影后的二维平面重复处理得到最终K组数据的最优均值、协方差矩阵以及权重参数,采用这些参数得到最终的重建动态符号距离场并再次重建,得到动态的人体模板的三维网格。本发明利用五维二次核模型对动态的人体模板的三维符号距离场建模,有效拟合动态符号距离场的位置、时间坐标联合数值的分布;采用动态多平面优化进行参数更新,有效进行最优的建模参数集选择,(56)对比文件孙水发等.动态场景的三维重建研究综述.计算机科学与探索.2023,全文.Decai Chen等.Dynamic Multi-View SceneReconstruction Using Neural ImplicitSurface.IEEE.2023,全文.王剑飞;林金花;王璐.改进的空间体素融合方法及其在线重建.湖南大学学报(自然科学版).2018,(02),全文.张晓;宋士华.基于单视频图像序列的人体三维姿态重建.计算机工程与设计.2008,(06),全文.衡量;张盛;张建良;邱见明;陆建华.低复杂度的MBOKDS-UWB接收机同步跟踪算法.清华大学学报(自然科学版)网络.预览.2008,(04),全文.

权利要求 :

1.一种人体模板动态表达方法,其特征在于,包括以下步骤:S1.将连续的人体模板动作序列处理得到符号距离场;

S2.将符号距离场的每个坐标、每个坐标的符号距离数值及时间进行处理得到五维的数据矩阵,将所述数据矩阵视作K组数据,K大于等于1;

S3.计算并初始化k组数据的均值、协方差矩阵及权重;

S4.采用K组初始化后的均值、协方差矩阵以及权重来重建动态符号距离场,具体包括以下步骤:步骤S41、构建五维二次核门函数 ,其求取公式如下:,

其中,是第j组数据初始化后的权重; 是基于位置x,y,z和时间变量t的二次核边缘分布,其中 , ,设 ,则f  (x, y, z, t, w)表达为 ,公式如下:

,其中, 为第j组数据初始化后

的均值向量, 是第j组数据初始化后的协方差矩阵,和均由S3中求取获得,为已知量,则

步骤S42、构建条件均值函数,求取公式为: ,其中,位置变量的均值向量为 ;由S3得到的第j组数据的协方差矩阵为,则 是协方差矩阵中的子矩阵,其中的前4×4维矩阵是位置变量的协方差矩阵 ;

步骤S43、构建重建符号距离场,求取公式为:,

其中, 为重建符号距离场;

S5.将符号距离场的每个坐标及时间进行分向投影,得到多个二维平面,并通过这些二维平面进行网络学习得到关于K组数据的最佳均值、协方差矩阵以及权重参数;

S6.重复上述步骤S4‑S5得到最终K组数据的最优均值、协方差矩阵以及权重参数,对所述参数进行处理,得到最终的重建动态符号距离场;

S7.对最终的重建动态符号距离场进行再次重建,从而得到动态的人体模板的三维网格。

2.根据权利要求1所述的人体模板动态表达方法,其特征在于,所述数据矩阵的行数符

3 3

号距离场的三维空间分辨率n和时间帧数T的乘积N=n×T,其中,n和T为整数,且n≤512。

3.根据权利要求1所述的人体模板动态表达方法,其特征在于,所述步骤S1具体包括:所述人体模板序列为三维人体动作网格模型,包括人体头部和四肢,利用深度符号距离场算法提取每一帧人体模板的三维符号距离场信息。

4.根据权利要求3所述的人体模板动态表达方法,其特征在于,所述深度符号距离场算法具体为:对于每一帧人体模板序列,把其置于256×256×256的人体模板的网格空间场景内,并计算网格空间每一个点与每一人体模板表面之间的符号距离数值,将每一个符号距离数值集合起来,与每一帧人体模板序列中的每一点在人体模板的网格空间中的三维坐标及该序列对应的时间共同组成符号距离场信息。

5.一种人体模板动态表达装置,所述装置用于实现权利要求1‑4任一项所述的方法,其特征在于,所述装置包括:提取模块,用于将连续的人体模板动作序列处理得到符号距离场;

构建模块,用于将符号距离场的每个坐标、每个坐标的符号距离数值及时间进行处理得到五维的数据矩阵,将所述数据矩阵视作K组数据,K大于等于1;

计算初始化模块,用于计算并初始化数据矩阵中的k组数据的均值、协方差矩阵及权重;

第一重建模块,用于采用K组初始化后的均值、协方差矩阵以及权重来重建动态符号距离场;

投影模块,用于将符号距离场的每个坐标及时间进行分向投影,得到多个二维平面,并通过这些二维平面进行网络学习得到关于K组数据的最佳均值、协方差矩阵以及权重参数;

第二重建模块,用于重复处理得到最终K个组的最优均值、协方差矩阵以及权重处理参数,对所述处理参数进行处理,得到最终的重建动态符号距离场;

第三重建模块,用于对最终的重建动态符号距离场进行再次重建,从而得到动态的人体模板的三维网格。

6.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至4任一项所述的方法。

7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述权利要求1至4任一项所述的方法。

说明书 :

一种人体模板动态表达方法、装置、设备及介质

技术领域

[0001] 本发明属于模式识别、图像处理、计算机图形学、三维模型重建、数字人技术领域,具体涉及一种人体模板动态表达方法、装置、设备及介质。

背景技术

[0002] 人体模板动态表达是数字人发展和多模态技术的重要基础之一,其旨在构建针对动态三维人体数据的表达方式,为高效实现数字人驱动、渲染、多模态控制等奠定特征化表达基础。
[0003] 人体模板是三维人体驱动研究中的关键。现有基于高斯核的隐式神经模板的局部形状函数表达法应用于人体模板的重建;也有基于神经辐射场的动态数据的建模,但是这些算法无法进行动态人体模板特征化的表达,没有对于人体动作的数据行理解,因此也不便于后续的多模态驱动研究。除此之外,现有研究多数只能通过驱动骨架从而间接驱动人体,而不是驱动人体本身,目前缺乏切实可行的解决方案。

发明内容

[0004] 为了克服现有技术存在的问题,本发明提供一种人体模板动态表达方法、装置、设备及介质,用于克服目前存在的缺陷。
[0005] 一种人体模板动态表达方法,包括以下步骤:
[0006] S1.将连续的人体模板动作序列处理得到符号距离场;
[0007] S2.将符号距离场的每个坐标、每个坐标的符号距离数值及时间进行处理得到五维的数据矩阵,将所述数据矩阵视作K组数据,K大于等于1;
[0008] S3.计算并初始化数据矩阵中的K组数据的均值、协方差矩阵及权重;
[0009] S4.采用K组初始化后的均值、协方差矩阵以及权重来重建动态符号距离场;
[0010] S5.将符号距离场的每个坐标及时间进行分向投影,得到多个二维平面,并通过这些二维平面进行网络学习得到关于K组数据的最佳均值、协方差矩阵以及权重参数;
[0011] S6.重复上述步骤S4‑S5得到最终K个组的最优均值、协方差矩阵以及权重参数,对所述参数进行处理,得到最终的重建动态符号距离场;
[0012] S7.对最终的重建动态符号距离场进行再次重建,从而得到动态的人体模板的三维网格。
[0013] 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述数据矩3 3
阵的行数符号距离场的三维空间分辨率n 和时间帧数T的乘积N=n ×T,其中,n和T为整数,且n≤512。
[0014] 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述步骤S1具体包括:所述人体模板序列为三维人体动作网格模型,包括人体头部和四肢,利用深度符号距离场算法提取每一帧人体模板的三维符号距离场信息。
[0015] 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述深度符号距离场算法具体为:对于每一帧人体模板序列,把其置于256×256×256的人体模板的网格空间场景内,并计算网格空间每一个点与每一人体模板表面之间的符号距离数值,将每一个符号距离数值集合起来,与每一帧人体模板序列中的每一点在人体模板的网格空间中的三维坐标及该序列对应的时间共同组成符号距离场信息。
[0016] 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S4基于构建的门函数、条件均值函数和重建的符号距离场函数,并采用K组初始化后的均值、协方差矩阵以及权重来得到重建的动态符号距离场。
[0017] 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述门函数的表达式如下:门函数 ,其求取公式如下:
[0018] ,
[0019] 其中,是第j组数据初始化后的权重; 是基于位置x,y,z和时间变量t的二次核边缘分布,其中 , ,设 ,则f (x, y, z, t, w)表达为 ,公式如下:
[0020]
[0021] 其 中 为 第 j 组 数 据 初 始 化 后 的 均 值 向 量 ;是第j组数据初始化后的协方差矩阵,和 均由S3中求取获
得。
[0022] 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述条件均值函数的求取公式为:
[0023]
[0024] 其中, , , 为始化初后的协方差矩阵 中的子矩阵, 。
[0025] 本发明还提供了一种人体模板动态表达装置,所述装置用于实现所述的方法,所述装置包括:
[0026] 提取模块,用于将连续的人体模板动作序列处理得到符号距离场;
[0027] 构建模块,用于将符号距离场的每个坐标、每个坐标的符号距离数值及时间进行处理得到五维的数据矩阵,将所述数据矩阵视作K组数据,K大于等于1;
[0028] 计算初始化模块,用于计算并初始化K组数据的均值、协方差矩阵及权重;
[0029] 第一重建模块,用于采用K组初始化后的均值、协方差矩阵以及权重来重建动态符号距离场;
[0030] 投影模块,用于将符号距离场的每个坐标及时间进行分向投影,得到多个二维平面,并通过这些二维平面进行网络学习得到关于K组数据的最佳均值、协方差矩阵以及权重参数;
[0031] 第二重建模块,用于重复处理得到最终K个组的最优均值、协方差矩阵以及权重处理参数,对所述处理参数进行处理,得到最终的重建动态符号距离场;
[0032] 第三重建模块,用于对最终的重建动态符号距离场进行再次重建,从而得到动态的人体模板的三维网格。
[0033] 本发明还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现所述的方法。
[0034] 本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述所述的方法。
[0035] 本发明的有益效果
[0036] 与现有技术相比,本发明有如下有益效果:
[0037] (1)本发明采用五维二次核相关统计量进行人体模板的动态联合建模,有效利用五维二次核模型的理论特性,使得多维度的人体动态数据在时间和空间上建立关联。
[0038] (2)本发明采用五维二次核模型的均值向量、协方差矩阵及权重等参数作为表达基础,能够有效学习三维人体模板动作序列的动态局部特征,使人体动作的理解有着时空归纳泛化性。
[0039] (3)本发明采用动态多平面的分解进行参数优化,可以解决高维数据的迭代计算困难,使数据分解性优化。

附图说明

[0040] 图1为本发明的方法流程示意图。

具体实施方式

[0041] 为了更好的理解本发明的技术方案,本发明内容包括但不限于下文中的具体实施方式,相似的技术和方法都应该视为本发明保护的范畴之内。为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0042] 应当明确,本发明所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0043] 如图1所示,本发明提供的一种人体模板动态表达方法,包括以下步骤:
[0044] 步骤S1、输入连续的人体模板动作序列,该序列为三维人体动作网格模型,包含人体头部和四肢,利用深度符号距离场算法提取每一帧人体模板的三维符号距离场信息,深度符号距离场算法具体为:由于人体模板的网格是封闭的,所以人体模板序列需逐帧处理。对于每一帧人体模板序列,把其置于256×256×256的人体模板的网格空间场景内,并计算每一个网格空间点与每一人体模板表面之间的符号距离数值,将每一个符号距离数值集合起来,与每一帧人体模板序列中的每一点在人体模板的网格空间中的三维坐标及该序列对应的时间共同组成原始符号距离场,其用于后续的二次核建模。
[0045] 步骤S2、将符号距离场信息中每一个点的三维坐标处的x方向、y方向、z方向、每一帧人体模板序列对应的时间坐标,一起记为(x,y,z,t),其中,时间帧t也用于表示每一帧人体模板动作序列的序号,每一帧都有一个符号距离场,且每一个坐标(x,y,z,t)处的符号距离数值为w,并将每一个(x,y,z,t)和对应的w排列成数据矩阵。即数据矩阵中的每一个(x,y,z,t,w)为五维二次核模型建模的五维变量,由于人体模板序列的获得是动态进行的,因此,本步骤也是动态的。
[0046] 步骤S3、随机初始化:将数据矩阵划分为K组数据,计算每一组数据的均值 、变量之间的协方差矩阵 及每组数据的权重 , 是第j组数据的变量x,y,z,t,w的随机变量,得到K组均值、协方差矩阵以及权重,并将每组中的均值中的每个元素,协方差矩阵 中的每个元素,以
及K组中的每个权重 按照高斯分布进行随机初始化,从而后续初始化损失函数, ,为整数,得到K组初始化后的均值、协方差矩阵以及权重。
[0047] 步骤S4、采用K组初始化后的均值、协方差矩阵以及权重来重建动态符号距离场,本发明采用五维二次核模型重建三维动态人体模板,其重建方法是基于该五维数据(x,y,z,t,w)形成的数据矩阵,采用本发明构建的门函数和条件均值函数,并将门函数和条件均值函数二者求得的值再次相乘可获得重建的符号距离场,其中门函数和条件均值函数的计算过程需要K个组初始化后的均值、协方差矩阵以及权重;然后对重建的动态符号距离场与S1中的原始符号距离场求取均方误差,该均方误差即为网络的损失函数L。
[0048] 步骤S5、将原始符号距离场的每一个(x,y,z,t)分向投影,得到二维平面,即对动态五维数据进行多平面分解,最终投影到多个二维平面以便降维优化,随后进行二维卷积以及通过多层感知机,并通过这些二维平面进行网络学习得到关于K组数据的最佳均值、协方差矩阵以及权重参数。
[0049] 步骤S6、重复上述步骤S4‑S5,迭代更新获得所有二维平面,获得最终优化的参数: ,  ,这些最佳的均值、协方差矩阵以及权重不断被优化,直到损失函数L收敛,收敛的条件即L基本稳定不再变化,收敛后最终得到K个组的最优均值 、协方差矩阵以及权重 ,而后将这些最终得到的最优均值、协方差矩阵以及权重重新代入本发明构建的门函数和条件均值函数,进行相乘等算法处理获得最终的重建动态符号距离场。
[0050] 步骤S7、对S6中获得的重建的动态符号距离场中的每帧符号距离场都使用行进立方体方法进行再次重建,从而得到动态的人体模板的三维网格,该行进立方体方法为常用的计算方法,此处不再具体说明。
[0051] 本发明的方法直接驱动人体本身,开始时人体模板动作序列为网格形式,经过本发明的相应步骤处理,得到相应的符号距离场,将重建的符号距离场再次进行重建,重新得到动态的网格形式的人体模板,将初始的网格形式转化成符号距离场,得到有规则的位置坐标,之后用二次核模型建模和表达,最终表达结果还原成网格,从而便于观测和对比,便于后续的多模态驱动研究。
[0052] 进一步地,上述步骤S2中的数据矩阵的行数为符号距离场的三维空间分辨率n3(n3
≤512,n为整数)和时间帧数T(T为整数)的乘积N=n ×T,数据矩阵的列数为5,即包括符号距离场的三维坐标、时间坐标以及符号距离场数值。
[0053] 进一步地,上述S4中的基于五维二次核模型重建三维动态人体模板是一种基于多个五维二次核模型的人体模板动态表达方法,将三维人体模板的符号距离场和时间维度进行联合表达,参数包括均值向量、协方差矩阵、权重。该表达的重建结果基于门函数和条件均值的乘积计算得来,而门函数和条件均值又直接由均值、协方差矩阵以及权重计算得到,所以模型的参数决定了人体动态变化的局部特征。
[0054] 进一步地,所述步骤S4重建动态符号距离场具体包括以下步骤:
[0055] 步骤S41、构建五维二次核门函数 ,其求取公式如下:
[0056] (1),
[0057] 其中 是第j个数组的权重; 是基于位置x,y,z和时间变量t的二次核边缘分布,其中 。五维二次核的表达式为f (x, y, z, t, w),设 ,那么f (x, y, z, t, w)表达为 ,则表达式如下:
[0058]
[0059] 其中 为第j组数据的均值向量; 是第j组数据的协方差矩阵,其中, 是k组数据中变量x,y,z,t,w的第j组数据的的随机变量,第j组数据的均值、协方差矩阵及权重均已在S3中求取得到,为已知量,则[0060]                   (2)
[0061] 步骤S42、构建条件均值函数,求取公式为:
[0062] (3)
[0063] 其中, 是第j组数据的变量x,y,z,t,w的随机变量,由S3得到的第j组数据的均值向量为 ,其中位置变量的均值向量为 ;由S3得到的第j组数据的协方差矩阵为 ,则 是协方差矩阵
中的子矩阵,其中的前4×4维矩阵是位置变量的协方差矩阵 。
[0064] 步骤S43、构建重建符号距离场,求取公式为:
[0065] (4),
[0066] 其中 为重建符号距离场。在后面S6的迭代执行过程中,上述各公式中则代入优化后的最优均值 、协方差矩阵 以及权重 及由这些值得到的 和 。
[0067] 进一步地,所述步骤S5动态多平面优化具体包括以下步骤:
[0068] 步骤S51、平面分解:将四维坐标(x, y, z, t)分向投影,最终简化为(y, z),(x, y),(y, t),(x, z),(z, t),(x, t)六个二维平面以便于加速计算,为了求得最优化的均值、协方差矩阵以及权重,且避免多余多的数据影响计算,做此平面分解,分别优化;具体地,上述步骤S51包括以下子步骤:
[0069] 步骤S51‑1、首先分解为动态三平面:第一个三平面包含(y, z),(y, t),(x, t);第二个三平面包含(y, t),(x, y),(x, t);第三个三平面包含(z, t),(x, t),(x, z)。
[0070] 步骤S51‑2、再简化为六个二平面分解:(y, z),(x, y),(y, t),(x, z),(z, t),(x, t)。
[0071] 步骤S52、二维卷积:采用二维卷积神经网路的卷积层通过滑动尺寸3×3的卷积核在S51中输入的二维平面上分别进行卷积操作,得到输出的卷积结果。
[0072] 步骤S53、多层感知机学习:将二维卷积S52中的结果通过多层感知机,并通过这些二维平面进行网络学习得到关于K组数据的最佳均值、协方差矩阵以及权重参数。
[0073] 进一步地,上述人体模板动态表达方法,其中的均方误差是所有帧的原始符号距离场和重建符号距离场在相同位置上数值的差平方均值,本发明可以针对动态人体模板利用五维二次核模型进行建模,步骤S2可以体现它是动态的。
[0074] 本发明是人体驱动研究的基础,其利用均值向量、协方差矩阵以及权重直接表达人体,可不需要使用骨架间接驱动,可通过驱动参数实现,是一种具有泛化性的表达,S4体现了其是基于这些参数进行表达和重建的。
[0075] 作为公开的实施例,本发明还提供了一种人体模板动态表达装置,所述装置用于实现所述的方法,所述装置包括:
[0076] 提取模块,用于将连续的人体模板动作序列处理得到符号距离场;
[0077] 构建模块,用于将符号距离场的每个坐标、每个坐标的符号距离数值及时间进行处理得到五维的数据矩阵;
[0078] 计算初始化模块,用于计算并初始化数据矩阵中的K组数据的均值、协方差矩阵及权重;
[0079] 第一重建模块,用于采用K组初始化后的均值、协方差矩阵以及权重来重建动态符号距离场;
[0080] 投影模块,用于将符号距离场的每个坐标及时间进行分向投影,得到多个二维平面,并通过这些二维平面进行网络学习得到K组数据的最佳均值、协方差矩阵以及权重参数;
[0081] 第二重建模块,用于重复处理得到最终K个组的最优均值、协方差矩阵以及权重处理参数,对所述处理参数进行处理,得到最终的重建动态符号距离场;
[0082] 第三重建模块,用于对最终的重建动态符号距离场进行再次重建,从而得到动态的人体模板的三维网格。
[0083] 作为公开的实施例,本发明还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现本发明所述的方法。
[0084] 作为公开的实施例,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现本发明所述的方法。
[0085] 在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
[0086] 上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求书的保护范围内。