动态场景光场重建方法及装置转让专利

申请号 : CN202111090962.7

文献号 : CN113538667B

文献日 : 2021-12-24

本申请提出一种动态场景光场重建方法和装置，其中，方法包括：通过预训练的语义分割的网络获取人体分割的结果，根据预先获取的场景背景获取物体分割结果，并融合多帧深度图得到几何模型，根据预训练的人体模型补全网络得到完整的人体模型，通过点云配准对准并将对准后的模型进行融合得到物体模型，从而获得具有几何细节并完整的人体模型和物体模型，通过点云配准跟踪刚性物体的运动，以及通过人体骨架跟踪和人体表面节点的非刚性跟踪，重建具有几何细节并完整的人体模型，在时间序列上进行融合操作，通过融合得到重建后的人体模型和重建后的刚性物体模型。本发明针对人与物体交互现象行了优化处理，提升在人与物体交互场景下的动态光场重建的鲁棒性，实现了实时高质量的动态场景的光场重建。

1.一种动态场景光场重建方法，其特征在于，所述方法包括以下步骤：通过预训练的语义分割的网络获取人体分割的结果，根据预先获取的场景背景获取物体分割结果；

融合所述人体分割的结果和所述物体分割结果的多帧深度图得到几何模型，根据预训练的人体模型补全网络得到完整的人体模型，通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型，以获得具有几何细节并完整的人体模型和物体模型；

通过所述点云配准跟踪刚性物体的运动；以及通过人体骨架的先验和非刚性点云跟踪重建所述具有几何细节并完整的人体模型；

在获得所述具有几何细节并完整的人体模型的运动场和所述刚性物体的运动后，在时间序列上进行融合操作，通过所述融合操作得到重建后的人体模型和重建后的刚性物体模型；

通过优化函数求解得到所述刚性物体的运动；

所述点云配准的优化函数包含颜色和几何两个优化项，所述优化函数表达式如下：其中，N是物体的数量，R是通过最近搜索找到的对应点集合，p、q是帧t和帧t−1的对应点，函数C返回点的颜色q，Cp是一个点p的切面上连续的预计算函数，函数f将三维点投影到切线平面，Ti为刚性物体的运动，λcolor是颜色优化项的系数，设置为0.1，λgeo是几何优化项的系数，设置为0.9，Ecolor是颜色优化项的计算表达式，由邻近点的颜色差异计算得到,Egeo是几何优化项的计算表达式，由邻近点的空间位置差异计算得到；

所述通过人体骨架跟踪包括：通过人体骨架的先验和非刚性点云跟踪，并在求解人体骨架节点的位置时加入新的约束项：在求解人体骨架节点的位置时加入新的约束项：其中，Egmm是在人与物体交互的情况下采集的人体姿态数据，Elstm是通过时序上的约束项，Esp_h是几何上的交叉项，λgmm，λlstm，λsp_h1分别是优化项的系数；

所述通过人体表面节点的非刚性跟踪，包括：通过联合求解优化方程，优化变量为体型：，姿势：，ED非刚性运动场：，所述优化方程为：

其中，第一项，体素数据项，λvd是优化系数，描述的是SMPL型和重建的几何模型之间的误差：其中，的输入为一个点坐标，输出为这个点坐标在TSDF体里面的双线性插值的SDF值，表示罚函数。

2.根据权利要求1所述的动态场景光场重建方法，其特征在于，所述方法还包括：根据重建的刚性物体在当前视角下投影的结果，去除所述人体分割的结果中错误的部分。

3.根据权利要求1所述的动态场景光场重建方法，其特征在于，所述根据预训练的人体模型补全网络得到完整的人体模型，包括：当所述几何模型的平均权重达到特定预设阈值时，触动当前帧的人体模型经过一个训练好的深度学习网络，得到一个完整的人体模型。

4.根据权利要求1所述的动态场景光场重建方法，其特征在于，相互作用项，由如下的点到面距离表示：

其中，C为SMPL上的点和

完整模型上的点u的最近点对集合，P为部分模型的顶点和完整模型上的点u最近点对集合，是点的法向量。

5.根据权利要求1所述的动态场景光场重建方法，其特征在于，对每个3D体素，表示通过ED非刚性运动变形后的位置，表示这个体素周围非空体素的数量；表示v的TSDF值；

计算当前的SDF值和更新权重，由下面公式计算：其中，u是与对应的在完整上的模型的三维点，是它的法向量，是符号函数，由SDF值的正负决定。

6.根据权利要求5所述的动态场景光场重建方法，其特征在于，通过所述SDF值和更新权重，根据融合策略进行融合，通过marching cubes算法，得到完整并且有几何细节的网格模型，所述融合策略为：

其中，表示v的TSDF值，W(v)表示当前累积的权重。

7.一种动态场景光场重建装置，其特征在于，包括：分割模块，用于通过预训练的语义分割的网络获取人体分割的结果，根据预先获取的场景背景获取物体分割结果；

配准模块，用于融合所述人体分割的结果和所述物体分割结果的多帧深度图得到几何模型，根据预训练的人体模型补全网络得到完整的人体模型，通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型，以获得具有几何细节并完整的人体模型和物体模型；

跟踪模块，用于通过所述点云配准跟踪刚性物体的运动；以及，重建模块，用于通过人体骨架的先验和非刚性点云跟踪重建所述具有几何细节并完整的人体模型；

融合模块，在获得所述具有几何细节并完整的人体模型的运动场和所述刚性物体的运动后，在时间序列上进行融合操作，通过所述融合操作得到重建后的人体模型和重建后的刚性物体模型；

通过优化函数求解得到所述刚性物体的运动；

所述重建模块，还用于通过人体骨架的先验和非刚性点云跟踪，并在求解人体骨架节点的位置时加入新的约束项：

在求解人体骨架节点的位置时加入新的约束项：其中，Egmm是在人与物体交互的情况下采集的人体姿态数据，Elstm是通过时序上的约束项，Esp_h是几何上的交叉项，λgmm，λlstm，λsp_h1分别是优化项的系数；

所述重建模块，还用于：

通过联合求解优化方程，优化变量为体型：，姿势：，ED非刚性运动场：，所述优化方程为：

动态场景光场重建方法及装置

技术领域

[0001] 本发明涉及计算机视觉等技术领域，特别涉及一种动态场景光场重建方法及装置。

背景技术

[0002] AR技术首先需要对真实场景进行高质量的建模，然后可以在虚拟空间对重建的模型进行各种操作。然而真实的动态场景包含复杂的人与物体的交互,对这样的动态场景光
场重建仍难是一个困难的问题。以往的方法需要使用复杂且昂贵的相机阵列采集数据，然
后通过专用服务器进行离线计算来获取高质量的重建结果，然而这样的设备难以推广使
用。

[0003] 高质量的实时三维人体重建对沉浸式VR/AR应用有着重要意义。然而在单目RGBD的输入下，高质量的动态人体重建仍然是一个困难的问题，尤其是在有物体交互和遮挡的
时候，重建结果会不稳定。早期的基于模型的方法都会受到预扫描的模板或低效的运行时
性能不适用于日常交互应用程序。通过大量的相机和专门的计算服务器高端可以提供高质
量的人体重建解决方案这些方法通过大量的相机，借助多视图几何的计算以解决具有挑战
性的交互和遮挡模糊问题。然而，它们的计算效率低而且需要昂贵，繁琐的数据采集设备，
导致不能应用到日常使用中。单目立体视觉方法采用最轻便的商用RGBD摄像机采集数据，
通过时间上的融合管道来构建完整模型。早期处理一般的动态场景的方法没有利用人体的
先验信息，重建的动态物体需要运动非常缓慢，而且不能有严重遮挡，结果非常不鲁棒。为
了增强对人体重建的鲁棒性，新的工作引入了人体参数模型的先验来处理更复杂的运动，
不过这些方法不能重建人与物体交互的情况，在有物体遮挡的时候容易失败。

[0004] 传统技术有如下缺点：

[0005] 1. 基于单张RGB或者RGBD的模型学习得到的模型是基于训练数据的先验的，与真实的情况不完全一致，重建模型在正面观测的效果较好，在其他角度的效果往往较差；在时
间序列上缺少平滑性。

[0006] 2. 对物体的处理：不加入人体先验的动态重建方法虽然能够同时重建人和物体，但需要运动场景非常简单，场景不存在明显遮挡，否则非常容易跟踪失败。而引入人体先验
信息的方法不能将与人交互的物体重建出来，而且在有物体遮挡的时候容易跟踪失败。

发明内容

[0007] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

[0008] 为此，本发明的第一个目的在于提出一种动态场景光场重建方法，从单目RGBD的输入得到人与物体交互的动态场景的重建模型。针对人与物体交互的场景带来的遮挡问题
进行了优化处理，在重建动态人体的同时将刚性物体也重建出来，通过重建的物体模型的
先验信息来提升遮挡情况下人体模型的鲁棒性。同时在人体骨架跟踪上引入时序信息的先
验来提升鲁棒性。

[0009] 本发明的第二个目的在于提出一种动态场景光场重建装置。

[0010] 为达上述目的，本发明第一方面实施例提出了一种动态场景光场重建方法，包括以下步骤：

[0011] 通过预训练的语义分割的网络获取人体分割的结果，根据预先获取的场景背景获取物体分割结果；

[0012] 融合所述人体分割的结果和所述物体分割结果的多帧深度图得到几何模型，根据预训练的人体模型补全网络得到完整的人体模型，通过点云配准对准并将对准后的模型进
行融合得到融合后的物体模型，以获得具有几何细节并完整的人体模型和物体模型；

[0013] 通过所述点云配准跟踪刚性物体的运动；以及

[0014] 通过人体骨架的先验和非刚性点云跟踪重建所述具有几何细节并完整的人体模型；

[0015] 在获得所述具有几何细节并完整的人体模型的运动场和所述刚性物体的运动后，在时间序列上进行融合操作，通过所述融合操作得到重建后的人体模型和重建后的刚性物
体模型。

[0016] 另外，根据本发明上述实施例的动态场景光场重建方法还可以具有以下附加的技术特征：

[0017] 进一步地，在本发明的一个实施例中，所述方法还包括：根据重建的刚性物体在当前视角下投影的结果，去除所述人体分割的结果中错误的部分。

[0018] 进一步地，在本发明的一个实施例中，所述根据预训练的人体模型补全网络得到完整的人体模型，包括：

[0019] 当所述几何模型的平均权重达到特定预设阈值时，触动当前帧的人体模型经过一个训练好的深度学习网络，得到一个完整的人体模型。

[0020] 进一步地，在本发明的一个实施例中，通过优化函数求解得到所述刚性物体的运动；

[0021] 所述点云配准的优化函数包含颜色和几何两个优化项，所述优化函数表达式如下：

[0022]

[0023]

[0024]

[0025] 其中，N是物体的数量，R是通过最近搜索找到的对应点集合，p、q是帧t和帧t−1的对应点，函数C返回点的颜色q，Cp是一个点p的切面上连续的预计算函数，函数f将三维点投
影到切线平面，Ti为刚性物体的运动，λcolor是颜色优化项的系数，设置为0.1，λgeo是几何优
化项的系数，设置为0.9，Ecolor是颜色优化项的计算表达式，由邻近点的颜色差异计算得到；
Egeo是几何优化项的计算表达式，由临近点的空间位置差异计算得到。

[0026] 进一步地，在本发明的一个实施例中，所述通过人体骨架跟踪包括：通过人体骨架的先验和非刚性点云跟踪以重建所述具有几何细节并完整的人体模型，并在求解人体骨架
节点的位置时加入新的约束项：

[0027]

[0028] 其中，Egmm是在人与物体交互的情况下采集的人体姿态数据，Elstm是通过时序上的约束项，Esp_h是几何上的交叉项，λgmm，λlstm，λsp_h1分别是优化项的系数。

[0029] 进一步地，在本发明的一个实施例中，所述通过人体表面节点的非刚性跟踪，包括：

[0030] 通过联合求解优化方程，优化变量为体型：，姿势：，ED非刚性运动场：，所述优化方程为：

[0031] 其中，第一项，体素数据项，λvd是优化系数，描述的是SMPL模型和重建的几何模型之间的误差：

[0032]

[0033] 其中，的输入为一个点坐标，输出为这个点坐标在TSDF体里面的双线性插值的SDF值，表示罚函数。

[0034] 进一步地，在本发明的一个实施例中，相互作用项，由如下的点到面距离表示：

[0035] 其中，C为SMPL上的点和完整模型上的点u的最近点对集合，P为部分模型的顶点和完整模型上
的点u最近点对集合，是点的法向量。

[0036] 进一步地，在本发明的一个实施例中，对每个3D体素，表示通过ED非刚性运动变形后的位置，表示这个体素周围非空体素的数量；表示v的TSDF值；

[0037] 计算当前的SDF值和更新权重，由下面公式计算：

[0038]

[0039] 其中，u是与对应的在完整上的模型的三维点，是它的法向量，是符号函数，由SDF值的正负决定。

[0040] 进一步地，在本发明的一个实施例中，通过所述SDF值和更新权重，根据融合策略进行融合，通过marching cubes算法，得到完整并且有几何细节的网格模型，所述融合策略
为：

[0041]

[0042] 其中，表示v的TSDF值，表示当前累积的权重。

[0043] 本发明实施例的动态场景光场重建方法，通过预训练的语义分割的网络获取人体分割的结果，根据预先获取的场景背景获取物体分割结果；融合人体分割的结果和物体分
割结果的多帧深度图得到几何模型，根据预训练的人体模型补全网络得到完整的人体模
型，通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型，以获得具有几
何细节并完整的人体模型和物体模型；通过点云配准跟踪刚性物体的运动；以及通过人体
骨架的先验和非刚性点云跟踪重建具有几何细节并完整的人体模型；在获得具有几何细节
并完整的人体模型的运动场和刚性物体的运动后，在时间序列上进行融合操作，通过融合
操作得到重建后的人体模型和重建后的刚性物体模型。本发明通过在人和物体交互的动态
场景下，对刚性物体进行点云跟踪并重建出三维模型，在得到三维模型之后根据模型的先
验信息约束人体骨架的跟踪，提升在人与物体交互场景下的动态光场重建的鲁棒性；利用
时序信息的先验和采集的人与物体交互的pose先验来增强物体遮挡情况下的人体骨架跟
踪效果，在得到遮挡情况下鲁棒的人体骨架跟踪，可以实现在遮挡情况下动态场景的光场
重建。

[0044] 为达上述目的，本发明第二方面实施例提出了一种动态场景光场重建装置，包括：

[0045] 分割模块，通过预训练的语义分割的网络获取人体分割的结果，根据预先获取的场景背景获取物体分割结果；

[0046] 配准模块，用于融合所述人体分割的结果和所述物体分割结果的多帧深度图得到几何模型，根据预训练的人体模型补全网络得到完整的人体模型，通过点云配准对准并将
对准后的模型进行融合得到融合后的物体模型，以获得具有几何细节并完整的人体模型和
物体模型；

[0047] 跟踪模块，用于通过所述点云配准跟踪刚性物体的运动；以及，

[0048] 重建模块，用于人体骨架的先验和非刚性点云跟踪重建所述具有几何细节并完整的人体模型；

[0049] 融合模块，用于在获得所述具有几何细节并完整的人体模型的运动场和所述刚性物体的运动后，在时间序列上进行融合操作，通过所述融合操作得到重建后的人体模型和
重建后的刚性物体模型。

[0050] 本发明实施例的动态场景光场重建装置，通过分割模块，通过预训练的语义分割的网络获取人体分割的结果，根据预先获取的场景背景获取物体分割结果；配准模块，用于
融合人体分割的结果和物体分割结果的多帧深度图得到几何模型，根据预训练的人体模型
补全网络得到完整的人体模型，通过点云配准对准并将对准后的模型进行融合得到融合后
的物体模型，以获得具有几何细节并完整的人体模型和物体模型；跟踪模块，用于通过点云
配准跟踪刚性物体的运动；以及，重建模块，用于人体骨架的先验和非刚性点云跟踪重建具
有几何细节并完整的人体模型；融合模块，用于在获得具有几何细节并完整的人体模型的
运动场和刚性物体的运动后，在时间序列上进行融合操作，通过融合操作得到重建后的人
体模型和重建后的刚性物体模型。本发明通过在人和物体交互的动态场景下，对刚性物体
进行点云跟踪并重建出三维模型，在得到三维模型之后根据模型的先验信息约束人体骨架
的跟踪，提升在人与物体交互场景下的动态光场重建的鲁棒性；利用时序信息的先验和采
集的人与物体交互的pose先验来增强物体遮挡情况下的人体骨架跟踪效果，在得到遮挡情
况下鲁棒的人体骨架跟踪，可以实现在遮挡情况下动态场景的光场重建。

[0051] 本发明的有益效果为：

[0052] 本发明通过设计算法实现适用于基于单目RGBD相机的人与物体交互场景下的动态场景光场重建，具体实现了利用RGBD相机（RGB+深度图像）即可实现快速的、完整的、准确
的、高质量的动态人体3D模型和刚性物体模型。具体包括：

[0053] 1）通过点云配准重建刚性物体；

[0054] 2）通过人体骨架先验和非刚性跟踪重建人体；

[0055] 3）通过重建的刚性物体在空间上约束人体骨架跟踪的结果，提升鲁棒性。在人与物体交互并且互相遮挡的情况下可以根据光场重建结果得到动态场景模型。

[0056] 本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

[0057] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

[0058] 图1为根据本发明一个实施例的动态场景光场重建方法的流程图；

[0059] 图2为根据本发明一个实施例的动态场景光场重建的总体设计示意图；

[0060] 图3为根据本发明一个实施例的三维模型重建结果示意图；

[0061] 图4为根据本发明一个实施例的动态场景光场重建装置的结构示意图。

具体实施方式

[0062] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

[0063] 下面参考附图描述本发明实施例的动态场景光场重建方法和装置。

[0064] 本申请实施例的动态场景光场重建方法，通在单目RGBD相机的输入下，通过非刚性跟踪与人体骨架的先验信息来重建动态人体，通过点云配准来跟踪并重建刚性物体，在
得到重建的刚性物体后通过在空间上的优化项来限制人体模型的位置，防止人体模型插入
到物体模型中。同时通过重建的刚性物体模型调整原始数据中人体mask提取的结果。如图2
所示。

[0065] 图1为本发明实施例所提供的一种动态场景光场重建方法的流程图。

[0066] 如图1所示，该方法包括以下步骤：

[0067] 步骤S1，通过预训练的语义分割的网络获取人体分割的结果，根据预先获取的场景背景获取物体分割结果。

[0068] 具体的，本发明首先应用语义分割网络获取人体分割部分，根据预先知道的场景背景和人体分割的结果获取场景中存在的物体。

[0069] 进一步地，语义分割网络的到的人体分割结果有时候会错误的包含物体，我们根据重建的刚性物体在当前视角下投影的结果来去除人体分割中错误的部分。

[0070] 步骤S2，融合人体分割的结果和物体分割结果的多帧深度图得到几何模型，根据预训练的人体模型补全网络得到完整的人体模型，通过点云配准对准并将对准后的模型进
行融合得到融合后的物体模型，以获得具有几何细节并完整的人体模型和物体模型。

[0071] 可以理解的是，首先得到具有高质量几何细节的人体模型：利用单视角非刚性动态重建技术（ED node‑graph based）融合多帧深度图得到当前帧的几何模型（TSDF形式）。
例如（1 3s的人体正面视频得到的人体前面的部分模型）。
~

[0072] 其次，得到完整的人体模型：也就是说一旦TSDF体的平均权重达到某个阈值（32，可调），就触动当前帧过一个训练好的深度学习网络，得到一个完整的人体模型。具体做法
如下：

[0073] 网络模型参考PiFu，由一个图像编码器和一个MLP构成，不同的是，我们的输入不仅仅是RGB，还加入了D（深度图）和human parsing(人体部分分割图)，这样的目的是能够得
到尺度以及人体姿态和真实情况（也就是上述融合的几何模型）更逼近的模型。训练数据集
可以通过大量的3D人体模型，渲染得到Depth和RGB，经过人体部分分割得到human parsing
得到，然后通过该改变的Pifu网络训练得到这个深度学习模型。

[0074] 最后，得到人体模型融合：在获得了上述两个模型后，通过点云配准来对准这两个模型，然后将对准后的模型进行融合，即通过学习的完整模型补全我们重建的不完整模型，
一起构成既有几何细节又完整的人体模型。

[0075] 步骤S3，通过点云配准跟踪刚性物体的运动。

[0076] 可以理解的是，对于刚性物体，我们通过点云配准来跟踪它的运动，点云配准的优化函数包含颜色和几何两个优化项，优化函数表达式如下：

[0077]

[0078]

[0079]

[0080] 其中，N是物体的数量，R是通过最近搜索找到的对应点集合。p、q是帧t和帧t−1的对应点。函数C返回点的颜色q而Cp是一个点p的切面上连续的预计算函数，函数f将三维点
投影到切线平面。通过优化上面的误差函数可以求解得到Ti，即刚性物体的运动，λcolor是颜
色优化项的系数，设置为0.1，λgeo是几何优化项的系数，设置为0.9，Ecolor是颜色优化项的计
算表达式，由邻近点的颜色差异计算得到，Egeo是几何优化项的计算表达式，由临近点的空
间位置差异计算得到。

[0081] 步骤S4，通过人体骨架跟踪和人体表面节点的非刚性跟踪，重建具有几何细节并完整的人体模型。

[0082] 可以理解的是，通过人体骨架的先验和非刚性点云跟踪可以重建人体模型，在求解人体骨架节点的位置时加入新的约束项：

[0083]

[0084] 其中，λgmmλ，lstm，λsp_h1分别是优化项的系数，Egmm是在人与物体交互的情况下采集的人体姿态数据，通过高斯混合模型得到在交互场景下的姿态分布，约束当前的姿态估计
与高斯混合模型的先验信息尽量保持一致；

[0085] Elstm是通过时序上的约束项，我们训练了一个LSTM网络来根据历史的姿态估计预测当前的姿态估计，通过当前姿态估计的预测值来约束当前姿态估计的求解，在人体被
物体遮挡的情况下可以根据时序上的连续性来实现较好的骨架运动估计；Esp_h是几何上
的交叉项，在得到刚性物体的模型之后，约束人体与物体模型不能在空间中交叉，避免在遮
挡的情况下人体模型错误的插入到物体中。

[0086] 进一步地，人体表面节点的非刚性跟踪，非刚性运动估计：为了获得更贴近真实的非刚性运动（衣物褶皱等）在姿态估计（骨架运动估计）的基础上，我们求解的优化问题来
估计非刚性运动G。我们使用ED node graph和SMPL模型表示整体的人体模型，对于任意3D
顶点，表示的是通过ED node graph变形后的位置，是非刚性运动场。对
于SMPL模型，是统一模板，是通过形状和姿态参数变形后的模板，其中β表示的
是形状参数（体型），θ表示的是姿态参数，对于任顶点，是通
过变形后的3D坐标位置。

[0087] 匹配TSDF形式的部分模型和完整的mesh（网格模型）的具体操作是通过联合求解优化方程，优化变量为体型：，姿势：，ED非刚性运动场（从TSDF部分模型到完整模型
mesh）：。优化方程为：

[0088] 其中第一项，体素数据项，λvd是优化系数，描述的是SMPL模型和重建的几何模型（TSDF体的部分模
型）之间的误差：

[0089]

[0090] 其中，的输入为一个点坐标，输出为这个点坐标在TSDF体里面的双线性插值的SDF值，（越小表明离表面越近）。表示罚函数。

[0091] 相互作用项进一步衡量了部分TSDF模型和SMPL到完整mesh的误差，具体由如下的点到面距离表示：

[0092] 其中，C为SMPL上的点和完整模型上的点u的最近点对集合，P为部分模型的顶点和完整模型上的点u
最近点对集合，是点的法向量，λmdata是相互作用项的系数。

[0093] 步骤S5，在获得具有几何细节并完整的人体模型的运动场和刚性物体的运动后，在时间序列上进行融合操作，通过融合操作得到重建后的人体模型和重建后的刚性物体模
型。

[0094] 具体的，在获得了人体模型的运动场和刚性物体的运动之后需要在时间序列上进行融合操作，我们在TSDF域下进行融合,通过融合可以得到完整的人体模型和刚性物体模
型。

[0095] 可以理解的是，对每个3D体素，表示它通过ED非刚性运动变形后的位置，表示这个体素周围非空体素的数量，这个数量越大表示该部分观测越多，越可靠，随着部分
模型的一点点融合，从中间到边缘这个数越来越小，所以用它的反比表示融合权重可以达
到无缝融合的效果。表示v的TSDF值，表示的则是他的当前累积的权重。我们按照
如下公式计算对应的当前的SDF值，和更新权重：

[0096]

[0097] 这里，u是与对应的在完整上的模型的三维点，是它的法向量。是符号函数，由SDF值的正负决定。通过上述新的SDF值和跟新权重，按照TSDF融合策略融合：

[0098]

[0099] 然后通过marching cubes算法即可从TSDF体中得到一个完整并且有几何细节的网格模型。

[0100] 根据本发明实施例的动态场景光场重建方法，通过预训练的语义分割的网络获取人体分割的结果，根据预先获取的场景背景获取物体分割结果；融合人体分割的结果和物
体分割结果的多帧深度图得到几何模型，根据预训练的人体模型补全网络得到完整的人体
模型，通过点云配准对准并将对准后的模型进行融合得到融合后的物体模型，以获得具有
几何细节并完整的人体模型和物体模型；通过点云配准跟踪刚性物体的运动；以及通过人
体骨架的先验和非刚性点云跟踪重建具有几何细节并完整的人体模型；在获得具有几何细
节并完整的人体模型的运动场和刚性物体的运动后，在时间序列上进行融合操作，通过融
合操作得到重建后的人体模型和重建后的刚性物体模型。本发明通过在人和物体交互的动
态场景下，对刚性物体进行点云跟踪并重建出三维模型，在得到三维模型之后根据模型的
先验信息约束人体骨架的跟踪，提升在人与物体交互场景下的动态光场重建的鲁棒性；利
用时序信息的先验和采集的人与物体交互的pose先验来增强物体遮挡情况下的人体骨架
跟踪效果，在得到遮挡情况下鲁棒的人体骨架跟踪，可以实现在遮挡情况下动态场景的光
场重建。

[0101] 图4为根据本发明一个实施例的动态场景光场重建装置结构示意图。

[0102] 如图4所示，该装置10包括：分割模块100、配准模块200、跟踪模块300、重建模块400和融合模块500。

[0103] 分割模块100，通过预训练的语义分割的网络获取人体分割的结果，根据预先获取的场景背景获取物体分割结果；

[0104] 配准模块200，用于融合人体分割的结果和物体分割结果的多帧深度图得到几何模型，根据预训练的人体模型补全网络得到完整的人体模型，通过点云配准对准并将对准
后的模型进行融合得到融合后的物体模型，以获得具有几何细节并完整的人体模型和物体
模型；

[0105] 跟踪模块300，用于通过点云配准跟踪刚性物体的运动；

[0106] 重建模块400，用于通过人体骨架跟踪和人体表面节点的非刚性跟踪，重建具有几何细节并完整的人体模型；

[0107] 融合模块500，用于在获得具有几何细节并完整的人体模型的运动场和刚性物体的运动后，在时间序列上进行融合操作，通过融合操作得到重建后的人体模型和重建后的
刚性物体模型。

[0108] 根据本发明实施例提出的动态场景光场重建装置，通过分割模块，通过预训练的语义分割的网络获取人体分割的结果，根据预先获取的场景背景获取物体分割结果；配准
模块，用于融合人体分割的结果和物体分割结果的多帧深度图得到几何模型，根据预训练
的人体模型补全网络得到完整的人体模型，通过点云配准对准并将对准后的模型进行融合
得到融合后的物体模型，以获得具有几何细节并完整的人体模型和物体模型；跟踪模块，用
于通过点云配准跟踪刚性物体的运动；以及，重建模块，用于人体骨架的先验和非刚性点云
跟踪重建具有几何细节并完整的人体模型；融合模块，用于在获得具有几何细节并完整的
人体模型的运动场和刚性物体的运动后，在时间序列上进行融合操作，通过融合操作得到
重建后的人体模型和重建后的刚性物体模型。本发明通过在人和物体交互的动态场景下，
对刚性物体进行点云跟踪并重建出三维模型，在得到三维模型之后根据模型的先验信息约
束人体骨架的跟踪，提升在人与物体交互场景下的动态光场重建的鲁棒性；利用时序信息
的先验和采集的人与物体交互的pose先验来增强物体遮挡情况下的人体骨架跟踪效果，在
得到遮挡情况下鲁棒的人体骨架跟踪，可以实现在遮挡情况下动态场景的光场重建。

[0109] 此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者
隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三
个等，除非另有明确具体的限定。

[0110] 在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特
点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不
必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任
一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技
术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结
合和组合。

[0111] 尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述
实施例进行变化、修改、替换和变型。

动态场景光场重建方法及装置转让专利

申请号 : CN202111090962.7

文献号 : CN113538667B

文献日 : 2021-12-24

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 方璐 , 仲大伟

申请人 : 清华大学

摘要 :

权利要求 :

说明书 :