三维重建模型训练方法、三维重建方法、装置及电子设备转让专利

申请号 : CN202211649135.1

文献号 : CN115797565B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 孟庆月刘星吴进波沈铮阳赵晨

申请人 : 北京百度网讯科技有限公司

摘要 :

本公开提供了一种三维重建模型训练方法、三维重建方法、装置及电子设备,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用三维重建、元宇宙等场景。具体实现方案为:获取街景图像样本数据;根据街景图像样本数据的拍摄位姿,生成视角射线;基于街景图像样本数据关联的建筑物数据,计算视角射线的第一体素密度分布信息;将视角射线输入至待训练模型进行预测,得到视角射线的第二体素密度分布信息;基于目标信息对待训练模型的参数进行更新,得到用于三维重建的三维重建模型,目标信息包括:第一体素密度分布信息和第二体素密度分布信息。本公开可以提高三维重建模型的准确性。

权利要求 :

1.一种三维重建模型训练方法,包括:

获取街景图像样本数据;

根据所述街景图像样本数据的拍摄位姿,生成视角射线;

基于所述街景图像样本数据关联的建筑物数据,计算所述视角射线的第一体素密度分布信息,所述建筑物数据为用于表示所述街景图像样本数据关联的建筑物;

将所述视角射线输入至待训练模型进行预测,得到所述视角射线的第二体素密度分布信息;

基于目标信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型,所述目标信息包括:所述第一体素密度分布信息和所述第二体素密度分布信息;

其中,所述三维重建模型为输入包括视角射线,输出包括视角射线的体素密度分布信息和颜色信息的三维重建模型。

2.根据权利要求1所述的方法,其中,所述建筑物数据为网格Mesh形式的数据,且所述建筑物数据包括所述街景图像样本数据关联的建筑物的形状数据和坐标数据;

所述基于所述街景图像样本数据关联的建筑物数据,计算所述视角射线的第一体素密度分布信息,包括:基于所述街景图像样本数据关联的建筑物的形状数据和坐标数据,计算所述视角射线的第一体素密度分布信息。

3.根据权利要求2所述的方法,所述基于所述街景图像样本数据关联的建筑物的形状数据和坐标数据,计算所述视角射线的第一体素密度分布信息,包括:基于所述街景图像样本数据关联的建筑物的形状数据和坐标数据,计算所述视角射线上多个三维坐标点的体素密度,其中,所述第一体素密度分布信息包括:所述多个三维坐标点中体素密度最大的三维坐标点的体素密度,其中,所述体素密度表示三维坐标点有物体的概率。

4.根据权利要求1至3中任一项所述的方法,其中,所述基于目标信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型,包括:计算所述第一体素密度分布信息和所述第二体素密度分布信息的交叉熵,以及计算所述交叉熵与所述第一体素密度分布信息的熵的差异信息;

基于所述差异信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型。

5.根据权利要求1至3中任一项所述的方法,其中,所述目标信息还包括:所述街景图像样本数据中所述视角射线的真实颜色信息和通过所述训练模型预测的所述视角射线的预测颜色信息;

所述基于目标信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型,包括:基于目标损失函数对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型;

其中,所述目标损失函数包括第一损失函数和第二损失函数,所述第一损失函数的输入包括:所述第一体素密度分布信息和所述第二体素密度分布信息,所述第二损失函数的输入包括:所述真实颜色信息和所述预测颜色信息。

6.根据权利要求5所述的方法,其中,所述待训练模型包括第一网络和第二网络,所述将所述视角射线输入至待训练模型进行预测,得到所述视角射线的第二体素密度分布信息,包括:将所述视角射线输入至所述第一网络进行预测,得到所述视角射线的所述第二体素密度分布信息和中间特征信息,所述中间特征信息为所述第一网络输出的与所述视角射线关联的特征信息;

所述方法还包括:

将所述中间特征信息和所述视角射线输入至所述第二网络进行预测,得到所述视角射线的所述预测颜色信息。

7.一种三维重建方法,包括:

获取街景图像数据;

根据所述街景图像数据的拍摄位姿,生成视角射线;

将所述视角射线输入至三维重建模型进行预测,得到所述视角射线的体素密度分布信息和颜色信息,其中,所述三维重建模型为基于目标信息对待训练模型的参数进行更新,得到的用于三维重建的三维重建模型,所述目标信息包括:第一体素密度分布信息和第二体素密度分布信息,所述第一体素密度信息为基于街景图像样本数据关联的建筑物数据计算的视角射线样本的第一体素密度分布信息,所述视角射线样本为所述街景图像样本数据对应的视角射线,所述第二体素密度分布信息为所述待训练模型对所述视角射线样本进行预测得到的体素密度分布信息;

基于所述视角射线的体素密度分布信息和颜色信息进行三维重建。

8.一种三维重建模型训练装置,包括:

获取模块,用于获取街景图像样本数据;

生成模块,用于根据所述街景图像样本数据的拍摄位姿,生成视角射线;

计算模块,用于基于所述街景图像样本数据关联的建筑物数据,计算所述视角射线的第一体素密度分布信息,所述建筑物数据为用于表示所述街景图像样本数据关联的建筑物;

第一预测模块,用于将所述视角射线输入至待训练模型进行预测,得到所述视角射线的第二体素密度分布信息;

更新模块,用于基于目标信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型,所述目标信息包括:所述第一体素密度分布信息和所述第二体素密度分布信息;

其中,所述三维重建模型为输入包括视角射线,输出包括视角射线的体素密度分布信息和颜色信息的三维重建模型。

9.根据权利要求8所述的装置,其中,所述建筑物数据为网格Mesh形式的数据,且所述建筑物数据包括所述街景图像样本数据关联的建筑物的形状数据和坐标数据;

所述计算模块用于:

基于所述街景图像样本数据关联的建筑物的形状数据和坐标数据,计算所述视角射线的第一体素密度分布信息。

10.根据权利要求9所述的装置,所述计算模块用于:

基于所述街景图像样本数据关联的建筑物的形状数据和坐标数据,计算所述视角射线上多个三维坐标点的体素密度,其中,所述第一体素密度分布信息包括:所述多个三维坐标点中体素密度最大的三维坐标点的体素密度,其中,所述体素密度表示三维坐标点有物体的概率。

11.根据权利要求8至10中任一项所述的装置,其中,所述更新模块包括:计算单元,用于计算所述第一体素密度分布信息和所述第二体素密度分布信息的交叉熵,以及计算所述交叉熵与所述第一体素密度分布信息的熵的差异信息;

更新单元,用于基于所述差异信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型。

12.根据权利要求8至10中任一项所述的装置,其中,所述目标信息还包括:所述街景图像样本数据中所述视角射线的真实颜色信息和通过所述训练模型预测的所述视角射线的预测颜色信息;

所述更新模块用于:

基于目标损失函数对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型;

其中,所述目标损失函数包括第一损失函数和第二损失函数,所述第一损失函数的输入包括:所述第一体素密度分布信息和所述第二体素密度分布信息,所述第二损失函数的输入包括:所述真实颜色信息和所述预测颜色信息。

13.根据权利要求12所述的装置,其中,所述待训练模型包括第一网络和第二网络,所述第一预测模块用于:将所述视角射线输入至所述第一网络进行预测,得到所述视角射线的所述第二体素密度分布信息和中间特征信息,所述中间特征信息为所述第一网络输出的与所述视角射线关联的特征信息;

所述装置还包括:

第二预测模块,用于将所述中间特征信息和所述视角射线输入至所述第二网络进行预测,得到所述视角射线的所述预测颜色信息。

14.一种三维重建装置,包括:

获取模块,用于获取街景图像数据;

生成模块,用于根据所述街景图像数据的拍摄位姿,生成视角射线;

预测模块,用于将所述视角射线输入至三维重建模型进行预测,得到所述视角射线的体素密度分布信息和颜色信息,其中,所述三维重建模型为基于目标信息对待训练模型的参数进行更新,得到的用于三维重建的三维重建模型,所述目标信息包括:第一体素密度分布信息和第二体素密度分布信息,所述第一体素密度信息为基于街景图像样本数据关联的建筑物数据计算的视角射线样本的第一体素密度分布信息,所述视角射线样本为所述街景图像样本数据对应的视角射线,所述第二体素密度分布信息为所述待训练模型对所述视角射线样本进行预测得到的体素密度分布信息;

重建模块,用于基于所述视角射线的体素密度分布信息和颜色信息进行三维重建。

15.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑6中任一项所述的方法,或者,以使所述至少一个处理器能够执行权利要求7所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑6中任一项所述的方法,或者,所述计算机指令用于使所述计算机执行根据权利要求7所述的方法。

说明书 :

三维重建模型训练方法、三维重建方法、装置及电子设备

技术领域

[0001] 本公开涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用三维重建、元宇宙等场景,尤其涉及一种三维重建模型训练方法、三维重建方法、装置及电子设备。

背景技术

[0002] 随着神经网络技术的发展,目前一些三维重建场景是基于神经网络进行三维重建,目前对于用于三维重建的三维重建模型的训练主要是基于传统的模型训练方式进行训练。

发明内容

[0003] 本公开提供了一种三维重建模型训练方法、三维重建方法、装置及电子设备。
[0004] 根据本公开的一方面,提供了一种三维重建模型训练方法,包括:
[0005] 获取街景图像样本数据;
[0006] 根据所述街景图像样本数据的拍摄位姿,生成视角射线;
[0007] 基于所述街景图像样本数据关联的建筑物数据,计算所述视角射线的第一体素密度分布信息,所述建筑物数据为用于表示所述街景图像样本数据关联的建筑物;
[0008] 将所述视角射线输入至待训练模型进行预测,得到所述视角射线的第二体素密度分布信息;
[0009] 基于目标信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型,所述目标信息包括:所述第一体素密度分布信息和所述第二体素密度分布信息。
[0010] 根据本公开的一方面,提供了一种三维重建方法,包括:
[0011] 获取街景图像数据;
[0012] 根据所述街景图像数据的拍摄位姿,生成视角射线;
[0013] 将所述视角射线输入至三维重建模型进行预测,得到所述视角射线的体素密度分布信息和颜色信息,其中,所述三维重建模型为基于目标信息对待训练模型的参数进行更新,得到的用于三维重建的三维重建模型,所述目标信息包括:第一体素密度分布信息和第二体素密度分布信息,所述第一体素密度信息为基于街景图像样本数据关联的建筑物数据计算的视角射线样本的第一体素密度分布信息,所述视角射线样本为所述街景图像样本数据对应的视角射线,所述第二体素密度分布信息为所述待训练模型对所述视角射线样本进行预测得到的体素密度分布信息;
[0014] 基于所述视角射线的体素密度分布信息和颜色信息进行三维重建。
[0015] 根据本公开的另一方面,提供了一种三维重建模型训练装置,包括:
[0016] 获取模块,用于获取街景图像样本数据;
[0017] 生成模块,用于根据所述街景图像样本数据的拍摄位姿,生成视角射线;
[0018] 计算模块,用于基于所述街景图像样本数据关联的建筑物数据,计算所述视角射线的第一体素密度分布信息,所述建筑物数据为用于表示所述街景图像样本数据关联的建筑物;
[0019] 第一预测模块,用于将所述视角射线输入至待训练模型进行预测,得到所述视角射线的第二体素密度分布信息;
[0020] 更新模块,用于基于目标信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型,所述目标信息包括:所述第一体素密度分布信息和所述第二体素密度分布信息。
[0021] 根据本公开的另一方面,提供了一种三维重建装置,包括:
[0022] 获取模块,用于获取街景图像数据;
[0023] 生成模块,用于根据所述街景图像数据的拍摄位姿,生成视角射线;
[0024] 预测模块,用于将所述视角射线输入至三维重建模型进行预测,得到所述视角射线的体素密度分布信息和颜色信息,其中,所述三维重建模型为基于目标信息对待训练模型的参数进行更新,得到的用于三维重建的三维重建模型,所述目标信息包括:第一体素密度分布信息和第二体素密度分布信息,所述第一体素密度信息为基于街景图像样本数据关联的建筑物数据计算的视角射线样本的第一体素密度分布信息,所述视角射线样本为所述街景图像样本数据对应的视角射线,所述第二体素密度分布信息为所述待训练模型对所述视角射线样本进行预测得到的体素密度分布信息;
[0025] 重建模块,用于基于所述视角射线的体素密度分布信息和颜色信息进行三维重建。
[0026] 根据本公开的另一方面,提供了一种电子设备,包括:
[0027] 至少一个处理器;以及
[0028] 与所述至少一个处理器通信连接的存储器;其中,
[0029] 所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开提供的三维重建模型训练方法或者三维重建方法。
[0030] 根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开提供的三维重建模型训练方法或者三维重建方法。
[0031] 根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的三维重建模型训练方法或者三维重建方法。
[0032] 应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

[0033] 附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0034] 图1是本公开提供的一种三维重建模型训练方法的流程图;
[0035] 图2是本公开提供的一种三维重建方法的流程图;
[0036] 图3a至图3c是本公开提供的三维重建模型训练装置的结构图;
[0037] 图4是本公开提供的一种三维重建装置的结构图;
[0038] 图5是用来实现本公开实施例的一种电子设备的框图。

具体实施方式

[0039] 以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0040] 请参见图1,图1是本公开提供的一种三维重建模型训练方法的流程图,如图1所示,包括以下步骤:
[0041] 步骤S101、获取街景图像样本数据。
[0042] 上述街景图像样本数据可以是对拍摄设备对街景进行拍摄得到的街景图像样本数据。
[0043] 步骤S102、根据所述街景图像样本数据的拍摄位姿,生成视角射线。
[0044] 上述根据所述街景图像样本数据的拍摄位姿,生成视角射线可以是,根据拍摄设备拍摄上述街景图像样本数据的拍摄位姿,生成视角射线。
[0045] 其中,上述视角射线可以是,在上述拍摄设备拍摄上述街景图像样本数据的拍摄视角延伸的射线。
[0046] 在一些实施方式中,上述视角射线可以是五维数据,例如:(x,y,z,theta,phi),其中,x,y,z表示三维坐标,视角射线为由该三维坐标表示的点出发的射线,而phi和theta为视角射线对应的两个角度,(x,y,z,theta,phi)表示在空间中由某一点(x,y,z)出发指向(theta,phi)的射线。
[0047] 上述视角射线可以是,街景图像样本数据的全部或者部分视角射线,或者,为上述街景图像样本数据的任一视角射线。
[0048] 步骤S103、基于所述街景图像样本数据关联的建筑物数据,计算所述视角射线的第一体素密度分布信息,所述建筑物数据为用于表示所述街景图像样本数据关联的建筑物。
[0049] 上述街景图像样本数据关联的建筑物可以是,街景图像样本数据中包含的建筑物,上述建筑物数据可以表示上述街景图像样本数据关联的建筑物的形状、坐标等数据。
[0050] 在一些实施方式中,上述建筑物数据可以是楼块数据,即表示楼房的数据。
[0051] 在一些实施方式中,上述建筑物数据除了建筑物的相关数据之外,还包括建筑物之间的马路、植物等数据。
[0052] 另外,上述建筑物数据可以是在上述街景图像样本数据上添加建筑物相关数据而得到的建筑物数据。
[0053] 上述第一体素密度分布信息可以是,上述视角射线在建筑物数据中表示有物理的概率分布,如上述视角射线中在上述建筑物数据中表示有物体的概率最高的三维坐标,或者上述视角射线中在上述建筑物数据中的多个三维坐标上表示有物体的概率,其中,这些的物体为上述建筑物数据中存在物体,如楼房、信号指示灯、植物等物体;或者,上述第一体素密度分布信息可以是,上述视角射线在建筑物数据中被终止的概率,如上述视角射线中在上述建筑物数据中被终止的概率最高的三维坐标,或者,如上述视角射线中在上述建筑物数据中的多个三维坐标被终止的概率。
[0054] 步骤S104、将所述视角射线输入至待训练模型进行预测,得到所述视角射线的第二体素密度分布信息。
[0055] 在一些实施方式中,上述待训练模型可以是,多层感知器(Multilayer Perceptron,MLP)模型。
[0056] 在一些实施方式中,上述待训练模型可以是包括两个MLP的模型。
[0057] 在一些实施方式中,上述待训练模型可以是神经辐射场(Neural Radiance Fields,NeRF)模型。
[0058] 上述第二体素密度分布信息为上述待训练模型预测的上述视角射线体素密度分布信息,如预测的上述视角射线表示有物体的概率分布,或者,预测的上述视角射线被终止的概率。
[0059] 步骤S105、基于目标信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型,所述目标信息包括:所述第一体素密度分布信息和所述第二体素密度分布信息。
[0060] 上述基于目标信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型可以是,基于上述第一体素密度分布信息和所述第二体素密度分布信息的损失(loss)对所述待训练模型的参数进行更新。例如:将上述第一体素密度分布信息作为真值,将上述第二体素密度分布信息作为预测值,计算这二者的损失值,并根据该损失值对待训练模型的参数进行更新。
[0061] 本公开中,通过上述步骤可以实现基于建筑物数据计算的体素密度分布信息和待训练模型预测的体素密度分布信息对待训练模型的参数进行更新,这样可以提高三维重建模型的准确性。
[0062] 本公开中,上述方法可以应用于电子设备,即该方法包括的所有步骤都由该电子设备执行,该电子设备可以是计算机、服务器、手机等电子设备。
[0063] 在一个实施例中,所述建筑物数据为网格(Mesh)形式的数据,且所述建筑物数据包括所述街景图像样本数据关联的建筑物的形状数据和坐标数据;
[0064] 图1所示实施例中的步骤S103,包括:
[0065] 基于所述街景图像样本数据关联的建筑物的形状数据和坐标数据,计算所述视角射线的第一体素密度分布信息。
[0066] 其中,上述建筑物的形状数据可以是建筑物的形状图案数据,例如:将街景图像样本数据内的建筑物用上述形状图案数据代替,或者,在街景图像样本数据内的建筑物的外围添加形状图案数据。
[0067] 上述坐标数据可以是,上述街景图像样本数据关联的建筑物在街景图像样本数据对应的坐标系内的坐标数据。
[0068] 该实施例中,由于建筑物数据为Mesh形式的数据,这样可以使得计算的第一体素密度分布信息更加可靠,从而提高三维重建模型的训练效率。
[0069] 需要说明的是,本公开中并不限定建筑物数据为Mesh形式的数据,也可以是其他形式的数据,如深度图数据。
[0070] 在一个实施例中,上述基于所述街景图像样本数据关联的建筑物的形状数据和坐标数据,计算所述视角射线的第一体素密度分布信息,包括:
[0071] 基于所述街景图像样本数据关联的建筑物的形状数据和坐标数据,计算所述视角射线上多个三维坐标点的体素密度,其中,所述第一体素密度分布信息包括:所述多个三维坐标点中体素密度最大的三维坐标点的体素密度,其中,所述体素密度表示三维坐标点有物体的概率。
[0072] 该实施例中,基于街景图像样本数据关联的建筑物的形状数据和坐标数据,这样可以得到与建筑物关联的三维坐标的体素密度,如建筑物表面的三维坐标的体素密度表示有物体,而当视角射线已知后,视角射线上的多个三维坐标点也是已知的,从而可以基于街景图像样本数据关联的建筑物的形状数据和坐标数据计算得到视角射线上多个三维坐标点的体素密度,进而得到上述第一体素密度分布信息。
[0073] 上述体素密度最大的三维坐标点可以表示上述视角射线上存在物体的三维坐标点,如建筑物的表现。
[0074] 该实施例中,通过上述形状数据和坐标数据可以准确地计算出第一体素密度分布信息。
[0075] 需要说明的是,本公开中并不限定通过上述方式计算第一体素密度分布信息。例如:在一些实施方式中,可以直接基于建筑物数据的深度图的深度值计算第一体素密度分布信息,如视角射线上的深度值为6(单位不限定),则表示在视角射线从起始点到6的三维坐标点的体素密度最高;或者,基于街景图像样本数据关联的建筑物的形状数据和坐标数据,通过神经网络模型直接预测视角射线上体素密度最大的三维坐标点。
[0076] 在一个实施例中,所述基于目标信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型,包括:
[0077] 计算所述第一体素密度分布信息和所述第二体素密度分布信息的交叉熵,以及计算所述交叉熵与所述第一体素密度分布信息的熵的差异信息;
[0078] 基于所述差异信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型。
[0079] 需要说明的是,本公开中对于交叉熵和熵的计算方式不作限定。
[0080] 上述基于所述差异信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型可以是,基于所述差异信息对所述待训练模型的参数进行更新,直到待训练模型收敛,以得到用于三维重建的三维重建模型。
[0081] 该实施例中,基于上述差异信息对所述待训练模型的参数进行更新,这样可以提高上述三维重建模型的准确性,因为,上述差异信息可以更好地体现第一体素密度分布信息和第二体素密度分布信息的区别。
[0082] 需要说明的是,本公开中并不限定通过上述方式对述待训练模型的参数进行更新。例如:
[0083] 在一些实施方式中,可以直接采用如下散度损失函数(Lσ=KL(σgt||σ))对待训练模型的参数进行更新,其中,σ为上述第二体素密度分布信息,σgt为第一体素密度分布信息。
[0084] 在一些实施方式中,也可以采用均方损失函数(Lσ=mse(σ,σgt))对待训练模型的参数进行更新,其中,其中,σ为上述第二体素密度分布信息,σgt为第一体素密度分布信息。
[0085] 在一个实施例中,所述目标信息还包括:所述街景图像样本数据中所述视角射线的真实颜色信息和通过所述训练模型预测的所述视角射线的预测颜色信息;
[0086] 所述基于目标信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型,包括:
[0087] 基于目标损失函数对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型;
[0088] 其中,所述目标损失函数包括第一损失函数和第二损失函数,所述第一损失函数的输入包括:所述第一体素密度分布信息和所述第二体素密度分布信息,所述第二损失函数的输入包括:所述真实颜色信息和所述预测颜色信息。
[0089] 上述街景图像样本数据中所述视角射线的真实颜色信息可以是,直接从街景图像样本图像中识别出的视角射线的真实颜色信息。
[0090] 在一些实施方式中,上述视角射线的真实颜色信息可以是,上述视角射线中体素密度最大的三维坐标点的真实颜色信息。
[0091] 本公开中,颜色信息可以是,红绿蓝(RGB)信息。
[0092] 在一些实施方式中,上述第一损失函数可以是散度损失函数(Lσ=KL(σgt||σ))或者均方损失函数(Lσ=mse(σ,σgt));
[0093] 在一些实施方式中,上述第二损失函数可以是散度损失函数(Lσ=KL(cg||c))或者均方损失函数(Lσ=mse(c,cg)),其中,c为上述真实颜色信息,cg为预测颜色信息。
[0094] 在一些实施方式中,上述目标损失函数可以是L=Lσ+Lc。
[0095] 该实施例中,可以实现基于体素密度分布信息和颜色信息两个维度对待训练模型的参数进行更新,这样可以进一步提高三维重建模型的准确性,又可以进一步提高三维重建模型的训练效率。
[0096] 需要说明的是,本公开在一些实施方式中,可以只基于体素密度分布信息对三维重建模型进行训练。
[0097] 在一个实施例中,所述待训练模型包括第一网络和第二网络,所述将所述视角射线输入至待训练模型进行预测,得到所述视角射线的第二体素密度分布信息,包括:
[0098] 将所述视角射线输入至所述第一网络进行预测,得到所述视角射线的所述第二体素密度分布信息和中间特征信息,所述中间特征信息为所述第一网络输出的与所述视角射线关联的特征信息;
[0099] 所述方法还包括:
[0100] 将所述中间特征信息和所述视角射线输入至所述第二网络进行预测,得到所述视角射线的所述预测颜色信息。
[0101] 其中,上述第一网络和第二网络可以是MLP,即三维重建模型包括两个MLP。本公开,在一些实施方式中,上述第一网络和第二网络中的至少一项也可以是其他网络,例如:单层感知机或者其他分类模型。
[0102] 上述中间特征信息可以是,上述第一网络在接收到上述视线射线后进行预测,输出的除第二体素密度分布信息之外的另一结果。
[0103] 通过上述第一网络和第二网络的预测过程可以通过如下式子表示:
[0104] F:(d)→(c,σ)
[0105] 其中,d表示视角射线,c表示上述预测颜色,σ表示上述第二体素密度分布信息。
[0106] 该实施例中,可以基于第一体素密度分布信息和第二体素密度分布信息对第一网络的参数进行更新,也可以是基于第一体素密度分布信息和第二体素密度分布信息对第一网络和第二网络的参数进行更新;以及基于真实颜色信息和预测颜色信息对第一网络和第二网络进行更新,也可以是基于真实颜色信息和预测颜色信息对第二网络进行更新。
[0107] 该实施例中,可以实现通过第一网络预测的体素密度分布信息和第二网络预测的颜色信息,由于不需要第二网络预测体素密度分布信息,从而可以提高模型训练效率。
[0108] 需要说明的是,本公开中并不限定上述待训练模型包括第一网络和第二网络,例如:在一些实施方式中,上述待训练模型可以只包括一个网络,该网络的输出可以包括体素密度分布信息和颜色信息。
[0109] 本公开中,可以实现基于建筑物数据计算的体素密度分布信息和待训练模型预测的体素密度分布信息对待训练模型的参数进行更新,这样可以提高三维重建模型的准确性。
[0110] 请参见图2,图2是本公开提供的一种三维重建方法的流程图,如图2所示,包括以下步骤:
[0111] 步骤S201、获取街景图像数据。
[0112] 步骤S202、根据所述街景图像数据的拍摄位姿,生成视角射线。
[0113] 其中,上述街景图像数据和视角射线可以参见上面实施例的相应描述,此处不作赘述。
[0114] 步骤S203、将所述视角射线输入至三维重建模型进行预测,得到所述视角射线的体素密度分布信息和颜色信息,其中,所述三维重建模型为基于目标信息对待训练模型的参数进行更新,得到的用于三维重建的三维重建模型,所述目标信息包括:第一体素密度分布信息和第二体素密度分布信息,所述第一体素密度信息为基于街景图像样本数据关联的建筑物数据计算的视角射线样本的第一体素密度分布信息,所述视角射线样本为所述街景图像样本数据对应的视角射线,所述第二体素密度分布信息为所述待训练模型对所述视角射线样本进行预测得到的体素密度分布信息;
[0115] 其中,上述三维重建模型可以参见上面实施例的相应描述,此处不作赘述。需要说明的是,本实施例中上述三维重建模型可以是本公开提供的三维重建模型训练方法中任一实施例所训练的三维重建模型。
[0116] 步骤S204、基于所述视角射线的体素密度分布信息和颜色信息进行三维重建。
[0117] 基于所述视角射线的体素密度分布信息和颜色信息进行三维重建可以是,基于视角射线的体素密度分布信息和颜色信息构建上述街景图像数据对应的三维图像数据。例如:基于上述街景图像数据对应的多个视角射线的体素密度分布信息和颜色信息,构建上述街景图像数据对应的三维图像数据。
[0118] 本实施例中,由于三维重建模型为基于目标信息对待训练模型的参数进行更新,得到用于三维重建的三维重建模型,这样使得三维重建模型预测的体素密度分布信息和颜色信息更加准确,进而提高三维重建的准确性。
[0119] 请参见图3a,图3a是本公开提供的一种三维重建模型训练装置,如图3a所示,三维重建模型训练装置300包括:
[0120] 获取模块301,用于获取街景图像样本数据;
[0121] 生成模块302,用于根据所述街景图像样本数据的拍摄位姿,生成视角射线;
[0122] 计算模块303,用于基于所述街景图像样本数据关联的建筑物数据,计算所述视角射线的第一体素密度分布信息,所述建筑物数据为用于表示所述街景图像样本数据关联的建筑物;
[0123] 第一预测模块304,用于将所述视角射线输入至待训练模型进行预测,得到所述视角射线的第二体素密度分布信息;
[0124] 更新模块305,用于基于目标信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型,所述目标信息包括:所述第一体素密度分布信息和所述第二体素密度分布信息。
[0125] 在一个实施例中,所述建筑物数据为网格Mesh形式的数据,且所述建筑物数据包括所述街景图像样本数据关联的建筑物的形状数据和坐标数据;
[0126] 所述计算模块303用于:
[0127] 基于所述街景图像样本数据关联的建筑物的形状数据和坐标数据,计算所述视角射线的第一体素密度分布信息。
[0128] 在一个实施例中,所述计算模块303用于:
[0129] 基于所述街景图像样本数据关联的建筑物的形状数据和坐标数据,计算所述视角射线上多个三维坐标点的体素密度,其中,所述第一体素密度分布信息包括:所述多个三维坐标点中体素密度最大的三维坐标点的体素密度,其中,所述体素密度表示三维坐标点有物体的概率。
[0130] 在一个实施例中,如图3b所示,所述更新模块305包括:
[0131] 计算单元3051,用于计算所述第一体素密度分布信息和所述第二体素密度分布信息的交叉熵,以及计算所述交叉熵与所述第一体素密度分布信息的熵的差异信息;
[0132] 更新单元3052,用于基于所述差异信息对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型。
[0133] 在一个实施例中,所述目标信息还包括:所述街景图像样本数据中所述视角射线的真实颜色信息和通过所述训练模型预测的所述视角射线的预测颜色信息;
[0134] 所述更新模块305用于:
[0135] 基于目标损失函数对所述待训练模型的参数进行更新,得到用于三维重建的三维重建模型;
[0136] 其中,所述目标损失函数包括第一损失函数和第二损失函数,所述第一损失函数的输入包括:所述第一体素密度分布信息和所述第二体素密度分布信息,所述第二损失函数的输入包括:所述真实颜色信息和所述预测颜色信息。
[0137] 在一个实施例中,所述待训练模型包括第一网络和第二网络,所述第一预测模块304用于:
[0138] 将所述视角射线输入至所述第一网络进行预测,得到所述视角射线的所述第二体素密度分布信息和中间特征信息,所述中间特征信息为所述第一网络输出的与所述视角射线关联的特征信息;
[0139] 如图3c所示,所述装置还包括:
[0140] 第二预测模块306,用于将所述中间特征信息和所述视角射线输入至所述第二网络进行预测,得到所述视角射线的所述预测颜色信息。
[0141] 本公开提供的三维重建模型训练装置能够实现本公开提供的三维重建模型训练方法实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
[0142] 请参见图4,图4是本公开提供的一种三维重建装置,如图4所示,视三维重建装置400包括:
[0143] 获取模块401,用于获取街景图像数据;
[0144] 生成模块402,用于根据所述街景图像数据的拍摄位姿,生成视角射线;
[0145] 预测模块403,用于将所述视角射线输入至三维重建模型进行预测,得到所述视角射线的体素密度分布信息和颜色信息,其中,所述三维重建模型为基于目标信息对待训练模型的参数进行更新,得到的用于三维重建的三维重建模型,所述目标信息包括:第一体素密度分布信息和第二体素密度分布信息,所述第一体素密度信息为基于街景图像样本数据关联的建筑物数据计算的视角射线样本的第一体素密度分布信息,所述视角射线样本为所述街景图像样本数据对应的视角射线,所述第二体素密度分布信息为所述待训练模型对所述视角射线样本进行预测得到的体素密度分布信息;
[0146] 重建模块404,用于基于所述视角射线的体素密度分布信息和颜色信息进行三维重建。
[0147] 本公开提供的三维重建装置能够实现本公开提供的三维重建方法实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
[0148] 本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
[0149] 根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0150] 其中,上述电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开提供的三维重建模型训练方法或者三维重建方法。
[0151] 上述可读存储介质存储有计算机指令,其中,所述计算机指令用于使所述计算机执行本公开提供的三维重建模型训练方法或者三维重建方法。
[0152] 上述计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的三维重建模型训练方法或者三维重建方法。
[0153] 图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0154] 如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
[0155] 设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网格和/或各种电信网格与其他设备交换信息/数据。
[0156] 计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如三维重建模型训练方法或者三维重建方法。例如,在一些实施例中,三维重建模型训练方法或者三维重建方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的三维重建模型训练方法或者三维重建方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行三维重建模型训练方法或者三维重建方法。
[0157] 本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0158] 用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0159] 在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0160] 为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0161] 可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网格浏览器的用户计算机,用户可以通过该图形用户界面或者该网格浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网格)来将系统的部件相互连接。通信网格的示例包括:局域网(LAN)、广域网(WAN)和互联网。
[0162] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网格进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0163] 应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0164] 上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。