一种基于视图过滤的聚合卷积三维模型分类方法转让专利
申请号 : CN202110990067.4
文献号 : CN113869120B
文献日 : 2022-08-05
发明人 : 张雨禾 , 刘泽华 , 高健 , 郭宝 , 王淑睿
申请人 : 西北大学
摘要 :
权利要求 :
1.一种基于视图过滤的聚合卷积三维模型分类方法,其特征在于,所述基于视图过滤的聚合卷积三维模型分类方法包括:将所有三维模型通过视图捕获的方式,转换成三维模型多视图数据;
利用二维图像分类网络,对多视图数据进行训练,投票排序,生成视图序列;
提取视图序列中前k个视图的特征,对k视图特征进行拆分重组,将重塑的k视图特征输入聚合卷积,聚合多视图特征,生成一个三维模型全局形状描述符;
采用全连接层和全局形状描述符进行三维模型分类;
所述提取视图序列中前k个视图的特征,对k视图特征进行拆分重组,将重塑的k视图特征输入聚合卷积,聚合多视图特征,生成一个三维模型全局形状描述符具体包括:首先将所有三维模型的多视图预测结果定义为 其中M是分类任务中所有形状的数量,基于预测结果P,进行实例级投票:
所有模型的同一视点的预测结果累加,给构造一个辅助序列 再对实例级投票结果 进行排序:
V′ins.=ψins.(Vins.,Ains.)
其中,排序函数ψins.将Vins.从大到小排列,序列Ains.记录了排序过程中,Vins.中每个数字的位置变化,最终生成序列V′ins.={i}i∈{1,2,...,N},序列V′ins.中的每个数字代表了一个视点的视图,生成实例级投票的视图序列;
所述采用全连接层和全局形状描述符进行三维模型分类具体包括:继续用定义的预测结果 再将所有三维模型多视图的预测标签定义为对同一类别的预测结果进行实例级投票,使得同一类别中所有模型同一视点的预测结果累加;类级投票结果定义为 其中 被定义为:其中,i=1,2,...,N,j=0,1,...,c‑1, 作为一个约束条件保证同一类别的预测结果累加;构造一个辅助序列 其中 将投票结果和辅助序列输入排序函数:
V′cls.=ψcls.(Vcls.,Acls.)
得到类级投票的视图序列 其中 表示第j
类的视图序列。
2.如权利要求1所述的基于视图过滤的聚合卷积三维模型分类方法,其特征在于,所述将所有三维模型通过视图捕获的方式,转换成三维模型多视图数据具体包括:将所有三维模型通过视图渲染捕获的方式,转换成三维模型多视图数据 N=20;三维模型数据集为ModelNet40,训练集和测试集中的三维模型数分别为9843和2468个。
3.如权利要求1所述的基于视图过滤的聚合卷积三维模型分类方法,其特征在于,所述利用二维图像分类网络,对多视图数据进行训练,投票排序,生成视图序列具体包括:多视图数据中的每个视图图像Ii通过一个二维图像分类网络得到每个视图的预测标签其中li∈{0,1,...,c‑1},c表示分类任务中共有c个类别,比较预测标签与真实标签得到预测结果 表示预测错误,pi=1表示预测正确,N=20。
4.一种多视图三维模型分类方法,其特征在于,所述多视图三维模型分类方法包括权利要求1~3任意一项所述的方法,具体包括:步骤一,将待分类的三维模型进行抓拍捕获,转换成多视图数据;
步骤二,对三维模型多视图进行视图投票,得到两种视图序列V′ins.={i}i∈{1,2,...,N}和步骤三以V′ins.={i}i∈{1,2,...,N}投票结果为例,提取多视图特征 将视图序列中前k个视图的通过设计的拆分重组函数Φ,F′=Φ(F,k)
对特征进行拆分重组后得到 k为输入视图的数量;
步骤四,利用设计的聚合卷积模块聚合多视图特征,聚合卷积模块由单层二维卷积实现,输入通道为k,输出通道为1;得到三维模型全局形状特征;
步骤五,将全局形状描述符输入一个由全连接层、Dropout和LeakyRule组成的模块,再通过softmax函数得到最终的类别概率向量PM。
5.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~
3任意一项所述基于视图过滤的聚合卷积三维模型分类方法的步骤。
6.一种实施权利要求1~3任意一项所述基于视图过滤的聚合卷积三维模型分类方法的基于视图过滤的聚合卷积三维模型分类系统,其特征在于,所述基于视图过滤的聚合卷积三维模型分类系统包括:三维模型转换模块,用于将所有三维模型通过视图捕获的方式,转换成三维模型多视图数据;
视图序列生成模块,用于利用二维图像分类网络,对多视图数据进行训练,投票排序,生成视图序列;
三维模型全局形状描述符生成模块,用于提取视图序列中前k个视图的特征,对k视图特征进行拆分重组,将重塑的k视图特征输入聚合卷积,聚合多视图特征,生成一个三维模型全局形状描述符;
三维模型分类模块,用于采用全连接层和全局形状描述符进行三维模型分类;
视图捕获的方式,转换成三维模型多视图数据。
说明书 :
一种基于视图过滤的聚合卷积三维模型分类方法
技术领域
背景技术
格和从单一视角捕捉的二维图像。近年来,随着3D采集技术(比如苹果深度相机和Kinect)
的快速发展,三维模型在医疗、虚拟现实/增强现实和自动驾驶等领域被应用,推动了三维
模型识别的发展。
视图的方法主要的问题是如何将多视图的特征融合成一个紧凑且可分辨的全局的三维形
状描述符。基于体积的方法通常是先将点云转化成三维网格,然后从三维网格中学习三维
形状的特征以实现形状分类。在基于点的方法中,每个点都用于特征学习,可以分为逐点
MLP方法、基于卷积的方法、基于图的方法等经典方法。
况,如相机在正十二面体顶点上拍摄的多视图包含的三维几何信息被多视图序列所忽略,
而且无法处理视图缺失问题。基于点的方法虽然使用了具有完整信息的点云作为输入,但
是由于点云的非结构化和高维化等因素,严重影响了基于点的三维模型分类的进一步发
展。基于体积的方法通常需要大量的计算开销,其形状识别的性能不如基于多视图的方法。
综上,三维模型分类方法虽然达到了97%的准确率,但是仍然受到前置条件的诸多限制,导
致三维模型分类性能不能进一步提升。
其中不规范的视图无法进行识别筛选,使得不规范视图影响了三维模型的识别性能。对于
多视图中代表性视图丢失,首先破坏了视图配置,导致无法识别,其次代表性视图的缺失影
响识别。
视图缺失的问题,为复杂环境中的三维模型识别提供了实验支撑。
发明内容
别性能;
能够平等加权,避免了多视图特征融合中的信息损失。然后生成一个三维模型全局形状描
述符;
N=20;三维模型数据集为ModelNet40,训练集和测试集中的三维模型数分别为
9843和2468个。
图的预测标签 其中li∈{0,1,...,c‑1},c表示分类任务中共有c个类别,比较预测
标签与真实标签
括:首先将所有三维模型的多视图预测结果定义为 其中M是分类任务中
所有形状的数量,基于预测结果P,进行实例级投票:
对同一类别的预测结果进行实例级投票,使得同一类别中所有模型同一
视点的预测结果累加;类级投票结果定义为 其中
被定义为:
和辅助序列输入排序函数:
执行所述基于视图过滤的聚合卷积三维模型分类方法的步骤。
模型分类系统包括:
维模型全局形状描述符;
同质空间等诸多前置条件;本发明所采取的特征融合方法,克服了传统的最大池化特征融
合过程中信息损失的问题,本发明所采取方法,具有效率高,操作方便,正确率较高,达
98.0%以上。
附图说明
具体实施方式
限定本发明。
方法仅仅是一个具体实施例而已。
维模型全局形状描述符;
发明按照图5所示的两种预定义相机阵列,从三维形状渲染生成N个视图,其中N分别等于12
和20。
然后本发明设计了一个多视图聚合卷积来聚合多视图特征生成一个全局形状描述符。最
后,全局形状描述符可用于三维形状识别。
均以经过ImageNet预训练的ResNet‑18为骨干网络。
数据总共有11231个三维模型,其中9843个训练集,2468个测试集,分为40类。以下为具体的
实施步骤:
224;
表示预测错误, 表示预测正确;
其中 表示第j类的投票结果,j=0,1,...,39。Vins.和 中每个位
置的数字,代表一个视图;
序列进行排序,得到最终的视图 序列V ′ins .={i}i∈{1,2,...,20}和
表示第j类的准确率;
16,4,7,8,12,18,19],[8,10,0,1,2,4,5,6,9,11,12,14,15,18,13,16,17,3,7,19],[7,4,
5,9,10,16,17,6,14,15,8,0,11,12,19,1,2,3,13,18],[19,7,4,5,8,0,1,3,15,16,2,6,
11,9,12,13,10,14,17,18],[0,19,7,9,2,5,10,12,16,17,1,4,11,14,15,3,6,8,13,18],[8,9,0,2,6,7,11,14,18,1,3,4,5,10,12,13,15,16,17,19],[19,7,16,18,15,17,4,6,10,
13,14,0,1,2,3,5,8,9,11,12],[0,7,16,19,6,11,12,14,15,17,18,1,2,3,4,5,8,9,10,
13],[0,19,1,7,8,13,3,6,11,14,15,18,4,5,9,10,12,16,17,2],[9,0,1,11,2,3,10,13,
16,5,7,8,12,14,18,19,4,6,15,17],[5,2,9,16,3,13,1,10,17,7,0,4,11,12,14,18,6,8,
15,19],[7,9,10,15,0,4,12,14,17,1,3,6,13,16,18,19,2,5,8,11],[9,10,12,5,14,0,
11,17,18,4,7,13,15,16,1,6,2,8,3,19],[16,0,7,9,10,2,14,17,3,4,5,13,15,18,1,11,
19,6,8,12],[6,7,0,1,15,16,19,10,11,17,5,13,3,4,9,8,14,18,12,2],[19,8,2,11,5,
7,10,0,4,6,9,13,14,16,1,3,12,15,17,18],[9,19,0,1,2,4,5,7,8,10,11,16,3,6,12,
13,14,15,17,18],[0,7,16,19,3,6,11,12,14,15,18,1,2,5,8,10,13,4,9,17],[0,7,10,
11,16,1,2,3,4,5,6,8,9,12,13,14,15,17,18,19],[10,9,1,6,15,7,8,19,0,4,5,14,16,
17,12,2,3,18,11,13],[7,16,6,8,11,13,17,19,0,2,4,12,3,10,14,15,1,5,9,18],[9,
12,10,13,14,5,7,2,1,6,15,18,4,17,19,3,11,8,16,0],[0,1,6,9,10,2,3,4,5,7,8,11,
13,14,15,16,17,19,12,18],[9,10,7,8,11,4,19,0,5,2,6,15,16,17,14,1,3,13,18,12],[16,19,10,18,9,0,7,14,15,6,8,12,17,1,3,5,11,13,4,2],[7,0,6,16,5,11,3,8,9,10,
15,17,18,1,14,19,2,12,4,13],[7,6,19,9,11,16,0,8,18,12,13,14,15,17,1,3,4,10,2,
5],[4,15,18,3,11,14,19,0,2,5,6,7,8,10,9,13,17,1,12,16],[9,7,0,5,1,8,10,14,15,
16,19,2,4,11,3,6,12,18,13,17],[7,19,0,3,15,5,9,11,18,2,6,8,10,12,13,16,17,1,
14,4],[11,16,9,10,12,17,1,2,5,7,8,13,0,3,4,6,14,15,18,19],[14,13,11,15,7,16,
2,9,12,17,18,5,6,19,0,1,10,3,4,8],[7,16,8,10,13,0,9,11,14,15,19,1,6,12,17,18,
2,3,4,5],[18,17,2,3,4,5,7,11,12,13,15,0,1,6,8,9,10,14,16,19],[9,7,10,0,16,17,
11,14,15,5,6,8,1,4,18,19,12,2,3,13],[5,18,2,7,13,19,17,9,3,14,4,10,12,15,6,
16,8,11,0,1],[17,5,14,16,0,4,10,15,7,8,9,3,6,18,2,13,1,11,12,19],[9,10,0,1,2,
5,6,7,8,16,4,12,17,11,15,19,14,18,3,13]],部分模型的多视图投票排序结果如图3所示。
224;
其中
96.65%、97.49%,97.60%,最大分类准确率分别为97.16%、97.97%和97.93%,k值分别
为16,10,8。
2.2955,‑2.2966,‑4.6665,‑1.1007,‑2.8307,3.6586,‑1.5686,4.5477,‑2.3176,0.0850,‑
2.2065,0.1969,1.6204,1.1256,‑2.8454,2.2598,‑4.5910,‑3.2231,‑1.7781,‑3.2291,
0.1780];
3.3109E‑12,3.5148E‑14,4.7547E‑11,1.5159E‑11,2.5420E‑10,1.3047E‑10,4.4764E‑12,
4.4715E‑12,4.1804E‑13,1.4785E‑11,2.6212E‑12,1.7249E‑09,9.2602E‑12,4.1966E‑09,
4.3786E‑12,4.8391E‑11,4.8931E‑12,5.4121E‑11,2.2469E‑10,1.3699E‑10,2.5829E‑12,
4.2586E‑10,4.5082E‑13,1.7704E‑12,7.5099E‑12,1.7598E‑12,5.3108E‑11]
3.8206,‑0.9660,‑1.2970,0.4597,‑0.3220,0.1353,‑0.0863,‑0.8107,‑0.8431,6.5920,‑
0.8845,0.4109,3.2181,‑1.1692,‑0.5150,‑0.3259,1.3129,‑1.2948,5.1673,2.5991,
5.5469,2.4707];
1.7408E‑03,1.0351E‑03,9.1269E‑05,6.4253E‑03,5.3076E‑04,3.4965E‑02,2.9164E‑04,
2.0945E‑04,1.2134E‑03,5.5530E‑04,8.7726E‑04,7.0289E‑04,3.4063E‑04,3.2977E‑04,
5.5878E‑01,3.1640E‑04,1.1556E‑03,1.9141E‑02,2.3801E‑04,4.5783E‑04,5.5314E‑04,
2.8481E‑03,2.0992E‑04,1.3443E‑01,1.0307E‑02,1.9650E‑01,9.0653E‑03]。
表所示。可以看出,以ResNet‑18为骨干网络,本发明的方法与View‑GCN相比,每个实例的准
确率提升了0.37%。以AlexNet为骨干网络,本发明的方法与RotationNet和View‑GCN相比,
每个实例的准确率分别提高了0.85%和0.04%,而当使用ResNet‑50作为骨干网络时,每个
实例的准确率分别提高了1.01%和0.63%。
用AlexNet时与VoxNet的内存用量相当,但是本发明的方法的性能,明显超过了VoxNet和
PointNet。使用相同的ResNet‑18作为骨干网络,本发明方法的参数量只有View‑GCN的三分
之一,但是性能却优于它。与其他的方法,如RotationNet和MVCNN‑New,本发明的方法在参
数量,内存用量,准确率方法,均占有优势。
发明的方法在使用AlexNet和ResNet‑18作为骨干网络的情况下,每实例的分类精度分别提
高了0.26%和0.60%。与之前一些需要更多视图的方法相比,如MDSI‑CNN、CFK和MMDCN,本
发明的方法表现出明显的改进,并取得了最佳的每实例分类精度结果。这些结果验证了本
发明的方法可以在真实拍摄的多视图图像上表现良好。
统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备
和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁
盘、CD或DVD‑ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电
子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模
集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编
程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软
件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。