训练深度神经网络的系统和确定牙齿的最终位置的系统转让专利

申请号 : CN201980057692.4

文献号 : CN112638312B

文献日 : 2022-05-13

本发明的一种方法包括：获得训练牙科CT扫描；在这些CT扫描中的每一个中标识各个牙齿和颌骨；并且利用从这些CT扫描获得的训练输入数据和训练目标数据来训练深度神经网络。本发明的另一种方法包括：获得(203)患者牙科CT扫描；在该CT扫描中标识(205)各个牙齿和颌骨，并且使用(207)经训练的深度学习网络根据从该CT扫描获得的输入数据确定期望最终位置。所述(训练)输入数据表示所有牙齿和整个牙槽突，并且标识各个牙齿和颌骨。所确定的期望最终位置被用于确定每颗牙齿的期望中间位置的序列，并且所述中间位置和最终位置以及附接类型被用于创建牙齿和/或矫正器的三维表示。

1.一种用于训练深度神经网络的系统，其包括至少一个处理器，所述至少一个处理器被配置为：

‑获得反映在相应的成功的正畸治疗之前的时刻的多个训练牙科计算机断层扫描，‑在所述训练牙科计算机断层扫描中的每一个中标识各个牙齿和颌骨，并且‑利用从所述多个训练牙科计算机断层扫描获得的训练输入数据和每个训练牙科计算机断层扫描的训练目标数据来训练所述深度神经网络，以根据从患者牙科计算机断层扫描获得的输入数据来确定每颗牙齿的期望最终位置，其中，从训练牙科计算机断层扫描获得的训练输入数据表示所有牙齿和整个牙槽突并且标识所述各个牙齿和所述颌骨，其中，所述输入数据包括图像数据集或3D数据集以及描绘所述各个牙齿和所述颌的信息，所述图像数据集表示整个计算机断层扫描或多个3D数据集，所述多个3D数据集包括每颗牙齿的3D数据集和针对所述颌骨的3D数据集，并且其中，所述训练目标数据包括指示对于所述多个训练牙科计算机断层扫描中的一个或多个的每颗牙齿所实现的变换的指示符，所述变换包括每颗牙齿的平移和/或旋转，和/或所述训练目标数据包括从反映在成功的正畸治疗之后的时刻的一个或多个另外的训练牙科计算机断层扫描获得的数据，所述一个或多个另外的训练牙科计算机断层扫描中的每个与所述多个训练牙科计算机断层扫描的训练牙科计算机断层扫描相关联。

2.根据权利要求1所述的系统，其中，所述至少一个处理器被配置为：使用所述各个牙齿和所述颌骨的所述标识来为所述训练牙科计算机断层扫描中的每一个确定牙齿物理性质并且促进在所述深度神经网络中对反映所述牙齿物理性质的信息的编码。

3.根据权利要求2所述的系统，其中，通过利用取决于所确定的所述牙齿物理性质的损失函数来训练所述深度神经网络而在所述深度神经网络中对所述牙齿物理性质进行编码。

4.根据前述权利要求1至3中任一项所述的系统，其中，从所述训练牙科计算机断层扫描获得的所述训练输入数据还表示所有基骨。

5.根据前述权利要求1至3中任一项所述的系统，其中，所述多个训练牙科计算机断层扫描中的一个或多个中的每一个都与指示每颗牙齿的附接类型的指示符相关联，所述指示符被包括在所述训练目标数据中。

6.根据权利要求1所述的系统，其中，所述至少一个处理器被配置为：通过对从所述另外的训练牙科计算机断层扫描中的一个得到的数据进行变换来获得所述一个或多个训练牙科计算机断层扫描中的至少一个。

7.根据前述权利要求1至3中任一项所述的系统，其中，所述至少一个处理器被配置为：利用从所述多个训练牙科计算机断层扫描获得的所述训练输入数据和每个训练牙科计算机断层扫描的所述训练目标数据来训练所述深度神经网络，以根据从所述患者牙科计算机断层扫描获得的所述输入数据来确定所述期望最终位置和每颗牙齿的附接类型。

8.一种用于确定每颗牙齿的期望最终位置的系统，其包括使用根据权利要求1至7中任一项所述的用于训练深度神经网络的系统而训练的深度神经网络和至少一个处理器，所述至少一个处理器被配置为：‑获得患者牙科计算机断层扫描，‑在所述患者牙科计算机断层扫描中标识各个牙齿和颌骨，并且‑使用所训练的深度神经网络来根据从所述患者牙科计算机断层扫描获得的输入数据确定每颗牙齿的所述期望最终位置，其中所述输入数据表示所有牙齿和整个牙槽突，并且标识所述各个牙齿和所述颌骨，

其中，所述输入数据包括图像数据集或3D数据集以及描绘所述各个牙齿和所述颌的信息，所述图像数据集表示整个计算机断层扫描或多个3D数据集，所述多个3D数据集包括每颗牙齿的3D数据集和针对所述颌骨的3D数据集，并且其中，所确定的所述期望最终位置被用于确定每颗牙齿的期望中间位置的序列，并且所确定的所述中间位置和所确定的所述最终位置被用于创建牙齿和/或矫正器的三维表示。

9.根据权利要求8所述的系统，其中，所述至少一个处理器被配置为：基于所确定的所述期望最终位置来确定每颗牙齿的所述期望中间位置的序列，并且基于所述中间位置和所述最终位置来创建所述矫正器的所述三维表示。

10.根据权利要求9所述的系统，其中，所述至少一个处理器被配置为：确定所述牙齿在每颗牙齿的所述中间位置和所述最终位置中的每一个中的三维表示，以达到基于所述三维表示来制造所述矫正器的目的。

11.根据权利要求10所述的系统，其中，所述至少一个处理器被配置为：进一步基于从口内扫描获得的与牙齿牙冠有关的数据来创建所述牙齿的所述三维表示。

12.根据权利要求8至11中任一项所述的系统，其中，所述至少一个处理器被配置为：‑使用所述深度神经网络来根据从所述患者牙齿计算机断层扫描获得的输入数据确定所述期望最终位置和每颗牙齿的附接类型，其中，所确定的所述中间位置，所确定的所述最终位置和所述附接类型被用于创建所述牙齿和/或所述矫正器的所述三维表示。

13.根据前述权利要求8至11中任一项所述的系统，其中，使用其它深度神经网络从所述计算机断层扫描标识所述各个牙齿和所述颌骨。

训练深度神经网络的系统和确定牙齿的最终位置的系统

技术领域

[0001] 本发明涉及一种用于确定正畸治疗计划的自动化系统。

[0002] 本发明还涉及一种确定正畸治疗计划的自动化方法和一种训练深度神经网络的方法。

[0003] 本发明还涉及一种使得计算机系统能够执行这样的方法的计算机程序产品。

背景技术

[0004] 正畸治疗使得患者的牙齿从初始位置(即，在治疗开始之前的位置)移动到期望位置，以便将牙齿移动到适当的矫正。传统上，使用包括弓丝和金属托槽的牙箍进行正畸治
疗。牙箍需要由正畸医生调整数次。现在，由于其美观和舒适，使用一系列矫正器、即一系列
模板(template)是流行的选择。

[0005] 为了本公开的目的，‘牙齿’是指包括牙冠和牙根的整颗牙齿，‘多颗牙齿’是指由两个或更多颗牙齿组成的任何牙齿集合，而源自单个人的牙齿集合将被称为源自‘齿列’。
齿列可能不一定包含来自个体的牙齿的总集合。此外，‘分类’是指标识观察或样本属于类
别集合中的哪一个。在牙齿分类的情况下，“分类”是指标识单颗牙齿属于哪个类别(或标签
(label))的过程，并且特别指从单个牙列导出用于所有各个牙齿的多个标签的过程。3D数
据集是指任何齿列的任何数字表示，例如填充体的3D体素表示、体中的密度、3D表面网格
等。

[0006] 专利文献US2017/0100212A1公开了一种用于提供动态正畸评估和治疗概况的方法。作为该方法的初始步骤，获取患者的牙冠或口腔组织的模具或扫描。从这样获得的数据
中导出数字数据集，该数字数据集表示每个患者的牙冠(牙根除外)和包围患者牙齿的牙龈
组织的初始排列。每颗牙齿的期望最终位置可以以处方的形式从临床医师接收到，可以根
据基本正畸原则计算或者可以从临床处方在计算上外推。

[0007] 为了确定每个牙冠的分割路径(即，随着时间的推移到中间位置的渐进式移动(incremental movement))，创建原位(in‑place)矫正器的有限元模型，并应用有限元分
析。至该过程的输入包括初始矫正器形状、牙齿在颌中的位置的数字模型和颌组织(即，包
围患者牙齿的牙龈组织)的模型。在该过程的各个阶段，并且特别地在已经定义了分割路径
之后，该过程可以并且通常将就患者的治疗与临床医师进行交互。有利地，客户端过程被编
程以显示位置和路径的动画，并且允许临床医师重置一个或多个牙冠的最终位置，并且指
定要施加到分割路径的约束。牙科数据挖掘系统(例如包括神经网络)被用于确定所确定的
运动是否为正畸可接受的，以及所确定的候选矫正器是否是迄今为止最佳的解决方案。

[0008] 专利文献US 2017/0100212A1中所公开方法的缺点在于，正畸治疗计划通常在治疗期间需要被更新至少一次，并且甚至有可能被更频繁地更新。因此，仍然需要与临床医师
进行定期交互，以使患者的牙齿移动到它们的期望位置。

发明内容

[0009] 本发明的第一目的是提供一种用于确定正畸治疗计划的自动化系统，该系统需要与临床医师进行受限交互或不需要与临床医师进行交互(除了上传和下载数据以外)，并且
该系统可以自动确定其的执行需要与临床医师进行受限交互或不需要与临床医师进行交
互的计划。

[0010] 本发明的第二个目的是提供一种确定正畸治疗计划的自动化方法，该方法需要与临床医师进行受限交互或不需要与临床医师进行交互(除了上传和下载数据以外)，并且该
方法可用于自动确定计划，该计划的执行需要与临床医师进行有限交互或不需要与临床医
师进行交互。

[0011] 在本发明的第一方面中，一种系统包括至少一个处理器，其被配置为获得反映在相应的成功的正畸治疗之前的时刻的多个训练牙科计算机断层扫描，在所述训练牙科计算
机断层扫描中的每一个中标识各个牙齿和颌骨，并且利用从所述多个训练牙科计算机断层
扫描获得的训练输入数据和每个训练牙科计算机断层扫描的训练目标数据来训练深度神
经网络，以根据从患者牙科计算机断层扫描获得的输入数据来确定每颗牙齿的期望最终位
置和可选地附接类型，其中，从训练牙科计算机断层扫描获得的输入训练数据表示所有牙
齿和整个牙槽突(alveolar process)并且标识所述各个牙齿和所述颌骨。

[0012] 训练数据可包括表示如最初由CT扫描机产生的整个计算机断层扫描的图像数据集，连同针对训练牙科计算机断层扫描中的每一个描绘各个牙齿和颌的信息，但是由于足
够精确的体素分辨率的这样的计算机断层扫描非常大，因此替代地优选地包括3D数据，例
如，包括网格、点云或体素(特别地，仅表示相关结构的体素的子集)。训练数据可包括表示
整个计算机断层扫描的单个3D数据集连同针对训练牙科计算机断层扫描中的每一个描绘
各个牙齿和颌的信息。

[0013] 可替代地，训练数据可包括多个3D数据集，例如，一个用于每颗牙齿且一个用于颌骨。在训练3D数据集包括源自实际牙齿的光学扫描的数据的情况下，训练数据将是高度精
确的，而不需要专家对(例如，体素)数据的解释。完整牙齿的3D数据集也可以与例如口内扫
描(也是3D数据集)合并，从而可能产生从口内扫描导出的牙冠区段的更高空间分辨率的3D
数据。所获得的多个训练牙科计算机断层扫描可以包括最初由CT扫描机产生的扫描，或者
可以包括从中创建的3D数据集。所获得的多个训练牙科计算机断层扫描可以被完全包括在
训练数据中。

[0014] 颌包括牙齿和颌骨。颌骨包括牙槽突和基骨。牙槽突包括牙槽和包含这些牙槽的增厚骨脊。牙齿‑牙槽复合体包括牙齿、牙槽突和牙龈，但不包括基骨。从训练牙科计算机断
层扫描获得的训练数据除了可表示除所有牙齿和整个牙槽突之外还可表示牙齿‑牙槽复合
体的其它部分，甚至可以表示整个牙齿‑牙槽复合体。

[0015] 发明人已经认识到专利文献US2017/0100212中所公开的方法没有考虑足够的信息，这可能导致实际上不能实现的每颗牙齿的期望最终位置的确定，并且因此需要与临床
医师进行交互以调整期望最终牙齿位置并且因此调整正畸治疗计划。通过使用(CB)CT数
据、标识各个牙齿(包括牙根)和颌骨(包括外边界)以及使用表示所有牙齿和整个牙齿牙槽
突的训练数据，可以利用3D图像数据和牙齿物理性质对深度神经网络中的相关信息(信息
的推导)进行编码，并且其结果是，可以确定不需要由临床医师调整的期望最终位置。

[0016] 牙齿物理性质可包括例如牙齿和骨壳体(牙齿‑牙槽复合体)的物理状况和约束。物理状况可包括例如牙齿与骨骼之间的接触面积的量。牙齿和骨壳体的性质可以产生牙齿
随时间的最大移动和/或两个体之间的最大重叠量。各个牙齿的标识可以被深度神经网络
用于对如可以从训练数据标识的任何这样的一般和特定于几何形状的信息进行编码。通过
利用来自标识的信息，可能在经训练的网络中对该信息的适用方面进行编码，例如对各个
牙齿进行编码，并且因此将在预测(或推断)阶段期间利用经训练的网络时被采用。

[0017] 每颗牙齿的期望最终位置通常由临床医师确定，但是能够自动地这样做是有益的。在这种情况下，不需要与临床医师进行交互，或者临床医师仅需要进行对所确定的期望
最终位置的简短检查。如果自动确定期望最终位置，但是没有考虑足够的信息，则临床医师
通常将在治疗期间注意到这一点，并且自己确定期望最终位置(即，优先于自动确定的期望
最终位置)。

[0018] 所述至少一个处理器可被配置为使用所述各个牙齿和所述颌骨的所述标识来为所述训练牙科计算机断层扫描中的每一个确定(例如，每颗牙齿的)牙齿物理性质并且便于
在所述深度神经网络中对反映所述牙齿物理性质的信息的编码。通过在深度神经网络的训
练期间纳入考虑牙齿物理性质的知识，问题定义更加完整，并且结果具有变得高度精确和
可行的潜力。可以通过利用取决于所确定的所述牙齿物理性质的损失函数训练所述深度神
经网络而在所述深度神经网络中对所述牙齿物理性质进行编码。

[0019] 从所述训练牙科计算机断层扫描获得的所述训练数据还可以表示所有基骨。于是，牙齿物理性质可包括例如与骨架关系相关的至少一个性质。

[0020] 所述多个训练牙科计算机断层扫描中的一个或多个可以与指示每颗牙齿的所实现的变换的指示符(indicator)和/或指示每颗牙齿的附接类型的指示符相关联，所述变换
包括每颗牙齿的平移和/或旋转(例如，变换矩阵或向量)，并且所述指示符被包括在所述训
练目标数据中。这些指示符是有利的训练目标。指示每颗牙齿的所实现的变换的指示符允
许深度神经网络确定针对患者牙科计算机断层扫描的每颗牙齿的变换，并且允许基于该所
确定的变换来确定每颗牙齿的期望最终位置。将指示变换的指示符应用于从成功的正畸治
疗之前的牙科计算机断层扫描获得的数据通常会导致从成功的正畸治疗之后的牙科计算
机断层扫描获得的数据。指示每颗牙齿的附接类型的指示符允许深度神经网络确定针对患
者牙科计算机断层扫描的每颗牙齿的适用的附接类型，其可以额外地被用于创建矫正器的
三维模型。

[0021] 反映在相应的成功的正畸治疗之前的时刻的所述多个训练牙科计算机断层扫描中的一个或多个中的每一个可以与从另外的训练牙科计算机断层扫描获得的数据相关联，
所述另外的训练牙科计算机断层扫描反映在相应的成功的正畸治疗之后的时刻并且被包
括在所述训练目标数据中。代替指示变换的指示符，可以将正畸治疗之前的患者牙齿CT扫
描和正畸治疗之后的患者牙齿CT扫描包括在训练数据中，以例如允许系统自动确定变换。

[0022] 所述至少一个处理器可被配置为通过变换从所述另外的训练牙科计算机断层扫描中的一个得到的数据来获得所述一个或多个训练牙科计算机断层扫描中的至少一个。这
可以被用于纯粹基于‘正确的’齿列来自动生成训练数据。这些‘正确的’齿列不一定是正畸
治疗的结果，而是可以属于天生具有‘正确的’齿列的人。甚至可以在正畸治疗之后没有数
据/CT扫描的情况下训练深度神经网络。

[0023] 在本发明的第二方面中，一种系统包括至少一个处理器，其被配置为获得患者牙科计算机断层扫描，在所述患者牙科计算机断层扫描中标识各个牙齿和颌骨，并且使用所
述深度神经网络根据从所述患者牙科计算机断层扫描获得的输入数据来确定每颗牙齿的
期望最终位置和可选地附接类型，其中，所述输入数据表示所有牙齿和整个牙槽突并且标
识所述各个牙齿和所述颌骨。所述所确定的期望最终位置被用于确定每颗牙齿的期望中间
位置的序列，并且所确定的所述中间位置和所确定的所述最终位置以及可选地附接类型被
用于创建牙齿和/或矫正器的三维表示。

[0024] 例如，三维表示可包括体素、网格或点云。例如，三维表示可以以STL或VRML格式存储为3D模型。矫正器的三维表示可以被3D打印机用来打印矫正器或者打印中间结构，可以
由该中间结构来创建矫正器。

[0025] 输入数据可包括表示如最初由CT扫描机产生的整个计算机断层扫描的图像数据集，连同描绘各个牙齿和颌的信息，但是由于足够精确的体素分辨率的这样的计算机断层
扫描非常大，因此替代地优选地包括3D数据，例如，包括网格、点云或体素(特别地，仅表示
相关结构的体素的子集)。输入数据可包括表示整个计算机断层扫描的单个3D数据集，连同
描绘各个牙齿和颌的信息。可替代地，输入数据可包括多个3D数据集，例如，一个用于每颗
牙齿且一个用于颌骨。所获得的患者牙科计算机断层扫描可包括最初由CT扫描机产生的扫
描，或者可包括从中创建的3D模型。所获得的患者牙科计算机断层扫描可以被完全包括在
输入数据中。

[0026] 所述至少一个处理器可被配置为基于所确定的所述期望最终位置确定每颗牙齿的所述期望中间位置的序列，并且基于所确定的所述每颗牙齿的中间位置和最终位置以及
可选地附接类型，创建所述矫正器的所述三维表示或创建中间三维表示以达到制造所述矫
正器的目的。例如，用于这种目的中间模型可以例如表示牙齿和/或在中间位置或最终位置
的额外3D体，诸如牙龈、附接物，其可以被3D打印并用作用于例如借助真空成型创建矫正器
的负模板。可替代地，每颗牙齿的所述期望中间位置的序列和所述矫正器的所述三维表示
或所述中间三维表示可以由不同的系统确定。

[0027] 所述至少一个处理器可被配置为确定所述牙齿在所述中间位置和最终位置的每一个中的三维表示，并且可选地确定每颗牙齿的所述附接类型的三维表示，并且基于所述
牙齿在所述中间位置和最终位置的每一个中的所述三维表示来创建所述矫正器的所述三
维表示或者创建用于创建这种矫正器的中间三维表示。例如，牙齿的三维表示可包括体素、
网格或点云。例如，可以通过利用表示牙齿的体的逆(inverse)来创建矫正器的三维表示。

[0028] 所述至少一个处理器可被配置为进一步基于从口内扫描获得的关于牙齿牙冠的数据来创建所述牙齿的所述三维表示。所述至少一个处理器可被配置为创建从口内扫描获
得的关于牙齿牙冠的数据在从所述患者牙科计算机断层扫描获得的数据上的叠加，并且将
所述叠加包括在所述输入数据中。由于口内扫描通常具有比计算机断层扫描更高的空间分
辨率，因此这是有益的。当设计矫正器时，口内扫描的更高分辨率是有利的。

[0029] 可以使用一个或多个另外的深度神经网络从所述计算机断层扫描来标识所述各个牙齿和所述颌骨。深度神经网络允许以适当的精度来标识各个牙齿和颌骨。例如，第一另
外的深度神经网络可被用于将(CB)CT扫描或口内扫描分割为各个牙齿(的部分)的表示，并
且第二另外的深度神经网络可被用于为分割的牙齿确定标签。

[0030] 在本发明的第三方面中，一种训练深度神经网络的方法包括获得反映在相应的成功的正畸治疗之前的时刻的多个训练牙科计算机断层扫描，在所述训练牙科计算机断层扫
描中的每一个中标识各个牙齿和颌骨，并且利用从所述多个训练牙科计算机断层扫描获得
的训练输入数据和每个训练牙科计算机断层扫描的训练目标数据来训练深度神经网络，以
根据从患者牙科计算机断层扫描获得的输入数据来确定每颗牙齿的期望最终位置和可选
地附接类型，其中，从训练牙科计算机断层扫描获得的训练输入数据表示所有牙齿和整个
牙槽突并且标识所述各个牙齿和所述颌骨。

[0031] 在本发明的第四方面中，一种确定正畸治疗计划的方法包括获得患者牙科计算机断层扫描，在所述患者牙科计算机断层扫描中标识各个牙齿和颌骨，并且使用利用所述训
练深度神经网络的方法而训练的深度神经网络根据从所述患者牙科计算机断层扫描获得
的输入数据来确定每颗牙齿的期望最终位置和可选地附接类型，其中，所述输入数据表示
所有牙齿和整个牙槽突并且标识所述各个牙齿和所述颌骨。所确定的所述期望最终位置被
用于确定每颗牙齿的期望中间位置的序列，并且所确定的所述中间位置和所确定的所述最
终位置以及可选地附接类型被用于创建牙齿和/或矫正器的三维表示或用于创建这种矫正
器的结构的中间三维表示。

[0032] 此外，提供了一种用于执行本文所述的方法的计算机程序，以及一种存储计算机程序的非暂时性计算机可读存储介质。计算机程序可以例如由现有装置下载或上传到现有
装置，或者在制造这些系统时被存储。

[0033] 一种非暂时性计算机可读存储介质至少存储第一软件代码部分，该第一软件代码部分在由计算机执行或处理时被配置为进行可执行的操作，其包括：获得反映在相应的成
功的正畸治疗之前的时刻的多个训练牙科计算机断层扫描，在所述训练牙科计算机断层扫
描中的每一个中标识各个牙齿和颌骨，并且利用从所述多个训练牙科计算机断层扫描获得
的训练输入数据和每个训练牙科计算机断层扫描的训练目标数据来训练深度神经网络，以
根据从患者牙科计算机断层扫描获得的输入数据来确定每颗牙齿的期望最终位置和可选
地附接类型，其中，从训练牙科计算机断层扫描获得的训练输入数据表示所有牙齿和整个
牙槽突并且标识所述各个牙齿和所述颌骨。

[0034] 一种非暂时性计算机可读存储介质至少存储第二软件代码部分，该第二软件代码部分在由计算机执行或处理时被配置为进行可执行的操作，其包括：获得患者牙科计算机
断层扫描，在所述患者牙科计算机断层扫描中标识各个牙齿和颌骨，并且使用利用所述训
练深度神经网络的方法而训练的深度神经网络根据从所述患者牙科计算机断层扫描获得
的输入数据确定每颗牙齿的期望最终位置和可选地附接类型，其中，所述输入数据表示所
有牙齿和整个牙槽突并且标识所述各个牙齿和所述颌骨。所确定的所述期望最终位置被用
于确定每颗牙齿的期望中间位置的序列，并且所确定的所述中间位置和所确定的所述最终
位置以及可选地附接类型被用于创建牙齿和/或矫正器的三维表示或用于创建这种矫正器
的结构的中间三维表示。

[0035] 如本领域技术人员将理解的，本发明的各个方面可以被实施为装置、方法或计算机程序产品。因此，本发明的各个方面可以采取完全硬件实施例、完全软件实施例(包括固
件、常驻软件、微代码等)或结合软件方面和硬件方面的实施例的形式，这些方面在本文中
通常都可以称为“电路”、“模块”或“系统”。在本公开中描述的功能可被实施为由计算机的
处理器/微处理器执行的算法。此外，本发明的各个方面可以采取在一个或多个计算机可读
介质中实施的计算机程序产品的形式，该(这些)计算机可读介质具有在其上实施(例如，存
储)的计算机可读程序代码。

[0036] 可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁
性、光学、电磁、红外或半导体系统、设备或装置，或前述的任何合适的组合。计算机可读存
储介质的更具体示例可包括但不限于以下内容：具有一根或多根电线的电连接、便携式计
算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM
或快闪存储器)、光纤、便携式光盘只读存储器(CD‑ROM)、光学存储装置、磁存储装置，或前
述的任何合适的组合。在本发明的上下文中，计算机可读存储介质可以是任何有形介质，其
可以包含或存储供指令执行系统、设备或装置使用或与其结合使用的程序。

[0037] 计算机可读信号介质可包括例如在基带中或作为载波的一部分的传播的数据信号，该数据信号具有在其中体现的计算机可读程序代码。这种传播信号可以采取多种形式
中的任何一种，包括但不限于电磁、光学或其任何合适的组合。计算机可读信号介质可以是
任何计算机可读介质(其不是计算机可读存储介质)，并且可以传输、传播或运输供指令执
行系统、设备或装置使用或与其结合使用的程序。

[0038] 可以使用任何适当的介质来传输体现在计算机可读介质上的程序代码，所述适当的介质包括但不限于无线、有线、光纤、电缆、RF等，或者前述的任何合适的组合。可以用一
种或多种编程语言的任何组合来编写用于执行本发明各个方面的操作的计算机程序代码，
所述一种或多种编程语言包括诸如Python、Java(TM)、Smalltalk、C++等的面向对象的编程
语言，以及诸如“C”编程语言或类似编程语言的常规的过程编程语言。程序代码可以完全在
用户计算机上、部分在用户计算机上、作为独立软件包、部分在用户计算机上且部分在远程
计算机上，或者完全在远程计算机或服务器上执行。在后一种情形下，远程计算机可以通过
任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者可以与外部计
算机建立连接(例如，通过使用互联网服务提供商的互联网)。

[0039] 下面参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图示和/或框图来描述本发明的各个方面。将理解的是，流程图图示和/或框图的每个方框以及
流程图图示和/或框图中的方框的组合可以由计算机程序指令来实施。可以将这些计算机
程序指令提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器、特别是微
处理器或中央处理单元(CPU)或图形处理单元(GPU)，以产生机器，使得经由计算机、其它可
编程数据处理设备或其它装置的处理器执行的指令创建用于实施流程图和/或框图的一个
或多个方框中指定的功能/动作的手段。

[0040] 这些计算机程序指令还可以存储在计算机可读介质中，该计算机可读介质可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行，使得存储在计算机可读
介质中的指令产生制品，该制品包括实施流程图和/或框图的一个或多个方框中指定的功
能/动作的指令。

[0041] 也可将计算机程序指令加载到计算机、其它可编程数据处理设备或其它装置上，以使一系列操作步骤在计算机、其它可编程设备或其它装置上执行以产生计算机实施的过
程，使得在计算机或其它可编程设备上执行的指令提供用于实施流程图和/或框图的一个
或多个方框中指定的功能/动作的过程。

[0042] 附图中的流程图和框图示出了根据本发明的各种实施例的装置、方法和计算机程序产品的可能实施的架构、功能和操作。就这一点而言，流程图或框图中的每个方框可以表
示代码的模块、片段或部分，其包括用于实施(一个或多个)指定逻辑功能的一个或多个可
执行指令。还应该注意，在一些替代实施中，方框中指出的功能可以不按附图中指出的顺序
发生。例如，取决于所涉及的功能，实际上可以基本上同时执行连续示出的两个方框，或者
有时可以以相反的顺序执行这些方框。还应该注意，框图和/或流程图图示的每个方框以及
框图和/或流程图图示中的方框的组合可以由执行指定功能或动作的基于专用硬件的系统
或专用硬件和计算机指令的组合来实施。

附图说明

[0043] 参照附图，本发明的这些和其它方面将通过示例变得显而易见并且被进一步阐明，其中：

[0044] ·图1示出了本发明的训练深度神经网络的方法的第一实施例的流程图；

[0045] ·图2示出了本发明的确定正畸治疗计划的方法的第一实施例的流程图；

[0046] ·图3为本发明的系统的第一实施例的框图；

[0047] ·图4为本发明的系统的第二实施例的框图；

[0048] ·图5示出了本发明的训练深度神经网络的方法的第二实施例的流程图；

[0049] ·图6示出了本发明的确定正畸治疗计划的方法的第二实施例的流程图；

[0050] ·图7示出了图5的训练最终位置深度神经网络的步骤的实施例；

[0051] ·图8示出了确定图6的最终牙齿位置的步骤的实施例；

[0052] ·图9示出了用于确定图7和图8的最终牙齿位置的深度神经网络的架构的实施例；

[0053] ·图10示出了图6的路径确定步骤的实施例；

[0054] ·图11示出了图6的自动化正畸治疗计划步骤的实施例；

[0055] ·图12示出了根据本发明的各种实施例的计算机渲染(呈现)，其使针对具体情况的自动化矫正器设计所产生的结果可视化；

[0056] ·图13示出了训练图5和图6的分割深度神经网络的方法的实施例的流程图；

[0057] ·图14和图15描绘了用于图5和图6的分割深度神经网络的3D深度神经网络的示例；

[0058] ·图16示出了图5和图6的分割处理步骤的实施例的流程图；

[0059] ·图17示出了训练图5和图6的分类深度神经网络的方法的实施例的流程图；

[0060] ·图18描绘了用于图5和图6的分类深度神经网络的3D深度神经网络架构的示例；

[0061] ·图19示出了训练正则(canonical)姿势深度神经网络的方法的实施例的流程图；

[0062] ·图20示出了图5和图6的矫正步骤的实施例的流程图；

[0063] ·图21至23描绘了执行图20的方法的示意图；

[0064] ·图24示出了由图20的方法所采用的训练和预测数据；

[0065] ·图25描绘了用于图20的正则姿势深度神经网络的3D深度神经网络架构的示例；

[0066] ·图26示出了由图20的方法生成的关键点(key points)的示例；

[0067] ·图27为用于进行本发明的方法的示例性数据处理系统的框图；以及·图28示出了根据本发明的各种实施例的正畸治疗计划的结果的可视化。

[0068] 附图中的相应元件由相同的附图标记表示。

具体实施方式

[0069] 图1示出了本发明的训练深度神经网络的方法的第一实施例。步骤101包括获得反映在相应的成功的正畸治疗之前的时刻的多个训练牙科计算机断层扫描111。例如，训练牙
科计算机断层扫描111可以是最初由(CB)CT扫描仪产生的扫描或从其导出的体素表示。步
骤103包括在训练牙科计算机断层扫描111中的每一个中标识各个牙齿和颌骨。该标识被包
括在训练输入数据113中。该训练输入数据113还包括表示所有牙齿和整个牙槽突的数据，
该数据可以是训练牙科计算机断层扫描111、其部分或从其导出的3D数据集。步骤105包括
利用每个CT扫描的训练数据113和目标训练数据115来训练深度神经网络。

[0070] 图2示出了确定正畸治疗计划的方法的第一实施例。步骤203包括获得患者牙科计算机断层扫描223。例如，患者牙科计算机断层扫描223可以是最初由(CB)CT扫描仪产生的
扫描或从其导出的体素表示。步骤205包括在患者牙科计算机断层扫描中标识各个牙齿和
颌骨。该标识被包括在输入数据225中。该输入数据225还包括表示所有牙齿和整个牙槽突
的数据，该数据可以是患者牙科计算机断层扫描223、其部分或从其导出的一个或多个3D数
据集。

[0071] 步骤207包括使用利用图1的方法训练的深度神经网络来从输入数据225确定每颗牙齿的期望最终位置，以产生所确定的最终牙齿位置227。如果另一算法也被用来确定期望
最终牙齿位置，则可以利用本发明的方法来验证该算法的输出。可以将所确定的最终牙齿
位置227与通过在深度神经网络内部或外部的该另一算法确定的最终牙齿位置进行比较。
在前一种情况下，深度神经网络可以指示两组最终牙齿位置是否足够相似，即，是否已经验
证了作为输入而提供给深度神经网络的、由另一算法确定的最终牙齿位置。所确定的每颗
牙齿的期望最终位置227被用于确定每颗牙齿的期望中间位置的序列229，并且由此确定每
颗牙齿的路径。所确定的中间位置229和所确定的最终位置227被用于创建牙齿和/或矫正
器231的三维表示。在路径确定步骤209中确定中间位置229。在步骤211中确定包括牙齿和/
或矫正器231的三维表示的正畸治疗计划。如果正畸治疗计划仅包括牙齿的三维表示，则这
些可以被用于基于牙齿的三维表示将矫正器真空成型到3D打印的结构上。可替换地，例如，
正畸治疗计划可以包括可3D打印的文件，其包括矫正器的三维表示，随后可以使用例如3D
打印机或诸如铣削、切割等其它制造技术来创建该三维表示。

[0072] 最终牙齿位置227和中间牙齿位置229可以被表示为例如参考牙齿在输入数据中表示的对应起始牙齿位置处的重力的中心(即重心)的向量(vector)，或者表示为牙齿在最
终牙齿位置227和/或中间牙齿位置229处的3D表示。例如，这些3D表示可以包括网格、体素
或点云。网格可以被转换成点云。在步骤211中确定的牙齿和/或矫正器231的三维表示进一
步基于与从在步骤201中获得的患者口内扫描221获得的牙齿牙冠相关的数据。在被用于步
骤211中之前，与从患者口内扫描221获得的牙齿牙冠相关的该数据已经优选地自动地与从
患者CT扫描223获得的数据在空间上对准(叠加)。它还优选地被自动分割为各个牙齿牙冠
和牙龈组织表面。例如，患者口内扫描221可以是最初由口内扫描仪产生的扫描或从中导出
的3D数据集。

[0073] 图3示出了本发明的系统的第一实施例。在该第一实施例中，存在训练系统301和单独的执行系统305。训练系统301包括至少一个处理器，其被配置为获得反映在相应的成
功的正畸治疗之前的时刻的多个训练牙科计算机断层扫描，在训练牙科计算机断层扫描中
的每一个中标识各个牙齿和颌骨，并且利用从多个训练牙科计算机断层扫描获得的训练输
入数据和每个训练牙科计算机断层扫描的训练目标数据来训练深度神经网络，以根据从患
者牙科计算机断层扫描获得的输入数据来确定每颗牙齿的期望最终位置。从训练牙科计算
机断层扫描获得的训练输入数据表示所有牙齿和整个牙槽突并且标识各个牙齿和颌骨。

[0074] 执行系统305包括至少一个处理器，其被配置为获得患者牙科计算机断层扫描，在患者牙科计算机断层扫描中标识各个多颗牙齿和颌骨，并且使用在训练系统301上训练的
深度神经网络根据从患者牙科计算机断层扫描获得的输入数据来确定每颗牙齿的期望最
终位置。输入数据表示所有牙齿和整个牙槽突，并且标识各个多颗牙齿和颌骨。所确定的期
望最终位置被用于确定每颗牙齿的期望中间位置的序列，并且所确定的中间位置和最终位
置被用于创建矫正器的三维表示。经训练的深度神经网络被从训练系统301传递到执行(推
断)系统305。

[0075] 图4示出了本发明的系统的第二实施例。在该第二实施例中，在同一系统(即服务器401)上执行深度神经网络的训练和深度神经网络的执行。形成深度神经网络的数据被存
储在存储装置403上。三个客户端装置405、407和409经由互联网411与服务器401进行通信。
三个客户端装置405‑409中的每一个可以被配置为能够训练深度神经网络，以执行深度神
经网络和相关的软件(以便确定最终牙齿位置并且优选地确定正畸治疗计划)，或两者。在
图4的实施例中，存在三个客户端装置。在替代实施例中，可以存在多于或少于三个客户端
装置。

[0076] 图5示出了本发明的训练深度神经网络的方法的第二实施例。步骤501与图1的步骤101有些类似，在步骤501中，获得训练数据。该训练数据包括已经治疗的患者的在其正畸
治疗之前的CBCT扫描531和口内扫描533。这些扫描可以是最初由CBCT扫描仪和口内扫描仪
(IOS)分别产生的扫描，或者是从中导出的3D数据集。CBCT扫描531表示不同人的牙齿‑颌面
复合体，并且至少表示这些人的牙齿和整个牙槽突。CBCT扫描531可进一步表示所有基骨。

[0077] 训练数据还包括数据555，其包括指示每颗牙齿的所实现的变换(例如，每颗牙齿的旋转和/或平移)的指示符，以及指示每颗牙齿的所使用的附接类型的指示符。在替代实
施例中，代替包括指示每颗牙齿的所实现的变换的指示符，可以提供在正畸治疗之前和之
后二者的CBCT扫描和/或IOS扫描作为训练数据，以允许最终位置深度神经网络自动地确定
每颗牙齿的所实现的变换。附接类型指示符可以指示多个(例如，八个)可能的附接类型中
的一个。(附接类型中的每一个可以与附接的3D模型相对应)。例如，附接是圆形形状的、矩
形形状的3D结构，该3D结构被用于在牙齿上施加额外的生物力学压力。通过提供附接类型，
它可以隐含地与最终位置深度神经网络中的移动相关联。注意，可以利用‘无附接’的附接
类型指示。

[0078] 在该实施例中，将CBCT扫描531被提供给经训练的深度神经网络用以分割，其在步骤503中使用，并且IOS扫描533在步骤505中被分割。这可以例如通过如Wu K等人在“Tooth
segmentation on dental meshes using morphologic skeleton”，Elsevier Computers&
Graphics 38(2014)199–211中所述的本领域中已知的技术或通过经训练的神经网络来进
行。用于分割的深度神经网络能够对CBCT扫描(例如，由体素表示)进行分割，并且在步骤
507中处理从步骤503得到的分割数据535。在步骤505中对可由网格表示的IOS扫描进行分
割，并且在步骤507中也对从该步骤505得到的分割数据537进行处理，但是是分开进行的。

[0079] 步骤503‑507与图1的步骤103有些类似，但是不仅仅在CBCT扫描和IOS扫描中标识各个牙齿和颌骨，而且将它们分离成单独的感兴趣数据(DOI)。从CBCT扫描531中确定的每
颗牙齿的DOI被作为数据539提供给经训练的牙齿分类神经网络。在步骤513中，将从CBCT扫
描531和从IOS扫描533确定的每颗牙齿的DOI与表示从CBCT扫描531和IOS扫描533(数据
545)确定的颌骨的DOI对准。

[0080] 步骤507还包括根据(从CBCT扫描531获得的)分割的数据535确定每颗牙齿的重心(COG)543。在步骤511中，一起使用这些COG连同从牙齿分类神经网络接收到的针对每颗牙
齿的标签的预测541。在步骤509中，牙齿分类神经网络已基于数据539确定该预测541。步骤
511包括部分利用COG 543处理牙齿分类、即预测541。所得到的牙齿标签547被用于将从
CBCT扫描531获得的数据集与从IOS扫描533获得的数据集对准。针对每个CBCT扫描执行步
骤507‑511。随后，在步骤514中融合数据集，例如，通过Hong‑Tzong Yau等人在“Tooth
model reconstruction based upon data fusion for orthodontic treatment
simulation”，Elsevier Computers in Biology and Medicine 48(2014)8‑16中所述的方
法。在步骤515和517中使用包括这些数据集加上在步骤511中确定的牙齿标签的融合的数
据549。

[0081] 在步骤515中，融合的每颗牙齿的DOI和针对颌骨的DOI(即，数据549)被用于确定每个训练牙科计算机断层扫描531的牙齿物理性质553，并且在步骤517中在最终位置深度
神经网络中对这些牙齿物理性质553进行编码。例如，牙齿物理性质553可以包括牙齿和骨
壳体(牙齿‑牙槽复合体)的物理状况和约束。在步骤517中，使用训练数据来训练最终(牙
齿)位置深度神经网络，对于每对CBCT扫描和IOS扫描，该训练数据包括数据549(牙齿标签、
融合的每颗牙齿的DOI和针对颌骨的DOI)、牙齿物理性质553和数据555(指示每颗牙齿的所
实现的变换的指示符(该指示符在该实施例中是向量)，以及指示每颗牙齿的所使用的附接
类型的指示符)。步骤517与图1的步骤105有些类似。

[0082] 在这种训练期间，可以采用损失函数作为要被最小化的度量(measure)。该优化工作可以通过利用优化器(诸如SGD、Adam等)进行辅助。损失函数计算期望输出(作为训练目
标)与预测输出(在训练期间时间上的具体时刻)之间的误差。调整神经网络的内部参数以
使该误差最小化。存在各种公知的损失函数，每个损失函数或多或少地适于不同的问题(例
如，用于分类的分类交叉熵、用于回归的平均绝对值或平方误差、用于分割的Dice损失等)。

[0083] 模型及其训练的各个方面受到损失函数的选择的影响，诸如达到期望精度的训练的潜在持续时间、对训练样本的种类的要求、潜在的可实现的精度等。在最终位置深度神经
网络的上下文中，在训练期间可以利用具体损失函数。在实施例的情况下，虽然神经网络可
以例如使用基于预测的和期望的向量的均方误差损失而进行优化，但是对于该问题更具体
的损失函数可以利用基于输入数据而确定的和/或已知普遍适用的牙齿物理性质。

[0084] 虽然例如利用均方误差损失函数并不排除在考虑在神经网络的内部参数内编码的牙齿物理性质的情况下导出相关信息(只要这些可以潜在地从所供应的输入数据导出)，
但是这样的自定义损失函数可以创建更适用的总误差度量。通过例如(成比例地)采用测量
牙齿与颌之间的期望表面接触量之间的差的量的误差的分量，和/或在牙齿可能被放置在
骨壳体外部的情况下误差的适当增加，和/或在牙齿可能在它们各自的体之间具有重叠的
情况下误差的适当增加等，神经网络可以被更具体地训练以导出考虑这些性质的相关信
息，以在输入数据中给定信息的情况下尽可能具体地对该导出进行有效地编码。

[0085] 图6示出了确定正畸治疗计划的方法的第二实施例。步骤601与图2的步骤201和203有些类似。在步骤601中，获得输入数据。该输入数据涉及需要正畸治疗的牙齿咬合不正
的患者，并且包括CBCT扫描631和口内扫描633。这些扫描可以是分别由CBCT扫描机和口内
扫描机(IOS)产生的原始扫描，或者是从其导出的3D数据集。CBCT扫描631表示患者的牙齿‑
颌面复合体，并且至少表示该患者的牙齿和整个牙槽突。CBCT扫描631可以进一步表示所有
基骨。

[0086] 在图6的方法中也执行在图5的方法中进行的相同步骤503至514，但是现在是针对(与仍要被治疗的患者相关的)输入数据而不是针对(已经被治疗的多个人的)训练数据。该
差异也反映在数据631‑649中，其类似于图5的数据531‑549。步骤503‑507与图2的步骤205
有些类似。

[0087] 在图6的方法中存在三个新步骤。步骤617包括使用利用图5的方法训练的深度神经网络来确定最终牙齿位置。步骤619包括确定路径，即中间牙齿位置663。步骤621包括确
定正畸治疗计划。步骤617与图2的步骤207有些类似。步骤619与图2的步骤209有些类似。步
骤619与图2的步骤211有些类似。

[0088] 在步骤617中，基于数据649来确定最终牙齿位置，该数据包括牙齿标签、融合的每颗牙齿的DOI和融合的针对颌骨的DOI。执行步骤617产生最终牙齿位置659和每颗牙齿的附
接类型661。在步骤619中使用最终牙齿位置659，例如，参照在DOI中反映的牙齿在其初始位
置处的COG的变换向量。在步骤619中，使用最终牙齿位置659连同牙齿标签657和初始牙齿
位置658来确定中间牙齿位置663(其在本实施例中为3D模型，例如，网格)。牙齿标签657和
初始牙齿位置658与融合数据集相关，以确保初始牙齿位置、最终牙齿位置和牙齿标签指的
是同一牙齿/DOI。在步骤621中使用中间牙齿位置663。

[0089] 步骤621包括自动确定正畸治疗计划，其包括矫正器的3D模型或用于创建这种矫正器的3D结构。基于数据651、最终牙齿位置659、每颗牙齿的附接类型661以及中间牙齿位
置663来确定正畸治疗计划。数据651与数据649相同，但没有针对颌骨的DOI。

[0090] 图7示出了图5的步骤517的实施例。步骤517包括训练最终(牙齿)位置深度神经网络703。在步骤517中使用的数据包括数据549、数据555和牙齿物理性质553，如在图5中所描
绘的那样。数据555(其包括每颗牙齿所使用的附接类型和每颗牙齿所实现的变换)以及牙
齿物理性质553被包括在用于深度神经网络703的训练数据中。数据549包括每颗牙齿的DOI
和针对颌骨的DOI。

[0091] 如果数据549包括体素表示，则该体素表示可以被转换成表面网格(例如，借助移动立方体算法和诸如3D网格平滑的后处理)，并且随后在步骤701中被转换成(一个或多个)
点云(例如，通过在限定这种面的平均点的位置处创建每个所限定面的代表性3D点)。

[0092] 表面网格数据格式固有地描述了处于3D的体的描绘表面，并且因此不存储来自这样的体内的任何数据。此外，与例如体素表示相比，所描述的数据点不需要被放置在例如预
定分辨率的预定网格上。这使得表面网格格式对于描述结构来说更加精确，例如，在给定相
同的所存储的数据量的情况下。这种精度有益于解决确定最终牙齿位置的问题。以表面网
格数据描述的面可以由(一个或多个)点云精确地表示，例如，通过为每个适用的面生成适
当的3D点。这种到(多个)点云的转换去除了表面网格限定中的冗余，并使3D数据更适用于
由某些类型的深度神经网络来处理。

[0093] 训练数据549和555可以源自现有的治疗结果或计划。可替代地，训练数据549和555可以从表示不具有咬合不正的齿列的数据中生成。系统组件可以以下面这样的方式处
理该接收到的数据，即通过将各个牙齿随机地移位使其在可行边界条件内来模拟牙齿咬合
不正。这种边界条件可以考虑碰撞、最大可能的变换等。此外，可以生成适当的附接和牙齿
物理性质。随机生成的变换表示要由最终牙齿位置深度神经网络预测的目标变换。这种组
件将有效地生成在网络的训练期间要被利用的绝大多数样本。

[0094] 图8示出了图6的步骤617的实施例。在步骤617中使用的数据包括在图6中描绘的数据649。数据649包括被表示为网格的每颗牙齿的DOI和针对颌骨的DOI以及牙齿标签。这
些网格在步骤701中首先被转换成点云，随后被包括在深度神经网络703的输入数据中。深
度神经网络703的执行引起预测的(牙齿)变换801的输出。在步骤803中，该预测的变换801
被用于确定最终(牙齿)位置659。深度神经网络703的执行还引起每颗牙齿661的附接类型
的输出。

[0095] 从如关于图8所述的实施例得到的输出可以用作非自动化系统中的度量(或得分)，以用于确定正畸治疗计划。在临床医师可能更喜欢手动地而不是全自动地确定最终位
置的情况下，这种得分可以用作反馈。可将反馈给予临床医师，该临床医师在例如用于正畸
治疗计划的软件包内进行齿列的牙齿的手动定位。在这样的手动定位期间的时间上的任何
时刻，可以生成要被馈送到神经网络中的适当的输入，并且可以使用每颗牙齿的预测的变
换和/或附接类型来计算整个齿列的咬合的‘正确性’的一般得分和/或各个牙齿的放置/附
接的‘正确性’的得分。可替代地，可以利用网络从这种软件包可接收的输入情况一次生成
最终位置，并且可以计算被手动定位的情况与单个预测最终位置之间的差异，以用于生成
这样的得分。在替代实施例中，神经网络703直接输出得分。

[0096] 图9描绘了示例性的最终位置深度神经网络。由于对3D点云数据进行处理的益处，可以利用适于处理这样的输入的网络架构。已知合适的架构类型包括PointNet及对其的改
进(诸如PointNet++)、几何深度学习方法(诸如图形卷积神经网络、以及最近的动态图形卷
积神经网络和全卷积点网络)。这种架构的组件部分地重叠且部分不同，其中不同的部分主
要应用于空间上下文(spatial context)的可被处理以用于对与要解决的问题相关的信息
进行编码的范围。这种网络架构通常被用于进行3D点云分类、分割和/或部分分割。回归问
题也被例示为可由这样的架构解决。

[0097] 在实施例中，用于这种最终位置神经网络的训练目标(因此要被预测的值)可以由表示每颗牙齿的变换的数值来组成。这样的值可以表示用于抵消如在输入数据中可能存在
的咬合不正所需的平移和旋转。训练目标的附加集合可以是要对每颗牙齿使用的附接类型
的分类。这种分类可包括表示‘无附接’的类别。

[0098] 输入数据可以由点云组成，它们被限定在至少3个维度中，这3个维度表示3D空间中的坐标。可以包括额外的维度，例如，对表示点属于所标识的结构的哪一部分的值进行编
码的第四维度。在替代实施例中，将每个所标识的结构的3D点云作为单独的输入提供给最
终位置3D深度神经网络的输入。

[0099] 在替代实施例中，例如，在诸如处理功率、可用存储器等的可用计算方面有限的情况下，用于训练和推断两者的数据可以被预先选择以集中于仅一颗牙齿及其周围的空间上
下文。给定足够大的所供应的上下文，可以以这样的方式为各个牙齿生成期望的变换和/或
附接类型，从而有效地训练‘个体牙齿最终位置神经网络’。虽然可以料想到两个牙弓的期
望咬合(对准)是需要所有空间上下文作为输入的问题，但是在给定足够大的训练样本集合
的情况下，可以实现以下概括，尽管需要对每颗各个牙齿进行推断，但可以解决两个完整牙
弓的正确咬合。

[0100] 在图9的示例性实施例中，数据902包括数据906、908和910，其中906被用于采用经训练的神经网络904来执行推断，并且可能需要906、908和910的匹配集合以训练神经网络
904。对在步骤912处导出的(多个)点云914进行预测。预测928可以由每颗牙齿的期望变换
和附接类型组成。数据906在用于训练时与图5的数据549相对应，而在用于推断时与图6的
数据649相对应。牙齿物理性质910与图5的牙齿物理性质553相对应。神经网络904与图7和
图8的神经网络703相对应。

[0101] 可以利用损失函数930实现对神经网络的内部参数的优化，该损失函数930考虑实际要预测的变换和附接类型908以及牙齿物理性质910和预测928。注意，‘无附接’可以是附
接的类别。

[0102] 这种神经网络可以采用在输入数据中进行空间变换916的组件，如可以在PointNets中找到的。利用该空间变换来确保相对于所呈现的点云的排序的不变性(排列不
变性)。

[0103] 由Wang等人在“Dynamic graph CNN for learning on point cloud”(arXiv：1801.07829[cs.CV])中提出的EdgeConv(边卷积)组件918、920具有捕捉局部几何特征的潜
力。这样的组件进行基于图形的操作以导出有用信息，并且动态图形更新引起每个添加的
EdgeConv层的不同的图形定义。可以采用在正被处理的点的子集上的最大池化组件922和
连续池化924来聚集相关特征的全局集合，随后是旨在编码用于生成预测930的其它所需逻
辑的多层感知器(MLP)组件926。

[0104] 可替代地，这种神经网络可利用由Li等人在发表在第32届International Conference on Neural Information Processing Systems的NIPS’18会议记录中的第
828‑838页的“PointCNN：Convolution Onχ‑Transformed Points”中提出的一个或多个χ‑
Conv操作符，并且这种神经网络因此可以利用χ‑变换的特征。

[0105] 在标题为“Automated semantic segmentation of non‑Euclidean 3D data sets using deep learning”的欧洲专利申请no.18213246.4和标题为“Object detection
and instance segmentation of 3D point clouds based on deep learning”的欧洲专
利申请no.19186357.0中也公开了用于对点云数据(特别是IOS数据)进行分割的方法和系
统，其通过引用合并在本申请中。

[0106] 应该注意，这仅为示例性的实施例，并且层的数量、这些层的排序、节点/滤波器的数量等可以改变。所述组件可以由本领域中已知的子组件组成，诸如最大池化层、卷积层、
级联层等。

[0107] 图10示出了图6的步骤619(路径确定)的实施例。在该步骤619中使用牙齿标签657、初始(牙齿)位置658和最终(牙齿)位置659。步骤619包括子步骤1001、1003和1005。步
骤1001包括确定每个对象(牙齿)的总变换。步骤1003包括确定该总变换所需的最小时间和
步骤。步骤1005包括确定每个中间步骤的位置。在这些步骤1003和1005中使用关于可允许
和/或可能的移动的信息1011。

[0108] 图11示出了图6的步骤621(正畸治疗计划)的实施例。在该步骤621中使用每颗牙齿661的最终牙齿位置659、中间位置663、数据651和附接类型。数据651通常包括IOS数据，
在其中牙齿已经被分割和标记。牙齿标签可以是符合特定编号系统的数字，例如，通用编号
系统、FDI记号法、文本标签(例如“(R)Cuspid”)或不同类型的标签。重要的是，在每个适用
步骤中使用相同的牙齿标签。例如，标签可以被编码在包括牙齿数据集的文件的名称中，或
者例如通过包括元数据而与适用数据相关。在该实施例中，数据649是一对CBCT和IOS扫描
的融合。步骤621包括子步骤1101和1111。

[0109] 在图11的实施例中，最终牙齿位置659和中间位置663由向量表示，步骤1101包括根据最终牙齿位置659、中间位置663和数据649生成每个步骤(位置)的表面网格表示。在步
骤1103中，这些表面网格连同每颗牙齿的附接类型661一起被用于创建针对中间和最终牙
齿位置中的每一个的3D模型，每个3D模型表示所有牙齿。在步骤1105中，在同一3D模型中的
牙齿之间进行牙齿碰撞检测。如果检测到碰撞，则进行步骤1107。步骤1107包括创建无碰撞
的牙齿的一个或多个经调整的3D模型。步骤1109在步骤1107之后进行。如果没有检测到碰
撞，则在步骤1105之后直接进行步骤1109。

[0110] 步骤1109包括注释每个3D模型的牙骨质与牙釉质交界(Cemento Enamal Junction，CEJ)。CEJ的注释可以例如通过本领域中已知的技术来进行，如由Wu K等人在
“Tooth segmentation on dental meshes using morphologic skeleton”，Elsevier
Computers&Graphics 38(2014)199–211中所述，(标识牙齿与牙龈之间的描绘，但省略牙冠
之间的描绘)，或者通过经训练的神经网络。利用该注释，有效地限定3D体的边界，从而为要
生成的矫正器描绘边界轮廓。

[0111] 步骤1111包括通过例如利用所表示体的逆来创建每个3D模型的矫正器的模板。步骤1111的结果是矫正器模板1121的一系列3D模型，每个矫正器模板被用于牙齿位置的一个
3D模型(在1201中可视化)。在该实施例中，正畸治疗计划还包括针对牙医的关于切片/再成
型和每种类型的添加附接的报告1123。该报告1123包括所确定的每颗牙齿的附接类型661
和关于在步骤1107中进行的调整的信息。

[0112] 图12示出了根据本发明的各种实施例的计算机渲染(呈现)，其使针对具体情况的自动化矫正器设计的结果可视化。被可视化为1202和1204的3D表面包括相同的牙齿，并且
从CBCT和IOS图像数据两者中导出。可以看出，IOS数据(牙冠部)的空间精度高于CBCT导出
数据(牙根部)的空间精度。还可以看出，牙齿已经关于牙齿‑牙槽突1203的牙齿物理性质被
放置在其期望位置，在该可视化的情况下是针对该连续步骤序列中的步骤一的期望位置。
针对该单个步骤，已经生成了矫正器1201。

[0113] 图13示出了图5和图6的训练分割深度神经网络的方法的流程图。在步骤1301中，获得牙齿‑颌面结构的CBCT 3D图像数据1321。例如，该结构可以包括颌结构、牙齿结构和神
经结构。3D图像数据1321可以包括体素，即，与表示辐射强度或密度值的体素值(例如，灰度
值或颜色值)相关联的3D空间元素。CBCT 3D图像数据1321可以符合例如DICOM格式或其衍
生格式。在步骤1303中，CB(CT)3D图像数据在其被馈送到分割深度神经网络1309的输入之
前被处理。例如，这种处理可以包括将体素值归一化到对于神经网络更有益的范围。

[0114] 为了使分割深度神经网络1309相对于例如当日CBCT扫描数据中存在的可变性鲁棒，使用每颗牙齿的光学扫描1325来训练分割深度神经网络1309，这些光学扫描1325可以
被表示为3D模型，例如，网格。这些光学扫描可以使用3D光学扫描机获得。这种光学3D扫描
机在本领域中是已知的，并且可用于产生高质量的3D颌和牙齿表面数据。3D表面数据可以
包括3D表面网格，其可以被填充(确定哪些具体体素是被网格环绕的体积的一部分)并且在
步骤1305中由体素分类器使用。这样，体素分类器能够生成用于训练的高度精确的经分类
的体素1327。在本实施例中，在步骤1307中将这些经分类的体素1327与经处理的CBCT 3D图
像数据1323对准。经处理的CBCT 3D图像数据1323和经对准且经分类的体素1329被作为训
练数据提供给分割深度神经网络1309。

[0115] 在替代实施例中，常规的3D训练数据是通过对CBCT 3D图像数据进行手动分割而获得的，其可代表大量工作。此外，手动分割导致要使用的输入数据的低再现性和一致性。
然而，在图13的实施例的变型中，可以另外使用这种手动分割训练。

[0116] 在标题为Classification and 3D modelling of 3D dento‑maxillofacial structures using deep learning methods的欧洲专利申请no.17179185.8和PCT申请
no.PCT/EP2018/067850中也描述了用于基于深度学习的自动化分割的方法和系统，其通过
引用合并在本申请中。

[0117] 图14和图15描绘了图5和图6的分割深度神经网络的3D深度神经网络架构的示例。如图14所示，可以使用3D卷积神经网络(3D CNN)来实施该网络。卷积层可以采用与层中的
神经元相关联的激活函数，诸如sigmoid函数、tanh函数、relu函数、softmax函数等。可以使
用多个3D卷积层，其中，在实施中可以使用层数和它们的定义参数的微小变化，例如，不同
的激活函数、内核数量和大小，以及诸如丢弃(dropout)层和/或批处理归一化的额外功能
层，而不会损失3D深度神经网络的设计的本质。

[0118] 网络可以包括多个卷积路径，在该示例中为三个卷积路径：与第一3D卷积层集合1404相关联的第一卷积路径、与第二3D卷积层集合1406相关联的第二卷积路径和第三3D卷
积层集合1408。执行数据处理的计算机可以向卷积路径的输入提供3D数据集1402，例如，CT
图像数据。3D数据集可以是3D牙齿结构的体素表示。

[0119] 不同路径的函数在图15中更详细地示出。如该附图所示，体素表示的体素可以被提供给3D深度神经网络的输入。体素表示的体素可以限定预定体，该预定体可被称为图像
体1523。计算机可以将该图像体划分成第一体素块，并且将第一块提供给第一路径的输入。
第一路径1511的3D卷积层可以对第一体素块1501进行3D卷积运算。在处理期间，第一路径
的一个3D卷积层的输出是第一路径中的后续3D卷积层的输入。这样，每个3D卷积层可以生
成表示考虑了被提供给第一路径的输入的第一体素块的信息的3D特征。因此，被配置为生
成这样的特征的3D卷积层可以被称为3D CNN特征层。

[0120] 如图15所示，第二路径1512的卷积层可被配置为处理体素表示的第二体素块1502，其中，第二体素块表示相关联的第一体素块的下采样版本，并且其中，第一体素块和
第二体素块具有相同的居中原点。第二块所表示的体大于第一块的体。此外，第二体素块表
示相关联的第一体素块的下采样版本。下采样因子可以是任何适当的值。在实施例中，下采
样因子可以在20与2之间选择，优选地在5与3之间选择。

[0121] 第一路径1511可以限定第一3D CNN特征层集合(例如，5‑20层)，它们被配置为以目标的体素分辨率(即，被分类的图像体的体素)来处理输入数据(例如，在图像体中的预定
位置处的第一体素块)。第二路径可以限定第二3D CNN特征层集合(5‑20层)，它们被配置为
处理第二体素块，其中，第二体素块1512的每个块与来自第一体素块1511的与其相关联的
块具有同一中心点。此外，以低于第一路径1511的分辨率来处理第二体素块。因此，第二体
素块表示比第一块更大的处于真实世界维度的体。这样，第二3D CNN特征层集合处理体素，
以生成包括关于由第一3D CNN特征层处理的相关联体素的直接邻域(neighborhood)的信
息的3D特征。这样，第二路径使3D深度神经网络能够确定上下文信息，即，关于由第一3D
CNN特征层集合处理的3D图像数据的体素的上下文(例如，其周围)的信息。

[0122] 以类似的方式，可以利用第三路径1513来确定第三体素块1503的另外的上下文信息。因此，第三路径可包括第三3D CNN特征层集合(5‑20层)，它们被配置为处理第三体素
块，其中，第三体素块1503中的每个块与来自第一体素块1501和第二体素块1503的与其相
关联的块具有同一中心点。此外，以低于第一和第二体素块的分辨率的分辨率来处理第三
体素块。该下采样因子可被再次设定为适当的值。在实施例中，下采样因子可以在20与3之
间选择，优选地在16与9之间选择。

[0123] 通过使用三个路径或更多的路径，可以并行地处理关于接收到的分辨率的3D图像数据(输入数据)和关于3D图像数据的体素的额外上下文信息。上下文信息对于对牙齿‑颌
面结构进行分类是重要的，该结构通常包括难以区分的密堆集的牙齿结构。

[0124] 随后，在步骤1521中合并3D CNN特征层集合的输出，并将其馈送到完全连接的3D CNN层集合1510的输入，该3D CNN层集合被训练以导出体素1512的预期分类，该体素1512在
神经网络的输入处被提供并由3D CNN特征层处理。

[0125] 3D CNN特征层集合可以被训练(通过它们的可学习的参数)，以导出并传递可以从它们的具体输入确定的最佳有用信息，完全连接的层对将确定来自三个先前路径的信息应
该被组合的方式的参数进行编码以提供最佳分类的体素1512。在此，完全连接的层的输出
(最后一层)可以为每个体素提供多个激活。这种体素激活可以表示概率度量(预测)，其限
定体素属于多个类别(例如，牙齿结构类别，例如，牙齿、颌和/或神经结构)中的一个类别的
概率。针对每个体素，与不同牙齿结构相关联的体素激活可以例如被设置阈值
(thresholded)，或借助选择每个体素每个类别的最大激活而被分配类别，以便获得经分类
的体素。此后，属于不同牙齿结构类别的经分类的体素可以被表示在图像空间1523中。因
此，3D深度神经网络的输出是与输入处的体素的图像空间相对应的图像空间中的经分类的
体素。

[0126] 图16示出了图5和图6的分割处理步骤507的实施例的流程图。在步骤1603和1605中，处理分割的体素数据1611，例如，图5的数据545或图6的数据645。分割的体素数据1611
可以包括表示例如所有被分类为属于牙齿、颌或神经结构的体素的体素集合。以通过单独
的3D数据集表示各个牙齿和/或颌(例如，上颌、下颌)的方式创建这些类型的结构的3D数据
可能是有益的。这可以通过体重建1603来实现。对于分离属于各个牙齿的体素集合的情况，
这可以通过3D二元腐蚀(erosion)、3D标记创建和3D分水岭(watershedding)(的组合)来实
现。

[0127] 针对分离成下颌部分和上颌部分的组合，可以找到沿着上下(真实世界坐标系)轴线的与原点的距离，在该距离处，与沿着同一轴线的其它相交平面相比，垂直于该方向的平
面中的体素的总和最小。采用该距离可以将上颌部分和下颌部分分开。在另一实施例中，可
以通过将对应的体素分类为单独的颌类别而由深度网络将颌自动分开。

[0128] 可替代地，待分离的结构可以被分配各个类别，诸如具体的各个牙齿、

[0129] (一个或多个)颌的具体区段等。在这种情况下，1603可以由确保分割的体素数据精确且真实地表示体的处理组成，例如，通过采用确保来自体素空间的体的一致且真实表
示的(3D)滤波技术。

[0130] 可以通过使用形状插值函数1605对所分类的体素的其它部分(例如，由3D深度神经网络分类为属于神经的体素)进行后处理，并且将其存储为3D神经数据1617。可选地，如
果不需要3D神经数据1617，则可以省略步骤1605。在牙齿‑颌面结构的各个部分的3D数据的
分割、后处理之后，可在步骤1607中将神经、颌和牙齿数据1613‑1617组合和格式化到单独
的3D模型中，其精确地表示被馈送到计算机系统的输入的3D图像数据中的牙齿‑颌面结构。
注意，分割的体素数据1611以及在步骤1607中创建的3D模型两者均在与图14的(CB)CT 3D
图像数据1402相同的坐标系中限定。如果不需要3D模型，例如如果体素数据是足够的，则可
以略过步骤1607。分割处理步骤507可以额外地或可替代地输出神经、颌和牙齿数据1613‑
1617。

[0131] 图17示出了训练图5和图6的分类深度神经网络的方法的实施例的流程图。在步骤1701中获得用于牙齿分类深度神经网络1705的训练数据。训练数据可包括从(CB)CT扫描导
出的分割的体素数据1717连同每颗牙齿的标签1719和/或从IOS扫描导出的分割的网格数
据1711(例如，从包括牙齿和牙龈的3D表面网格分割的各个牙齿牙冠)连同每颗牙齿的标签
1713。在步骤1703中，将分割的网格数据1711转换成分割的体素数据1715，随后将其提供给
牙齿分类深度神经网络1705。

[0132] 牙齿分类深度神经网络的输出被馈送到图5和图6的分类后处理步骤511，其被设计成利用考虑齿列的知识(例如，每个个体牙齿索引在单个齿列中仅可出现一次的事实)来
确保跨应用于齿列的牙齿的标签集合的分类的精度。在实施例中，为了在3D深度神经网络
的额外训练之后提高未来的精度，可以将正确的标签反馈到训练数据中。

[0133] 在标题为Automated classification and taxonomy of 3D teeth data using deep learning methods的欧洲专利申请no.17194460.6和PCT申请no.PCT/EP2018/076871
中描述了用于基于深度学习的自动化分类的方法和系统，其通过引用合并在本申请中。

[0134] 图18描绘了用于图5和图6的分类深度神经网络的3D深度神经网络架构的示例。网络可以使用3D卷积层(3D CNN)来实施。卷积可以使用激活函数。可以使用多个3D卷积层
1804‑1808，其中，在实施中可以使用层数和它们的定义参数的微小变化，例如，不同的激活
函数、内核数量、子采样和尺寸的使用，以及诸如丢弃层和/或批处理归一化层的额外功能
层，而不损失3D深度神经网络的设计的本质。

[0135] 部分地为了减少3D深度神经网络内的数据的内部表示的维度，可以采用3D最大池化层1810。在网络中的该点处，内部表示可以被传递到紧密连接的层1812，其目的在于作为
用于将3D空间中的表示转换成潜在标签、特别是牙齿类型标签的激活的中间物。

[0136] 最终或输出层1814可具有与期望数量的编码标签相同的维度，并且可用于确定每个潜在标签1818的激活值(类似于预测)。

[0137] 可以利用数据集来训练网络，其中该数据集具有作为至3D CNN层的输入的每颗牙齿的3D体素数据集1802。对于每个训练样本(作为单颗牙齿的3D表示)，对应的正确标签(图
17的标签1713和1719)可用于确定期望输出与实际输出之间的损失。该损失可以在训练期
间被用作调整3D深度神经网络的层内的参数的度量。在训练期间可以使用优化器函数以帮
助训练工作的效率。可以对网络进行任意次数的迭代训练，直到内部参数导致期望的结果
精度为止。当被适当地训练时，未标记的样本可以作为输入而呈现，并且3D深度神经网络可
被用于导出针对每个潜在标签的预测。

[0138] 因此，当3D深度神经网络被训练为将牙齿的3D数据样本分类成多种牙齿类型中的一种(例如，在成人的健康齿列的情况下32种牙齿类型)时，神经网络的输出将是激活值和
相关联的潜在牙齿类型标签。具有最高激活值的潜在牙齿类型标签可以为分类系统指示牙
齿的3D数据样本最有可能表示如标签所指示的类型的牙齿。具有最低或相对较低的激活值
的潜在牙齿类型标签可以为分类系统指示牙齿的3D数据集最不可能表示由这种标签指示
的类型的牙齿。

[0139] 注意，可能需要基于输入体的类型(例如，输入体素表示是完整的牙齿体，或者输入体素表示仅表示牙冠)来训练单独的具体网络模型(在具体训练之后具有不同的最终参
数的相同架构)。

[0140] 图19示出了训练正则姿势深度神经网络的方法的实施例的流程图。在欧洲专利申请no.18181421.1和PCT申请no.PCT/EP2019/067905中也描述了用于使用深度学习自动确
定3D牙齿结构的正则姿势和3D牙齿结构的叠加的方法和系统，其通过引用合并在本申请
中。可以基于包括3D图像样本和相关联的正则坐标的数据来训练网络。训练数据可包括3D
数据集(例如，体素强度值，例如，在(CB)CT数据的情况下的放射密度，或者二元值，例如，在
体素化表面扫描数据的情况下)。可以将可表示为每个输入体素的(x，y，z)向量的正则坐标
数据用作目标数据。在图19的实施例中，从IOS扫描和(CB)CT扫描两者获得数据集，以分别
产生第一数据集1911和第二数据集1913。数据集1911和1913两者均为体素表示。数据集
1913可以通过将表面网格表示转换成体素表示来获得。

[0141] 可以选择适于3D牙齿结构的正则坐标系。在实施例中，在3D牙齿结构的情况下，正则坐标系可以被确定为在(患者间和患者内的)一致点(consistent point)处具有原点(0，
0，0)。此后，当提及“真实世界坐标”时，这被认为具有与患者视角相关的轴线方向，其中例
如患者直立站立，“最低‑最高”意指患者视角“上‑下”，“前‑后”意指从患者视角来看的“前‑
后”，以及“左‑右”意指患者视角“左‑右”。“真实世界”意在指诸如3D数据集的信息所源自的
情形。

[0142] 这种一致点可以是例如最低点(在真实世界坐标中)‑在该最低点处定位为在最前面的两个牙齿(FDI系统索引11和21)仍然接触，或者会接触(如果例如这些牙齿中的任一颗
缺失了)。考虑到轴线的方向，真实世界方向(被看作患者)的上‑下、左‑右和前‑后可以分别
被定义和编码为范围从低值到高值的x、y和z值。为了缩放到真实世界的维度(dimension)，
可以采用各种表示(意味着从输入数据到训练数据的具体转换)方法，只要这在所有训练数
据上一致地完成，因为相同的缩放将是3D深度神经网络的输出。例如，可采用每1mm的真实
世界距离的1个坐标单位的值。

[0143] 为了实现相对于数据和/或数据模态中的可变性鲁棒的3D深度神经网络，可以基于在步骤1901中获得的初始训练数据来生成多种训练样本。为此，步骤1903包括将3D数据
集缩小为缩小的3D数据集和预定分辨率的相关联正则坐标。这种缩小操作产生更小的3D图
像数据集，例如，将沿每个方向的体素分辨率缩小到1mm。此外，在步骤1905中，通过将随机
旋转应用于(缩小的)3D数据和相关联的正则坐标来生成一个3D数据集的不同变化。注意，
这可以对任何可用的患者来进行，以有效地供应从中提取潜在训练样本的数据池，具有大
批患者数据集和每个数据集的大批旋转(和/或缩放因子)。

[0144] 此外，步骤1907包括将(缩小的)3D数据集和相关联的正则坐标划分成多个块(3D图像样本)，其中，每个块具有预定大小并且是3D数据集的整个体的子集。例如，提供给训练
模块的输入的3D数据集可包括400×400×400个体素的体，其中，每个体素沿每个正交方向
具有0.2mm的尺寸。该3D数据集可以被缩小成例如沿每个方向的1mm的80×80×80个体素的
体的缩小的3D数据集。随后，可以将缩小的3D数据集划分成预定大小的3D数据块(例如，沿
每个方向的1mm的24×24×24个体素)。这些块可用于使用正则坐标作为目标来训练正则姿
势深度神经网络1909。步骤1907还包括随机选择要提供给正则姿势深度神经网络1909的
块。

[0145] 注意，正则姿势深度神经网络1909将固有地在变化的(在步骤1905中生成的)旋转和(在步骤1907中生成的)平移两者上进行训练，并且可以在步骤1903中生成多个(多种)缩
放的样本。

[0146] 图20示出了图5和图6的对准步骤的实施例的流程图。图20中所示的两个输入3D图像数据集2031已经被适当地体素化。类似地，如关于图19所述，在步骤2001中采用预定缩放
来处理两个输入3D图像数据集2031，在步骤2003中将缩小的数据集划分成预定大小的图像
块，并且将3D图像块提供给正则姿势深度神经网络2005。通过提供覆盖接收到的3D图像数
据的整个空间至少一次的图像块，可以由正则姿势深度神经网络针对3D图像数据集中的每
个(下采样的)体素来预测正则坐标。

[0147] 正则姿势深度神经网络2005提供第一变换参数集2033。注意，利用来自相对较大的真实世界3D空间的足够的训练样本，可以为从较小的体接收到的数据确定正则姿势(假
设它被代表性地包括在训练数据内)。通过正则姿势深度神经网络2006的预测可以以浮点
值产生。

[0148] 使用该第一变换参数集2033，可以在步骤2007中进行预对准，并且可以在步骤2009中进行足够重叠的确定。如果重叠量不足，如根据可实验确定并且随后可编程地检查
的一个或多个阈值确定重叠量不足，则可在步骤2011中选择第一变换参数集。如果存在重
叠不足，则确定第二变换参数集将不产生改进的结果。

[0149] 在确定足够的重叠之后，可以进行步骤2013。步骤2013包括选择重叠的DOI。可以在两个接收到的3D图像数据集上自动执行分割步骤2015，或者采用如上所述的基于3D深度
神经网络的方法，或者采用本领域中已知的其它方法，如具有IOS数据的情况。注意，在后者
的情况下，可以以表面网格数据的形式对接收到的3D图像数据进行牙齿牙冠的这样的分
割。

[0150] 在步骤2017中，可以对(分割的)结构数据进行分类，并且可以将得到的信息中继到关键点生成步骤2018。预料到包括在不同的接收到的数据集中标识相同牙齿的能力会产
生更多鲁棒性，以抵抗接收到的数据集的重叠量和数据质量的潜在变化。

[0151] 在步骤2018处，可以采用所生成的选择的(稀疏、紧密匹配的)关键点的云来确定用于对准的第二变换参数集。注意，在步骤2019中，可以考虑可能在2007、2013之后潜在的
任何先前变换，以确定第一变换参数集。

[0152] 在步骤2021中，可以例如通过检查第一变换参数集2033的偏差来进行健全性检查。在差异大的情况下，可以在步骤2011中选择第一变换参数集。否则，可以在步骤2023中
选择第二变换参数集。在替代实施例中，可以使用加权平均值来组合两个变换集合，并且在
差异大的情况下，可以将权重0用于第二变换参数集。不可行结果可能是接收到不精确数据
的结果，例如，CBCT数据中存在的伪像、来自IOS数据的不正确表面表示等。

[0153] 用于表面网格的点数据以浮点精度被保存，以产生潜在的高度精确的结果。因此，要在步骤2023处选择的变换参数具有对要在步骤2011选择的参数的高度精确细化的潜力。
由于包括预对准、重叠和分割的确定以及各个结构的分类，图20的实施例可被认为比本领
域的当前方法明显更加鲁棒。

[0154] 变换参数可以以各种方式内部地表示，例如，分别描述按顺序旋转的3个值的3个向量、到原点的3个平移值和/或确定适用的缩放的3个值，它们全部具有属于正交3D坐标系
中的具体轴线的值的正和/或负幅值。可替代地，可以采用线性代数中已知的矩阵的任意组
合，更具体地说，可以采用旋转、变换、缩放和/或可以在(仿射)变换矩阵中确定的组合。

[0155] 可以采用考虑到精度、鲁棒性等的现有技术知识来例如确定接收到的两个变换参数集的重要性的加权。因此，可以编程地组合这些参数以产生用于对准的最精确的期望变
换参数。注意，根据期望的结果，变换参数可以是将集合2与集合1匹配、将集合1与集合2匹
配和/或将两者在替代(期望)的坐标系中对准的参数。

[0156] 图21‑23描绘了示出图20的方法的执行的示意图；图21示意性描绘了3D对象的体素表示2100，例如，诸如牙齿的牙科对象。体素可以与强度值相关联，例如，从(CB)CT扫描获
得的放射密度。可替代地，体素可以与二元值相关联。在该情况下，体素表示可以是从结构
化光扫描或激光表面扫描获得的体素化表面或从体素化表面导出的体的二元体素表示。3D
对象可具有标识顶部(例如，牙冠)、底部(例如，牙根)、前部、后部以及左右部的具体特征。

[0157] 体素表示与第一(正交)坐标系(x，y，z)2102(例如由扫描软件用来表示3D空间中的扫描数据的坐标系)相关联。例如，这些坐标可作为DICOM图像文件中的(元)数据来提供。
3D对象可以在由第一坐标系限定的3D空间中具有特定定向(orientation)、位置和大小。然
而，注意，这种坐标系可能还不与如可相对于对象限定的系统相对应，在此由‘左’、‘右’、

[0158] ‘前’、‘后’、‘底’和‘顶’示出。

[0159] 使用经训练的3D深度神经网络，3D对象可以是(在空间上)‘归一化的’(即，重新定向、重新定位和缩放)2108，并且基于(正交)正则坐标系进行限定。在正则坐标系(x’，y’，
z’)2106中，归一化的3D对象2105可具有正则姿势，其中3D对象的具体特征可以与正则坐标
系的轴线对准。因此，该系统可以接收在由坐标系(其由扫描系统限定)限定的3D空间中具
有特定定向、位置和大小的3D牙齿结构的体素表示，并且确定3D对象的正则体素表示，其
中，3D对象在正则坐标系中进行限定，其中，对象的大小被缩放，并且其中，3D牙齿结构的具
体特征与正则坐标系的轴线对准。

[0160] 图22描绘了3D深度神经网络2218，其可以被训练以接收3D对象的体素表示2210的体素，其中，体素可具有由坐标系2202(x，y，z)限定的某一位置。3D深度神经网络可被配置
为生成与体素表示相关联的所谓的正则姿势信息2203。正则姿势信息可包括：针对体素表
示的每个体素2204(x，y，z)，对由正则坐标系限定的空间中的坐标(x’，y’，z’)的预测。正则
坐标系可以关于可靠标识的牙齿‑颌面结构的典型位置、定向和缩放(例如，牙弓的特征)进
行限定。在网络的训练阶段期间，可以在3D深度神经网络中对导出这种正则坐标系所需的
信息进行编码。这样，正则姿势信息可被用于将表示相同牙齿‑颌面结构的不同种类和/或
模态的3D数据放置在相同的相对位置、定向和缩放中。

[0161] 因此，针对每个输入体素2204，由3D深度神经网络生成三个对应的输出值2214、2224、2234，它们包括对输入体素在正则坐标系中的x’、y’、z’坐标的各自的值的预测。在实
施例中，正则姿势信息可包括三个3D体素映射2212、2222、2232，其中，每个3D体素映射将3D
神经网络的输入处的体素表示的体素链接到正则坐标。

[0162] 在将体素表示提供给3D深度神经网络的输入之前，体素表示可以被划分成体素块集合(在此由2216示出，此后简称为‘块’)，其中，体素块的维度与3D深度神经网络的输入空
间的维度相匹配。块大小可以取决于3D深度神经网络的数据存储能力。因此，3D深度神经网
络可以处理体素表示的每个块中的体素，并且产生用于每个块的体素的正则姿势信息，即，
对块中的每个体素的正则坐标系的坐标(x’，y’，z’)的预测。在实施例中，3D深度神经网络
可以生成三个体素映射2212、2222、2232，第一体素映射2212包括针对被提供给3D深度神经
网络的输入的块中的每个体素的对应的x’坐标；第二体素映射2222包括针对块中的每个体
素的y’坐标；以及第三体素映射2232包括针对块中的每个体素的z’坐标。

[0163] 图23示意性示出了3D对象2300的体素表示，该3D对象被提供给3D深度神经网络的输入，并且基于第一坐标系(x，y，z)2302进行限定，该第一坐标系(x，y，z)2302例如由用于
产生3D图像的扫描机的图像处理软件所使用的坐标系。这些坐标或用于确定这些坐标的信
息可以作为元数据被包括在数据文件中，例如，DICOM文件中。基于由3D深度神经网络生成
的正则姿势信息，可以生成对正则坐标系中的3D对象的正则姿势的预测。因此，正则姿势信
息2350可以将每个体素在第一坐标系中的位置(x，y，z)链接到正则坐标系中的位置(x’，
y’，z’)。该信息可被用于确定变换2360，该变换2360允许系统将在第一坐标系中限定的3D
对象变换成其在正则坐标系中限定的正则姿势2362。

[0164] 姿势信息可被用于确定与正则坐标系的轴线(正则轴线)相关联的定向和缩放因子。在此，该定向可以是正则轴线在由第一坐标系限定的空间中的定向。姿势信息还可被用
于确定正则坐标系的原点的位置。

[0165] 可以基于由3D深度神经网络确定的3D体素映射中的一个或多个体素中的(局部)梯度来确定正则轴线的定向。例如，对于与正则坐标的x’分量相关联的第一3D体素映射的
每个体素或至少多个体素，可以确定局部梯度。局部梯度可以表示为由第一坐标系限定的
x、y、z空间中的3D向量。向量的方向表示对正则x’轴线在体素的位置处的定向的预测。此
外，向量的长度表示对与正则x’轴线相关联的缩放因子的预测。

[0166] 在实施例中，可以基于第一3D体素映射的x’值来确定对与正则x’轴线相关联的定向和缩放因子的预测。例如，可以确定对第一3D体素映射的体素的预测的在统计学上代表
性的度量，例如中值或平均梯度。在实施例中，可以预处理第一3D体素映射的x’值，例如，平
滑和/或滤波。例如，在实施例中，中值滤波器可被用于移除(局部)离群值。以相同的方式，
可以基于第二3D体素映射中的y’值来确定用于正则y’轴线的定向和缩放因子的预测，并且
可以基于第三3D体素映射中的z’值来确定用于正则z’轴线的定向和缩放因子的预测。正则
x’、y’、z’轴线的预测定向可以被后处理，以确保轴线是正交的或者甚至是标准正交的
(orthonormal)。这可以使用各种已知方案(例如，Gram‑Schmidt过程)来实现。可以通过将
接收到的坐标系2302与从预测导出的坐标系进行比较来获得旋转和缩放参数。

[0167] 正则坐标系的原点的位置(根据第一坐标系的空间中的平移向量)可以通过确定提供给3D深度神经网络的输入的体素表示的中心的正则坐标的预测来获得。这些坐标可以
基于例如第一3D体素映射的预测x’值、第二3D体素映射的y’值和第三3D体素映射的z’值的
平均值或中值来确定。可以基于块的中心的预测正则坐标(xo’，yo’，zo’)和基于第一坐标
系的块的中心的坐标，例如使用简单减法，来确定平移向量。可替换地，正则坐标系的原点
可以通过这样的块的多个预测的聚合来确定，这有效地处理如针对接收到的体素表示的相
同大小的空间所确定的正则坐标。可以针对3D数据集的每个块或至少大部分块来重复上述
过程。针对每个块确定的信息(正则坐标系的定向、缩放和原点)可被用于获得例如多个块
的平均值，以提供精确的预测。

[0168] 图24示出了由图20的方法所采用的训练数据。图24描绘了3D数据集的三个切片2401‑2403，在该示例中为3D牙齿结构的CBCT扫描以及可被用于训练3D深度神经网络的针
对x’、y’和z’坐标的3D体素映射的相关联切片。这些3D体素映射包括对正则x’坐标2411、正
则y’坐标2412和正则z’坐标2413的期望预测。灰度值使根据正则坐标系的坐标的(编码)值
的梯度可视化。坐标(x，y，z)基于与CBCT扫描相关联的坐标系指示3D牙齿结构的体素的位
置。可视化为包括其方向的轴线按每个图片的左上部和右上部来表示。注意，所有可视化都
是单个中间‘切片’的2D表示(实际上是2D图像数据的像素)，如从实际采用的3D数据集和相
关联的体素映射切片所得的，如由每个图示的左上部可见的切片号所表示的。

[0169] 图25描绘了用于图20的正则姿势深度神经网络的3D深度神经网络架构的示例。3D深度神经网络可具有类似于3D U‑net的架构，这实际上是如本领域中已知的2D U‑net的3D
实施。

[0170] 网络可以使用各种3D神经网络层来实施，诸如(扩展)卷积层(3DCNN)、3D最大池化层、3D反卷积层(3D de‑CNN)和紧密连接的层。这些层可以使用各种激活函数，例如线性、
tanh、ReLU、PreLU、sigmoid等。3DCNN和de‑CNN层的滤波器数量、滤波器尺寸和子采样参数
可以不同。3DCNN和de‑CNN层以及紧密连接的层的参数初始化方法可以不同。在整个架构中
可以采用丢弃层和/或批处理归一化。

[0171] 就3D U‑net架构来说，在训练期间，3D CNN和3D de‑CNN层内的各种滤波器学习对编码有意义的特征，这将有助于预测精度的工作。在训练期间，匹配的3D图像数据集和编码
的匹配正则坐标被用于优化从前者对后者的预测。可以采用损失函数作为要最小化的量
度。通过利用诸如SGD、Adam等优化器来协助优化工作。

[0172] 这种架构可采用各种分辨率缩放，通过最大池化或(扩展和/或子采样)卷积层有效地缩小作为来自3D CNN层2504、2508、2512的先前集合的结果的2506、2510、2514。术语
‘有意义的特征’指的是与确定目标输出值相关的信息的(逐次)求导，并且还通过3D de‑
CNN层进行编码，这些3Dde‑CNN层在采用滤波器的同时有效地进行放大。通过将从这样的3D
de‑CNN层2518、2524、2534产生的数据2520、2526、2532与来自在相同分辨率上操作的‘最
后’3D CNN层的数据(进行组合2512到2520、2508到2526和2504到2532)，可以实现高度精确
的预测。在整个架构的放大部分(开始于在2518处)，可以使用额外的3D CNN层2522、2528、
2534。通过利用紧密连接的层，可以在网络的参数内对额外逻辑进行编码，从而基于即将到
来的3D CNN层2534的滤波器的结果来提取例如每个体素的逻辑。

[0173] 当被用于推断，已经以使验证会产生足够精确结果的这种方式训练为具有编码的内部参数时，输入样本可以被呈现并且3D深度神经网络可以产生预测的每体素的预测正则
坐标2542。

[0174] 图26示出了由图20的方法所生成的关键点的示例。例如，关键点是从图16的步骤1607中创建的表面网格(3D模型)中生成的，并且表征这些表面。实际上，这可以被认为是将
表面网格内的所有可用点减少到一组最相关(最显著)点的减少步骤。这种减少是有益的，
因为它减少了处理时间和存储器需求。此外，可以选择用于确定这样的点的方法，即使用于
生成的输入是稍微发散的3D表面网格(的集合)(仍然表示相同的结构)，这些方法也预期产
生大致相同的点集。

[0175] 本领域中公知的用于从表面网格确定关键点的方法通常包括确定局部或全局表面描述符(或特征)，这些表面描述符可以是手工制作的(手动设计的)和/或机器学习的，并
且针对跨(略微变化的)输入表面网格的可重复性进行优化，并且可以针对性能(确定显著
点或关键点的速度)进行优化，例如，如TONIONI A等人在“Learning to detect good 3D
keypoints.”，Int J Comput Vis.2018卷126，第1‑20页所教导的。这种特征的示例是表面
曲率的局部和全局最小值或最大值。

[0176] 图26中示出了3D图像数据集的计算机渲染，其包括限定表面面的网格的边缘和顶点，并且因此示出了限定表面的点。顶部的四个对象是单独被处理的，并且是从口内扫描导
出的分割的牙齿牙冠。底部的四个对象是从具有上述分割深度神经网络的CBCT扫描导出的
各个牙齿。这两个四颗牙齿的集合在时间上的大约相同的时刻源于同一患者。它们已经使
用由上述正则姿势神经网络输出的变换参数被粗略地预对准。从这些预对准的数据集，确
定重叠体，并且将3D结构分割成表示各个牙齿的单独的表面网格。

[0177] 特别地，在图26中，已经利用根据格式P[接收到的数据集的编号]‑[点的编号]的标签对点进行可视化；为了可视化目的，已经减少了点的数量。如图所示，在关键点生成之
后的每个接收到的3D图像数据集具有其自己的遵循体的显著特征的关键点集合，其中将利
用关键点(虽然是任意编号的)来标记沿着表面的相同点。注意，可以在原始3D数据集内对
每个个体牙齿的这样的点进行子分组，但是这不会产生额外的益处，因为(相同的)个体牙
齿在不同的3D数据集之间是不可标识的。

[0178] 值得注意的是，3D表面网格数据(和点云数据或关键点的集合)通常借助浮点数以正交的x、y和z坐标的格式进行保存。这开辟了关键点的高度精确确定位置的潜力，并且因
此开辟了具有基于例如最小化关键点的这样的云之间的计算距离的方法而确定的变换参
数的高度精确的对准结果的潜力，如在采用例如迭代最近点方法时可能属于这种情况。注
意，为了确定对准变换参数，需要确定至少三个非共线点。

[0179] 在图26的示例中，为表面网格生成关键点，其描述存在的所有牙齿的整个体。应该注意，可以通过在子体(例如，在两个输入数据集之间标识的每个个体牙齿)上进行例如关
键点生成和关键点对准来生成更精确的最终变换参数。如参照先前描述的分割方法所述，
生成该数据。在这种替代实施例中，可以生成多个变换参数，并且可以从该多个变换参数中
移除离群值，并且可以将该参数集平均成单个参数集，用于对准输入数据集的目的。

[0180] 图27描绘了框图，该框图示出了可以进行参照图1‑2、5‑8、10‑11、13、16‑17和19‑20所述方法的示例性数据处理系统。

[0181] 如图27所示，数据处理系统2700可包括通过系统总线2706耦接到存储器元件2704的至少一个处理器2702。这样，数据处理系统可以将程序代码存储在存储器元件2704内。此
外，处理器2702可以执行经由系统总线2706从存储器元件2704访问的程序代码。在一个方
面中，数据处理系统可以被实施为适于存储和/或执行程序代码的计算机。然而，应该理解，
数据处理系统2700可以以包括能够进行本说明书中所描述功能的处理器和存储器的任何
系统的形式来实施。

[0182] 存储器元件2704可包括一个或多个物理存储器装置，例如本地存储器2708和一个或多个大容量存储装置2710。本地存储器可以指随机存取存储器或通常在程序代码的实际
执行期间使用的(多个)其它非持久性存储器装置。大容量存储装置可以被实施为硬盘驱动
器或其它持久性数据存储装置。处理系统2700还可包括提供至少一些程序代码的临时存储
以便减少在执行期间必须从大容量存储装置2710检索程序代码的次数的一个或多个高速
缓冲存储器(未示出)。

[0183] 被描绘为输入装置2712和输出装置2714的输入/输出(I/O)装置可以可选地耦接到数据处理系统。输入装置的示例可包括但不限于键盘、诸如鼠标之类的指点装置等。输出
装置的示例可包括但不限于监视器或显示器、扬声器等。输入和/或输出装置可以直接或通
过居间I/O控制器耦接到数据处理系统。

[0184] 在实施例中，输入和输出装置可被实施为组合的输入/输出装置(在图27中以环绕输入装置2712和输出装置2714的虚线示出)。这种组合装置的示例是触敏显示器，有时也称
为“触摸屏显示器”或简称为“触摸屏”。在这种实施例中，可以通过触摸屏显示器上或附近
的物理对象(例如，手写笔或用户手指)的移动来提供对设备的输入。

[0185] 网络适配器2716也可耦接到数据处理系统，以使其能够通过居间的专用或公共网络耦接到其它系统、计算机系统、远程网络装置和/或远程存储装置。网络适配器可包括用
于接收由所述系统、装置和/或网络发送到数据处理系统2700的数据的数据接收器，以及用
于将数据从数据处理系统2700发送到所述系统、装置和/或网络的数据发送器。调制解调
器、电缆调制解调器和以太网卡是可以与数据处理系统2700一起使用的不同类型的网络适
配器的示例。

[0186] 如图27中所示，存储器元件2704可以存储应用程序2718。在各种实施例中，应用程序2718可以存储在本地存储器2708、一个或多个大容量存储装置2710中，或与本地存储器
及大容量存储装置分离。应该理解，数据处理系统2700可进一步执行可促进应用程序2718
的执行的操作系统(在图27中未示出)。以可执行程序代码的形式实施的应用程序2718可以
由数据处理系统2700、例如由处理器2702执行。响应于执行应用，数据处理系统2700可被配
置为执行本文所述的一个或多个操作或方法步骤。

[0187] 本发明的各个实施例可以被实施为与计算机系统一起使用的程序产品，其中程序产品的(多个)程序限定实施例的功能(包括本文中描述的方法)。在一个实施例中，(多个)
程序可以被包含在多种非暂时性计算机可读存储介质上，其中，如本文所使用的，表述“非
暂时性计算机可读存储介质”包括所有计算机可读介质，唯一例外是暂时性传播信号。在另
一实施例中，(多个)程序可以包含在各种暂时性计算机可读存储介质上。说明性计算机可
读存储介质包括但不限于：(i)在其上永久存储信息的非可写存储介质(例如，计算机内的
只读存储器装置，诸如可由CD‑ROM驱动器读取的CD‑ROM光盘、ROM芯片或任何类型的固态非
易失性半导体存储器)；以及(ii)在其上存储可更改信息的可写存储介质(例如，闪存、磁盘
驱动器或硬盘驱动器内的软盘或者任何类型的固态随机存取半导体存储器)。计算机程序
可以在本文所述的处理器2702上运行。

[0188] 本文所使用的术语仅出于描述特定实施例的目的，而无意于限制本发明。如本文所使用的，单数形式“一”、“一个”和“所述”也意在包括复数形式，除非上下文另外明确指
出。还将进一步理解，术语“包括”和/或“包含”在本说明书中使用时指定存在所述特征、整
数、步骤、操作、元素和/或组件，但不排除存在或添加一个或多个其它特征、整数、步骤、操
作、元素、组件和/或它们的组。

[0189] 所附权利要求中的所有装置或步骤加上功能元件的对应结构、材料、动作和等同物旨在包括用于与具体要求保护的其它要求保护的元件组合地执行功能的任何结构、材料
或动作。已经出于说明和描述的目的给出了本发明的描述，但并不意在详尽的或将本发明
限制为所公开的形式。在不脱离本发明的范围和精神的情况下，许多修改和变化对于本领
域普通技术人员将是显而易见的。选择和描述实施例是为了最好地解释本发明的原理和一
些实际应用，并使本领域的其它普通技术人员能够理解本发明的各种实施例以及设想适于
特定用途的各种修改。

[0190] 图28示出了根据本发明的各种实施例的正畸治疗计划结果的可视化。可视化由从内部数据表示导出的表面网格的计算机渲染(呈现)组成，如在所述整个系统中可能遇到的
那样。特别地，2802和2822分别示出治疗之前和之后的3D数据表示的可视化。2802示出了在
图6的步骤503中分割的牙齿结构，其从输入CBCT扫描导出。单独的结构是上颌2804和下颌
2808，并且各个牙齿集合属于这些颌2806和2810。为了该图示的目的，如在2812和2814处所
示的两个颌的表面已经被移除，以示出除了直接可见的信息之外的相关结构信息，在此是
考虑牙根和颌内结构的信息。

[0191] 类似于2802，2822示出了对于同一患者的上颌2824和下颌2828、相应的牙齿集合2826、2830和移除的颌表面2832、2834。例如，如图6所示，各个牙齿已经被放置在它们最终
的期望位置，该位置可以由系统确定。可以看出，牙齿已经以实现期望的咬合的方式被移
位，不存在碰撞，并且没有牙齿(牙根)被放置在颌的适当的局部外边界的外部。在这种具体
情况下，在结合IOS数据和期望的附接之后，可以采用如图所示的最终位置，例如，产生一系
列的最终矫正器，以便在治疗期间使用。

训练深度神经网络的系统和确定牙齿的最终位置的系统转让专利

申请号 : CN201980057692.4

文献号 : CN112638312B

文献日 : 2022-05-13

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : D·安萨里莫因 , F·T·C·克莱森

申请人 : 普罗马顿控股有限责任公司

摘要 :

权利要求 :

说明书 :