内窥镜图像的视差预测模型建立方法及深度估计方法转让专利
申请号 : CN202110630910.8
文献号 : CN113435573B
文献日 : 2022-04-29
发明人 : 石洪宽 , 李强
申请人 : 华中科技大学 , 武汉联影智融医疗科技有限公司
摘要 :
权利要求 :
1.一种基于稀疏标签的内窥镜图像视差预测模型建立方法,其特征在于,包括:建立视差预测网络DEnet,并利用第一训练数据集对所述视差预测网络DEnet进行预训练;所述视差预测网络以双目图像为输入,用于预测输入的双目图像中每个像素对应的视差值,得到视差图;所述第一训练数据集中的样本为已经过畸变矫正和极线矫正,且已标注左目图像视差图的双目图像;
以预训练后的视差预测网络DEnet为生成器,建立生成对抗网络,并利用第二训练数据集对所述生成对抗网络进行训练,将训练后的生成对抗网络中的生成器记为Teacher模型;
所述生成对抗网络中,判别器的输入为左目图像及其视差图构成的图像对,其中的图像视差图为标注的视差图,或者由生成器预测得到的视差图,所述判别器用于判断输入的视差图的来源;所述第二训练数据集中的样本为已经过畸变矫正和极线校正的双目图像,其中部分样本已标注了左目图像视差图,已标注样本的比例不超过预设的第一阈值,且样本随深度呈长尾分布;
将所述Teacher模型作为所述内窥镜图像视差预测模型,或者,利用所述Teacher模型预测所述第二训练数据集中未标注的样本对应的左目图像视差图作为伪标签,得到第三训练数据集;以预训练后的视差预测网络DEnet为Student模型,并利用所述第三训练数据集对其进行训练,将训练后的Student模型作为所述内窥镜图像视差预测模型。
2.如权利要求1所述的基于稀疏标签的内窥镜图像视差预测模型建立方法,其特征在于,所述内窥镜图像视差预测模型为训练后的Student模型时,以预训练后的视差预测网络DEnet为生成器,建立生成对抗网络,并利用第二训练数据集对所述生成对抗网络进行训练时,还包括:建立置信度网络,并随所述生成对抗网络一起训练所述置信度网络;所述置信度网络用于预测所述生成器输出的视差图中各像素视差的置信度;所述置信度的取值范围为[0,1],且置信度越高,相应的像素视差的预测结果越准确;
并且,所述第三训练数据集对所述Student模型进行训练时,若输入的样本为标注了伪标签的双目图像,则利用训练后的所述置信度网络获得该伪标签中各像素视差的置信度,并在计算相应的损失值时作为像素视差的预测误差的权重。
3.如权利要求2所述的基于稀疏标签的内窥镜图像视差预测模型建立方法,其特征在于,所述内窥镜图像视差预测模型为训练后的Student模型时,利用所述第三训练数据集对所述Student模型进行训练时,若输入的样本为原始的已标注的样本,则相应的损失值为:若输入的样本为标注了伪标签的样本,则相应的损失值为:Lstu=C·Lsup(ds,DEnetT(Il,Ir));
其中,ds表示所述Student模型预测的视差值,表示标注的视差值,DEnetT(Il,Ir)表示由所述Teacher模型标注的伪标签,C表示由所述置信度网络输出的伪标签中各像素视差的置信度;Lsup表示视差预测结果与标注结果之间的误差。
4.如权利要求3所述的基于稀疏标签的内窥镜图像视差预测模型建立方法,其特征在于,
其中,N表示有标记的像素总数,d表示预测的视差值,表示标注的视差值, 为像素的权重,且位于较远区域的像素具有较大的权重; 表示平滑L1损失。
5.如权利要求4所述的基于稀疏标签的内窥镜图像视差预测模型建立方法,其特征在于,αd为归一化后的像素视差值。
6.如权利要求3~5任一项所述的基于稀疏标签的内窥镜图像视差预测模型建立方法,其特征在于,利用所述第二训练数据集对所述生成对抗网络进行训练时,若输入所述生成器的样本为已标注的样本,则相应的损失值为:若输入所述生成器的样本为未标注的样本,则相应的损失值为:Luns=minDw;
其中,N表示有标记的像素总数,d表示预测的视差值,表示标注的视差值; 为像素的权重,且位于较远区域的像素具有较大的权重; 表示平滑L1损失;Dw表示Wasserstein距离。
7.如权利要求1~5任一项所述的基于稀疏标签的内窥镜图像视差预测模型建立方法,其特征在于,还包括:
将所述第二训练数据集中的双目图像转换到HIS色域后,将其中饱和度值小于预设的第二阈值且强度值大于预设的第三阈值的像素识别为反光点;
利用所述第二训练数据集训练所述Teacher模型,或者利用所述第三训练数据集训练所述Student模型时,被识别为反光点的像素不参与损失计算。
8.如权利要求1或2所述的基于稀疏标签的内窥镜图像视差预测模型建立方法,其特征在于,所述视差预测网络DEnet包括:左目特征提取模块,右目特征提取模块,特征拼接模块,级联的M个3D Atten CNN模块,以及输出模块;
所述左目特征提取模块和所述右目特征提取模块为权值共享的模块,且均包含残差网络;所述左目特征提取模块用于提取左目图像中不同尺度的特征,并对其上下文间信息进行融合,得到所述左目图像的特征图;所述右目特征提取模块用于提取右目图像中不同尺度的特征,并对其上下文间信息进行融合,得到所述右目图像的特征图;
所述特征拼接模块,用于按照预设的视差范围D将所述左目图像的特征图和所述右目图像的特征图进行逐像素拼接,得到特征立方体;
所述3D Atten CNN模块,用于利用通道注意力机制增强输入的特征立方体中通道之间的相关性;
所述输出模块以最后一个3D Atten CNN模块输出的特征立方体为输入,用于计算每个像素在所述视差范围D内的视差值以及像素在每个视差值的概率,并计算所述视差范围D内的视差期望作为对应像素的视差预测结果。
9.如权利要求8 所述的基于稀疏标签的内窥镜图像视差预测模型建立方法,其特征在于,所述3D Atten CNN模块包括:多个三维卷积层和多个三维反卷积层构成的编码‑解码结构,以及位于所述编码‑解码结构中间的通道注意力机制模块;所述3D Atten CNN模块中还包括用于防止梯度消失的跳跃连接。
10.一种内窥镜图像深度估计方法,其特征在于,包括:将内窥镜拍摄得到的双目图像进行畸变矫正和极线矫正后,输入至权利要求1‑9任一项所述的基于稀疏标签的内窥镜图像视差预测模型建立方法建立得到的内窥镜图像视差预测模型,以获得视差图;
将所述视差图转换为各像素的深度值,得到内窥镜图像的深度估计结果。
说明书 :
内窥镜图像的视差预测模型建立方法及深度估计方法
技术领域
背景技术
成手术。相比于传统的开放式手术,微创外科手术具有创口小、痛苦少、恢复快以及感染率
低的优点。微创手术中传统内窥镜拍摄的是二维图像。此类图像往往存在畸变大,缺少深度
感的缺点。因此无法为医生提供直观的场景深度信息,容易导致医生在手术过程中误判关
键部位与器械的相对位置,进而操作失误造成内部器官出血。
维影像。与此同时,如果能提供手术场景的深度信息,则可以帮助医生更好判断器械与组织
的相对位置,大大降低手术风险,缩短手术时间。同时重建的手术场景还可以用于与术前模
型配准,手术训练以及增强现实应用等。
算出该点的深度值。传统方法基于以上原理,在自然图像中取得了良好的效果。但这类方法
高度依赖于目标纹理,并假设目标表面平滑,而内窥镜图像存在大量反光,并且会出现手术
器械、组织器官等距离镜头非常近的物体视差较大,导致重建难度较大。因此使用传统方法
对内窥镜拍摄的图像进行重建时,往往会由于反光、器械遮挡以及纹理特征少等因素,导致
估计值存在大量误差。
文信息进行多尺度融合,进而获得较传统方法更好的性能。但训练深度估计网络需要大量
深度数据作为标签,这些标签数据在实际中很难获得。尤其是在体内环境中,一般只有少量
内窥镜图像具有对应的深度标签。因此,如何利用仅存在稀疏标签的数据集上训练得到能
够精确估计内窥镜图像深度的网络模型,是一个亟待解决的问题。
发明内容
镜图像的深度估计精度差的技术问题。
得到视差图;第一训练数据集中的样本为已经过畸变矫正和极线矫正,且已标注左目图像
视差图的双目图像;
生成对抗网络中,判别器的输入为左目图像及其视差图构成的图像对,其中的图像视差图
为标注的视差图,或者由生成器预测得到的视差图,判别器用于判断输入的视差图的来源;
第二训练数据集中的样本为已经过畸变矫正和极线校正的双目图像,其中部分样本已标注
了左目图像视差图,已标注样本的比例不超过预设的第一阈值,且样本随深度呈长尾分布;
预训练后的视差预测网络DEnet为Student模型,并利用第三训练数据集对其进行训练,将
训练后的Student模型作为内窥镜图像视差预测模型。
存在大量无标签图像,利用这些无标签图像对预训练后的视差预测网络DEnet进行进一步
训练对于保证视差估计精度十分有必要,因此,在本发明的其中一个方案中,会将预训练后
的视差预测网络DEnet作为生成器,建立生成对抗网络,并利用第二训练数据集对其进行训
练,由于第二训练数据集中,仅少部分样本标注了视差图,大部分样本未标注视差图,且样
本随深度呈长尾分布,该训练数据集与实际的内窥镜数据集特性一致,利用该训练数据集
对预训练后的视差预测网络DEnet进行进一步的半监督训练,将训练后的生成器作为内窥
镜图像视差预测模型,能够使模型预测的视差图更接近真实标签的分布,从而有效提高对
内窥镜图像视差估计的精度。
为Teacher模型,为第二训练数据集中未标注的样本标注伪标签,由于Teacher模型已经具
有了较高的视差估计精度,其所标注的伪标签质量较高,因此,经过伪标签标注,能够将该
训练数据集转换为与内窥镜图像分布相同、且都标注了标签信息的第三数据集;之后以预
训练后的视差预测网络DEnet作为Student模型,利用第三训练数据集对该Student模型进
行进一步训练,将训练后的Student模型作为内窥镜图像视差预测模型,视差预测精度得到
了进一步提升。
成器,建立生成对抗网络,并利用第二训练数据集对生成对抗网络进行训练时,还包括:建
立置信度网络,并随生成对抗网络一起训练置信度网络;置信度网络用于预测生成器输出
的视差图中各像素视差的置信度;置信度的取值范围为[0,1],且置信度越高,相应的像素
视差的预测结果越准确;
相应的损失值时作为像素视差的预测误差的权重。
时,会建立并训练置信度网络,用于预测Teacher模型预测的视差图中各像素视差的置信
度,在借助Teacher模型标注的伪标签对Student模型进行训练时,会将练置信度网络预测
的置信度信息作为伪标签的权重,由此能够有效抑制由于伪标签中的噪声而引入的误差,
进一步提高Student模型的训练效果,提高其对于内窥镜图像视差的预测精度。
为:
度;Lsup表示视差预测结果与标注结果之间的误差。
视差与标注视差之间的误差作为损失值;对于标注了伪标签的样本,则在预测视差与伪标
签之间的误差的基础上,会乘以置信度,以抑制伪标签中的噪声;通过这样的损失计算方
式,能够在Student模型的训练过程中有效抑制由于伪标签中的噪声而引入的误差,进一步
提高Student模型的训练效果,提高其对于内窥镜图像视差的预测精度。
所有的像素点赋予同样的权重,这会导致模型更倾向于预测小深度值,使得模型的整体预
测精度不高;本发明在计算预测视差与标注的视差值之间的误差时,引入像素权重,并且对
于较远区域的像素赋予更大的权重,能够使得在模型训练过程中,更加关注大深度区域的
像素点,从而训练结束后,对于较远的大深度区域中的像素点的视差也能准确预测,因此,
本发明能够进一步提高模型对于内窥镜图像的视差预测精度。
Wasserstein距离。
数时将高光区域去除,能够避免高光区域对训练过程的干扰,进一步提高模型的预测精度。
得到左目图像的特征图;右目特征提取模块用于提取右目图像中不同尺度的特征,并对其
上下文间信息进行融合,得到右目图像的特征图;
望作为对应像素的视差预测结果。
中还包括用于防止梯度消失的跳跃连接。
以获得视差图;
生成对抗网络,并利用与实际的内窥镜数据集特性一致的第二训练数据集对生成对抗网络
中预训练后的视差预测网络DEnet进行半监督训练,将训练后的生成器作为内窥镜图像视
差预测模型,能够使模型预测的视差图更接近真实标签的分布,从而有效提高对内窥镜图
像视差估计的精度。
得到的模型为Teacher模型,利用该Teacher模型为稀疏标签的数据集上标注伪标签,并以
预训练后的视差预测网络DEnet为Student模型,利用标注了伪标签的数据集对其进行训
练,能够进一步提高模型对于内窥镜视差的预测精度。
Confnet对伪标签进行置信度评估,并将置信度作为预测值的权重,从而抑制了伪标签中的
噪声,进一步提高了模型的预测精度。
赋予更大的权重,能够使得在模型训练过程中,更加关注大深度区域的像素点,从而训练结
束后,对于较远的大深度区域中的像素点的视差也能准确预测,因此,本发明能够进一步提
高模型对于内窥镜图像的视差预测精度。
精度。
附图说明
模块示意图;
PSMnet网络进行深度估计的误差图,(d)利用为本发明实施例1建立的视差预测模型进行深
度估计的误差图;
Teacher模型进行深度估计的误差图,(d)为利用训练后的Student模型进行深度估计的误
差图。
具体实施方式
不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要
彼此之间未构成冲突就可以相互组合。
整体思路在于:建立用于预测双目图像视差图的视差预测网络DEnet并对其进行预训练,基
于此建立生成对抗网络,并利用同时包含有标签训练数据和无标签训练数据的第二训练数
据集对生成对抗网络中预训练后的视差预测网络DEnet进行半监督训练,充分利用无标签
图像进行训练。在此基础上,进一步建立Teacher‑Student模型,使用无标签图像的伪标签
和对应的置信度训练Student模型,通过这种方式使Student模型对Teacher模型进行知识
蒸馏,从而使Student模型取得更高的预测精度。
Atten CNN模块,以及输出模块;
目特征提取模块用于提取左目图像中不同尺度的特征,并对其上下文间信息进行融合,得
到左目图像的特征图;右目特征提取模块用于提取右目图像中不同尺度的特征,并对其上
下文间信息进行融合,得到右目图像的特征图;
是C×H×W×D的四维特征立方体,C、H、W、D分别表示通道数、高度、宽度和视差范围;视差范
围D可根据实际的应用场景相应设定,可选地,本实施例中,预设的视差范围D为200px;
望作为对应像素的视差预测结果;
块;3D Atten CNN模块中还包括用于防止梯度消失的跳跃连接;
置操作,并将其与转置前的特征立方体相乘,经过softmax即可得到每个通道与其他通道间
的注意力值;将注意力值与输入的特征立方体先后进行相乘和相加,最终可以得到特征间
增强后的特征立方体;
视差值和概率计算期望,即可得到相应像素的最终视差值,具体计算公式如下:
多,因此在预训练时使用公开的SceneFlow合成双目数据集进行预训练,降低后续步骤中迁
移到内窥镜数据集上的难度;
作为预训练中采用的训练数据集;
用于判断输入的视差图的来源,即判断输入的图像对中的视差图是标注的视差图还是由生
成器预测得到的视差图;
样本随深度呈长尾分布;该训练数据集与实际的内窥镜数据集特性一致,其中已标注视差
图的样本构成有标签样本集合M,未标注视差图的样本构成无标签样本集合N;为了尽量使
第二训练数据集的特性接近与实际的内窥镜数据集,可选地,本实施例中,第一阈值具体设
定为2%;
为“假”;可选地,本实施例中,判别器Discriminator使用了4个卷积层将输入的图像对转为
与其对应的得分图,每个得分表明其对应的图像对感受野是否为“真”;这样使用真/假图像
对训练,Discriminator可以估计预测值到真实标签的分布距离;通过引入的判别器网络
Discriminator,DEnetT可以使用有标签和无标签图像一起训练;而通过减小真/假图像对
的距离,DEnetT预测无标签图像的视差图会更接近标签的分布,精度更高;
平均值,RD用于保持对判别器的Lipschitz约束;
使判别器将其误判为真实标签;因此使用无标签图像训练DEnetT的损失值计算公式如下:
所有的像素点赋予同样的权重,这会导致模型更倾向于预测小深度值,使得模型的整体预
测精度不高;为了使模型在训练过程中更加关注大深度区域的像素点,从而提高模型的视
差预测精度,本实施例在利用第二训练数据集对生成对抗网络进行训练时,使用有标签样
本训练时,相应的损失值为:
简单地赋予像素权重,保证位于较远区域的像素具有较大的权重,可选地,本实施例中,直
接设置αd为归一化后的像素视差值;基于上述计算式所计算的损失 是一种深度
感知的标签损失。
签图像进行训练,使网络可以更好地预测无标签图像的视差,并将其作为伪标签。
预测生成器输出的视差图中各像素视差的置信度;置信度的取值范围为[0,1],且置信度越
高,相应的像素视差的预测结果越准确;
数,最后一层输出的特征图会通过sigmoid激活函数,将输出的置信度限制在0到1之间。
预测准确,该像素被标记为“1”,否则为“0”,此标记结果作为置信度网络训练的标签信息。
接着通过SGD优化器来降低标记与置信度网络输出之间的交叉熵作为置信度网络训练的损
失函数,具体计算式如下:
用于预测无标签的双目图像的视差图,置信度网络可用于生成该视差图的置信度图;
利用第三训练数据集对Student模型进行训练,将训练后的Student模型作为内窥镜图像视
差预测模型;
签信息的第三数据集;
的损失值时作为像素视差的预测误差的权重,具体地,利用第三训练数据集对Student模型
进行训练时,若输入的样本为原始的已标注的样本,则相应的损失值为:
中各像素视差的置信度;Lsup表示视差预测结果与标注结果之间的误差。
图像输入到模型中之前,需要将左右图像的匹配像素校正到同一水平线上;在实际应用中,
若获取到的原始数据集中,双目图像存在畸变和行不对齐,则在进行模型训练之前,可以先
对双目图像进行畸变矫正和极线矫正,具体方式如下:
矩阵为T:
据内参矩阵和左右相机之间的旋转及平移矩阵对图像进行极线矫正。
模型的训练效果,本实施例还包括:将第二数据集中的双目图像转换到HIS色域后,将其中
饱和度值小于预设的第二阈值且强度值大于预设的第三阈值的像素识别为反光点;可选
地,本实施中,第二阈值设置为0.1,第三阈值设置为0.9;
标签进行置信度评估,并将置信度作为预测值的权重,从而抑制了伪标签中的噪声;
预测精度;
练Teacher模型,即以预训练后的视差预测网络DEnet为生成器,建立生成对抗网络,并利用
第二训练数据集对生成对抗网络进行训练;将训练后的生成对抗网络中的生成器作为内窥
镜图像视差预测模型。
预测模型,以获得视差图;
提供的内窥镜图像深度估计方法。
像素被赋值为“0”;误差>3px时认为预测错误,并将该点像素赋值为“1”。因此误差图为二值
图像,白色点越多代表预测效果越差。具体如图6所示,其中,(a)中的两幅图像,分别为输入
到模型中的两幅左目图像,(b)、(c)、(d)分别为GAnet、PSMnet以及上述实施例1预测的对应
的误差图像。由图6可见,上述实施例1提出的内窥镜图像视差预测模型与其他两种方法(即
GAnet、PSMnet)相比,预测错误点更少。尤其在器官的边缘部位,上述实施例1的估计更加准
确。
模型,上述实施例2所建立的模型即Teacher模型,误差图的生成方式与图6相同。测试结果
如图7所示,其中,(a)中的两幅图像,分别为输入到模型中的两幅左目图像,(b)、(c)、(d)分
别为DEnet网络、Teacher模型和Student模型的误差图。由图6可见,随着加入判别器训练
DEnet得到Teacher模型和使用置信度网络做置信度估计训练Student模型,模型的预测精
度得到了进一步提升,尤其在光照区域和边缘部位等。经过实验测试,最终Student模型在
视差平均误差上,相比GAnet降低0.23px、比PSMnet降低0.13px,百分比提升分别为22.77%
和14.29%。
在本发明的保护范围之内。