一种模型训练方法、装置、服务器及存储介质转让专利

申请号 : CN202010061758.1

文献号 : CN111275104A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 范伟亚黄访

申请人 : 重庆金山医疗技术研究院有限公司

摘要 :

本发明实施例公开了一种模型训练方法、装置、服务器及存储介质,其中方法包括:获取初始检测模型,初始检测模型是根据第一样本集训练得到的,第一样本集包括:关于第一检测部位的样本检测图像,初始检测模型用于识别检测设备对第一检测部位进行检测采集的目标检测图像的图像特征;获取第二样本集,第二样本集的样本数量小于第一样本集的样本数量,第二样本集包括:关于第二检测部位的样本检测图像;根据第二样本集,调整初始检测模型的模型参数,得到目标检测模型,目标检测模型用于识别检测设备对第二检测部位进行检测采集的目标检测图像的图像特征,可快速进行模型训练,并得到性能较好的模型。

权利要求 :

1.一种用于图像检测的模型训练方法,其特征在于,包括:

获取初始检测模型,所述初始检测模型是根据第一样本集训练得到的,所述第一样本集包括:关于第一检测部位的样本检测图像,所述初始检测模型用于识别检测设备对所述第一检测部位进行检测采集的目标检测图像的图像特征;

获取第二样本集,所述第二样本集的样本数量小于所述第一样本集的样本数量,所述第二样本集包括:关于第二检测部位的样本检测图像;

根据所述第二样本集,调整所述初始检测模型的模型参数,得到目标检测模型,所述目标检测模型用于识别所述检测设备对所述第二检测部位进行检测采集的目标检测图像的图像特征。

2.根据权利要求1所述的方法,其特征在于,所述获取初始检测模型,包括:获取第一样本集,并将所述第一样本集中的各样本检测图像输入基础检测网络,以对所述基础检测网络进行训练;

在对所述基础检测网络的训练达到最优时,将训练后的最优基础检测网络作为初始检测模型。

3.根据权利要求1所述的方法,其特征在于,所述根据所述第二样本集,调整所述初始检测模型的模型参数,得到目标检测模型,包括:将所述第二样本集中的各样本检测图像输入所述初始检测模型,并对所述初始检测模型进行训练;

在对所述初始检测模型的训练达到最优时,将训练后的最优初始检测模型作为中间检测模型;

对所述中间检测模型进行训练,并在对所述中间检测模型的训练达到最优时,将训练后的最优中间检测模型作为目标检测模型。

4.根据权利要求3所述的方法,其特征在于,所述将所述第二样本集中的各样本检测图像输入所述初始检测模型,并对所述初始检测模型进行训练,包括:获取所述初始检测模型的初始模型结构,所述初始模型结构包括以下一种或多种:所述初始检测模型的网络层数,每层网络对应的激活函数,以及每层网络的神经元个数;

调整所述初始检测模型的网络层数,所述每层网络对应的激活函数,或者,所述每层网络对应的神经元个数,得到中间检测模型对应的中间模型结构;

将所述第二样本集中的各样本检测图像输入所述中间模型结构,以确定所述中间模型结构的模型参数。

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

采用优化算法对所述中间模型结构的模型参数进行优化;

在所述中间模型结构的模型参数达到最优时,确定对所述初始检测模型的训练达到最优。

6.根据权利要求3所述的方法,其特征在于,所述中间检测模型对应的中间模型结构包括:一个或多个全连接层;所述第二样本集被按照预设的划分比例划分为:训练样本集;

所述对所述中间检测模型进行训练,包括:

确定对所述全连接层进行约束的目标损失函数;

基于所述各全连接层对应的目标损失函数的约束,将所述第二样本集中的训练样本集包括的各样本检测图像输入所述中间检测模型,以对所述中间检测模型进行训练。

7.根据权利要求6所述的方法,其特征在于,若所述中间检测模型包括第一全连接层和第二全连接层;所述目标损失函数是由第一损失函数和第二损失函数组合得到的,所述第一损失函数用于对所述第一全连接层进行约束,所述第二损失函数用于对所述第二全连接层进行约束。

8.一种用于图像检测的模型训练装置,其特征在于,包括:

获取单元,用于获取初始检测模型,所述初始检测模型是根据第一样本集训练得到的,所述第一样本集包括:关于第一检测部位的样本检测图像,所述初始检测模型用于识别检测设备对所述第一检测部位进行检测采集的目标检测图像的图像特征;

所述获取单元,还用于获取第二样本集,所述第二样本集的样本数量小于所述第一样本集的样本数量,所述第二样本集包括:关于第二检测部位的样本检测图像;

调整单元,用于根据所述第二样本集,调整所述初始检测模型的模型参数,得到目标检测模型,所述目标检测模型用于识别所述检测设备对所述第二检测部位进行检测采集的目标检测图像的图像特征。

9.一种服务器,其特征在于,包括处理器、存储器和通信接口,所述处理器、所述存储器和所述通信接口相互连接,其中,所述存储器用于存储计算机程序指令,所述处理器被配置用于执行所述程序指令,实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。

说明书 :

一种模型训练方法、装置、服务器及存储介质

技术领域

[0001] 本申请涉及计算机技术领域,尤其涉及一种用于图像检测的模型训练方法、装置、服务器及存储介质。

背景技术

[0002] 随着计算机技术的不断深入发展,传统的基于机器学习方法进行图像识别的过程为,获取样本图像,特征提取,构建分类器,并将提取的特征输入到分类器中以实现对种类的识别,而传统的机器学习方法需要依赖于人工进行特征提取,而且,为了训练得到较好的训练模型,需要获取的样本图像的数量往往是非常庞大的,可见,在采用当前的模型训练方法进行模型训练时,样本图像的获取过程常耗费大量的时间和成本,而且,如果在进行特征提取时,提取到的特征数量较少,可能导致对模型的训练不够充分,而导致训练得到的模型的性能较差,泛化性不强的问题。由此可见,如何快速进行模型训练,且同时得到性能较好的模型,是当前模型训练过程中的研究热点。

发明内容

[0003] 本发明实施例提供了一种用于图像检测的模型训练方法、装置、服务器及存储介质,可快速进行模型训练,并得到性能较好的模型。
[0004] 一方面,本发明实施例提供了一种用于图像检测的模型训练方法,所述方法包括:
[0005] 获取初始检测模型,所述初始检测模型是根据第一样本集训练得到的,所述第一样本集包括:关于第一检测部位的样本检测图像,所述初始检测模型用于识别检测设备对所述第一检测部位进行检测采集的目标检测图像的图像特征;
[0006] 获取第二样本集,所述第二样本集的样本数量小于所述第一样本集的样本数量,所述第二样本集包括:关于第二检测部位的样本检测图像;
[0007] 根据所述第二样本集,调整所述初始检测模型的模型参数,得到目标检测模型,所述目标检测模型用于识别所述检测设备对所述第二检测部位进行检测采集的目标检测图像的图像特征。
[0008] 另一方面,本发明实施例提供了一种用于图像检测的模型训练装置,所述装置包括:
[0009] 获取单元,用于获取初始检测模型,所述初始检测模型是根据第一样本集训练得到的,所述第一样本集包括:关于第一检测部位的样本检测图像,所述初始检测模型用于识别检测设备对所述第一检测部位进行检测采集的目标检测图像的图像特征;
[0010] 所述获取单元,还用于获取第二样本集,所述第二样本集的样本数量小于所述第一样本集的样本数量,所述第二样本集包括:关于第二检测部位的样本检测图像;
[0011] 调整单元,用于根据所述第二样本集,调整所述初始检测模型的模型参数,得到目标检测模型,所述目标检测模型用于识别所述检测设备对所述第二检测部位进行检测采集的目标检测图像的图像特征。
[0012] 再一方面,本发明实施例提供了一种服务器,包括处理器、存储器和通信接口,所述处理器、所述存储器和所述通信接口相互连接,其中,所述存储器用于存储计算机程序指令,所述处理器被配置用于执行所述程序指令,执行如下步骤:
[0013] 获取初始检测模型,所述初始检测模型是根据第一样本集训练得到的,所述第一样本集包括:关于第一检测部位的样本检测图像,所述初始检测模型用于识别检测设备对所述第一检测部位进行检测采集的目标检测图像的图像特征;
[0014] 获取第二样本集,所述第二样本集的样本数量小于所述第一样本集的样本数量,所述第二样本集包括:关于第二检测部位的样本检测图像;
[0015] 根据所述第二样本集,调整所述初始检测模型的模型参数,得到目标检测模型,所述目标检测模型用于识别所述检测设备对所述第二检测部位进行检测采集的目标检测图像的图像特征。
[0016] 再一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
[0017] 在本发明实施例中,服务器在确定对第二部位的检测图像的图像特征进行特征识别的目标检测模型时,可先获取基于第一样本集训练得到的初始检测模型,该初始检测模型用于对第一检测部位的目标检测图像的图像特征进行识别,进一步地,服务器可获取小数量的对第二检测部位进行检测时采集到的样本检测图像,从而可基于对第二检测部位进行检测时采集到的样本检测图像的图像特征,对该初始检测模型的模型参数进行调整,以得到用于对第二检测部位的检测图像的图像特征进行识别的目标检测模型,实现了基于较小数量的第二检测部位的样本,对目标检测模型的训练过程,有效减轻了对第二检测部位的检测图像样本的获取压力,从而提升了对用于识别第二检测部位的图像特征的目标检测模型的准确率,且可有效提升目标检测模型的泛化性。

附图说明

[0018] 为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019] 图1是本发明实施例提供的一种用于图像检测的模型训练方法的示意图;
[0020] 图2是本发明实施例提供的一种用于图像检测的模型训练方法的示意流程图;
[0021] 图3是本发明实施例提供的一种模型训练的示意图;
[0022] 图4是本发明另一实施例提供的一种用于图像检测的模型训练方法的示意流程图;
[0023] 图5是本发明实施例提供的一种训练后的模型的输出特征的示意图;
[0024] 图6是本发明另一实施例提供的一种训练后的模型的输出特征的示意图;
[0025] 图7是本发明实施例提供的一种用于图像检测的模型训练装置的示意性框图;
[0026] 图8是本发明实施例提供的一种服务器的示意性框图。

具体实施方式

[0027] 本发明实施例提出了一种用于图像检测的模型训练方法,该模型训练方法得到的目标检测模型用于对特定检测部位的目标检测图像进行识别,得到对应检测图像的图像特征,在一个实施例中,在基于深度学习的模型训练方法中,为了保证训练得到的模型(如目标模型)的准确性和可靠性,必须有足够可利用的样本检测图像进行模型训练,才能基于深度学习得到准确度较高的目标模型。而在用于对该目标检测模型进行训练的特点检测部位的图像样本较少时,可采用迁移学习和联合损失的模型训练方法,以实现对目标模型的训练。其中,迁移学习的方法可减少对样本检测图像中标注信息依赖,从而通过已有数据模型之间的迁移,实现基于较少数据量的样本,完成对目标模型的训练过程。
[0028] 在一个实施例中,所述目标模型可为用于确定第二检测部位的目标检测图像对应图像特征的模型,若第二检测部位对应的样本检测图像数量较少,可采用第一检测部位的较多的样本检测图像进行模型训练,得到用于检测该第一检测部位的样本检测图像的图像特征的初始检测模型,进一步地,可结合迁移学习和联合损失的模型训练方法,基于该初始检测模型和第二检测部位对应的样本检测图像确定出目标检测模型,从而实现了在第二检测部位对应的样本检测图像较少时,对用于检测第二检测部位的目标检测模型的训练过程,提升了对目标检测模型的训练效率。在一个实施例中,在对样本检测图像的图像特征进行识别时,由于不同检测部位的样本检测图像之间具有相同的底层图像特征,如边缘特征,视觉形状特征,几何变化特征以及光照变化特征等,这些底层图像特征可用于分类,或者目标识别等,从而可基于迁移学习的思想,将基于第一检测对象的样本检测图像训练得到的初始检测模型作为一个通用的图像特征提取器,并可将提取到的通用图像特征迁移到第二检测部位的识别领域,从而减少对进行目标模型训练时,对第二检测部位的样本检测图像的样本量需求,使得服务器可基于少量的第二检测部位的样本检测图像训练出准确度较高的目标检测模型。
[0029] 在一个实施例中,可参见如图1所示的一种用于图像检测的模型训练方法的示意图,如图1所示,服务器可先利用同领域的其他样本数据集对深度网络模型进行预训练(如可将所述其他样本数据集输入如图1所示的学习系统进行预训练),构建初始化参数的深度学习模型(即初始检测模型),举例来说,若服务器期望得到的目标检测模型为用于确定第二检测部位的目标检测图像对应的图像特征的模型(即模型特征知识),所述服务器可通过第一检测部位的样本检测图像,构建初始化参数的用于对第一检测部位的目标检测图像进行特征识别的初始检测模型。进一步地,服务器在确定出初始检测模型后,可再利用第二检测部位的样本检测图像对该初始检测模型的初始化参数进行微调训练,实现对图像特征知识的迁移,实现了对第一检测部位的样本检测图像的图像特征的充分利用,同时可通过迁移学习解决第二检测部位对应样本检测图像的数据量过小和数据分布差异导致训练得到的目标模型的检测准确性过低的问题。
[0030] 在一个实施例中,服务器在利用第二检测部位的样本检测图像对初始检测模型的初始化参数进行微调训练后,可得到中间检测模型,并在得到所述中间检测模型后,服务器可采用预设的目标损失函数对该中间检测模型进行进一步的优化训练,优化后的中间检测模型即为目标检测模型,可使得采用第一检测部位的样本检测图像进行训练得到的初始检测模型的图像特征学习具有更高的辨别能力,可提升学习得到的目标检测模型的泛化性,提升了目标检测模型对第二检测部位的目标检测图像的图像特征的识别准确性,其中,所述预设的目标损失函数可以是基于交叉熵损失函数和中心损失函数进行组合得到的联合损失函数。
[0031] 请参见图2,是本发明实施例提出的一种用于图像检测的模型训练方法的示意流程图,如图2所示,该方法可包括:
[0032] S201,获取初始检测模型。
[0033] 在一个实施例中,所述初始检测模型是根据第一样本集训练得到的,所述第一样本集包括:关于第一检测部位的样本检测图像,对应的,所述初始检测模型用于识别检测设备对所述第一检测部位进行检测采集的目标检测图像的图像特征,所述检测设备根据第一检测部位的不同而有所区别,在所述第一检测部位为喉,或者胃部时,对应的检测设备可以为内窥镜或者胶囊内窥镜等,所述第一检测部位对应的样本检测图像的采集较第二检测部位对应的样本检测图像的采集过程而言更为简单,所以,可采用具有较大样本数量的第一样本集中的样本检测图像进行深度学习网络的预训练过程,得到用于对第一检测部位的初始检测模型。
[0034] 在一个实施例中,服务器在获取到一定数量的对第一检测部位进行检测时采集到的样本检测图像后,可基于该第一样本集中的各样本检测检测图像对深度网络模型(即基础检测网络)进行预训练,以构建初始化参数的深度网络模型,具体地,可在采用该第一样本集中的大数据量的各样本检测图像对该基础检测网络进行预训练,并在确定对该基础检测网络的训练达到最优时,停止对该基础检测网络的训练,得到初始化参数的初始检测模型,该初始检测模型用于检测第一检测部位的目标检测图像的图像特征,其中,服务器可在检测到预训练完成后的模型对第一检测部位的检测准确率满足预设的准确率阈值时,确定对该基础检测网络的训练达到最优。进一步地,为了基于该初始检测模型确定出用于对第二检测部位的目标检测图像的图像特征进行识别的目标检测模型,可基于模型的知识迁移学习算法,以第二样本集中的样本检测图像对初始检测模型的初始化模型参数进行调整,得到用于对第二部位进行检测的检测模型。
[0035] S202,获取第二样本集,所述第二样本集的样本数量小于所述第一样本集的样本数量。
[0036] 在一个实施例中,所述第二样本集包括:关于第二检测部位的样本检测图像,所述服务器在根据第一样本集中各样本检测图像确定出用于对第一检测部位的目标检测图像的图像特征进行识别的初始检测模型后,进一步地,可获取对第二检测部位进行检测时采集到的样本检测图像,以基于该第二检测部位的样本检测图像对应的图像特征,实现对该初始检测模型的初始参数的调整,其中,所述第二样本检测图像集中的样本数量小于所述第二样本集中的样本数量,该样本数量是指对应样本检测图像集中图像的数量,而且,该第二样本集中的样本数量和该第一样本集中的样本数量具有明显的数量级差异,该第一样本集为进行深度学习模型训练的样本检测图像,对应的样本集数量为千万级或者百万级数量的检测样本,而第二样本集只基于该样本集中的样本检测图像的图像特征,对由第一样本集训练得到的初始检测模型的初始化参数进行参数的迁移,所以,该第二样本集对应的样本数量为千张数量级别或者几万张数量的检测图像样本。
[0037] 在一个实施例中,该第二样本集各样本检测图像对应的第二检测部位和该第一样本集中各样本检测图像对应的第一检测部位不同,该第一检测部位可以是上述的胃部或者喉部等,该第二检测部位可以是小肠等对应检测图像样本不容易获得的部位,或者是对获得的检测图像样本的标注较难的检测部位等。服务器在基于第二样本集中第二检测部位的样本检测图像对应的图像特征,对初始检测模型的模型参数进行调整时,可针对第二检测部位的检测图像的识别做知识迁移,以实现对该初始检测模型的调整,所述服务器在基于第二检测部位的样本检测图像对初始检测模型做知识迁移后,可得到中间检测模型,从而可进一步基于第二样本集中各样本检测图像的图像特征对中间检测模型进行训练,得到用于检测第二检测部位的目标检测模型,即可转而执行步骤S203。
[0038] S203,根据所述第二样本集,调整所述初始检测模型的模型参数,得到目标检测模型,所述目标检测模型用于识别所述检测设备对所述第二检测部位进行检测采集的目标检测图像的图像特征。
[0039] 在一个实施例中,服务器在基于该第二样本集中各样本检测图像对应的图像特征,调整该初始检测模型的模型参数的过程,即是基于该第二样本集对初始检测模型的模型框架进行再次训练的过程。如图3所示,若所述中间检测模型包括3个全连接层,在基于第二样本集中的检测图像对该中间检测模型进行调整时,可保持基础网络层不变,并可移除该中间检测模型的3个全连接层,改为一个全局平均池化连接层和两个全连接层,进一步的,可将第一个全连接层的神经元个数设置为1024,对应的激活函数设置为修正线性单元函数(Rectified Linear Unit,relu),将第二个全连接层的神经元个数设置为该第二检测部位对应的异常类别数,激活函数对应设置为基于逻辑回归(softmax)的交叉熵损失函数。进一步地,可采用冻结的方法,使得该中间检测模型除顶上三层所有的参数保持不变,并对调整后的顶上三层进行进一步地训练,具体地,可采用随机梯度下降法,将经初始学习设置率设置为0.1,当错误率迭代变化低于阈值时,学习率除以10不断下降,惯性动量为9,权值衰减为0.0001,最大训练迭代次数为1000次,从而可在训练达到最优时,停止训练,得到该中间检测模型。
[0040] 服务器在得到中间检测模型后,可进一步将联合损失函数加入到该中间检测模型中进行训练,首先,可在第一个全连接层使用中心损失函数作为优化的损失函数对输出特征进行约束,以加大类间差,在第二个全连接层则使用softmax交叉熵作为进行优化的损失函数,并输出对第二检测部位的样本检测图像进行识别的识别结果。其中,在基于该第二样本集对中间检测模型进行训练时,可将该第二样本集划分为3部分的样本数据,即训练集数据,验证集数据和测试集数据,对应比例为8:1:1。其中,训练集数据用于对中间检测模型进行训练;验证集数据用于测试在训练阶段的网络模型(或检测模型)对应的当前性能,以监督网络模型的训练过程,并可决定是否终止对模型的训练过程;测试集数据用于对网络模型的最后训练结果进行可视化测试评估,同时对训练数据进行一系列的数据增强处理(旋转、移动、缩放、翻转等方式),以提高就要训练集数据得到的目标网络模型的泛化性能。
[0041] 在一个实施例中,可通过中心损失函数的比重λ平衡softmax交叉熵损失函数及中心损失函数的两个损失函数对应的函数值,从而可加强网络对图像特征的识别能力,一个合适的λ值有助于提高网络模型的准确率,其中,网络模型在中心损失比重λ为0.005时,采用训练集数据对中间检测模型的性能达到最优。在对网络模型的训练过程中,可采用自适应矩阵估计算法(Adaptive moment estimation,Adam)作为损失优化的算法,具体地,可将初始学习率设置为0.0001,为了防止过拟合,可引入提前终止机制(Early Stopping),当验证集数据的损失值在连续迭代10轮,并不再减小时,可停止对中间检测模型的训练。同时,为了保存最优模型参数,引入网络模型的检查机制(Model Checkpoint),在每轮损失值迭代完成之后,通过观察验证集数据的精度是否提高来决定是否将当前停止训练的中间检测模型作为目标网络模型,最终将保存的目标网络模型结构及参数用于对第二检测部位的目标检测图像进行识别,如可对胶囊内镜的小肠病灶对应的目标检测图像进行图像识别。
[0042] 在本发明实施例中,服务器在确定对第二部位的目标检测图像的图像特征进行特征识别的目标检测模型时,可先获取基于第一样本集训练得到的初始检测模型,该初始检测模型用于对第一检测部位的目标检测图像的特征进行识别,进一步地,服务器可获取小数量的关于第二检测部位的样本检测图像,从而可基于对样本检测图像的特征,对该初始检测模型的模型参数进行调整,以得到用于对第二检测部位的目标检测图像的图像特征进行识别的目标检测模型,实现了基于较小数量的第二检测部位的样本,对目标检测模型的训练过程,有效减轻了对第二检测部位的检测图像样本的获取压力,从而提升了对用于识别第二检测部位的图像特征的目标检测模型的准确率,且可有效提升目标检测模型的泛化性。
[0043] 请参见图4,是本发明另一实施例提出的一种用于图像检测的模型训练方法的示意流程图,如图4所示,该方法可包括:
[0044] S401,获取初始检测模型,所述初始检测模型是根据第一样本集训练得到的,所述第一样本集包括:关于第一检测部位的样本检测图像,所述初始检测模型用于识别检测设备对所述第一检测部位进行检测采集的目标检测图像的图像特征。
[0045] S402,获取第二样本集,所述第二样本集的样本数量小于所述第一样本集的样本数量,所述第二样本集包括:关于第二检测部位的样本检测图像。
[0046] 在一个实施例中,步骤S401和步骤S402的具体实施方式可参见上述实施例中步骤S201和步骤S202的具体实施方式,在此不再赘述。
[0047] S403,将所述第二样本集中的各样本检测图像输入所述初始检测模型,并对所述初始检测模型进行训练。
[0048] 在一个实施例中,服务器在获取到第二样本集,并基于该第二样本集中的各样本检测图像对初始检测模型进行训练时,可先将该第二样本集中的各样本检测图像输入到初始检测模型中,以对该初始检测模型进行训练,具体地,服务器可先获取所述初始检测模型的初始模型结构,所述初始模型结构包括以下一种或多种:所述初始检测模型的网络层数,每层网络对应的激活函数,以及每层网络的神经元个数;进一步地,服务器可调整所述初始检测模型的网络层数,所述每层网络对应的激活函数,或者,所述每层网络对应的神经元个数,得到中间检测模型对应的中间模型结构;从而可将所述第二样本集中的各样本检测图像输入所述中间模型结构,以确定所述中间模型结构的模型参数。其中,该第二样本集中的各样本检测图像为对第二检测部位进行检测时采集到的各检测图像,该初始检测模型的模型结构例如可以是上述的包括三个全连接层的模型结构,中间模型结构则例如可以是将该三个全连接层改为一个全局平均池化层和两个全连接层的结构。
[0049] 在一个实施例中,在所述服务器确定出中间模型结构,以及该中间模型结构对应的模型参数后,为了对该中间模型结构进行优化,进一步地,可采用优化对所述中间模型结构的模型参数进行优化;并可在服务器对所述中间模型结构的模型参数的训练达到最优时,确定对所述初始检测模型的训练达到最优,其中,所述优化算法包括随机梯度下降算法,适应性矩阵(Adaptive Moment Estimation,Adam)优化算法,响应面(Response Surface Methodology,RSM)优化算法,以及面向返回的(Return-Oriented Programming,ROP)优化算法等。进一步地,在所述服务器确定对初始检测模型的训练达到最优后,可转而执行步骤S404和步骤S405,以得到目标检测模型。
[0050] S404,在对所述初始检测模型的训练达到最优时,将训练后的最优初始检测模型作为中间检测模型。
[0051] S405,对所述中间检测模型进行训练,并在对所述中间检测模型的训练达到最优时,将训练后的最优中间检测模型作为目标检测模型。
[0052] 在步骤S404和步骤S405中,所述中间检测模型对应的中间模型结构可以为包括:一个或多个全连接层的模型结构,所述第二样本集被按照预设的划分比例划分为:训练样本集,验证样本集,以及测试样本集。服务器在确定出中间检测模型后,可进行一对中间检测模型进行训练,具体地,服务器可先确定对所述全连接层进行约束的目标损失函数;从而可基于所述各全连接层对应的目标损失函数的约束,将所述第二样本集中的训练样本集包括的各样本检测图像输入所述中间检测模型,以对所述中间检测模型进行训练。
[0053] 在一个实施例中,所述服务器确定的对全连接层进行约束的目标损失函数为基于中心损失函数和softmax损失函数确定的联合损失函数,其中,在深度模型训练的前向传播中,可通过网络模型的最后一层的预测结果与真实结果的比较得到损失函数值,从而可通过计算预测结果和真实结果之间的误差值反向传播实现对网络模型的所有权值的更新。在一个实施例中,可以softmax交叉熵损失函数作为网络模型训练过程的优化损失函数,该softmax交叉熵损失函数的定义如下:
[0054]
[0055] 其中,m、n分别表示输入网络模型进行训练的样本的数量和类别数,xi为第i个特征,Wj为全连接层中权重的第j列,b为偏置。采用上述的softmax作为损失函数训练得出的网络模型具有较好的可分性,但是并不能使网络模型有效地的学习得到使得类内较紧凑、类间较离散的特征,从式1.2中softmax交叉熵损失函数的梯度更新公式中可以看出,在更新该函数的参数时,网络模型只顾及当前j类,并惩罚其他类,使特征具备可分性,但却对类内距离没有进行约束,最后的结果是学习到的特征虽然可分,但类内间距过大,模型特征判别能力差。
[0056]
[0057] 其中,m为样本数量,x(i)为输入特征;y(i)为第i类别,p(y(i)=j|x(i);θ)为x(i)被分为第j类的概率,θ为需要训练的参数,即权重与偏置。
[0058] 为了解决上述的网络模型对图像识别的特征识别能力较差的问题,可引入中心损失函数,其中,中心损失函数的定义为:
[0059]
[0060] 其中,cyi则表示该第i张样本所属分类的中心,xi表示第i张样本(即对应检测部位的检测图像)的特征值。
[0061] 在一个实施例中,中心损失函数的基本思想与聚类相似,通过在一个批次中对每一类特征都选择一个类中心,并计算每个样本的特征离特征中心的距离的平方和,使这个距离越小越好,也就是类内距离要越小越好。所以本发明提出softmax交叉熵损失函数和中心损失函数相结合的联合损失函数的方法作为深度模型训练的监督信号进行训练,在特征层对距离类中心远的特征进行惩罚,从而在增大类间距离的同时,减小类内距离,使其学习到的特征具有更好的紧凑性,弥补仅使用softmax交叉熵损失函数的不足,减小误识别率。基于softmax交叉熵损失函数和中心损失函数组成的联合损失为:
[0062]
[0063] 其中,λ用来平衡两种损失的比重且λ∈(0,0.1)。为了直观展示联合损失的效果,可常见图像特征的第二检测部位的检测图像,如可使用13种常见小肠病灶图像进行图像特征提取,如图5所示,从图5中的图像可以看出仅使用softmax交叉熵损失函数时模型输出的特征类与类之间较为紧凑,而如图6所示,从图6中的图像可以看出使用联合损失时模型输出的特征类内较为紧凑、类间较为离散。
[0064] 在一个实施例中,在所述中间检测模型包括第一全连接层和第二全连接层时,所述服务器在确定对所述全连接层进行约束的目标损失函数时,可先确定对所述第一全连接层进行约束的第一损失函数,以及对所述第二全连接层进行约束的第二损失函数;从而可将由所述第一损失函数和第二损失函数组合得到的联合损失函数作为目标损失函数。
[0065] 在本发明实施例中,服务器在获取到基于第一样本集训练得到的初始检测模型,以及第二样本集后,可将所述第二样本集中的样本检测图像输入该初始检测模型,以对该初始检测模型进行训练,在对该初始检测模型的训练达到最优时,可将训练后的最优初始检测模型作为中间检测模型,并对该中间检测模型进行训练,在该中间检测模型达到最优时,将训练后的最优中间检测模型作为目标检测模型,实现了基于初始检测模型和小数量的第二样本集对初始检测模型训练得到目标检测模型的过程,而且基于由中心损失函数构建的联合损失函数,对该目标检测模型训练过程的优化,可提升该目标检测模型对检测部位的特征判别的正确率,从而提升目标检测模型进行图像特征识别的准确性。
[0066] 基于上述用于图像检测的模型训练方法实施例的描述,本发明实施例还提出了一种模型训练装置,该模型训练装置可以是运行于上述服务器中的一个计算机程序(包括程序代码)。该用于图像检测的模型训练装置可用于执行如图2和图4所述的用于图像检测的模型训练方法,请参见图7,该用于图像检测的模型训练装置可包括:获取单元701和调整单元702。
[0067] 获取单元701,用于获取初始检测模型,所述初始检测模型是根据第一样本集训练得到的,所述第一样本集包括:关于第一检测部位的样本检测图像,所述初始检测模型用于识别检测设备对所述第一检测部位进行检测采集的目标检测图像的图像特征;
[0068] 所述获取单元701,还用于获取第二样本集,所述第二样本集的样本数量小于所述第一样本集的样本数量,所述第二样本集包括:关于第二检测部位的样本检测图像;
[0069] 调整单元702,用于根据所述第二样本集,调整所述初始检测模型的模型参数,得到目标检测模型,所述目标检测模型用于识别所述检测设备对所述第二检测部位进行检测采集的目标检测图像的图像特征。
[0070] 在一个实施例中,所述获取单元701,具体用于:
[0071] 获取第一样本集,并将所述第一样本集中的各样本检测图像输入基础检测网络,以对所述基础检测网络进行训练;
[0072] 在对所述基础检测网络的训练达到最优时,将训练后的最优基础检测网络作为初始检测模型。
[0073] 在一个实施例中,所述调整单元702,具体用于:
[0074] 将所述第二样本集中的各样本检测图像输入所述初始检测模型,并对所述初始检测模型进行训练;
[0075] 在对所述初始检测模型的训练达到最优时,将训练后的最优初始检测模型作为中间检测模型;
[0076] 对所述中间检测模型进行训练,并在对所述中间检测模型的训练达到最优时,将训练后的最优中间检测模型作为目标检测模型。
[0077] 在一个实施例中,所述调整单元702,具体用于:
[0078] 获取所述初始检测模型的初始模型结构,所述初始模型结构包括以下一种或多种:所述初始检测模型的网络层数,每层网络对应的激活函数,以及每层网络的神经元个数;
[0079] 调整所述初始检测模型的网络层数,所述每层网络对应的激活函数,或者,所述每层网络对应的神经元个数,得到中间检测模型对应的中间模型结构;
[0080] 将所述第二样本集中的各样本检测图像输入所述中间模型结构,以确定所述中间模型结构的模型参数。
[0081] 在一个实施例中,所述装置还包括:优化单元703和确定单元704。
[0082] 优化单元703,用于采用优化算法对所述中间模型结构的模型参数进行优化;
[0083] 确定单元704,用于在所述中间模型结构的模型参数达到最优时,确定对所述初始检测模型的训练达到最优。
[0084] 在一个实施例中,所述中间检测模型对应的中间模型结构包括:一个或多个全连接层;所述第二样本集被按照预设的划分比例划分为:训练样本集;
[0085] 所述调整单元702,具体用于:
[0086] 确定对所述全连接层进行约束的目标损失函数;
[0087] 基于所述各全连接层对应的目标损失函数的约束,将所述第二样本集中的训练样本集包括的各样本检测图像输入所述中间检测模型,以对所述中间检测模型进行训练。
[0088] 在一个实施例中,若所述中间检测模型包括第一全连接层和第二全连接层;所述目标损失函数是由第一损失函数和第二损失函数组合得到的,所述第一损失函数用于对所述第一全连接层进行约束,所述第二损失函数用于对所述第二全连接层进行约束。
[0089] 在本发明实施例中,在确定对第二部位的目标检测图像的图像特征进行特征识别的目标检测模型时,获取单元701可先获取基于第一样本集训练得到的初始检测模型,该初始检测模型用于对第一检测部位的目标检测图像的特征进行识别,进一步地,所述获取单元701可获取小数量的关于第二检测部位的样本检测图像,从而调整单元702可基于样本检测图像的特征,对该初始检测模型的模型参数进行调整,以得到用于对第二检测部位的目标检测图像的图像特征进行识别的目标检测模型,实现了基于较小数量的第二检测部位的样本,对目标检测模型的训练过程,有效减轻了对第二检测部位的检测图像样本的获取压力,从而提升了对用于识别第二检测部位的图像特征的目标检测模型的训练效率,且可有效提升目标检测模型的泛化性。
[0090] 请参见图8,是本发明实施例提供的一种服务器的结构示意性框图。如图8所示的本实施例中的服务器可包括:一个或多个处理器801;一个或多个输入设备802,一个或多个输出设备803和存储器804。上述处理器801、输入设备802、输出设备803和存储器804通过总线805连接。存储器804用于存储计算机程序,所述计算机程序包括程序指令,处理器801用于执行所述存储器804存储的程序指令。
[0091] 所述存储器804可以包括易失性存储器(volatile memory),如随机存取存储器(random-access memory,RAM);存储器804也可以包括非易失性存储器(non-volatile memory),如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储器804还可以包括上述种类的存储器的组合。
[0092] 所述处理器801可以是中央处理器(central processing unit,CPU)。所述处理器801还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)等。该PLD可以是现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)等。所述处理器801也可以为上述结构的组合。
[0093] 本发明实施例中,所述存储器804用于存储计算机程序,所述计算机程序包括程序指令,处理器801用于执行存储器804存储的程序指令,用来实现上述如图2和图4中相应方法的步骤。
[0094] 在一个实施例中,所述处理器801被配置调用所述程序指令,用于执行:
[0095] 获取初始检测模型,所述初始检测模型是根据第一样本集训练得到的,所述第一样本集包括:关于第一检测部位的样本检测图像,所述初始检测模型用于识别检测设备对所述第一检测部位进行检测采集的目标检测图像的图像特征;
[0096] 获取第二样本集,所述第二样本集的样本数量小于所述第一样本集的样本数量,所述第二样本集包括:关于第二检测部位的样本检测图像;
[0097] 根据所述第二样本集,调整所述初始检测模型的模型参数,得到目标检测模型,所述目标检测模型用于识别所述检测设备对所述第二检测部位进行检测采集的目标检测图像的图像特征。
[0098] 在一个实施例中,所述处理器801被配置调用所述程序指令,用于执行:
[0099] 获取第一样本集,并将所述第一样本集中的各样本检测图像输入基础检测网络,以对所述基础检测网络进行训练;
[0100] 在对所述基础检测网络的训练达到最优时,将训练后的最优基础检测网络作为初始检测模型。
[0101] 在一个实施例中,所述处理器801被配置调用所述程序指令,用于执行:
[0102] 将所述第二样本集中的各样本检测图像输入所述初始检测模型,并对所述初始检测模型进行训练;
[0103] 在对所述初始检测模型的训练达到最优时,将训练后的最优初始检测模型作为中间检测模型;
[0104] 对所述中间检测模型进行训练,并在对所述中间检测模型的训练达到最优时,将训练后的最优中间检测模型作为目标检测模型。
[0105] 在一个实施例中,所述处理器801被配置调用所述程序指令,用于执行:
[0106] 获取所述初始检测模型的初始模型结构,所述初始模型结构包括以下一种或多种:所述初始检测模型的网络层数,每层网络对应的激活函数,以及每层网络的神经元个数;
[0107] 调整所述初始检测模型的网络层数,所述每层网络对应的激活函数,或者,所述每层网络对应的神经元个数,得到中间检测模型对应的中间模型结构;
[0108] 将所述第二样本集中的各样本检测图像输入所述中间模型结构,以确定所述中间模型结构的模型参数。
[0109] 在一个实施例中,所述处理器801被配置调用所述程序指令,用于执行:
[0110] 采用优化算法对所述中间模型结构的模型参数进行优化;
[0111] 在所述中间模型结构的模型参数达到最优时,确定对所述初始检测模型的训练达到最优。
[0112] 在一个实施例中,所述中间检测模型对应的中间模型结构包括:一个或多个全连接层;所述第二样本集被按照预设的划分比例划分为:训练样本集;
[0113] 所述处理器801被配置调用所述程序指令,用于执行:
[0114] 确定对所述全连接层进行约束的目标损失函数;
[0115] 基于所述各全连接层对应的目标损失函数的约束,将所述第二样本集中的训练样本集包括的各样本检测图像输入所述中间检测模型,以对所述中间检测模型进行训练。
[0116] 在一个实施例中,若所述中间检测模型包括第一全连接层和第二全连接层;所述目标损失函数是由第一损失函数和第二损失函数组合得到的,所述第一损失函数用于对所述第一全连接层进行约束,所述第二损失函数用于对所述第二全连接层进行约束。
[0117] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
[0118] 以上所揭露的仅为本发明的局部实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或局部流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。