一种训练集的训练方法及装置转让专利
申请号 : CN201910252738.X
文献号 : CN110070113B
文献日 : 2021-03-30
发明人 : 王子宁
申请人 : 广州思德医疗科技有限公司
摘要 :
权利要求 :
1.一种训练集的训练方法,用于对胶囊内镜所拍摄图片的分类识别过程,其特征在于,包括:
获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;
从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;
从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;
从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;
分别对已构建的第一训练集、第二训练集和第三训练集进行训练;
所述第一训练集包括第一训练子集和第二训练子集,所述第二训练集包括第三训练子集、第四训练子集和第五训练子集;获取所述第一训练子集、所述第二训练子集、所述第三训练子集、所述第四训练子集、所述第五训练子集和所述第三训练集分别对应的训练时长;
若判断获知至少存在一个训练时长达到预设时长,则对达到预设时长的目标训练时长对应的目标训练集进行拆分,以使拆分后的目标训练集对应的训练时长小于所述预设时长。
2.根据权利要求1所述的方法,其特征在于,所述从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,包括:将所述第一训练集拆分为所述第一训练子集和所述第二训练子集;所述第一训练子集为与一类域外分类标签相对应的训练子集、所述一类域外分类标签是基于原始图片的拍摄缺陷、与待检测目标部位无关的拍摄部位确定的;所述第二训练子集为与二类域外分类标签相对应的训练子集、所述二类域外分类标签是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的;
分别从所有样本图片中滤掉与所述第一训练子集和所述第二训练子集分别对应的干扰样本图片,以分别构建所述第一训练子集和所述第二训练子集。
3.根据权利要求2所述的方法,其特征在于,所述从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,包括:将所述第二训练集拆分为所述第三训练子集、所述第四训练子集和所述第五训练子集;所述第三训练子集为与基于局部结构特征的第一目标图片分类标签相对应的训练子集;所述第四训练子集为与洞状结构第一目标图片分类标签相对应的训练子集;所述第五训练子集为与基于全局结构特征的第一目标图片分类标签相对应的训练子集;
分别从所有第一剩余样本图片中滤掉与所述第三训练子集、所述第四训练子集和所述第五训练子集分别对应的第一目标图片,以分别构建所述第三训练子集、所述第四训练子集和所述第五训练子集。
4.根据权利要求3所述的方法,其特征在于,所述分别对已构建的第一训练集、第二训练集和第三训练集进行训练,包括:分别对已构建的所述第一训练子集、所述第二训练子集、所述第三训练子集、所述第四训练子集、所述第五训练子集和所述第三训练集进行训练。
5.一种训练集的训练装置,用于对胶囊内镜所拍摄图片的分类识别过程,其特征在于,包括:
获取单元,用于获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;
第一构建单元,用于从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;
第二构建单元,用于从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;
第三构建单元,用于从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;
训练单元,用于分别对已构建的第一训练集、第二训练集和第三训练集进行训练;
所述第一训练集包括第一训练子集和第二训练子集,所述第二训练集包括第三训练子集、第四训练子集和第五训练子集;获取所述第一训练子集、所述第二训练子集、所述第三训练子集、所述第四训练子集、所述第五训练子集和所述第三训练集分别对应的训练时长;
若判断获知至少存在一个训练时长达到预设时长,则对达到预设时长的目标训练时长对应的目标训练集进行拆分,以使拆分后的目标训练集对应的训练时长小于所述预设时长。
6.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。
7.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至4任一所述的方法。
说明书 :
一种训练集的训练方法及装置
技术领域
背景技术
行训练,需要对训练集进行训练,以便模型能够更加准确地进行图片识别,但是,现有对于
训练集的训练方法,由于构建的训练集不够合理,导致训练后的模型准确度不高。
发明内容
所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定
颜色特征;
摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起
特征和/或指定颜色特征;
本图片;
所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定
颜色特征;
所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定
颜色特征;
提高训练集构建的合理性,进而更加合理地对训练集进行训练。
附图说明
明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根
据这些附图获得其他的附图。
具体实施方式
本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员
在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/
或指定颜色特征。
物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特
征和/或指定颜色特征。需要说明的是:上述干扰样本图片、第一目标图片和第二目标图片
都属于样本图片的范畴,样本图片是从原始图片中选取的、可作为训练样本的图片,该原始
图片是通过胶囊内镜拍摄的,对胶囊内镜的工作过程作如下说明:
尽早剔除这些图片,从而减少训练预设模型过程中的运算量。需要说明的是:干扰样本图片
可以包括全曝光图片,图2(a)~图2(h)均为本发明实施例拍摄的全曝光图片的截图,各图
之间相互独立,都分别是全曝光图片的表现形式。异常特征可以包括凸起特征和/或指定颜
色特征、凸起特征可以包括肿胀、颗粒状物凸起。指定颜色特征可以包括红色、白色,不作具
体限定。当该预设模型输出结果包括第二目标图片时,可以生成针对异常特征的特殊标记,
例如用方框框选异常特征,以指示相关人员对该方框框选部分进行仔细排查,即异常特征
可以作为某些疾病诊断过程中的中间参考特征,仅仅依赖该异常特征还不足以诊断出疾
病。第一目标图片可以包括局部带有形状变化的第一目标图片,具体形状变化的内容可以
包括褶皱、裂隙、交错等,不作具体限定。图3(a)~图3(h)均为本发明实施例拍摄的局部带
有形状变化的第一目标图片的截图,各图之间相互独立,都分别是局部带有形状变化的第
一目标图片的表现形式。第二目标图片可以包括发红、肿胀、糜烂、溃疡等,图4(a)~图4(h)
均为本发明实施例拍摄的带有隆起性糜烂的第二目标图片的截图,各图之间相互独立,都
分别是局部带有隆起性糜烂的第二目标图片的表现形式。
包括{A、B、C},A、B、C分别为干扰样本图片、第一目标图片、第二目标图片,可以理解的是A、
B、C中的每一类都是图片集合,该步骤从样本图片中滤掉A,即构建包含A的第一训练集,将
B、C保留,并作为所有第一剩余样本图片。
片。参照上述举例,具体说明如下:所有第一剩余样本图片包括{B、C},该步骤从所有第一剩
余样本图片中滤掉B,即构建包含B的第二训练集,将C保留,并作为所有第二剩余样本图片。
二剩余样本图片中获取C,即构建包含C的第三训练集。需要说明的是,由于某些图片的特
性,例如易混淆等,导致第二剩余样本图片中可能还会包括除C之外的其它类型的图片,通
过该步骤,可以使得构建出的第三训练集尽可能的包含全部的第二目标图片,而不包含除C
之外的其它类型的图片。
集构建的合理性,进而更加合理地对训练集进行训练。
拍摄缺陷、与待检测目标部位无关的拍摄部位确定的;所述第二训练子集为与二类域外分
类标签相对应的训练子集、所述二类域外分类标签是基于无医学判断价值的原始图片、附
着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的。
于原始图片的拍摄缺陷、与待检测目标部位无关的拍摄部位确定的;所述第二训练子集为
与二类域外分类标签相对应的训练子集、所述二类域外分类标签是基于无医学判断价值的
原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的。即第一训练子
集和第二训练子集分别对应上述第一大类和第二大类,拍摄缺陷可以包括全曝光图片、全
黑图片、半曝光图片、局部曝光图片、结构模糊图片和细节模糊图片。待检测目标部位可以
是胃部,上述拍摄部位可以包括在所述胶囊内镜入口之前拍摄的图片、在食道中拍摄的图
片、口腔图片、肠道图片。无医学判断价值的原始图片可以包括:
器官载体,解剖特征等)。图片的数量占比大约是5.8%,这个比例非常高。这类图片由于失
去医学价值,尽管表面上不是垃圾图片,但实际上和“垃圾图片”没有什么分别。后续处理过
程中完全可以忽略。
被水膜覆盖,也没有有价值的信息暴露,因此整个图片也没有医学价值,可以被视为“垃圾
图片”,图片数量占比大约是3.8%。
面积,但是只要有没有覆盖到的地方,就需要确保没有异常特征出现,这样能够保证经过这
个类别引导过来的图片,都是不含异常特征的图片,也就可以归类到“垃圾图片”不再参与
后续处理了。
述举例,A拆分为A1和A2,分别对应上述第一大类和第二大类,构建的第一训练子集与第一
大类A1相对应,构建的第二训练子集与第二大类A2相对应。
第二训练集,包括:
集;所述第四训练子集为与洞状结构第一目标图片分类标签相对应的训练子集;所述第五
训练子集为与基于全局结构特征的第一目标图片分类标签相对应的训练子集。
对应的训练子集;所述第四训练子集为与洞状结构第一目标图片分类标签相对应的训练子
集;所述第五训练子集为与基于全局结构特征的第一目标图片分类标签相对应的训练子
集。基于局部结构特征的第一目标图片可以包括:
也出现在这个区域,因此这个类别的图片有很强的对照作用。
这个类别的图片可以与异常特征图片行成很好的对照。
因此把这一个特殊位置的图片,归为一个类别。
常复杂,在这类图片的背景上寻找和识别异常特征,也变得异常艰难。图片数量占比大约
4.5%。
练子集和所述第五训练子集。
集、所述第四训练子集和所述第五训练子集。参照上述举例,B拆分为B1、B2和B3,分别对应
上述第三大类至第五大类,构建的第三训练子集与第三大类B1相对应、构建的第四训练子
集与第四大类B2相对应、构建的第五训练子集与第五大类B3相对应。
练集进行训练的方法为本领域成熟技术,不再赘述。
地对训练集进行训练。
以理解为从训练开始时刻到训练完成时刻之间的时长。
时长。
小于所述预设时长。预设时长可以根据实际情况自主设置。对于存在一个训练时长达到预
设时长的情况,例如:只有第一训练子集的训练时长T1达到预设时长,则目标训练集为第一
训练子集,再对第一训练子集进行拆分,具体拆分方式不作具体限定。对于存在多个训练时
长达到预设时长的情况,例如为两个,即只有第一训练子集的训练时长T1和第二训练子集
的训练时长T2达到预设时长,则目标训练集为第一训练子集和第二训练子集,再分别对第
一训练子集和第二训练子集进行拆分。
构建单元504和训练单元505,其中:
拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸
起特征和/或指定颜色特征;第一构建单元502用于从所有样本图片中滤掉所述干扰样本图
片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;第
二构建单元503用于从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二
训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;
第三构建单元504用于从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第
三训练集;训练单元505用于分别对已构建的第一训练集、第二训练集和第三训练集进行训
练。
练集、拍摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征
包括凸起特征和/或指定颜色特征;第一构建单元502用于从所有样本图片中滤掉所述干扰
样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有第一剩余样本
图片;第二构建单元503用于从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所
述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本
图片;第三构建单元504用于从所有第二剩余样本图片中获取所述第二目标图片,以构建所
述第三训练集;训练单元505用于分别对已构建的第一训练集、第二训练集和第三训练集进
行训练。
集构建的合理性,进而更加合理地对训练集进行训练。
图片的第一训练集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍
摄物外表面包含所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起
特征和/或指定颜色特征;从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练
集,并保留除所述干扰样本图片之外的所有第一剩余样本图片;从所有第一剩余样本图片
中滤掉所述第一目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第
一目标图片之外的所有第二剩余样本图片;从所有第二剩余样本图片中获取所述第二目标
图片,以构建所述第三训练集;分别对已构建的第一训练集、第二训练集和第三训练集进行
训练。
机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取用于训练预设
模型的训练集;所述训练集包括包含干扰样本图片的第一训练集、拍摄物外表面不包含异
常特征的第一目标图片对应的第二训练集、拍摄物外表面包含所述异常特征的第二目标图
片对应的第三训练集;所述异常特征包括凸起特征和/或指定颜色特征;从所有样本图片中
滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所述干扰样本图片之外的所有
第一剩余样本图片;从所有第一剩余样本图片中滤掉所述第一目标图片,以构建所述第二
训练集,并保留除所述干扰样本图片和所述第一目标图片之外的所有第二剩余样本图片;
从所有第二剩余样本图片中获取所述第二目标图片,以构建所述第三训练集;分别对已构
建的第一训练集、第二训练集和第三训练集进行训练。
如包括:获取用于训练预设模型的训练集;所述训练集包括包含干扰样本图片的第一训练
集、拍摄物外表面不包含异常特征的第一目标图片对应的第二训练集、拍摄物外表面包含
所述异常特征的第二目标图片对应的第三训练集;所述异常特征包括凸起特征和/或指定
颜色特征;从所有样本图片中滤掉所述干扰样本图片,以构建所述第一训练集,并保留除所
述干扰样本图片之外的所有第一剩余样本图片;从所有第一剩余样本图片中滤掉所述第一
目标图片,以构建所述第二训练集,并保留除所述干扰样本图片和所述第一目标图片之外
的所有第二剩余样本图片;从所有第二剩余样本图片中获取所述第二目标图片,以构建所
述第三训练集;分别对已构建的第一训练集、第二训练集和第三训练集进行训练。
在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光
盘等各种可以存储程序代码的介质。
元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下,即可以理解并实施。
述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。