机器学习模型的获取方法、获取装置、设备及存储介质转让专利
申请号 : CN201810619091.5
文献号 : CN109034188B
文献日 : 2021-11-05
发明人 : 刘世权 , 刘弘也 , 苏驰
申请人 : 北京金山云网络技术有限公司 , 北京金山云科技有限公司
摘要 :
权利要求 :
1.一种机器学习模型的获取方法,其特征在于,所述方法包括:获取标注有类别的第一样本图片;
将所述标注有类别的第一样本图片作为训练样本,训练得到机器学习模型;
将第二样本图片输入至所述机器学习模型,获取所述机器学习模型预测的所述第二样本图片的类别,所述第二样本图片为不含有标注类别的图片;
确定所述机器学习模型所预测的具有正确类别的第二样本图片;
将所述具有正确类别的第二样本图片作为训练样本输入所述机器学习模型,训练得到新的机器学习模型,所述新的机器学习模型用于对图片的类别进行预测;
其中,所述获取标注有类别的第一样本图片,包括:获取多张待标注类别的图片,将多张图片划分为若干份;
将划分后的每份图片分配给至少两个标注者;
针对划分后的每份图片,获取所述至少两个标注者的标注结果数据,每个标注者的标注结果数据中,均携带有与该份图片中的各图片对应的预标注类别;
针对所述每份图片中的每张图片,对比该张图片在所述至少两个标注者的标注结果数据中的预标注类别是否相同,确定所述每份图片中在所述至少两个标注者的标注结果数据中的预标注类别均相同的图片的数量;
针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,并将确定标注类别后的图片作为第一样本图片;
所述标注者包括至少三个;
所述针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,包括:如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量,与该份图片总数量之比小于第一预设阈值,获取所述至少三个标注者的标注结果数据中两个标注结果数据的相似度;
当所述至少三个标注者的标注结果数据中,存在相似度高于第二预设阈值的两个标注结果数据时:
确定相似度最高的两个标注结果数据;
将所述相似度最高的两个标注结果数据中,具有相同预标注类别的图片的预标注类别确定为所述图片的标注类别,其中,两个标注结果数据的相似度为:该份图片在两个标注结果数据中,具有相同预标注类别的图片的数量与该份图片数量的比值。
2.根据权利要求1所述的方法,其特征在于,所述针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,包括:
如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量与该份图片总数量之比大于或等于第一预设阈值,将所述预标注类别均相同的图片的预标注类别确定为所述图片的标注类别。
3.根据权利要求2所述的方法,其特征在于,所述将所述预标注类别均相同的图片的预标注类别确定为所述图片的标注类别之后,所述方法还包括:对该份图片中所述预标注类别不同的图片进行再次标注。
4.根据权利要求1所述的方法,其特征在于,所述针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,包括:
如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量与该份图片总数量之比小于第一预设阈值,删除与该份图片对应的所述至少两个标注者的标注结果数据,并对该份图片中的图片进行再次标注。
5.根据权利要求1所述的方法,其特征在于,所述确定所述机器学习模型所预测的具有正确类别的第二样本图片,包括:针对所获取的所述第二样本图片的每一种预测类别,将所述预测类别的第二样本图片分配给至少一个第三标注者,获取所述至少一个第三标注者对所述第二样本图片的所述预测类别的核验结果,所述核验结果指示了所述预测类别是否为所述预测类别的第二样本图片的正确类别;
根据所述至少一个第三标注者对所述第二样本图片的所述预测类别的核验结果,确定所述预测类别为正确类别的第二样本图片。
6.根据权利要求5所述的方法,其特征在于,所述第三标注者包括至少两个;
所述根据所述至少一个第三标注者对所述第二样本图片的所述预测类别的核验结果,确定所述预测类别为正确类别的第二样本图片,包括:当所述至少两个第三标注者对所述第二样本图片的所述预测类别的核验结果均为正确时,确定所述预测类别对应的图片为第二样本图片;
或者,
当所述至少两个第三标注者的对所述第二样本图片的所述预测类别的核验结果为正确的核验结果在所述至少两个第三标注者的总核验结果中的比例达到第三预设阈值时,确定所述预测类别对应的图片为第二样本图片。
7.一种机器学习模型的获取装置,其特征在于,所述装置包括:第一获取模块,用于获取标注有类别的第一样本图片;
第一训练模块,用于将所述标注有类别的第一样本图片作为训练样本,训练得到机器学习模型;
第二获取模块,用于将第二样本图片输入至所述机器学习模型,获取所述机器学习模型预测的所述第二样本图片的类别,所述第二样本图片为不含有标注类别的图片;
确定模块,用于确定所述机器学习模型所预测的具有正确类别的第二样本图片;
所述第一训练模块,还用于将所述具有正确类别的第二样本图片作为训练样本输入所述机器学习模型,训练得到新的机器学习模型,所述新的机器学习模型用于对图片的类别进行预测;
其中,所述第一获取模块,包括:第一获取子模块,用于获取多张待标注类别的图片,将多张图片划分为若干份;
第一分配子模块,用于将划分后的每份图片分配给至少两个标注者;
第二获取子模块,用于针对划分后的每份图片,获取所述至少两个标注者的标注结果数据,每个标注者的标注结果数据中,均携带有与该份图片中的各图片对应的预标注类别;
对比子模块,用于针对所述每份图片中的每张图片,对比该张图片在所述至少两个标注者的标注结果数据中的预标注类别是否相同,确定所述每份图片中在所述至少两个标注者的标注结果数据中的预标注类别均相同的图片的数量;
第一确定子模块,用于针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,并将确定标注类别后的图片作为第一样本图片;
所述标注者包括至少三个;
所述第一确定子模块,具体用于:如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量,与该份图片总数量之比小于第一预设阈值,获取所述至少三个标注者的标注结果数据中两个标注结果数据的相似度;
当所述至少三个标注者的标注结果数据中,存在相似度高于第二预设阈值的两个标注结果数据时:
确定相似度最高的两个标注结果数据;
将所述相似度最高的两个标注结果数据中,具有相同预标注类别的图片的预标注类别确定为所述图片的标注类别,其中,两个标注结果数据的相似度为:该份图片在两个标注结果数据中,具有相同预标注类别的图片的数量与该份图片数量的比值。
8.根据权利要求7所述的装置,其特征在于,所述第一确定子模块,具体用于:如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量与该份图片总数量之比大于或等于第一预设阈值,将所述预标注类别均相同的图片的预标注类别确定为所述图片的标注类别。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:标注模块,用于对该份图片中所述预标注类别不同的图片进行再次标注。
10.根据权利要求7所述的装置,其特征在于,所述第一确定子模块,具体用于:如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量与该份图片总数量之比小于第一预设阈值,删除与该份图片对应的所述至少两个标注者的标注结果数据,并对该份图片中的图片进行再次标注。
11.根据权利要求7所述的装置,其特征在于,所述确定模块,包括:第二分配子模块,用于针对所获取的所述第二样本图片的每一种预测类别,将所述预测类别的第二样本图片分配给至少一个第三标注者,获取所述至少一个第三标注者对所述第二样本图片的所述预测类别的核验结果,所述核验结果指示了所述预测类别是否为所述预测类别的第二样本图片的正确类别;
第二确定子模块,用于根据所述至少一个第三标注者对所述第二样本图片的所述预测类别的核验结果,确定所述预测类别为正确类别的第二样本图片。
12.根据权利要求11所述的装置,其特征在于,所述第三标注者包括至少两个;
所述确定模块,具体用于:
当所述至少两个第三标注者对所述第二样本图片的所述预测类别的核验结果均为正确时,确定所述预测类别对应的图片为第二样本图片;
或者,
当所述至少两个第三标注者的对所述第二样本图片的所述预测类别的核验结果为正确的核验结果在所述至少两个第三标注者的总核验结果中的比例达到第三预设阈值时,确定所述预测类别对应的图片为第二样本图片。
13.一种机器模型的训练设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1‑6任一项所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1‑6任一项所述的方法步骤。
说明书 :
机器学习模型的获取方法、获取装置、设备及存储介质
技术领域
背景技术
容进行监管,配置可多达数百人的监管团队,通过团队人员巡查直播间识别不良直播内容。
但这种监管方式成本巨大而且效率低下。随着人工智能和机器学习技术的不断发展,可利
用深度学习技术实现机器自动辨别视频内容。
签,即进行标注,例如,可以将截图按照正常、低俗和色情三种类别进行标注,将标注后的截
图作为训练样本进行学习训练以获取用于内容监管的机器学习模型。在对直播内容进行监
管时,可以获取直播间截图,将截图输入经训练的机器学习模型,模型将输出该直播间截图
对应的正常、低俗或色情标签,从而区分直播内容的类别,相对于人工监管,可有效降低成
本提升监管效率。
标注类别后的图片作为训练样本,对机器学习模型进行训练。但是这种训练方法,人工标注
图片的过程中难免出错,且由于标注者水平参差不齐,很容易将其中类别错误的图片也作
为样本图片,造成样本图片准确性降低,从而影响所训练的机器学习模型的性能。
发明内容
数据中的预标注类别均相同的图片的数量;
作为第一样本图片。
类别确定为所述图片的标注类别。
注结果数据,并对该份图片中的图片进行再次标注。
个标注结果数据的相似度;
注结果数据中,具有相同预标注类别的图片的数量与该份图片数量的比值。
述预测类别的核验结果,所述核验结果指示了所述预测类别是否为所述预测类别的第二样
本图片的正确类别;
时,确定所述预测类别对应的图片为第二样本图片。
类别;
标注者的标注结果数据中的预标注类别均相同的图片的数量;
确定标注类别后的图片作为第一样本图片。
类别确定为所述图片的标注类别。
注结果数据,并对该份图片中的图片进行再次标注。
个标注结果数据的相似度;
注结果数据中,具有相同预标注类别的图片的数量与该份图片数量的比值。
所述第二样本图片的所述预测类别的核验结果,所述核验结果指示了所述预测类别是否为
所述预测类别的第二样本图片的正确类别;
时,确定所述预测类别对应的图片为第二样本图片。
述处理器执行所述机器可执行指令以实现上述第一方面提供的机器学习模型的获取方法
的方法步骤。
器学习模型的获取方法的方法步骤。
模型;再将第二样本图片输入至上述训练得到的机器学习模型,并获取机器学习模型预测
的第二样本图片的类别,然后确定其中具有正确类别的第二样本图片,并将该具有正确类
别的第二样本图片作为训练样本,对机器学习模型再次训练,从而得到新的机器学习模型。
本发明实施例提供的机器学习模型的获取方法,由于可以将确定了正确类别的第二样本图
片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一方面避免了
由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准确性下降的
问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,使机器学习
模型的预测准确率得到提升,从而提高机器学习模型的性能。当然,实施本发明的任一产品
或方法必不一定需要同时达到以上所述的所有优点。
附图说明
发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。
具体实施方式
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
通过人力查看每个直播间,但是这种人工监管方法成本巨大,效率低下。
有大量(例如数百万千万张)的高质量标注数据,将高质量标注数据作为样本图片,从而对
机器学习模型进行训练。
练。
注类别与该图片实际类别不符的样本图片。如果将标注类别错误的样本图片输入机器学习
模型,势必影响机器学习模型的训练结果,降低机器学习模型对于图片类别的预测准确度,
进而影响直播内容监管的结果。
Text Markup Language,超文本标记语言)语言、CSS(Cascading Style Sheet,层叠样式表
单语言)、JavaScript(一直直译式脚本语言)等技术实现登录页面、图片标注页面、图片标
注历史页面的开发;通过Ajax(Asynchronous Javascript And XML,异步JavaScript和
XML)技术与后端服务器进行数据通信,其中,XML指Extensible Markup Language,即可扩
展标记语言;后端服务器利用Java(一种编程语言)、Python(一种编程语言)技术开发相关
的RESTful接口,还可以配置数据库从而进行标注类别标签的持久化存储。
标注者,一天的工作量能达到5000张已经是很优秀的水平,而一个具有实际使用价值的基
于深度学习的标注系统需要的训练数据至少需要500万份,是10个人5个自然月的工作量。
并且,不同熟练程度的标注者对图片实际类别的判断水平差异很大,会导致标注完成图片
存在大量错误类别标注。现有基于人工操作的标注系统,在标注效率和标注质量上均表现
不佳,只能依靠管理员的大量抽查尽量减少错误,大大增加企业管理成本。
质量即标注的类别的准确率提高时,机器学习模型的输出准确率相应提升。
可以应用在任何需要对图片进行标注的领域,并且,标注后的图片不限于用于机器学习模
型的训练样本,还可以用于其他用途。
明,该标注方法可以包括以下步骤:
直播视频的截图,具体的,这些图片可以包括针对每个视频直播间直播视频的一张截图,或
者包括一个视频直播间的直播视频在多个时间点截取的多张截图。相应地,由于所获取的
图片还没有标注类别,因此可以称之为待标注类别的图片。
分为100等份,从而使每份包含1000张图片。在对上述10万张图片进行划分时,一般可以是
将10万张图片随机划分为100等份。
配给至少两个标注者,也即,对于同一份图片,至少可以得到两个标注者对于该份图片中各
图片的标注结果。
分别为A、B、C三个标注者。将这10万张图片划分为100等份,每份图片分配给2个标注者,即,
不同份图片,所分配的标注者可以是相同的标注者,也可能是不同的标注者,例如,第一份
图片分配给A、B,第二份图片分配给B、C,第三份图片分配给A、B……。
标注者。
将另一份图片发送给该标注者。针对同一份图片,服务器会将其发送给至少两个不同的标
注者。
回给服务器,服务器便可以获取针对该份图片的至少两个标注者的标注结果数据。
个标注者的标注结果数据包含了该份图片中每张图片所对应的一个预标注类别。
将一个标注子任务发送至3个前端设备,每个前端设备分配一名标注者。3个前端设备接收
该标注子任务后,在显示界面中显示该标注子任务中的待标注图片,每个标注者对该标注
子任务中的图片进行类别标注,标注者标注完成后,3个前端设备分别将各自的标注结果数
据传输至服务器,服务器可以接收并存储针对该份图片的3个标注结果数据至数据库,留待
后续分析处理。
的预标注类别均相同的图片的数量。
被不同的标注者标注为不同的类别,也即,可能对应不同的预标注类别。示例性地,对于一
份图片,由3名标注者标注,则3份标注结果数据分别为标注结果数据A、标注结果数据B和标
注结果数据C,该份图片中的图片a,在标注结果数据A中的预标注类别为正常,在标注结果
数据B中的预标注类别为低俗,在标注结果数据C中的预标注类别为正常。
比,以确认该张图片的多个标注者标注的预标注类别是否相同。
片数量。
图片为800张。
的比值越高,表明多名标注者对该份图片的标注结果越趋于一致,该份图片中被正确标注
的图片越多,即该份图片中具有高质量预标注类别的图片也越多。也就是说,本发明实施例
可以通过所确定的多个预标注类别均相同的图片的数量与该份图片总数量的比例关系,从
而确定该份图片中各图片的标注类别。
序选取各份图片,只要保证每一份图片均经过确定即可,具体选取方式本发明不做限定。
明该份图片的多个标注者的标注差异很大。
比与第一预设阈值的大小关系,如果预标注类别均相同的图片的数量与该份图片总数量之
比大于或等于第一预设阈值,表明该份图片中具有足够多的预标注类别均相同的图片,因
此可以将预标注类别均相同的图片的预标注类别,确定为各图片对应的标注类别。
相同的图片的数量与该份图片总数量之比为950:1000,换算为百分比为95%,该比值大于
第一预设阈值90%,因此可以将该份图片中,预标注类别均相同的图片的预标注类别,确定
为这些图片对应的标注类别。假设950张预标注类别相同的图片的预标注类别为正常,则将
这950张的图片确定为正常图片。
例如,上述1份图片的1000张图片中,950张已经确定了类别,而此外的50张由于预标注类别
不完全相同,有些标注者标注为正常,有些标注者标注为色情,有些标注者标注为低俗,因
此,作为本发明实施例一种可选的实施方式,可以将这些预标注类别不同的图片进行再次
标注。举例而言,按照与前述方式相同的方式,将需要再次标注的图片分成若干份,再次分
配给多个不同的标注者进行标注,进而分析这些标注者的结果后确定图片的标注类别。
冲突的标注结果进行核验和最终确认。
入他的标注结果数据,本实施例中,将第二标注者对于图片的标注类别称为再标注类别。
即,对于上述预标注类别不同的图片,服务器可以获取各图片经重新标注后的标注类别。
注类别。
值,表明该份图片的多个标注者的标注结果差异较大,该份图片中不具有足够多的预标注
类别均相同的图片,此时,需要对该份图片中的图片再次进行标注。在再次标注前,可以删
除先前与该份图片对应的至少两个标注者的标注结果数据,以节省存储空间,然后将这份
图片分配给至少两个标注者进行重新标注,该至少两个标注者可以与该份图片的在先标注
者不同、或者部分相同,或者完全相同。在重新获取针对该份图片的至少两个标注者的标注
结果数据后,即可重新执行上述步骤S104,并基于所确定的预标注类别均相同的图片的数
量与该份图片总数量的比例关系,重新确定该份图片中图片的标注类别。
片总数量之比为850:1000,换算为百分比为85%,该比值小于第一预设阈值90%,则可以对
该份图片中的图片进行再次标注,并重新获取至少两个标注者的标注结果数据。
此可以将该份图片中,预标注类别均相同的图片的预标注类别,确定为各图片对应的标注
类别。
份图片的至少两个标注结果数据;或者,直接将该份图片重新获取的至少两个标注结果数
据分配给第二标注者,即管理员,交由管理员进行核对;或者,直接舍弃该份图片,从而减少
计算量,以提高图片的标注效率。
与该份图片总数量之比小于第一预设阈值,但标注结果数据中的部分结果数据,例如,其中
两个相似度非常高,这种情况表明,与这部分标注结果数据对应的标注者应该具有高的标
注水准,因此不妨将这两个标注结果数据作为可靠的标注结果数据,从而确定该份图片在
这两个相似度最高的标注结果数据中,具有相同预标注类别的图片为样本图片。
指:该份图片在两个标注结果数据中,具有相同预标注类别的图片的数量与该份图片数量
的比值。同时,可以设定一个第二预设阈值,当存在其中两个标注结果数据的相似度高于第
二预设阈值的情况时,可以确定出相似度最高的两个标注结果数据。
数据,分别为标注结果数据A、标注结果数据B和标注结果数据C,第二预设阈值为90%,其中
标注结果数据A和标注结果数据B之间的相似度为91%,大于第二预设阈值;标注结果数据A
和标注结果数据C之间的相似度为92%,大于第二预设阈值;标注结果数据B和标注结果数
据C之间的相似度为88%,小于第二预设阈值;则可以选取相似度最高的标注结果数据B和
标注结果数据C,从而在标注结果数据B和标注结果数据C中,将具有相同预标注类别的图片
的预标注类别确定为该图片对应的标注类别。
有3份标注结果数据,分别为标注结果数据D、标注结果数据E和标注结果数据F,第二预设阈
值为90%,其中标注结果数据D和标注结果数据E之间的相似度为91%,大于第二预设阈值;
标注结果数据D和标注结果数据F之间的相似度为91%,大于第二预设阈值;标注结果数据E
和标注结果数据F之间的相似度为88%,小于第二预设阈值;此时标注结果数据D和标注结
果数据E之间的相似度,与标注结果数据D和标注结果数据F之间的相似度均大于第二预设
阈值且相等,则可以选择相似度最高的其中一组标注结果数据,将具有相同预标注类别的
图片的预标注类别确定为该图片对应的标注类别,还可以重新获取针对该份图片的至少三
个标注者的标注数据。在重新获取标注结果数据后,可重新执行上述步骤S104,并基于所确
定的预标注类别均相同的图片的数量与该份图片总数量的比例关系,重新确定该份图片中
图片的标注类别。
标注质量时,便于管理员日后调取。
标注结果数据,进而针对每份图片中的每一张图片,对比该张图片在不同标注者对应的标
注结果数据中的预标注类别是否相同,并确定预标注类别相同的图片数量,再基于预标注
类别相同的图片数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别。本
发明实施例提供的图片的标注方法,由于每份图片由多个标注者标注,并通过对多个标注
者的标注结果得到每份图片的标注类别,因此可以有效提高每份图片的标注类别的准确
性,而且,由于每份图片需要综合多个标注者的标注结果来确定最终的标注类别,因此,单
个标注者的问题标注结果并不决定图片最终的标注类别,并且问题标注结果可以被有效发
现,可以使得水平参差不齐的标注者同时工作而有效保证图片标注类别的准确性,因此能
够有效提高图片的标注类别的标注质量。
了标注类别的图片可以是通过方法实施例1的标注方法所确定标注类别后的图片,当然也
可以是其他标注有类别的图片。
获取机器学习模型针对上述预定图片的类别预测结果。容易理解的是,类别预测结果中可
以携带有由机器学习模型预测的上述预定图片的类别。
验由机器学习模型预测的类别是否准确。上述预定图片可以指下述实施例中的第二样本图
片,上述核验结果指示了预测类别是否为预测类别的第二样本图片的正确类别。
核验,第三标注者将确定该图片是否为正常图片,并反馈核验结果。
问题。例如,将由机器学习模型预测类别后的预定图片归为10个类别,标注者可以属于类别
1的预定图片判断完后,再一次判断属于类别2的目标图片,直至10个类别浏览完毕。
准,进而选择其中一个类别标注该图片的类别。而使用本发明实施例的标注方法后,标注者
只需核验该图片由机器学习模型预测的类别是否为该图片实际的类别,从而降低标注者的
工作量。
个第三标注者的核验结果来确定预测的类别是否为图片的正确类别,这里不再赘述。
根据核验结果,确定预测的类别为正确类别的预定图片,并将正确类别确定为上述预定图
片的标注类别,从而完成对预定图片的标注。
当至少两个第三标注者的对预定图片的预测的类别的核验结果为正确的核验结果在至少
两个第三标注者的总核验结果中的比例达到第三预设阈值时,确定预测的类别为正确类
别,并确定预测类别对应的图片为第二样本图片。上述第三预设阈值可以根据实际的标注
质量要求进行设定,例如,标注质量要求越高,则第三预设阈值设置的也越高。
注工作转换成批量纠错过程,显然能够极大地提高标注者的工作效率。
片的类别进行预测,不需要再由标注者人工进行标注,从而提升预定图片的标注效率;并
且,针对由机器学习模型预测的预定图片的标注结果,服务器可以获取至少一个第三标注
者对预定图片的预测的类别的核验结果,从而确定预测的类别为正确类别的预定图片,并
将正确类别确定为预定图片的标注类别,从而提高图片的标注类别的标注质量。
模型对部分图片重新预测,预测的错误类别会越来越少,可以反复多次,例如,可以再对重
新预测的图片进行核验标注,确定正确类别的标注图片,再作为训练样本反馈至机器学习
模型的训练中,进一步提高模型的预测准确率,如此反复,机器学习模型会得到不断进化,
更加智能。
习模型进行训练并获取机器学习模型的过程,如图4所示,具体可以包括以下步骤:
训练方法,利用上述第一样本图片训练得到机器学习模型。该机器学习模型经训练后,可以
对图片的类别进行预测。
截图。通过将第二样本图片输入至机器学习模型,机器学习模型可以对第二样本图片的类
别进行预测,从而获取第二样本图片的类别。
定机器学习模型预测了正确类别的第二样本图片。
类别的第二样本图片。
到不断进化,将变得更加智能。模型的准确率得到提升,再使用新的机器学习模型对图片重
新预测,预测的错误类别会越来越少。
的训练中,进一步提高模型的预测准确率,如此反复,机器学习模型会得到不断进化,更加
智能。
述训练得到的机器学习模型,并获取机器学习模型预测的第二样本图片的类别,然后确定
其中具有正确类别的第二样本图片,并将该具有正确类别的第二样本图片作为训练样本,
对机器学习模型再次训练,从而得到新的机器学习模型。由于可以将确定了正确类别的第
二样本图片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一方
面避免了由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准确
性下降的问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,使
机器学习模型的预测准确率得到提升,从而提高机器学习模型的性能。
总标注任务划分为100个子任务,然后将所获取的10万张图片划分为100等份,并使每等份
图片对应一个子任务,生成各子任务信息。其中,子任务信息可以包含子任务ID(标识号),
子任务所属总标注任务的ID(标识号),子任务中待标注图片的数目,子任务完成状态,子任
务完成时间等信息。服务器可以将子任务及子任务对应的待标注图片发送至前端浏览器,
以供标注者标注。
任务个数,总标注任务的完成状态及完成时间。上述标注信息可以保存至现有标注系统数
据库中的任务表(mark_task)中,并生成该总标注任务唯一对应的总标注任务ID。
理解,由于此时还未对图片进行标注,因此在各子任务表中,子任务的状态为未完成。
copy_id2。
同时被两位标注者标注,因此需要将每个子任务分配给两位标注者。可以将子任务ID复制
一遍,分别为0,1,2,3,……,99,即copy_id1;0,1,2,……,99,即copy_id2,同一个子任务分
别对应copy_id1和copy_id2,也即,保证了每个子任务由两位标注者标注。copy_id1和
copy_id2总共产生了200个分配ID,即200个assign id(分配标识号)。
status改为1,表示已分配。
copy_id1的分配ID以及copy_id2的分配ID进行关联,从而使分配的图片与分配的子任务建
立关联。也就是说,一张图片经复制后对应的两张图片,被分配至一个子任务下的两个
copy_id各自对应的分配ID中,因此不会出现一张图片对应的两张图片被分配至两个子任
务中的情况。本发明实施例中,可以按照顺序,将上述200份图片ID分配至每一份子任务中。
(user_id)。
更新用户任务分配表中相应的user_id。标注过程中若有新标注者加入,也可同样处理。由
于标注者在取得一个子任务时,分配ID的分配状态会改变,因此不会出现一个标注者领取
同一子任务两次的情况,保证了每张图片被两人标注。
(USER2),且每个标注者不会分配到重复的子任务。
务,然后将所获取的图片划分为多个等份,并使每等份图片对应一个子任务,生成各子任务
信息,服务器可以将子任务及子任务对应的待标注图片发送至前端浏览器,以供标注者标
注。标注者可以按照不同的子任务对图片进行标注,并在标注结束后改变该子任务状态,不
会出现一个标注者领取同一子任务两次的情况,提高标注效率。
标注部分也可以是与机器学习系统分立的不同部件,机器学习系统用于利用标注后的图片
进行模型的训练。
类别。
结果数据中的预标注类别均相同的图片的数量。
确定标注类别后的图片作为第一样本图片。
为图片的标注类别。
据,并对该份图片中的图片进行再次标注。
果数据的相似度;
据中,具有相同预标注类别的图片的数量与该份图片数量的比值。
图片的预测类别的核验结果,核验结果指示了预测类别是否为预测类别的第二样本图片的
正确类别;
应的图片为第二样本图片。
述训练得到的机器学习模型,并获取机器学习模型预测的第二样本图片的类别,然后确定
其中具有正确类别的第二样本图片,并将该具有正确类别的第二样本图片作为训练样本,
对机器学习模型再次训练,从而得到新的机器学习模型。由于可以将确定了正确类别的第
二样本图片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一方
面避免了由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准确
性下降的问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,使
机器学习模型的预测准确率得到提升,从而提高机器学习模型的性能。
理器执行的机器可执行指令,处理器执行机器可执行指令实现以下步骤:
选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
(Digital Signal Processing,简称DSP)、专用集成电路(Application Specific
Integrated Circuit,简称ASIC)、现场可编程门阵列(Field‑Programmable Gate Array,
简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
训练得到的机器学习模型,并获取机器学习模型预测的第二样本图片的类别,然后确定其
中具有正确类别的第二样本图片,并将该具有正确类别的第二样本图片作为训练样本,对
机器学习模型再次训练,从而得到新的机器学习模型。由于可以将确定了正确类别的第二
样本图片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一方面
避免了由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准确性
下降的问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,使机
器学习模型的预测准确率得到提升,从而提高机器学习模型的性能。
训练得到的机器学习模型,并获取机器学习模型预测的第二样本图片的类别,然后确定其
中具有正确类别的第二样本图片,并将该具有正确类别的第二样本图片作为训练样本,对
机器学习模型再次训练,从而得到新的机器学习模型。由于可以将确定了正确类别的第二
样本图片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一方面
避免了由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准确性
下降的问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,使机
器学习模型的预测准确率得到提升,从而提高机器学习模型的性能。
上述训练得到的机器学习模型,并获取机器学习模型预测的第二样本图片的类别,然后确
定其中具有正确类别的第二样本图片,并将该具有正确类别的第二样本图片作为训练样
本,对机器学习模型再次训练,从而得到新的机器学习模型。由于可以将确定了正确类别的
第二样本图片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一
方面避免了由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准
确性下降的问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,
使机器学习模型的预测准确率得到提升,从而提高机器学习模型的性能。
述训练得到的机器学习模型,并获取机器学习模型预测的第二样本图片的类别,然后确定
其中具有正确类别的第二样本图片,并将该具有正确类别的第二样本图片作为训练样本,
对机器学习模型再次训练,从而得到新的机器学习模型。由于可以将确定了正确类别的第
二样本图片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一方
面避免了由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准确
性下降的问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,使
机器学习模型的预测准确率得到提升,从而提高机器学习模型的性能。
在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖
非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要
素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备
所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在
包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例
的部分说明即可。
内。