机器学习模型的获取方法、获取装置、设备及存储介质转让专利

申请号 : CN201810619091.5

文献号 : CN109034188B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘世权刘弘也苏驰

申请人 : 北京金山云网络技术有限公司北京金山云科技有限公司

摘要 :

本发明实施例提供了一种机器学习模型的获取方法、获取装置、设备及存储介质,其中方法包括:获取标注有类别的第一样本图片;将标注有类别的第一样本图片作为训练样本,训练得到机器学习模型;将第二样本图片输入至机器学习模型,获取机器学习模型预测的第二样本图片的类别;确定机器学习模型所预测的具有正确类别的第二样本图片;将具有正确类别的第二样本图片作为训练样本,训练得到新的机器学习模型。本发明实施例提供的机器学习模型的获取方法,能够使机器学习模型的预测准确率得到提升,即提高机器学习模型的性能。

权利要求 :

1.一种机器学习模型的获取方法,其特征在于,所述方法包括:获取标注有类别的第一样本图片;

将所述标注有类别的第一样本图片作为训练样本,训练得到机器学习模型;

将第二样本图片输入至所述机器学习模型,获取所述机器学习模型预测的所述第二样本图片的类别,所述第二样本图片为不含有标注类别的图片;

确定所述机器学习模型所预测的具有正确类别的第二样本图片;

将所述具有正确类别的第二样本图片作为训练样本输入所述机器学习模型,训练得到新的机器学习模型,所述新的机器学习模型用于对图片的类别进行预测;

其中,所述获取标注有类别的第一样本图片,包括:获取多张待标注类别的图片,将多张图片划分为若干份;

将划分后的每份图片分配给至少两个标注者;

针对划分后的每份图片,获取所述至少两个标注者的标注结果数据,每个标注者的标注结果数据中,均携带有与该份图片中的各图片对应的预标注类别;

针对所述每份图片中的每张图片,对比该张图片在所述至少两个标注者的标注结果数据中的预标注类别是否相同,确定所述每份图片中在所述至少两个标注者的标注结果数据中的预标注类别均相同的图片的数量;

针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,并将确定标注类别后的图片作为第一样本图片;

所述标注者包括至少三个;

所述针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,包括:如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量,与该份图片总数量之比小于第一预设阈值,获取所述至少三个标注者的标注结果数据中两个标注结果数据的相似度;

当所述至少三个标注者的标注结果数据中,存在相似度高于第二预设阈值的两个标注结果数据时:

确定相似度最高的两个标注结果数据;

将所述相似度最高的两个标注结果数据中,具有相同预标注类别的图片的预标注类别确定为所述图片的标注类别,其中,两个标注结果数据的相似度为:该份图片在两个标注结果数据中,具有相同预标注类别的图片的数量与该份图片数量的比值。

2.根据权利要求1所述的方法,其特征在于,所述针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,包括:

如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量与该份图片总数量之比大于或等于第一预设阈值,将所述预标注类别均相同的图片的预标注类别确定为所述图片的标注类别。

3.根据权利要求2所述的方法,其特征在于,所述将所述预标注类别均相同的图片的预标注类别确定为所述图片的标注类别之后,所述方法还包括:对该份图片中所述预标注类别不同的图片进行再次标注。

4.根据权利要求1所述的方法,其特征在于,所述针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,包括:

如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量与该份图片总数量之比小于第一预设阈值,删除与该份图片对应的所述至少两个标注者的标注结果数据,并对该份图片中的图片进行再次标注。

5.根据权利要求1所述的方法,其特征在于,所述确定所述机器学习模型所预测的具有正确类别的第二样本图片,包括:针对所获取的所述第二样本图片的每一种预测类别,将所述预测类别的第二样本图片分配给至少一个第三标注者,获取所述至少一个第三标注者对所述第二样本图片的所述预测类别的核验结果,所述核验结果指示了所述预测类别是否为所述预测类别的第二样本图片的正确类别;

根据所述至少一个第三标注者对所述第二样本图片的所述预测类别的核验结果,确定所述预测类别为正确类别的第二样本图片。

6.根据权利要求5所述的方法,其特征在于,所述第三标注者包括至少两个;

所述根据所述至少一个第三标注者对所述第二样本图片的所述预测类别的核验结果,确定所述预测类别为正确类别的第二样本图片,包括:当所述至少两个第三标注者对所述第二样本图片的所述预测类别的核验结果均为正确时,确定所述预测类别对应的图片为第二样本图片;

或者,

当所述至少两个第三标注者的对所述第二样本图片的所述预测类别的核验结果为正确的核验结果在所述至少两个第三标注者的总核验结果中的比例达到第三预设阈值时,确定所述预测类别对应的图片为第二样本图片。

7.一种机器学习模型的获取装置,其特征在于,所述装置包括:第一获取模块,用于获取标注有类别的第一样本图片;

第一训练模块,用于将所述标注有类别的第一样本图片作为训练样本,训练得到机器学习模型;

第二获取模块,用于将第二样本图片输入至所述机器学习模型,获取所述机器学习模型预测的所述第二样本图片的类别,所述第二样本图片为不含有标注类别的图片;

确定模块,用于确定所述机器学习模型所预测的具有正确类别的第二样本图片;

所述第一训练模块,还用于将所述具有正确类别的第二样本图片作为训练样本输入所述机器学习模型,训练得到新的机器学习模型,所述新的机器学习模型用于对图片的类别进行预测;

其中,所述第一获取模块,包括:第一获取子模块,用于获取多张待标注类别的图片,将多张图片划分为若干份;

第一分配子模块,用于将划分后的每份图片分配给至少两个标注者;

第二获取子模块,用于针对划分后的每份图片,获取所述至少两个标注者的标注结果数据,每个标注者的标注结果数据中,均携带有与该份图片中的各图片对应的预标注类别;

对比子模块,用于针对所述每份图片中的每张图片,对比该张图片在所述至少两个标注者的标注结果数据中的预标注类别是否相同,确定所述每份图片中在所述至少两个标注者的标注结果数据中的预标注类别均相同的图片的数量;

第一确定子模块,用于针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,并将确定标注类别后的图片作为第一样本图片;

所述标注者包括至少三个;

所述第一确定子模块,具体用于:如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量,与该份图片总数量之比小于第一预设阈值,获取所述至少三个标注者的标注结果数据中两个标注结果数据的相似度;

当所述至少三个标注者的标注结果数据中,存在相似度高于第二预设阈值的两个标注结果数据时:

确定相似度最高的两个标注结果数据;

将所述相似度最高的两个标注结果数据中,具有相同预标注类别的图片的预标注类别确定为所述图片的标注类别,其中,两个标注结果数据的相似度为:该份图片在两个标注结果数据中,具有相同预标注类别的图片的数量与该份图片数量的比值。

8.根据权利要求7所述的装置,其特征在于,所述第一确定子模块,具体用于:如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量与该份图片总数量之比大于或等于第一预设阈值,将所述预标注类别均相同的图片的预标注类别确定为所述图片的标注类别。

9.根据权利要求8所述的装置,其特征在于,所述装置还包括:标注模块,用于对该份图片中所述预标注类别不同的图片进行再次标注。

10.根据权利要求7所述的装置,其特征在于,所述第一确定子模块,具体用于:如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量与该份图片总数量之比小于第一预设阈值,删除与该份图片对应的所述至少两个标注者的标注结果数据,并对该份图片中的图片进行再次标注。

11.根据权利要求7所述的装置,其特征在于,所述确定模块,包括:第二分配子模块,用于针对所获取的所述第二样本图片的每一种预测类别,将所述预测类别的第二样本图片分配给至少一个第三标注者,获取所述至少一个第三标注者对所述第二样本图片的所述预测类别的核验结果,所述核验结果指示了所述预测类别是否为所述预测类别的第二样本图片的正确类别;

第二确定子模块,用于根据所述至少一个第三标注者对所述第二样本图片的所述预测类别的核验结果,确定所述预测类别为正确类别的第二样本图片。

12.根据权利要求11所述的装置,其特征在于,所述第三标注者包括至少两个;

所述确定模块,具体用于:

当所述至少两个第三标注者对所述第二样本图片的所述预测类别的核验结果均为正确时,确定所述预测类别对应的图片为第二样本图片;

或者,

当所述至少两个第三标注者的对所述第二样本图片的所述预测类别的核验结果为正确的核验结果在所述至少两个第三标注者的总核验结果中的比例达到第三预设阈值时,确定所述预测类别对应的图片为第二样本图片。

13.一种机器模型的训练设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1‑6任一项所述的方法步骤。

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1‑6任一项所述的方法步骤。

说明书 :

机器学习模型的获取方法、获取装置、设备及存储介质

技术领域

[0001] 本发明涉及机器学习技术领域,特别是涉及一种机器学习模型的获取方法、获取装置、设备及存储介质。

背景技术

[0002] 随着视频直播的流行,视频直播内容中伴随产生了大量的低俗色情等不良内容,因此,需要有效地对直播视频内容进行监管。目前,各直播平台一般通过人力人工对直播内
容进行监管,配置可多达数百人的监管团队,通过团队人员巡查直播间识别不良直播内容。
但这种监管方式成本巨大而且效率低下。随着人工智能和机器学习技术的不断发展,可利
用深度学习技术实现机器自动辨别视频内容。
[0003] 机器的深度学习需要准备大量的高质量标注的训练样本,以上述视频直播监管为例,需要准备大量的直播间截图,并且,需要对这些大量的直播间截图冠以准确的内容标
签,即进行标注,例如,可以将截图按照正常、低俗和色情三种类别进行标注,将标注后的截
图作为训练样本进行学习训练以获取用于内容监管的机器学习模型。在对直播内容进行监
管时,可以获取直播间截图,将截图输入经训练的机器学习模型,模型将输出该直播间截图
对应的正常、低俗或色情标签,从而区分直播内容的类别,相对于人工监管,可有效降低成
本提升监管效率。
[0004] 在对机器学习模型进行训练时,为了有效保证机器学习模型的性能,即输出准确性,需要有效保证训练样本的标注准确性。目前对机器学习模型进行训练时,通常是将人工
标注类别后的图片作为训练样本,对机器学习模型进行训练。但是这种训练方法,人工标注
图片的过程中难免出错,且由于标注者水平参差不齐,很容易将其中类别错误的图片也作
为样本图片,造成样本图片准确性降低,从而影响所训练的机器学习模型的性能。

发明内容

[0005] 本发明实施例的目的在于提供一种机器学习模型的获取方法、获取装置、设备及存储介质,以有效提高机器学习模型的性能。具体技术方案如下:
[0006] 第一方面,本发明实施例提供了一种机器学习模型的获取方法,包括:
[0007] 获取标注有类别的第一样本图片;
[0008] 将所述标注有类别的第一样本图片作为训练样本,训练得到机器学习模型;
[0009] 将第二样本图片输入至所述机器学习模型,获取所述机器学习模型预测的所述第二样本图片的类别;
[0010] 确定所述机器学习模型所预测的具有正确类别的第二样本图片;
[0011] 将所述具有正确类别的第二样本图片作为训练样本,训练得到新的机器学习模型。
[0012] 可选地,所述获取标注有类别的第一样本图片,包括:
[0013] 获取多张待标注类别的图片,将多张图片划分为若干份;
[0014] 将划分后的每份图片分配给至少两个标注者;
[0015] 针对划分后的每份图片,获取所述至少两个标注者的标注结果数据,每个标注者的标注结果数据中,均携带有与该份图片中的各图片对应的预标注类别;
[0016] 针对所述每份图片中的每张图片,对比该张图片在所述至少两个标注者的标注结果数据中的预标注类别是否相同,确定所述每份图片中在所述至少两个标注者的标注结果
数据中的预标注类别均相同的图片的数量;
[0017] 针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,并将确定标注类别后的图片
作为第一样本图片。
[0018] 可选地,所述针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,包括:
[0019] 如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量与该份图片总数量之比大于或等于第一预设阈值,将所述预标注类别均相同的图片的预标注
类别确定为所述图片的标注类别。
[0020] 可选地,所述将所述预标注类别均相同的图片的预标注类别确定为所述图片的标注类别之后,所述方法还包括:
[0021] 对该份图片中所述预标注类别不同的图片进行再次标注。
[0022] 可选地,所述针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,包括:
[0023] 如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量与该份图片总数量之比小于第一预设阈值,删除与该份图片对应的所述至少两个标注者的标
注结果数据,并对该份图片中的图片进行再次标注。
[0024] 可选地,所述标注者包括至少三个;
[0025] 所述针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,包括:
[0026] 如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量,与该份图片总数量之比小于第一预设阈值,获取所述至少三个标注者的标注结果数据中两
个标注结果数据的相似度;
[0027] 当所述至少三个标注者的标注结果数据中,存在相似度高于第二预设阈值的两个标注结果数据时:
[0028] 确定相似度最高的两个标注结果数据;
[0029] 将所述相似度最高的两个标注结果数据中,具有相同预标注类别的图片的预标注类别确定为所述图片的标注类别,其中,两个标注结果数据的相似度为:该份图片在两个标
注结果数据中,具有相同预标注类别的图片的数量与该份图片数量的比值。
[0030] 可选地,所述确定所述机器学习模型所预测的具有正确类别的第二样本图片,包括:
[0031] 针对所获取的所述第二样本图片的每一种预测类别,将所述预测类别的第二样本图片分配给至少一个第三标注者,获取所述至少一个第三标注者对所述第二样本图片的所
述预测类别的核验结果,所述核验结果指示了所述预测类别是否为所述预测类别的第二样
本图片的正确类别;
[0032] 根据所述至少一个第三标注者对所述第二样本图片的所述预测类别的核验结果,确定所述预测类别为正确类别的第二样本图片。
[0033] 可选地,所述第三标注者包括至少两个;
[0034] 所述根据所述至少一个第三标注者对所述第二样本图片的所述预测类别的核验结果,确定所述预测类别为正确类别的第二样本图片,包括:
[0035] 当所述至少两个第三标注者对所述第二样本图片的所述预测类别的核验结果均为正确时,确定所述预测类别对应的图片为第二样本图片;
[0036] 或者,
[0037] 当所述至少两个第三标注者的对所述第二样本图片的所述预测类别的核验结果为正确的核验结果在所述至少两个第三标注者的总核验结果中的比例达到第三预设阈值
时,确定所述预测类别对应的图片为第二样本图片。
[0038] 第二方面,本发明实施例提供了一种机器学习模型的获取装置,包括:
[0039] 第一获取模块,用于获取标注有类别的第一样本图片;
[0040] 第一训练模块,用于将所述标注有类别的第一样本图片作为训练样本,训练得到机器学习模型;
[0041] 第二获取模块,用于将第二样本图片输入至所述机器学习模型,获取所述机器学习模型预测的所述第二样本图片的类别;
[0042] 确定模块,用于确定所述机器学习模型所预测的具有正确类别的第二样本图片;
[0043] 所述第一训练模块,还用于将所述具有正确类别的第二样本图片作为训练样本,训练得到新的机器学习模型。
[0044] 可选地,所述第一获取模块,包括:
[0045] 第一获取子模块,用于获取多张待标注类别的图片,将多张图片划分为若干份;
[0046] 第一分配子模块,用于将划分后的每份图片分配给至少两个标注者;
[0047] 第二获取子模块,用于针对划分后的每份图片,获取所述至少两个标注者的标注结果数据,每个标注者的标注结果数据中,均携带有与该份图片中的各图片对应的预标注
类别;
[0048] 对比子模块,用于针对所述每份图片中的每张图片,对比该张图片在所述至少两个标注者的标注结果数据中的预标注类别是否相同,确定所述每份图片中在所述至少两个
标注者的标注结果数据中的预标注类别均相同的图片的数量;
[0049] 第一确定子模块,用于针对划分后的每份图片,基于所确定的所述预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,并将
确定标注类别后的图片作为第一样本图片。
[0050] 可选地,所述第一确定子模块,具体用于:
[0051] 如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量与该份图片总数量之比大于或等于第一预设阈值,将所述预标注类别均相同的图片的预标注
类别确定为所述图片的标注类别。
[0052] 可选地,所述装置还包括:
[0053] 标注模块,用于对该份图片中所述预标注类别不同的图片进行再次标注。
[0054] 可选地,所述第一确定子模块,具体用于:
[0055] 如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量与该份图片总数量之比小于第一预设阈值,删除与该份图片对应的所述至少两个标注者的标
注结果数据,并对该份图片中的图片进行再次标注。
[0056] 可选地,所述标注者包括至少三个;
[0057] 所述第一确定子模块,具体用于:
[0058] 如果划分后的其中一份图片中,所确定的所述预标注类别均相同的图片的数量,与该份图片总数量之比小于第一预设阈值,获取所述至少三个标注者的标注结果数据中两
个标注结果数据的相似度;
[0059] 当所述至少三个标注者的标注结果数据中,存在相似度高于第二预设阈值的两个标注结果数据时:
[0060] 确定相似度最高的两个标注结果数据;
[0061] 将所述相似度最高的两个标注结果数据中,具有相同预标注类别的图片的预标注类别确定为所述图片的标注类别,其中,两个标注结果数据的相似度为:该份图片在两个标
注结果数据中,具有相同预标注类别的图片的数量与该份图片数量的比值。
[0062] 可选地,所述确定模块,包括:
[0063] 第二分配子模块,用于针对所获取的所述第二样本图片的每一种预测类别,将所述预测类别的第二样本图片分配给至少一个第三标注者,获取所述至少一个第三标注者对
所述第二样本图片的所述预测类别的核验结果,所述核验结果指示了所述预测类别是否为
所述预测类别的第二样本图片的正确类别;
[0064] 第二确定子模块,用于根据所述至少一个第三标注者对所述第二样本图片的所述预测类别的核验结果,确定所述预测类别为正确类别的第二样本图片。
[0065] 可选地,所述第三标注者包括至少两个;
[0066] 所述确定模块,具体用于:
[0067] 当所述至少两个第三标注者对所述第二样本图片的所述预测类别的核验结果均为正确时,确定所述预测类别对应的图片为第二样本图片;
[0068] 或者,
[0069] 当所述至少两个第三标注者的对所述第二样本图片的所述预测类别的核验结果为正确的核验结果在所述至少两个第三标注者的总核验结果中的比例达到第三预设阈值
时,确定所述预测类别对应的图片为第二样本图片。
[0070] 第三方面,本发明实施例提供了一种机器模型的训练设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所
述处理器执行所述机器可执行指令以实现上述第一方面提供的机器学习模型的获取方法
的方法步骤。
[0071] 第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述第一方面提供的机
器学习模型的获取方法的方法步骤。
[0072] 第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面提供的机器学习模型的获取方法的方法步骤。
[0073] 第六方面,本发明实施例还提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面提供的机器学习模型的获取方法的方法步骤。
[0074] 本发明实施例提供的一种机器学习模型的获取方法、获取装置、设备及存储介质,先获取标注有类别的第一样本图片,并将第一样本图片作为训练样本,训练得到机器学习
模型;再将第二样本图片输入至上述训练得到的机器学习模型,并获取机器学习模型预测
的第二样本图片的类别,然后确定其中具有正确类别的第二样本图片,并将该具有正确类
别的第二样本图片作为训练样本,对机器学习模型再次训练,从而得到新的机器学习模型。
本发明实施例提供的机器学习模型的获取方法,由于可以将确定了正确类别的第二样本图
片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一方面避免了
由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准确性下降的
问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,使机器学习
模型的预测准确率得到提升,从而提高机器学习模型的性能。当然,实施本发明的任一产品
或方法必不一定需要同时达到以上所述的所有优点。

附图说明

[0075] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。
[0076] 图1为本发明实施例提供的图片的标注方法的一种流程示意图;
[0077] 图2为对标注类别不同的图片进行再次标注的流程示意图;
[0078] 图3为本发明实施例提供的图片的标注方法的另一种流程示意图;
[0079] 图4为本发明实施例提供的机器学习模型的获取方法的一种流程示意图;
[0080] 图5为本发明实施例提供的图片的标注方法中子任务划分情况的示意图;
[0081] 图6为本发明实施例提供的机器学习模型的获取装置的一种结构示意图;
[0082] 图7为本发明实施例中第一获取模块的结构示意图;
[0083] 图8为本发明实施例提供的机器学习模型的获取装置的另一种结构示意图;
[0084] 图9为本发明实施例中确定模块的结构示意图;
[0085] 图10为本发明实施例提供的一种机器模型的训练设备的结构示意图。

具体实施方式

[0086] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
[0087] 近两年,随着移动直播类应用迅速流行开来,伴随产生了很多色情低俗内容,因此对直播内容的监管变得尤为迫切和重要。各家直播平台为此均配置了数百人的监管团队,
通过人力查看每个直播间,但是这种人工监管方法成本巨大,效率低下。
[0088] 一方面,随着深度学习理论与服务器计算能力的提升,利用深度学习技术进行机器自动判断直播内容逐渐可行。建立基于深度学习模型开发的直播监管系统的必要前提是
有大量(例如数百万千万张)的高质量标注数据,将高质量标注数据作为样本图片,从而对
机器学习模型进行训练。
[0089] 具体地,可以预先对每一张直播间截图进行人工判断,为每一张图片标注不同的类别,例如正常、低俗、色情类别,得到样本图片后,再将样本图片输入机器学习模型进行训
练。
[0090] 然而,现有的人工标注方法,由于各标注者的业务水平不同,得到的样本图片的标注质量也参差不齐,对于数百万级别的图片数量,现有的图片的标注方法,很难筛除其中标
注类别与该图片实际类别不符的样本图片。如果将标注类别错误的样本图片输入机器学习
模型,势必影响机器学习模型的训练结果,降低机器学习模型对于图片类别的预测准确度,
进而影响直播内容监管的结果。
[0091] 另一方面,现有的用于对图片进行人工标注的标注系统一般采用B/S(Browser/Server,浏览器/服务器)架构开发,使用前后端分离技术,即,前端设备采用HTML(Hyper 
Text Markup Language,超文本标记语言)语言、CSS(Cascading Style Sheet,层叠样式表
单语言)、JavaScript(一直直译式脚本语言)等技术实现登录页面、图片标注页面、图片标
注历史页面的开发;通过Ajax(Asynchronous Javascript And XML,异步JavaScript和
XML)技术与后端服务器进行数据通信,其中,XML指Extensible Markup Language,即可扩
展标记语言;后端服务器利用Java(一种编程语言)、Python(一种编程语言)技术开发相关
的RESTful接口,还可以配置数据库从而进行标注类别标签的持久化存储。
[0092] 但是这种基于人工操作的标注系统,图片标注工作全部由人工完成,标注系统本身只负责图片的展示、标注结果数据的传输和保存,工作效率低下。例如,一个熟练的图片
标注者,一天的工作量能达到5000张已经是很优秀的水平,而一个具有实际使用价值的基
于深度学习的标注系统需要的训练数据至少需要500万份,是10个人5个自然月的工作量。
并且,不同熟练程度的标注者对图片实际类别的判断水平差异很大,会导致标注完成图片
存在大量错误类别标注。现有基于人工操作的标注系统,在标注效率和标注质量上均表现
不佳,只能依靠管理员的大量抽查尽量减少错误,大大增加企业管理成本。
[0093] 有鉴如此,本发明实施例首先提供了一种图片的标注方法,所标注的图片可作为训练样本,训练得到机器学习模型,该机器学习模型用于预测图片类别,当训练样本的标注
质量即标注的类别的准确率提高时,机器学习模型的输出准确率相应提升。
[0094] 以下进行详细说明。
[0095] 需要强调的是,虽然以直播监管为例对本发明实施例提供的图片的标注方法进行说明,但仅为更好的描述本发明,而不是限制本发明,本发明实施例提供的图片的标注方法
可以应用在任何需要对图片进行标注的领域,并且,标注后的图片不限于用于机器学习模
型的训练样本,还可以用于其他用途。
[0096] 方法实施例1
[0097] 如图1所示,本发明实施例提供了一种图片的标注方法,具体可以应用于服务器,当然也可以应用于其他类型的具有数据处理运算功能的设备,以下以服务器为例进行说
明,该标注方法可以包括以下步骤:
[0098] S101,获取多张待标注类别的图片,将多张图片划分为若干份。
[0099] 本发明实施例中,服务器可以获取多张图片。以标注后的图标用作机器学习模型的训练样本,该机器学习模型用作直播视频内容的类别预测为例,这些图片需要是直播间
直播视频的截图,具体的,这些图片可以包括针对每个视频直播间直播视频的一张截图,或
者包括一个视频直播间的直播视频在多个时间点截取的多张截图。相应地,由于所获取的
图片还没有标注类别,因此可以称之为待标注类别的图片。
[0100] 获取上述图片后,将这些图片划分为多份,为了便于处理,通常可以将这些图片划分为多个等份。示例性地,服务器获取10万张待标注类别的图片后,可以将这10万张图片划
分为100等份,从而使每份包含1000张图片。在对上述10万张图片进行划分时,一般可以是
将10万张图片随机划分为100等份。
[0101] S102,将划分后的每份图片分配给至少两个标注者。
[0102] 将图片划分为若干份后,可以将每一份图片分配给两个以上不同的标注者,从而使标注者对每一份图片中的各图片进行标注。需要说明的是,在分配时,可以将每份图片分
配给至少两个标注者,也即,对于同一份图片,至少可以得到两个标注者对于该份图片中各
图片的标注结果。
[0103] 需要说明的是,针对这多张待标注类别的图片,可以配置多个标注者,而每一份图片分配给两个或者两个以上标注者,例如,10万张待标注类别的图片可以分配3个标注者,
分别为A、B、C三个标注者。将这10万张图片划分为100等份,每份图片分配给2个标注者,即,
不同份图片,所分配的标注者可以是相同的标注者,也可能是不同的标注者,例如,第一份
图片分配给A、B,第二份图片分配给B、C,第三份图片分配给A、B……。
[0104] 服务器端可以在将一份图片分配给某标注者后,记录该份图片对应的标注者标识,再根据该份图片的标注者标识,将该份图片分配给与记录的标注者标识不同的另外的
标注者。
[0105] 可以理解的是,标注者可以在前端设备上登录标注界面,服务器进行图片的分配,将每份图片发送至前端设备,即发送给标注者,一个标注者完成一份图片的标注后,服务器
将另一份图片发送给该标注者。针对同一份图片,服务器会将其发送给至少两个不同的标
注者。
[0106] S103,针对划分后的每份图片,获取至少两个标注者的标注结果数据。其中,每个标注者的标注结果数据中,均携带有与该份图片中的各图片对应的预标注类别。
[0107] 本发明实施例中,服务器可以将每份图片发送至至少两个前端设备,从而使至少两个标注者可以通过前端设备对该份图片中的各图片进行类别标注,并将标注结果数据返
回给服务器,服务器便可以获取针对该份图片的至少两个标注者的标注结果数据。
[0108] 其中,每个标注者的标注结果数据中,可以携带与该份图片中的各图片对应的预标注类别,即标注者所确定的该份图片中的每张图片的类别,也即,一个标注结果数据即一
个标注者的标注结果数据包含了该份图片中每张图片所对应的一个预标注类别。
[0109] 由于后续需要综合分析每份图片的多个标注者的标注结果来输出每份图片中各图片的标注类别,因此,将每个标注者对于每张图片所标注的类别称为预标注类别。
[0110] 将每份图片称为一个子任务,实际应用中,可以将一个标注子任务分配给多名标注者,具体地,服务器可以将上述一份图片对应的标注子任务发送至多台前端设备,例如,
将一个标注子任务发送至3个前端设备,每个前端设备分配一名标注者。3个前端设备接收
该标注子任务后,在显示界面中显示该标注子任务中的待标注图片,每个标注者对该标注
子任务中的图片进行类别标注,标注者标注完成后,3个前端设备分别将各自的标注结果数
据传输至服务器,服务器可以接收并存储针对该份图片的3个标注结果数据至数据库,留待
后续分析处理。
[0111] S104,针对每份图片中的每张图片,对比该张图片在至少两个标注者的标注结果数据中对应的预标注类别是否相同,确定每份图片中在至少两个标注者的标注结果数据中
的预标注类别均相同的图片的数量。
[0112] 由于每个标注结果数据都携带该份图片中每张图片对应的预标注类别,且每个标注结果数据由不同的标注者标注完成,因此对于该份图片的其中任意一张图片来说,可能
被不同的标注者标注为不同的类别,也即,可能对应不同的预标注类别。示例性地,对于一
份图片,由3名标注者标注,则3份标注结果数据分别为标注结果数据A、标注结果数据B和标
注结果数据C,该份图片中的图片a,在标注结果数据A中的预标注类别为正常,在标注结果
数据B中的预标注类别为低俗,在标注结果数据C中的预标注类别为正常。
[0113] 基于上述内容,服务器接收针对每份图片的至少两个标注者的标注结果数据后,可以将该张图片在上述至少两个标注者的标注结果数据中分别对应的预标注类别进行对
比,以确认该张图片的多个标注者标注的预标注类别是否相同。
[0114] 容易理解,对于每一份图片,在对比该份图片中各图片的多个预标注类别是否相同后,可以筛选出其中多个预标注类别均相同的图片,并确定多个预标注类别均相同的图
片数量。
[0115] 举例来说,一份图片共1000张,由3名标注者标注,其中800张,3名标注者均标注为正常,其他200张,3名标注者标注的结果不完全相同,即该份图片中,预标注类别均相同的
图片为800张。
[0116] S105,针对划分后的每份图片,基于所确定的预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别。
[0117] 本发明实施例中,对于划分后的每份图片,需要确定该份图片中各图片的标注类别。容易理解的是,如果所确定的多个预标注类别均相同的图片的数量与该份图片总数量
的比值越高,表明多名标注者对该份图片的标注结果越趋于一致,该份图片中被正确标注
的图片越多,即该份图片中具有高质量预标注类别的图片也越多。也就是说,本发明实施例
可以通过所确定的多个预标注类别均相同的图片的数量与该份图片总数量的比例关系,从
而确定该份图片中各图片的标注类别。
[0118] 需要说明的是,上述划分后的每份图片,可以为多张图片经划分为若干份后的任意一份图片。具体地,在确定图片标注类别的过程中,可以随机选取一份图片,也可以按顺
序选取各份图片,只要保证每一份图片均经过确定即可,具体选取方式本发明不做限定。
[0119] 由本发明实施例前述内容可知,每份图片中的每张图片的多个预标注类别并不一定均相同,并且,如果其中一份图片中存在多个预标注类别不同的图片数量过多的情况,表
明该份图片的多个标注者的标注差异很大。
[0120] 作为本发明实施例一种可选的实施方式,为了确定每份图片中各图片的标注类别,可以设置第一预设阈值,并判断预标注类别均相同的图片的数量与该份图片总数量之
比与第一预设阈值的大小关系,如果预标注类别均相同的图片的数量与该份图片总数量之
比大于或等于第一预设阈值,表明该份图片中具有足够多的预标注类别均相同的图片,因
此可以将预标注类别均相同的图片的预标注类别,确定为各图片对应的标注类别。
[0121] 示例性地,当第一预设阈值设定为90%时,假设每份图片中,总共有1000张图片,其中,该份图片的多个标注者的预标注类别均相同的图片的数量为950张,则预标注类别均
相同的图片的数量与该份图片总数量之比为950:1000,换算为百分比为95%,该比值大于
第一预设阈值90%,因此可以将该份图片中,预标注类别均相同的图片的预标注类别,确定
为这些图片对应的标注类别。假设950张预标注类别相同的图片的预标注类别为正常,则将
这950张的图片确定为正常图片。
[0122] 容易理解的是,对于上述示例的该份图片,大部分图片可以确定其标注类别,但还有少量图片没有被确定标注类别,这是由于这些图片所对应的预标注类别不同而导致的,
例如,上述1份图片的1000张图片中,950张已经确定了类别,而此外的50张由于预标注类别
不完全相同,有些标注者标注为正常,有些标注者标注为色情,有些标注者标注为低俗,因
此,作为本发明实施例一种可选的实施方式,可以将这些预标注类别不同的图片进行再次
标注。举例而言,按照与前述方式相同的方式,将需要再次标注的图片分成若干份,再次分
配给多个不同的标注者进行标注,进而分析这些标注者的结果后确定图片的标注类别。
[0123] 具体地,如图2所示,上述对标注类别不同的图片进行再次标注的过程具体可以为:
[0124] S201,将该份图片中预标注类别不同的图片分配给第二标注者。
[0125] 本发明实施例中,服务器可以将该份图片中预标注类别不同的图片分配给第二标注者,从而使第二标注者对上述图片再次进行标注。
[0126] 可以将标注者进行分级,分为标注员和管理员,标注员对图片进行首次标注,管理员可以查看每个标注员的历史标注数据,也可以抽查各个标注员的标注结果,还可以对于
冲突的标注结果进行核验和最终确认。
[0127] 其中,上述第二标注者具体可以是管理员。服务器可以将预标注类别不同的图片发送给管理员,可以携带该图片的多个标注者的标注结果,管理员会确认图片的类别,并输
入他的标注结果数据,本实施例中,将第二标注者对于图片的标注类别称为再标注类别。
[0128] S202,获取第二标注者的标注结果数据。
[0129] 服务器可以获取第二标注者针对上述预标注类别不同的图片的标注结果数据,第二标注者的标注结果数据中,均可以携带有第二标注者确定的、上述图片的再标注类别,也
即,对于上述预标注类别不同的图片,服务器可以获取各图片经重新标注后的标注类别。
[0130] S203,将第二标注者确定的、预标注类别不同的图片的再标注类别确定为预标注类别不同的图片的标注类别。
[0131] 服务器获取上述预标注类别不同的图片的再标注类别后,可以将上述再标注类别确定为上述预标注类别不同的图片的标注类别,从而确定这些预标注类别不同的图片的标
注类别。
[0132] 作为本发明实施例一种可选的实施方式,存在一种可能性,即,所划分的其中一份图片中,所确定的预标注类别均相同的图片的数量与该份图片总数量之比小于第一预设阈
值,表明该份图片的多个标注者的标注结果差异较大,该份图片中不具有足够多的预标注
类别均相同的图片,此时,需要对该份图片中的图片再次进行标注。在再次标注前,可以删
除先前与该份图片对应的至少两个标注者的标注结果数据,以节省存储空间,然后将这份
图片分配给至少两个标注者进行重新标注,该至少两个标注者可以与该份图片的在先标注
者不同、或者部分相同,或者完全相同。在重新获取针对该份图片的至少两个标注者的标注
结果数据后,即可重新执行上述步骤S104,并基于所确定的预标注类别均相同的图片的数
量与该份图片总数量的比例关系,重新确定该份图片中图片的标注类别。
[0133] 示例性地,仍设定第一预设阈值为90%,假设每份图片中,总共有1000张图片,其中,预标注类别均相同的图片的数量为850张,则预标注类别均相同的图片的数量与该份图
片总数量之比为850:1000,换算为百分比为85%,该比值小于第一预设阈值90%,则可以对
该份图片中的图片进行再次标注,并重新获取至少两个标注者的标注结果数据。
[0134] 当重新获取的标注结果数据中,预标注类别均相同的图片的数量为960张,则预标注类别均相同的图片的数量与该份图片总数量之比为960:1000,换算为百分比为96%,因
此可以将该份图片中,预标注类别均相同的图片的预标注类别,确定为各图片对应的标注
类别。
[0135] 可选地,如果上述重新获取的至少两个标注结果数据,所确定的预标注类别均相同的图片的数量与该份图片总数量之比仍小于第一预设阈值,可以再次重新标注,获取该
份图片的至少两个标注结果数据;或者,直接将该份图片重新获取的至少两个标注结果数
据分配给第二标注者,即管理员,交由管理员进行核对;或者,直接舍弃该份图片,从而减少
计算量,以提高图片的标注效率。
[0136] 作为本发明实施例另一种可选的实施方式,存在一种可能性,即,对于划分后的每份图片,该份图片由至少三个标注者标注,虽然所确定的预标注类别均相同的图片的数量
与该份图片总数量之比小于第一预设阈值,但标注结果数据中的部分结果数据,例如,其中
两个相似度非常高,这种情况表明,与这部分标注结果数据对应的标注者应该具有高的标
注水准,因此不妨将这两个标注结果数据作为可靠的标注结果数据,从而确定该份图片在
这两个相似度最高的标注结果数据中,具有相同预标注类别的图片为样本图片。
[0137] 对于该份图片的至少三个标注者的标注结果数据中,可以两两对比各标注结果数据,从而确定每两个标注结果数据之间的相似度。其中,两个标注结果数据的相似度可以
指:该份图片在两个标注结果数据中,具有相同预标注类别的图片的数量与该份图片数量
的比值。同时,可以设定一个第二预设阈值,当存在其中两个标注结果数据的相似度高于第
二预设阈值的情况时,可以确定出相似度最高的两个标注结果数据。
[0138] 也就是说,本发明实施例一份图片的至少三个标注者的标注结果数据中,可能存在两两比较后的相似度高于第二预设阈值的标注结果数据。例如一份图片有3份标注结果
数据,分别为标注结果数据A、标注结果数据B和标注结果数据C,第二预设阈值为90%,其中
标注结果数据A和标注结果数据B之间的相似度为91%,大于第二预设阈值;标注结果数据A
和标注结果数据C之间的相似度为92%,大于第二预设阈值;标注结果数据B和标注结果数
据C之间的相似度为88%,小于第二预设阈值;则可以选取相似度最高的标注结果数据B和
标注结果数据C,从而在标注结果数据B和标注结果数据C中,将具有相同预标注类别的图片
的预标注类别确定为该图片对应的标注类别。
[0139] 还存在一种可能性,如果所获取的至少三个标注者的标注结果数据中,其两两比较后的相似度均高于第二预设阈值,且相似度最高的标注结果数据有多组,例如,一份图片
有3份标注结果数据,分别为标注结果数据D、标注结果数据E和标注结果数据F,第二预设阈
值为90%,其中标注结果数据D和标注结果数据E之间的相似度为91%,大于第二预设阈值;
标注结果数据D和标注结果数据F之间的相似度为91%,大于第二预设阈值;标注结果数据E
和标注结果数据F之间的相似度为88%,小于第二预设阈值;此时标注结果数据D和标注结
果数据E之间的相似度,与标注结果数据D和标注结果数据F之间的相似度均大于第二预设
阈值且相等,则可以选择相似度最高的其中一组标注结果数据,将具有相同预标注类别的
图片的预标注类别确定为该图片对应的标注类别,还可以重新获取针对该份图片的至少三
个标注者的标注数据。在重新获取标注结果数据后,可重新执行上述步骤S104,并基于所确
定的预标注类别均相同的图片的数量与该份图片总数量的比例关系,重新确定该份图片中
图片的标注类别。
[0140] 作为本发明实施例另一种可选的实施方式,在确定相似度最高的两个标注结果数据后,还可以将这两个相似度最高的标注结果数据存储至数据库,当需要检查样本图片的
标注质量时,便于管理员日后调取。
[0141] 本发明实施例提供的一种图片的标注方法,将所获取的多张待标注类别的图片划分为多份后,再将每份图片分配给至少两个标注者进行人工标注,得到每个标注者对应的
标注结果数据,进而针对每份图片中的每一张图片,对比该张图片在不同标注者对应的标
注结果数据中的预标注类别是否相同,并确定预标注类别相同的图片数量,再基于预标注
类别相同的图片数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别。本
发明实施例提供的图片的标注方法,由于每份图片由多个标注者标注,并通过对多个标注
者的标注结果得到每份图片的标注类别,因此可以有效提高每份图片的标注类别的准确
性,而且,由于每份图片需要综合多个标注者的标注结果来确定最终的标注类别,因此,单
个标注者的问题标注结果并不决定图片最终的标注类别,并且问题标注结果可以被有效发
现,可以使得水平参差不齐的标注者同时工作而有效保证图片标注类别的准确性,因此能
够有效提高图片的标注类别的标注质量。
[0142] 方法实施例2
[0143] 如图3所示,本发明实施例还提供了一种图片的标注方法,可以应用于服务器,当然也可以应用于其他类型的具有数据处理运算功能的设备,该过程可以包括以下步骤:
[0144] S301,将确定了标注类别的图片用作机器学习模型的训练样本,获取机器学习模型。
[0145] 本发明实施例中,可以将确定了标注类别的图片用作机器学习模型的训练样本,从而对机器学习模型进行训练,获取到用于预测图片类别的机器学习模型。其中,上述确定
了标注类别的图片可以是通过方法实施例1的标注方法所确定标注类别后的图片,当然也
可以是其他标注有类别的图片。
[0146] S302,获取该机器学习模型对预定图片的类别预测结果,类别预测结果中携带有机器学习模型预测的预定图片的类别。
[0147] 机器学习模型经训练后,可以对图片的类别进行预测,例如,预测一张图片的类别为正常、低俗或者色情。本发明实施例中,可以将多张预定图片输入机器学习模型中,从而
获取机器学习模型针对上述预定图片的类别预测结果。容易理解的是,类别预测结果中可
以携带有由机器学习模型预测的上述预定图片的类别。
[0148] S303,针对每一种预测的类别,将上述类别的预定图片分配给至少一个第三标注者,获取至少一个第三标注者对预定图片的预测的类别的核验结果。
[0149] 获取多张预定图片的预测的类别后,容易理解的是,不同的预定图片可以具有不同的类别,因此,可以将同一类别的预定图片分配给至少一名标注者,从而通过该标注者核
验由机器学习模型预测的类别是否准确。上述预定图片可以指下述实施例中的第二样本图
片,上述核验结果指示了预测类别是否为预测类别的第二样本图片的正确类别。
[0150] 本步骤中,可以按照预测的类别筛选出每一种类别的图片,例如正常图片、色情图片和低俗图片,以正常图片为例,在筛选出正常图片后,将正常图片分配给第三标注者进行
核验,第三标注者将确定该图片是否为正常图片,并反馈核验结果。
[0151] 也就是说,标注者看到的是具有相同预测类别的一批图片,他只需快速浏览核验其中不属于该类别的图片即可进行剔除,由原来的多分类问题转换成仅判断是否的2分类
问题。例如,将由机器学习模型预测类别后的预定图片归为10个类别,标注者可以属于类别
1的预定图片判断完后,再一次判断属于类别2的目标图片,直至10个类别浏览完毕。
[0152] 示例性地,现假设有一批预定图片需要在10个类别中进行标注,现有的由标注者人工进行类别标注的方法,标注者需要仔细观察每一张图片,联想10个类别各自的判断标
准,进而选择其中一个类别标注该图片的类别。而使用本发明实施例的标注方法后,标注者
只需核验该图片由机器学习模型预测的类别是否为该图片实际的类别,从而降低标注者的
工作量。
[0153] 可选的,可以使用与前述方法实施例1的标注方法相同的方式,对每一种类别的图片进行分组处理,可以将分组后的每一类别的图片分给多个第三标注者进行核验,综合多
个第三标注者的核验结果来确定预测的类别是否为图片的正确类别,这里不再赘述。
[0154] S304,根据至少一个第三标注者对预定图片的预测的类别的核验结果,确定预测的类别为正确类别的预定图片,将正确类别确定为预定图片的标注类别。
[0155] 由于预定图片的类别是由机器学习模型自动预测的,难免存在预测错误的情况,因此,针对所得到的预定图片的类别,可以由标注者人工核验该类别的准确性。服务器可以
根据核验结果,确定预测的类别为正确类别的预定图片,并将正确类别确定为上述预定图
片的标注类别,从而完成对预定图片的标注。
[0156] 具体地,当至少两个第三标注者对预定图片的预测的类别的核验结果均为正确时,可以确定预测的类别为正确类别,并确定预测类别对应的图片为第二样本图片;或者,
当至少两个第三标注者的对预定图片的预测的类别的核验结果为正确的核验结果在至少
两个第三标注者的总核验结果中的比例达到第三预设阈值时,确定预测的类别为正确类
别,并确定预测类别对应的图片为第二样本图片。上述第三预设阈值可以根据实际的标注
质量要求进行设定,例如,标注质量要求越高,则第三预设阈值设置的也越高。
[0157] 通过上述描述内容可知,标注者将不用逐一对每张预定图片进行人工标注,而是转而只需核验该预定图片由机器学习模型预测的类别是否准确,也即,将标注者的逐图标
注工作转换成批量纠错过程,显然能够极大地提高标注者的工作效率。
[0158] 本发明实施例提供的图片的标注方法,通过将确定了标注类别的图片用作机器学习模型的训练样本,对机器学习模型进行训练,并利用训练得到的机器学习模型对预定图
片的类别进行预测,不需要再由标注者人工进行标注,从而提升预定图片的标注效率;并
且,针对由机器学习模型预测的预定图片的标注结果,服务器可以获取至少一个第三标注
者对预定图片的预测的类别的核验结果,从而确定预测的类别为正确类别的预定图片,并
将正确类别确定为预定图片的标注类别,从而提高图片的标注类别的标注质量。
[0159] 进一步的,上述确定了正确类别的标注图片,可以用作上述机器学习模型的训练样本,反馈到该机器学习模型的训练中,模型的准确率得到提升,再使用优化后的机器学习
模型对部分图片重新预测,预测的错误类别会越来越少,可以反复多次,例如,可以再对重
新预测的图片进行核验标注,确定正确类别的标注图片,再作为训练样本反馈至机器学习
模型的训练中,进一步提高模型的预测准确率,如此反复,机器学习模型会得到不断进化,
更加智能。
[0160] 方法实施例3
[0161] 如图4所示,本发明实施例还提供了一种机器学习模型的获取方法,可以应用于服务器,当然也可以应用于其他类型的具有数据处理运算功能的设备。本实施例中,对机器学
习模型进行训练并获取机器学习模型的过程,如图4所示,具体可以包括以下步骤:
[0162] S401,获取标注有类别的第一样本图片。
[0163] 第一样本图片,是已经标注好类别的图片,例如,通过标注者标注类别后的、并已经确定该图片的标注类别的图片。
[0164] 具体的,可以通过方法实施例1的标注方法获取标注有类别的第一样本图片。
[0165] S402,将标注有类别的第一样本图片作为训练样本,训练得到机器学习模型。
[0166] 本发明实施例中,由于每一张第一样本图片均对应有一个标注类别,因此可以将第一样本图片作为训练样本,对机器学习模型进行训练。具体地,可以使用现有技术公知的
训练方法,利用上述第一样本图片训练得到机器学习模型。该机器学习模型经训练后,可以
对图片的类别进行预测。
[0167] S403,将第二样本图片输入至机器学习模型,获取机器学习模型预测的第二样本图片的类别。
[0168] 上述第二样本图片可以为不含有标注类别的图片,例如,可以包括针对每个视频直播间直播视频的一张截图,或者包括一个视频直播间直播视频在多个时间点截取的多张
截图。通过将第二样本图片输入至机器学习模型,机器学习模型可以对第二样本图片的类
别进行预测,从而获取第二样本图片的类别。
[0169] S404,确定机器学习模型所预测的具有正确类别的第二样本图片。
[0170] 获取机器学习模型预测的第二样本图片的类别后,可以对所预测的类别进行判断,具体地,可以通过标注者人工对含有预测类别的第二样本图片的类别进行判断,从而确
定机器学习模型预测了正确类别的第二样本图片。
[0171] 可以通过方法实施例2的标注方法,将预测类别的第二样本图片分配给标注者进行核验,并接受标注者的核验结果,基于标注者的核验结果,确定机器学习模型预测了正确
类别的第二样本图片。
[0172] S405,将具有正确类别的第二样本图片作为训练样本,训练得到新的机器学习模型。
[0173] 本发明实施例中,可以将预测了正确类别的第二样本图片作为训练样本,输入机器学习模型,对机器学习模型不断进行训练,从而得到新的机器学习模型,机器学习模型得
到不断进化,将变得更加智能。模型的准确率得到提升,再使用新的机器学习模型对图片重
新预测,预测的错误类别会越来越少。
[0174] 可以反复多次,例如,可以再对新的机器学习模型重新预测的图片进行核验标注,确定正确类别的标注图片,再将该正确类别的标注图片作为训练样本反馈至机器学习模型
的训练中,进一步提高模型的预测准确率,如此反复,机器学习模型会得到不断进化,更加
智能。
[0175] 本发明实施例提供的机器学习模型的获取方法,先获取标注有类别的第一样本图片,并将第一样本图片作为训练样本,训练得到机器学习模型;再将第二样本图片输入至上
述训练得到的机器学习模型,并获取机器学习模型预测的第二样本图片的类别,然后确定
其中具有正确类别的第二样本图片,并将该具有正确类别的第二样本图片作为训练样本,
对机器学习模型再次训练,从而得到新的机器学习模型。由于可以将确定了正确类别的第
二样本图片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一方
面避免了由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准确
性下降的问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,使
机器学习模型的预测准确率得到提升,从而提高机器学习模型的性能。
[0176] 方法实施例4
[0177] 本发明实施例还提供了一种图片的标注方法,该方法过程可以包括:
[0178] 管理员可以在标注系统中新建一个10万张图片的总标注任务,指定图片可以标注的类别,例如正常、低俗和色情类别,将图片输入服务器。服务器接收标注任务后,可以将该
总标注任务划分为100个子任务,然后将所获取的10万张图片划分为100等份,并使每等份
图片对应一个子任务,生成各子任务信息。其中,子任务信息可以包含子任务ID(标识号),
子任务所属总标注任务的ID(标识号),子任务中待标注图片的数目,子任务完成状态,子任
务完成时间等信息。服务器可以将子任务及子任务对应的待标注图片发送至前端浏览器,
以供标注者标注。
[0179] 示例性地,以将10万张图分配给5个标注者,每张图同时被两位标注者标注为例,对上述方法过程进行说明。其中,每个子任务包含1000张图片。
[0180] 步骤A、将标注任务信息保存至任务表,生成唯一的总标注任务ID。
[0181] 该步骤中,标注任务信息是指整个标注任务的信息,例如10张图片的标注任务的信息,即总标注任务的信息,该标注任务信息可以包括:需要标注的图片总数量,划分的子
任务个数,总标注任务的完成状态及完成时间。上述标注信息可以保存至现有标注系统数
据库中的任务表(mark_task)中,并生成该总标注任务唯一对应的总标注任务ID。
[0182] 步骤B、在各子任务表中插入100条数据,关联步骤A的标注任务ID,此时子任务状态为未完成,子任务ID为0,1,2,3,……,99,共100个子任务。
[0183] 子任务表(sub_mark_task)用于记录与子任务相关的信息,各子任务划分后,可以在子任务表中插入子任务对应的图片数据,并将该子任务表与总标注任务ID相关联。容易
理解,由于此时还未对图片进行标注,因此在各子任务表中,子任务的状态为未完成。
[0184] 并且,可以为各个子任务分配一个ID,例如0,1,2,3,……,99,共100个ID,每个子任务包含1000张图片,100个子任务总共恰好为10万张图片。
[0185] 步骤C、将上一步的子任务ID复制一遍可得0,1,2,3,……,99;0,1,2,……,99,即得到200个子任务ID,将上述信息记录至子任务分配表,同一个子任务分别对应copy_id1和
copy_id2。
[0186] 子任务分配表(sub_mark_task_assign)用于记录各子任务的分配信息,其可以包含user_id(标注者标识号)、status(分配状态)等内容。由前述内容可知,需要保证每张图
同时被两位标注者标注,因此需要将每个子任务分配给两位标注者。可以将子任务ID复制
一遍,分别为0,1,2,3,……,99,即copy_id1;0,1,2,……,99,即copy_id2,同一个子任务分
别对应copy_id1和copy_id2,也即,保证了每个子任务由两位标注者标注。copy_id1和
copy_id2总共产生了200个分配ID,即200个assign id(分配标识号)。
[0187] 需要说明的是,此时由于子任务还未分配给标注者,因此user_id留空待分配,status为0表示未分配状态;如果已经分配标注者,相应地,user_id填入标注者标识号,
status改为1,表示已分配。
[0188] 步骤D、将10万张图片的ID均分为100份,再将上述100份图片的ID复制一份,即得200份图片ID,将这200份图片ID中的每一对重复的图片ID,分别与每一个子任务对应的
copy_id1的分配ID以及copy_id2的分配ID进行关联,从而使分配的图片与分配的子任务建
立关联。也就是说,一张图片经复制后对应的两张图片,被分配至一个子任务下的两个
copy_id各自对应的分配ID中,因此不会出现一张图片对应的两张图片被分配至两个子任
务中的情况。本发明实施例中,可以按照顺序,将上述200份图片ID分配至每一份子任务中。
[0189] 将上述任务分配信息记录至用户任务分配表。用户任务分配表(user_sub_mark_mask)用于存储标注者的任务分配情况信息,每个分配ID可以对应一个标注者标识号
(user_id)。
[0190] 步骤E、当某个标注者开始标注一个子任务时,从子任务分配表中取一个处于未分配状态(status=0)的分配ID,填入标注者的user_id,更新为分配状态(status=1),同时
更新用户任务分配表中相应的user_id。标注过程中若有新标注者加入,也可同样处理。由
于标注者在取得一个子任务时,分配ID的分配状态会改变,因此不会出现一个标注者领取
同一子任务两次的情况,保证了每张图片被两人标注。
[0191] 假设一个10万张图片的总标注任务被划分为3个子任务,有两个标注者进行标注,则子任务划分情况如图5所示,图中,子任务1、2、3均被分配给了标注者1(USER1)和标注者2
(USER2),且每个标注者不会分配到重复的子任务。
[0192] 本发明实施例提供的一种图片的标注方法,通过在现有标注系统中新建标注任务,指定图片可以标注的类别,服务器接收标注任务后,可以将该标注任务划分为多个子任
务,然后将所获取的图片划分为多个等份,并使每等份图片对应一个子任务,生成各子任务
信息,服务器可以将子任务及子任务对应的待标注图片发送至前端浏览器,以供标注者标
注。标注者可以按照不同的子任务对图片进行标注,并在标注结束后改变该子任务状态,不
会出现一个标注者领取同一子任务两次的情况,提高标注效率。
[0193] 需要强调说明的是,本发明实施例中,标注和训练可以是一个机器学习系统的两个部分,标注方法和机器学习模型的训练均是该机器学习系统的内部构件所执行的。当然,
标注部分也可以是与机器学习系统分立的不同部件,机器学习系统用于利用标注后的图片
进行模型的训练。
[0194] 相应于上面的方法实施例,本发明实施例还提供了相应的装置实施例。
[0195] 装置实施例
[0196] 如图6所示,本发明实施例提供了一种机器学习模型的获取装置,包括:
[0197] 第一获取模块501,用于获取标注有类别的第一样本图片。
[0198] 第一训练模块502,用于将标注有类别的第一样本图片作为训练样本,训练得到机器学习模型。
[0199] 第二获取模块503,用于将第二样本图片输入至机器学习模型,获取机器学习模型预测的第二样本图片的类别。
[0200] 确定模块504,用于确定机器学习模型所预测的具有正确类别的第二样本图片。
[0201] 所述第一训练模块502,还用于将具有正确类别的第二样本图片作为训练样本,训练得到新的机器学习模型。
[0202] 可选地,如图7所示,上述第一获取模块501,包括:
[0203] 第一获取子模块5011,用于获取多张待标注类别的图片,将多张图片划分为若干份。
[0204] 第一分配子模块5012,用于将划分后的每份图片分配给至少两个标注者。
[0205] 第二获取子模块5013,用于针对划分后的每份图片,获取至少两个标注者的标注结果数据,每个标注者的标注结果数据中,均携带有与该份图片中的各图片对应的预标注
类别。
[0206] 对比子模块5014,用于针对每份图片中的每张图片,对比该张图片在至少两个标注者的标注结果数据中的预标注类别是否相同,确定每份图片中在至少两个标注者的标注
结果数据中的预标注类别均相同的图片的数量。
[0207] 第一确定子模块5015,用于针对划分后的每份图片,基于所确定的预标注类别均相同的图片的数量与该份图片总数量的比例关系,确定该份图片中图片的标注类别,并将
确定标注类别后的图片作为第一样本图片。
[0208] 可选地,上述第一确定子模块5015,具体用于:
[0209] 如果划分后的其中一份图片中,所确定的预标注类别均相同的图片的数量与该份图片总数量之比大于或等于第一预设阈值,将预标注类别均相同的图片的预标注类别确定
为图片的标注类别。
[0210] 可选地,如图8所示,在图6所示装置结构的基础上,本实施例的获取装置还可以包括:
[0211] 标注模块506,用于对该份图片中预标注类别不同的图片进行再次标注。
[0212] 可选地,上述第一确定子模块5015,具体用于:
[0213] 如果划分后的其中一份图片中,所确定的预标注类别均相同的图片的数量与该份图片总数量之比小于第一预设阈值,删除与该份图片对应的至少两个标注者的标注结果数
据,并对该份图片中的图片进行再次标注。
[0214] 可选地,标注者包括至少三个;
[0215] 上述第一确定子模块5015,具体用于:
[0216] 如果划分后的其中一份图片中,所确定的预标注类别均相同的图片的数量,与该份图片总数量之比小于第一预设阈值,获取至少三个标注者的标注结果数据中两个标注结
果数据的相似度;
[0217] 当至少三个标注者的标注结果数据中,存在相似度高于第二预设阈值的两个标注结果数据时:
[0218] 确定相似度最高的两个标注结果数据;
[0219] 将相似度最高的两个标注结果数据中,具有相同预标注类别的图片的预标注类别确定为图片的标注类别,其中,两个标注结果数据的相似度为:该份图片在两个标注结果数
据中,具有相同预标注类别的图片的数量与该份图片数量的比值。
[0220] 可选地,如图9所示,上述确定模块504,包括:
[0221] 第二分配子模块5041,用于针对所获取的第二样本图片的每一种预测类别,将预测类别的第二样本图片分配给至少一个第三标注者,获取至少一个第三标注者对第二样本
图片的预测类别的核验结果,核验结果指示了预测类别是否为预测类别的第二样本图片的
正确类别;
[0222] 第二确定子模块5042,用于根据至少一个第三标注者对第二样本图片的预测类别的核验结果,确定预测类别为正确类别的第二样本图片。
[0223] 可选地,第三标注者包括至少两个;
[0224] 上述确定模块504,具体用于:
[0225] 当至少两个第三标注者对第二样本图片的预测类别的核验结果均为正确时,确定预测类别对应的图片为第二样本图片;
[0226] 或者,
[0227] 当至少两个第三标注者的述第二样本图片的预测类别的核验结果为正确的核验结果在至少两个第三标注者的总核验结果中的比例达到第三预设阈值时,确定预测类别对
应的图片为第二样本图片。
[0228] 本发明实施例提供的机器学习模型的获取装置,先获取标注有类别的第一样本图片,并将第一样本图片作为训练样本,训练得到机器学习模型;再将第二样本图片输入至上
述训练得到的机器学习模型,并获取机器学习模型预测的第二样本图片的类别,然后确定
其中具有正确类别的第二样本图片,并将该具有正确类别的第二样本图片作为训练样本,
对机器学习模型再次训练,从而得到新的机器学习模型。由于可以将确定了正确类别的第
二样本图片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一方
面避免了由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准确
性下降的问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,使
机器学习模型的预测准确率得到提升,从而提高机器学习模型的性能。
[0229] 本发明实施例还提供了一种机器模型的训练设备,具体可以为服务器,如图10所示,该设备600包括处理器601和机器可读存储介质602,机器可读存储介质存储有能够被处
理器执行的机器可执行指令,处理器执行机器可执行指令实现以下步骤:
[0230] 获取标注有类别的第一样本图片;
[0231] 将标注有类别的第一样本图片作为训练样本,训练得到机器学习模型;
[0232] 将第二样本图片输入至机器学习模型,获取机器学习模型预测的第二样本图片的类别;
[0233] 确定机器学习模型所预测的具有正确类别的第二样本图片;
[0234] 将具有正确类别的第二样本图片作为训练样本,训练得到新的机器学习模型。
[0235] 机器可读存储介质602可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non‑volatile memory),例如至少一个磁盘存储器。可
选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0236] 上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器
(Digital Signal Processing,简称DSP)、专用集成电路(Application Specific 
Integrated Circuit,简称ASIC)、现场可编程门阵列(Field‑Programmable Gate Array,
简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0237] 本发明实施例提供的机器模型的训练设备,先获取标注有类别的第一样本图片,并将第一样本图片作为训练样本,训练得到机器学习模型;再将第二样本图片输入至上述
训练得到的机器学习模型,并获取机器学习模型预测的第二样本图片的类别,然后确定其
中具有正确类别的第二样本图片,并将该具有正确类别的第二样本图片作为训练样本,对
机器学习模型再次训练,从而得到新的机器学习模型。由于可以将确定了正确类别的第二
样本图片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一方面
避免了由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准确性
下降的问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,使机
器学习模型的预测准确率得到提升,从而提高机器学习模型的性能。
[0238] 本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,用以执行如下步骤:
[0239] 获取标注有类别的第一样本图片;
[0240] 将标注有类别的第一样本图片作为训练样本,训练得到机器学习模型;
[0241] 将第二样本图片输入至机器学习模型,获取机器学习模型预测的第二样本图片的类别;
[0242] 确定机器学习模型所预测的具有正确类别的第二样本图片;
[0243] 将具有正确类别的第二样本图片作为训练样本,训练得到新的机器学习模型。
[0244] 本发明实施例提供的计算机可读存储介质,先获取标注有类别的第一样本图片,并将第一样本图片作为训练样本,训练得到机器学习模型;再将第二样本图片输入至上述
训练得到的机器学习模型,并获取机器学习模型预测的第二样本图片的类别,然后确定其
中具有正确类别的第二样本图片,并将该具有正确类别的第二样本图片作为训练样本,对
机器学习模型再次训练,从而得到新的机器学习模型。由于可以将确定了正确类别的第二
样本图片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一方面
避免了由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准确性
下降的问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,使机
器学习模型的预测准确率得到提升,从而提高机器学习模型的性能。
[0245] 本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行以下步骤:
[0246] 获取标注有类别的第一样本图片;
[0247] 将标注有类别的第一样本图片作为训练样本,训练得到机器学习模型;
[0248] 将第二样本图片输入至机器学习模型,获取机器学习模型预测的第二样本图片的类别;
[0249] 确定机器学习模型所预测的具有正确类别的第二样本图片;
[0250] 将具有正确类别的第二样本图片作为训练样本,训练得到新的机器学习模型。
[0251] 本发明实施例提供的包含指令的计算机程序产品,先获取标注有类别的第一样本图片,并将第一样本图片作为训练样本,训练得到机器学习模型;再将第二样本图片输入至
上述训练得到的机器学习模型,并获取机器学习模型预测的第二样本图片的类别,然后确
定其中具有正确类别的第二样本图片,并将该具有正确类别的第二样本图片作为训练样
本,对机器学习模型再次训练,从而得到新的机器学习模型。由于可以将确定了正确类别的
第二样本图片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一
方面避免了由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准
确性下降的问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,
使机器学习模型的预测准确率得到提升,从而提高机器学习模型的性能。
[0252] 本发明实施例还提供了一种计算机程序,当其在计算机上运行时,使得计算机执行以下步骤:
[0253] 获取标注有类别的第一样本图片;
[0254] 将标注有类别的第一样本图片作为训练样本,训练得到机器学习模型;
[0255] 将第二样本图片输入至机器学习模型,获取机器学习模型预测的第二样本图片的类别;
[0256] 确定机器学习模型所预测的具有正确类别的第二样本图片;
[0257] 将具有正确类别的第二样本图片作为训练样本,训练得到新的机器学习模型。
[0258] 本发明实施例提供的包含指令的计算机程序,先获取标注有类别的第一样本图片,并将第一样本图片作为训练样本,训练得到机器学习模型;再将第二样本图片输入至上
述训练得到的机器学习模型,并获取机器学习模型预测的第二样本图片的类别,然后确定
其中具有正确类别的第二样本图片,并将该具有正确类别的第二样本图片作为训练样本,
对机器学习模型再次训练,从而得到新的机器学习模型。由于可以将确定了正确类别的第
二样本图片用作上述机器学习模型的训练样本,并反馈到该机器学习模型的训练中,一方
面避免了由于将人工标注类别的图片中,类别错误的图片作为训练样本而导致的样本准确
性下降的问题,保证样本图片的准确性;另一方面可以使机器学习模型进一步得到优化,使
机器学习模型的预测准确率得到提升,从而提高机器学习模型的性能。
[0259] 对于装置/设备/存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0260] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存
在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖
非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要
素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备
所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在
包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0261] 本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实
施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例
的部分说明即可。
[0262] 以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围
内。