一种信息标注方法、装置、设备及计算机可读存储介质转让专利
申请号 : CN202110439827.2
文献号 : CN112861474B
文献日 : 2021-07-02
发明人 : 田上萱 , 蔡成飞 , 赵文哲 , 孔伟杰 , 王红法 , 刘威
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种信息标注方法,其特征在于,包括:基于图像数据集的第i次正样本、第i次锚样本和第i次负样本,训练第i‑1次度量模型,得到第i次度量模型,其中,i为正整数;
基于所述第i次度量模型,对比所述第i次正样本和所述第i次锚样本;
基于对比结果,对所述第i次正样本进行主体裁剪,获得第i+1次正样本,并对所述第i次锚样本进行主体裁剪,获得第i+1次锚样本;
继续基于所述第i+1次正样本、所述第i+1次锚样本和第i+1次负样本训练所述第i次度量模型,并基于训练后的第i次度量模型分别对所述第i+1次正样本和所述第i+1次锚样本进行主体裁剪,直到满足截止条件时,获得第n次正样本和第n次锚样本,其中,n为大于i的整数;
将所述第n次正样本和所述第n次锚样本,确定为所述图像数据集的主体标注区域。
2.根据权利要求1所述的方法,其特征在于,所述对比结果包括所述第i次正样本的正特征响应图、以及所述第i次锚样本的锚特征响应图;
其中,所述正特征响应图为所述第i次正样本中与所述第i次锚样本的最相似区域的相似度图,所述锚特征响应图为所述第i次锚样本中与所述第i次正样本的最相似区域的相似度图;
所述基于对比结果,对所述第i次正样本进行主体裁剪,获得第i+1次正样本,并对所述第i次锚样本进行主体裁剪,获得第i+1次锚样本,包括:基于所述正特征响应图对所述第i次正样本进行主体裁剪,获得所述第i+1次正样本;
基于所述锚特征响应图对所述第i次锚样本进行主体裁剪,获得所述第i+1次锚样本。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第i次度量模型,对比所述第i次正样本和所述第i次锚样本之后,所述方法还包括:基于相似度阈值和所述正特征响应图,确定所述第i次正样本中的第一相似区域,并基于所述相似度阈值和所述锚特征响应图,确定所述第i次锚样本中的第二相似区域;
当所述第一相似区域和所述第二相似区域中的至少一种的区域值小于区域阈值时,获取所述第i次正样本与当前主体类别下的当前图像集合中的其他图像对应的第三相似区域,并获取所述第i次锚样本与所述其他图像对应的第四相似区域;
当所述第三相似区域大于所述第四相似区域时,确定所述第i次锚样本为噪音图像,从所述当前图像集合中删除所述第i次锚样本。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于图像数据集的第i次正样本、第i次锚样本和第i次负样本,训练第i‑1次度量模型,得到第i次度量模型,包括:基于所述第i‑1次度量模型,获取所述图像数据集的所述第i次正样本的正样本特征、所述第i次锚样本的锚样本特征和所述第i次负样本的负样本特征;
基于所述正样本特征和所述锚样本特征之间的差异,以及所述锚样本特征和所述负样本特征之间的差异,训练所述第i‑1次度量模型,获得所述第i次度量模型。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述基于图像数据集的第i次正样本、第i次锚样本和第i次负样本,训练第i‑1次度量模型,得到第i次度量模型之前,所述方法还包括:
获取所述图像数据集对应的第i次图像数据集,其中,所述第i次图像数据集是由各个主体类别下的图像集合构成的,且所述第i次图像数据集是通过对所述图像数据集进行i‑1次迭代主体裁剪获得的;
将所述第i次图像数据集中当前主体类别下的当前图像集合中的两张图像作为所述第i次正样本和所述第i次锚样本,其中,所述当前主体类别为所述各个主体类别下的任一主体类别;
将所述第i次图像数据集中不同于所述当前主体类别下的其他图像集合中的一张图像,确定为所述第i次负样本。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述满足截止条件时,获得第n次正样本和第n次锚样本之前,所述方法还包括:获取所述第n次正样本与第n‑1次正样本之间的第n次正区域差异,并获取所述第n次锚样本与第n‑1次锚样本之间的第n次锚区域差异;
获取前j次的正区域差异和前j次的锚区域差异,其中,j为正整数;
当所述前j次的正区域差异和所述第n次正区域差异之间的差异小于差异阈值,和/或所述前j次的锚区域差异和所述第n次锚区域差异之间的差异小于所述差异阈值时,确定满足所述截止条件。
7.根据权利要求3所述的方法,其特征在于,所述满足截止条件时,获得第n次正样本和第n次锚样本之前,所述方法还包括:当所述第一相似区域在所述第n次正样本的第一占比,和所述第二相似区域在所述第n次锚样本的第二占比中的至少一种大于占比阈值时,确定满足所述截止条件。
8.根据权利要求1至3任一项所述的方法,其特征在于,所述将所述第n次正样本和所述第n次锚样本,确定为所述图像数据集的主体标注区域之后,所述方法还包括:基于所述图像数据集和所述主体标注区域,训练出主体检测模型;
当接收到主体检测请求时,响应于所述主体检测请求,获取待检测图像;
基于所述主体检测模型对所述待检测图像进行主体检测,获得主体区域。
9.根据权利要求8所述的方法,其特征在于,所述基于所述图像数据集和所述主体标注区域,训练出主体检测模型,包括:基于原始主体检测模型,确定所述图像数据集中图像的预测主体区域;
基于所述预测主体区域与所述主体标注区域之间的差异,迭代训练所述原始主体检测模型,直到满足训练截止条件时,获得所述主体检测模型。
10.根据权利要求8所述的方法,其特征在于,所述主体区域为检索对象区域、投放对象区域、检测目标区域和场景区域中的至少一种。
11.根据权利要求10所述的方法,其特征在于,当所述主体区域为所述检索对象区域时,所述将所述第n次正样本和所述第n次锚样本,确定为所述图像数据集的主体标注区域之后,所述方法还包括:
提取所述主体标注区域的特征,从而获得与所述图像数据集对应的特征检索库;
所述基于所述主体检测模型对所述待检测图像进行主体检测,获得主体区域之后,所述方法还包括:
提取所述检索对象区域的待检索特征;
从所述特征检索库中,确定与所述待检索特征匹配的匹配特征;
将所述图像数据集中与所述匹配特征对应的图像,确定为所述待检测图像的检索结果,并基于所述检索结果进行推荐处理。
12.根据权利要求10所述的方法,其特征在于,当所述主体区域为所述投放对象区域时,所述基于所述主体检测模型对所述待检测图像进行主体检测,获得主体区域之后,所述方法还包括:
提取所述投放对象区域的投放对象特征;
基于所述投放对象特征确定投放属性,并基于所述投放属性,确定待投放信息,并基于所述待投放信息进行投放处理,其中,所述投放属性包括投放类目和投放标签中的至少一种;或者,
基于所述投放对象特征确定投放转化率,以及当所述投放转化率大于投放转化率阈值时,对所述待检测图像进行投放处理,当所述投放转化率小于或等于所述投放转化率阈值时,结束对所述待检测图像的投放处理。
13.一种信息标注装置,其特征在于,包括:模型训练模块,用于基于图像数据集的第i次正样本、第i次锚样本和第i次负样本,训练第i‑1次度量模型,得到第i次度量模型,其中,i为正整数;
相似度量模块,用于基于所述第i次度量模型,对比所述第i次正样本和所述第i次锚样本;
主体裁剪模块,用于基于对比结果,对所述第i次正样本进行主体裁剪,获得第i+1次正样本,并对所述第i次锚样本进行主体裁剪,获得第i+1次锚样本;
迭代处理模块,用于继续基于所述第i+1次正样本、所述第i+1次锚样本和第i+1次负样本训练所述第i次度量模型,并基于训练后的第i次度量模型分别对所述第i+1次正样本和所述第i+1次锚样本进行主体裁剪,直到满足截止条件时,获得第n次正样本和第n次锚样本,其中,n为大于i的整数;
信息标注模块,用于将所述第n次正样本和所述第n次锚样本,确定为所述图像数据集的主体标注区域。
14.一种信息标注设备,其特征在于,包括:存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至12任一项所述的方法。
说明书 :
一种信息标注方法、装置、设备及计算机可读存储介质
技术领域
背景技术
于图像的广告投放、基于监控图像的目标定位、以及以图搜图等应用,均是通过主体检测实
现的。
标注通过人工标注的,标注效率较低。
发明内容
样本进行主体裁剪,直到满足截止条件时,获得第n次正样本和第n次锚样本,其中,n为大于
i的整数;
本和所述第i+1次锚样本进行主体裁剪,直到满足截止条件时,获得第n次正样本和第n次锚
样本,其中,n为大于i的整数;
次锚样本的最相似区域的相似度图,所述锚特征响应图为所述第i次锚样本中与所述第i次
正样本的最相似区域的相似度图;所述主体裁剪模块,还用于基于所述正特征响应图对所
述第i次正样本进行主体裁剪,获得所述第i+1次正样本;基于所述锚特征响应图对所述第i
次锚样本进行主体裁剪,获得所述第i+1次锚样本。
和所述锚特征响应图,确定所述第i次锚样本中的第二相似区域;当所述第一相似区域和所
述第二相似区域中的至少一种的区域值小于区域阈值时,获取所述第i次正样本与当前主
体类别下的当前图像集合中的其他图像对应的第三相似区域,并获取所述第i次锚样本与
所述其他图像对应的第四相似区域;当所述第三相似区域大于所述第四相似区域时,确定
所述第i次锚样本为噪音图像,从所述当前图像集合中删除所述第i次锚样本。
样本的负样本特征;基于所述正样本特征和所述锚样本特征之间的差异,以及所述锚样本
特征和所述负样本特征之间的差异,训练所述第i‑1次度量模型,获得所述第i次度量模型。
集合构成的,且所述第i次图像数据集是通过对所述图像数据集进行i‑1次迭代主体裁剪获
得的;将所述第i次图像数据集中当前主体类别下的当前图像集合中的两张图像作为所述
第i次正样本和所述第i次锚样本,其中,所述当前主体类别为所述各个主体类别下的任一
主体类别;将所述第i次图像数据集中不同于所述当前主体类别下的其他图像集合中的一
张图像,确定为所述第i次负样本。
本之间的第n次锚区域差异;获取前j次的正区域差异和前j次的锚区域差异,其中,j为正整
数;当所述前j次的正区域差异和所述第n次正区域差异之间的差异小于差异阈值,和/或所
述前j次的锚区域差异和所述第n次锚区域差异之间的差异小于所述差异阈值时,确定满足
所述截止条件。
于占比阈值时,确定满足所述截止条件。
主体检测请求,获取待检测图像;基于所述主体检测模型对所述待检测图像进行主体检测,
获得主体区域。
迭代训练所述原始主体检测模型,直到满足训练截止条件时,获得所述主体检测模型。
特征检索库;提取所述检索对象区域的待检索特征;从所述特征检索库中,确定与所述待检
索特征匹配的匹配特征;将所述图像数据集中与所述匹配特征对应的图像,确定为所述待
检测图像的检索结果,并基于所述检索结果进行推荐处理。
所述投放属性,确定待投放信息,并基于所述待投放信息进行投放处理,其中,所述投放属
性包括投放类目和投放标签中的至少一种;或者,基于所述投放对象特征确定投放转化率,
以及当所述投放转化率大于投放转化率阈值时,对所述待检测图像进行投放处理,当所述
投放转化率小于或等于所述投放转化率阈值时,结束对所述待检测图像的投放处理。
和第i次锚样本中的主体所在区域进行裁剪;如此持续进行训练和裁剪,直至裁剪出主体标
注区域(第n次正样本和第n次锚样本);如此,主体标注区域的获取是自动的,从而,能够提
升标注效率。
附图说明
具体实施方式
做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
的情况下相互结合。
以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描
述的以外的顺序实施。
不是旨在限制本申请。
论、方法、技术及应用系统。
学习行为,以获取新的知识或技能;重新组织已有的知识结构使之不断改善自身的性能。机
器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个
领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。
各种理论和方法;自然语言处理是一门融语言学、计算机科学和数学于一体的科学,因此,
这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密
切的联系;自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图
谱等技术。本申请实施例提供的信息标注方法可以应用在自然语言处理领域。
DNN)、卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent
Neural Network,RNN)等。比如,本申请实施例中的用于提取特征的模型、主体检测模型等。
使得同类对象在嵌入空间上使用常用的距离函数(比如,欧氏距离、“cosine”距离等)计算
的距离比较近,而不同类的对象之间的距离则比较远。
进行模型参数的训练。
种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计
算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
驶、无人机、机器人、智能医疗和智能客服等;随着技术的发展,人工智能技术将在更多的领
域得到应用,并发挥越来越重要的价值。本申请实施例中所涉及的人工智能在主体检测领
域的应用将在后续进行说明。
和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引
了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。
适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数
据库、云计算平台、互联网和可扩展的存储系统。
述的主体框的标注是通过人工标注的,标注效率较低。比如用于训练主体检测模型的数据
集“VOC”、“MSCOCO”、“ImageNet”、“Objects365”等都是人工标注的;参见表1,表1为针对数
据集的人工标注情况:
注的可执行性较差和标注效率较低。并且,为了保证人工标注的质量,标注的整个流程非常
繁多复杂,包括数据收集与清洗、标注人员培训,还有保证数据标注准确性的抽查和校验等
环节,标注过程的时间消耗较大,标注效率较低。
区域迭代训练通用预训练检测模型,获得目标检测模型,最后利用目标检测模型确定待检
测图像的显著性区域。示例性地,参见图1,图1是一种示例性的主体检测流程示意图;如图1
所示,待检测图像1‑1输入通用预训练检测模型1‑2之后,获得显著性区域1‑3,基于阈值过
滤和/或条件随机场等方式调整显著性区域1‑3,基于调整后的显著性区域1‑4判断显著性
区域是否稳定,如果是则将调整后的显著性区域1‑4作为最终检测结果1‑5;如果否则基于
调整后的显著性区域1‑4和显著性区域1‑3之间的差异继续迭代训练通用预训练检测模型
1‑2,以微调通用预训练检测模型1‑2,直至显著性区域稳定,获得最终检测结果1‑5。
较强响应,导致无法区分显著性区域与噪音区域,因此,训练通用预训练检测模型时容易受
噪音影响,从而,主体检测的准确度较低。另一方面,需要通用预训练模型(预训练检测模
型):通常需要用通用预训练模型得到一个初始结果,后续优化迭代都在此初始结果上进
行。所以初始结果不能太差,这就要求通用预训练模型得有一定数据支撑,且此数据需要和
目标数据的分布保持一致,否则很难迭代优化。因此如果目标数据不通用,那么很难找到已
有的通用预训练模型,比如主体类别为商品中的酒瓶、玩具、奶粉等时,无对应的通用预训
练模型。故,通常仍基于标注的方式进行主体检测,然而主体框是通过人工标注的,标注效
率较低。
性应用,本申请实施例提供的信息标注设备可以实施为笔记本电脑,平板电脑,台式计算
机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,
便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明信息标注设
备实施为服务器时的示例性应用。
400‑1和终端400‑2)通过网络301连接服务器200(信息标注设备),网络301可以是广域网或
者局域网,又或者是二者的组合。另外,该信息标注系统100中,还包括数据库302,用于在服
务器200进行信息标注时,为服务器200提供数据支持。
次正样本和第i次锚样本;基于对比结果,对第i次正样本进行主体裁剪,获得第i+1次正样
本,并对第i次锚样本进行主体裁剪,获得第i+1次锚样本;继续基于第i+1次正样本、第i+1
次锚样本和第i+1次负样本训练第i次度量模型,并基于训练后的第i次度量模型分别对第i
+1次正样本和第i+1次锚样本进行主体裁剪,直到满足截止条件时,停止主体裁剪,获得第n
次正样本和第n次锚样本,其中,n为大于i的整数;将第n次正样本和第n次锚样本,确定为图
像数据集的主体标注区域。还用于基于主体标注区域训练出主体检测模型,采用主体检测
模型对终端400通过网络301发送的待检测图像进行主体检测,并通过网络301向终端400发
送检测出的主体区域。
一种托管技术。
支撑。技术网络系统的后台服务需要大量的计算、存储资源。
络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容
分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智
能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端
以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限
制。
200进行信息标注,还可以通过服务器200对多个终端(图3中示例性示出了终端400‑1和终
端400‑2)进行主体检测。
联盟链中的任意一种。以公有链为例,任何业务主体的电子设备,都可以在不需要授权的情
况下接入区块链网络500,以作为区块链网络500的共识节点,例如终端400‑1映射为区块链
网络500中的共识节点500‑1,服务器200映射为区块链网络500中的共识节点500‑2,终端
400‑2映射为区块链网络500中的共识节点500‑3。
的主体标注区域,以及基于主体标注区域训练出主体检测模型之后,可以通过执行智能合
约的方式对终端400‑1和终端400‑2发送的待检测图像进行主体检测,以获得待检测图像的
主体区域,并分别将主体区域发送至区块链网络500中进行共识。当共识通过、且主体区域
表征待检测图像的主体所在区域时,确定该主体区域即待检测图像的主体检测结果。可见,
通过区块链网络中的多个节点对检测结果进行共识确认后再进行主体检测结果的确定,能
够通过共识机制避免了受到服务器错误检测的影响,进一步提高主体检测的可靠性和准确
性。
230。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现
这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线
和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统240。
晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理
器等。
括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输
入按钮和控件。
一个或多个存储设备。
以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器250旨在
包括任意适合类型的存储器。
Universal Serial Bus)等;
接口);
以下软件模块:模型训练模块2551、相似度量模块2552、主体裁剪模块2553、迭代处理模块
2554、信息标注模块2555、噪音清理模块2556、样本构建模块2557、条件确定模块2558、主体
检测模块2559和应用模块25510,这些模块是逻辑上的,因此根据所实现的功能可以进行任
意的组合或进一步拆分。将在下文中说明各个模块的功能。
其被编程以执行本申请实施例提供的信息标注方法,例如,硬件译码处理器形式的处理器
可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated
Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件
(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field‑
Programmable Gate Array)或其他电子元件。
像集合,每张图像之间存在弱监督信息:所属的主体类别或主体标签,比如,图像A和图像B
是否为同一投放对象或同一商品(主体类别或主体标签,比如,名称或类别)。为了实现对图
像数据集的主体框的标注,信息标注设备迭代训练一种度量模型,并在迭代训练该度量模
型的过程中,逐渐确定出图像数据集中每张图像的主体框。针对度量模型的第i次训练,对
应的数据集为对图像数据集已进行了i‑1次处理后的数据集;信息标注设备从对图像数据
集进行了i‑1次处理后的数据集中,抽取同一主体类别或主体标签的两张图像,组成正样本
对,该正样本对为第i次正样本和第i次锚样本,以及抽取主体类别或主体标签不同的两张
图像,组成负样本对,该负样本对为第i次锚样本图像和第i次负样本图像。这里,i为正整
数。
后的度量模型,并且,第i次度量模型是信息标注设备基于第i次正样本、第i次锚样本和第i
次负样本组成的正样本对和负样本对,训练第i‑1次度量模型获得的。这里,图像数据集是
一种结构化图像类型的数据集,该结构化体现在各图像之间的主体类别或主体标签是否相
同。
对图像数据集处理了至少一次后的数据集,再次进行处理获得的(即i大于1时)。
和第i次锚样本,所获得第i次正样本和第i次锚样本之间的相似度分布中,相似度大的区域
对应于主体框内的区域,相似度小的区域对应于主体框外的区域;且该相似度分布即第i次
正样本和第i次锚样本的对比结果。也就是说,对比结果为第i次正样本和第i次锚样本的基
于主体的响应特征图。
所在区域产生较强的响应,而非主体所在区域则会被抑制,产生较低的响应,进而能够有效
清理噪音数据,准确地确定主体所在区域,提升主体框的标注准确度。
行裁剪,也就是实现了对第i次正样本和第i次锚样本的主体裁剪;从而,也就获得了与第i
次正样本对应的第i+1次正样本,以及与第i次锚样本对应的第i+1次锚样本。
次锚样本进行主体裁剪时,可以是基于裁剪阈值进行,以实现对第i次正样本和第i次锚样
本的微调,保留尽可能多的相似度区域,删除掉尽可能少的背景或者噪音区域,以防误删,
从而提升标注的准确度。
剪,直到满足截止条件时,获得第n次正样本和第n次锚样本。
了i次的主体裁剪所获得的数据集中,抽取与第i+1次锚样本的主体类别或主体标签不同的
图像,也就获得了第i+1次负样本;这里,第i+1次负样本可以是采用第i次度量模型对第i次
负样本进行裁剪后的图像,还可以是采用第i次度量模型对不同于第i次负样本的其他负样
本进行裁剪后的图像,本申请实施例对此不作具体限定。另外,信息标注设备对图像数据集
进行第i次的主体裁剪时,也就实现了对第i次负样本的主体裁剪。以及,信息标注设备在确
定满足截止条件时,停止进行主体裁剪。
及信息标注设备采用训练后的第i次度量模型,分别对第i+1次正样本和第i+1次锚样本进
行主体裁剪的过程,与S501中的主体裁剪过程类似;本申请实施例在此不再赘述。
出的正样本对中主体框趋于稳定(主体框的变化量小于变化量阈值)或满足一定条件(主体
框中的主体所在区域占比大于占比阈值)时,确定满足截止条件;此时,所获得的图像数据
集的主体裁剪的结果即为第n次正样本和第n次锚样本。另外,n为大于i的整数。易知,第n次
正样本和第n次锚样本均是进行了n‑1次主体裁剪获得的图像,且,第i次正样本包括第n次
正样本,第i次锚样本包括第n次锚样本。另外,截止条件还可以是主体裁剪次数。
即为图像数据集的主体标注区域,此时,也就实现了对图像数据集的主体所在区域的标注。
易知,主体标注区域是图像数据集针对主体的标注信息。
度量模型6‑21;利用度量模型6‑21对图像数据集6‑11中的正样本对进行主体裁剪,获得图
像数据集6‑12;针对图像数据集6‑12,构建对应的正样本对和负样本对,以训练度量模型6‑
21,得到度量模型6‑22;利用度量模型6‑22对图像数据集6‑12中的正样本对进行主体裁剪,
获得图像数据集6‑13;……;获得图像数据集6‑1n。这里,图像数据集6‑11中的正样本对即
第1次正样本和第1次锚样本,以及图像数据集6‑12中的正样本对即第2次正样本和第2次锚
样本;另外,图像数据集6‑1n中的正样本对即第n次正样本和第n次锚样本。其中,图中虚线
箭头对应的处理是指主体裁剪,实线箭头对应的处理是指度量模型的训练。
主体所在区域进行裁剪;如此持续进行训练和裁剪,直至裁剪出主体标注区域(第n次正样
本和第n次锚样本);如此,主体标注区域的获取是自动的,从而,能够提升人体检测中的标
注效率。
相似度分布图,锚特征响应图为第i次锚样本中与第i次正样本的最相似区域的相似度分布
图;此时,S503可通过S5031和S5032实现;也就是说,信息标注设备基于对比结果,对第i次
正样本进行主体裁剪,获得第i+1次正样本,并对第i次锚样本进行主体裁剪,获得第i+1次
锚样本,包括S5031和S5032,下面分别对各步骤进行说明。
的响应值,与第i次正样本和第i次负样本的相似度成正相关。信息标注设备将正特征响应
图叠加在第i次正样本上,将正特征响应图中响应最强(相似度最大)的区域(表征的主体所
在区域),确定为第i次正样本的中心,对该中心的外围进行裁剪,裁剪后的第i次正样本,即
第i+1次正样本。
次正样本7‑11和第i次锚样本7‑12时,获得与第i次正样本7‑11对应的正特征响应图7‑21,
以及与第i次锚样本7‑12对应的锚特征响应图7‑22;其中,正特征响应图7‑21和锚特征响应
图7‑22即对比结果7‑2。这里,图7‑31为将正特征响应图7‑21叠加在第i次正样本7‑11的效
果,图7‑32为将锚特征响应图7‑22叠加在第i次锚样本7‑12的效果。
的流程示意图;如图8所示,针对第i次正样本7‑11,当基于正特征响应图7‑21进行主体裁
剪,获得第i+1次正样本8‑1;接着基于度量模型获得的第i+1次正样本8‑1对应的特征响应
图,对第i+1次正样本8‑1进行主体裁剪,获得第i+2次正样本8‑2;继续基于度量模型获得的
第i+2次正样本8‑2对应的特征响应图,对第i+2次正样本8‑2进行主体裁剪,获得第i+3次正
样本8‑3(第n次正样本)。
S508,下面分别对各步骤进行说明。
的各相似度与相似度阈值比较,也就能够获得第i次正样本中的与第i次锚样本的相似区
域,这里称为第一相似区域;同理,信息标注设备通过将锚特征响应图中的各相似度与相似
度阈值比较,也就能够获得第i次锚样本中的与第i次正样本的相似区域,这里称为第二相
似区域。
并获取第i次锚样本与其他图像对应的第四相似区域。
第二相似区域之后,将第一相似区域和第二相似区域分别对应的区域值与区域阈值比较。
如果第一相似区域和第二相似区域中的至少一种的区域值不小于区域阈值,表明第i次正
样本和第i次锚样本相似。
个样本为噪音图像(比如,包括部分主体的图像,或者用于呈现主体的关联内容的图像);从
而,信息标注设备进一步确定第i次正样本和第i次锚样本中的噪音图像。
似区域,确定出第三相似区域(比如,计算第i次正样本与当前图像集合中的其他图像的各
个相似区域的平均值);同理,确定出第i次锚样本与其他图像对应的第四相似区域。
音图像,从而从当前图像集合中删除第i次锚样本;如果第三相似区域小于第四相似区域,
表明第i次正样本为噪音图像,从而从当前图像集合中删除第i次正样本。后续,基于删除了
噪音图像的当前图像集合中构建正样本对进行主体裁剪。
可以基于S506至S508确定的方法,检测不同主体类别下的图像的相似结果,当不同主体类
别下的图像相似时,表明这两个主体类别为一个主体类别,此时,可以对该两个主体类别下
的图像集合进行合并。
次度量模型,包括S5011和S5012,下面对各步骤分别进行说明。
负样本的特征,也就获得了负样本特征。
里,当采用三元组损失函数(Triplet Loss)获取正样本的特征、锚样本特征和负样本特征
对应的损失函数值时,正样本特征和锚样本特征之间的差异,以及锚样本特征和负样本特
征之间的差异共同组成损失函数值。
次度量模型之前,该信息标注方法还包括S509至S511,下面对各步骤分别进行说明。
由各个主体类别下的多张图像构成的。
次锚样本的微调程度。
件。
本对应的相似区域稳定;信息标注设备通过对比前j次的锚区域差异和第n次锚区域差异,
确定第n次锚区域差异与前j次的锚区域差异之间的差异小于差异阈值时,确定第n次锚样
本对应的相似区域稳定;这里,当第n次正样本和第n次锚样本中的至少一种对应的相似区
域稳定时,确定满足截止条件。
体所在区域的精准度;从而,当第一占比大于占比阈值时,表明第n次正样本作为主体所在
区域的精准度较高。
域的精准度。从而,当第二占比大于占比阈值时,表明第n次锚样本作为主体所在区域的精
准度较高。故,这里,信息标注设备在确定第一占比和第二占比中的至少一种大于占比阈值
时,确定满足截止条件。
数据集的主体标注区域之后,该信息标注方法还包括S512至S514,下面对各步骤分别进行
说明。
检测模型,直到满足训练截止条件时,获得主体检测模型。也就是说,信息标注设备利用原
始主体检测模型预测图像数据集中的图像的主体预测区域,并基于主体预测区域和主体标
注区域之间的差异迭代训练原始主体检测模型,并在满足训练截止条件时,将当前迭代训
练后的原始主体检测模型,确定为主体检测模型。
求中的图像获取地址,获取待检测图像。易知,待检测图像为待进行主体检测的图像。
中,也就获得了待检测图像的主体所在区域,这里称为主体区域。
主体所在区域进行裁剪;如此持续进行训练和裁剪,直至裁剪出主体检测框(第n次正样本
和第n次锚样本);如此,主体检测框的获取是自动的,从而在基于裁剪出的主体检测框训练
出主体检测模型,并采用主体检测模型进行主体检测时,能够提升主体检测的效率。
放,比如,广告投放等,此时,主体区域为投放对象区域;又可以为目标识别,比如,人脸识
别,行人重识别、通用物体识别等,此时,主体区域为检测目标区域;以及可以为场景分割,
此时,主体区域为场景区域。
后,该信息标注方法还包括S515,下面对该步骤进行说明。
还包括S516至S518,下面对各步骤分别进行说明。
提取。
配的匹配特征,则生成无匹配信息的提示信息。
域之后,该信息标注方法还包括S519至S521,下面对各步骤分别进行说明。
检测图像的投放处理。
像数据集,比如为商品训练数据D1,一个“batch”);其次,商品训练数据11‑3通过挖掘处理
11‑4,获得正样本11‑51(第i次正样本)、锚样本11‑52(第i次锚样本)和负样本11‑53(第i次
负样本);然后,采用度量模型11‑6(第i‑1次度量模型,比如为深度度量模型M0)分别提取正
样本11‑51、锚样本11‑52和负样本11‑53的嵌入特征(“Embedding”特征),依次获得特征11‑
71(正样本特征)、特征11‑72(锚样本特征)和特征11‑73(负样本特征);最后,利用三元组损
失函数计算特征11‑71、特征11‑72和特征11‑73对应的度量模型损失值11‑8(正样本特征和
锚样本特征之间的差异,以及锚样本特征和负样本特征之间的差异),并基于度量模型损失
值11‑8更新度量模型11‑6(更新后的度量模型11‑6即第i次度量模型,比如深度度量模型
M1)。
基于响应特征图对正样本对中的每张图片进行裁剪(参见图8中对第i次正样本7‑11进行主
体裁剪,获得第i+1次正样本8‑1的过程),从而获得商品训练数据D2(第2次图像数据集)。
(第一相似区域和第二相似区域中的至少一种的区域值小于区域阈值),则其中一张图片可
能为噪音图片(商品细节图片或者包装图片等)。此时,将这两张图分别与同一商品(当前主
体类别)中的其它所有图片(其他图像)进行相似区域预测并比较,如果其中一张图片和其
它所有图片的相似区域(第三相似区域,可以为这一张图片和其它所有图片的相似区域的
平均结果)明显大于,另一张图片的和其它所有图片的相似区域(第四相似区域),则可判定
另一张图片为噪音图片,将其丢弃。
型M2,并采用深度度量模型M2对商品训练数据D2所构建的正样本对进行裁剪,直到裁剪出
的图片趋于稳定(满足截止条件),获得商品区域图片(第n次正样本和第n次锚样本)。
12)用于训练深度度量模型12‑2,利用深度度量模型12‑2获取正样本对12‑11的特征响应图
12‑3,基于特征响应图12‑3调整(主体裁剪)正样本对12‑11的相似区域12‑4(主体裁剪的过
程),基于调整后的相似区域12‑4判断相似区域是否稳定,如果是,则获得标注结果12‑5(主
体标注区域,比如商品区域图片);如果否则基于调整后的正样本对12‑11微调(训练)深度
度量模型12‑2。这里,微调深度度量模型12‑2的过程即图11中更新度量模型11‑6的过程。
13‑2(图像数据集);将弱监督结构化信息13‑2中同一个商品下的图片确定为正样本对,不
同商品间的图片确定为负样本对,采用图10中的信息标注过程对正样本对和负样本对进行
主体裁剪处理,获得弱监督结构化信息13‑2中的所有商品图片的商品检测框13‑3;一方面,
从商品检测框13‑3中抽取细粒度的嵌入特征,构建检索库13‑4(特征检索库);另一方面,基
于商品检测框13‑3训练出商品检测模型13‑5(主体检测模型);当获取到图片检索请求13‑7
时,响应于图片检索请求13‑7获得待检索图片13‑8(待检测图片),并采用商品检测模型13‑
5对待检索图片13‑8进行主体检测,得到商品检测框13‑9,从商品检测框13‑9抽取细粒度的
嵌入特征,以在检索库13‑4中检索出匹配的图片13‑10(检索结果)。该图片检测过程,能够
提升检索效果。
信息14‑2(图像数据集);将弱监督结构化信息14‑2中同一个投放对象下的图片确定为正样
本对,不同投放对象间的图片确定为负样本对,采用图10中的信息标注过程对正样本对和
负样本对进行主体裁剪处理,获得弱监督结构化信息14‑2中的所有广告图片的投放对象检
测框14‑3;基于投放对象检测框14‑3训练出投放对象检测模型14‑4(主体检测模型);当获
取到投放请求14‑5时,响应于投放请求14‑5获得待投放图片14‑6(待检测图片),并采用投
放对象检测模型14‑4对待投放图片14‑6进行主体检测,得到投放对象检测框14‑7,从投放
对象检测框14‑7抽取粗粒度的嵌入特征,以确定投放对象的类目、标签以及其它属性信息,
以进行投放处理14‑8。还可以将抽取的特征,加入到广告推荐模型中,预估点击率等转化
率。该信息投放过程,能够提升投放效果。
构建的正样本对和负样本对,能够自动地实现主体检测中的信息标注。另一方面,无需任何
预训练模型,因此,应用场景的范围较广泛,比如,能够在一些不常见的数据集上做商品或
者物体检测;以及基于结构化弱监督数据,可以直接训练深度度量模型,然后根据结果逐步
清理数据、调整模型,不断优化迭代,避免了初始化训练模型的处理。再一方面,基于图像对
的处理能够鲁棒地捕捉到两张图像中的相似区域,同时有效地抑制了非主体区域,实现了
噪音的有效清理,能够提升主体检测模型的准确度。
以包括:
正样本和所述第i+1次锚样本进行主体裁剪,直到满足截止条件时,获得第n次正样本和第n
次锚样本,其中,n为大于i的整数;
次锚样本的最相似区域的相似度图,所述锚特征响应图为所述第i次锚样本中与所述第i次
正样本的最相似区域的相似度图;所述主体裁剪模块2553,还用于基于所述正特征响应图
对所述第i次正样本进行主体裁剪,获得所述第i+1次正样本;基于所述锚特征响应图对所
述第i次锚样本进行主体裁剪,获得所述第i+1次锚样本。
度阈值和所述锚特征响应图,确定所述第i次锚样本中的第二相似区域;当所述第一相似区
域和所述第二相似区域中的至少一种的区域值小于区域阈值时,获取所述第i次正样本与
当前主体类别下的当前图像集合中的其他图像对应的第三相似区域,并获取所述第i次锚
样本与所述其他图像对应的第四相似区域;当所述第三相似区域大于所述第四相似区域
时,确定所述第i次锚样本为噪音图像,从所述当前图像集合中删除所述第i次锚样本。
次负样本的负样本特征;基于所述正样本特征和所述锚样本特征之间的差异,以及所述锚
样本特征和所述负样本特征之间的差异,训练所述第i‑1次度量模型,获得所述第i次度量
模型。
的图像集合构成的,且所述第i次图像数据集是通过对所述图像数据集进行i‑1次迭代主体
裁剪获得的;将所述第i次图像数据集中当前主体类别下的当前图像集合中的两张图像作
为所述第i次正样本和所述第i次锚样本,其中,所述当前主体类别为所述各个主体类别下
的任一主体类别;将所述第i次图像数据集中不同于所述当前主体类别下的其他图像集合
中的一张图像,确定为所述第i次负样本。
1次锚样本之间的第n次锚区域差异;获取前j次的正区域差异和前j次的锚区域差异,其中,
j为正整数;当所述前j次的正区域差异和所述第n次正区域差异之间的差异小于差异阈值,
和/或所述前j次的锚区域差异和所述第n次锚区域差异之间的差异小于所述差异阈值时,
确定满足所述截止条件。
种大于占比阈值时,确定满足所述截止条件。
于所述主体检测请求,获取待检测图像;基于所述主体检测模型对所述待检测图像进行主
体检测,获得主体区域。
异,迭代训练所述原始主体检测模型,直到满足训练截止条件时,获得所述主体检测模型。
集对应的特征检索库;提取所述检索对象区域的待检索特征;从所述特征检索库中,确定与
所述待检索特征匹配的匹配特征;将所述图像数据集中与所述匹配特征对应的图像,确定
为所述待检测图像的检索结果,并基于所述检索结果进行推荐处理。
基于所述投放属性,确定待投放信息,并基于所述待投放信息进行投放处理,其中,所述投
放属性包括投放类目和投放标签中的至少一种;或者,基于所述投放对象特征确定投放转
化率,以及当所述投放转化率大于投放转化率阈值时,对所述待检测图像进行投放处理,当
所述投放转化率小于或等于投放转化率阈值时,结束对所述待检测图像的投放处理。
理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机
设备执行本申请实施例上述的信息标注方法。
注方法,例如,如图5示出的方法。
各种设备。
可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在
计算环境中使用的其它单元。
Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件
中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
上执行。
次锚样本中的主体所在区域进行裁剪;如此持续进行训练和裁剪,直至裁剪出主体标注区
域(第n次正样本和第n次锚样本);如此,主体标注区域的获取是自动的,从而,能够提升标
注效率。另外,基于主体标注区域训练用于进行主体检测的主体检测模型,能够提升主体检
测的准确度;以及通过正样本对进行主体裁剪,能够有效确定正样本对中两张图像的相似
区域,有效抑制非主体所在区域以及背景部分,从而,所获得的标注信息的准确度较高,进
而基于该标注信息训练出的主体检测模型的准确度较高,能够提升主体检测的准确度。
内。