一种对象检测模型的确定方法和相关装置转让专利
申请号 : CN202111462134.1
文献号 : CN113887534B
文献日 : 2022-03-18
发明人 : 曾浩 , 邓大付 , 黄超 , 李玺 , 王君乐
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种对象检测模型的确定方法,其特征在于,所述方法包括:获取训练样本集,所述训练样本集中的训练样本包括源领域的标注图像样本和目标领域的无标注图像,所述标注图像样本的样本标签用于标识所述标注图像样本中目标对象的位置信息;
根据所述训练样本对初始检测模型进行模型训练,其中,若所述训练样本为所述标注图像样本,根据针对所述目标对象的检测结果和所述样本标签对所述初始检测模型进行模型参数调整以得到对象检测模型,所述初始检测模型包括用于提取所述训练样本的图像特征的特征提取器,所述对象检测模型用于对所述目标领域的图像进行所述目标对象的检测;
在所述模型训练的过程中,根据所述特征提取器的第一中间层的第一输出特征,通过第一领域分类器确定所述第一输出特征所包括像素分别对应的像素预测领域;根据所述像素预测领域确定第一预测领域;其中,所述第一中间层为局部特征提取层;
根据所述第一领域分类器确定输入的所述训练样本属于所述源领域还是所述目标领域,确定出所述训练样本属于所述源领域或者所述目标领域后,基于所述源领域或者所述目标领域与所述第一预测领域间的差异,确定第一损失函数;
基于所述第一损失函数调整所述第一领域分类器的模型参数,并通过所述第一损失函数的负值调整所述第一中间层的模型参数;
所述通过所述第一损失函数的负值调整所述第一中间层的模型参数,包括:将所述第一损失函数的负值输入所述第一中间层,使得所述第一领域分类器和所述第一中间层被通过完全相反的优化方向进行训练。
2.根据权利要求1所述的方法,其特征在于,在所述模型训练的过程中,所述方法还包括:
根据所述特征提取器的第二中间层的第二输出特征,通过第二领域分类器确定所述第二输出特征对应的第二预测领域;
根据所述训练样本的实际所属领域和所述第二预测领域的差异确定第二损失函数;
基于所述第二损失函数调整所述第二领域分类器的模型参数,并通过所述第二损失函数的负值调整所述第二中间层的模型参数。
3.根据权利要求2所述的方法,其特征在于,所述第一中间层为局部特征提取层,所述第二中间层为全局特征提取层。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述第一领域分类器的第一中间层特征;
根据所述第一中间层特征和所述图像特征确定所述初始检测模型中对象检测层的输入特征,通过所述对象检测层确定针对所述目标对象的检测结果。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取所述第一领域分类器的第一中间层特征和所述第二领域分类器的第二中间层特征;
根据所述第一中间层特征、所述第二中间层特征和所述图像特征确定所述初始检测模型中对象检测层的输入特征,通过所述对象检测层确定针对所述目标对象的检测结果。
6.根据权利要求5所述的方法,其特征在于,所述根据针对所述目标对象的检测结果和所述样本标签对所述初始检测模型进行模型参数调整以得到对象检测模型,包括:根据针对所述目标对象的检测结果和所述样本标签确定对象检测损失函数;
根据所述对象检测损失函数对所述初始检测模型、所述第一领域分类器和所述第二领域分类器进行模型参数调整。
7.根据权利要求1所述的方法,其特征在于,所述初始检测模型中包括用于根据所述图像特征确定所述检测结果的对象检测层,在所述模型训练的过程中,所述方法还包括:获取所述对象检测层的中间层输出的检测框特征,所述检测框特征中包括了用于对象检测的检测框;
根据第三领域分类器确定所述检测框特征对应的第三预测领域;
根据所述训练样本的实际所属领域和所述第三预测领域的差异确定第三损失函数;
基于所述第三损失函数调整所述第三领域分类器的模型参数,并通过所述第三损失函数的负值调整所述对象检测层的模型参数。
8.根据权利要求1‑7任意一项所述的方法,其特征在于,所述方法还包括:针对所述目标领域的对象检测需求,确定待检测的所述目标对象;
根据所述目标对象确定具有所述目标对象的所述源领域。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取针对所述源领域和所述目标领域的图像风格转换模型;
通过所述图像风格转换模型将所述标注图像样本的图像风格从源领域转换到所述目标领域,得到风格训练样本,所述风格训练样本的样本标签为转换前所述标注图像样本的样本标签;
根据所述风格训练样本对所述初始检测模型进行模型训练,得到基于图像风格的对象检测模型,所述基于图像风格的对象检测模型用于对所述目标领域的图像进行对象检测。
10.根据权利要求9所述的方法,其特征在于,所述根据所述风格训练样本对所述初始检测模型进行模型训练,得到基于图像风格的对象检测模型,包括:根据所述风格训练样本和所述标注图像样本对所述初始检测模型进行模型训练,得到所述基于图像风格的对象检测模型。
11.一种对象检测模型的确定装置,其特征在于,所述装置包括获取单元和训练单元:所述获取单元,用于获取训练样本集,所述训练样本集中的训练样本包括源领域的标注图像样本和目标领域的无标注图像,所述标注图像样本的样本标签用于标识所述标注图像样本中目标对象的位置信息;
所述训练单元,用于根据所述训练样本对初始检测模型进行模型训练,其中,若所述训练样本为所述标注图像样本,根据针对所述目标对象的检测结果和所述样本标签对所述初始检测模型进行模型参数调整以得到对象检测模型,所述初始检测模型包括用于提取所述训练样本的图像特征的特征提取器,所述对象检测模型用于对所述目标领域的图像进行所述目标对象的检测;
所述训练单元在所述模型训练的过程中还用于,根据所述特征提取器的第一中间层的第一输出特征,通过第一领域分类器确定所述第一输出特征所包括像素分别对应的像素预测领域;根据所述像素预测领域确定第一预测领域;其中,所述第一中间层为局部特征提取层;
所述训练单元还用于根据所述第一领域分类器确定输入的所述训练样本属于所述源领域还是所述目标领域,确定出所述训练样本属于所述源领域或者所述目标领域后,基于所述源领域或者所述目标领域与所述第一预测领域间的差异,确定第一损失函数;
所述训练单元还用于基于所述第一损失函数调整所述第一领域分类器的模型参数,并通过所述第一损失函数的负值调整所述第一中间层的模型参数;
所述通过所述第一损失函数的负值调整所述第一中间层的模型参数,包括:将所述第一损失函数的负值输入所述第一中间层,使得所述第一领域分类器和所述第一中间层被通过完全相反的优化方向进行训练。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1‑10中任意一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1‑10中任意一项所述的方法。
14.一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行权利要求1‑10任意一项所述的方法。
说明书 :
一种对象检测模型的确定方法和相关装置
技术领域
背景技术
得到针对该领域的对象检测模型,而模型训练需要依赖大量的标注数据,这会耗费大量时
间和成本,尤其是该领域对于开发者来说是一个新领域的情况下。
而,这种跨域方式会导致域间隙(domain gap)的问题,域间隙指的是由于不同领域数据集
之间的数据分布存在差异,在通过一个领域数据集训练的对象检测模型在另一个领域数据
集上对象检测性能下降的现象。也就是说,通过相关技术得到的对象检测模型在新领域中
的检测性能并不理想。
发明内容
领域中对象检测模型的训练效率和检测性能。
象的位置信息;
行模型参数调整以得到对象检测模型,所述初始检测模型包括用于提取所述训练样本的图
像特征的特征提取器,所述对象检测模型用于对所述目标领域的图像进行所述目标对象的
检测;
注图像样本中目标对象的位置信息;
述初始检测模型进行模型参数调整以得到对象检测模型,所述初始检测模型包括用于提取
所述训练样本的图像特征的特征提取器,所述对象检测模型用于对所述目标领域的图像进
行所述目标对象的检测;
取所述训练样本的图像特征的特征提取器,在模型训练过程中,根据特征提取器的第一中
间层的第一输出特征,通过第一领域分类器确定其对应的第一预测领域,并基于与训练样
本实际所属领域的差异确定第一损失函数,基于第一损失函数的调整,可提高第一领域分
类器对源领域和目标领域的分辨能力,基于第一损失函数的负值的调整,以指导第一中间
层在提取特征时降低源领域和目标领域的特征间的特征距离,起到混淆源领域和目标领域
的目的。由此通过完全相反的优化方向,基于对抗训练的思路对第一领域分类器和第一中
间层进行参数调整,指导特征提取器在提取训练样本特征时弱化源领域和目标领域下的分
别特有的信息,降低特征中能被用于区分源领域还是目标领域的信息,使得不论是源领域
的训练样本还是目标领域的训练样本,通过特征提取器所提取的图像特征中与领域相关的
信息被弱化,实现了领域混淆的作用。基于该类图像特征进行训练时,还可以在所述训练样
本为所述标注图像样本时,根据检测结果和所述样本标签对所述初始检测模型进行模型参
数调整,使得训练得到的对象检测模型不仅可以针对目标领域的图像有效提取图像特征,
并能够实现对目标对象的准确检测,使得源领域的大量标注数据在目标领域的对象检测中
得以有效使用,大大提高了目标领域中对象检测模型的训练效率和检测性能。
附图说明
申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。
具体实施方式
他领域中已有的大量标注数据也是一种浪费。
练效率和检测性能。
物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终
端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端设备以及
服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法
规和标准。
识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个
综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应
的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、
推理与决策的功能。
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通
等几大方向。
等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的
图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多
维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语
义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技
术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的
人脸识别、指纹识别等生物特征识别技术。
行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学
习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式
教学习等技术。
中目标对象的位置信息,即源领域和目标领域均包括有同类型的目标对象,且源领域相对
于目标领域具有充足的标注信息,即有大量的已经标注了目标对象的标注图像样本。而目
标领域中缺少或没有针对目标对象的标注信息,故在本申请实施例中只需要使用到目标领
域的无标注图像,即没有标识是否有目标对象,以及目标对象位置的图像。
征提取器的第一中间层的第一输出特征,通过第一领域分类器103确定其对应的第一预测
领域,并基于与训练样本实际所属领域的差异确定第一损失函数,基于第一损失函数的调
整,可提高第一领域分类器103对源领域和目标领域的分辨能力,基于第一损失函数的负值
的调整,以指导第一中间层在提取特征时降低源领域和目标领域的特征间的特征距离,起
到混淆源领域和目标领域的目的。
的分别特有的信息,降低特征中能被用于区分源领域还是目标领域的信息,使得不论是源
领域的训练样本还是目标领域的训练样本,通过特征提取器所提取的图像特征中与领域相
关的信息被弱化,实现了领域混淆的作用。
象检测模型102不仅可以针对目标领域的图像有效提取图像特征,并能够实现对目标对象
的准确检测。
有效使用,大大提高了目标领域中对象检测模型的训练效率和检测性能。
用,一类应用场景等。例如目标领域可以为一个新游戏应用、一个新社交应用、一个种类的
游戏等。
如当目标领域为射击类游戏时,该游戏中的游戏角色均为人形虚拟形象,则目标对象可以
是人。当目标领域为自动驾驶应用时,所对应场景中需要识别交通环境中的车辆,则目标对
象可以是车辆。
象,以及在具有目标对象时,目标对象在标注图像样本中的实际位置。
有针对性,具有更好的性能。
注,故可以基于目标对象“人”从这三个领域中确定领域2为源领域,将领域2中已经对人进
行了标注的图像作为源领域的标注图像样本。
领域为游戏应用,源领域可以从非游戏类的各个产品中选择,当领域所标识范围为一个产
品时,若目标领域为射击类游戏,则源领域可以从非射击类游戏的各个产品中选择。
型进行模型参数调整以得到对象检测模型。
本标签与检测结果的差异对初始检测模型进行模型参数调整,以使得初始检测模型在模型
训练过程中学习到针对目标对象的检测能力。
练样本的依赖。对于一个新的FPS游戏,只需要有标签的真实域数据和无标签的游戏数据进
行域适应训练,就可以大幅提高目标对象检测在游戏数据上的迁移效果。其中,真实域数据
是源领域的标注图像样本,无标签的游戏数据是目标领域的无标注图像。其具体应用场景
可以至少有以下两个:
对局的敌我态势,还能够为下一步的决策提供重要的依据。例如可以有效提升人机场景下
的AI对应能力。
度个性化的产品,不同品类游戏玩法差异极大。每款游戏通常都是独立设计开发,游戏开发
商也不对外暴露统一的接口,这也意味着传统的基于 API 接口进行自动化的方案在游戏
领域并不通用。
行域适应训练,都能够使对象检测算法的性能获得较大的提升,能够有效的支持游戏场景
自动化测试的业务场景。
能够实现对目标对象的准确检测,使得源领域的大量标注数据在目标领域的对象检测中得
以有效使用。
要训练样本是否具有样本标签,即可以对源领域的训练样本和目标领域的训练样本均进行
下述的对抗训练。
最终输出用于表达该图像的图像特征。例如第i个中间层为多个中间层中的一层,第i个中
间层的输入特征可以为第i‑1个中间层的输出特征,第i个中间层的输出特征可以为第i+1
个中间层的输入特征。本申请不限定第一中间层为该多个中间层中的哪一层。
以相对较低(例如更接近特征提取器的输出层),例如是全局特征提取层,其第一输出特征
为训练样本的高层特征。
相反的方向对第一领域分类器和第一中间层进行模型优化。
以指导第一中间层在提取特征时降低源领域和目标领域的特征间的特征距离,起到混淆源
领域和目标领域的目的。
第一损失函数的负值对第一中间层的优化方向是让特征提取器的第一中间层在提取第一
输出特征时,尽量弱化其中能够体现所属领域的领域特征,使得尽可能让第一领域分类器
分辨不出第一输出特征所对应图像来自哪个领域。由此实现了第一中间层和第一领域分类
器之间的对抗训练。
使得第一损失函数在通过第一领域分类器后被赋予负号,得到第一损失函数的负值,该第
一损失函数的负值通过第一中间层。使得第一领域分类器和第一中间层被通过完全相反的
优化方向进行训练。
时,并不会使用到第一领域分类器。
对应的分辨率较高,输入局部特征提取层的图像特征中具有训练样本中大量的图像细节信
息(或者说局部信息),故局部特征提取层在进行特征提取时更关注图像细节,使得得到的
输出特征中携带有丰富的图像细节信息。
输入全局特征提取层的图像特征中具有训练样本中大量的图像全局信息,而具有较少图像
细节信息,故全局特征提取层在进行特征提取时更关注图像全局,使得得到的输出特征中
携带有丰富的图像全局信息。
识别结果。通过综合各个像素预测领域确定第一预测领域,从而能够考虑到整体像素的差
异,可以提高第一预测领域的准确性。
别特有的信息,降低特征中能被用于区分源领域还是目标领域的信息,使得不论是源领域
的训练样本还是目标领域的训练样本,通过特征提取器所提取的图像特征中与领域相关的
信息被弱化,实现了领域混淆的作用。训练得到的对象检测模型可以针对目标领域的图像
有效提取图像特征,使得源领域的大量标注数据在目标领域的对象检测中得以有效使用,
大大提高了目标领域中对象检测模型的训练效率和检测性能。
根据该输入特征,基于所对应分辨率对输入特征进行图像特征的提取,从而形成第二中间
层的输出,作为第二输出特征。
源领域和目标领域的特征混淆的能力。
得第二领域分类器和第二中间层被通过完全相反的优化方向进行训练。
类器之间进行对抗训练,来鼓励源领域的特征和目标领域的特征之间的领域混淆(domain
confusion),从而实现初始检测模型中的特征提取器在对目标领域或源领域的训练样本进
行特征提取时,所提取的图像特征中用于区分领域的图像特征被弱化,相应的,用于目标对
象的图像特征被强化,使得训练得到的对象检测模型在针对目标领域的图像进行目标对象
的检测时,可以更为关注该图像中与目标对象相关的图像特征,提升对目标领域的检测性
能。
判断特征是来自于源领域还是目标领域。
优化方向正好相反:领域分类器的作用是希望尽可能的判断出输入的训练样本是来自源领
域还是目标领域;特征提取器的优化方向就刚好相反,希望提取出的特征尽量不可能判断
出来自源领域还是目标领域。这样训练的特征提取器就可以实现源领域特征和目标领域特
征之间的领域混淆,拉近源领域和目标领域之间的特征距离,进而提高目标检测器在目标
领域上的检测性能。
时,并不会使用到第二领域分类器。
提取的第一输出特征,由于其中包括较多的图像细节信息,且局部特征提取层距离特征提
取器的输入层较近,故也记为底层特征)与高层特征(即全局特征提取层提取的第二输出特
征,由于其中包括较多的图像全局信息,且全局特征提取层距离特征提取器的输出层较近,
故也记为高层特征),通过对应的领域分类器分别进行的对抗训练,使得特征提取器的至少
两个中间层在提取图像特征时均能够实现弱化用于体现源领域或目标领域特点的图像特
征,达到领域混淆的目的。
征被弱化,实现了对齐底层纹理特征的效果。
域相关的语义特征被弱化,实现了对齐高层语义特征的效果。
特征提取层和全局特征提取层能够学习到在特征提取时混淆源领域和目标领域的能力,在
多个特征层次上提高特征提取器对源领域和目标领域的领域混淆能力,降低了第一输出特
征和第二输出特征中能被用于区分源领域还是目标领域的信息,使得不论是源领域的训练
样本还是目标领域的训练样本,通过特征提取器所提取的图像特征中与领域相关的信息被
弱化,训练得到的对象检测模型不论针对源领域还是目标领域均能够基于特征提取器输出
的图像特征进行准确的目标对象的检测,实现了领域混淆的作用。
像素表示该位置的预测结果,利用L2 loss对于底层局部特征进行强对齐。因此整个局部对
齐的第一损失函数的计算公式如下。
数量,为局部特征提取层的参数,为第一领域分类器的参数, 表示输出预测
图上每个位置的预测结果, 为局部对齐的第一损失函数, 为来自源领域的训练样本
贡献的局部对齐损失函数, 为来自目标领域的训练样本贡献的局部对齐损失函数。
领域还是目标领域,利用Focal Loss对高层全局特征进行弱对齐,使得第二领域分类器能
够更加关注难以区分的困难样本。因此整个全局对齐的第二损失函数的计算公式如下。
标域数据贡献的全局对齐损失函数,为Focal loss中控制难样本权重的超参数,例如可
设置为5。
提供协助。
间层所对应的分辨率,第一领域分类器的第一中间层特征还可以包括该分辨率下信息,例
如局部信息或全局信息。
富第一中间层所对应分辨率的信息,并提供一部分与领域相关的信息,从而可以提高对象
检测所能参考的信息维度,对于检测结果的质量有所保障。
可以将第二领域分类器的第二中间层特征加入对象检测中。
结果。
局特征,从而全面的增强了对象检测所依据特征的数据维度和信息量,提高了对象检测结
果的质量。
整的特征用于对象检测。
果的依据,从而实现对初始检测模型的模型训练。
中,与输入检测头的图像特征进行合并,用于预测目标对象的类别和位置信息。这样在实现
更好的特征对齐的同时,可以帮助领域分类器更加稳定的训练。
为初始检测模型的对象检测损失函数:包括分类损失和边界框回归损失, 为源领域
数据总的检测损失函数, 为最终优化目标。
特征)。
函数和第二损失函数。同时会把第一领域分类器的第一中间层特征和第二领域分类器的第
二中间层特征作为上下文特征与由特征提取器输出图像特征进行合并,得到合并后的特
征。
练样本没有任何标注信息,通常来自目标领域的数据例如游戏数据。
损失,一部分是对初始检测模型产生的检测结果计算检测损失 ,一部分是数据通过领域
分类器后的标签计算域分类损失 和 。目标域的数据由于没有物体位置标注信息,
其计算的损失只包括域分类损失 和 。
的对象检测层,在所述模型训练的过程中,所述方法还包括:
基于检测框包括的信息确定是否具有目标对象,以及目标对象的可能位置。
标注检测框的过程中弱化源领域的领域特征对检测框标注的影响,进一步的实现检测框特
征的对齐,从而实现了初始检测模型中更多尺度的特征对齐目标。
时,并不会使用到第三领域分类器。
也可以在针对目标领域的目标对象检测场景下,有效将源领域的标注图像样本应用于针对
目标领域的对象检测模型的训练中。该方式可以在前述图1‑图5所对应实施例的基础上实
现,也可以独立实施。
标签。故当将风格训练样本或标注图像样本作为该初始检测模型的训练样本输入初始检测
模型后,可以根据检测结果和所输入训练样本的样本标签间的差异,确定相应的损失函数
并对初始检测模型进行模型训练。
对象处于训练样本的位置。
图像风格,例如源领域是写实风格,目标领域是卡通风格,通过图像风格转换将一张源领域
的写实风格图像转换为卡通风格,但仍然保留实质内容。
学习映射 以及反向映射 。当CycleGAN模型(即图像风格转换模型)训练
完成后,利用CycleGAN模型把源域数据转换到目标域的风格,得到生成样本数据集,之后利
用源域标注作为生成样本的伪标签进行训练,进而达到像素层级域适应目标检测过程。
标领域下标注训练样本的依赖。对于一个新的FPS游戏,只需要有标签的真实域数据进行图
像风格转换得到风格训练样本,通过风格训练样进行域适应训练,就可以大幅提高目标对
象检测在游戏数据上的迁移效果。其中,真实域数据是源领域的标注图像样本。其具体应用
场景可以至少有以下两个:
AI感知目前游戏对局的敌我态势,还能够为下一步的决策提供重要的依据。例如可以有效
提升人机场景下的AI对应能力。
现的跨域自适应FPS游戏人物检测算法不依赖游戏开发商提供任何 API 接口,对于不同的
FPS游戏,以游戏图像作为输入进行域适应训练,都能够使对象检测算法的性能获得较大的
提升,能够有效的支持游戏场景自动化测试的业务场景。
以根据检测结果和所述样本标签对所述初始检测模型进行模型参数调整,使得训练得到的
对象检测模型能够实现对目标领域的图像进行目标对象的准确检测,使得源领域的大量标
注数据在目标领域的对象检测中得以有效使用。
目标对象,但是目标对象的位置、外形等可能随着风格转换发生了变化。可是风格训练样本
的样本标签还是原标注图像样本的样本标签,由此导致样本标签所标注目标对象的位置信
息与风格训练样本中目标对象的实际位置可能并不相符,从而导致训练出的基于图像风格
的对象检测模型在检测到目标对象时,对目标对象的位置识别能力学习不足。
风格的对象检测模型对目标对象的定位能力。
测模型针对目标领域,不仅具有较好的目标对象检测能力,还可以利用源领域的标注图像
样本保持较好的定位能力,从而有效的提升对象检测模型的检测性能。
风格训练样本的样本标签(也记为伪标签), 为该次训练中的风格训练样本的数量,F为初
始检测模型的参数, 为初始检测模型的所有损失:包括分类损失和边界框回归损失,
总的损失函数,也是最终的优化目标。
本标签,通常来自具有丰富标签的现实数据,如VOC;风格转换为目标领域的风格训练样本
用对应的源领域的标注图像样本作为伪标签。
界框回归损失。
验中使用的检测模型是YOLOv5m。下表中的Baseline表示检测模型直接在VOC‑person上训
练,并直接在游戏数据上测试的结果,作为跨域测试的baseline结果。可以看到配合上我们
的两个域适应算法进行训练后,得到的检测模型可以在CFM/CJZC/CODM这三个游戏数据集
上都带来稳定的检测性能提升。
元701和训练单元702:
标注图像样本中目标对象的位置信息;
对所述初始检测模型进行模型参数调整以得到对象检测模型,所述初始检测模型包括用于
提取所述训练样本的图像特征的特征提取器,所述对象检测模型用于对所述目标领域的图
像进行所述目标对象的检测;
域;
果。
前所述标注图像样本的样本标签;
域的图像进行对象检测。
的图像特征的特征提取器,在模型训练过程中,根据特征提取器的第一中间层的第一输出
特征,通过第一领域分类器确定其对应的第一预测领域,并基于与训练样本实际所属领域
的差异确定第一损失函数,基于第一损失函数的调整,可提高第一领域分类器对源领域和
目标领域的分辨能力,基于第一损失函数的负值的调整,以指导第一中间层在提取特征时
降低源领域和目标领域的特征间的特征距离,起到混淆源领域和目标领域的目的。由此通
过完全相反的优化方向,基于对抗训练的思路对第一领域分类器和第一中间层进行参数调
整,指导特征提取器在提取训练样本特征时弱化源领域和目标领域下的分别特有的信息,
降低特征中能被用于区分源领域还是目标领域的信息,使得不论是源领域的训练样本还是
目标领域的训练样本,通过特征提取器所提取的图像特征中与领域相关的信息被弱化,实
现了领域混淆的作用。基于该类图像特征进行训练时,还可以在所述训练样本为所述标注
图像样本时,根据检测结果和所述样本标签对所述初始检测模型进行模型参数调整,使得
训练得到的对象检测模型不仅可以针对目标领域的图像有效提取图像特征,并能够实现对
目标对象的准确检测,使得源领域的大量标注数据在目标领域的对象检测中得以有效使
用,大大提高了目标领域中对象检测模型的训练效率和检测性能。
备中。下面结合附图对该计算机设备进行介绍。
显示单元1440、传感器1450、音频电路1460、无线保真(Wireless Fidelity,简称WiFi)模块
1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解,图8中示出的手机结构
并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同
的部件布置。
1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise
Amplifier,简称LNA)、双工器等。此外,RF电路1410还可以通过无线通信与网络和其他设备
通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统
(Global System of Mobile communication,简称GSM)、通用分组无线服务(General
Packet Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称
CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进
(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简
称SMS)等。
要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的
应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所
创建的数据(比如音频数据、电话本等)等。此外,存储器1420可以包括高速随机存取存储
器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固
态存储器件。
设备1432。触控面板1431,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户
使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操
作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1431可包括触摸检测
装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带
来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它
转换成触点坐标,再送给处理器1480,并能接收处理器1480发来的命令并加以执行。此外,
可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1431。除了触控面
板1431,输入单元1430还可以包括其他输入设备1432。具体地,其他输入设备1432可以包括
但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的
一种或多种。
Crystal Display,简称LCD)、有机发光二极管(Organic Light‑Emitting Diode,简称
OLED)等形式来配置显示面板1441。进一步的,触控面板1431可覆盖显示面板1441,当触控
面板1431检测到在其上或附近的触摸操作后,传送给处理器1480以确定触摸事件的类型,
随后处理器1480根据触摸事件的类型在显示面板1441上提供相应的视觉输出。虽然在图8
中,触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能,
但是在某些实施例中,可以将触控面板1431与显示面板1441集成而实现手机的输入和输出
功能。
的明暗来调节显示面板1441的亮度,接近传感器可在手机移动到耳边时,关闭显示面板
1441和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加
速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏
切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等; 至于手机还
可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
为声音信号输出;另一方面,传声器1462将收集的声音信号转换为电信号,由音频电路1460
接收后转换为音频数据,再将音频数据输出处理器1480处理后,经RF电路1410以发送给比
如另一手机,或者将音频数据输出至存储器1420以便进一步处理。
WiFi模块1470,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改
变发明的本质的范围内而省略。
内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器
1480可包括一个或多个处理单元;优选的,处理器1480可集成应用处理器和调制解调处理
器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处
理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1480中。
理等功能。
象的位置信息;
行模型参数调整以得到对象检测模型,所述初始检测模型包括用于提取所述训练样本的图
像特征的特征提取器,所述对象检测模型用于对所述目标领域的图像进行所述目标对象的
检测;
的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)1522
(例如,一个或一个以上处理器)和存储器1532,一个或一个以上存储应用程序1542或数据
1544的存储介质1530(例如一个或一个以上海量存储设备)。其中,存储器1532和存储介质
1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模
块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理
器1522可以设置为与存储介质1530通信,在服务器1500上执行存储介质1530中的一系列指
令操作。
TM TM TM TM TM
如Windows Server ,Mac OS X ,Unix , Linux ,FreeBSD 等等。
执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一
种:只读存储器(英文:Read‑only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储
程序代码的介质。
尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,
相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性
的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的
部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络
单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
都应涵盖在本申请的保护范围之内。而且本申请在上述各方面提供的实现方式的基础上,
还可以进行进一步组合以提供更多实现方式。因此,本申请的保护范围应该以权利要求的
保护范围为准。