一种用于云边端的目标检测网络构建方法及装置转让专利

申请号 : CN202210813818.X

文献号 : CN114898187B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨金明刘玺陈少哺卜荣季虎曾伟董庆森吴浩张翰李季黄鑫束长勇

申请人 : 南京后摩智能科技有限公司江苏祥泰电力实业有限公司国网江苏省电力有限公司泰州供电分公司

摘要 :

本发明公开了一种用于云边端的目标检测网络构建方法及装置,采集包含至少一个目标的训练图像,得到目标检测数据集;构建目标检测的初始网络,包括相连接的主干网、前景预测头以及稀疏解码器;根据目标检测数据集对初始网络进行迭代训练至收敛,得到用于云边端的目标检测网络。本发明的目标检测网络构建方法,收敛快速、所需训练时间短,且得到的目标检测网络能够在云边端上实现高效运行。

权利要求 :

1.一种用于云边端的目标检测网络构建方法,其特征在于,包括如下步骤:采集包含至少一个目标的训练图像,得到目标检测数据集;

构建目标检测的初始网络,包括相连接的主干网、前景预测头以及稀疏解码器;

根据目标检测数据集对初始网络进行迭代训练至收敛,得到用于云边端的目标检测网络;

其中,主干网用于在训练图像中采样,形成多尺度目标特征图;前景预测头用于采用Top K Proposal算法初始化对象查询变量及位置嵌入信息;稀疏解码器用于根据细节感知向量组更新对象查询变量;

根据目标检测数据集对初始网络进行迭代训练至收敛,具体包括:随机选取目标检测数据集中的训练图像,输入主干网;

主干网在训练图像中采样,形成多尺度目标特征图;

多尺度目标特征图输入前景预测头,采用Top K Proposal算法提取目标的大小、位置和置信度,初始化对象查询变量及位置嵌入信息;

重复如下步骤,直至初始网络收敛:向稀疏解码器输入对象查询变量及位置嵌入信息,并融合稀疏解码器得到的细节感知向量组,得到新的对象查询变量,并用新的对象查询变量替代上一个对象查询变量,迭代训练过程;

其中,稀疏解码器包括多个解码层,每个解码层包括细节感知采样子层、参考框子层和注意力子层;参考框子层用于对参考框进行编码,形成参考框向量组;细节感知采样子层用于基于参考框提取的参考特征图,得到细节感知向量组;注意力子层用于采用注意力机制将位置嵌入信息和对象查询变量融合,形成采样权重;

细节感知向量组与采样权重相乘后,经暂退计算,得到权重对象查询变量,通过融合当前的参考框向量组、对象查询变量及权重对象查询变量,形成新的对象查询变量;

向稀疏解码器输入对象查询变量及位置嵌入信息,并融合稀疏解码器得到的细节感知向量组,得到新的对象查询变量,具体包括:将对象查询变量及位置嵌入信息相加并输入至注意力子层,其中注意力子层包括全连接单元及归一化单元;

对象查询变量及位置嵌入信息相加后得到的量依次经过全连接和归一化处理,得到对象查询变量对应的采样权重;

采样权重与细节感知向量组相乘,经过暂退计算得到权重对象查询变量;

将当前的权重对象查询变量、参考框向量组及对象查询变量相加,得到新的对象查询变量。

2.如权利要求1所述的构建方法,其特征在于,采集包含至少一个目标的训练图像之后,还包括:对训练图像中的目标信息进行标注,目标信息包括标注类别、标注中心点坐标及标注框。

3.如权利要求1所述的构建方法,其特征在于,采用Top K Proposal算法提取目标的大小、位置和置信度,初始化对象查询变量及位置嵌入信息,具体包括:对置信度进行排序,给出由高到低的前K个置信度对应的参考框,形成初始参考框;

按照初始参考框的位置映射到多尺度目标特征图,提取对应的目标特征,根据目标特征初始化对象查询变量;

按照初始参考框的大小和位置,初始化位置嵌入信息。

4.如权利要求1所述的构建方法,其特征在于,稀疏解码器得到的细节感知向量组,包括:选取任一参考框,并依据选取的参考框截取任一尺度目标特征图,形成参考特征图;

将参考特征图输入细节感知采样子层,依次经过细节感知采样子层的卷积单元及归一化单元后,形成注意力权重;

将参考特征图与注意力权重按空间维度相乘,并进行全局池化,得到该参考特征图的细节感知向量;

采用其他的参考框及任一尺度目标特征图,重复细节感知过程,得到全部参考框在多尺度目标特征图的细节感知向量,形成细节感知向量组。

5.如权利要求1所述的构建方法,其特征在于,用新的对象查询变量替代上一个对象查询变量,迭代训练过程,具体包括:基于新的对象查询变量预测上一个参考框的调节量,形成新的参考框;

采用新的参考框代替上一个参考框,用于进行下一轮训练的参考特征图截取;

采用新的对象查询变量代替上一个对象查询变量,用于进行下一轮训练的采样权重计算。

6.如权利要求2所述的构建方法,其特征在于,稀疏解码器还包括前馈网络;

根据目标检测数据集对初始网络进行迭代训练至收敛,具体包括:将初始网络每一轮训练输出的新的对象查询变量输入至前馈网络,得到识别出的目标框;

将目标框与目标检测数据集中对应的标注目标信息的标注框进行对比;

差值小于设定的mAP阈值,初始网络达到收敛,完成训练。

7.一种实现如权利要求1‑6任一所述目标检测网络构建方法的装置,其特征在于,包括:获取单元,用于采集包含至少一个目标的训练图像,得到目标检测数据集;

构建单元,用于构建目标检测的初始网络,包括相连接的主干网、前景预测头以及稀疏解码器;

其中,主干网用于在训练图像中采样,形成多尺度目标特征图;前景预测头用于采用Top K Proposal算法初始化对象查询变量及位置嵌入信息;稀疏解码器用于根据细节感知向量组更新对象查询变量;

训练单元,用于根据目标检测数据集对初始网络进行迭代训练至收敛,得到用于云边端的目标检测网络。

说明书 :

一种用于云边端的目标检测网络构建方法及装置

技术领域

[0001] 本发明涉及信息技术处理领域,具体涉及一种用于云边端的目标检测网络构建方法及装置。

背景技术

[0002] 目标检测领域中,CNN‑based的检测器可分为3个基本组件:Backbone+Neck+Head,分别用于特征提取+多尺度特征聚合+检测头(用于分类回归),而Transformer‑based的方法同样可分为:Backbone(+Neck)+Encoder(编码)+Decoder(解码),即特征提取(+多尺度特征聚合)+特征聚合+Query(查询)修正。
[0003] CNN‑based方法多采用多对一的标签分配算法,因此都需要采用NMS进行后处理。而Transformer‑based方法更符合检测任务的本质,即图像到集合的映射,不论从工业还是学术的角度有极大的发展潜力。
[0004] Transformer‑based方法能捕获全局上下文信息,抽取更强有力的特征,可以直接融合向量,可以针对不同的任务在不同的表示子空间学习相关的信息。因此,在计算机视觉领域得到了迅速的发展。
[0005] 但是,现有Transformer‑based的方法在进行计算机视觉任务时,存在以下问题:(1)收敛速度慢:相比于CNN‑based方法,Transformer‑based方法的初始化随机性较大,通常需要训练更多的轮数才能达到同样的性能。(2)运行效率低:Transformer‑based方法中Encoder环节的计算复杂度远远高于CNN‑based方法中Neck的计算复杂度,导致Transformer‑based方法的运行效率偏低。
[0006] 在针对具体的场景中,研究者采用不同的方式对Transformer‑base进行改进。如专利CN113673489A给出的基于级联Transformer的视频群体行为识别方法,由两级Transformer网络实现,第一级人体目标检测Transformer检测人体目标框并提取群体中具有判别性的个体特征,第二级群体行为识别Transformer通过自注意力机制提取单帧空间特征及帧间时序特征,有效融合个体行为特征提取群体级别特征,最后通过多层感知机输出群体行为类别。
[0007] 但是,当前的研究对于收敛速度慢、目标检测模型运行效率低的问题仍没有得到有效的解决。尤其是在云边端的目标检测应用中,传统的Transformer检测方法对算力要求过高,难以部署。
[0008] 因此,如何构建一种目标检测网络,提高训练时的收敛速度、缩短所需训练时间,以实现在云边端上高效运行是本领域技术人员亟待解决的问题。

发明内容

[0009] 针对上述现有技术中存在的缺陷,本发明提供了一种用于云边端的目标检测网络构建方法及装置,构建的目标检测网络基于前景响应得到初始化对象查询和初始化位置嵌入,并去除Transformer模型中编码器环节,简化并稀释解码器环节,以此来加速模型训练的收敛速度,缩短训练时间,实现目标检测网络在云边端上高效运行。
[0010] 第一方面,本发明提供一种用于云边端的目标检测网络构建方法,包括如下步骤:
[0011] 采集包含至少一个目标的训练图像,得到目标检测数据集;
[0012] 构建目标检测的初始网络,包括相连接的主干网、前景预测头以及稀疏解码器;
[0013] 根据目标检测数据集对初始网络进行迭代训练至收敛,得到用于云边端的目标检测网络;
[0014] 其中,主干网用于在训练图像中采样,形成多尺度目标特征图;前景预测头用于采用Top K Proposal算法初始化对象查询变量及位置嵌入信息;稀疏解码器用于根据细节感知向量组更新对象查询变量。
[0015] 进一步的,采集包含至少一个目标的训练图像之后,还包括:
[0016] 对训练图像中的目标信息进行标注,目标信息包括标注类别、标注中心点坐标及标注框。
[0017] 进一步的,根据目标检测数据集对初始网络进行迭代训练至收敛,具体包括:
[0018] 随机选取目标检测数据集中的训练图像,输入主干网;
[0019] 主干网在训练图像中采样,形成多尺度目标特征图;
[0020] 多尺度目标特征图输入前景预测头,采用Top K Proposal算法提取目标的大小、位置和置信度,初始化对象查询变量及位置嵌入信息;
[0021] 重复如下步骤,直至初始网络收敛:向稀疏解码器输入对象查询变量及位置嵌入信息,并融合稀疏解码器得到的细节感知向量组,得到新的对象查询变量,并用新的对象查询变量替代上一个对象查询变量,迭代训练过程。
[0022] 进一步的,采用Top K Proposal算法提取目标的大小、位置和置信度,初始化对象查询变量及位置嵌入信息,具体包括:
[0023] 对置信度进行排序,给出由高到低的前K个置信度对应的参考框,形成初始参考框;
[0024] 按照初始参考框的位置映射到多尺度目标特征图,提取对应的目标特征,根据目标特征初始化对象查询变量;
[0025] 按照初始参考框的大小和位置,初始化位置嵌入信息。
[0026] 进一步的,稀疏解码器包括多个解码层,每个解码层包括细节感知采样子层、参考框子层和注意力子层;参考框子层用于对参考框进行编码,形成参考框向量组;细节感知采样子层用于基于参考框提取的参考特征图,得到细节感知向量组;注意力子层用于采用注意力机制将位置嵌入信息和对象查询变量融合,形成采样权重;
[0027] 细节感知向量组与采样权重相乘后,经暂退计算,得到权重对象查询变量,通过融合当前的参考框向量组、对象查询变量及权重对象查询变量,形成新的对象查询变量。
[0028] 进一步的,向稀疏解码器输入对象查询变量及位置嵌入信息,并融合稀疏解码器得到的细节感知向量组,得到新的对象查询变量,具体包括:
[0029] 将对象查询变量及位置嵌入信息相加并输入至注意力子层,其中注意力子层包括全连接单元及归一化单元;
[0030] 对象查询变量及位置嵌入信息相加后得到的量依次经过全连接和归一化处理,得到对象查询变量对应的采样权重;
[0031] 采样权重与细节感知向量组相乘,经过暂退计算得到权重对象查询变量;
[0032] 将当前的权重对象查询变量、参考框向量组及对象查询变量相加,得到新的对象查询变量。
[0033] 进一步的,稀疏解码器得到的细节感知向量组,包括:
[0034] 选取任一参考框,并依据选取的参考框截取任一尺度目标特征图,形成参考特征图;
[0035] 将参考特征图输入细节感知采样子层,依次经过细节感知采样子层的卷积单元及归一化单元后,形成注意力权重;
[0036] 将参考特征图与注意力权重按空间维度相乘,并进行全局池化,得到该参考特征图的细节感知向量;
[0037] 采用其他的参考框及任一尺度目标特征图,重复细节感知过程,得到全部参考框在多尺度目标特征图的细节感知向量,形成细节感知向量组。
[0038] 进一步的,用新的对象查询变量替代上一个对象查询变量,迭代训练过程,具体包括:
[0039] 基于新的对象查询变量预测上一个参考框的调节量,形成新的参考框;
[0040] 采用新的参考框代替上一个参考框,用于进行下一轮训练的参考特征图截取;
[0041] 采用新的对象查询变量代替上一个对象查询变量,用于进行下一轮训练的采样权重计算。
[0042] 进一步的,稀疏解码器还包括前馈网络;
[0043] 根据目标检测数据集对初始网络进行迭代训练至收敛,具体包括:
[0044] 将初始网络每一轮训练输出的新的对象查询变量输入至前馈网络,得到识别出的目标框;
[0045] 将目标框与目标检测数据集中对应的标注目标信息的标注框进行对比;
[0046] 差值小于设定的mAP阈值,初始网络达到收敛,完成训练。
[0047] 第二方面,本发明提供一种实现上述目标检测网络构建方法的装置,包括:
[0048] 获取单元,用于采集包含至少一个目标的训练图像,得到目标检测数据集;
[0049] 构建单元,用于构建目标检测的初始网络,包括相连接的主干网、前景预测头以及稀疏解码器;
[0050] 其中,主干网用于在训练图像中采样,形成多尺度目标特征图;前景预测头用于采用Top K Proposal算法初始化对象查询变量及位置嵌入信息;稀疏解码器用于根据细节感知向量组更新对象查询变量;
[0051] 训练单元,用于根据目标检测数据集对初始网络进行迭代训练至收敛,得到用于云边端的目标检测网络。
[0052] 本发明提供的用于云边端的目标检测网络构建方法及装置,至少包括如下有益效果:
[0053] (1)构建的目标检测网络,采用前景预测头+稀疏解码器,省去编码器,收敛快速、所需训练时间短,且准确度高,得到的目标检测网络能够在云边端上实现高效运行。
[0054] (2)前景预测头提取初始化目标和初始化位置嵌入,加快目标检测模型的收敛速度。
[0055] (3)稀疏解码器采用细节感知方式,摒弃Self‑Attention和Cross‑Attention,降低计算量,提升了训练速度,运行效率。
[0056] (4)细节感知采样子层结合前景预测头给出的初始候选框,融入显著点,得到细节感知向量,迭代更新初始化对象查询,提升了目标检测的准确度。

附图说明

[0057] 图1为本发明的用于云边端的目标检测网络构建方法流程图;
[0058] 图2为本发明的目标检测网络的整体架构图;
[0059] 图3为本发明的目标检测网络中稀疏解码器的架构图;
[0060] 图4为本发明的稀疏解码器中细节感知采集子层的架构图;
[0061] 图5为本发明的用于云边端的目标检测网络构建装置的结构示意图。
[0062] 附图说明:1‑主干网,2‑前景预测头,3‑稀疏解码器,101‑获取单元,102‑构建单元,103‑训练单元。

具体实施方式

[0063] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0064] 在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
[0065] 还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
[0066] 云边端是指云中心、边缘服务器和用户终端。传统的Transformer检测方法对算力要求过高,难以部署。
[0067] 本发明构建目标检测的初始网络,包括相连接的主干网(Backbone)、前景预测头(Proposal head)以及稀疏解码器(Decoder)。采用的构建方法如图1所示,一种用于云边端的目标检测网络构建方法,包括如下步骤:
[0068] S1、采集包含至少一个目标的训练图像,得到目标检测数据集;
[0069] S2、构建目标检测的初始网络,包括相连接的主干网、前景预测头以及稀疏解码器;
[0070] S3、根据目标检测数据集对初始网络进行迭代训练至收敛,得到用于云边端的目标检测网络。
[0071] 其中,主干网用于在训练图像中采样,形成多尺度目标特征图(Multi‑Scale Feat);前景预测头用于采用Top K Proposal算法初始化对象查询变量(Object Queries)及位置嵌入信息(Positional Embeddings);稀疏解码器用于根据细节感知向量组更新对象查询变量,形成新的对象查询变量(New Queries)。
[0072] 本发明构建的目标检测网络,采用前景预测头和稀疏解码器相连接的结构,省去编码器,使得训练收敛快速,所需训练时间短,且准确度高,得到的目标检测网络能够在云边端上实现高效运行。
[0073] 目标检测数据集,可采用主流的CoCo、Pascal Voc等,也可以采集任意图像数据,图像的来源可以是包含任意目标物体的图片,并对采集的图片进行标注,其中,标注目标信息包括标注类别、标注中心点坐标及标注框,如(x,y,w,h),x,y为标注中心点坐标,w为标注框的宽,h为标注框的高。
[0074] 如图2所示,构建目标检测的初始网络,包括依次相连接的主干网、前景预测头以及稀疏解码器。
[0075] 主干网选取目标检测数据集中的任一训练图像进行采样,形成多尺度目标特征图。其中,多尺度目标特征图的多尺度数值可以根据训练的效果进行设定和调整,以下实施方式以多尺度数值为3的情况为例,主干网最后的3个Block输出目标特征图,形成多尺度目标特征图。对多尺度目标特征图中每一层目标特征图(Feat)进行卷积,并对齐输出的通道数,均为256。
[0076] 前景预测头用来做前景、背景分类,主要用来提取目标的大小、位置和置信度等信息。采用Top K Proposal算法初始化对象查询变量及位置嵌入信息。对置信度进行排序,给出由高到低的前K个置信度对应的参考框,形成初始参考框(Ref Bboxs);按照初始参考框的位置映射到多尺度目标特征图,提取对应的目标特征,形成初始对象查询变量;按照初始参考框的大小和位置,形成初始位置嵌入信息。
[0077] 稀疏解码器包括多个解码层。每个解码层(Decoder Layer)的结构如图3所示,包括细节感知采样子层(Detail‑Aware Sampling)、参考框子层和注意力子层(Attention)。
[0078] 其中,参考框子层用于对参考框进行编码,形成初始参考框向量组;细节感知采样子层用于基于参考框提取的参考特征图,得到细节感知向量组;注意力子层用于采用注意力机制将位置嵌入信息和对象查询变量融合,形成采样权重;
[0079] 细节感知向量组与采样权重相乘后,经暂退(Dropout)计算,得到权重对象查询变量,通过融合当前的参考框向量组、对象查询变量及权重对象查询变量,形成新的对象查询变量(New Queries)。
[0080] 细节感知采样子层的转化结构如图4所示,包括卷积单元(Conv)、归一化(Softmax)单元及池化(Pooling)单元,并调用参考框子层的参考框,实现对目标特征图中细节感知向量组的提取。以下针对一个参考框在一层目标特征图中的提取过程进行描述:
[0081] 选取任一参考框,并依据选取的参考框截取任一尺度目标特征图,形成参考特征图;
[0082] 将参考特征图输入细节感知采样子层,依次经过细节感知采样子层的卷积单元及归一化单元后,形成注意力权重;
[0083] 将参考特征图与注意力权重按空间维度相乘,并进行通过池化单元进行全局池化,得到该参考特征图的细节感知向量。
[0084] 完成一个参考框在一层目标特征图中的感知细节提取过程后,采用以上方式,将其他的参考框及任一尺度目标特征图,重复细节感知过程,得到全部参考框在多尺度目标特征图的细节感知向量,形成细节感知向量组。
[0085] 由于一个对象查询不仅由目标中心点决定,还包括宽和高,在细节感知采样子层中引入了显著点注意力权重,形成了细节感知向量,后续将显著点(决定目标语义特征的关键信息)都融入到新的对象查询向量中,更具有细节信息。
[0086] 参考框子层包括参考框编码单元(Bbox Encoder),通过前景预测头获得的前K个参考框,进入参考框编码单元进行编码,形成参考框向量组,融合进入新的对象查询变量(New Queries)。例如,参考框的通道数为4(x,y,w,h),进入参考框编码单元后通道数变更为256,与对象查询变量的通道数保持一致。
[0087] 注意力子层包括全连接单元和归一化单元,初始化对象查询及位置嵌入相加后,送入到全连接单元,再经过归一化单元后得到在多尺度目标特征图中对应的采样权重。例如,多尺度目标特征图的尺度数值为3,全连接单元输出的维度也为3,也会得到在3个尺度特征图上的采样权重。
[0088] 基于以上对用于云边端的目标检测网络构建方法和构建的初始网络的设计,针对初始网络进行训练,具体的步骤为:
[0089] 1)提取多尺度目标特征图(Multi‑Scale Feat):
[0090] 随机选取目标检测数据集中的训练图像,输入主干网,主干网在训练图像中采样,形成多尺度目标特征图。
[0091] 2)初始参考框(Ref Bboxs)、初始对象查询变量(Object Queries)及初始位置嵌入信息(Positional Embeddings)的确定:
[0092] 将主干网采样形成的多尺度目标特征图(以3层目标特征图为例)输入前景预测头,采用Top K Proposal算法提取目标的大小、位置和置信度。
[0093] 对置信度进行排序,给出由高到低的前K个置信度对应的参考框,形成初始参考框;按照初始参考框的位置映射到多尺度目标特征图,提取对应的目标特征,形成初始对象查询变量;按照初始参考框的大小和位置,形成初始位置嵌入信息。
[0094] 通过前景预测头提取初始对象查询变量和初始位置嵌入信息,能加快目标检测模型在训练过程中的收敛速度。
[0095] 3)稀疏解码过程:
[0096] 采样权重的获取:将初始对象查询及初始位置嵌入信息中的元素逐个相加,输入注意力子层;上述相加后的变量依次经过注意力子层的全连接和归一化处理,得到初始对象查询变量对应的采样权重。
[0097] 细节感知向量组的获取:细节感知向量组包括K个参考框在多尺度目标特征图中所有尺度上的细节感知向量的集合。针对单个初始参考框在某一层目标特征图中的提取过程进行描述:
[0098] 选取任一参考框,并依据选取的参考框截取任一尺度目标特征图,形成参考特征图,任一尺度目标特征图的维度为W*H*256,参考特征图的维度为w*h*256,W、w表示宽,H、h表示高;
[0099] 将参考特征图输入细节感知采样子层,依次经过细节感知采样子层的卷积单元及归一化单元后,形成注意力权重,注意力权重的特征为w*h*1;
[0100] 将参考特征图与注意力权重按空间维度相乘,得到特征为w*h*256,并进行全局池化,得到该参考特征图的细节感知向量,细节感知向量维度为1*1*256。
[0101] 采用以上方式,K个参考框在所有尺度目标特征图进行细节感知过程,得到全部参考框在多尺度目标特征图的细节感知向量,集合形成细节感知向量组。
[0102] 权重对象查询变量通过如下方式计算:将获取的采样权重与细节感知向量组相乘,并经过Dropout计算后,得到权重对象查询变量。其中,参考框向量组通过如下步骤获取:将参考框(通道数为4)输入到参考框子层的参考框编码单元进行编码,形成参考框向量组(通道数为256);
[0103] 新的对象查询变量通过如下方式计算:将当前得到的权重对象查询变量、参考框向量组及对象查询变量相加,得到新的对象查询变量。
[0104] 4)迭代训练过程:
[0105] 基于新的对象查询变量(New Queries)预测基于上一个参考框的调节量,形成新的参考框(Bboxs Modified);
[0106] 采用新的参考框代替上一个参考框,用于进行下一轮训练的参考特征图截取;
[0107] 采用新的对象查询代替初始对象查询,进行下一轮训练的采样权重计算。
[0108] 5)收敛验证过程:
[0109] 将初始网络的每一轮训练输出的新的对象查询变量输入前馈网络(FFN),得到识别出的目标框(Bbox);
[0110] 将目标框与目标检测数据集中对应的标注目标信息的标注框进行对比;
[0111] 差值小于设定的mAP阈值(mAP可以设为0.2),初始网络达到收敛,完成训练;否则,继续迭代训练过程。
[0112] 如图5所示,本发明还提供一种实现如上述目标检测网络构建方法的装置,包括:
[0113] 获取单元101,用于采集包含至少一个目标的训练图像,得到目标检测数据集;
[0114] 构建单元102,用于构建目标检测的初始网络,包括相连接的主干网、前景预测头以及稀疏解码器,其中,主干网用于在训练图像中采样,形成多尺度目标特征图;前景预测头用于采用Top K Proposal算法初始化对象查询变量及位置嵌入信息;稀疏解码器用于根据细节感知向量组更新对象查询变量;
[0115] 训练单元103,用于根据目标检测数据集对初始网络进行迭代训练至收敛,得到用于云边端的目标检测网络。
[0116] 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。