一种基于迁移学习的目标检测方法及系统转让专利

申请号 : CN202210174960.4

文献号 : CN114550215B

文献日 : 2022-10-18

本申请提供的一种基于迁移学习的目标检测方法及系统，该方法包括获取图像数据，所述图像数据包括行人和所述行人所在环境的图像；根据所述图像数据，生成用于表示检测范围的检测框；对所述图像数据和所述检测框进行处理，生成目标检测模型的训练数据；根据所述训练数据对所述目标检测模型进行训练，得到训练好的目标检测模型；基于所述训练好的目标检测模型对目标进行检测，得到目标检测结果。本申请实施例能够通过多样化的训练方式训练目标检测模型，并通过训练好的目标检测模型实现对目标进行全方位、多功能、高精度的检测效果。

1.一种基于迁移学习的目标检测方法，其特征在于，包括：S110、获取源域的第一图像数据，所述第一图像数据包括行人和所述行人所在环境的图像；

S120、根据所述第一图像数据，生成用于表示检测范围的检测框；其中，所述S120、根据所述第一图像数据，生成用于表示检测范围的检测框，包括：S121、从所述第一图像数据中获取所述行人的关键点和轮廓；

S122、若所述关键点与所述轮廓之间的关系满足第一预设条件，则生成包含所述轮廓的第一检测框；其中，所述第一预设条件为全部所述关键点均位于所述轮廓的边界范围内；

S123、获取多个所述关键点之间的连线；其中，所述连线位于所述行人的身体部位；

S124、对所述第一检测框进行裁剪得到第二检测框，所述第二检测框中至少包括所述连线的部分；

S130、对所述第一图像数据和所述检测框进行处理，生成目标检测模型的训练数据，其中，所述S130、对所述第一图像数据和所述检测框进行处理，生成目标检测模型的训练数据，包括：S131、获取包含所述第一检测框的第一图像数据，以及包含所述第二检测框的第一图像数据；

S132、获取所述第一检测框的第一图像数据的第一标注；

S133、以所述第二检测框的第一图像数据为样本，所述第一标注为监督信号，构成所述训练数据中的第一训练集；

S140、根据所述训练数据对所述目标检测模型进行训练，得到训练好的目标检测模型；

S150、基于所述训练好的目标检测模型对目标域的目标进行检测，得到目标检测结果。

2.根据权利要求1所述的方法，其特征在于，所述S130、对所述第一图像数据和所述检测框进行处理，生成目标检测模型的训练数据，还包括：S134、获取所述目标域的第二图像数据；

S135、获取所述第二图像数据的聚类结果，将所述聚类结果确定为每个聚类的第二图像数据的伪标签；

S136、以所述第二图像数据为样本，所述伪标签为监督信号，生成所述训练数据的第二训练集。

3.根据权利要求2所述的方法，其特征在于，所述S140、根据所述训练数据对所述目标检测模型进行训练，得到训练好的目标检测模型，包括：S141、根据所述第一训练集，以有监督学习方式训练所述目标检测模型，得到所述训练好的目标检测模型；

S142、根据所述第二训练集，以无监督学习方式训练所述目标检测模型，得到所述训练好的目标检测模型。

4.根据权利要求3所述的方法，其特征在于，所述S150、基于所述训练好的目标检测模型对目标域的目标进行检测，得到目标检测结果，包括：获取第一目标检测结果和第二目标检测结果；

其中，所述第一目标检测结果用于表示对同一个域的目标进行检测的结果，所述第二目标检测结果用于表示对不同域的目标进行检测的结果。

5.一种基于迁移学习的目标检测系统，其特征在于，包括：图像数据获取模块，用于获取源域的图像数据，所述图像数据包括行人和所述行人所在环境的图像；

检测框生成模块，用于根据所述图像数据，生成用于表示检测范围的检测框，其中，所述检测框生成模块具体用于：从第一图像数据中获取所述行人的关键点和轮廓；

若所述关键点与所述轮廓之间的关系满足第一预设条件，则生成包含所述轮廓的第一检测框；其中，所述第一预设条件为全部所述关键点均位于所述轮廓的边界范围内；

获取多个所述关键点之间的连线；其中，所述连线位于所述行人的身体部位；

对所述第一检测框进行裁剪得到第二检测框，所述第二检测框中至少包括所述连线的部分；

训练数据生成模块，用于对所述图像数据和所述检测框进行处理，生成目标检测模型的训练数据，其中，所述训练数据生成模块具体用于：获取包含所述第一检测框的第一图像数据，以及包含所述第二检测框的第一图像数据；

获取所述第一检测框的第一图像数据的第一标注；

以所述第二检测框的第一图像数据为样本，所述第一标注为监督信号，构成所述训练数据中的第一训练集；

目标检测模型训练模块，用于根据所述训练数据对所述目标检测模型进行训练，得到训练好的目标检测模型；

目标检测结果获取模块，用于基于所述训练好的目标检测模型对目标域的目标进行检测，得到目标检测结果。

一种基于迁移学习的目标检测方法及系统

技术领域

[0001] 本申请涉及图像处理的系统和方法，尤其涉及基于迁移学习的目标检测方法及系统。

背景技术

[0002] 近年来，随着人工智能目标检测技术的出现和普及，为了能够有效地提升公共安全，在公共场所、交通道路等场合下都部署了大量的检测设备，例如高清相机、光场摄像机等。然而，目标在某一场合下，可能会于不同时间、位置出现在不同检测设备的画面中，某一个或多个检测设备可能无法捕捉到目标的脸部信息，从而无法保证某一场合下的所有检测设备都能对目标进行检测，导致目标检测失败或检测结果出错。

[0003] 因此，期望提供用于确定倾斜对象的基于迁移学习的目标检测方法及系统，其可以实现倾斜对象的精确定位。

发明内容

[0004] 本发明实施例的目的在于提供一种基于迁移学习的目标检测方法及系统，本申请实施例能够通过多样化的训练方式训练目标检测模型，并通过训练好的目标检测模型实现对目标进行全方位、多功能、高精度的检测效果。具体技术方案如下：

[0005] 在本发明实施例的第一方面，提供一种基于迁移学习的目标检测方法，包括：S110、获取源域的第一图像数据，所述第一图像数据包括行人和所述行人所在环境的图像；

[0006] S120、根据所述第一图像数据，生成用于表示检测范围的检测框；

[0007] S130、对所述第一图像数据和所述检测框进行处理，生成目标检测模型的训练数据；

[0008] S140、根据所述训练数据对所述目标检测模型进行训练，得到训练好的目标检测模型；

[0009] S150、基于所述训练好的目标检测模型对目标域的目标进行检测，得到目标检测结果。

[0010] 可选地，所述检测框包括第一检测框，所述S120、根据所述第一图像数据，生成用于表示检测范围的检测框，包括：

[0011] S121、从所述第一图像数据中获取所述行人的关键点和轮廓；

[0012] S122、若所述关键点与所述轮廓之间的关系满足第一预设条件，则生成包含所述轮廓的第一检测框；其中，所述第一预设条件为全部所述关键点均位于所述轮廓的边界范围内。

[0013] 可选地，所述检测框还包括第二检测框，所述S120、根据所述第一图像数据，生成用于表示检测范围的检测框，还包括：

[0014] S123、获取多个所述关键点之间的连线；其中，所述连线位于所述行人的身体部位[0015] S124、对所述第一检测框进行裁剪得到所述第二检测框，所述第二检测框中至少包括所述连线的部分。

[0016] 可选地，所述S130、对所述第一图像数据和所述检测框进行处理，生成目标检测模型的训练数据，包括：

[0017] S131、获取包含所述第一检测框的第一图像数据，以及包含所述第二检测框的第一图像数据；

[0018] S132、获取所述第一检测框的第一图像数据的第一标注；

[0019] S133、以所述第二检测框的第一图像数据为样本，所述第一标注为监督信号，构成所述训练数据中的第一训练集。

[0020] 可选地，所述S130、对所述第一图像数据和所述检测框进行处理，生成目标检测模型的训练数据，还包括：

[0021] S134、获取所述目标域的第二图像数据；

[0022] S135、获取所述第二图像数据的聚类结果，将所述聚类结果确定为每个聚类的第二图像数据的伪标签；

[0023] S136、以所述第二图像数据为样本，所述伪标签为监督信号，生成所述训练数据的第二训练集。

[0024] 可选地，所述S140、根据所述训练数据对所述目标检测模型进行训练，得到训练好的目标检测模型，包括：

[0025] S141、根据所述第一训练集，以有监督学习方式训练所述目标检测模型，得到所述训练好的目标检测模型；

[0026] S142、根据所述第二训练集，以无监督学习方式训练所述目标检测模型，[0027] 得到所述训练好的目标检测模型。

[0028] 可选地，所述S150、基于所述训练好的目标检测模型对目标域的目标进行检测，得到目标检测结果，包括：获取第一目标检测结果和第二目标检测结果；

[0029] 其中，所述第一目标检测结果用于表示对同一个域的目标进行检测的结果，所述第二目标检测结果用于表示对不同域的目标进行检测的结果。

[0030] 可选地，所述方法还包括：

[0031] S160、对所述第一图像数据和所述第二图像数据中包含目标的类别进行识别，得到识别结果；

[0032] S170、若所述识别结果中包含所述目标的角信息，则根据所述角信息修剪所述目标的第三检测框；

[0033] S180、将包含所述第三检测框的第一图像数据或第二图像数据输入至所述训练好的目标检测模型，获取第三目标检测结果，所述第三检测结果为所述图像数据中包含所述目标的名称。

[0034] 在本发明实施例的又一方面，提供一种基于迁移学习的目标检测系统，包括：

[0035] 图像数据获取模块，用于获取源域的图像数据，所述图像数据包括行人和所述行人所在环境的图像；

[0036] 检测框生成模块，用于根据所述图像数据，生成用于表示检测范围的检测框；

[0037] 训练数据生成模块，用于对所述图像数据和所述检测框进行处理，生成目标检测模型的训练数据；

[0038] 目标检测模型训练模块，用于根据所述训练数据对所述目标检测模型进行训练，得到训练好的目标检测模型；

[0039] 目标检测结果获取模块，用于基于所述训练好的目标检测模型对目标域的目标进行检测，得到目标检测结果。

[0040] 在本发明实施例的又一方面，提供一种计算机可读存储介质，包括处理器和存储器，所述存储器存储有计算机可执行指令，所述处理器执行所述计算机可执行指令，用于实现上述基于迁移学习的目标检测方法。

[0041] 有益效果：

[0042] (1)本申请实施例可以通过对源域和信息域的图像数据进行处理，生成较为全面、数量较多的训练数据来训练目标检测模型，以提升对目标检测模型的训练效果。

[0043] (2)本申请实施例可以通过迁移学习，根据行人的辅助信息，例如如语义信息、属性信息、视角信息、域信息、GAN生成的信息等，对目标检测模型进行高难度、多任务的泛化学习，从而能够极大地提升目标检测模型的训练效果和泛化能力。

[0044] (3)本申请实施例可以通过训练好的目标检测模型对目标执行多类型任务的预测，从而在应用层面上，能够极大地提升后续将其结合到智能检测设备上的检测能力和检测范畴。

附图说明

[0045] 为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0046] 图1是本申请实施例提供的一种基于迁移学习的目标检测系统的应用场景示意图；

[0047] 图2是本申请实施例提供的一种基于迁移学习的目标检测方法的流程示意图；

[0048] 图3是本申请实施例提供的另一种基于迁移学习的目标检测方法的流程示意图；

[0049] 图4是本申请实施例提供的另一种基于迁移学习的目标检测方法的流程示意图；

[0050] 图5是本申请实施例提供的另一种基于迁移学习的目标检测方法的流程示意图；

[0051] 图6是本申请实施例提供的一种基于迁移学习的目标检测系统的结构示意图。

具体实施方式

[0052] 以下描述是为了使本领域的普通技术人员能够实施和利用本申请，并在特定应用及其要求的上下文中提供。对于本领域的普通技术人员来讲，对本申请披露的实施例进行的各种修改是显而易见的，并且本文中定义的通则在不背离本申请的精神及范围的情况下，可以适用于其他实施例及应用。因此，本申请不限于所示的实施例，而是符合与权利要求一致的最广泛范围。

[0053] 本文中所使用的术语仅用于描述特定示例性实施例，并不限制本申请的范围。本文使用的单数形式“一”、“一个”、“所述”可以同样包括复数形式，除非上下文明确提示例外情形。应当理解的是，本说明书中使用的术语“包括”和/或“包含”仅提示包括整数、步骤、操作、元件和/或部件，但是不排除一个或多个特征、整数、步骤、操作、元件、部件和/或其组合的存在和添加。

[0054] 在考虑了作为本申请一部分的附图的描述内容后，本申请的特征和特点以及操作方法、结构的相关元素的功能、各部分的组合、制造的经济性变得显而易见，这些都构成说明书的一部分。然而，应当理解的是，附图仅仅是为了说明和描述的目的，并不旨在限制本申请的范围。应当理解的是，附图并不是按比例的。

[0055] 本申请中使用了流程图来说明根据本申请的实施例的系统所执行的操作。应当理解的是，流程图的操作不一定按照顺序来精确地执行。相反，可以按照倒序执行或同时处理各种步骤。同时，也可以将一个或以上其他操作添加到这些流程图中。或者从这些流程图中移除一步或多步操作。

[0056] 此外，尽管主要关于围绕目标检测模型的训练和执行来描述本申请中的系统和方法，但是还应该理解，这仅是一个示例性实施例。本申请的系统或方法能适用于其他任一种基于迁移学习的目标检测服务。例如，本申请的系统和方法还可以应用于不同场景下的目标检测系统，应用场景可以包括陆地、海洋、航空太空等或其任意组合。目标检测系统可应用的车辆可以包括出租车、私人汽车、顺风车、公交车、火车、动车、高路、地铁、船只、飞机、飞船、热气球、无人驾驶车辆等或其任意组合。目标检测系统还可以包括应用管理和/或分发的任何场景，例如，用于发送及/或接收快递的系统。本申请的系统或方法的应用场景还可以包括网页、浏览器的插件、客户端、定制系统、内部分析系统、人工智能机器人等或其任意组合。

[0057] 本申请中使用的定位技术可以包括全球定位系统(GPS)、全球卫星导航系统(GLONASS)、北斗导航系统(COMPASS)、伽利略定位系统、准天顶卫星系统(QZSS)、无线保真(WiFi)定位技术等，或其任意组合。以上定位技术中的一种或多种可以在本申请中交换使用。

[0058] 本申请涉及基于迁移学习的目标检测方法和系统。具体地，可以通过获取图像数据，所述图像数据包括行人和所述行人所在环境的图像；根据所述图像数据，生成用于表示检测范围的检测框；对所述图像数据和所述检测框进行处理，生成目标检测模型的训练数据；根据所述训练数据对所述目标检测模型进行训练，得到训练好的目标检测模型；基于所述训练好的目标检测模型对目标进行检测，得到目标检测结果。

[0059] 图1是根据本申请的一些实施例所示的示例性基于迁移学习的目标检测系统的示意图。基于迁移学习的目标检测系统可以被配置用于目标检测。例如，基于迁移学习的目标检测系统可以确定与图像中的对象相对应的边界。在一些实施例中，基于迁移学习的目标检测系统可以是提供线上到线下(O2O)服务的在线平台。基于迁移学习的目标检测系统可以包括传感器11、网络12、终端13、服务器14和存储设备15。

[0060] 传感器11可以被配置为捕获一个或以上图像。如在本申请中所使用的，图像可以是静止图像、视频、流视频或从视频获取的视频帧。图像可以是三维(3D)图像或二维(2D)图像。传感器11可以是或包括一个或以上相机。在一些实施例中，传感器11可以是数码相机、光场相机、光场摄像机、监控摄像机、网络摄像机、智能手机、平板电脑、笔记本电脑、配备有网络摄像机的视频游戏机、具有多个镜头的摄像机、便携式摄像机等。在一些实施例中，传感器11(例如，摄像机)可以捕获包括一个或以上对象的图像。

[0061] 网络12可以促进信息和/或数据的交换。在一些实施例中，基于迁移学习的目标检测系统的一个或以上部件(例如，传感器11、终端13、服务器14和存储设备15)可以通过网络12向基于迁移学习的目标检测系统的其他部件发送信息和/或数据。例如，服务器14可以通过网络12处理从传感器11获取的图像。又例如，服务器14可以通过网络12从终端13获取用户指令。在一些实施例中，网络12可以是有线网络或无线网络中的任意一种，或其组合。仅作为示例，所述网络12可以包括电缆网络、有线网络、光纤网络、电信网络、内联络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网络(MAN)、公用电话交换网路(PSTN)、蓝牙网络、紫蜂网络、近场通讯(NFC)网络等，或其任意组合。在一些实施例中，网络
12可以包括一个或多个网络交换点。例如，网络12可以包括有线或无线网络交换点，如基站和/或互联网交换点12‑1、12‑2等等，通过交换点，基于迁移学习的目标检测系统的一个或以上部件可以连接到网络12以交换数据和/或信息。

[0062] 终端13可以包括移动设备13‑1、平板电脑13‑2、笔记本电脑13‑3等，或其任意组合。在一些实施例中，移动设备13‑1可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器的控制设备、智能监控设备、智能电视、智能摄像机、对讲机等，或其任意组合。在一些实施例中，可穿戴设备可以包括智能手环、智能鞋袜、智能眼镜、智能头盔、智能手表、智能衣物、智能背包、智能配饰等，或其任何组合。在一些实施例中，智能移动设备可以包括智能电话、个人数字助理(PDA)、游戏设备、导航设备、POS机等，或其任意组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强现实头盔、增强现实眼镜、增强现实眼罩等，或其任意组合。例如，虚拟现实识别和/或增强现实设备可以包括GoogleGlassTM、OculusRiftTM、HoloLensTM或Gear VRTM等。在一些实施例中，终端13可以远程操作传感器11。在一些实施例中，终端13可以通过无线连接操作传感器11。在一些实施例中，终端13可以接收由用户输入的信息和/或指令，并且通过网络12将所接收的信息和/或指令发送到传感器11或服务器14。在一些实施例中，终端13可以从服务器14接收数据和/或信息。在一些实施例中，终端13可以是服务器14的一部分。在一些实施例中，可以省略终端13。

[0063] 在一些实施例中，服务器14可以是单一服务器或服务器组。所述服务器组可以是集中式的或分布式的(例如，服务器14可以是分布式的系统)。在一些实施例中，服务器14可以是本地的或远程的。例如，服务器14可以通过网络12访问存储在传感器11、终端13和/或存储设备15中的信息和/或数据。又例如，服务器14可以直接连接到传感器11、终端13和/或存储设备15以访问存储的信息和/或数据。在一些实施例中，服务器14可以在云平台上实施。仅作为示例，所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多云等，或其任意组合。

[0064] 在一些实施例中，服务器14可以包括AI处理设备14‑1。AI处理设备14‑1可以处理信息和/或数据以执行本申请中描述的一个或以上功能。例如，AI处理设备14‑1可以处理包括目标对象的图像，以确定图像中目标对象的边界。在一些实施例中，AI处理设备14‑1可以包括一个或以上处理引擎(例如，单核处理引擎或多核处理器)。仅作为示例，AI处理设备14‑1可以包括中央处理器(CPU)、专用集成电路(ASIC)、专用指令集处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑装置(PLD)、控制器、微控制器、精简指令集计算机(RISC)、微处理器等，或上述举例的任意组合。

[0065] 存储设备15可以存储数据和/或指令。在一些实施例中，存储设备15可以存储从终端13和/或服务器14获取的数据。在一些实施例中，存储设备15可以存储服务器14用来执行或使用的数据和/或指令来完成本申请中描述的示例性方法。在一些实施例中，存储设备15可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等，或其任意组合。示例性的大容量储存器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、记忆卡、压缩磁盘、磁带等。示例性的易失性读写存储器可以包括随机存储器(RAM)。示例性的RAM可以包括动态RAM(DRAM)、双倍速率同步动态RAM(DDRSDRAM)、静态RAM(SRAM)、晶闸管RAM(T‑RAM)和零电容RAM(Z‑RAM)等。示例性的ROM可以包括掩蔽型ROM(MROM)、可编程ROM(PROM)、可擦可编程ROM(PEROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD‑ROM)和数字多功能磁盘ROM等。在一些实施例中，所述存储设备15可以在云平台上实现。仅作为示例，所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多云等，或其任意组合。

[0066] 在一些实施例中，存储设备15可以与网络12连接以与基于迁移学习的目标检测系统的一个或以上部件(例如，传感器11、终端13、服务器14)通信。基于迁移学习的目标检测系统中的一个或以上部件可以通过网络12访问存储设备15中存储的数据或指令。在一些实施例中，存储设备15可以直接与基于迁移学习的目标检测系统中的一个或以上部件(例如，传感器11、终端13、服务器14)连接或通信。在一些实施例中，存储设备15可以是传感器11的一部分。

[0067] 本领域普通技术人员应当理解，当基于迁移学习的目标检测系统的元件(或部件)执行时，该元件可以通过电信号和/或电磁信号执行。例如，当终端13向服务器14发出请求时，终端13的处理器可以生成编码该请求的电信号。然后，终端13的处理器可以将电信号发送到输出端口。如果终端13通过有线网络与服务器14通信，则所述输出端口可以物理地连接到电缆，该电缆还可以将所述电信号传输到服务器14的输入端口。如果终端13通过无线网络与服务器14通信，则终端13的输出端口可以是一个或以上天线，其将电信号转换为电磁信号。在例如终端13和/或服务器14这样的电子设备内，当其处理器处理指令、发出指令和/或执行动作时，指令和/或动作通过电信号进行。例如，当处理器从存储介质检索或保存数据时，其可以将电信号发送到存储介质的读/写设备，该读/写设备可以在存储介质中读取或写入结构化数据。结构化数据可以电信号的形式通过电子设备的总线传输至处理器。此处，电信号可以指一个电信号、一系列电信号和/或多个不连续的电信号。

[0068] 图2至图5示出了本申请实施例提供的一种基于迁移学习的目标检测方法的多个流程示意图，如图2所示，一种基于迁移学习的目标检测方法包括如下步骤：

[0069] S110、获取源域的第一图像数据，所述第一图像数据包括行人和所述行人所在环境的图像。

[0070] 其中，源域可以是指任一具有图像数据获取功能的检测设备，例如，高清相机、光场摄像头、行车记录仪等。其中，第一图像数据可以包括行人和该行人所在环境的图像。可以理解，获取到的第一图像数据是在场景下第一时间捕捉且未处理过的图像数据，其中包含了行人以及行人周围的环境，例如其他行人、物品、街道、建筑物、植物等。

[0071] 需要说明的是，第一图像数据可以是图片，也可以是视频，本申请实施例对于图像数据的类型不作限制。

[0072] S120、根据所述第一图像数据，生成用于表示检测范围的检测框。

[0073] 其中，检测框可以用于表示检测范围。以人脸识别为例，在检测设备捕捉到人脸的轮廓时，可以生成与人脸轮廓相同或近似的框体，该框体即为检测框，相应地第一图像数据的检测框的生成与之类似。

[0074] 在一种实施方式中，步骤S120可以具体包括以下步骤：

[0075] S121、从所述第一图像数据中获取所述行人的关键点和轮廓；

[0076] S122、若所述关键点与所述轮廓之间的关系满足第一预设条件，则生成包含所述轮廓的第一检测框；其中，所述第一预设条件为全部所述关键点均位于所述轮廓的边界范围内。

[0077] 其中行人的关键点可以是指行人的关键关节点，其中关键关节点可以通过人为预设后供系统进行获取。例如关键点可以包括行人的左右两侧的肩关节、踝关节，以及左右中三侧的髋关节等。

[0078] 其中，行人的以上7个关键点可以用P1至P7表示，由于上述关节点分别来自于行人身体部位的上、中、下部分，后方便后续对图像数据进行分割，将其分类为上部关节点Sup＝{P1，P2}、Sup＝{P3，P4}和Sup＝{P5，P7}。

[0079] 其中，行人的轮廓是指行人整个身体所呈现出的轮廓。其中，当第一检测框满足第一预设条件为全部关键点均位于轮廓的边界范围内，则表示当前第一检测框已经覆盖了该行人的全部关键点，使得检测设备可以基于第一检测框对该行人进行全身检测。

[0080] 在一种实施方式中，步骤S120还可以具体包括以下步骤：

[0081] S123、获取多个所述关键点之间的连线；

[0082] S124、对所述第一检测框进行裁剪得到所述第二检测框，所述第二检测框中至少包括所述连线的部分。

[0083] 其中，连线可以位于行人的身体部位。例如左肩关节点与右肩关节点的连线位于行人的身体部位，但左肩关节点与脚踝关节点的连线，可能会由于行人的运动不一定位于行人的身体部位。可以理解，当第二检测框中至少包括上述连线的一部分，则表示第二检测框中为行人的部分区域。例如，行人的上半身、腿、侧脸等。

[0084] S130、对所述第一图像数据和所述检测框进行处理，生成目标检测模型的训练数据。

[0085] 在一种实施方式中，步骤S130可以具体包括以下步骤：

[0086] S131、获取包含所述第一检测框的第一图像数据，以及包含所述第二检测框的第一图像数据；

[0087] S132、获取所述第一检测框的第一图像数据的第一标注；

[0088] S133、以所述第二检测框的第一图像数据为样本，所述第一标注为监督信号，构成所述训练数据中的第一训练集。

[0089] 可以理解，获取包含第一检测框的第一图像数据，以及包含第二检测框的第一图像数据，相当于获取行人的全身图像数据和部分身体部位的图像数据。

[0090] 在一些实施例中，可以以第二检测框的第一图像数据为样本，第一标注为监督信号，构成训练数据中的第一训练集。以第一训练集的某个训练样本为例，其可以是行人A的腿部图像，其标签可以为该行人A对应的全身图像数据，则第一标注可以为行人A的姓名，用于后续训练目标检测模型能否准确地基于该样本预测出目标为行人A。

[0091] 在一种实施方式中，步骤S130还可以具体包括以下步骤：

[0092] S134、获取所述目标域的第二图像数据；

[0093] S135、获取所述第二图像数据的聚类结果，将所述聚类结果确定为每个聚类的第二图像数据的伪标签；

[0094] S136、以所述第二图像数据为样本，所述伪标签为监督信号，生成所述训练数据的第二训练集。

[0095] 其中，目标域是指目标检测设备，例如指定的高清相机、光场摄像机、行车记录仪等。具体地，可以为第二图像数据进行标签估计，得到对应的伪标签。其中，伪标签可以用于表示图像数据中行人的属性信息、视角信息和姿态信息，例如该行人的属性信息包括性别为男性、发型为短发、衣服颜色为绿色，该行人的视角信息为位于目标域的侧面、后面等，姿态信息例如该行人处于静坐、行走等姿态。

[0096] 对于以上特征信息的提取，可以获取图像数据人行人的特征集合，例如以粗粒度将行人的特征信息聚类为全局特征集合上部身体区域特征集合和下部身体区域特征集合当需要计算均
具有上部身体区域特征和下部身体区域特征的两张图像数据的相似度时，可以表示为：

[0097]

[0098] 其中，α和β表示控制局部特征权重的超参数，其取值基于经验值设置得到，上述三个d的值分别表示行人的图像数据i与行人的图像数据j的全局特征、上部身体区域特征和下部身体区域特征之间的距离。

[0099] S140、根据所述训练数据对所述目标检测模型进行训练，得到训练好的目标检测模型。

[0100] 在一种实施方式中，步骤S140还可以具体包括以下步骤：

[0101] S141、根据所述第一训练集，以有监督学习方式训练所述目标检测模型，得到所述训练好的目标检测模型；

[0102] S142、根据所述第二训练集，以无监督学习方式训练所述目标检测模型，得到所述训练好的目标检测模型。

[0103] 其中，以第一训练集对目标检测模型进行迭代训练的过程中，可以根据样本对应行人局部区域的类型获取相应的损失函数，例如样本为行人的上部身体区域，则对应的损失函数为相应地全局区域、中部身体区域和下部身体区域对应的损失函数分别为和

[0104] 对于任一损失函数L，计算其取值可以表示为：

[0105]

[0106] 其中，X表示第一训练集，P和K分别表示一个最小批次中的行人身份数量和每个行人身份的行人图像数据的数量，m表示控制边界距离的超参数，fa表示从图像数据中提取到的特征向量，fp和fn分别表示正样本图像数据和负样本图像数据的特征。

[0107] 对于使用第二训练集，但除了计算损失函数的方式外，还涉及到对目标检测结果的重排序操作。例如以对目标域的图像数据检测结果为查找集，以源域或其他域的图像检测数据为候选集，当查找的对象在候选集中进行距离比较之后，将候选集中的行人按照距离的远近由小到大进行排序，要查找的行人排序越靠前，则算法的效果越好。假设总共有N个行人，即共进行N次查询和排序，每次查询中目标行人的排序结果用r＝(r1，r2，…，rN)表示，那么CMC曲线可以表示为：

[0108]

[0109] 其中，重排序的作用可以结合以下示例理解。以通过目标检测模型对目标进行检测为例，假设获取第二图像数据中的目标为行人B，在源域或其他域中的第一图像数据分别获取到行人B的正面图像、侧面图像和背后图像。由于正面图像和侧面图像相较于背后图像更容易基于行人B的特征进行检测，例如人脸检测、侧脸检测等，使得目标检测模型更倾向于通过行人B的正面图像和侧面图像检测出第二图像数据与第一图像数据的目标均为行人B。因此，可以基于检测的置信度即CMC(R)递减的顺序，将重排序结果确定为行人B的正面图像、侧面图像和背后图像。

[0110] S150、基于所述训练好的目标检测模型对目标域的目标进行检测，得到目标检测结果。

[0111] 其中，步骤S150还可以包括获取第一目标检测结果和第二目标检测结果。其中，第一目标检测结果可以用于表示对同一个域的目标进行检测的结果，第二目标检测结果可以用于表示对不同域的目标进行检测的结果。可以理解，基于本申请实施例的基于迁移学习的目标检测方法，可以实现对同一个域的目标进行检测，例如在同一域中检测不同时刻、不同位置或不同姿态下的行人是否为同一目标。也可以实现对不同域的目标进行检测，例如在不同域中检测不同时刻、不同位置或不同姿态下出现的行人是否为同一目标。

[0112] 在一种实施方式中，本申请实施例还可以具体包括以下步骤：

[0113] S160、对所述第一图像数据和所述第二图像数据中包含目标的类别进行识别，得到识别结果；

[0114] S170、若所述识别结果中包含所述目标的角信息，则根据所述角信息修剪所述目标的第三检测框；

[0115] S180、将包含所述第三检测框的第一图像数据或第二图像数据输入至所述训练好的目标检测模型，获取第三目标检测结果，所述第三检测结果为所述图像数据中包含所述目标的名称。

[0116] 其中，目标的类型可以为目标的类别信息，例如人、动物、物体、街道、建筑物、植物等。其中，角信息可以包括目标的至少两个角，例如，4个角、5个角、8个角等。再识别出目标的角信息后，可以更方便地通过第三检测框识别出图像数据中的非行人，例如行人的图像数据中出现的安全带、背包或倾斜字符等，从而能够在目标检测的过程中有效地排除干扰信息。

[0117] 为实现上述方法类实施例，本实施例还提供一种基于迁移学习的目标检测系统，图6示出了本申请实施例提供的一种基于迁移学习的目标检测系统的结构示意图，所述系统包括：

[0118] 图像数据获取模块610，用于获取源域的图像数据，所述图像数据包括行人和所述行人所在环境的图像；

[0119] 检测框生成模块620，用于根据所述图像数据，生成用于表示检测范围的检测框；

[0120] 训练数据生成模块630，用于对所述图像数据和所述检测框进行处理，生成目标检测模型的训练数据；

[0121] 目标检测模型训练模块640，用于根据所述训练数据对所述目标检测模型进行训练，得到训练好的目标检测模型；

[0122] 目标检测结果获取模块650，用于基于所述训练好的目标检测模型对目标域的目标进行检测，得到目标检测结果。

[0123] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置中模块/单元/子单元/组件的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0124] 综上所述，本申请提供的一种基于迁移学习的目标检测方法及系统，获取图像数据，所述图像数据包括行人和所述行人所在环境的图像；根据所述图像数据，生成用于表示检测范围的检测框；对所述图像数据和所述检测框进行处理，生成目标检测模型的训练数据；根据所述训练数据对所述目标检测模型进行训练，得到训练好的目标检测模型；基于所述训练好的目标检测模型对目标进行检测，得到目标检测结果。

[0125] 在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

[0126] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0127] 另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

[0128] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read‑Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

[0129] 应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

[0130] 最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

一种基于迁移学习的目标检测方法及系统转让专利

申请号 : CN202210174960.4

文献号 : CN114550215B

文献日 : 2022-10-18

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 温建伟 , 其他发明人请求不公开姓名

申请人 : 北京拙河科技有限公司

摘要 :

权利要求 :

说明书 :