图像识别、模型训练方法、装置、电子设备及存储介质转让专利

申请号 : CN202111165696.X

文献号 : CN113901911B

文献日 : 2022-11-04

本公开提供了一种图像识别、模型训练方法、装置、电子设备及存储介质。涉及人工智能技术领域，尤其涉及计算机视觉和深度学习等技术领域，具体可应用于智慧城市、智能云场景下。具体实现方案为：获得待处理图像的至少一张第一特征图，所述第一特征图的目标像素的特征数据是根据所述目标像素和所述目标像素周围设定范围内的其它像素生成的；根据所述目标像素的特征数据，确定所述目标像素所属的分类；根据所述目标像素所属的分类，确定所述目标像素对应的目标物体以及所述目标物体的关联信息。本公开实施例能够为安防、智慧城市、智能云等场景下的物体识别和物体追踪等操作提供良好的辅助。

1.一种图像处理方法，包括：

获得待处理图像的至少一张第一特征图，所述第一特征图的目标像素的特征数据是根据所述目标像素和所述目标像素周围设定范围内的其它像素生成的；

根据所述目标像素的特征数据，确定所述目标像素所属的分类；所述目标像素所属的分类，包括因被目标像素的像素区域中呈现的物体所遮挡，而未呈现在所述目标像素的像素区域中的物体的分类；

根据所述目标像素所属的分类，确定所述目标像素对应的目标物体以及所述目标物体的关联信息；所述目标物体的关联信息包括，不同目标物体之间其中一个目标物体与另一个目标物体之间存在使用或者被使用关系。

2.根据权利要求1所述的方法，其中，所述根据所述目标像素的特征数据，确定所述目标像素所属的分类，包括：根据所述目标像素的特征数据，确定所述目标像素属于预设分类的分数；

根据预设分类的分数阈值和所述分数，确定所述目标像素所属的分类。

3.根据权利要求1所述的方法，其中，所述根据所述目标像素所属的分类，确定所述待处理图像中所包含的目标物体以及所述目标物体的关联信息，包括：在所述目标像素所属的分类包括不同的第一分类和第二分类的情况下，确定所述目标物体包括第一分类对应的第一目标物体和第二分类对应的第二目标物体；

确定所述关联信息包括：所述第一目标物体和第二目标物体之间存在关联关系。

4.根据权利要求1‑3中任意一项所述的方法，其中，所述获得所述待处理图像的至少一张第一特征图，包括：针对所述待处理图像中的每个像素，根据设定范围内的所有像素，获得特征信息；

将所述特征信息转换为特征向量；

根据所述待处理图像中的所有像素的特征向量，得到至少一张第二特征图；

根据所述至少一张第二特征图，得到所述至少一张第一特征图。

5.根据权利要求4所述的方法，其中，所述根据所述至少一张第二特征图，得到所述至少一张第一特征图，包括：在所述第二特征图包括N张的情况下，融合M张第二特征图的特征，得到第一特征图，M小于N且N≥2。

6.根据权利要求4所述的方法，其中，所述根据所述至少一张第二特征图，得到所述至少一张第一特征图，包括：在所述第二特征图包括N张的情况下，融合M张第二特征图的特征，得到第一融合特征图，M小于N且N≥2；

将所述第一融合特征图和除所述M张第二特征图之外的其它第二特征图进行融合，获得第二融合特征图；

将所述第一融合特征图和第二融合特征图共同作为第一特征图。

7.根据权利要求1所述的方法，其中，所述分类包括大类和大类下的子分类。

8.一种模型训练方法，包括：

将待处理图像输入待训练的识别模型；

利用所述待训练的识别模型的特征网络，获得所述待处理图像的至少一张第一特征图，所述第一特征图的目标像素的特征数据是根据所述目标像素和所述目标像素周围设定范围内的其它像素生成的；

利用所述待训练的识别模型的头部，确定所述目标像素所属的分类；所述目标像素所属的分类，包括因被目标像素的像素区域中呈现的物体所遮挡，而未呈现在所述目标像素的像素区域中的物体的分类；

利用所述待训练的识别模型的输出层，根据所述目标像素所属的分类，确定所述像素对应的目标物体以及所述目标物体的关联信息；所述目标物体的关联信息包括，不同目标物体之间其中一个目标物体与另一个目标物体之间存在使用或者被使用关系；

根据标注结果、所述分类和所述关联信息，对所述识别模型进行训练。

9.一种图像处理装置，包括：

第一特征图模块，用于获得待处理图像的至少一张第一特征图，所述第一特征图的目标像素的特征数据是根据所述目标像素和所述目标像素周围设定范围内的其它像素生成的；

分类模块，用于根据所述目标像素的特征数据，确定所述目标像素所属的分类；所述目标像素所属的分类，包括因被目标像素的像素区域中呈现的物体所遮挡，而未呈现在所述目标像素的像素区域中的物体的分类；

识别模块，用于根据所述目标像素所属的分类，确定所述目标像素对应的目标物体以及所述目标物体的关联信息；所述目标物体的关联信息包括，不同目标物体之间其中一个目标物体与另一个目标物体之间存在使用或者被使用关系。

10.根据权利要求9所述的装置，其中，所述分类模块包括：分数单元，用于根据所述目标像素的特征数据，确定所述目标像素属于预设分类的分数；

分数处理单元，用于根据预设分类的分数阈值和所述分数，确定所述目标像素所属的分类。

11.根据权利要求9所述的装置，其中，所述识别模块包括：第一识别单元，用于在所述目标像素所属的分类包括不同的第一分类和第二分类的情况下，确定所述目标物体包括第一分类对应的第一目标物体和第二分类对应的第二目标物体；

第二识别单元，用于确定所述关联信息包括：所述第一目标物体和第二目标物体之间存在关联关系。

12.根据权利要求9‑11中任意一项所述的装置，其中，所述第一特征图模块包括：特征信息单元，用于针对所述待处理图像中的每个像素，根据设定范围内的所有像素，获得特征信息；

转换单元，用于将所述特征信息转换为特征向量；

特征向量单元，用于根据所述待处理图像中的所有像素的特征向量，得到至少一张第二特征图；

特征图单元，用于根据所述至少一张第二特征图，得到所述至少一张第一特征图。

13.根据权利要求12所述的装置，其中，所述特征图单元还用于：在所述第二特征图包括N张的情况下，融合M张第二特征图的特征，得到第一特征图，M小于N且N≥2。

14.根据权利要求12所述的装置，其中，所述特征图单元还用于：在所述第二特征图包括N张的情况下，融合M张第二特征图的特征，得到第一融合特征图，M小于N且N≥2；

将所述第一融合特征图和除所述M张第二特征图之外的其它第二特征图进行融合，获得第二融合特征图；

将所述第一融合特征图和第二融合特征图共同作为第一特征图。

15.根据权利要求9所述的装置，其中，所述分类包括大类和大类下的子分类。

16.一种模型训练装置，包括：

输入模块，用于将待处理图像输入待训练的识别模型；

特征网络模块，用于利用所述待训练的识别模型的特征网络，获得所述待处理图像的至少一张第一特征图，所述第一特征图的目标像素的特征数据是根据所述目标像素和所述目标像素周围设定范围内的其它像素生成的；

分类模块，用于利用所述待训练的识别模型的头部，确定所述目标像素所属的分类；所述目标像素所属的分类，包括因被目标像素的像素区域中呈现的物体所遮挡，而未呈现在所述目标像素的像素区域中的物体的分类；

输出层模块，用于利用所述待训练的识别模型的输出层，根据所述目标像素所属的分类，确定所述像素对应的目标物体以及所述目标物体的关联信息；所述目标物体的关联信息包括，不同目标物体之间其中一个目标物体与另一个目标物体之间存在使用或者被使用关系；

训练模块，用于根据标注结果、所述分类和所述关联信息，对所述识别模型进行训练。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1‑8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1‑8中任一项所述的方法。

图像识别、模型训练方法、装置、电子设备及存储介质

技术领域

[0001] 本公开涉及人工智能技术领域，尤其涉及计算机视觉和深度学习等技术领域，具体可应用于智慧城市、智能云场景下。

背景技术

[0002] 随着计算机技术的发展，视频拍摄装置可以应用于多种用途，在多种场景下，需要对视频拍摄装置拍摄的文件进行分析。

[0003] 比如，在安防场景下，需要通过视频，对目标人物或者目标物体进行路线追踪、查找等操作。为了提高类似场景下的追踪和查找效率，需要将视频中的物体进行识别，并对不同的物体进行相互使用、占据等关系的确定。

发明内容

[0004] 本公开提供了一种图像识别、模型训练方法、装置、电子设备及存储介质。

[0005] 根据本公开的一方面，提供了一种图像处理方法，包括：

[0006] 获得待处理图像的至少一张第一特征图，第一特征图的目标像素的特征数据是根据目标像素和目标像素周围设定范围内的其它像素生成的；

[0007] 根据目标像素的特征数据，确定目标像素所属的分类；

[0008] 根据目标像素所属的分类，确定目标像素对应的目标物体以及目标物体的关联信息。

[0009] 根据本公开的另一方面，提供了一种模型训练方法，包括：

[0010] 将待处理图像输入待训练的识别模型；

[0011] 利用待训练的识别模型的特征网络，获得待处理图像的至少一张第一特征图，第一特征图的目标像素的特征数据是根据目标像素和目标像素周围设定范围内的其它像素生成的；

[0012] 利用待训练的识别模型的头部，确定目标像素所属的分类；

[0013] 利用待训练的识别模型的输出层，根据目标像素所属的分类，确定像素对应的目标物体以及目标物体的关联信息；

[0014] 根据标注结果、分类和关联信息，对识别模型进行训练。

[0015] 根据本公开的另一方面，提供了一种图像处理装置，包括：

[0016] 第一特征图模块，用于获得待处理图像的至少一张第一特征图，第一特征图的目标像素的特征数据是根据目标像素和目标像素周围设定范围内的其它像素生成的；

[0017] 分类模块，用于根据目标像素的特征数据，确定目标像素所属的分类；

[0018] 识别模块，用于根据目标像素所属的分类，确定目标像素对应的目标物体以及目标物体的关联信息。

[0019] 根据本公开的另一方面，提供了一种模型训练装置，包括：

[0020] 输入模块，用于将待处理图像输入待训练的识别模型；

[0021] 特征网络模块，用于利用待训练的识别模型的特征网络，获得待处理图像的至少一张第一特征图，第一特征图的目标像素的特征数据是根据目标像素和目标像素周围设定范围内的其它像素生成的；

[0022] 分类模块，用于利用待训练的识别模型的头部，确定目标像素所属的分类；

[0023] 输出层模块，用于利用待训练的识别模型的输出层，根据目标像素所属的分类，确定像素对应的目标物体以及目标物体的关联信息；

[0024] 训练模块，用于根据标注结果、分类和关联信息，对识别模型进行训练。

[0025] 根据本公开的另一方面，提供了一种电子设备，包括：

[0026] 至少一个处理器；以及

[0027] 与该至少一个处理器通信连接的存储器；其中，

[0028] 该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

[0029] 根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

[0030] 根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。

[0031] 根据本公开的技术，能够识别待处理图像中的目标物品以及目标物品的关联信息，从而能够在安防、智慧城市、智能云等场景中，为目标查找和目标追踪提供良好准确的效果。

[0032] 应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

[0033] 附图用于更好地理解本方案，不构成对本公开的限定。其中：

[0034] 图1是根据本公开一实施例的图像处理方法流程示意图；

[0035] 图2是根据本公开另一实施例的图像处理方法流程示意图；

[0036] 图3是根据本公开又一实施例的图像处理方法流程示意图；

[0037] 图4是根据本公开又一实施例的模型训练方法流程示意图；

[0038] 图5是根据本公开一示例的图像处理方法流程示意图；

[0039] 图6是根据本公开一示例的模型结构示意图；

[0040] 图7是根据本公开一实施例的图像处理装置示意图；

[0041] 图8是根据本公开另一实施例的图像处理装置示意图；

[0042] 图9是根据本公开又一实施例的图像处理装置示意图；

[0043] 图10是根据本公开又一实施例的图像处理装置示意图；

[0044] 图11是根据本公开一实施例的模型训练示意图；

[0045] 图12是用来实现本公开实施例的图像处理方法的电子设备的框图。

具体实施方式

[0046] 以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

[0047] 本公开实施例首先提供一种图像处理方法，如图1所示，包括：

[0048] 步骤S11：获得待处理图像的至少一张第一特征图，第一特征图的目标像素的特征数据是根据目标像素和目标像素周围设定范围内的其它像素生成的；

[0049] 步骤S12：根据目标像素的特征数据，确定目标像素所属的分类；

[0050] 步骤S13：根据目标像素所属的分类，确定目标像素对应的目标物体以及目标物体的关联信息。

[0051] 本实施例中，待处理图像可以是视频获取装置获取的视频数据中的一个帧图像。

[0052] 获得待处理图像的至少一张第一特征图，可以是对待处理图像进行设定的计算，将图像中的特征信息进行提取，并通过设定的公式将特征信息转化为数值或向量，根据转化得到的数值或向量获得特征图。

[0053] 本实施例中，第一特征图可以包括多像素，可以是由其所有的像素构成的特征图。第一特征图的目标像素可以是第一特征图的任意一个像素。

[0054] 本实施例中，目标像素的特征数据，可以包括目标像素自身的相关特征、目标像素周围的其它像素的相关特征，以及目标像素和其周围的其它像素共同构成的结合信息。

[0055] 比如，在待处理图像中包括物体A的情况下，A所在的实际区域的与另一物体B所在的实际区域重叠，则物体A在待处理图像中遮挡物体B，待处理图像中，如果物体A所在的图像区域的像素在实际中遮挡物体B，则该像素可包含物体A相关的信息，也可包含物体B相关的信息。

[0056] 目标像素所属的分类，目标像素对应的物体的分类，目标像素对应的物体，可以包括在待处理图像中，相应的像素区域中呈现的物体，或者未呈现在像素区域中，但实际上被像素区域中呈现的物体所遮挡的物体。

[0057] 本实施例中，根据目标像素的特征数据，确定目标像素所属的分类，可以是针对多个预设分类，确定目标像素分别属于其中每个分类的可能性，根据可能性，确定目标像素的分类。

[0058] 比如，预设分类包括A、B、C、D，每个分类对应一种物体，目标像素属于这四种预设分类的概率分别为X、Y、W、Z，且X、Y大于设定阈值，W、Z小于设定阈值，则目标像素属于A、B物体，不属于C、D物体。

[0059] 本实施例中，目标像素可以属于一个分类，也可以属于多个分类。

[0060] 根据目标像素所属的分类，确定目标像素对应的目标物体以及目标物体的关联信息，可以是根据预设的分类与物体的对应关系和目标像素所属的分类，确定该分类对应的物体为目标物体。

[0061] 在一种可能的实现方式中，根据目标像素所属的分类，确定目标像素对应的目标物体以及目标物体的关联信息，可以是根据目标像素所属的分类，确定目标像素对应的目标物体，根据目标像素相关的其它像素所属的分类，确定目标物体的关联信息。

[0062] 目标物体的关联信息，可以包括不同的目标物体之间相互关联，或目标物体不具有关联关系(目标物体在待处理图像中为独立物体)。

[0063] 不同的目标物体之间相互关联，可以包括其中一个目标物体与另一个目标物体之间存在空间上的边、面等重叠的关系。比如，杯子放置在桌子上，二者之间存在重叠的面，则杯子与桌子之间存在关联关系。

[0064] 不同的目标物体之间相互关联，还可以包括其中一个目标物体与另一个目标物体之间存在使用或者被使用关系。比如，人体坐在椅子上，则人体与椅子之前存在关联关系。再如，人体骑着自行车，则人体与自行车之间存在关联关系。

[0065] 不同的目标物体之间相互关联，还可以包括一个目标物体与另一个目标物体之间的空间包容关系，比如，人体坐于车辆之中，则人体与车辆之间存在关联关系。

[0066] 关联关系可以进行指定，比如，多个人体坐于车辆之中，指定仅主驾驶位的人体为与车辆关联的人体。

[0067] 本实施例中，通过目标像素的分类，确定目标像素所属的目标物体，以及目标物体的关联信息，可以在待处理图像中，识别出至少一个目标物体，且在待识别图像中存在多个目标物体的情况下，可以识别出具有关联性(关联关系)的不同目标物体，从而能够实现在一个或多个视频中，对同样的物体，通过分类和关联信息进行跟踪、检索、查找等操作，进而应用于安防、监控等系统中，实现对视频数据资源的有效利用。

[0068] 在一种实施方式中，根据目标像素的特征数据，确定目标像素所属的分类，包括：

[0069] 根据目标像素的特征数据，确定目标像素属于预设分类的分数；

[0070] 根据预设分类的分数阈值和分数，确定目标像素所属的分类。

[0071] 本实施例中，根据目标像素的特征数据，确定目标像素属于预设分类的分数，可以通过一定的图像处理模型实现，或者通过设定的函数实现。

[0072] 根据预设分类的分数阈值和分数，确定目标像素所属的分类，可以是在一个分类的分数超过分数阈值的情况下，确定目标像素属于该分类，在一个分类的分数不超过分数阈值的情况下，确定目标像素不属于该分类。

[0073] 本实施例中，通过分数确定目标像素是否属于各个分类，从而能够对分类进行准确的确定。

[0074] 在一种实施方式中，根据目标像素所属的分类，确定待处理图像中所包含的目标物体以及目标物体的关联信息，还包括：

[0075] 在目标像素所属的分类包括不同的第一分类和第二分类的情况下，确定目标物体包括第一分类对应的第一目标物体和第二分类对应的第二目标物体；

[0076] 确定关联信息包括：第一目标物体和第二目标物体之间存在关联关系。

[0077] 本实施例中，目标像素所属的分类可以包括一个或多个。在目标像素所属的分类包括一个的情况下，目标像素所在的像素区域可能仅存在一个物体，且不存在遮挡的位置关系或者使用、重叠等关联关系。则目标物体的关联信息可能包括：目标物体不存在关联关系。

[0078] 在目标像素所属的分类包括两个以上的情况下，目标像素所在的像素区域可能存在使用、重叠等关联关系。

[0079] 由于目标像素的分类是通过第一特征图中的特征数据所确定的，特征数据中包括了目标像素和目标像素周围一定范围内的其它像素的信息，从而通过分类包括两个以上时，可以确定该目标像素的像素区域范围内存在两种以上的目标物体，且两种以上的目标物体在现实空间中，存在使用或者重叠等关联关系，若仅是单纯的遮挡，则在目标像素所在的区域不会同时出现遮挡与被遮挡的分类。

[0080] 本实施例中，通过在一个像素区域内出现的分类，确定像素区域内存在的目标物体以及相应的关联信息，具有高度的识别准确性。

[0081] 在一种实施方式中，如图2所示，获得待处理图像的至少一张第一特征图，包括：

[0082] 步骤S21：针对待处理图像中的每个像素，根据设定范围内的所有像素，获得特征信息；

[0083] 步骤S22：将特征信息转换为特征向量；

[0084] 步骤S23：根据待处理图像中的所有像素的特征向量，得到至少一张第二特征图；

[0085] 步骤S24：根据至少一张第二特征图，得到至少一张第一特征图。

[0086] 本实施例中，针对每个像素设定范围内的所有像素，可以是包括该像素本身在内的设定范围内的所有像素。

[0087] 本实施例中，将特征信息转换为特征向量，可以是将包括颜色特征、纹理特征、形状特征和空间关系特征等在内的特征信息转换成向量数据，通过特征向量表达颜色特征、纹理特征、形状特征和空间关系特征等图像的特征信息。

[0088] 本实施例中，在第二特征图包括多张的情况下，不同的第二特征图的大小可以不同。

[0089] 根据至少一张第二特征图，得到至少一张第一特征图，可以是根据数量较多的第二特征图，得到数量较少的第一特征图。比如，根据R张第二特征图得到Q张第一特征图，Q＜R。

[0090] 本实施例中，通过对待处理图像的特征信息转换，使得特征图中的每个像素都能够充分体现图像实际所包含的信息，提高分类和关联信息的确定效果。

[0091] 在一种实施方式中，根据至少一张第二特征图，得到至少一张第一特征图，包括：

[0092] 在第二特征图包括N张的情况下，融合M张第二特征图的特征，得到第一特征图，M小于N且N≥2。

[0093] 本实施例中，可以通过融合M张第二特征图，得到其中一张第一特征图。

[0094] 通过融合第二特征图，能够将第二特征图中的特征信息进行充分利用，提高分类和关联信息分析的准确性。

[0095] 在一种实施方式中，根据至少一张第二特征图，得到至少一张第一特征图，如图3所示，包括：

[0096] 步骤S31：在第二特征图包括N张的情况下，融合M张第二特征图的特征，得到第一融合特征图；

[0097] 步骤S32：将第一融合特征图和除M张第二特征图之外的其它第二特征图进行融合，获得第二融合特征图；

[0098] 步骤S33：将第一融合特征图和第二融合特征图共同作为第一特征图。

[0099] 本实施例中，将第一融合特征图和除M张第二特征图之外的其它第二特征图进行融合，获得第二融合特征图，可以包括，将第一融合特征图和剩余的第一张第二特征图进行融合，得到第一张第二融合特征图；将将第一张第二融合特征图和剩余的第二张第二特征图进行融合，得到第二张第二融合特征图……直至最后一张第二特征图被融合完毕。

[0100] 本实施例中，通过融合特征图，能够充分用待处理图像中的特征信息，获得准确的目标物品和关联信息的识别结果。

[0101] 在一种实施方式中，分类包括大类和大类下的子分类。

[0102] 大类可以是物品大类，例如，分类可以包括车辆、人体、车牌、建筑等。子分类可以是大类的子分类，比如车辆的型号、类型、颜色。人体的完整性、是否被遮挡、是否为正面人体等。车牌的颜色、类别、是否存在遮挡等。建筑的高度分类、颜色分类、类型等。

[0103] 本实施例中确定待处理图像中的大类和子分类，从而在实际应用的多种场景中，能够充分利用图像中的信息，进行物体识别、人体跟踪、物体跟踪等操作。

[0104] 本公开实施例还提供一种模型训练方法，如图4所示，包括：

[0105] 步骤S41：将待处理图像输入待训练的识别模型；

[0106] 步骤S42：利用待训练的识别模型的特征网络，获得待处理图像的至少一张第一特征图，第一特征图的目标像素的特征数据是根据目标像素和目标像素周围设定范围内的其它像素生成的；

[0107] 步骤S43：利用待训练的识别模型的头部(Head)，确定目标像素所属的分类；

[0108] 步骤S44：利用待训练的识别模型的输出层，根据目标像素所属的分类，确定像素对应的目标物体以及目标物体的关联信息；

[0109] 步骤S45：根据标注结果、分类和关联信息，对识别模型进行训练。

[0110] 本实施例中，待处理图像可以是包含需要识别的目标物体的图像。需要识别的目标物体，可以是任何物体，比如人物、人脸、人眼、人体、动物、静物等。

[0111] 待训练的识别模型可以是任意神经网络模型、深度学习模型、机器学习模型等具有根据数据学习并优化自身参数的能力的模型。

[0112] 本实施例中，特征网络可以包括特征输出层和特征金字塔，利用待训练的识别模型的特征网络，获得待处理图像的至少一张第一特征图，可以具体包括，利用特征网络的特征输出层，根据待处理图像输出至少一张第二特征图；利用特征网络的特征金字塔，根据第二特征图输出至少一张第一特征图。

[0113] 待训练识别模型的输出层，可以包括在待训练识别模型头部之后处理出具的数据处理层。

[0114] 本实施例中，输出层也可以复用部分头部的结构。

[0115] 本实施例中，能够通过待训练的识别模型获得待处理图像中所包括的目标物体和目标物体的关联信息，根据标注的数据和待训练的识别模型输出的数据对待训练的识别模型进行训练，从而得到识别模型，能够实现物体和关联信息的同时识别，充分利用待识别图像中提供的信息，以较少的模型数量输出较多的识别结果，提高模型的部署和识别效率。

[0116] 本公开一种示例中，识别模型训练方法可应用于人脸和人体识别，可以包括如图5所示的步骤：

[0117] 步骤S51：获得待识别图像。

[0118] 具体的，对监控或其他场景摄像头的实时视频流抽取图片帧，可以逐帧抽取，也可以设定间隔进行抽取。抽取的图像帧首先经过预处理，被缩放成固定尺寸(如416*416)，并减去统一的RGB(Red Green Blue，红绿蓝)均值(如[104,117,123])，使得各待识别图像的尺寸和RGB均值在待训练的识别模型的训练过程中统一，从而增强训练后的识别的模型的鲁棒性。

[0119] 步骤S52：将待识别图像输入识别模型。

[0120] 经过预处理的图像被送入待训练的识别模型进行计算。

[0121] 步骤S53：获得待识别图像的特征图。

[0122] 待训练的识别模型的输入数据可以为经过上述步骤S52预处理后的图像，经过主干网络的处理，得到不同深度和尺度的第一特征图。主干网络的结构可以与YOLO统一实时目标检测(You Only Look Once:Unified,Real‑Time Object Detection)模型的主干网络相同，具体可包括具有卷积计算功能的子网络，子网络例如可以是DarkNet、ResNet等网络。

[0123] 将主干网络输出的第一特征图中尺寸较小的N张，输入特征金字塔网络。通过FPN对主干网络输出的N张第一特征图通过对应的路径进行互相融合，最终得到N个不同尺度的特征图。这N个不同尺寸的特征图可分别用于感知图像上由大到小的不同尺度的目标。

[0124] 步骤S54：根据特征图获得每个像素的分类。

[0125] 步骤S55：根据每个像素的分类，确定待处理图像中所包含的一个或多个目标物体，同时在目标物体为多个的情况下，确定各目标物体是否存在关联关系以及存在何种关联关系。关联关系具体可以包括关联或不关联。

[0126] 在本公开一种示例中，识别模型结构如图6所示。模型的输入为经过预处理后的图像，经过主干网络61(如DarkNet、ResNet等网络)得到不同深度和尺度的特征图(比如如图6所示的五张特征图，相当于本公开其它实施例中所述的第二特征图)，将这些特征图输入特征金字塔网络62，得到三个或其它数量个不同尺度的特征图(相当于本公开其它实施例中所提到的第一特征图)，在图6中分别对应P3、P4和P5。这三个不同尺寸的特征图分别用于感知图像上由大到小的不同尺度的目标，较大大尺寸的特征图可以用于感知小尺寸的目标物体，即，尺寸大于第一尺寸阈值的特征图可以用于感知尺寸小于第二阈值的目标物体。较小尺寸的特征图可以用于感知较大尺寸的目标物体，即尺寸小于第三尺寸阈值的特征图可以用于感知尺寸小于第四阈值的目标物体。

[0127] 本示例中，特征金字塔62后可以连接若干个卷积层、激活层、批处理层组合，或者若干个前述三种处理层的组合。

[0128] 对于每个大类，设置一个头部63，专门预测该类别的检测框。比如，针对车辆大类，设置车辆大类对应的头部，专门根据每个像素的特征数据生成车辆类别的检测框的预测结果。如图6所示，本示例的识别模型设置有4个头部，分别预测人体、人脸、车辆、车牌这四个大类，输出层可以根据第一特征图中每个像素的特征向量输出待处理图像中所包括的各类别的目标物体的目标位置、子类别和置信度，其中，置信度可以根据每个像素的分数进行确定。比如，针对人脸区域，可以根据人脸区域所有像素的特征向量，确定人脸区域的检测框的目标位置、子类别和置信度。

[0129] 在本示例中，头部可以和输出层复用，头部输出长度为6的向量，表示对目标检测框的预测(x,y,w,h,class,score)。score表示该目标检测框预测的置信度，x、y、w、h为检测框坐标及尺度，class表示目标的子类别。子类别是针对大类别而言的，比如车辆是大类别，某个头部预测的都是车辆的检测框；而车辆类别中又有若干子类别，如轿车、卡车、电动自行车、电动摩托车等。

[0130] 本示例中的关联信息可以为：跨大类目标与目标之间的交互，例如人脸a属于人体b；人体a骑着非机动车c；人脸a驾驶机动车d；上述存在使用或者从属关系的目标物体，其关联信息可以认为为目标物体之间相互关联，比如人脸a和人体b关联，人体a和非机动车c关联，人脸a和机动车d关联。

[0131] 模型预测时，当两个及以上的头部在同一个锚点位置上都有检测框预测结果时，认为从不同头部得到的这几个检测框具有关联性。例如人体大类对应的头部在(i,j)位置处预测出一个检测框A(x1,y1,w1,h1,class1,score1)，同时在相同位置(i,j)，人脸大类的头部也预测出一个检测框B(x2,y2,w2,h2,class2,score2)，则认为上述两个检测框之间具有关联关系，即待处理图像中存在人体和人脸，且人体和人脸的关联信息为：人体关联人脸。同理，当同时有多个头部在同一位置(i,j)预测出多个检测框F、G、H等，则认为F、G、H等具有关联性。若仅有一个头部在位置(i,j)对应生成检测框L，而其它大类的头部在该位置(i,j)处均无检测框预测，则认为L与待处理图像中的其它目标都没有关联性。

[0132] 本示例中，在模型训练阶段，可以根据待训练的识别模型的头部输出的预测结果，计算YOLO损失值(YOLO loss)，根据YOLO损失值，对待训练的识别模型进行训练。针对每个大类的头部，可以计算一个对应的损失值。

[0133] 本示例中，任意一个头部可以包括多个卷积层构成的子网络。比如，在如图6所示的示例中，头部可以包括第一卷积层64和与第一卷积层连接的4个第二卷积层65构成的多头网络(Multi‑Head)。第一卷积层可以为3×3卷积层，第二卷积层也可以为3×3卷积层。第一卷积层的输入通道数为c的情况下，第二卷积层的输入通道数也为c，第一卷积层的输出通道数为2c的情况下，四个第二卷积层的输出通道数分别为3(k1+5)、3(k2+5)、3(k3+5)、3(k4+5)。最终由四个第二卷积层65输出关于识别框的识别数据。

[0134] 本公开实施例还提供一种图像处理装置，如图7所示，包括：

[0135] 第一特征图模块71，用于获得待处理图像的至少一张第一特征图，第一特征图的目标像素的特征数据是根据目标像素和目标像素周围设定范围内的其它像素生成的；

[0136] 分类模块72，用于根据目标像素的特征数据，确定目标像素所属的分类；

[0137] 识别模块73，用于根据目标像素所属的分类，确定目标像素对应的目标物体以及目标物体的关联信息。

[0138] 在一种实施方式中，如图8所示，分类模块包括：

[0139] 分数单元81，用于根据目标像素的特征数据，确定目标像素属于预设分类的分数；

[0140] 分数处理单元82，用于根据预设分类的分数阈值和分数，确定目标像素所属的分类。

[0141] 在一种实施方式中，如图9所示，识别模块包括：

[0142] 第一识别单元91，用于在目标像素所属的分类包括不同的第一分类和第二分类的情况下，确定目标物体包括第一分类对应的第一目标物体和第二分类对应的第二目标物体；

[0143] 第二识别单元92，用于确定关联信息包括：第一目标物体和第二目标物体之间存在关联关系。

[0144] 在一种实施方式中，如图10所示，第一特征图模块包括：

[0145] 特征信息单元101，用于针对待处理图像中的每个像素，根据设定范围内的所有像素，获得特征信息；

[0146] 转换单元102，用于将特征信息转换为特征向量；

[0147] 特征向量单元103，用于根据待处理图像中的所有像素的特征向量，得到至少一张第二特征图；

[0148] 特征图单元104，用于根据至少一张第二特征图，得到至少一张第一特征图。

[0149] 在一种实施方式中，特征图单元还用于：

[0150] 在第二特征图包括N张的情况下，融合M张第二特征图的特征，得到第一特征图，M小于N且N≥2。

[0151] 在一种实施方式中，特征图单元还用于：

[0152] 在第二特征图包括N张的情况下，融合M张第二特征图的特征，得到第一融合特征图，M小于N且N≥2；

[0153] 将第一融合特征图和除M张第二特征图之外的其它第二特征图进行融合，获得第二融合特征图；

[0154] 将第一融合特征图和第二融合特征图共同作为第一特征图。

[0155] 在一种实施方式中，分类包括大类和大类下的子分类。

[0156] 本公开实施例还提供一种模型训练装置，如图11所示，包括：

[0157] 输入模块111，用于将待处理图像输入待训练的识别模型；

[0158] 特征网络模块112，用于利用待训练的识别模型的特征网络，获得待处理图像的至少一张第一特征图，第一特征图的目标像素的特征数据是根据目标像素和目标像素周围设定范围内的其它像素生成的；

[0159] 分类模块113，用于利用待训练的识别模型的头部，确定目标像素所属的分类；

[0160] 输出层模块114，用于利用待训练的识别模型的输出层，根据目标像素所属的分类，确定像素对应的目标物体以及目标物体的关联信息；

[0161] 训练模块115，用于根据标注结果、分类和关联信息，对识别模型进行训练。

[0162] 本公开实施例可应用于人工智能技术领域，尤其可应用于计算机视觉和深度学习等技术领域，具体可应用于智慧城市、智能云场景下。

[0163] 本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

[0164] 根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

[0165] 图12示出了可以用来实施本公开的实施例的示例电子设备120的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

[0166] 如图12所示，设备120包括计算单元121，其可以根据存储在只读存储器(ROM)122中的计算机程序或者从存储单元128加载到随机访问存储器(RAM)123中的计算机程序，来执行各种适当的动作和处理。在RAM 123中，还可存储设备120操作所需的各种程序和数据。计算单元121、ROM 122以及RAM 123通过总线124彼此相连。输入/输出(I/O)接口125也连接至总线124。

[0167] 设备120中的多个部件连接至I/O接口125，包括：输入单元126，例如键盘、鼠标等；输出单元127，例如各种类型的显示器、扬声器等；存储单元128，例如磁盘、光盘等；以及通信单元129，例如网卡、调制解调器、无线通信收发机等。通信单元129允许设备120通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

[0168] 计算单元121可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元121的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元121执行上文所描述的各个方法和处理，例如图像处理方法。例如，在一些实施例中，图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元128。在一些实施例中，计算机程序的部分或者全部可以经由ROM 122和/或通信单元129而被载入和/或安装到设备120上。当计算机程序加载到RAM 123并由计算单元121执行时，可以执行上文描述的图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元121可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法。

[0169] 本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

[0170] 用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

[0171] 在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

[0172] 为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

[0173] 可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

[0174] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

[0175] 应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

[0176] 上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

图像识别、模型训练方法、装置、电子设备及存储介质转让专利

申请号 : CN202111165696.X

文献号 : CN113901911B

文献日 : 2022-11-04

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 苏翔博 , 王健 , 孙昊

申请人 : 北京百度网讯科技有限公司

摘要 :

权利要求 :

说明书 :