图像语义分割方法、装置、电子设备和存储介质转让专利

申请号 : CN202111627261.2

文献号 : CN113989511B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王金桥陈盈盈朱炳科台琰

申请人 : 中科视语(北京)科技有限公司

摘要 :

本发明提供一种图像语义分割方法、装置、电子设备和存储介质,所述方法包括:确定待分割的目标图像;基于目标图像的图像特征,对目标图像进行语义分割,得到目标图像中各像素的语义特征,并基于各像素的语义特征确定目标图像的全局分割结果;基于图像特征以及各像素的语义特征,确定目标图像中各切块图像的语义特征,并基于各切块图像的语义特征确定目标图像的局部分割结果;基于全局分割结果,以及局部分割结果,确定目标图像的语义分割结果。本发明提供的图像语义分割方法、装置、电子设备和存储介质,能够进一步提高图像语义分割的精度。

权利要求 :

1.一种图像语义分割方法,其特征在于,包括:

确定待分割的目标图像;

基于所述目标图像的图像特征,对所述目标图像进行语义分割,得到所述目标图像中各像素的语义特征,并基于各像素的语义特征确定所述目标图像的全局分割结果;所述目标图像的图像特征用于从目标图像的全局角度表征目标图像中各像素的特征信息;

基于所述图像特征以及各像素的语义特征,确定所述目标图像中各切块图像的语义特征,并基于各切块图像的语义特征确定所述目标图像的局部分割结果;各像素的语义特征用于从各像素的局部角度表征各像素的语义信息;

基于所述全局分割结果,以及所述局部分割结果,确定所述目标图像的语义分割结果;

所述基于所述全局分割结果,以及所述局部分割结果,确定所述目标图像的语义分割结果,包括:在所述全局分割结果中存在任一切块图像的分割结果与对应的局部分割结果不同时,基于对应切块图像的语义特征以及所述图像特征,确定对应切块图像的校正语义特征;

基于所述校正语义特征,更新所述目标图像中对应像素的语义特征,并基于更新后的各像素语义特征确定所述目标图像的语义分割结果;

所述基于对应切块图像的语义特征以及所述图像特征,确定对应切块图像的校正语义特征,包括:对所述图像特征进行下采样至与当前切块图像的语义特征尺寸相同,基于下采样后的图像特征和所述当前切块图像的语义特征,确定下一切块图像的语义特征;

按照预设规则逐级对所述下一切块图像的语义特征进行上采样,并以每次上采样后的下一切块图像的语义特征作为所述当前切块图像的语义特征,直至所述下一切块图像的语义特征尺寸与所述目标图像中对应切块图像特征尺寸相同时,将所述下一切块图像的语义特征作为所述校正语义特征;

所述基于下采样后的图像特征和所述当前切块图像的语义特征,确定下一切块图像的语义特征,包括:对下采样后的图像特征和所述当前切块图像的语义特征进行注意力计算,得到所述下一切块图像的语义特征。

2.根据权利要求1所述的图像语义分割方法,其特征在于,所述基于所述图像特征以及各像素的语义特征,确定所述目标图像中各切块图像的语义特征,包括:基于所述图像特征以及各像素的语义特征,确定所述目标图像中各切块图像的初始语义特征;

对各切块图像的初始语义特征进行注意力计算,得到各切块图像的语义特征。

3.根据权利要求1至2任一项所述的图像语义分割方法,其特征在于,所述目标图像的图像特征是基于如下步骤确定的:提取所述目标图像的多个不同尺度特征;

基于各不同尺度特征中的语义信息,对各尺度特征进行融合,得到所述目标图像的图像特征。

4.根据权利要求1至2任一项所述的图像语义分割方法,其特征在于,所述基于各像素的语义特征确定所述目标图像的全局分割结果,包括:对各像素的语义特征进行独热编码处理,并基于独热编码处理后的各像素语义特征确定所述全局分割结果;

所述基于各切块图像的语义特征确定所述目标图像的局部分割结果,包括:对各切块图像的语义特征进行独热编码处理,并基于独热编码处理后的各切块图像的语义特征确定所述局部分割结果。

5.一种图像语义分割装置,其特征在于,包括:

图像确定单元,用于确定待分割的目标图像;

全局分割单元,用于基于所述目标图像的图像特征,对所述目标图像进行语义分割,得到所述目标图像中各像素的语义特征,并基于各像素的语义特征确定所述目标图像的全局分割结果;所述目标图像的图像特征用于从目标图像的全局角度表征目标图像中各像素的特征信息;

局部分割单元,用于基于所述图像特征以及各像素的语义特征,确定所述目标图像中各切块图像的语义特征,并基于各切块图像的语义特征确定所述目标图像的局部分割结果;各像素的语义特征用于从各像素的局部角度表征各像素的语义信息;

语义分割单元,用于基于所述全局分割结果,以及所述局部分割结果,确定所述目标图像的语义分割结果;

所述语义分割单元,包括:

校正单元,用于在所述全局分割结果中存在任一切块图像的分割结果与对应的局部分割结果不同时,基于对应切块图像的语义特征以及所述图像特征,确定对应切块图像的校正语义特征;

更新单元,用于基于所述校正语义特征,更新所述目标图像中对应像素的语义特征,并基于更新后的各像素语义特征确定所述目标图像的语义分割结果;

所述校正单元,包括:

下采样单元,用于对所述图像特征进行下采样至与当前切块图像的语义特征尺寸相同,基于下采样后的图像特征和所述当前切块图像的语义特征,确定下一切块图像的语义特征;

所述基于下采样后的图像特征和所述当前切块图像的语义特征,确定下一切块图像的语义特征,包括:对下采样后的图像特征和所述当前切块图像的语义特征进行注意力计算,得到所述下一切块图像的语义特征;

上采样单元,用于按照预设规则逐级对所述下一切块图像的语义特征进行上采样,并以每次上采样后的下一切块图像的语义特征作为所述当前切块图像的语义特征,直至所述下一切块图像的语义特征尺寸与所述目标图像中对应切块图像特征尺寸相同时,将所述下一切块图像的语义特征作为所述校正语义特征。

6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述图像语义分割方法的步骤。

7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述图像语义分割方法的步骤。

说明书 :

图像语义分割方法、装置、电子设备和存储介质

技术领域

[0001] 本发明涉及图像处理技术领域,尤其涉及一种图像语义分割方法、装置、电子设备和存储介质。

背景技术

[0002] 图像语义分割是计算机视觉领域中一项重要的研究内容,其目标是将图像分割成具有不同语义信息的区域,并且标注每个区域相应的语义标签,例如通过对一幅图像进行图像语义分割后可为图像中的物体添加语义标签(如桌子、墙壁、天空、人、狗等),可应用于例如无人驾驶等领域。
[0003] 目前,多基于双线性插值上采样方案还原图像分辨率,以实现图像语义分割的细节特征学习,然而,上述方法分割精度较低。

发明内容

[0004] 本发明提供一种图像语义分割方法、装置、电子设备和存储介质,用以解决现有技术中图像语义分割精度较低的缺陷。
[0005] 本发明提供一种图像语义分割方法,包括:
[0006] 确定待分割的目标图像;
[0007] 基于所述目标图像的图像特征,对所述目标图像进行语义分割,得到所述目标图像中各像素的语义特征,并基于各像素的语义特征确定所述目标图像的全局分割结果;
[0008] 基于所述图像特征以及各像素的语义特征,确定所述目标图像中各切块图像的语义特征,并基于各切块图像的语义特征确定所述目标图像的局部分割结果;
[0009] 基于所述全局分割结果,以及所述局部分割结果,确定所述目标图像的语义分割结果。
[0010] 根据本发明提供的一种图像语义分割方法,所述基于所述图像特征以及各像素的语义特征,确定所述目标图像中各切块图像的语义特征,包括:
[0011] 基于所述图像特征以及各像素的语义特征,确定所述目标图像中各切块图像的初始语义特征;
[0012] 对各切块图像的初始语义特征进行注意力计算,得到各切块图像的语义特征。
[0013] 根据本发明提供的一种图像语义分割方法,所述基于所述全局分割结果,以及所述局部分割结果,确定所述目标图像的语义分割结果,包括:
[0014] 在所述全局分割结果中存在任一切块图像的分割结果与对应的局部分割结果不同时,基于对应切块图像的语义特征以及所述图像特征,确定对应切块图像的校正语义特征;
[0015] 基于所述校正语义特征,更新所述目标图像中对应像素的语义特征,并基于更新后的各像素语义特征确定所述目标图像的语义分割结果。
[0016] 根据本发明提供的一种图像语义分割方法,所述基于对应切块图像的语义特征以及所述图像特征,确定对应切块图像的校正语义特征,包括:
[0017] 对所述图像特征进行下采样至与当前切块图像的语义特征尺寸相同,基于下采样后的图像特征和所述当前切块图像的语义特征,确定下一切块图像的语义特征;
[0018] 按照预设规则逐级对所述下一切块图像的语义特征进行上采样,并以每次上采样后的下一切块图像的语义特征作为所述当前切块图像的语义特征,直至所述下一切块图像的语义特征尺寸与所述目标图像中对应切块图像特征尺寸相同时,将所述下一切块图像的语义特征作为所述校正语义特征。
[0019] 根据本发明提供的一种图像语义分割方法,所述基于下采样后的图像特征和所述当前切块图像的语义特征,确定下一切块图像的语义特征,包括:
[0020] 对下采样后的图像特征和所述当前切块图像的语义特征进行注意力计算,得到所述下一切块图像的语义特征。
[0021] 根据本发明提供的一种图像语义分割方法,所述目标图像的图像特征是基于如下步骤确定的:
[0022] 提取所述目标图像的多个不同尺度特征;
[0023] 基于各不同尺度特征中的语义信息,对各尺度特征进行融合,得到所述目标图像的图像特征。
[0024] 根据本发明提供的一种图像语义分割方法,所述基于各像素的语义特征确定所述目标图像的全局分割结果,包括:
[0025] 对各像素的语义特征进行独热编码处理,并基于独热编码处理后的各像素语义特征确定所述全局分割结果;
[0026] 所述基于各切块图像的语义特征确定所述目标图像的局部分割结果,包括:
[0027] 对各切块图像的语义特征进行独热编码处理,并基于独热编码处理后的各切块图像的语义特征确定所述局部分割结果。
[0028] 本发明还提供一种图像语义分割装置,包括:
[0029] 图像确定单元,用于确定待分割的目标图像;
[0030] 全局分割单元,用于基于所述目标图像的图像特征,对所述目标图像进行语义分割,得到所述目标图像中各像素的语义特征,并基于各像素的语义特征确定所述目标图像的全局分割结果;
[0031] 局部分割单元,用于基于所述图像特征以及各像素的语义特征,确定所述目标图像中各切块图像的语义特征,并基于各切块图像的语义特征确定所述目标图像的局部分割结果;
[0032] 语义分割单元,用于基于所述全局分割结果,以及所述局部分割结果,确定所述目标图像的语义分割结果。
[0033] 本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述图像语义分割方法的步骤。
[0034] 本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像语义分割方法的步骤。
[0035] 本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像语义分割方法的步骤。
[0036] 本发明提供的图像语义分割方法、装置、电子设备和存储介质,由于目标图像的图像特征用于从目标图像的全局角度表征目标图像中各像素的特征信息,从而基于目标图像的图像特征能够从全局角度对目标图像进行语义分割得到全局分割结果。同时,基于图像特征以及各像素的语义特征,能够结合目标图像的整体全局信息以及各像素的细节局部信息,准确得到用于表征各切块图像语义信息的各切块图像的语义特征。然后,基于全局分割结果以及局部分割结果共同确定目标图像的语义分割结果,从而使得语义分割结果中既考虑了目标图像中各切块图像之间的联系,也考了各切块图像内在的细节信息,进一步提高了语义分割结果的精度。

附图说明

[0037] 为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038] 图1是本发明提供的图像语义分割方法的流程示意图;
[0039] 图2是本发明提供的又一图像语义分割方法的流程示意图;
[0040] 图3是本发明提供的图像语义分割装置的结构示意图;
[0041] 图4是本发明提供的电子设备的结构示意图。

具体实施方式

[0042] 为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043] 目前,多基于双线性插值上采样方案还原图像分辨率,以实现图像语义分割,然而,上述方法对于图像细节处的分割精度较低,而且上述方法也无法对存在误差的语义分割结果进行识别和纠正。
[0044] 对此,本发明提供一种图像语义分割方法。图1是本发明提供的图像语义分割方法的流程示意图,如图1所示,该方法包括:
[0045] 步骤110、确定待分割的目标图像。
[0046] 此处,待分割的目标图像即需要进行语义分割的图像。目标图像可以是通过相机或者带有相机的智能终端拍摄得到,也可以是扫描得到,还可以是通过互联网传输或者下载得到,本发明实施例对此不作具体限定。
[0047] 步骤120、基于目标图像的图像特征,对目标图像进行语义分割,得到目标图像中各像素的语义特征,并基于各像素的语义特征确定目标图像的全局分割结果。
[0048] 具体地,目标图像的图像特征用于从目标图像的全局角度表征目标图像中各像素的特征信息,在对目标图像进行语义分割时,可以根据各像素的特征信息得到用于表征各像素语义信息的各像素的语义特征,从而可以基于各像素语义信息对各像素进行分割后,得到全局分割结果。可以理解的是,在得到各像素的语义特征后,可以对各像素的语义特征进行归一化处理,并基于归一化处理后的各像素的语义特征确定全局分割结果。
[0049] 可选地,在对目标图像进行语义分割时,可以直接通过预先训练好的端到端的图像分割模型实现,也可以先对目标图像进行多层级的图像特征提取,再将提取所得的图像特征进行图像分割。
[0050] 步骤130、基于图像特征以及各像素的语义特征,确定目标图像中各切块图像的语义特征,并基于各切块图像的语义特征确定目标图像的局部分割结果。
[0051] 具体地,图像特征用于从目标图像的全局角度表征各像素的特征信息,各像素的语义特征用于从各像素的局部角度表征各像素的语义信息,从而基于图像特征以及各像素的语义特征,能够实现结合目标图像的整体全局信息以及各像素的细节局部信息,准确得到用于表征各切块图像语义信息的各切块图像的语义特征。其中,各切块图像是指对目标图像进行切块处理后得到的图像。
[0052] 在得到各切块图像的语义特征后,可以基于各切块的语义特征确定各切块的分割结果,即目标图像的局部分割结果。
[0053] 需要说明的是,由于局部分割结果是结合目标图像的整体全局信息以及各像素的细节局部信息确定的,全局分割结果是基于目标图像的整体全局信息确定的,从而局部分割结果关注的是细节局部的分割结果,全部分割结果则是从目标图像全局角度进行的语义分割。
[0054] 步骤140、基于全局分割结果,以及局部分割结果,确定目标图像的语义分割结果。
[0055] 具体地,在基于目标图像的图像特征进行语义分割得到全局分割结果后,由于全局分割结果并未关注到目标图像中各像素的细节局部信息,从而全局分割结果中可能存在局部细节误差。此时,可以结合局部分割结果对全局分割结果中对应切块图像区域的分割结果进行校验,若局部分割结果与任一切块图像区域的分割结果差异较大,则表明对应切块图像区域的结果存在误差,此时可以基于局部分割结果对应的切块图像的语义特征对对应切块图像区域的像素语义特征进行纠正,进而得到精度更高的语义分割结果。
[0056] 需要说明的是,由于局部分割结果关注的是基于各切块图像的语义特征确定的,从而局部分割结果是以切块图像为单元进行的语义分割,但并没有考虑各切块图像之间的联系,若直接以局部分割结果作为目标图像的语义分割结果,则会忽略目标图像的全局信息,也即忽略各切块图像之间的联系,因此本发明实施例需要基于全局分割结果以及局部分割结果共同确定目标图像的语义分割结果,从而使得语义分割结果中既考虑了目标图像中各切块图像之间的联系,也考了各切块图像内在的细节信息。
[0057] 本发明实施例提供的图像语义分割方法,由于目标图像的图像特征用于从目标图像的全局角度表征目标图像中各像素的特征信息,从而基于目标图像的图像特征能够从全局角度对目标图像进行语义分割得到全局分割结果。同时,基于图像特征以及各像素的语义特征,能够结合目标图像的整体全局信息以及各像素的细节局部信息,准确得到用于表征各切块图像语义信息的各切块图像的语义特征。然后,基于全局分割结果以及局部分割结果共同确定目标图像的语义分割结果,从而使得语义分割结果中既考虑了目标图像中各切块图像之间的联系,也考了各切块图像内在的细节信息,进一步提高了语义分割结果的精度。
[0058] 基于上述实施例,基于图像特征以及各像素的语义特征,确定目标图像中各切块图像的语义特征,包括:
[0059] 基于图像特征以及各像素的语义特征,确定目标图像中各切块图像的初始语义特征;
[0060] 对各切块图像的初始语义特征进行注意力计算,得到各切块图像的语义特征。
[0061] 具体地,图像特征用于从目标图像的全局角度表征各像素的特征信息,各像素的语义特征用于从各像素的局部角度表征各像素的语义信息,从而基于图像特征以及各像素的语义特征,能够实现结合目标图像的整体全局信息以及各像素的细节局部信息,准确得到用于表征各切块图像语义信息的各切块图像的初始语义特征。
[0062] 然而,各切块图像中的不同像素特征的重要度不同,某些像素特征的重要度较高,某些像素特征的重要度较低。为了避免重要度较低的像素特征对局部分割结果的干扰,本发明实施例对各切块图像的初始语义特征进行注意力计算,从而可以关注重要度较高的像素特征,进而准确得到各切块图像的语义特征。
[0063] 基于上述任一实施例,基于全局分割结果,以及局部分割结果,确定目标图像的语义分割结果,包括:
[0064] 在全局分割结果中存在任一切块图像的分割结果与对应的局部分割结果不同时,基于对应切块图像的语义特征以及图像特征,确定对应切块图像的校正语义特征;
[0065] 基于校正语义特征,更新目标图像中对应像素的语义特征,并基于更新后的各像素语义特征确定目标图像的语义分割结果。
[0066] 具体地,在基于目标图像的图像特征进行语义分割得到全局分割结果后,由于全局分割结果并未关注到目标图像中各像素的细节局部信息,从而全局分割结果中可能存在局部细节误差。此时,可以结合局部分割结果对全局分割结果中对应切块图像区域的分割结果进行校验,若局部分割结果与任一切块图像区域的分割结果不同,则表明对应切块图像区域的结果存在误差,即全局分割结果中对应切块图像的分割结果存在误差。
[0067] 此时,可以基于对应切块图像的语义特征以及图像特征,确定对应切块图像的校正语义特征,使得校正语义特征中融合有目标图像的全局信息以及各切块图像的局部信息,然后基于校正语义特征更新目标图像中对应像素的语义特征,进而再基于更新后的各像素语义特征进行语义分割,以提高语义分割的精度。
[0068] 基于上述任一实施例,基于对应切块图像的语义特征以及图像特征,确定对应切块图像的校正语义特征,包括:
[0069] 对图像特征进行下采样至与当前切块图像的语义特征尺寸相同,基于下采样后的图像特征和当前切块图像的语义特征,确定下一切块图像的语义特征;
[0070] 按照预设规则逐级对下一切块图像的语义特征进行上采样,并以每次上采样后的下一切块图像的语义特征作为当前切块图像的语义特征,直至下一切块图像的语义特征尺寸与目标图像中对应切块图像特征尺寸相同时,将下一切块图像的语义特征所述校正语义特征。
[0071] 具体地,图像特征的尺寸与目标图像的原始尺寸相同,各切块图像的语义特征与各切块图像的尺寸相同,由于各切块图像的尺寸小于目标图像尺寸,从而各切块图像的语义特征尺寸小于图像特征尺寸。
[0072] 因此,本发明实施例对图像特征进行下采样至与当前切块图像的语义特征尺寸相同,并基于下采样后的图像特征和当前切块图像的语义特征,确定下一切块图像的语义特征,此时下一切块图像的语义特征与当前切块图像的语义特征尺寸相同。
[0073] 对此,本发明实施例按照预设规则逐级对下一切块图像的语义特征进行上采样,并以每次上采样后的下一切块图像的语义特征作为当前切块图像的语义特征,并继续对图像特征进行下采样至与当前切块图像的语义特征尺寸相同,直至下一切块图像的语义特征尺寸与目标图像中对应切块图像特征尺寸相同时,将下一切块图像的语义特征作为校正语义特征,从而能够实现由粗到细实现对目标图像的精细分割。
[0074] 基于上述任一实施例,基于下采样后的图像特征和当前切块图像的语义特征,确定下一切块图像的语义特征,包括:
[0075] 对下采样后的图像特征和当前切块图像的语义特征进行注意力计算,得到下一切块图像的语义特征。
[0076] 具体地,对下采样后的图像特征和当前切块图像的语义特征进行注意力计算,从而可以关注提取重要特征,得到能够准确表征对应切块图像细节信息的下一切块图像的语义特征,进而准确得到校正语义特征后,基于校正语义特征准确确定语义分割结果。
[0077] 基于上述任一实施例,目标图像的图像特征是基于如下步骤确定的:
[0078] 提取目标图像的多个不同尺度特征;
[0079] 基于各不同尺度特征中的语义信息,对各尺度特征进行融合,得到目标图像的图像特征。
[0080] 具体地,多个不同尺度特征用于表征目标图像在不同尺度下的语义信息,在提取得到目标图像的多个不同尺度特征后,可以基于各不同特征中的语义信息,对各尺度特征进行融合,从而能够结合不同尺度下的语义信息准确得到目标图像的图像特征。其中,目标图像的多个不同尺度特征可以基于特征金字塔网络提取得到,也可以基于其它特征网络提取得到,本发明实施例对此不作具体限定。
[0081] 基于上述任一实施例,基于各像素的语义特征确定目标图像的全局分割结果,包括:
[0082] 对各像素的语义特征进行独热编码处理,并基于独热编码处理后的各像素语义特征确定全局分割结果;
[0083] 基于各切块图像的语义特征确定目标图像的局部分割结果,包括:
[0084] 对各切块图像的语义特征进行独热编码处理,并基于独热编码处理后的各切块图像的语义特征确定局部分割结果。
[0085] 具体地,各像素的语义特征通常是离散的特征值,而在对目标图像进行语义分割时,通常需要计算各像素的语义特征之间的距离来实现语义分割,在对各像素的语义特征进行独热编码处理后,可以将离散特征的取值扩展到欧式空间,从而能够更加准确计算特征之间的距离,进而准确得到对应的全局分割结果。
[0086] 同理,各切块图像的语义特征通常是离散的特征值,而在对目标图像进行语义分割时,通常需要计算各切块图像的语义特征之间的距离来实现语义分割,在对各切块图像的语义特征进行独热编码处理后,可以将离散特征的取值扩展到欧式空间,从而能够更加准确计算特征之间的距离,进而准确得到对应的局部分割结果。
[0087] 基于上述任一实施例,本发明还提供一种图像语义分割方法,如图2所示,该方法包括:
[0088] 将待分割的目标图像输入至语义分割模型的特征提取层,由特征提取层基于可形变卷积的特征金字塔网络提取目标图像的多个不同尺度特征,并对多个不同尺度特征进行融合得到目标图像的图像特征。其中,基于可形变卷积的特征金字塔网络在特征金字塔网络的基础上,可以将原始的3×3卷积替换成3×3可形变卷积。
[0089] 然后,将目标图像的图像特征输入至语义分割模型的全局分割层,由全局分割层对目标图像进行语义分割,得到各像素的语义特征,对各像素的语义特征进行独热编码,并基于独热编码后的各像素的语义特征确定各像素属于各语义类别的概率,并以最大概率对应的语义类别作为对应像素的类别,进而得到目标图像的全局分割结果。
[0090] 其中,特征提取层可以基于ResNet(Residual Neural Network)和FPN(feature pyramid networks)构建得到,其输出特征尺寸可以为目标图像的4倍下采样。特征提取层与全局分割层级联,特征分割层的输出通道数可以为2048,全局分割层输出特征的通道数可以与语义类别数相同。
[0091] 将各像素的语义特征以及图像特征输入至局部分割层,由局部分割层首先基于各像素的语义特征以及图像特征确定各切块图像的语义特征,并基于独热编码处理后的各切块图像的语义特征确定局部分割结果。
[0092] 在局部分割结果与全局分割结果不同时,由语义分割模型的结果校正层对图像特征进行下采样至与当前切块图像的语义特征尺寸相同,并对下采样后的图像特征和当前切块图像的语义特征进行注意力计算,确定下一切块图像的语义特征,按照预设规则逐级对下一切块图像的语义特征进行上采样,并以每次上采样后的下一切块图像的语义特征作为当前切块图像的语义特征,直至下一切块图像的语义特征尺寸与目标图像中对应切块图像特征尺寸相同时,将下一切块图像的语义特征作为校正语义特征,并基于校正语义特征,更新全局分割层中对应像素的语义特征,并由全局分割层基于更新后的各像素语义特征确定目标图像的语义分割结果,从而提高语义分割结果的精度。其中,可以将目标图像设置为16×16个切块图像,可以采用双线性插值逐级对下一切块图像的语义特征进行上采样。
[0093] 下面对本发明提供的图像语义分割装置进行描述,下文描述的图像语义分割装置与上文描述的图像语义分割方法可相互对应参照。
[0094] 基于上述任一实施例,本发明还提供一种图像语义分割装置,如图3所示,该装置包括:
[0095] 图像确定单元310,用于确定待分割的目标图像;
[0096] 全局分割单元320,用于基于所述目标图像的图像特征,对所述目标图像进行语义分割,得到所述目标图像中各像素的语义特征,并基于各像素的语义特征确定所述目标图像的全局分割结果;
[0097] 局部分割单元330,用于基于所述图像特征以及各像素的语义特征,确定所述目标图像中各切块图像的语义特征,并基于各切块图像的语义特征确定所述目标图像的局部分割结果;
[0098] 语义分割单元340,用于基于所述全局分割结果,以及所述局部分割结果,确定所述目标图像的语义分割结果。
[0099] 基于上述任一实施例,所述局部分割单元330,包括:
[0100] 初始语义特征确定单元,用于基于所述图像特征以及各像素的语义特征,确定所述目标图像中各切块图像的初始语义特征;
[0101] 语义特征单元,用于对各切块图像的初始语义特征进行注意力计算,得到各切块图像的语义特征。
[0102] 基于上述任一实施例,所述语义分割单元340,包括:
[0103] 校正单元,用于在所述全局分割结果中存在任一切块图像的分割结果与对应的局部分割结果不同时,基于对应切块图像的语义特征以及所述图像特征,确定对应切块图像的校正语义特征;
[0104] 更新单元,用于基于所述校正语义特征,更新所述目标图像中对应像素的语义特征,并基于更新后的各像素语义特征确定所述目标图像的语义分割结果。
[0105] 基于上述任一实施例,所述校正单元,包括:
[0106] 下采样单元,用于对所述图像特征进行下采样至与当前切块图像的语义特征尺寸相同,基于下采样后的图像特征和所述当前切块图像的语义特征,确定下一切块图像的语义特征;
[0107] 上采样单元,用于按照预设规则逐级对所述下一切块图像的语义特征进行上采样,并以每次上采样后的下一切块图像的语义特征作为所述当前切块图像的语义特征,直至所述下一切块图像的语义特征尺寸与所述目标图像中对应切块图像特征尺寸相同时,将所述下一切块图像的语义特征作为所述校正语义特征。
[0108] 基于上述任一实施例,所述下采样单元,用于:
[0109] 对下采样后的图像特征和所述当前切块图像的语义特征进行注意力计算,得到所述下一切块图像的语义特征。
[0110] 基于上述任一实施例,所述装置还包括:
[0111] 提取单元,用于提取所述目标图像的多个不同尺度特征;
[0112] 融合单元,用于基于各不同尺度特征中的语义信息,对各尺度特征进行融合,得到所述目标图像的图像特征。
[0113] 基于上述任一实施例,所述全局分割单元320,用于:
[0114] 对各像素的语义特征进行独热编码处理,并基于独热编码处理后的各像素语义特征确定所述全局分割结果;
[0115] 所述局部分割单元330,包括:
[0116] 对各切块图像的语义特征进行独热编码处理,并基于独热编码处理后的各切块图像的语义特征确定所述局部分割结果。
[0117] 图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、存储器(memory)420、通信接口(Communications Interface)430和通信总线440,其中,处理器410,存储器420,通信接口430通过通信总线440完成相互间的通信。处理器410可以调用存储器420中的逻辑指令,以执行图像语义分割方法,该方法包括:确定待分割的目标图像;基于所述目标图像的图像特征,对所述目标图像进行语义分割,得到所述目标图像中各像素的语义特征,并基于各像素的语义特征确定所述目标图像的全局分割结果;基于所述图像特征以及各像素的语义特征,确定所述目标图像中各切块图像的语义特征,并基于各切块图像的语义特征确定所述目标图像的局部分割结果;基于所述全局分割结果,以及所述局部分割结果,确定所述目标图像的语义分割结果。
[0118] 此外,上述的存储器420中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0119] 另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的图像语义分割方法,该方法包括:确定待分割的目标图像;基于所述目标图像的图像特征,对所述目标图像进行语义分割,得到所述目标图像中各像素的语义特征,并基于各像素的语义特征确定所述目标图像的全局分割结果;基于所述图像特征以及各像素的语义特征,确定所述目标图像中各切块图像的语义特征,并基于各切块图像的语义特征确定所述目标图像的局部分割结果;基于所述全局分割结果,以及所述局部分割结果,确定所述目标图像的语义分割结果。
[0120] 又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的图像语义分割方法,该方法包括:确定待分割的目标图像;基于所述目标图像的图像特征,对所述目标图像进行语义分割,得到所述目标图像中各像素的语义特征,并基于各像素的语义特征确定所述目标图像的全局分割结果;基于所述图像特征以及各像素的语义特征,确定所述目标图像中各切块图像的语义特征,并基于各切块图像的语义特征确定所述目标图像的局部分割结果;基于所述全局分割结果,以及所述局部分割结果,确定所述目标图像的语义分割结果。
[0121] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0122] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0123] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。