融合语义分割的单目测距系统、方法、设备及存储介质转让专利

申请号 : CN201810957944.6

文献号 : CN109253722B

文献日 : 2021-07-02

本发明涉及一种融合语义分割的单目测距方法、系统及设备。接将待测图像输入检测模型进行目标检测，标注出待测图像的目标及承载区，并通过语义分割，输出目标标注区图像及承载区的分割结果，所述检测模型是将标注后的训练样本图像输入至预制的神经网络，基于损失函数训练所得；根据所述目标标注区图像及承载区的分割结果统计承载区的像素信息，将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息；将相接点信息输入小孔成像模型得目标的距离信息。创新性的采用基于深度学习的语义分割技术来寻找目标与承载区的相接点信息，融合语义分割技术定位，解决使用目标检测得到的外接边框无法准确贴合目标外轮廓的问题。

1.一种融合语义分割的单目测距方法，其特征是，包括以下步骤：将待测图像输入检测模型进行目标检测，标注出待测图像的目标及目标的承载区，并通过语义分割，输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果，所述检测模型是对训练样本图像进行目标检测，标注出训练样本图像的目标及目标的承载区，将标注后的训练样本图像输入至预制的神经网络，基于损失函数训练所得；

根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息，将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息；

将所述相接点信息输入小孔成像模型，得目标的距离信息。

2.根据权利要求1所述的融合语义分割的单目测距方法，其特征是，将标注后的训练样本图像输入至预制的神经网络，基于损失函数训练得所述检测模型，包括：将标注后的训练样本图像输入至预制的神经网络，基于最小化损失函数训练得所述检测模型。

3.根据权利要求1所述的融合语义分割的单目测距方法，其特征是，根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息，将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括：对目标标注区图像进行二值化处理，二值化处理后的目标标注区图像中承载区为背景，其他区为前景；

沿二值化处理后的目标标注区图像的垂直方向投影，统计所述目标标注区图像中承载区各行像素的个数，与预设位置阈值比对，沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点，并获取目标与承载区的相接点信息。

4.根据权利要求1所述的融合语义分割的单目测距方法，其特征是，对待测图像或训练样本图像进行目标检测，标注出目标，包括：找出所述图像中的所有的目标，并用最小外接边框标注出所述目标。

5.根据权利要求1‑4任一所述的融合语义分割的单目测距方法，其特征是，目标的承载区为路面区，目标标注区域图像中路面区为前景，其它区作为背景。

6.根据权利要求5所述的融合语义分割的单目测距方法，其特征是，标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、掩模所生成的损失所得。

7.根据权利要求5所述的融合语义分割的单目测距方法，其特征是，沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点，并获取目标与承载区的相接点信息，包括：

沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点，并获取目标与路面区的接地点信息。

8.根据权利要求3或7所述的融合语义分割的单目测距方法，其特征是，将所述相接点信息输入小孔成像模型，得目标的距离信息，包括：将目标与承载区的相接点作为基准点；

根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。

9.一种融合语义分割的单目测距系统，其特征是，包括：目标检测承载区分割单元，配置用于将待测图像输入检测模型进行目标检测，标注出待测图像的目标及目标的承载区，并通过语义分割，输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果，所述检测模型是对训练样本图像进行目标检测，标注出训练样本图像的目标及目标的承载区，将标注后的训练样本图像输入至预制的神经网络，基于损失函数训练所得；

目标与承载区的相接点信息获取单元，配置用于根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息，将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息；

距离信息获取单元，配置用于将所述相接点信息输入小孔成像模型，得目标的距离信息。

10.根据权利要求9所述的融合语义分割的单目测距系统，其特征是，目标检测承载区分割单元还配置用于：

将标注后的训练样本图像输入至预制的神经网络，基于最小化损失函数训练得所述检测模型。

11.根据权利要求9所述的融合语义分割的单目测距系统，其特征是，目标与承载区的相接点信息获取单元还配置用于：对目标标注区图像进行二值化处理，二值化处理后的目标标注区图像中承载区为背景，其他区为前景；

12.根据权利要求9所述的融合语义分割的单目测距系统，其特征是，目标检测承载区分割单元还配置用于：

找出所述图像中的所有的目标，并用最小外接边框标注出所述目标。

13.根据权利要求9‑12任一所述的融合语义分割的单目测距系统，其特征是，目标的承载区为路面区，目标标注区域图像中路面区为前景，其它区作为背景。

14.根据权利要求13所述的融合语义分割的单目测距系统，其特征是，目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、掩模所生成的损失所得。

15.根据权利要求13所述的融合语义分割的单目测距系统，其特征是，目标与承载区的相接点信息获取单元，还配置用于：沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点，并获取目标与路面区的接地点信息。

16.根据权利要求11或15所述的融合语义分割的单目测距系统，其特征是，距离信息获取单元，还配置用于：

将目标与承载区的相接点作为基准点；

根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。

17.一种设备，其特征是，所述设备包括：一个或多个处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1‑8中任一项所述的方法。

18.一种存储有计算机程序的计算机可读存储介质，其特征是，该程序被处理器执行时实现如权利要求1‑8中任一项所述的方法。

融合语义分割的单目测距系统、方法、设备及存储介质

技术领域

[0001] 本发明涉及图像处理和视觉测量领域，尤其涉及一种融合语义分割的单目测距系统、方法、设备及存储介质。

背景技术

[0002] 在视频监控应用场景中，测距是一种比较常见的需求。现有技术中，几乎所有的单目测距方法都是基于针孔成像模型的，通过先验知识对目标进行约束。例如目标在一个固
定高度上(例如在地面上)，或目标的高度或宽度是一个固定值，这样就能够通过模型计算
出目标的真实距离。无论哪种方案，都存在着某一类缺陷。对于前者，待检测的目标的形态
和姿态可能是不固定的，这会导致高度、宽度为固定值的先验性假设失效；对于后者，当地
面不平坦时，固定高度的先验性假设也会失效。在视频监控领域，通常采用后者进行测距。
其一，待测距的对象种类繁多，尺寸不固定，无法满足尺寸固定的假设；其二，对于实际的应
用需求，往往对测距精度也有一定的容忍度，即使地面不平坦，产生的误差也还在可接受的
范围内。

[0003] 单目测距的流程如下：

[0004] 1.采用目标检测的方法找到目标，该目标用boundingbox(最小外接矩形)进行表示

[0005] 2.取目标的boundingbox的底边作为目标的接地点，基于该点利用小孔成像模型计算目标的距离。因此，测距的准确度取决于boundingbox的底边是否贴合目标，底边的位
置产生偏差，也会导致测距产生偏差。

[0006] 随着深度学习技术的兴起，目标检测的精度得到了很大的提升，相比于传统的机器学习方法，深度学习得到的检测目标的boundingbox(最小外接矩形)能够更好的贴合目
标，即使是这样，boundingbox也常常会或大或小的偏离目标真实轮廓。这导致了测距的误
差。

发明内容

[0007] 为了解决上述技术问题，本发明的目的在于提供一种融合语义分割的单目测距方法、系统及设备。

[0008] 根据本发明的一个方面，提供了一种融合语义分割的单目测距方法，包括以下步骤：

[0009] 将待测图像输入检测模型进行目标检测，标注出待测图像的目标及目标的承载区，并通过语义分割，输出待测图像的目标标注区图像及目标标注区图像中承载区的分割
结果，所述检测模型是对训练样本图像进行目标检测，标注出训练样本图像的目标及目标
的承载区，将标注后的训练样本图像输入至预制的神经网络，基于损失函数训练所得；

[0010] 根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息，将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息；

[0011] 将所述相接点信息输入小孔成像模型，得目标的距离信息。

[0012] 进一步，将标注后的训练样本图像输入至预制的神经网络，基于损失函数训练得所述检测模型，包括：

[0013] 将标注后的训练样本图像输入至预制的神经网络，基于最小化损失函数训练得所述检测模型。

[0014] 进一步，根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息，将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包
括：

[0015] 对目标标注区图像进行二值化处理，二值化处理后的目标标注区图像中承载区为背景，其他区为前景；

[0016] 沿二值化处理后的目标标注区图像的垂直方向投影，统计所述目标标注区图像中承载区各行像素的个数，与预设位置阈值比对，沿承载区至目标方向首个超过所述预设位
置阈值的点即为目标与承载区的相接点，并获取目标与承载区的相接点信息。

[0017] 进一步，对待测图像或训练样本图像进行目标检测，标注出目标，包括：

[0018] 找出所述图像中的所有的目标，并用最小外接边框标注出所述目标。

[0019] 进一步，目标的承载区为路面区。

[0020] 进一步，目标标注区域图像中路面区为前景，其它区作为背景。

[0021] 进一步，目标与承载区的相接点信息为目标接地点信息。

[0022] 进一步，最小外接边框为最小外接矩形外框。

[0023] 标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、掩模所生成的损失所得。

[0024] 进一步，标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数Ltotal为：

[0025] Ltotal＝Lcls+Lbox+Lmask

[0026] Lcls为目标分类的损失函数，定义为：

[0027] Lcls(p,u)＝log(pu)，

[0028] 其中，

[0029] u为目标的真实类别，

[0030] p为目标真实类别所对应的目标概率，

[0031] pu为目标被预测为u类的概率，

[0032] Lbox为最小外接矩形外框的损失函数，定义为：

[0033]

[0034] 其中，

[0035] tu为预测最小外接矩形外框的平移缩放参数，

[0036] u为索引号，

[0037]

[0038] v为对应的真实最小外接矩形外框的平移缩放参数，

[0039] v＝(vx,vy,vw,vh)，

[0040] SmoothL1为鲁棒的损失函数，定义为：

[0041]

[0042] Lmask为mask的损失函数，定义为：

[0043]

[0044] 其中，

[0045] Si为像素i对应的真实的mask标签，

[0046] 为像素i所对应的mask属性的softmax输出,

[0047] N为最小外接矩形外框内的像素总数。

[0048] 进一步，沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点，并获取目标与承载区的相接点信息，包括：

[0049] 沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点，并获取目标与路面区的接地点信息。

[0050] 进一步，将所述相接点信息输入小孔成像模型，得目标的距离信息，包括：

[0051] 将目标与承载区的相接点作为基准点；

[0052] 根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。

[0053] 进一步，目标距离的计算公式为：

[0054]

[0055] 其中，

[0056] M为R|T矩阵，

[0057] A为相机内参，

[0058] (u,v)为像素坐标系中的坐标，

[0059] Xw，Yw分别为世界坐标系下坐标，

[0060] 可得到最终距离

[0061] 根据本发明的另一个方面，提供了一种融合语义分割的单目测距系统，包括：

[0062] 目标检测承载区分割单元，配置用于将待测图像输入检测模型进行目标检测，标注出待测图像的目标及目标的承载区，并通过语义分割，输出待测图像的目标标注区图像
及目标标注区图像中承载区的分割结果，所述检测模型是对训练样本图像进行目标检测，
标注出训练样本图像的目标及目标的承载区，将标注后的训练样本图像输入至预制的神经
网络，基于损失函数训练所得；

[0063] 目标与承载区的相接点信息获取单元，配置用于根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息，将承载区像素信息与预设位置阈
值比对得出目标与承载区的相接点信息；

[0064] 距离信息获取单元，配置用于将所述相接点信息输入小孔成像模型，得目标的距离信息。

[0065] 进一步，目标检测承载区分割单元还配置用于：

[0066] 将标注后的训练样本图像输入至预制的神经网络，基于最小化损失函数训练得所述检测模型。

[0067] 进一步，目标与承载区的相接点信息获取单元还配置用于：

[0068] 对目标标注区图像进行二值化处理，二值化处理后的目标标注区图像中承载区为背景，其他区为前景；

[0069] 沿二值化处理后的目标标注区图像的垂直方向投影，统计所述目标标注区图像中承载区各行像素的个数，与预设位置阈值比对，沿承载区至目标方向首个超过所述预设位
置阈值的点即为目标与承载区的相接点，并获取目标与承载区的相接点信息。

[0070] 进一步，目标检测承载区分割单元还配置用于：

[0071] 找出所述图像中的所有的目标，并用最小外接边框标注出所述目标。

[0072] 进一步，目标的承载区为路面区。

[0073] 进一步，目标标注区域图像中路面区为前景，其它区作为背景。

[0074] 进一步，目标与承载区的相接点信息为目标接地点信息。

[0075] 进一步，最小外接边框为最小外接矩形外框。

[0076] 进一步，目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、掩模
所生成的损失所得。

[0077] 进一步，目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数Ltotal为：

[0078] Ltotal＝Lcls+Lbox+Lmask

[0079] Lcls为目标分类的损失函数，定义为：

[0080] Lcls(p,u)＝log(pu)，

[0081] 其中，

[0082] u为目标的真实类别，

[0083] p为目标真实类别所对应的目标概率，

[0084] pu为目标被预测为u类的概率，

[0085] Lbox为最小外接矩形外框的损失函数，定义为：

[0086]

[0087] 其中，

[0088] tu为预测最小外接矩形外框的平移缩放参数，

[0089] u为索引号，

[0090]

[0091] v为对应的真实最小外接矩形外框的平移缩放参数，

[0092] v＝(vx,vy,vw,vh)，

[0093] SmoothL1为鲁棒的损失函数，定义为：

[0094]

[0095] Lmask为mask的损失函数，定义为：

[0096]

[0097] 其中，

[0098] Si为像素i对应的真实的mask标签，

[0099] 为像素i所对应的mask属性的softmax输出,

[0100] N为最小外接矩形外框内的像素总数。

[0101] 进一步，目标与承载区的相接点信息获取单元，还配置用于：

[0102] 沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点，并获取目标与路面区的接地点信息。

[0103] 进一步，距离信息获取单元，还配置用于：

[0104] 将目标与承载区的相接点作为基准点；

[0105] 根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。

[0106] 进一步，距离信息获取单元，还配置目标距离计算公式：

[0107]

[0108] 其中，

[0109] M为R|T矩阵，

[0110] A为相机内参，

[0111] (u,v)为像素坐标系中的坐标，

[0112] Xw，Yw分别为世界坐标系下坐标，

[0113] 可得到最终距离

[0114] 根据本发明的另一个方面，提供了一种设备，所述设备包括：

[0115] 一个或多个处理器；

[0116] 存储器，用于存储一个或多个程序，

[0117] 当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上任一项所述的方法。

[0118] 根据本发明的另一个方面，提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上任一项所述的方法。

[0119] 与现有技术相比，本发明具有以下有益效果：

[0120] 1、本发明示例的融合语义分割的单目测距方法，创新性的采用基于深度学习的语义分割技术来寻找目标与承载区的相接点信息，融合语义分割技术定位，解决使用目标检
测得到的外接边框无法准确贴合目标外轮廓的问题，相比于仅通过包含区域的最小矩形或
其他基于图像处理的方法，精度更高，鲁棒性更强，从而使最终获取的目标实际距离精确。

[0121] 2、本发明示例的融合语义分割的单目测距系统，各个单元相互配合，通过融合语义分割技术定位目标与承载区的相接点，精确获取目标的实际距离。

[0122] 3、本发明示例的登录异常检测设备、通过存储有计算机程序的计算机可读介质,创新性的采用基于深度学习的语义分割技术来寻找目标与承载区的相接点信息，融合语义
分割技术定位，解决使用目标检测得到的外接边框无法准确贴合目标外轮廓的问题，精确
获取目标实际距离。

附图说明

[0123] 图1为本发明流程图。

具体实施方式

[0124] 为了更好的了解本发明的技术方案，下面结合具体实施例、说明书附图对本发明作进一步说明。

[0125] 实施例一：

[0126] 本实施例提供了一种融合语义分割的单目测距方法，包括以下步骤：

[0127] S1、将待测图像输入检测模型进行目标检测，标注出待测图像的目标及目标的承载区，并通过语义分割，输出待测图像的目标标注区图像及目标标注区图像中承载区的分
割结果，所述检测模型是对训练样本图像进行目标检测，标注出训练样本图像的目标及目
标的承载区，将标注后的训练样本图像输入至预制的神经网络，基于损失函数训练所得。

[0128] 将标注后的训练样本图像输入至预制的神经网络，基于损失函数训练得所述检测模型，包括：

[0129] 将标注后的训练样本图像输入至预制的神经网络，基于最小化损失函数训练得所述检测模型。

[0130] 对待测图像或训练样本图像进行目标检测，标注出目标，包括：

[0131] 找出所述图像中的所有的目标，并用最小外接边框标注出所述目标。

[0132] S2、根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息，将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息。

[0133] 根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息，将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括：

[0134] 对目标标注区图像进行二值化处理，二值化处理后的目标标注区图像中承载区为背景，其他区为前景；

[0135] 沿二值化处理后的目标标注区图像的垂直方向投影，统计所述目标标注区图像中承载区各行像素的个数，与预设位置阈值比对，沿承载区至目标方向首个超过所述预设位
置阈值的点即为目标与承载区的相接点，并获取目标与承载区的相接点信息。

[0136] S3、将所述相接点信息输入小孔成像模型，得目标的距离信息。

[0137] 上述目标的承载区为路面区。

[0138] 目标标注区域图像中路面区为前景，其它区作为背景。

[0139] 目标与承载区的相接点信息为目标接地点信息。

[0140] 最小外接边框为最小外接矩形外框。

[0141] S1中标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、mask(掩模)所生成的损失所得。

[0142] 标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数Ltotal为：

[0143] Ltotal＝Lcls+Lbox+Lmask

[0144] Lcls为目标分类的损失函数，定义为：

[0145] Lcls(p,u)＝log(pu)，

[0146] 其中，

[0147] u为目标的真实类别，

[0148] p为目标真实类别所对应的目标概率，

[0149] pu为目标被预测为u类的概率，

[0150] Lbox为最小外接矩形外框的损失函数，定义为：

[0151]

[0152] 其中，

[0153] tu为预测最小外接矩形外框的平移缩放参数，

[0154] u为索引号，

[0155]

[0156] v为对应的真实最小外接矩形外框的平移缩放参数，

[0157] v＝(vx,vy,vw,vh)，

[0158] SmoothL1为鲁棒的损失函数，定义为：

[0159]

[0160] Lmask为mask的损失函数，定义为：

[0161]

[0162] 其中，

[0163] Si为像素i对应的真实的mask标签，

[0164] 为像素i所对应的mask属性的softmax输出,

[0165] N为最小外接矩形外框内的像素总数。

[0166] 沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点，并获取目标与承载区的相接点信息，包括：

[0167] 沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点，并获取目标与路面区的接地点信息。

[0168] 将所述相接点信息输入小孔成像模型，得目标的距离信息，包括：

[0169] 将接地点作为基准点；

[0170] 根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。

[0171] 目标距离的计算公式为：

[0172]

[0173] 其中，

[0174] M为R|T矩阵，

[0175] A为相机内参，

[0176] (u,v)为像素坐标系中的坐标，

[0177] Xw，Yw分别为世界坐标系下坐标，

[0178] 可得到最终距离

[0179] 上述融合语义分割的单目测距方法步骤具体为：

[0180] 1、使用语义分割寻找接地点。该步骤可以分拆为三个子功能，目标检测、路面分割及接地点搜索。对于目标检测和路面分割，本实施例具体提供了一种end‑to‑end(端到端)
的网络结构同时进行目标检测和路面分割，同时实现了目标检测和路面分割功能。

[0181] (1)训练数据集准备阶段，标注训练样本图像每一个目标的boundingbox(最小外接矩形外框)，以及图像中的路面区。加载数据时，对于单个目标，将boundingbox中的路面
作为前景，其它区域作为背景。即输入设计网络的所述图像包含最小外接矩形标注以及矩
形框内部的路面区标注。

[0182] (2)设计网络时，基础网络采用经典VGG16，在VGG16中添加一个mask分支。

[0183] 其中，Ltotal为总的损失函数，定义为：

[0184] Ltotal＝Lcls+Lbox+Lmask

[0185] Lcls为目标分类的损失函数，定义为：

[0186] Lcls(p,u)＝log(pu)

[0187] Lbox为boundingbox的损失函数，定义为：

[0188]

[0189] 其中，SmoothL1定义为：

[0190]

[0191] Lmask为mask的损失函数，定义为：

[0192]

[0193] 其中，为像素i所对应的mask属性的softmax输出。

[0194] 通过上述网络结构及损失函数训练后，将待测图像输入，该网络可以输出待测图像目标的Boundingbox以及内部的局部Segmentation(即输出boundingbox内部的路面分割
结果)。

[0195] 该网络包括目标检测分支和mask分支，其中，

[0196] 训练阶段，目标检测分支和mask分支为并行关系，基于标注数据，使用随机梯度下降法最小化损失函数，得到最终的检测模型。

[0197] 检测阶段，目标检测分支和mask分支为串联关系，目标检测分支检测并输出目标的boundingbox，并作为mask分支的输入，由mask分支在该boundingbox内部生成路面的分
割图像。

[0198] (3)对于待测图像的每一个目标，将Boundingbox内的Segmentation进行二值化，路面区域为背景，非路面区域为前景之后，在垂直方向进行投影，统计每一行前景像素的个
数，之后自底向上进行搜索，找到第一个大于设定阈值threshold的坐标，该坐标即为目标
的接地点。该阈值一般取boundingbox*0.1个像素。

[0199] 2、使用小孔成像模型，将接地点作为基准点(假设Zw为0)，可以得到实际距离。计算公式如下：

[0200]

[0201] 其中，M为R|T矩阵，A为相机内参，(u,v)为像素坐标系中的坐标，Xw，Yw分别为世界坐标系下坐标。可得到最终距离

[0202] 本实施例提供一种融合语义分割的单目测距系统，包括：

[0203] 目标检测承载区分割单元，配置用于：

[0204] 将待测图像输入检测模型进行目标检测，标注出待测图像的目标及目标的承载区，并通过语义分割，输出待测图像的目标标注区图像及目标标注区图像中承载区的分割
结果，所述检测模型是对训练样本图像进行目标检测，标注出训练样本图像的目标及目标
的承载区，将标注后的训练样本图像输入至预制的神经网络，基于损失函数训练所得；

[0205] 还配置用于：

[0206] 将标注后的训练样本图像输入至预制的神经网络，基于最小化损失函数训练得所述检测模型。

[0207] 还配置用于：

[0208] 找出所述图像中的所有的目标，并用最小外接边框标注出所述目标。

[0209] 目标与承载区的相接点信息获取单元，配置用于：

[0210] 根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息，将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息；

[0211] 还配置用于：

[0212] 对目标标注区图像进行二值化处理，二值化处理后的目标标注区图像中承载区为背景，其他区为前景；

[0213] 沿二值化处理后的目标标注区图像的垂直方向投影，统计所述目标标注区图像中承载区各行像素的个数，与预设位置阈值比对，沿承载区至目标方向首个超过所述预设位
置阈值的点即为目标与承载区的相接点，并获取目标与承载区的相接点信息。

[0214] 距离信息获取单元，配置用于将所述相接点信息输入小孔成像模型，得目标的距离信息。

[0215] 当目标的承载区为路面区时。

[0216] 目标标注区域图像中路面区为前景，其它区作为背景。

[0217] 目标与承载区的相接点信息为目标接地点信息。

[0218] 最小外接边框为最小外接矩形外框。

[0219] 目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、mask所生成
的损失所得。

[0220] 目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数Ltotal为：

[0221] Ltotal＝Lcls+Lbox+Lmask

[0222] Lcls为目标分类的损失函数，定义为：

[0223] Lcls(p,u)＝log(pu)，

[0224] 其中，

[0225] u为目标的真实类别，

[0226] p为目标真实类别所对应的目标概率，

[0227] pu为目标被预测为u类的概率，

[0228] Lbox为最小外接矩形外框的损失函数，定义为：

[0229]

[0230] 其中，

[0231] tu为预测最小外接矩形外框的平移缩放参数，

[0232] u为索引号，

[0233]

[0234] v为对应的真实最小外接矩形外框的平移缩放参数，

[0235] v＝(vx,vy,vw,vh)，

[0236] SmoothL1为鲁棒的损失函数，定义为：

[0237]

[0238] Lmask为mask的损失函数，定义为：

[0239]

[0240] 其中，

[0241] Si为像素i对应的真实的mask标签，

[0242] 为像素i所对应的mask属性的softmax输出,

[0243] N为最小外接矩形外框内的像素总数。

[0244] 目标与承载区的相接点信息获取单元，还配置用于：

[0245] 沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点，并获取目标与路面区的接地点信息。

[0246] 距离信息获取单元，还配置用于：

[0247] 将接地点作为基准点；

[0248] 根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。

[0249] 距离信息获取单元，还配置目标距离计算公式：

[0250]

[0251] 其中，

[0252] M为R|T矩阵，

[0253] A为相机内参，

[0254] (u,v)为像素坐标系中的坐标，

[0255] Xw，Yw分别为世界坐标系下坐标，

[0256] 可得到最终距离

[0257] 本实施例还提供了一种设备，所述设备包括：

[0258] 一个或多个处理器；

[0259] 存储器，用于存储一个或多个程序，

[0260] 当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上任一项所述的方法。

[0261] 本实施例还提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上任一项所述的方法。

[0262] 实施例二

[0263] 本实施例与实施例一相同的特征不再赘述，本实施例与实施例一不同的特征在于：

[0264] 本实施例提供了一种融合语义分割的单目测距方法，包括以下步骤：

[0265] S1、将待测图像输入检测模型进行目标检测，标注出待测图像的目标及目标的承载区，并通过语义分割，输出待测图像的目标标注区图像及目标标注区图像中承载区的分
割结果，所述检测模型是对训练样本图像进行目标检测，标注出训练样本图像的目标及目
标的承载区，将标注后的训练样本图像输入至预制的神经网络，基于损失函数训练所得。

[0266] 将标注后的训练样本图像输入至预制的神经网络，基于损失函数训练得所述检测模型，包括：

[0267] 将标注后的训练样本图像输入至预制的神经网络，基于最小化损失函数训练得所述检测模型。

[0268] 对待测图像或训练样本图像进行目标检测，标注出目标，包括：

[0269] 找出所述图像中的所有的目标，并用最小外接边框标注出所述目标。

[0270] S2、根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息，将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息。

[0271] 根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息，将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括：

[0272] 对目标标注区图像进行二值化处理，二值化处理后的目标标注区图像中承载区为背景，其他区为前景；

[0273] 沿二值化处理后的目标标注区图像的垂直方向投影，统计所述目标标注区图像中承载区各行像素的个数，与预设位置阈值比对，沿承载区至目标方向首个超过所述预设位
置阈值的点即为目标与承载区的相接点，并获取目标与承载区的相接点信息。

[0274] S3、将所述相接点信息输入小孔成像模型，得目标的距离信息。

[0275] 最小外接边框为最小外接矩形外框。

[0276] S1中标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。

[0277] 标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数Ltotal为：

[0278] Ltotal＝Lcls+Lbox+Lmask

[0279] Lcls为目标分类的损失函数，定义为：

[0280] Lcls(p,u)＝log(pu)，

[0281] 其中，

[0282] u为目标的真实类别，

[0283] p为目标真实类别所对应的目标概率，

[0284] pu为目标被预测为u类的概率，

[0285] Lbox为最小外接矩形外框的损失函数，定义为：

[0286]

[0287] 其中，

[0288] tu为预测最小外接矩形外框的平移缩放参数，

[0289] u为索引号，

[0290]

[0291] v为对应的真实最小外接矩形外框的平移缩放参数，

[0292] v＝(vx,vy,vw,vh)，

[0293] SmoothL1为鲁棒的损失函数，定义为：

[0294]

[0295] Lmask为mask的损失函数，定义为：

[0296]

[0297] 其中，

[0298] Si为像素i对应的真实的mask标签，

[0299] 为像素i所对应的mask属性的softmax输出,

[0300] N为最小外接矩形外框内的像素总数。

[0301] 将所述相接点信息输入小孔成像模型，得目标的距离信息，包括：

[0302] 将目标与承载区的相接点作为基准点；

[0303] 根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。

[0304] 目标距离的计算公式为：

[0305]

[0306] 其中，

[0307] M为R|T矩阵，

[0308] A为相机内参，

[0309] (u,v)为像素坐标系中的坐标，

[0310] Xw，Yw分别为世界坐标系下坐标，

[0311] 可得到最终距离

[0312] 上述融合语义分割的单目测距方法步骤具体为：

[0313] 1、使用语义分割寻找接地点。该步骤可以分拆为三个子功能，目标检测、承载区分割及接地点搜索。对于目标检测和承载区分割，我们设计了一种end‑to‑end(端到端)的网
络结构同时进行目标检测和承载区分割，同时实现了目标检测和承载区分割功能。

[0314] (1)训练数据集准备阶段，标注训练样本图像每一个目标的boundingbox(最小外接矩形外框)，以及图像中的承载区。加载数据时，对于单个目标，将boundingbox中的承载
区作为前景，其它区域作为背景。即输入设计网络的所述图像包含最小外接矩形标注以及
矩形框内部的承载区标注。

[0315] (2)设计网络时，基础网络采用经典VGG16，在VGG16中添加一个mask分支。

[0316] 其中，Ltotal为总的损失函数，定义为：

[0317] Ltotal＝Lcls+Lbox+Lmask

[0318] Lcls为目标分类的损失函数，定义为：

[0319] Lcls(p,u)＝log(pu)

[0320] Lbox为boundingbox的损失函数，定义为：

[0321]

[0322] 其中，SmoothL1定义为：

[0323]

[0324] Lmask为mask的损失函数，定义为：

[0325]

[0326] 其中，为像素i所对应的mask属性的softmax输出。

[0327] 通过上述网络结构及损失函数训练后，将待测图像输入，该网络可以输出待测图像目标的Boundingbox以及内部的局部Segmentation(即输出boundingbox内部的承载区分
割结果)。

[0328] 该网络包括目标检测分支和mask分支，其中，

[0329] 训练阶段，目标检测分支和mask分支为并行关系，基于标注数据，使用随机梯度下降法最小化损失函数，得到最终的检测模型。

[0330] 检测阶段，目标检测分支和mask分支为串联关系，目标检测分支检测并输出目标的boundingbox，并作为mask分支的输入，由mask分支在该boundingbox内部生成承载区的
分割图像。

[0331] (3)对于待测图像的每一个目标，将Boundingbox内的Segmentation进行二值化，承载区为背景，非承载区为前景之后，在垂直方向进行投影，统计每一行前景像素的个数，
之后自底向上进行搜索，找到第一个大于设定阈值threshold的坐标，该坐标即为目标的接
地点。该阈值一般取boundingbox*0.1个像素。

[0332] 2、使用小孔成像模型，将目标与承载区相接点作为基准点(假设Zw为0)，可以得到实际距离。计算公式如下：

[0333]

[0334] 其中，M为R|T矩阵，A为相机内参，(u,v)为像素坐标系中的坐标，Xw，Yw分别为世界坐标系下坐标。可得到最终距离

[0335] 本实施例提供一种融合语义分割的单目测距系统，包括：

[0336] 目标检测承载区分割单元，配置用于：

[0337] 将待测图像输入检测模型进行目标检测，标注出待测图像的目标及目标的承载区，并通过语义分割，输出待测图像的目标标注区图像及目标标注区图像中承载区的分割
结果，所述检测模型是对训练样本图像进行目标检测，标注出训练样本图像的目标及目标
的承载区，将标注后的训练样本图像输入至预制的神经网络，基于损失函数训练所得；

[0338] 还配置用于：

[0339] 将标注后的训练样本图像输入至预制的神经网络，基于最小化损失函数训练得所述检测模型。

[0340] 还配置用于：

[0341] 找出所述图像中的所有的目标，并用最小外接边框标注出所述目标。

[0342] 目标与承载区的相接点信息获取单元，配置用于：

[0343] 根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息，将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息；

[0344] 还配置用于：

[0345] 对目标标注区图像进行二值化处理，二值化处理后的目标标注区图像中承载区为背景，其他区为前景；

[0346] 沿二值化处理后的目标标注区图像的垂直方向投影，统计所述目标标注区图像中承载区各行像素的个数，与预设位置阈值比对，沿承载区至目标方向首个超过所述预设位
置阈值的点即为目标与承载区的相接点，并获取目标与承载区的相接点信息。

[0347] 距离信息获取单元，配置用于将所述相接点信息输入小孔成像模型，得目标的距离信息。

[0348] 最小外接边框为最小外接矩形外框。

[0349] 目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、mask所生成
的损失所得。

[0350] 目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数Ltotal为：

[0351] Ltotal＝Lcls+Lbox+Lmask

[0352] Lcls为目标分类的损失函数，定义为：

[0353] Lcls(p,u)＝log(pu)，

[0354] 其中，

[0355] u为目标的真实类别，

[0356] p为目标真实类别所对应的目标概率，

[0357] pu为目标被预测为u类的概率，

[0358] Lbox为最小外接矩形外框的损失函数，定义为：

[0359]

[0360] 其中，

[0361] tu为预测最小外接矩形外框的平移缩放参数，

[0362] u为索引号，

[0363]

[0364] v为对应的真实最小外接矩形外框的平移缩放参数，

[0365] v＝(vx,vy,vw,vh)，

[0366] SmoothL1为鲁棒的损失函数，定义为：

[0367]

[0368] Lmask为mask的损失函数，定义为：

[0369]

[0370] 其中，

[0371] Si为像素i对应的真实的mask标签，

[0372] 为像素i所对应的mask属性的softmax输出,

[0373] N为最小外接矩形外框内的像素总数。

[0374] 距离信息获取单元，还配置用于：

[0375] 将目标与承载区的相接点作为基准点；

[0376] 根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。

[0377] 距离信息获取单元，还配置目标距离计算公式：

[0378]

[0379] 其中，

[0380] M为R|T矩阵，

[0381] A为相机内参，

[0382] (u,v)为像素坐标系中的坐标，

[0383] Xw，Yw分别为世界坐标系下坐标，

[0384] 可得到最终距离

[0385] 以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术
方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行
任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功
能。

融合语义分割的单目测距系统、方法、设备及存储介质转让专利

申请号 : CN201810957944.6

文献号 : CN109253722B

文献日 : 2021-07-02

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 胡志恒 , 宋翔 , 杨小平

申请人 : 顺丰科技有限公司

摘要 :

权利要求 :

说明书 :