一种用于水面和水坑检测的盲人辅助眼镜转让专利

申请号 : CN201810532878.8

文献号 : CN108761843B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨恺伦程瑞琦汪凯巍

申请人 : 杭州视氪科技有限公司

摘要 :

本发明公开了一种水面和水坑检测的盲人辅助眼镜。利用两个彩色相机和两个线偏振片采集图像,利用小型处理器对采集的图像进行处理,输出图像中水面的区域。该方法能够同时检测大型水面和小型路面水坑,具有统一性高,实时性高,不需要特定假设的优点,可以很好地满足视障人士在出行中避开水面和水坑的要求。

权利要求 :

1.一种水面和水坑检测的盲人辅助眼镜,其特征在于,包括眼镜本体,嵌入式安装在其中一个镜腿内的小型处理器和电池模块,固定在镜框上方的两个相机,以及设置在镜腿尾部的耳机模块;两个彩色相机同高,且光轴相互平行,两个相机前端均设置有偏振片的彩色相机,两个偏振片的偏振方向相互垂直;所述小型处理器中存储有包含有一个训练好的神经网络;相机、骨传导耳机分别与小型处理器相连,电池模块与小型处理器相连,相机实时地采集周围场景的彩色图像,小型处理器利用神经网络模型对彩色图像Color进行处理,得到语义分割图像Semantics,获取被分割出的水面区域和路面可通行区域,进一步根据偏振差分值,检测出水坑;小型处理器将检测结果转化为声音信号,并传给耳机模块,告知用户;

所述的神经网络通过以下方法训练得到:

从大型的语义分割数据集中获取训练数据集,包括m张彩色图像Color与其一一对应的m张标记图像Label,所述对应关系如下:标记图像Label中的像素单元与彩色图像Color中的像素单元一一对应,标记图像Label中的像素单元标记彩色图像Color中的像素单元的语义标号;m≥10000;所述像素单元为:来源于同一物体的所有像素点组成的单元,同一类别的物体用一语义标号进行标识;

以彩色图像Color为输入,标记图像Label为输出,对语义分割模型进行训练,得到预先训练的神经网络模型;所述语义分割模型是基于神经网络的,神经网络模型的每一层网络如下表所示:将待检测的彩色图像Color输入神经网络模型后,第19层得到的输出特征图即为各个类别的概率图,通过argmax函数即可得到语义分割图像Semantics。

2.根据权利要求1所述的盲人辅助眼镜,其特征在于,检测流程如下:

(1)通过两个前端设置有偏振片的彩色相机,分别获取一彩色图像;

(2)将其中一个彩色图像输入到预先训练的神经网络模型,得到语义分割图像Semantics;

(3)对语义分割图像Semantics进行处理,获取被分割出的水面区域和路面可通行区域,对路面可通行区域中任一像素点(u,v),计算该像素点在偏振差分图像Polarization中的偏振差分值polarization,若polarization大于阈值PolarizationThreshold,则该点为水坑;

所述偏振差分值polarization的计算方法如下:

(3.1)对两个彩色图像行双目立体匹配,获取一幅视差图像Disparity;

(3.2)从另一个彩色图像中找到对应于像素点(u,v)的对应点(u′,v),满足u-u′=disparity,disparity为视差图像Disparity中像素点(u,v)的视差值;

(3.3)计算像素点(u,v)、(u′,v)的亮度值,分别为VL(u,v),VR(u′,v);偏振差分值polarization为|VL(u,v)-VR(u′,v)|。

3.根据权利要求1所述的盲人辅助眼镜,其特征在于,所述一维分解瓶颈层通过使用3×1的卷积核和1×3的卷积核进行交替卷积,并采用线性整流函数ReLU作为激活函数,最后通过残差式联结,形成一个整体的一维分解瓶颈层。

4.根据权利要求1所述的盲人辅助眼镜,其特征在于,从9到16层的一维分解瓶颈层中的卷积均采用扩张卷积完成,扩张卷积率分别为2,4,8,16,2,4,8,2。

5.根据权利要求1所述的盲人辅助眼镜,其特征在于,所述下采样层通过使用3×3的卷积核输出的与经过最大池化的特征图,进行级联,输出下采样的特征图。

6.根据权利要求1所述的盲人辅助眼镜,其特征在于,所述上采样层采用双线性插值完成。

说明书 :

一种用于水面和水坑检测的盲人辅助眼镜

技术领域

[0001] 本发明属于偏振成像技术、立体视觉技术、模式识别技术、图像处理技术、计算机视觉技术领域,涉及一种水面和水坑检测的盲人辅助眼镜。

背景技术

[0002] 视觉信息是人类识别周围环境的最重要信息来源,人类获得的信息80%左右是从视觉系统输入的。根据世界卫生组织统计,全世界有2.53亿视觉障碍人士。视障人士损失了正常的视觉,对颜色、形状的理解很困难。现在,他们中的许多人使用白手杖或导盲犬协助自己的日常生活。白手杖不足以在旅行期间解决所有的困难。导盲犬可以引导视障人士以避免在道路上行走时的危险,但是因为训练导盲犬需要很大的成本,它们不能用于所有视觉障碍者。因此,手杖、导盲犬等传统工具无法为他们出行提供充分的协助。自从各种电子出行辅助(ETA)设备开发以来,已被视为一种辅助视障者在不同情况下出行的有效的方法。为了帮助用户找到通路,许多辅助系统部署深度相机来检测可及的路径和障碍,也有很多辅助系统针对盲人辅助实现了楼梯检测、行人检测、车辆检测等。但是并没有方法帮助盲人在出行中避开水面或水坑的危险区域。因此,一个能够将水面和水坑检测统一在一个框架下同时完成检测,并且能够实现实时运行和快速输出的方法被迫切需要。

发明内容

[0003] 本发明的目的在于针对先有技术的不足,提供一种水面和水坑检测的盲人辅助眼镜。
[0004] 本发明的目的是通过以下技术方案实现的:一种水面和水坑检测的盲人辅助眼镜,包括眼镜本体,嵌入式安装在其中一个镜腿内的小型处理器和电池模块,固定在镜框上方的两个个相机,以及设置在镜腿尾部的耳机模块;两个彩色相机同高,且光轴相互平行,两个相机前端均设置有偏振片的彩色相机,两个偏振片的偏振方向相互垂直。所述小型处理器中存储有包含有一个训练好的神经网络;相机、骨传导耳机分别与小型处理器相连,电池模块与小型处理器相连,相机实时地采集周围场景的彩色图像,小型处理器利用神经网络模型对彩色图像Color进行处理,得到语义分割图像Semantics,获取被分割出的水面区域和路面可通行区域,进一步根据偏振差分值,检测出水坑;小型处理器将检测结果转化为声音信号,并传给耳机模块,告知用户。
[0005] 所述的神经网络通过以下方法训练得到:
[0006] 从大型的语义分割数据集中获取训练数据集,包括m张彩色图像Color与其一一对应的m张标记图像Label,所述对应关系如下:标记图像Label中的像素单元与彩色图像Color中的像素单元一一对应,标记图像Label中的像素单元标记彩色图像Color中的像素单元的语义标号。m≥10000。所述像素单元为:来源于同一物体的所有像素点组成的单元,同一类别的物体用一语义标号进行标识。
[0007] 以彩色图像Color为输入,标记图像Label为输出,对语义分割模型进行训练,所述基于神经网络的语义分割模型中每一层网络如下表所示,得到预先训练的神经网络模型。
[0008]层号 类型 输出特征图的维数 输出特征图的分辨率
1 下采样层 16 320×240
2 下采样层 64 160×120
3-7 一维分解瓶颈层 64 160×120
8 下采样层 128 80×60
9 一维分解瓶颈层(扩张卷积率2) 128 80×60
10 一维分解瓶颈层(扩张卷积率4) 128 80×60
11 一维分解瓶颈层(扩张卷积率8) 128 80×60
12 一维分解瓶颈层(扩张卷积率16) 128 80×60
13 一维分解瓶颈层(扩张卷积率2) 128 80×60
14 一维分解瓶颈层(扩张卷积率4) 128 80×60
15 一维分解瓶颈层(扩张卷积率8) 128 80×60
16 一维分解瓶颈层(扩张卷积率2) 128 80×60
17a 第16层输出的原始特征图 128 80×60
17b 第16层输出的原始特征图的池化和卷积 32 80×60
17c 第16层输出的原始特征图的池化和卷积 32 40×30
17d 第16层输出的原始特征图的池化和卷积 32 20×15
17e 第16层输出的原始特征图的池化和卷积 32 10×8
17f 第17a-17e层的上采样和级联 256 80×60
18 卷积层 地形和目标类别数 80×60
19 上采样层 地形和目标类别数 640×480
[0009] 将待检测的彩色图像Color输入神经网络模型后,第19层得到的输出特征图即为各个类别的概率图,通过argmax函数即可得到语义分割图像Semantics。
[0010] 进一步地,检测流程如下:
[0011] (1)通过两个前端设置有偏振片的彩色相机,分别获取一彩色图像。
[0012] (2)将其中一个彩色图像输入到预先训练的神经网络模型,得到语义分割图像Semantics;
[0013] (3)对语义分割图像Semantics进行处理,获取被分割出的水面区域和路面可通行区域,对路面可通行区域中任一像素点(u,v),计算该像素点在偏振差分图像Polarization中的偏振差分值polarization,若polarization大于阈值PolarizationThreshold,则该点为水坑。
[0014] 所述偏振差分值polarization的计算方法如下:
[0015] (3.1)对两个彩色图像行双目立体匹配,获取一幅视差图像Disparity;
[0016] (3.2)从另一个彩色图像中找到对应于像素点(u,v)的对应点(u′,v),满足u-u′=disparity,disparity为视差图像Disparity中像素点(u,v)的视差值;
[0017] (3.3)计算像素点(u,v)、(u′,v)的亮度值,分别为VL(u,v),VR(u′,v);偏振差分值polarization为|VL(u,v)-VR(u′,v)|。
[0018] 进一步地,所述一维分解瓶颈层通过使用3×1的卷积核和1×3的卷积核进行交替卷积,并采用线性整流函数ReLU作为激活函数,最后通过残差式联结,形成一个整体的一维分解瓶颈层。
[0019] 进一步地,从9到16层的一维分解瓶颈层中的卷积均采用扩张卷积完成,扩张卷积率分别为2,4,8,16,2,4,8,2。
[0020] 进一步地,所述下采样层通过使用3×3的卷积核输出的与经过最大池化的特征图,进行级联,输出下采样的特征图。
[0021] 进一步地,所述上采样层采用双线性插值完成。
[0022] 本发明的有益效果主要在于:
[0023] 统一性高。本发明由于集合了偏振差分方法和基于神经网络的语义分割方法,可以同时获取图像中的大型水面区域和小型水坑区域。
[0024] 实时性高。本发明的语义分割模型由于采用一维分解瓶颈层的堆叠来完成特征图的提取,最大化的节省了达到相同精度需要的残差层数目,因此可以支持高实时性的语义分割和检测。本发明的偏振差分检测方法,只需要双目图像匹配技术和偏振差分技术,可以支持高实时性的输出。
[0025] 不需要特定假设。本发明由于采用基于神经网络的语义分割方法,可以直接从原始数据中提取特征,不需要基于特定假设完成检测。
[0026] 环境适应性好。本发明相比可以同时检测大型水面与小型水坑,相比现有盲人辅助工具,可以支持晴天、阴雨天等不同天气的出行。

附图说明

[0027] 图1为辅助眼镜的结构示意图;
[0028] 图2为模块连接示意图;
[0029] 图3-图7为案例1的图像,其中,
[0030] 图3左为左彩色图像;右为右彩色图像;
[0031] 图4为语义分割图像;
[0032] 图5为视差图像;
[0033] 图6为偏振差分图像;
[0034] 图7为水面与水坑检测结果。
[0035] 图8-图12为案例2的图像,其中,
[0036] 图8左为左彩色图像;右为右彩色图像;
[0037] 图9为语义分割图像;
[0038] 图10为视差图像;
[0039] 图11为偏振差分图像;
[0040] 图12为水面与水坑检测结果。
[0041] 图13为一维分解瓶颈层示意;
[0042] 图14为下采样层示意图。
[0043] 图中,相机1、小型处理器2、电池模块3、耳机模块4。

具体实施方式

[0044] 本发明涉及一种水面和水坑检测的盲人辅助眼镜,该方法基于一内置于小型处理器的神经网络模型实现,该神经网络模型通过方法训练得到:
[0045] 从大型的语义分割数据集中获取训练数据集,包括m张彩色图像Color与其一一对应的m张标记图像Label,所述对应关系如下:标记图像Label中的像素单元与彩色图像Color中的像素单元一一对应,标记图像Label中的像素单元标记彩色图像Color中的像素单元的语义标号。m≥10000。所述像素单元为:来源于同一物体的所有像素点组成的单元,同一类别的物体用一语义标号进行标识。该m张彩色图像Color中包含水面和路面的像素单元。
[0046] 大型的语义分割数据集可以为:
[0047] ADE20K数据集:http://groups.csail.mit.edu/vision/datasets/ADE20K/;
[0048] 或Cityscapes数据集:https://www.cityscapes-dataset.com/;
[0049] 或Pascal数据集:https://www.cs.stanford.edu/~roozbeh/pascal-context/;
[0050] 或COCO10K数据集:https://github.com/nightrome/cocostuff;
[0051] 或Mapillary数据集:https://www.mapillary.com/dataset/vistas。
[0052] 以彩色图像Color为输入,标记图像Label为输出,对语义分割模型进行训练,所述基于神经网络的语义分割模型中每一层网络如下表所示,得到预先训练的神经网络模型。
[0053]层号 类型 输出特征图的维数 输出特征图的分辨率
1 下采样层 16 320×240
2 下采样层 64 160×120
3-7 一维分解瓶颈层 64 160×120
8 下采样层 128 80×60
9 一维分解瓶颈层(扩张卷积率2) 128 80×60
10 一维分解瓶颈层(扩张卷积率4) 128 80×60
11 一维分解瓶颈层(扩张卷积率8) 128 80×60
12 一维分解瓶颈层(扩张卷积率16) 128 80×60
13 一维分解瓶颈层(扩张卷积率2) 128 80×60
14 一维分解瓶颈层(扩张卷积率4) 128 80×60
15 一维分解瓶颈层(扩张卷积率8) 128 80×60
16 一维分解瓶颈层(扩张卷积率2) 128 80×60
17a 第16层输出的原始特征图 128 80×60
17b 第16层输出的原始特征图的池化和卷积 32 80×60
17c 第16层输出的原始特征图的池化和卷积 32 40×30
17d 第16层输出的原始特征图的池化和卷积 32 20×15
17e 第16层输出的原始特征图的池化和卷积 32 10×8
17f 第17a-17e层的上采样和级联 256 80×60
18 卷积层 地形和目标类别数 80×60
19 上采样层 地形和目标类别数 640×480
[0054] 其中所述一维分解瓶颈层如图12所示,本发明通过使用3×1的卷积核和1×3的卷积核进行交替卷积,并采用线性整流函数ReLU作为激活函数,最后通过残差式联结,形成一个整体的一维分解瓶颈层。本发明由于采用一维分解瓶颈层的堆叠来完成特征图的提取,最大化的节省了达到相同精度需要的残差层数目,因此可以支持高实时性的语义分割和检测。
[0055] 其中从9到16层的一维分解瓶颈层中的卷积均采用扩张卷积完成,扩展卷积率分别为2,4,8,16,2,4,8,2。
[0056] 其中所述下采样层如图13所示,本发明通过使用3×3的卷积核输出的与经过最大池化的特征图,进行级联,输出下采样的特征图。
[0057] 其中所述上采样层采用双线性插值完成。
[0058] 将待检测的彩色图像Color输入神经网络模型后,第19层得到的输出特征图即为各个类别的概率图,通过argmax函数即可得到语义分割图像Semantics。
[0059] 下面以案例1为例,对本发明做进一步说明。
[0060] (1)通过两个前端设置有偏振片的彩色相机,分别获取一彩色图像,如图3所示,其中,所述两个彩色相机同高,且光轴相互平行,两个偏振片的偏振方向相互垂直。
[0061] (2)将左彩色图输入到预先训练的神经网络模型,得到语义分割图像Semantics,如图4所示。
[0062] (3)对语义分割图像Semantics进行处理,获取被分割出的水面区域和路面可通行区域,对路面可通行区域中任一像素点(u,v),计算该像素点在偏振差分图像Polarization中的偏振差分值polarization,若polarization大于阈值PolarizationThreshold,则该点为水坑,如图7所示。
[0063] 所述偏振差分值polarization的计算方法如下:
[0064] (3.1)对两个彩色图像行双目立体匹配,获取一幅视差图像Disparity,如图5所示。
[0065] (3.2)从另一个彩色图像中找到对应于像素点(u,v)的对应点(u′,v),满足u-u′=disparity,disparity为视差图像Disparity中像素点(u,v)的视差值;
[0066] (3.3)计算像素点(u,v)、(u′,v)的亮度值,分别为VL(u,v),VR(u′,v);偏振差分值polarization为|VL(u,v)-VR(u′,v)|;以偏振差分值可构成如图6所示的差分图。