一种基于RGB-D相机和人脸识别的视障人士辅助方法转让专利

申请号 : CN201611140457.8

文献号 : CN106874830B

文献日 : 2019-09-24

本发明公开了一种基于RGB‑D相机和人脸识别的视障人士辅助方法。该方法包括：利用RGB‑D采集到的彩色图像和深度图像进行人脸的跟踪，并自动为这些人脸赋予标签；所述标签由使用者通过麦克风输入，包括但不限于人脸的姓名、个人信息、电话号码等；人脸图像被正面化矫正，可以适应不同姿态下的识别；所述矫正后的人脸图像被用于在神经网络中训练人脸识别模型；待识别的人脸图像被输入到所述训练好的人脸识别模型，模型输出的识别结果通过3D立体声的方式传递给使用者；所述3D立体声可以提示的信息包括：在深度图像中人脸的方位和人脸距离使用者的远近。

1.一种基于RGB-D相机和人脸识别的视障人士辅助方法，其特征在于，具体步骤如下：(1)人脸的录入和人脸数据库的建立；

针对每一个识别对象，分别采集多帧连续的彩色图像和深度图像，进一步通过RGB-D中的彩色图像通道检出人脸图像，以第一帧中检出的人脸图像作为人脸跟踪的初始化起点；

若在第n帧中出现人脸漏检或检测错误，则可以启动人脸跟踪模式，检出人脸的区域；录入所有识别对象的人脸图像数据和对应的姓名，建立人脸数据库；所述人脸跟踪模式包括以下步骤：第一，在第n-1帧的人脸检出情况下，分别计算彩色图和深度图中的人脸区域的直方图；彩色直方图的横坐标为色度值，纵坐标为每个色度值对应的像素的个数；深度直方图的横坐标为深度值，纵坐标为每个深度值对应的像素的个数；

第二，在第n帧中，计算彩色图和深度图的反向投影图；彩色图对应的反向投影图是将彩色图中的每个像素点的色度值替换为彩色直方图中对应的纵坐标而获得；深度图对应的反向投影图是将深度图中的每个像素点的深度值替换为深度直方图中对应的纵坐标而获得；将两个反向投影图融合后，得到更符合实际情况的人脸区域预测；

第三，在融合后的反向投影图中，应用均值漂移算法MeanShift，计算出第n帧人脸的区域；

(2)人脸图像的矫正；

(3)神经网络训练；

(4)识别人脸；

(5)3D立体声用于识别结果的交互。

2.根据权利要求1所述的方法，其特征在于，所述步骤(2)具体为：第一，调整人脸图像的格式为统一大小，即100像素*100像素；

第二，检出人脸区域的特征点，所述特征点包括脸颊轮廓、眼睛、眉毛、鼻子和嘴巴；所述特征点的检出是基于彩色图像的；

第三，以具有上述特征点的三维人脸模型为基准坐标系，根据彩色图像中的特征点位置，对RGB-D进行坐标标定，得到相机坐标系；

第四，三维模型中的所有点被投影到所述相机坐标系中；

第五，将彩色图像投影到相机坐标系下的三维模型中，赋予每个点的RGB信息；

第六，对赋值后的三维模型进行正面投影，得到矫正后的人脸图像；

第七，转彩色人脸图像为灰度图，并做直方图均衡化处理。

3.根据权利要求1所述的方法，其特征在于，所述步骤(3)具体为：矫正得到的人脸图像，大小统一为100像素*100像素，可以视作一个10000维的向量；然后通过主成分分析PCA进行降维处理；

每一个人脸对应一个由0和1组成的数据标签，第m个人脸的数据标签为[a1,a2,…am,…ak]，其中，am＝1，其余为0，k为人脸总数；以降维后的数据作为输入，数据标签作为输出，用反向传播算法BP训练神经网络模型。

4.根据权利要求1所述的方法，其特征在于，通过以下方法进行识别：采集待识别的人脸图像，经过矫正、降维处理，再输入训练好的神经网络，在输出向量的各个元素中，若只有一个是大于阈值0.5的，则判定输入数据所属的类别为此向量元素对应的类；若有多于一个元素的值大于阈值或所有元素的值都小于阈值，则判定输入数据不属于训练时的数据集，在人脸识别中即为陌生人。

5.根据权利要求1所述的方法，其特征在于，通过以下方法交互：根据步骤(4)识别的人脸，获得其姓名，进一步根据深度图可以获知其方位和距离；以

3D声音播放姓名给使用者，3D声音的角度用于指示人脸的方位，3D声音的大小用于指示人脸的距离。

一种基于RGB-D相机和人脸识别的视障人士辅助方法

技术领域

[0001] 本发明涉及模式分类，机器学习，人脸识别，视觉障碍人群辅助技术领域，尤其涉及一种基于RGB-D相机和人脸识别的视障人士辅助方法。

背景技术

[0002] 根据世界卫生组织(WHO)的数据，全球有2.85亿视障人士，其中有3900万是盲人。视障人士的日常生活中，识别周围人的身份是突出的需求。在没有其他设备的辅助下，视障人士只能通过辨别声音来判断，这在很大程度上受限于视障人士与其周围人的熟悉程度，距离，环境嘈杂度等因素。传统的人脸识别方法，一般采用彩色相机拍摄人脸图像，并且需要保证正面的人脸和均匀的光照，这就要求采集人脸样本的过程中，人脸尽量靠近相机并且正面面向相机。因此，设计一种专门面向视障人士的人脸识别系统，并使用简单自然的交互方式，将在很大程度上为视障人士提供方便。

发明内容

[0003] 本发明的目的是利用RGB-D相机和人脸识别技术，解决视障人士的认人和识人方面存在的不便利性，旨在为视障人士提供一种简单易用，交互方式人性化的辅助方法。

[0004] 本发明通过以下技术方案来实现：一种基于RGB-D相机和人脸识别的视障人士辅助方法，具体步骤如下：(1)人脸的录入和人脸数据库的建立；(2)人脸图像的矫正；(3)神经网络训练；(4)识别人脸；(5)3D立体声用于识别结果的交互。

[0005] 所述步骤(1)具体为：针对每一个识别对象，分别采集多帧连续的彩色图像和深度图像，进一步通过RGB-D中的彩色图像通道检出人脸图像，以第一帧中检出的人脸图像作为人脸跟踪的初始化起点。若在第n帧中出现人脸漏检或检测错误，则可以启动人脸跟踪模式，检出人脸的区域。录入所有识别对象的人脸图像数据和对应的姓名，建立人脸数据库。所述人脸跟踪模式包括以下步骤：

[0006] 第一，在第n-1帧的人脸检出情况下，分别计算彩色图和深度图中的人脸区域的直方图。彩色直方图的横坐标为色度值，纵坐标为每个色度值对应的像素的个数；深度直方图的横坐标为深度值，纵坐标为每个深度值对应的像素的个数。

[0007] 第二，在第n帧中，计算彩色图和深度图的反向投影图。彩色图对应的反向投影图是将彩色图中的每个像素点的色度值替换为彩色直方图中对应的纵坐标而获得；深度图对应的反向投影图是将深度图中的每个像素点的深度值替换为深度直方图中对应的纵坐标而获得。将两个反向投影图融合后，得到更符合实际情况的人脸区域预测。

[0008] 第三，在融合后的反向投影图中，应用均值漂移算法MeanShift，计算出第n帧人脸的区域。

[0009] 所述步骤(2)具体为：

[0010] 第一，调整人脸图像的格式为统一大小，即100像素*100像素。

[0011] 第二，检出人脸区域的特征点，所述特征点包括脸颊轮廓、眼睛、眉毛、鼻子、嘴巴。所述特征点的检出是基于彩色图像的。

[0012] 第三，以具有上述特征点的三维人脸模型为基准坐标系，根据彩色图像中的特征点位置，对RGB-D进行坐标标定，得到相机坐标系。

[0013] 第四，三维模型中的所有点被投影到所述相机坐标系中。

[0014] 第五，将彩色图像投影到相机坐标系下的三维模型中，赋予每个点的RGB信息；

[0015] 第六，对赋值后的三维模型进行正面投影，得到矫正后的人脸图像。

[0016] 第七，转彩色人脸图像为灰度图，并做直方图均衡化处理。

[0017] 所述步骤(3)具体为：矫正得到的人脸图像，大小统一为100像素*100像素，可以视作一个10000维的向量。然后通过主成分分析PCA进行降维处理。

[0018] 每一个人脸对应一个由0和1组成的数据标签，第m个人脸的数据标签为[a1,a2,…am,…ak]，其中，am＝1，其余为0，k为人脸总数；以降维后的数据作为输入，数据标签作为输出，用反向传播算法BP训练神经网络模型。

[0019] 进一步地，通过以下方法进行识别：

[0020] 采集待识别的人脸图像，经过矫正、降维处理，再输入训练好的神经网络，在输出向量的各个元素中，若只有一个是大于阈值0.5的，则判定输入数据所属的类别为此向量元素对应的类；若有多于一个元素的值大于阈值或所有元素的值都小于阈值，则判定输入数据不属于训练时的数据集，在人脸识别中即为陌生人。

[0021] 进一步地，通过以下方法交互：

[0022] 根据步骤(4)识别的人脸，获得其姓名，进一步根据深度图可以获知其方位和距离；以3D声音播放姓名给使用者，3D声音的角度用于指示人脸的方位，3D声音的大小用于指示人脸的距离。

[0023] 本发明的有益效果在于：

[0024] 1.本发明为视障人士提供了一种识别其周围人身份信息的方法。

[0025] 2.本发明提出的人脸跟踪方法能提高人脸检出率，并且能自动标记图像的标签。

[0026] 3.本发明提出的人脸图像矫正方法能去除头部姿态变化和不均匀的光照对人脸识别的影响。

[0027] 4.本发明提出的用神经网络训练和人脸识别系统，能达到实时人脸识别的效果。

[0028] 5.本发明提出的3D立体声音用于识别结果的交互，有效提高人脸识别系统使用过程的体验度。

附图说明

[0029] 图1是系统结构示意图；

[0030] 图2是人脸检出结果图；

[0031] 图3是灰度化处理后的彩色直方图或深度直方图；

[0032] 图4是融合后的反向投影图；

[0033] 图5是矫正前和矫正后人脸图像的对比图。

具体实施方式

[0034] 一种基于RGB-D相机和人脸识别的视障人士辅助方法，具体步骤如下：

[0035] (1)人脸的录入和人脸数据库的建立；

[0036] 针对每一个待识别对象，分别采集多帧连续的彩色图像和深度图像，进一步通过RGB-D相机中的彩色图像通道检出人脸图像，以第一帧中检出的人脸图像作为人脸跟踪的初始化起点。若在第n帧中出现人脸漏检或检测错误，则可以启动人脸跟踪模式，检出人脸的区域。录入所有待识别对象的人脸图像数据和对应的姓名，建立人脸数据库。

[0037] 所述人脸跟踪模式包括以下步骤：

[0038] 第一，在第n-1帧的人脸检出情况下，如图2所示(人脸区域被框出)，分别计算彩色图和深度图中的人脸区域的直方图，如图3所示。彩色直方图的横坐标为色度值，纵坐标为每个色度值对应的像素的个数；深度直方图的横坐标为深度值，纵坐标为每个深度值对应的像素的个数。

[0039] 第二，在第n帧中，计算彩色图和深度图的反向投影图，如图4所示。彩色图对应的反向投影图是将彩色图中的每个像素点的色度值替换为彩色直方图中对应的纵坐标而获得；深度图对应的反向投影图是将深度图中的每个像素点的深度值替换为深度直方图中对应的纵坐标而获得。反向投影图为灰度图像，在所述彩色图和深度图分别对应的反向投影图中，灰度值越大的区域有更大的可能性是人脸区域；将两个反向投影图融合后，得到更符合实际情况的人脸区域预测。

[0040] 第三，在融合后的反向投影图中，应用均值漂移算法MeanShift，计算出第n帧人脸的区域。

[0041] (2)人脸图像的矫正

[0042] 人脸的矫正是用于去除头部姿态变化和不均匀的光照对人脸识别的影响。人脸识别相当于一个分类问题，在分类器的训练过程中，样本的类间差异应该较大而每一类的类内差异应该较小，所述头部姿态变化和不均匀的光照会增大类内差异，甚至达到和类间差异相当的程度，对于这样的样本，在分类器训练过程中，分类器难以找到不同类之间的差异，结果就是分类器不具备正确分类的能力。同样地，未经矫正的人脸图像在识别过程中更容易出错。

[0043] 人脸图像的矫正分为以下步骤：

[0044] 第一，调整人脸图像的格式为统一大小，即100像素*100像素。

[0045] 第二，检出人脸区域的特征点，所述特征点包括脸颊轮廓、眼睛、眉毛、鼻子和嘴巴。所述特征点的检出是基于彩色图像的。

[0046] 第三，在一个通用的三维人脸模型中找到对应特征点的三维坐标，所述三维坐标在世界坐标系中。根据特征点在彩色图像中的二维坐标和相机参数，以及所述三维模型中的三维坐标，计算得到世界坐标系和相机坐标系的转换关系。

[0047] 第四，三维模型中的所有点，依据所述坐标系转换关系，被投影到所述相机坐标系中，由此得到了每个点的RGB信息。

[0048] 第五，对赋值RGB信息后的人脸三维模型在正面方向上投影，得到矫正后的人脸图像。

[0049] 第六，转彩色人脸图像为灰度图，并做直方图均衡化处理。

[0050] 如图5所示为矫正前和矫正后人脸图像的对比，其中a,b,c为校正前的图像，d,e,f分别为对应的校正后的图像。

[0051] (3)神经网络训练

[0052] 矫正得到的人脸图像，大小统一为100像素*100像素，可以视作一个10000维的向量。这样的维度对于需要实时计算的神经网络输入来说太大而不能接受。主成分分析PCA被运用于预处理数据。所述数据预处理即为降维。

[0053] 每一个人脸对应于一个由0和1组成的数据标签，第m个人脸的数据标签为[a1,a2,…am,…ak]，其中，am＝1，其余为0，k为人脸总数；以降维后的数据作为输入，数据标签作为输出，用反向传播算法BP训练神经网络模型。

[0054] (4)识别人脸

[0055] 采集待识别的人脸图像，经过矫正、降维处理，再输入训练好的神经网络，在输出向量的各个元素中，若只有一个是大于阈值0.5的，则判定输入数据所属的类别为此向量元素对应的类；若有多于一个元素的值大于阈值或所有元素的值都小于阈值，则判定输入数据不属于训练时的数据集，在人脸识别中即为陌生人。

[0056] (5)3D立体声用于识别结果的交互

[0057] 对所述步骤(4)识别的人脸，获得其姓名，进一步根据深度图可以获知其方位和距离；以3D声音播放姓名给使用者，3D声音的角度用于指示人脸的方位，3D声音的大小用于指示人脸的距离。

一种基于RGB-D相机和人脸识别的视障人士辅助方法转让专利

申请号 : CN201611140457.8

文献号 : CN106874830B

文献日 : 2019-09-24

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 于红雷 , 赵向东 , 杨恺伦 , 胡伟健 , 汪凯巍

申请人 : 杭州视氪科技有限公司

摘要 :

权利要求 :

说明书 :