视觉识别方法及其系统

IPRDB

API 数据接口

专利申请

使用指引 chat嘟嘟

会员体验

联系我们

交流群

现在联系顾问~

视觉识别方法及其系统
申请号	CN201811408628.X	申请日	2018-11-23	公开(公告)号	CN110765828A	公开(公告)日	2020-02-07
申请人	卢帆;			发明人	卢帆;
摘要	本申请公开一种视觉识别方法及其系统，其中所述方法包括：获取图像序列；判断所述图像序列中每张图像是否包含有人脸图像，若是则根据人脸图像确定眼睛是否注视指定区域，若是则统计注视指定区域的人的数量。根据本申请的技术方案，通过人脸图像可统计注视指定区域的人数，本申请能够有效统计目标被观看的次数和时长。
权利要求	1.一种视觉识别方法，其特征在于，包括：获取图像序列；判断所述图像序列中每张图像中是否包含有人脸图像，若是则根据人脸图像确定眼睛是否注视指定区域；统计注视指定区域的人的数量。 2.根据权利要求1所述的方法，其特征在于，所述根据人脸图像确定眼睛是否注视指定区域具体包括：使用面部方向确定眼睛是否注视指定区域。 3.根据权利要求1所述的方法，其特征在于，所述根据人脸图像确定眼睛是否注视指定区域包括：确定所述人脸图像中的眼睛的注视角度信息；根据所述眼睛的注视角度信息判断所述眼睛是否注视指定区域。 4.根据权利要求1所述的方法，其特征在于，所述根据人脸图像确定眼睛是否注视指定区域的步骤具体包括：确定所述人脸图像中的眼睛的位置信息，根据预先设置的人眼识别神经网络以及所述眼睛的位置信息确定眼睛是否注视指定区域。 5.根据权利要求3所述的方法，其特征在于，所述眼睛的注视角度信息为所述眼睛与观察物之间的角度信息，其包括水平方向角度和垂直方向角度。 6.根据权利要求5所述的方法，其特征在于，所述水平方向角度和垂直方向角度由下式确定：水平方向角度＝(左侧眼白的宽度-右侧眼白的宽度)/(左侧眼白的宽度+右侧眼白的宽度)x60度垂直方向角度＝(眼睛高度/2-瞳孔中心点距离上眼眶的距离)/眼睛的高度x60度，其中，“眼睛高度”是指上眼皮至下眼皮之间的距离。 7.根据权利要求1所述的方法，其特征在于，所述方法还包括，针对多个摄像设备，将它们分别所获取的图像全景化后再识别。 8.根据权利要求1所述的方法，其特征在于，所述方法还包括：记录所述眼睛注视指定区域的持续时间，并统计所述眼睛对应的人的数量。 9.一种视觉识别系统，其特征在于，包括：获取模块，用于获取图像序列；判断模块，用于判断所述图像序列中每张图像中是否包含有人脸图像；确定模块，用于若所述判断模块的判断结果为是的情况下，则根据人脸图像确定是否眼睛在注视指定区域，若是则调用统计模块；统计模块，用于统计注视指定区域的人的数量。 10.根据权利要求9所述的系统，其特征在于，所述确定模块具体包括：检测单元，用于检测所述人脸图像中的眼睛的注视角度信息；处理单元，用于根据所述眼睛的注视角度信息判断所述眼睛是否注视指定区域。
说明书全文	视觉识别方法及其系统技术领域 [0001] 本申请涉及视觉识别技术，尤其涉及一种视觉识别方法及其系统。背景技术 [0002] 现有技术中，随着人脸识别技术的飞速发展，其相关的应用范围和领域也越来越多。例如，通过人脸识别技术进行身份验证的相关应用越来越多。 [0003] 基于人脸识别技术可以对人群进行识别和检测，进而能够统计人群的数量。但是，对于人群对特定目标的观看、注视或观察等行为，现有技术中目前尚未提出有效的解决手段，也无法有效统计目标被看到的次数及时间等信息。发明内容 [0004] 本申请的主要目的在于提供一种视觉识别方法及其系统，以解决现有技术存在的无法有效统计目标被看到的次数的问题。 [0005] 为了解决上述问题，根据本申请实施例提出一种视觉识别方法，其包括： [0006] 获取图像序列； [0007] 判断所述图像序列中每张图像中是否包含有人脸图像，若是则根据人脸图像确定眼睛是否注视指定区域，统计注视指定区域的人的数量。 [0008] 所述根据人脸图像确定眼睛是否注视指定区域具体包括：使用面部方向确定眼睛是否注视指定区域。 [0009] 所述根据人脸图像确定眼睛是否注视指定区域包括： [0010] 确定所述人脸图像中的眼睛的注视角度信息； [0011] 根据所述眼睛的注视角度信息判断所述眼睛是否注视指定区域。 [0012] 所述根据人脸图像确定眼睛是否注视指定区域的步骤具体包括：确定所述人脸图像中的眼睛的位置信息，根据预先设置的人眼识别神经网络以及所述眼睛的位置信息确定眼睛是否注视指定区域。 [0013] 所述眼睛的注视角度信息为所述眼睛与观察物之间的角度信息，其包括水平方向角度和垂直方向角度。 [0014] 所述水平方向角度和垂直方向角度由下式确定： [0015] 水平方向角度＝(左侧眼白的宽度-右侧眼白的宽度)/(左侧眼白的宽度+右侧眼白的宽度)x 60度 [0016] 垂直方向角度＝(眼睛高度/2-瞳孔中心点距离上眼眶的距离)/眼睛的高度x 60度，其中，“眼睛高度”是指上眼皮至下眼皮之间的距离。 [0017] 所述方法还包括，针对多个摄像设备，将它们分别所获取的图像全景化后再识别。 [0018] 所述方法还包括：记录所述眼睛注视指定区域的持续时间，并统计所述眼睛对应的人的数量。 [0019] 本发明实施例还公开了一种视觉识别系统，包括： [0020] 获取模块，用于获取图像序列； [0021] 判断模块，用于判断所述图像序列中每张图像中是否包含有人脸图像； [0022] 确定模块，用于若所述判断模块的判断结果为是的情况下，则根据人脸图像确定是否注视指定区域，若是则调用统计模块； [0023] 统计模块，用于统计注视指定区域的人的数量 [0024] 所述确定模块具体包括： [0025] 检测单元，用于检测所述人脸图像中的眼睛的注视角度信息； [0026] 处理单元，用于根据所述眼睛的注视角度信息判断所述眼睛是否注视指定区域。 [0027] 根据本申请的技术方案，通过人脸图像可统计注视指定区域的人数，本申请能够有效统计目标被观看的次数和时长。附图说明 [0028] 此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中： [0029] 图1A是根据本申请实施例的视觉识别方法的流程图； [0030] 图1B示出了根据本申请实施例的摄像设备、观察物与观察者三者之间的位置关系； [0031] 图2A、图2B和图3是根据本申请实施例的示意图； [0032] 图4，是根据本申请实施例的视觉识别系统的结构框图； [0033] 图5是根据本申请实施例的终端设备的结构框图； [0034] 图6是根据本申请实施例的处理器的结构框图。具体实施方式 [0035] 为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行更加详细的描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。 [0036] 以下结合附图，详细说明本申请各实施例提供的技术方案。 [0037] 根据本申请实施例提供了一种视觉识别方法。 [0038] 图1A是根据本申请实施例的视觉识别方法的流程图，如图1A所示，该方法至少包括以下步骤： [0039] 步骤S102，获取图像序列，该图像序列可以是视频图像信息。 [0040] 在本实施例中，可以通过视频采集设备采集视频图像信息，视频图像信息包括图像序列。例如，通过摄像机或照相机采集视频图像信息。本申请对于图像序列采集设备的类型不进行限定，例如可以是红外视频采集设备采集也可以是普通的视频采集设备采集。 [0041] 视频采集设备可以是一台(如图1B所示)，或是多台。视频采集设备通常设置在观察物附近，如设置在观察物的四周，尤其是设置在观察物中待评价部位附近，视频采集设备的方向是面向观察物，以确定观察该观察物的观察特征(如观察者的人数或观察时间)。 [0042] 安装每个摄像设备时都需要对它跟观察物的位置信息进行描述，所述位置信息包括：观察物的长、宽、距离地面的高度，多个摄像设备可分别安装在观察物的上下左右具体方位。 [0043] 计算观察者与观察物的实际距离：根据瞳孔间距来估算观察者和观察物的距离，首先计算出来焦距(预先计算好的)。 [0044] 通用焦距＝摄像设备中观察者距离0.5米时的瞳距像素值x真实距离0.5米/观察者的真实瞳距 [0045] 观察者与摄像设备之间的真实距离＝观察者的真实瞳距*通用焦距/摄像设备中观察者瞳距像素值 [0046] 瞳距需要使用人脸的旋转角度进行归一化。由于每个人的瞳距并不一样，所以这里只能是估算大致距离，使用双目图像序列采集设备可以获得精准的观察者和设备的距离。 [0047] 通过观察者在摄像设备所在像素值和焦距来计算出观察者与观察物中线的水平距离。然后根据观察物的具体位置通过观察者的观察内夹角范围来判定观察者是否注观察物。 [0048] 步骤S104，判断所述视频图像信息中是否包含有人脸图像，若是则根据人脸图像确定眼睛是否注视指定区域。 [0049] 在本申请中，将视频图像信息(视频流)转换为图片信息进行处理。可以根据实际情况设置图片采集的频率。例如，设置图像采集帧率为每秒20帧，即采样频率为20Hz，每隔0.05秒采集一帧图片。需要说明的是，本申请对于图片采集频率不进行限定。 [0050] 具体地，从采集的图像系列中获取一帧图片，将该图片转换为灰度格式图片，采用图像二值化处理的技术。 [0051] 在实施例中，可以使用预先训练好的人脸检测神经网络判断图片中是否包含有人脸图像，若是则提取检测到的一个或多个人脸图像区域。人脸检测神经网络是通过对样本集进行局部特征与全局特征融合的训练，然后提取出人脸关键部位的特征信息(特征点信息)。人脸检测神经网络可以将预先准备脸部图像和非人脸图像进行训练并获得模型，对于判断为存在真实人脸的图片，给出人脸区域的坐标，dlib的特征点提取可以找出具体包括左右眼的位置坐标。 [0052] 其中，如果判断出图片中有多个人脸，则分别针对每个人脸进行上述处理。 [0053] 更具体而言，首先使用深度学习方法和预先训练好的人脸模型对人脸进行标记ASM(主动形状模型)，标记出眼、鼻、嘴的位置，然后使用根据眼睛、鼻子、嘴的坐标计算出来人脸的3个方向的旋转角度。虹膜是眼部图像中最黑的部分，可以通过查找到圆型图像的方式找到虹膜位置，再将人眼图像根据虹膜和眼睛位置的比例进行角度估算，并根据眼白(巩膜)占整个眼睛的2/3，来计算人眼注视角度。人眼注视角度包括水平方向视角和垂直方向视角。一般来说，人的水平方向视角及垂直方向视角在一定范围内。 [0054] 水平方向角度＝(左侧眼白的宽度-右侧眼白的宽度)/(左侧眼白的宽度+右侧眼白的宽度)x 60度(1) [0055] 在水平方向上：黑色虹膜会将眼白分为两部分。直视时这两部分眼白的宽度大体上相等。当斜视时，一边的眼白就会比另一边宽。在本实施例中，当(左眼白-右眼白)小于1/12眼球宽度时，判断为是直视。否则是斜视，并根据公式(1)算出水平斜视角度。 [0056] 在垂直方向上：可通过上眼白与下眼白的比例判断是否直视或斜视，如，上眼白高度/下眼白高度比例在0.4～0.6之间为直视，否则为斜视；或者通过计算虹膜圆心的位置是否偏离眼睛的中心直接计算垂直视角，即，可根据瞳孔向上或向下偏移中心的投影距离来确定垂直视角，如虹膜圆心向上偏离眼睛的中心一个像素点时，判定为上视角为30度，以此类推…。另外，垂直方向角度也可按下式计算：垂直方向角度＝(眼睛高度/2-瞳孔中心点距离上眼眶的距离)/眼睛的高度x 60度，其中，“眼睛高度”是指上眼皮至下眼皮之间的距离。 [0057] 针对多个摄像设备，需要将它们分别所获取的图像全景化后再识别，即将它们分别所获取的图像合成一张图片后全景化，这样，会增加图像识别精度。 [0058] 另外，在本发明实施例中，也可采用人眼神经网络，通过深度神经网络对大量左右眼局部图像进行模型训练，生成眼部模型库。从而可以不检测人脸直接识别人眼的正视、斜视等方向。当从硬件设备中获得图像序列列后，就使用算法对图片进行处理，找到眼睛位置分布，从而确定眼睛的注视角度信息，以确定眼睛是否注视指定区域。 [0059] 再者，根据本发明实施例，如果仅找到眼睛的标记点(如带墨镜)，而没有找到眼睛的其它部分，如眼白、瞳孔，那么可以使用面部方向进行判断眼睛的注视角度信息，从而确定眼睛是否注视指定区域，从而可跳过眼部及角度判断。 [0060] 步骤S106，统计所述眼睛对应的人的数量。 [0061] 所述指定区域可以是相对于目标的一个指定区域，例如，可以以摄像头为中心并在一定范围内的可视区域。此外，还可以是其他的指定区域，本申请对此不进行限定。 [0062] 进一步地，判断该人脸的眼睛是否在注视该指定区域，若是则启动计数器，统计所述眼睛对应的人的数量。例如，如图1a所示，使用预先训练的人眼识别神经网络确定人脸图片中左右眼眼球的注视角度，得到相对摄像头的角度数值或近似的角度数值，如果根据注视角度的角度数值判断眼睛在注视该指定区域，则进行计数。在实施例中，眼睛的注视角度信息还可以是眼球或瞳孔的注视角度。 [0063] 在一个实施例中，记录所述眼睛注视指定区域的持续时间，当所述眼睛注视指定区域并持续预定时间，则统计所述眼睛对应的人的数量。 [0064] 进一步地，在统计所述眼睛对应的人的数量的同时，提取该人脸的特征，将人脸特征、注视时间等信息保存至缓存中。其中可以以数组形式保存人脸的特征点。重复从视频流中获取新图片并重复上述步骤，直至检测到保存的人脸特征不再观察指定区域，记录该人脸对应的总注视时间。在本申请的实施例中，设定缓存清理周期，在缓存过期之前对同一特征的人脸不再单独计数，仅累加注视时间。 [0065] 下面结合实际采集的图片描述本申请实施例，在本实施例中以摄像头为中心的2m×1m区域为指定区域。参考图2A和图2B，所示图片中只包括一张人脸，图2A所示的人眼为直视摄像头，眼睛注视区域为指定区域，因此符合统计标准会被计数并统计相关的信息；图2B所示的人眼为斜视摄像头，眼睛注视区域也为指定区域，因此符合统计标准会被计数并统计相关的信息。 [0066] 参考图3，所示图片中包括四张人脸，最左侧的人脸虽然朝向摄像头方向，但其左右眼位置并不是直视摄像头角度，而是向上的角度，其眼睛注视区域不是指定区域，所以并不会被计数及统计信息，而图中其他人的左右眼是直视摄像头方向的，因此符合统计标准会被计数并统计相关的信息。 [0067] 参考图4，是根据本申请实施例的视觉识别系统的结构框图，如图4所示，其包括： [0068] 获取模块41，用于获取图像序列； [0069] 判断模块42，用于判断所述图像序列中每张图像中是否包含有人脸图像； [0070] 确定模块43，用于若所述判断模块的判断结果为是的情况下，则根据人脸图像确定是否眼睛在注视指定区域，若是则调用统计模块； [0071] 统计模块44，用于统计注视指定区域的人的数量。 [0072] 所述确定模块43具体包括： [0073] 检测单元431，用于检测所述人脸图像中的眼睛的注视角度信息； [0074] 处理单元432，用于根据所述眼睛的注视角度信息判断所述眼睛是否注视指定区域。 [0075] 其中，所述确定模块43还用于，确定所述人脸图像中的眼睛的位置信息，根据所述眼睛的位置信息确定所述眼睛的注视角度信息。 [0076] 进一步，所述确定模块43还用于，根据预先设置的人眼识别神经网络确定所述人脸图像中的眼睛的位置信息。 [0077] 其中，所述眼睛的注视角度信息包括相对于采集视频图像信息的设备的角度。 [0078] 进一步，所述处理单元432还用于，若所述眼睛注视指定区域并持续预定时间，则统计所述眼睛对应的人的数量。 [0079] 以上描述了视觉识别系统的内部功能和结构。实际中，该系统可实现为终端设备，如图5所示，该终端设备50包括：存储器51以及处理器52。 [0080] 存储器51配置为存储程序。 [0081] 另外，存储器51，还可被配置为存储其它各种数据以支持在终端设备上的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令、消息、图片、音视频等。 [0082] 在实际应用中，存储器51可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如：静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘等。 [0083] 处理器52与所述存储器51相耦接，配置为处理所述存储器存储的程序。参考图6，所述处理器52进一步包括： [0084] 获取模块61，用于获取视频图像信息； [0085] 判断模块62，用于判断所述视频图像信息中是否包含有人脸图像； [0086] 确定模块63，用于若所述判断模块的判断结果为是的情况下，确定所述人脸图像中的眼睛的注视角度信息； [0087] 处理模块64，用于根据所述眼睛的注视角度信息判断所述眼睛是否注视指定区域，若是则统计所述眼睛对应的人的数量。 [0088] 其中，所述确定模块63还用于，确定所述人脸图像中的眼睛的位置信息，根据所述眼睛的位置信息确定所述眼睛的注视角度信息。 [0089] 进一步，所述确定模块63还用于，根据预先设置的人眼识别神经网络确定所述人脸图像中的眼睛的位置信息。 [0090] 其中，所述眼睛的注视角度信息包括相对于采集视频图像信息的设备的角度。 [0091] 进一步，所述处理模块64还用于，若所述眼睛注视指定区域并持续预定时间，则统计所述眼睛对应的人的数量。 [0092] 继续参考图5，所述终端设备50还包括：通信组件53、电源组件54、音频组件55、显示器56等其它组件。需要说明，在图5中仅示意性给出部分组件，并不意味着服务端设备仅包括图中所示组件。 [0093] 通信组件53被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi、2G、3G或4G，或它们的组合。在一个示例性实施例中，通信组件53还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外连接技术(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。 [0094] 电源组件54，为终端设备的各种组件提供电力。电源组件54可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件，在有条件的户外，我们可以增设电池模块和太阳能电池板来解决电池充电问题。 [0095] 音频组件55被配置为输出和/或输入音频信号。例如，音频组件55包括一个麦克风(MIC)，当终端设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器51或经由通信组件53发送。在一些实施例中，音频组件55还包括一个扬声器，用于输出音频信号。 [0096] 显示器56包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。 [0097] 本申请的方法的操作步骤与系统或设备的结构特征对应，可以相互参照，不再一一赘述。 [0098] 根据本申请的上述技术方案，通过确定眼睛的注视角度信息并根据所述注视角度信息，判断眼睛是否注视指定区域，从而统计注视指定区域的人数，本申请能够有效统计目标被观看的次数。 [0099] 本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。 [0100] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。 [0101] 在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。 [0102] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。 [0103] 另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。 [0104] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络侧设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、SSD、硬盘等各种可以存储程序代码的介质。 [0105] 以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。