图像贴标方法、装置、存储介质及电子设备转让专利

申请号 : CN201910282450.7

文献号 : CN111797660A

文献日 : 2020-10-20

本申请实施例公开了一种图像贴标方法、装置、存储介质及电子设备，其中，本申请实施例在检测到摄像头启动时，采集当前的全景数据，根据全景数据生成全景特征，进而根据全景特征和预设的第一分类模型生成与全景数据对应的第一标签，并且在接收到拍照指令时，获取摄像头采集的图像，根据该图像和预设的图像识别模型，生成第二标签，该方案在用户拍照时，可以通过全景数据生成能表达当前场景的标签，能够丰富图像标签，方便用户对图像进行检索和回忆，提升用户体验。

1.一种图像贴标方法，其特征在于，包括：当检测到摄像头启动时，采集当前的全景数据，并根据所述全景数据生成全景特征；

根据所述全景特征和预设的第一分类模型，生成第一标签；

获取所述摄像头采集的图像；

根据所述图像和预设的图像识别模型，生成第二标签；

将所述第一标签和所述第二标签与所述图像关联。

2.如权利要求1所述的图像贴标方法，其特征在于，所述全景特征包括情感特征和情景特征；当检测到摄像头启动时，采集当前的全景数据，并根据所述全景数据生成全景特征的步骤包括：当检测到摄像头启动时，分别采集第一类全景数据和第二类全景数据；

根据所述第一类全景数据和预设的特征提取算法，生成情感特征；

根据所述第二类全景数据生成情景特征。

3.如权利要求2所述的图像贴标方法，其特征在于，所述第一类全景数据包括用户脸部图像；采集第一类全景数据的步骤，包括：调用摄像头组件捕获用户脸部图像；

根据所述第一类全景数据和预设的特征提取算法，生成情感特征的步骤，包括：根据预设的卷积神经网络模型提取所述用户脸部图像中的图像特征，将所述图像特征作为所述情感特征。

4.如权利要求2所述的图像贴标方法，其特征在于，所述第一类全景数据包括语音数据；采集第一类全景数据的步骤，包括：通过语音组件采集语音数据；

根据所述第一类全景数据和预设的特征提取算法，生成情感特征的步骤，包括：根据预设的自编码循环神经网络，生成所述语音数据的语义特征向量，将所述语义特征向量作为所述情感特征。

5.如权利要求2所述的图像贴标方法，其特征在于，所述第一类全景数据包括语音数据；采集第一类全景数据的步骤，包括：通过语音组件采集语音数据；

根据所述第一类全景数据和预设的特征提取算法，生成情感特征的步骤，包括：根据音频特征提取算法将所述语音数据转换为频谱图；

根据预设的自编码卷积神经网络和所述频谱图，生成所述语音数据的语义特征向量，将所述语义特征向量作为所述情感特征。

6.如权利要求2所述的图像贴标方法，其特征在于，所述第二类全景数据包括传感器数据；根据所述第二类全景数据生成情景特征的步骤，包括：按照预设的特征提取算法和采集的传感器数据，生成情景向量；

对所述情景向量进行归一化处理，并将归一化处理后的所述情景向量作为所述情景特征。

7.如权利要求1至6任一项所述的图像贴标方法，其特征在于，根据所述图像和预设的图像识别模型，生成第二标签的步骤包括：根据预设的卷积神经网络模型对所述图像进行识别，确定所述图像所属的图像类别；

将所述图像类别作为所述第二标签。

8.如权利要求1至6任一项所述的图像贴标方法，其特征在于，将所述第一标签和所述第二标签与所述图像关联的步骤，包括：基于所述第一标签和所述第二标签生成贴标提醒，并展示所述贴标提醒；

当接收到基于所述贴标提醒触发的确认指令时，将所述确认指令对应的第一标签和/或所述第二标签与所述图像关联后存储。

9.一种图像贴标装置，其特征在于，包括：特征提取模块，用于当检测到摄像头启动时，采集当前的全景数据，并根据所述全景数据生成全景特征第一贴标模块，用于根据所述全景特征和预设的第一分类模型，生成第一标签；

图像获取模块，用于获取所述摄像头采集的图像；

第二贴标模块，用于根据所述图像和预设的图像识别模型，生成第二标签；

标签关联模块，用于将所述第一标签和所述第二标签与所述图像关联。

10.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至8任一项所述的图像贴标方法。

11.一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1至8任一项所述的图像贴标方法。

图像贴标方法、装置、存储介质及电子设备

技术领域

[0001] 本申请涉及智能终端技术领域，具体涉及一种图像贴标方法、装置、存储介质及电子设备。

背景技术

[0002] 对终端摄像头拍摄到的图像进行贴标的方案主要有以下两种：第一种是人工贴标，当用户拍摄完图像之后，系统显示标签提醒以提醒用户手动贴标，或者用户根据需要随时对图像进行标注。第二种是，通过默认的卷积神经网络模型提取图像特征，进一步地对图像特征进行分类，得到该图像的所属分类标签。第一种方案较为原始，但是部分终端系统中仍然采用该方法；第二种方案虽然相对比第一种方案已经有了较大的自动化提升，但是仍然具有一定的缺陷。例如，其分类依据只限于照片的内容，生成的标签不够丰富。

发明内容

[0003] 本申请实施例提供了一种图像贴标方法、装置、存储介质及电子设备，能够丰富图像标签，提升用户体验。

[0004] 第一方面，本申请实施例了提供了的一种图像贴标方法，包括：

[0005] 当检测到摄像头启动时，采集当前的全景数据，并根据所述全景数据生成全景特征；

[0006] 根据所述全景特征和预设的第一分类模型，生成第一标签；

[0007] 获取所述摄像头采集的图像；

[0008] 根据所述图像和预设的图像识别模型，生成第二标签；

[0009] 将所述第一标签和所述第二标签与所述图像关联。

[0010] 第二方面，本申请实施例了提供了的一种图像贴标装置，包括：

[0011] 特征提取模块，用于当检测到摄像头启动时，采集当前的全景数据，并根据所述全景数据生成全景特征

[0012] 第一贴标模块，用于根据所述全景特征和预设的第一分类模型，生成第一标签；

[0013] 图像获取模块，用于获取所述摄像头采集的图像；

[0014] 第二贴标模块，用于根据所述图像和预设的图像识别模型，生成第二标签；

[0015] 标签关联模块，用于将所述第一标签和所述第二标签与所述图像关联。

[0016] 第三方面，本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请任一实施例提供的图像贴标方法。

[0017] 第四方面，本申请实施例提供了一种电子设备，包括处理器和存储器，所述存储器有计算机程序，所述处理器通过调用所述计算机程序，用于执行如本申请任一实施例提供的图像贴标方法。

[0018] 本申请实施例提供的技术方案，在检测到摄像头启动时，采集当前的全景数据，根据全景数据生成全景特征，进而根据全景特征和预设的第一分类模型生成与全景数据对应的第一标签，并且在接收到拍照指令时，获取摄像头采集的图像，根据该图像和预设的图像识别模型，生成第二标签，该方案在用户拍照时，可以通过全景数据生成能表达当前场景的标签，能够丰富图像标签，方便用户对图像进行检索和回忆，提升用户体验。

附图说明

[0019] 为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0020] 图1为本申请实施例提供的图像贴标方法的全景感知架构示意图。

[0021] 图2为本申请实施例提供的图像贴标方法的第一种流程示意图。

[0022] 图3为本申请实施例提供的图像贴标方法的第二种流程示意图。

[0023] 图4为本申请实施例提供的图像贴标方法中贴标提醒场景示意图。

[0024] 图5为本申请实施例提供的图像贴标装置的结构示意图。

[0025] 图6为本申请实施例提供的电子设备的第一种结构示意图。

[0026] 图7为本申请实施例提供的电子设备的第二种结构示意图。

具体实施方式

[0027] 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

[0028] 本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

[0029] 在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

[0030] 参考图1，图1为本申请实施例提供的图像贴标方法的全景感知架构示意图。所述图像贴标方法应用于电子设备。所述电子设备中设置有全景感知架构。所述全景感知架构为电子设备中用于实现所述图像贴标方法的硬件和软件的集成。

[0031] 其中，全景感知架构包括信息感知层、数据处理层、特征抽取层、情景建模层以及智能服务层。

[0032] 信息感知层用于获取电子设备自身的信息或者外部环境中的信息。所述信息感知层可以包括多个传感器。例如，所述信息感知层包括距离传感器、磁场传感器、光线传感器、加速度传感器、指纹传感器、霍尔传感器、位置传感器、陀螺仪、惯性传感器、姿态感应器、气压计、心率传感器等多个传感器。

[0033] 其中，距离传感器可以用于检测电子设备与外部物体之间的距离。磁场传感器可以用于检测电子设备所处环境的磁场信息。光线传感器可以用于检测电子设备所处环境的光线信息。加速度传感器可以用于检测电子设备的加速度数据。指纹传感器可以用于采集用户的指纹信息。霍尔传感器是根据霍尔效应制作的一种磁场传感器，可以用于实现电子设备的自动控制。位置传感器可以用于检测电子设备当前所处的地理位置。陀螺仪可以用于检测电子设备在各个方向上的角速度。惯性传感器可以用于检测电子设备的运动数据。姿态感应器可以用于感应电子设备的姿态信息。气压计可以用于检测电子设备所处环境的气压。心率传感器可以用于检测用户的心率信息。

[0034] 数据处理层用于对信息感知层获取到的数据进行处理。例如，数据处理层可以对信息感知层获取到的数据进行数据清理、数据集成、数据变换、数据归约等处理。

[0035] 其中，数据清理是指对信息感知层获取到的大量数据进行清理，以剔除无效数据和重复数据。数据集成是指将信息感知层获取到的多个单维度数据集成到一个更高或者更抽象的维度，以对多个单维度的数据进行综合处理。数据变换是指对信息感知层获取到的数据进行数据类型的转换或者格式的转换等，以使变换后的数据满足处理的需求。数据归约是指在尽可能保持数据原貌的前提下，最大限度的精简数据量。

[0036] 特征抽取层用于对数据处理层处理后的数据进行特征抽取，以提取所述数据中包括的特征。提取到的特征可以反映出电子设备自身的状态或者用户的状态或者电子设备所处环境的环境状态等。

[0037] 其中，特征抽取层可以通过过滤法、包装法、集成法等方法来提取特征或者对提取到的特征进行处理。

[0038] 过滤法是指对提取到的特征进行过滤，以删除冗余的特征数据。包装法用于对提取到的特征进行筛选。集成法是指将多种特征提取方法集成到一起，以构建一种更加高效、更加准确的特征提取方法，用于提取特征。

[0039] 情景建模层用于根据特征抽取层提取到的特征来构建模型，所得到的模型可以用于表示电子设备的状态或者用户的状态或者环境状态等。例如，情景建模层可以根据特征抽取层提取到的特征来构建关键值模型、模式标识模型、图模型、实体联系模型、面向对象模型等。

[0040] 智能服务层用于根据情景建模层所构建的模型为用户提供智能化的服务。例如，智能服务层可以为用户提供基础应用服务，可以为电子设备进行系统智能优化，还可以为用户提供个性化智能服务。

[0041] 此外，全景感知架构中还可以包括多种算法，每一种算法都可以用于对数据进行分析处理，所述多种算法可以构成算法库。例如，所述算法库中可以包括马尔科夫算法、隐形狄利克雷分布算法、贝叶斯分类算法、支持向量机、K均值聚类算法、K近邻算法、条件随机场、残差网络、长短期记忆网络、卷积神经网络、循环神经网络等算法。

[0042] 基于上述全景感知架构，在检测到摄像头启动时，信息感知层采集当前的全景数据，特征抽取层根据全景数据生成全景特征，进而根据全景特征和预设的第一分类模型生成与全景数据对应的第一标签，并且接收到拍照指令时，智能服务层获取摄像头采集的图像，根据该图像和预设的图像识别模型，生成第二标签，该方案在用户拍照时，可以通过全景数据生成能表达当前场景的标签，能够丰富图像标签，方便用户对图像进行检索和回忆，提升用户体验。

[0043] 本申请实施例提供一种图像贴标方法，该图像贴标方法的执行主体可以是本申请实施例提供的图像贴标装置，或者集成了该图像贴标装置的电子设备，其中该图像贴标装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。

[0044] 请参照图2，图2为本申请实施例提供的图像贴标方法的第一种流程示意图。本申请实施例提供的图像贴标方法的具体流程可以如下：

[0045] 步骤101、当检测到摄像头启动时，采集当前的全景数据，并根据所述全景数据生成全景特征。

[0046] 本申请实施例中，电子设备对摄像头的状态进行实时监测，当摄像头启动的时候，会在后台发出初始化信号，当电子设备检测到上述初始化信号时，判定摄像头被启动。此时，开始采集电子设备当前的全景数据。

[0047] 全景数据主要包括第一类全景数据和第二类全景数据，其中，第一类全景数据包括通过摄像头采集的用户脸部图像和通过语音组件采集的语音数据。可以通过这些数据来判断用户启动摄像头拍照时的面部表情状态以及声音状态，进而根据这些状态判断用户的情感状态，生成能够体现用户心情的标签，例如，开心、兴奋、沮丧、悲伤、无聊、发呆等。

[0048] 第二类全景数据主要包括电子设备上的各种传感器采集的数据，这些数据可以表达用户在拍照时所处的场景。例如，电子设备上设置有距离传感器、磁场传感器、光线传感器、加速度传感器、指纹传感器、霍尔传感器、位置传感器、陀螺仪等。比如，位置传感器可以用于检测电子设备当前所处的地理位置。姿态感应器可以用于感应电子设备的姿态信息。惯性传感器可以用于检测电子设备的运动数据。通过传感器可以判断用户所处的场景。

[0049] 参照图3所示，图3为本申请实施例提供的图像贴标方法的第二种流程示意图。在一实施例中，当检测到摄像头启动时，采集当前的全景数据，并根据所述全景数据生成全景特征向量包括：

[0050] 步骤1011、当检测到摄像头启动时，分别采集第一类全景数据和第二类全景数据；

[0051] 步骤1012、根据所述第一类全景数据和预设的特征提取算法，生成情感特征；

[0052] 步骤1013、根据所述第二类全景数据生成情景特征。

[0053] 其中，获取情感特征可以有多种实施方式。例如：

[0054] 方式一，第一类全景数据包括用户脸部图像；采集第一类全景数据的步骤，包括：调用摄像头组件捕获用户脸部图像；

[0055] 根据所述第一类全景数据和预设的特征提取算法，生成情感特征的步骤，包括：根据预设的卷积神经网络模型提取所述用户脸部图像中的图像特征，将所述图像特征作为所述情感特征。

[0056] 具体地，假设电子设备上同时设置有前置摄像头和后置摄像头，若用户拍照时，启动的是电子设备的后置摄像头，则此时可以通过启动前置摄像头捕获用户脸部图像；若用户拍照时，启动的是前置摄像头，则用户很可能是要自拍，此时可以从前置摄像头的预览回调模块中获取当前的预览图像，作为用户脸部图像。

[0057] 其中，可以采用预先训练好的CNN(Convolutional Neural Networks，卷积神经网络)提取图像特征，作为情感特征。该CNN模型可以通过预先训练得到。由于该CNN模型在本实施例中主要是对用户脸部图像的特征提取，因此，训练数据可以是大量的人脸图像。具体地，该CNN模型可以设置多个卷积层和池化层，不设置全连接层，其输入数据为人脸图像，最后一个卷积层或者池化层的输出的数据作为模型的输出数据，其中，输出数据为脸部图像特征。预先采集大量的人脸图像，并且为人脸图像添加情感类别标签，将添加情感类别标签后的人脸图像作为训练数据输入到CNN模型中进行训练，以确定模型参数。

[0058] 在一个可选的实施例中，可以采用轻量级的CNN模型来提取特征，例如mobileNet。

[0059] 方式二，第一类全景数据包括语音数据；采集第一类全景数据的步骤，包括：通过语音组件采集语音数据；

[0060] 根据所述第一类全景数据和预设的特征提取算法，生成情感特征的步骤，包括：根据预设的自编码循环神经网络，生成所述语音数据的语义特征向量，将所述语义特征向量作为所述情感特征。

[0061] 在一实施例中，电子设备中设置有语音组件，例如麦克风，电子设备可以通过麦克风持续采集用户的语音数据。其中，自编码循环神经网络模型由一个encoder编码器和一个decoder解码器组成，该网络的输出等于输入，网络还包括有中间隐藏层，中间隐藏层能够提取语音数据的语义特征向量。本方案中采用自编码循环神经网络从语音数据中提取语义特征向量作为情感特征，自编码循环神经网络的输入数据和输出数据均为上述语音数据。该网络在训练时，无需对语音数据贴标签，预先采集大量的语音数据作为网络的输入和输出，网络通过自学习，确定参数。将该自编码循环神经网络的中间隐藏层输出的语义特征向量作为所述情感特征。

[0062] 方式三，第一类全景数据包括语音数据；采集第一类全景数据的步骤，包括：通过语音组件采集语音数据；

[0063] 根据所述第一类全景数据和预设的特征提取算法，生成情感特征的步骤，包括：根据音频特征提取算法将所述语音数据转换为频谱图；根据预设的自编码卷积神经网络和所述频谱图，生成所述语音数据的语义特征向量，将所述语义特征向量作为所述情感特征。

[0064] 其中，音频特征提取算法可以是MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)算法或者FFT(Fast Fourier Transformation，快速傅里叶变换)算法，通过音频特征提取算法将语音数据转换为频谱图，将频谱图作为自编码卷积神经网络的输入数据和输出数据，从网络中提取语义特征向量。与上述自编码循环神经网路类似，自编码卷积神经网络也是一种自编码器，其中，自编码卷积神经网络是使用卷积层构建自编码器，通过训练这种自编码器的输出数据与输入数据一致，以获取其中间隐藏层中有价值的信息。

[0065] 上述“根据所述第一类全景数据和预设的特征提取算法，生成情感特征”的步骤和“根据所述第二类全景数据生成情景特征”的步骤可以同步进行，没有时间先后顺序的限制，在采集到第一类全景数据后，可以直接对第一类全景数据进行处理，获取情感特征，并且，在采集到第二类全景数据后，可以直接对第二类全景数据进行处理，获取情景特征。

[0066] 其中，根据所述第二类全景数据生成情景特征包括：按照预设的特征提取算法和采集的传感器数据，生成情景向量；对所述情景向量进行归一化处理，并将归一化处理后的所述情景向量作为所述情景特征。

[0067] 例如，获取磁力计、加速度计、陀螺仪的状态数据，通过卡尔曼滤波算法对获取的三个传感器的状态数据进行处理获得四维的终端姿态数据；通过气压计采集的数据获取气压数据；通过网络模块确定WIFI连接状态；通过位置传感采集的数据进行定位，得到用户当前的位置属性，例如，商场、家里、公司、公园等)；还可以进一步的结合磁力计、加速度传感器、陀螺仪、气压计10轴信息使用滤波算法或者主成分分析算法得到新的多维数据。对于上述传感器数据中的非数字形式的传感器数据，可以采用建立索引号的方式，将其转换为数字表示，例如，对于用户当前的位置属性，使用索引号代表位置属性，比如1表示在家里，2表示在商场，3表示在公司等。在获取到全部数字表示的特征后，融合上述特征数据得到一个长向量，即情景向量，由于该情景向量中涉及到不同评价指标，即向量中的不同特征就是所述的不同评价指标，而不同的评价指标往往具有不同的量纲和量纲单位，此处为了避免影响后续的数据分析结果，消除量纲的影响，对该长向量进行归一化处理，得到情景特征S，S＝{ys1,ys2,…,ysm}。

[0068] 例如，可以采用离差标准化或者Z-score标准化方法等归一化处理方法。离差标准化是对原始数据的线性变换，使结果值映射到[0，1]之间。Z-score标准化是根据原始数据的均值和标准差进行数据的标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，处理后的数据映射在[-1，1]之间。进行归一化处理后的情景向量中的数据均为无量纲数据，各指标处于同一数量级，后续在根据情景特征生成情景标签时，提高生成的标签的准确度。

[0069] 步骤102、根据所述全景特征和预设的第一分类模型，生成第一标签。

[0070] 在获取到情景特征和情感特征后，按照预设的第一分类模型，确定情景特征对应的情景标签、情感特征对应的情感标签。其中，为了减轻GPU(Graphics Processing Unit，图形处理器)负担，本实施例中可以采用基于CPU(Central Processing Unit，中央处理器)的分类算法，如softmax分类算法、XGBoost分类器、随机森林等分类算法。

[0071] 需要说明的是，由于情感标签和情景标签所属的属性不同，因此分别使用不同的分类模型进行分类识别，能够提高其精度，而且分类数量越少，分类器过度拟合的可能性会降低，从而提高分类的精度。

[0072] 以情景标签为例，采用上述分类算法中的任意一种构建一个第一分类器，该第一分类器以情景特征作为出入，情景标签作为输出。其中，情景标签可以有商场、地铁、聚会、家里、某旅游景点等。使用训练数据训练该第一分类器，确定模型参数。其中，可以通过模拟多种用户使用场景来采集第二类全景数据并根据第二类全景数据获取训练数据。

[0073] 对于情感标签来说，单独构建另外的第一分类器，其第一分类器的输入数据为情感特征，输出数据为情感标签。其中，情感标签有开心、兴奋、沮丧、悲伤、无聊、发呆等代表用户当前情感状态的信息。其第一分类器的训练方式与情景标签的第一分类器的训练方式相同。

[0074] 步骤103、获取所述摄像头采集的图像。

[0075] 需要说明的是，本申请实施例中，在电子设备的摄像头启动之后，采集全景数据并根据全景数据生成第一标签的操作与获取摄像头采集的图像并生成第二标签的操作可以同步进行。由于在摄像头启动后，用户出发拍照指令之前，摄像头即可捕获图像，此时从摄像头的预览回调模块中即可获取预览图像。而在拍照的同时，麦克风还可以采集用户的语音数据，生成情景特征；传感器也可以同步工作，互不影响。因此，在检测到摄像头启动后，步骤101至102，与步骤103至104可以同步进行，提高标签的获取效率。以使在用户出发拍照指令并生成照片时，即可获取生成的第一标签和第二标签。

[0076] 步骤104、根据所述图像和预设的图像识别模型，生成第二标签。

[0077] 在获取到摄像头采集的图像后，使用预设的图像识别模型对图像内容进行识别，生成与图像内容匹配的第二标签，例如，人物、风景、动物等等。

[0078] 在一些实施例中，可以在电子设备上设置一个轻量级的CNN模型，用于上述步骤S101中的情感特征的提取，以及此处的图像识别，以节省电子设备的GPU资源，提高数据处理速度。此时，该CNN模型最后一层为全连接层，该全连接层为分类器，每一个结点对应一个第二标签。在使用该CNN模型提取情感特征时，将倒数第二层输出的数据为情感特征。

[0079] 步骤105、将所述第一标签和所述第二标签与所述图像关联。

[0080] 在接收到拍照指令后，电子设备的摄像头会捕获镜头中当前的图像，对图像处理后进行显示。因此，在一些实施例中，在获取到图像后，即将生成的情景标签、情感标签以及第二标签与图像关联后存储，在另外一些实施例中，如图4所示，还可以生成贴标提醒，由用户根据需要选择图像标签。

[0081] 例如，在一些实施例中，将所述第一标签和所述第二标签与所述图像关联包括：

[0082] 基于所述第一标签和所述第二标签生成贴标提醒，并展示所述贴标提醒；

[0083] 当接收到基于所述贴标提醒触发的确认指令时，将所述确认指令对应的第一标签和/或所述第二标签与所述图像关联后存储。

[0084] 具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

[0085] 由上可知，本实施例提出的图像贴标方法，在检测到摄像头启动时，采集当前的全景数据，根据全景数据生成全景特征，进而根据全景特征和预设的第一分类模型生成与全景数据对应的第一标签，并且在接收到拍照指令时，获取摄像头采集的图像，根据该图像和预设的图像识别模型，生成第二标签，该方案在用户拍照时，可以通过全景数据生成能表达当前场景的标签，能够丰富图像标签，方便用户对图像进行检索和回忆，提升用户体验。

[0086] 在一实施例中还提供了一种图像贴标装置。请参阅图5，图5为本申请实施例提供的图像贴标装置400的结构示意图。其中该图像贴标装置400应用于电子设备，该图像贴标装置400包括特征提取模块401、第一贴标模块402、图像获取模块403、第二贴标模块404以及标签关联模块405，如下：

[0087] 特征提取模块401，用于当检测到摄像头启动时，采集当前的全景数据，并根据所述全景数据生成全景特征。

[0088] 本申请实施例中，电子设备对摄像头的状态进行实时监测，当摄像头启动的时候，会在后台发出初始化信号，当电子设备检测到上述初始化信号时，判定摄像头被启动。此时，特征提取模块401开始采集电子设备当前的全景数据。

[0089] 全景数据主要包括第一类全景数据和第二类全景数据，其中，第一类全景数据包括通过摄像头采集的用户脸部图像和通过语音组件采集的语音数据。可以通过这些数据来判断用户启动摄像头拍照时的面部表情状态以及声音状态，进而根据这些状态判断用户的情感状态，生成能够体现用户心情的标签，例如，开心、兴奋、沮丧、悲伤、无聊、发呆等。

[0090] 第二类全景数据主要包括电子设备上的各种传感器采集的数据，这些数据可以表达用户在拍照时所处的场景。例如，电子设备上设置有距离传感器、磁场传感器、光线传感器、加速度传感器、指纹传感器、霍尔传感器、位置传感器、陀螺仪等。比如，位置传感器可以用于检测电子设备当前所处的地理位置。姿态感应器可以用于感应电子设备的姿态信息。惯性传感器可以用于检测电子设备的运动数据。通过传感器可以判断用户所处的场景。

[0091] 在一实施例中，所述全景特征包括情感特征和情景特征；特征提取模块401还用于：当检测到摄像头启动时，分别采集第一类全景数据和第二类全景数据；根据所述第一类全景数据和预设的特征提取算法，生成情感特征；根据所述第二类全景数据生成情景特征。

[0092] 其中，获取情感特征可以有多种实施方式。例如：

[0093] 方式一，所述第一类全景数据包括用户脸部图像；特征提取模块401还用于：调用摄像头组件捕获用户脸部图像；根据预设的卷积神经网络模型提取所述用户脸部图像中的图像特征，将所述图像特征作为所述情感特征。

[0094] 具体地，假设电子设备上同时设置有前置摄像头和后置摄像头，若用户拍照时，启动的是电子设备的后置摄像头，则此时可以通过启动前置摄像头捕获用户脸部图像；若用户拍照时，启动的是前置摄像头，则用户很可能是要自拍，此时可以从前置摄像头的预览回调模块中获取当前的预览图像，作为用户脸部图像。

[0095] 其中，特征提取模块401可以采用预先训练好的CNN(Convolutional Neural Networks，卷积神经网络)提取图像特征，作为情感特征。该CNN模型可以通过预先训练得到。由于该CNN模型在本实施例中主要是对用户脸部图像的特征提取，因此，训练数据可以是大量的人脸图像。具体地，该CNN模型可以设置多个卷积层和池化层，不设置全连接层，其输入数据为人脸图像，最后一个卷积层或者池化层的输出的数据作为模型的输出数据，其中，输出数据为脸部图像特征。预先采集大量的人脸图像，并且为人脸图像添加情感类别标签，将添加情感类别标签后的人脸图像作为训练数据输入到CNN模型中进行训练，以确定模型参数。

[0096] 在一个可选的实施例中，特征提取模块401可以采用轻量级的CNN模型来提取特征，例如mobileNet。

[0097] 方式二，第一类全景数据包括语音数据；特征提取模块401还用于：通过语音组件采集语音数据；根据预设的自编码循环神经网络，生成所述语音数据的语义特征向量，将所述语义特征向量作为所述情感特征。

[0098] 在一实施例中，电子设备中设置有语音组件，例如麦克风，电子设备可以通过麦克风持续采集用户的语音数据。其中，自编码循环神经网络模型由一个encoder编码器和一个decoder解码器组成，该网络的输出等于输入，网络还包括有中间隐藏层，中间隐藏层能够提取语音数据的语义特征向量。本方案中采用自编码循环神经网络从语音数据中提取语义特征向量作为情感特征，自编码循环神经网络的输入数据和输出数据均为上述语音数据。该网络在训练时，无需对语音数据贴标签，预先采集大量的语音数据作为网络的输入和输出，网络通过自学习，确定参数。将该自编码循环神经网络的中间隐藏层输出的语义特征向量作为所述情感特征。

[0099] 方式三，第一类全景数据包括语音数据；特征提取模块401还用于：通过语音组件采集语音数据；根据音频特征提取算法将所述语音数据转换为频谱图；根据预设的自编码卷积神经网络和所述频谱图，生成所述语音数据的语义特征向量，将所述语义特征向量作为所述情感特征。

[0100] 其中，音频特征提取算法可以是MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)算法或者FFT(Fast Fourier Transformation，快速傅里叶变换)算法，通过音频特征提取算法将语音数据转换为频谱图，将频谱图作为自编码卷积神经网络的输入数据和输出数据，从网络中提取语义特征向量。与上述自编码循环神经网路类似，自编码卷积神经网络也是一种自编码器，其中，自编码卷积神经网络是使用卷积层构建自编码器，通过训练这种自编码器的输出数据与输入数据一致，以获取其中间隐藏层中有价值的信息。

[0101] 特征提取模块401可以包括第一特征提取单元和第二特征提取单元，其中，第一特征提取单元执行“根据所述第一类全景数据和预设的特征提取算法，生成情感特征”的操作和第二特征提取单元执行“根据所述第二类全景数据生成情景特征”的操作，两个单元可以同步工作，没有时间先后顺序的限制，在采集到第一类全景数据后，第一特征提取单元可以直接对第一类全景数据进行处理，获取情感特征，并且，在采集到第二类全景数据后，第二特征提取单元可以直接对第二类全景数据进行处理，获取情景特征。

[0102] 此外，特征提取模块401还用于：按照预设的特征提取算法和采集的传感器数据，生成情景向量；对所述情景向量进行归一化处理，并将归一化处理后的所述情景向量作为所述情景特征。

[0103] 例如，特征提取模块401获取磁力计、加速度计、陀螺仪的状态数据，通过卡尔曼滤波算法对获取的三个传感器的状态数据进行处理获得四维的终端姿态数据；通过气压计采集的数据获取气压数据；通过网络模块确定WIFI连接状态；通过位置传感采集的数据进行定位，得到用户当前的位置属性，例如，商场、家里、公司、公园等)；还可以进一步的结合磁力计、加速度传感器、陀螺仪、气压计10轴信息使用滤波算法或者主成分分析算法得到新的多维数据。

[0104] 对于上述传感器数据中的非数字形式的传感器数据，可以采用建立索引号的方式，将其转换为数字表示，例如，对于用户当前的位置属性，使用索引号代表位置属性，比如1表示在家里，2表示在商场，3表示在公司等。在获取到全部数字表示的特征后，特征提取模块401融合上述特征数据得到一个长向量，即情景向量，由于该情景向量中涉及到不同评价指标，即向量中的不同特征就是所述的不同评价指标，而不同的评价指标往往具有不同的量纲和量纲单位，此处为了避免影响后续的数据分析结果，消除量纲的影响，特征提取模块
401对该长向量进行归一化处理，得到情景特征S，S＝{ys1,ys2,…,ysm}。

[0105] 例如，可以采用离差标准化或者Z-score标准化方法等归一化处理方法。离差标准化是对原始数据的线性变换，使结果值映射到[0，1]之间。Z-score标准化是根据原始数据的均值和标准差进行数据的标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，处理后的数据映射在[-1，1]之间。进行归一化处理后的情景向量中的数据均为无量纲数据，各指标处于同一数量级，后续在根据情景特征生成情景标签时，提高生成的标签的准确度。

[0106] 第一贴标模块402，用于根据所述全景特征和预设的第一分类模型，生成第一标签。

[0107] 在特征提取模块401获取到情景特征和情感特征后，第一贴标模块402按照预设的第一分类模型，确定情景特征对应的情景标签、情感特征对应的情感标签。其中，为了减轻GPU(Graphics Processing Unit，图形处理器)负担，本实施例中可以采用基于CPU(Central Processing Unit，中央处理器)的分类算法，如softmax分类算法、XGBoost分类器、随机森林等分类算法。

[0108] 需要说明的是，由于情感标签和情景标签所属的属性不同，因此分别使用不同的分类模型进行分类识别，能够提高其精度，而且分类数量越少，分类器过度拟合的可能性会降低，从而提高分类的精度。

[0109] 以情景标签为例，采用上述分类算法中的任意一种构建一个第一分类器，该第一分类器以情景特征作为出入，情景标签作为输出。其中，情景标签可以有商场、地铁、聚会、家里、某旅游景点等。使用训练数据训练该第一分类器，确定模型参数。其中，可以通过模拟多种用户使用场景来采集第二类全景数据并根据第二类全景数据获取训练数据。

[0110] 对于情感标签来说，单独构建另外的第一分类器，其第一分类器的输入数据为情感特征，输出数据为情感标签。其中，情感标签有开心、兴奋、沮丧、悲伤、无聊、发呆等代表用户当前情感状态的信息。其第一分类器的训练方式与情景标签的第一分类器的训练方式相同。

[0111] 图像获取模块403，用于获取所述摄像头采集的图像。

[0112] 需要说明的是，本申请实施例中，在电子设备的摄像头启动之后，采集全景数据并根据全景数据生成第一标签的操作与获取摄像头采集的图像并生成第二标签的操作可以同步进行。由于在摄像头启动后，用户出发拍照指令之前，摄像头即可捕获图像，此时从摄像头的预览回调模块中即可获取预览图像。而在拍照的同时，麦克风还可以采集用户的语音数据，生成情景特征；传感器也可以同步工作，互不影响。因此，在检测到摄像头启动后，特征提取模块401、第一贴标模块402，与图像获取模块403、第二贴标模块404可以同步工作，提高标签的获取效率。以使在用户出发拍照指令并生成照片时，即可获取生成的第一标签和第二标签。

[0113] 第二贴标模块404，用于根据所述图像和预设的图像识别模型，生成第二标签。

[0114] 在获取到摄像头采集的图像后，使用预设的图像识别模型对图像内容进行识别，生成与图像内容匹配的第二标签，例如，人物、风景、动物等等。

[0115] 在一些实施例中，可以在电子设备上设置一个轻量级的CNN模型，用于情感特征的提取，以及此处的图像识别，以节省电子设备的GPU资源，提高数据处理速度。此时，该CNN模型最后一层为全连接层，该全连接层为分类器，每一个结点对应一个第二标签。在使用该CNN模型提取情感特征时，将倒数第二层输出的数据为情感特征。

[0116] 标签关联模块405，用于将所述第一标签和所述第二标签与所述图像关联。

[0117] 在接收到拍照指令后，电子设备的摄像头会捕获镜头中当前的图像，对图像处理后进行显示。因此，在一些实施例中，在获取到图像后，即将生成的情景标签、情感标签以及第二标签与图像关联后存储，在另外一些实施例中，如图4所示，还可以生成贴标提醒，由用户根据需要选择图像标签。

[0118] 例如，在一些实施例中，标签关联模块405还用于：基于所述第一标签和所述第二标签生成贴标提醒，并展示所述贴标提醒；当接收到基于所述贴标提醒触发的确认指令时，将所述确认指令对应的第一标签和/或所述第二标签与所述图像关联后存储。

[0119] 由上可知，本实施例提出的图像贴标装置，在检测到摄像头启动时，采集当前的全景数据，根据全景数据生成全景特征，进而根据全景特征和预设的第一分类模型生成与全景数据对应的第一标签，并且在接收到拍照指令时，获取摄像头采集的图像，根据该图像和预设的图像识别模型，生成第二标签，该方案在用户拍照时，可以通过全景数据生成能表达当前场景的标签，能够丰富图像标签，方便用户对图像进行检索和回忆，提升用户体验。

[0120] 本申请实施例还提供一种电子设备。所述电子设备可以是智能手机、平板电脑等设备。如图6所示，图6为本申请实施例提供的电子设备的第一种结构示意图。电子设备300包括处理器301和存储器302。其中，处理器301与存储器302电性连接。

[0121] 处理器301是电子设备300的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或调用存储在存储器302内的计算机程序，以及调用存储在存储器302内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

[0122] 在本实施例中，电子设备300中的处理器301会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器302中，并由处理器301来运行存储在存储器302中的计算机程序，从而实现各种功能：

[0123] 当检测到摄像头启动时，采集当前的全景数据，并根据所述全景数据生成全景特征；

[0124] 根据所述全景特征和预设的第一分类模型，生成第一标签；

[0125] 获取所述摄像头采集的图像；

[0126] 根据所述图像和预设的图像识别模型，生成第二标签；

[0127] 将所述第一标签和所述第二标签与所述图像关联。

[0128] 在一些实施例中，全景特征包括情感特征和情景特征；当检测到摄像头启动时，采集当前的全景数据，并根据所述全景数据生成全景特征时，处理器301执行如下步骤：

[0129] 当检测到摄像头启动时，分别采集第一类全景数据和第二类全景数据；

[0130] 根据所述第一类全景数据和预设的特征提取算法，生成情感特征；

[0131] 根据所述第二类全景数据生成情景特征。

[0132] 在一些实施例中，所述第一类全景数据包括用户脸部图像；采集第一类全景数据时，处理器301执行如下步骤：调用摄像头组件捕获用户脸部图像；

[0133] 根据所述第一类全景数据和预设的特征提取算法，生成情感特征的步骤，包括：根据预设的卷积神经网络模型提取所述用户脸部图像中的图像特征，将所述图像特征作为所述情感特征。

[0134] 在一些实施例中，所述第一类全景数据包括语音数据；采集第一类全景数据时，处理器301执行如下步骤：通过语音组件采集语音数据；

[0135] 根据所述第一类全景数据和预设的特征提取算法，生成情感特征的步骤，包括：根据预设的自编码循环神经网络，生成所述语音数据的语义特征向量，将所述语义特征向量作为所述情感特征。

[0136] 在一些实施例中，所述第一类全景数据包括语音数据；采集第一类全景数据时，处理器301执行如下步骤：通过语音组件采集语音数据；

[0137] 根据所述第一类全景数据和预设的特征提取算法，生成情感特征时，处理器301执行如下步骤：根据音频特征提取算法将所述语音数据转换为频谱图；根据预设的自编码卷积神经网络和所述频谱图，生成所述语音数据的语义特征向量，将所述语义特征向量作为所述情感特征。

[0138] 在一些实施例中，所述第二类全景数据包括传感器数据；根据所述第二类全景数据生成情景特征时，处理器301执行如下步骤：按照预设的特征提取算法和采集的传感器数据，生成情景向量；对所述情景向量进行归一化处理，并将归一化处理后的所述情景向量作为所述情景特征。

[0139] 在一些实施例中，根据所述图像和预设的图像识别模型，生成第二标签时，处理器301执行如下步骤：根据预设的卷积神经网络模型对所述图像进行识别，确定所述图像所属的图像类别；将所述图像类别作为所述第二标签。

[0140] 在一些实施例中，将所述第一标签和所述第二标签与所述图像关联时，处理器301执行如下步骤：基于所述第一标签和所述第二标签生成贴标提醒，并展示所述贴标提醒；当接收到基于所述贴标提醒触发的确认指令时，将所述确认指令对应的第一标签和/或所述第二标签与所述图像关联后存储。

[0141] 存储器302可用于存储计算机程序和数据。存储器302存储的计算机程序中包含有可在处理器中执行的指令。计算机程序可以组成各种功能模块。处理器301通过调用存储在存储器302的计算机程序，从而执行各种功能应用以及数据处理。

[0142] 在一些实施例中，如图7所示，图7为本申请实施例提供的电子设备的第二种结构示意图。电子设备300还包括：射频电路303、显示屏304、控制电路305、输入单元306、音频电路307、传感器308以及电源309。其中，处理器301分别与射频电路303、显示屏304、控制电路305、输入单元306、音频电路307、传感器308以及电源309电性连接。

[0143] 射频电路303用于收发射频信号，以通过无线通信与网络设备或其他电子设备进行通信。

[0144] 显示屏304可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图像、文本、图标、视频和其任意组合来构成。

[0145] 控制电路305与显示屏304电性连接，用于控制显示屏304显示信息。

[0146] 输入单元306可用于接收输入的数字、字符信息或用户特征信息(例如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。其中，输入单元306可以包括指纹识别模组。

[0147] 音频电路307可通过扬声器、传声器提供用户与电子设备之间的音频接口。其中，音频电路307包括麦克风。所述麦克风与所述处理器301电性连接。所述麦克风用于接收用户输入的语音信息。

[0148] 传感器308用于采集外部环境信息。传感器308可以包括环境亮度传感器、加速度传感器、陀螺仪等传感器中的一种或多种。

[0149] 电源309用于给电子设备300的各个部件供电。在一些实施例中，电源309可以通过电源管理系统与处理器301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

[0150] 尽管图7中未示出，电子设备300还可以包括摄像头、蓝牙模块等，在此不再赘述。

[0151] 由上可知，本申请实施例提供了一种电子设备，所述电子设备在检测到摄像头启动时，采集当前的全景数据，根据全景数据生成全景特征，进而根据全景特征和预设的第一分类模型生成与全景数据对应的第一标签，并且在接收到拍照指令时，获取摄像头采集的图像，根据该图像和预设的图像识别模型，生成第二标签，该方案在用户拍照时，可以通过全景数据生成能表达当前场景的标签，能够丰富图像标签，方便用户对图像进行检索和回忆，提升用户体验。

[0152] 本申请实施例还提供一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，所述计算机执行上述任一实施例所述的图像贴标方法。

[0153] 需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述存储介质可以包括但不限于：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

[0154] 以上对本申请实施例所提供的图像贴标方法、装置、存储介质及电子设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

图像贴标方法、装置、存储介质及电子设备转让专利

申请号 : CN201910282450.7

文献号 : CN111797660A

文献日 : 2020-10-20

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 陈仲铭 , 何明

申请人 : OPPO广东移动通信有限公司

摘要 :

权利要求 :

说明书 :