图像的聚类方法、装置及电子设备转让专利

申请号 : CN202311006263.9

文献号 : CN116719962B

文献日 : 2023-10-27

本申请提供了一种图像的聚类方法、装置及电子设备，其中，该方法包括：获取图像集中每个图像对应的人脸特征以及所述每个图像的属性特征，其中，所述属性特征包括创建时间和地理位置信息，所述地理位置信息是拍摄图像时的地点的相关信息；以所述创建时间为特征对所述图像集中的各个图像进行第一次聚类处理，得到多个第一图像分堆；以所述地理位置为特征对所述多个第一图像分堆进行合并处理，得到多个第二图像分堆；基于所述人脸特征，对每个第二图像分堆中的各个图像进行第二次聚类处理，得到第三图像分堆。本申请解决了现有技术中由于存储或展示给用户的图像数量巨大导致当用户想要浏览相关的图像时需要耗费很多的时间的技术问题。

1.一种图像的聚类方法，其特征在于，包括：

获取图像集中每个图像对应的人脸特征以及所述每个图像的属性特征，其中，所述属性特征包括创建时间和地理位置信息，所述地理位置信息是拍摄图像时的地点的相关信息；

以所述创建时间为特征对所述图像集中的各个图像进行第一次聚类处理，得到多个第一图像分堆；

以所述地理位置为特征对所述多个第一图像分堆进行合并处理，得到多个第二图像分堆；

基于所述人脸特征，对每个第二图像分堆中的各个图像进行第二次聚类处理，得到第三图像分堆；

其中，获取图像集中每个图像对应的人脸特征包括：

基于LSTM的全局特征、注意力机制的权重矩阵、注意力机制的参数矩阵、LSTM隐藏状态，来计算注意力查询向量；

基于所述注意力查询向量、所述注意力查询向量和键向量之间的相似度得分、用于缩放相似度得分的参数、以及偏置项，计算全局特征的权重；

基于所述全局特征的权重、所述全局特征、残差块和所述全局特征的个数，形成跳跃连接，对所述跳跃连接进行卷积操作，并利用激活函数对卷积操作后的所述跳跃连接进行非线性处理，得到频域特征；

将所述频域特征进行逆傅里叶变换，得到时域特征序列，并将所述时域特征序列作为所述人脸特征。

2.根据权利要求1所述的方法，其特征在于，以所述创建时间为特征对所述图像集中的各个图像进行第一次聚类处理，得到多个第一图像分堆，包括：计算所述图像集中的当前图像与前一张图像的创建时间之间的时间间隔；

在所述时间间隔小于等于预设的时间阈值的情况下，计算所述当前图像与所述当前图像之前连续未被聚类且与所述当前图像具有相同创建时间范围的图像的创建时间的平均绝对偏差；

在所述平均绝对偏差小于等于预设的时间相似性阈值的情况下，将所述当前图像和所述前一张图像聚类在一个图像分堆中，其中，所述时间相似性阈值是用来衡量图像时间特征相似性的阈值。

3.根据权利要求2所述的方法，其特征在于，计算所述当前图像与所述当前图像之前连续未被聚类且与所述当前图像具有相同创建时间范围的图像的创建时间的平均绝对偏差，包括：从所述当前图像开始，向前遍历所述图像集中的各个图像直到遍历到所述图像集的第一个图像为止，找到未被聚类且与所述当前图像具有相同创建时间范围的图像；

计算每个所述未被聚类且与所述当前图像具有相同创建时间范围的图像的创建时间与所述当前图像的创建时间的偏差，并将所述偏差添加到时间偏差列表中；

计算所述时间偏差列表中的所有偏差的平均值，得到所述平均绝对偏差。

4.根据权利要求1所述的方法，其特征在于，以所述地理位置为特征对所述多个第一图像分堆进行合并处理，包括：针对所述多个第一图像分堆中相邻的两个第一图像分堆，计算所述两个第一图像分堆中前一个第一图像分堆的最后一张图像与后一个第一图像分堆的第一张图像的地理相似度；

在所述地理相似度小于等于预设的地理距离阈值的情况下，计算所述前一个第一图像分堆的最后一张图像与所述后一个第一图像分堆中所有图像的地理位置的离均差平方和；

在所述离均差平方和小于等于预设的地理相似性阈值的情况下，将所述两个第一图像分堆合并为一个分堆，其中，所述地理相似性阈值是用来衡量图像的地理拍摄位置的相似性的阈值。

5.根据权利要求4所述的方法，其特征在于，计算所述前一个第一图像分堆的最后一张图像与所述后一个第一图像分堆中所有图像的地理位置的离均差平方和，包括：对于所述后一个第一图像分堆中的所有图像，计算地理位置的经度和纬度坐标的平均值，得到所述后一个第一图像分堆的地理位置平均值；

对于所述前一个第一图像分堆的最后一张图像，计算所述最后一张图像的地理位置与所述后一个第一图像分堆的地理位置平均值之间的距离；

将所述最后一张图像的地理位置与所述后一个第一图像分堆的地理位置平均值之间的距离进行平方，得到所述离均差平方和。

6.根据权利要求1所述的方法，其特征在于，基于所述人脸特征，对每个第二图像分堆中的各个图像进行第二次聚类处理，包括：基于每个所述第二图像分堆中的各个图像对应的人脸特征，确定每个所述第二图像分堆的相似度矩阵，其中，所述相似度矩阵表示每个所述第二图像分堆中的各个图像之间的相似度；

基于所述相似度矩阵，对每个所述第二图像分堆中的各个图像进行所述第二次聚类处理。

7.根据权利要求6所述的方法，其特征在于，基于每个所述第二图像分堆中的各个图像对应的人脸特征，确定每个所述第二图像分堆的相似度矩阵，包括：使用相似度度量方法，计算每个所述第二图像分堆中每两个图像之间的相似度值；

基于所述相似度值，得到所述相似度矩阵，其中，所述相似度矩阵是对称矩阵，对角线上的元素表示每个图像与自身的相似度，非对角线上的元素表示不同图像之间的相似度。

8.一种图像的聚类装置，其特征在于，包括：

获取模块，被配置为获取图像集中每个图像对应的人脸特征以及所述每个图像的属性特征，其中，所述属性特征包括创建时间和地理位置信息，所述地理位置信息是拍摄图像时的地点的相关信息；

时间聚类模块，被配置为以所述创建时间为特征对所述图像集中的各个图像进行第一次聚类处理，得到多个第一图像分堆；

位置合并模块，被配置为以所述地理位置为特征对所述多个第一图像分堆进行合并处理，得到多个第二图像分堆；

特征聚类模块，被配置为基于所述人脸特征，对每个第二图像分堆中的各个图像进行第二次聚类处理，得到第三图像分堆；

其中，所述获取模块还被配置为：

基于LSTM的全局特征、注意力机制的权重矩阵、注意力机制的参数矩阵、LSTM隐藏状态，来计算注意力查询向量；

基于所述注意力查询向量、所述注意力查询向量和键向量之间的相似度得分、用于缩放相似度得分的参数、以及偏置项，计算全局特征的权重；

将所述频域特征进行逆傅里叶变换，得到时域特征序列，并将所述时域特征序列作为所述人脸特征。

9.一种电子设备，其特征在于，包括：

存储器，被配置为存储计算机程序；

处理器，被配置为在所述程序运行时，使得计算机执行如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，在所述程序运行时，使得计算机执行如权利要求1至7中任一项所述的方法。

图像的聚类方法、装置及电子设备

技术领域

[0001] 本申请涉及图像分类技术领域，具体而言，涉及一种图像的聚类方法、装置及电子设备。

背景技术

[0002] 近年来，随着计算机网络的持续发展，网络上的图片数据呈现爆发式增长，用户在查找图片时不可避免地面临与日俱增的相关图片数量。同时，各类智能终端的性能和功能也经历了显著的提升，使得这些设备能够存储和呈现给用户更多的图片。然而，这样的增长趋势也带来了新的挑战，尤其是当用户希望浏览相关的图片时。

[0003] 随着相关图片数量的不断增多，用户需要在大量图片中逐一寻找目标图像，导致浏览过程耗费了大量时间和精力，严重影响用户体验。用户可能会感到疲惫和不满，甚至因为耗时浏览而放弃寻找所需的图片，从而无法满足他们的需求。

[0004] 针对上述的问题，目前尚未提出有效的解决方案。

发明内容

[0005] 本申请实施例提供了一种图像的聚类方法、装置及电子设备，以至少解决现有技术中由于存储或展示给用户的图像数量巨大导致当用户想要浏览相关的图像时需要耗费很多的时间的技术问题。

[0006] 根据本申请实施例的一个方面，提供了一种图像的聚类方法，包括：获取图像集中每个图像对应的人脸特征以及所述每个图像的属性特征，其中，所述属性特征包括创建时间和地理位置信息，所述地理位置信息是拍摄图像时的地点的相关信息；以所述创建时间为特征对所述图像集中的各个图像进行第一次聚类处理，得到多个第一图像分堆；以所述地理位置为特征对所述多个第一图像分堆进行合并处理，得到多个第二图像分堆；基于所述人脸特征，对每个第二图像分堆中的各个图像进行第二次聚类处理，得到第三图像分堆。

[0007] 根据本申请实施例的另一方面，还提供了一种图像的聚类装置，包括：获取模块，被配置为获取图像集中每个图像对应的人脸特征以及所述每个图像的属性特征，其中，所述属性特征包括创建时间和地理位置信息，所述地理位置信息是拍摄图像时的地点的相关信息；时间聚类模块，被配置为以所述创建时间为特征对所述图像集中的各个图像进行第一次聚类处理，得到多个第一图像分堆；位置合并模块，被配置为以所述地理位置为特征对所述多个第一图像分堆进行合并处理，得到多个第二图像分堆；特征聚类模块，被配置为基于所述人脸特征，对每个第二图像分堆中的各个图像进行第二次聚类处理，得到第三图像分堆。

[0008] 在本申请实施例中，获取图像集中每个图像对应的人脸特征以及所述每个图像的属性特征，其中，所述属性特征包括创建时间和地理位置信息，所述地理位置信息是拍摄图像时的地点的相关信息；以所述创建时间为特征对所述图像集中的各个图像进行第一次聚类处理，得到多个第一图像分堆；以所述地理位置为特征对所述多个第一图像分堆进行合并处理，得到多个第二图像分堆；基于所述人脸特征，对每个第二图像分堆中的各个图像进行第二次聚类处理，得到第三图像分堆，从而解决了现有技术中由于存储或展示给用户的图像数量巨大导致当用户想要浏览相关的图像时需要耗费很多的时间的技术问题。

附图说明

[0009] 构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

[0010] 图1是根据本申请实施例的一种图像的聚类方法的流程图；

[0011] 图2是根据本申请实施例的另一种图像的聚类方法的流程图；

[0012] 图3是根据本申请实施例的一种特征向量的获取方法的流程图；

[0013] 图4是根据本申请实施例的一种相似度的判断方法的流程图；

[0014] 图5是根据本申请实施例的又一种图像的聚类方法的流程图；

[0015] 图6是根据本申请实施例的一种图像的聚类装置的结构示意图；

[0016] 图7示出了适于用来实现本公开实施例的电子设备的结构示意图。

[0017] 其中，上述附图包括以下附图标记：

[0018] 1001、CPU；1002、ROM；1003、RAM；1004、总线；1005、I/O接口；1006、输入部分；1007、输出部分；1008、存储部分；1009、通信部分；1010、驱动器；1011、可拆卸介质；52、获取模块；54、时间聚类模块；56、位置合并模块；58、特征聚类模块。

具体实施方式

[0019] 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

[0020] 需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

[0021] 除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

[0022] 实施例1

[0023] 本申请实施例提供了一种图像的聚类方法，如图1所示，该方法包括：

[0024] 步骤S102，获取图像集中每个图像对应的人脸特征以及所述每个图像的属性特征。

[0025] 首先，提取人脸特征。针对图像集中的每个图像，使用人脸识别技术或相关的深度学习算法来提取对应的人脸特征。这些人脸特征可以是高维度的向量表示，其中每个维度表示图像中的特定人脸属性。

[0026] 接下来，提取属性特征。所述属性特征包括创建时间和地理位置信息，所述地理位置信息是拍摄图像时的地点的相关信息。具体地，从每个图像的元数据中提取创建时间信息。图像文件通常包含时间戳信息，可以直接获取图像的创建时间，也可以通过其他方式关联到图像创建时间的数据（如数据库记录等）进行获取。此外，许多现代相机和智能手机会在图像的EXIF元数据中记录GPS信息，包括经度和纬度，可以直接提取这些信息。或者，还可以利用第三方地理信息数据库，根据图像的拍摄时间和可能的地点进行位置信息匹配，以获取拍摄地点相关的信息。

[0027] 步骤S104，以所述创建时间为特征对所述图像集中的各个图像进行第一次聚类处理，得到多个第一图像分堆。

[0028] 首先。计算所述图像集中的当前图像与前一张图像的创建时间之间的时间间隔。通过计算图像之间的时间间隔，可以得到图像在时间上的连续性信息。这有助于确定图像之间的时间关联性，从而更好地理解图像的时间序列特征。

[0029] 接下来，在所述时间间隔小于等于预设的时间阈值的情况下，计算所述当前图像与所述当前图像之前连续未被聚类且与所述当前图像具有相同创建时间范围的图像的创建时间的平均绝对偏差。通过计算平均绝对偏差，有效地考虑了图像的时间特征相似性，使得时间相似的图像能够被聚类在一起。

[0030] 例如，从所述当前图像开始，向前遍历所述图像集中的各个图像直到遍历到所述图像集的第一个图像为止，找到未被聚类且与所述当前图像具有相同创建时间范围的图像；计算每个所述未被聚类且与所述当前图像具有相同创建时间范围的图像的创建时间与所述当前图像的创建时间的偏差，并将所述偏差添加到时间偏差列表中；计算所述时间偏差列表中的所有偏差的平均值，得到所述平均绝对偏差。本申请实施例对未被聚类且与当前图像具有相同创建时间范围的图像进行遍历和计算，确保了每个图像都能在适当的时间范围内得到聚类，避免了遗漏和重复聚类的情况。

[0031] 最后，在所述平均绝对偏差小于等于预设的时间相似性阈值的情况下，将所述当前图像和所述前一张图像聚类在一个图像分堆中，其中，所述时间相似性阈值是用来衡量图像时间特征相似性的阈值。通过设定预设的时间相似性阈值，可以灵活地控制图像的聚类程度。当平均绝对偏差小于等于时间相似性阈值时，将当前图像与前一张图像聚类在一个图像分堆中。这样的设计保证了图像的时间特征相似性达到一定程度时才进行聚类，避免了过于松散或过于紧密的聚类结果。

[0032] 步骤S106，以所述地理位置为特征对所述多个第一图像分堆进行合并处理，得到多个第二图像分堆。

[0033] 首先，针对所述多个第一图像分堆中相邻的两个第一图像分堆，计算所述两个第一图像分堆中前一个第一图像分堆的最后一张图像与后一个第一图像分堆的第一张图像的地理相似度。针对相邻的两个第一图像分堆计算它们的地理相似度，这有助于判断两个分堆之间的地理拍摄位置是否相近，从而为后续合并提供依据。

[0034] 接着，在所述地理相似度小于等于预设的地理距离阈值的情况下，计算所述前一个第一图像分堆的最后一张图像与所述后一个第一图像分堆中所有图像的地理位置的离均差平方和；例如，对于所述后一个第一图像分堆中的所有图像，计算地理位置的经度和纬度坐标的平均值，得到所述后一个第一图像分堆的地理位置平均值；对于所述前一个第一图像分堆的最后一张图像，计算所述最后一张图像的地理位置与所述后一个第一图像分堆的地理位置平均值之间的距离；将所述最后一张图像的地理位置与所述后一个第一图像分堆的地理位置平均值之间的距离进行平方，得到所述离均差平方和。本实施例通过计算前一个第一图像分堆的最后一张图像与后一个第一图像分堆中所有图像的地理位置的离均差平方和，有效地测量了两个分堆之间的地理位置差异，从而为判断是否合并提供了具体的数值依据。

[0035] 最后，在所述离均差平方和小于等于预设的地理相似性阈值的情况下，将所述两个第一图像分堆合并为一个分堆，其中，所述地理相似性阈值是用来衡量图像的地理拍摄位置的相似性的阈值。这样，可以减少图像分堆的数量，提高图像组织的效率，并且确保合并的图像分堆在地理位置上较为相似，有助于提高后续图像检索和浏览的准确性和用户体验。

[0036] 步骤S108，基于所述人脸特征，对每个第二图像分堆中的各个图像进行第二次聚类处理，得到第三图像分堆。

[0037] 首先，基于所述第二图像分堆中的每个图像对应的人脸特征，确定所述第二图像分堆的相似度矩阵，其中，所述相似度矩阵表示所述第二图像分堆中的各个图像之间的相似度。例如，使用相似度度量方法，计算所述第二图像分堆中每两个图像之间的相似度值。基于所述相似度值，得到相似度矩阵，其中，所述相似度矩阵是对称矩阵，对角线上的元素表示所述每个图像与自身的相似度，非对角线上的元素表示不同图像之间的相似度。接着，基于所述相似度矩阵，对所述第二图像分堆中的各个图像进行子聚类。

[0038] 通过这种方式，实现了对图像的智能分类和组织，提高了图像集的可管理性和可理解性。同时，基于人脸特征的相似度计算和子聚类还能为后续的图像分析和检索任务提供更准确和有意义的数据支持。最终，能够为用户提供更好的图像浏览和检索体验，减少用户在大量图像中查找目标图像的时间和精力成本，提高用户满意度。

[0039] 实施例2

[0040] 本申请实施例提供了另一种人脸图像的聚类方法，如图2所示，该方法包括：

[0041] 步骤S202，将所有的人脸图像进行聚类，得到分堆集合。

[0042] 例如，可以采用实施例1中的方法，对人脸图像进行聚类。在其他的一些实施例中，也可以采用以下方法进行聚类：

[0043] 首先，对预设时间段内的所有人脸图像进行特征提取，得到多个人脸特征模式。接着，采用聚类算法，利用邻域半径和最小样本数将所述多个人脸特征模式划分为多个簇，并将所述多个簇作为多个分类，得到所述分堆集合。例如，针对所述多个人脸特征模式中的每一个人脸特征模式，计算该人脸特征模式的领域半径内的其他人脸特征模式的数量；在所述数量大于等于所述最小样本数的情况下，将该人脸特征模式作为核心对象；确定与所述核心对象密度相连的人脸特征模式，并将密度相连的所有人脸特征模式聚集到同一个簇中。

[0044] 具体地，首先，选择适合人脸特征的聚类算法，例如DBSCAN（Density‑Based Spatial Clustering of Applications with Noise）算法。然后，设置合适的邻域半径和最小样本数。邻域半径定义了在特征空间中划定一个样本点周围的邻域范围，而最小样本数指定了在邻域范围内必须有多少样本点才能将该点划分为核心对象。

[0045] 接下来，对于所述多个人脸特征模式中的每一个人脸特征模式，执行以下操作：计算该人脸特征模式的邻域半径内的其他人脸特征模式的数量。如果该数量大于等于所述最小样本数，则将该人脸特征模式标记为核心对象。然后，对所有被标记为核心对象的人脸特征模式，进行以下操作：确定与每个核心对象密度相连的其他人脸特征模式，即在邻域半径内的样本点。将所有密度相连的人脸特征模式聚集到同一个簇中，形成一个聚类。

[0046] 最终，得到的分堆集合将由多个聚类组成，每个聚类表示一个堆，其中具有相似特征的人脸图像被归为同一堆。这样的聚类结果有助于将相似的人脸图像分组，从而在人脸相似度匹配任务中提供更好的匹配性能和更高的识别精度。

[0047] 本实施例通过特征提取和DBSCAN聚类算法，将预设时间段内的所有人脸图像聚集成多个簇，形成分堆集合。这样的聚类结果使得具有相似特征的人脸图像被归为同一簇，从而提高了人脸相似度匹配的准确性和匹配性能，优化了人脸识别系统的性能和效率。

[0048] 步骤S204，提取特征得到特征向量。

[0049] 首先，通过对待处理的人脸图像进行傅里叶变换，将图像从时域转换到频域，得到频谱图。这种变换使能够捕捉图像在不同频率上的信息，例如纹理和周期性等。接下来，使用二维卷积层从频谱图中提取全局特征。通过卷积操作，可以在频域图像上滑动并提取局部特征，得到不同特征通道的全局特征表示。

[0050] 然后，将提取得到的全局特征和残差块连接。残差块通过跳跃连接的方式将输入特征与输出特征相加，使得网络可以直接学习残差信息，从而减轻了网络的训练难度。接着，对连接后的残差块和全局特征进行卷积操作和激活函数处理，得到频域特征。这样，进一步增强了特征的表征能力，并引入了非线性变换，使得网络可以学习更复杂的特征表示。

[0051] 在本实施例中，还引入了注意力机制来进一步提升特征表示的质量。通过在残差块中引入注意力机制，网络可以自适应地学习全局特征的权重，从而更加关注重要的特征信息。基于学习到的权重，将全局特征添加到残差块中，形成跳跃连接。在对跳跃连接进行卷积操作和激活函数处理后，得到的频域特征具有更强的非线性表达能力，可以捕捉到更复杂和抽象的特征信息，从而提高了图像分类、目标检测或人脸识别等任务的性能。

[0052] 最后，将得到的频域特征进行逆傅里叶变换，将其转换回时域特征序列，并将时域特征序列作为特征向量。逆傅里叶变换将频域特征还原为原始图像的表示，得到更全局和综合的特征向量。通过这个步骤，得到了更加综合和具有表征性的特征向量，有助于提高特征的稳健性和鲁棒性，进而提升整个人脸识别系统的性能和准确性。因此，引入注意力机制并结合跳跃连接和非线性处理，能够有效地增强特征提取的效果，提高网络的性能和准确性。

[0053] 下面将详细描述特征向量的获取方法，如图3所示，该方法包括以下步骤：

[0054] 步骤S2040，计算注意力查询向量。

[0055] 注意力查询向量（attention query vector）用于查询注意力信息。通常情况下，注意力查询向量可以通过下式得到：

[0056] va = ft * Wa + ht * Ua

[0057] 其中，ft 是全局特征；Wa 是注意力机制的权重矩阵，Ua 是注意力机制的参数矩阵；ht 表示LSTM隐藏状态。

[0058] 本申请实施例引入了两个新参数，分别是注意力机制的权重矩阵 Wa 和参数矩阵 Ua。这些参数在计算注意力查询向量时起到了关键作用。通过引入权重矩阵 Wa，深度学习模型可以自动学习并调整全局特征 ft 的权重，从而使得注意力机制能够更加关注不同频率上的重要信息。而参数矩阵 Ua 则用于调整LSTM隐藏状态 ht 对于注意力查询向量的贡献，从而在计算注意力时考虑到当前频率的状态信息。通过学习这些参数，模型可以更好地适应不同的任务需求和数据分布，从而提高模型的灵活性和准确性。注意力机制可以使模型更加关注任务相关的特征，减少无关信息的影响，从而提高模型在处理复杂任务和大规模数据集时的性能。通过自动学习权重和参数，模型可以在不同场景下自适应地调整注意力查询向量的权重，从而提升特征表示的质量和可解释性。

[0059] 步骤S2042，计算全局特征的权重。

[0060] 将注意力查询向量添加到每个全局特征中，并进行非线性变换，可以获取每个全局特征对应的全局特征的权重。在一些实施例中，全局特征的权重可以通过以下公式得到：

[0061]

[0062] 其中，va 是注意力机制的查询向量，at是权重，表示全局特征对当前任务的重要程度；qk表示注意力查询向量和键向量之间的相似度得分； d 是一个常数，用于缩放相似度得分的参数；b是偏置项，用于进一步调整全局特征的权重的偏移。

[0063] 本实施例通过引入偏置项b，可以使得全局特征的权重计算更加灵活，使模型能够进一步调整注意力的关注程度，从而有助于模型更好地适应不同任务和数据分布，提高模型的性能和泛化能力。同时，通过训练偏置项b，模型能够更精确地调整全局特征的权重，使得对任务相关信息的关注更加准确和敏感。这种注意力机制的引入有助于提高模型在语音处理等任务中的性能，更好地捕捉任务关键信息并提高预测准确性。

[0064] 步骤S2044，形成跳跃连接。

[0065] 在一些实施例中，跳跃连接可以通过以下公式得到：

[0066]

[0067] 其中，xt 是残差块；ft是全局特征；at是全局特征的权重，表示全局特征对当前任务的重要程度；T 是全局特征的个数。跳跃连接的输出yt 是残差块xt和全局特征ft 加权求和后的结果。通过全局特征的权重at 对全局特征进行加权，实现了对于全局特征的自适应调节，使得网络能够更加关注重要的全局特征。将全局特征的信息传递到残差块中，从而加强了网络的表示能力和表达能力。跳跃连接的引入有助于提高网络的性能和泛化能力，使得网络能够更好地适应不同任务和数据分布，提高模型的准确性。

[0068] 步骤S2046，对所述跳跃连接进行卷积操作，并利用所述激活函数对卷积操作后的所述跳跃连接进行非线性处理，得到所述频域特征。

[0069] 在跳跃连接后，可以对跳跃连接进行卷积操作，进一步提取更丰富的局部特征信息。卷积操作在频域特征上滑动并提取局部特征，通过多个卷积核对跳跃连接进行卷积运算，可以得到不同特征通道的频域特征表示。这样的卷积操作有助于增强网络对于局部特征的感知能力，并捕捉更具体和细粒度的特征信息。

[0070] 接下来，在卷积操作后，使用激活函数对卷积后的跳跃连接进行非线性处理。激活函数的引入能够引入非线性变换，使得网络可以学习更复杂的特征表示。常用的激活函数包括ReLU（Rectified Linear Unit）、Sigmoid、Tanh等。激活函数在频域特征中引入了非线性变换，从而允许网络学习非线性关系，增强了网络的表示能力。

[0071] 通过对跳跃连接进行卷积操作和激活函数处理，得到了频域特征。这些频域特征具有更强的非线性表达能力，因为它们通过卷积和激活函数的处理，捕捉到了更复杂和抽象的特征信息。频域特征可以表示信号在不同频率上的成分和能量分布，以及局部特征之间的相互关系，有助于更全面地描述信号的频域特性。

[0072] 最终，通过上述步骤，成功地将跳跃连接后的频域特征提取出来。这些频域特征可以用于进一步的信号处理、特征表示、分类、目标检测或人脸识别等任务。通过引入卷积操作和激活函数处理，增强了网络的特征提取能力和表达能力，提高了模型在频域特征表示任务中的性能和准确性。频域特征的提取对于许多信号处理和机器学习任务都具有重要的意义，它能够帮助更好地理解信号的频域特性，从而实现更加准确和高效的信号处理和分析。

[0073] 步骤S2048，将得到的频域特征进行逆傅里叶变换，将其转换回时域特征序列，并将时域特征序列作为特征向量。

[0074] 步骤S206，使用距离度量法来计算所述特征向量与分堆集合中的每一个分堆的相似度。

[0075] 如图4所示，相似度的判断方法包括以下步骤：

[0076] 步骤S2062，确定距离阈值。

[0077] 首先，获取多个人脸样本图像，并计算这些图像中每两个人脸样本图像之间的相似度。基于这些相似度，可以预测每两个人脸样本图像是否为相似对或不相似对。然后，在预设的阈值范围内遍历不同阈值，计算每个阈值对应的相似对的精度值和召回值，以及不相似对的精度值和召回值。

[0078] 接下来，使用这些精度值和召回值来绘制相似对的精度召回曲线和不相似对的精度召回曲线。这些曲线提供了关于不同阈值下算法性能的详细信息，有助于选择最适合任务需求的阈值。综合考虑相似对和不相似对的精度召回率曲线，可以确定最佳的距离阈值，从而使得人脸相似度匹配任务在实际应用中表现更好。

[0079] 例如，可以通过观察相似对的精度召回曲线和不相似对的精度召回曲线的变化趋势来找到精度和召回率在相似对的曲线上尽可能接近最大值，而在不相似对的曲线上尽可能接近最小值的阈值，作为距离阈值。

[0080] 通过上述步骤，可以自动找到最佳的阈值，优化人脸相似度匹配算法的性能。这样的优化将使得系统在实际应用中更可靠和准确，提高了人脸识别系统的效能。

[0081] 步骤S2064，基于距离阈值来判定特征向量与每一个分堆的聚类中心之间的相似度。

[0082] 接着，在确定了距离阈值后，可以基于该距离阈值来判定特征向量与每一个分堆的聚类中心之间的相似度。对于每个特征向量，计算其与所属分堆的聚类中心的距离，并将这个距离与选择的距离阈值进行比较。如果特征向量与分堆的聚类中心的距离大于等于选择的聚类阈值，则判定为不相似；如果距离小于所选的聚类阈值，则判定为相似。

[0083] 通过这种方式，可以将待处理的人脸图像分堆，将相似的人脸图像归为同一分堆，而不相似的人脸图像则建立新的分堆。这样的分堆策略能够动态适应不同的数据集和应用场景，为人脸相似度匹配任务提供更好的适应性和泛化能力。同时，该方案也能够在不同任务需求下自动找到最佳的阈值，使得人脸识别系统能够在实际应用中取得较好的效果。

[0084] 实施例3

[0085] 本申请实施例提供了又一种人脸图像的聚类方法，如图5所示，该方法包括：

[0086] 步骤S502，获取待处理的人脸图像，利用深度学习方法从所述待处理的人脸图像中提取特征，得到特征向量。

[0087] 首先，通过对待处理的人脸图像进行傅里叶变换，得到频谱图。傅里叶变换将图像从时域转换到频域，将图像表示为频谱图有助于捕捉图像在不同频率上的信息，例如纹理、周期性等。

[0088] 接下来，使用二维卷积层从频谱图中提取全局特征。卷积层在频域图像上滑动并提取局部特征，通过多个卷积核对频谱图进行卷积运算，可以得到不同特征通道的全局特征表示。

[0089] 然后，将提取得到的全局特征连接到残差块中。残差块通过跳跃连接的方式将输入特征与输出特征相加，允许网络直接学习残差信息，从而减轻了网络的训练难度，使得网络更易于训练。接着，对连接了残差块的全局特征进行卷积操作和激活函数处理，得到频域特征。卷积操作可以进一步提取图像的局部特征，增强特征的表征能力。激活函数的引入可以引入非线性变换，使得网络可以学习更复杂的特征表示。

[0090] 例如，在所述残差块中引入注意力机制，利用所述注意力机制自适应地学习所述全局特征的权重；基于所述权重，将所述全局特征添加到所述残差块中，形成所述跳跃连接；对所述跳跃连接进行卷积操作，并利用所述激活函数对卷积操作后的所述跳跃连接进行非线性处理，得到所述频域特征。

[0091] 本实施例通过利用注意力机制，网络可以自适应地学习全局特征的权重，使得在特征提取过程中更加关注重要的特征信息，从而提高特征表示的质量。在形成跳跃连接时，根据学习到的权重，将全局特征添加到残差块中，使得网络可以充分利用全局特征的信息，进一步增强了特征表示的能力。对跳跃连接进行卷积操作和激活函数处理后，得到的频域特征具有更强的非线性表达能力，使得网络可以捕捉到更复杂和抽象的特征信息，有助于提高图像分类、目标检测或人脸识别等任务的性能。因此，引入注意力机制并结合跳跃连接和非线性处理，能够有效地增强特征提取的效果，提升网络的性能和准确性。

[0092] 最后，将得到的频域特征进行逆傅里叶变换，得到时域特征序列，并将时域特征序列作为特征向量。逆傅里叶变换将频域特征还原为原始图像的表示，将频域特征转换回时域，得到更全局和综合的特征向量。

[0093] 步骤S504，使用距离度量法来计算所述特征向量与分堆集合中的每一个分堆的相似度，并基于所述相似度判断所述分堆集合中是否存在一个分堆与所述待处理的人脸图像相似，其中，所述每一个分堆包括至少一张人脸图像。

[0094] 首先，确定距离阈值。具体地，获取多个人脸样本图像，计算所述多个人脸样本图像中每两个人脸样本图像的相似度；基于所述相似度预测所述每两个人脸样本图像为相似对或不相似对；在预设的阈值范围内遍历阈值，计算每个阈值对应的所述相似对的精度值和召回值、所述不相似对的精度值和召回值；根据所有阈值对应的相似对的精度值和召回值，得到相似对的精度召回曲线，根据所有阈值对应的不相似对的精度值和召回值，得到不相似对的精度召回曲线；基于所述相似对的精度召回曲线和所述不相似对的精度召回曲线，确定所述距离阈值。

[0095] 通过以上步骤，可以得到相似对的精度召回率曲线和不相似对的精度召回率曲线。这些曲线将提供关于不同阈值下算法性能的详细信息，有助于选择最适合任务需求的阈值。最终，通过综合考虑相似对和不相似对的精度召回率曲线，能够确定最佳的距离阈值，从而使得人脸相似度匹配任务能够在实际应用中取得较好的效果。

[0096] 例如，基于所述相似对的精度召回曲线和所述不相似对的精度召回曲线，确定所述相似对的精度召回曲线和所述不相似对的精度召回曲线的变化趋势；基于所述变化趋势，找到精度和召回率在所述相似对的精度召回曲线上尽可能接近最大值而在所述不相似对的精度召回曲线上尽可能接近最小值的值，作为所述距离阈值。

[0097] 通过这种方式，能够自动找到最佳的阈值，从而优化人脸相似度匹配算法的性能。最终的结果将使系统在实际应用中表现更加可靠和准确，提升了人脸识别系统的效能。

[0098] 接着，基于阈值确定相似度。分别确定所述特征向量到所述每一个分堆的聚类中心的距离；在所述距离皆大于等于距离阈值的情况下，判定所述特征向量与相应的分堆不相似；在所述距离小于所述距离阈值的情况下，判定所述特征向量与相应的分堆相似。

[0099] 步骤S506，在存在一个分堆与所述待处理的人脸图像相似的情况下，将所述待处理的人脸图像归类于相应的分堆，否则，建立一个新的分堆，将所述待处理的人脸图像归类于所述新的分堆。

[0100] 通过这种归类方式，可以根据相似度将人脸图像动态地组织为不同的堆，并适应数据集的变化。这样的分堆策略能够为人脸识别和相关任务提供更好的适应性和泛化能力，使得系统在处理多样化和复杂化数据时表现更加鲁棒和准确。

[0101] 实施例4

[0102] 本申请实施例还提供了一种图像的聚类装置，如图6所示，包括：获取模块52、时间聚类模块54、位置合并模块56和特征聚类模块58。

[0103] 获取模块52被配置为获取图像集中每个图像对应的人脸特征以及所述每个图像的属性特征，其中，所述属性特征包括创建时间和地理位置信息，所述地理位置信息是拍摄图像时的地点的相关信息。

[0104] 时间聚类模块54被配置为以所述创建时间为特征对所述图像集中的各个图像进行第一次聚类处理，得到多个第一图像分堆。

[0105] 位置合并模块56被配置为以所述地理位置为特征对所述多个第一图像分堆进行合并处理，得到多个第二图像分堆。

[0106] 特征聚类模块58被配置为基于所述人脸特征，对每个第二图像分堆中的各个图像进行第二次聚类处理，得到第三图像分堆。

[0107] 需要说明的是：上述实施例提供的图像的聚类装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像的聚类装置与图像的聚类方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

[0108] 实施例5

[0109] 图7示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是，图7示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

[0110] 如图7所示，该电子设备包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

[0111] 以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

[0112] 特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，电子设备还可以包括AI( Artificial
Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

[0113] 需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

[0114] 附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

[0115] 描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

[0116] 作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

[0117] 上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现上述方法实施例的各个步骤等。

[0118] 以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

图像的聚类方法、装置及电子设备转让专利

申请号 : CN202311006263.9

文献号 : CN116719962B

文献日 : 2023-10-27

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 王英 , 安佳宇

申请人 : 世优(北京)科技有限公司

摘要 :

权利要求 :

说明书 :