一种基于多层次特征融合的社交关系识别方法转让专利

申请号 : CN202011271118.X

文献号 : CN114493905B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 卿粼波李林东何小海王昱晨陈洪刚

申请人 : 四川大学

摘要 :

本发明提出了一种基于多层次特征融合的社交关系识别方法,主要涉及深度学习中通过提取和融合多层次特征进行社交关系识别的问题。首先,通过结点生成模型提取社交关系识别相关特征,并形成社交关系结点和场景结点;然后,以全连接的方式连接各社交关系结点和场景点,构建引入场景的社交关系图;接着利用门控图神经网络模拟人的思维对构建的社交关系图对进行推理;最后,通过全连接层对经过图推理后的社交关系结点进行社交关系分类。本发明充分考虑社交关系识别相关的各层次特征,通过图的形式对提取的特征进行有效融合,并引入图神经网络进行图推理,解决了社交关系识别中特征提取不充分及其融合方式过于粗糙的问题。

权利要求 :

1.一种基于多层次特征融合的社交关系识别方法,其特征在于:

a.通过全连接网络、卷积神经网络以及图神经网络提取与社交关系识别相关的各层次特征;

b.构建非欧氏空间的动态的社交关系图,并通过图神经网络推理社交关系之间的逻辑关系;

c.以结点的形式引入场景特征‑ 的社交关系图,通过消息传递的方式将场景信息纳入社交关系的推理中,以增强社交关系识别的合理性;

该方法主要包括以下步骤:

(1)数据处理与增强:对作为输入的两人物边界框区域和人物对联合区域统一裁剪为

224×224的尺寸,对整张图片裁剪为448×448的尺寸,并对裁剪后的图片做归一化和随机水平翻转;另外,将两人物边界框的位置信息和面积信息归一化后作为一路输入;

(2)特征提取:通过所述结点生成模型中的一层全连接层、两个权重共享且预训练的ResNet‑101网络、一个参数独立的ResNet‑101网络、一个预训练的ResNet‑50网络依次提取人物对的相对位置特征、人物对中每一个人的特征、人物对共同区域的特征以及整幅图的场景特征;

(3)结点生成:用一层全连接层融合人物对的相对位置特征、人物对中每一个人的特征以及人物对共同区域的特征以形成社交关系结点,用ResNet‑50网络提取到的场景特征作为场景结点;需要说明的是,一张RGB图像中每两个人形成一个社交关系结点,但只存在一个场景结点;

(4)图构建与推理:以全连接的方式连接步骤(3)生成的社交关系结点和场景结点来构建引入场景的社交关系图,并通过门控图神经网络对图进行推理,充分挖掘社交关系之间的逻辑关系和传递场景结点蕴含的信息到关系结点;

(5)社交关系分类:移除场景结点,通过全连接层对每个社交关系节点进行分类;

(6)模型训练:通过(2)‑(5)构建的模型的训练分为两步,第一步对用于生成社交关系结点的各路网络做整体训练,删除分类层后保存参数;第二步冻结社交关系结点和场景结点生成网络的参数,对整个网络进行训练,保存整体模型的参数用于社交关系识别。

2.如权利要求1所述的基于多层次特征融合的社交关系识别方法,其特征在于在步骤(2)和(4)中,通过全连接层和ResNet网络提取低层次的人物对相关特征和高层次的场景语义特征,另外通过构建社交关系图的形式形成社交关系之间的逻辑关系,即中层次的社交关系之间的特征。

3.如权利要求1所述的基于多层次特征融合的社交关系识别方法,其特征在于在步骤(4)中,根据每张RGB图像中人物数的不同,形成不同数量的社交关系结点和一个场景结点,动态构建非欧氏空间的社交关系图,并通过专门为图结构数据设计的门控图神经网络对图进行推理,以挖掘社交关系之间的逻辑关系和传播场景结点蕴含的信息。

4.如权利要求1所述的基于多层次特征融合的社交关系识别方法,其特征在于在步骤(4)中,以结点的形式引入场景特征,并通过边与社交关系结点建立联系,在消息传递的过程中将场景信息融入到社交关系结点中,使最后的分类更具有合理性。

说明书 :

一种基于多层次特征融合的社交关系识别方法

技术领域

[0001] 本发明涉及深度学习领域中的社交关系识别问题,尤其是涉及一种基于多层次特征融合的社交关系识别方法。

背景技术

[0002] 在计算机视觉领域,社交关系识别是一项研究人与人之间关系的重要任务,为人的行为理解提供了重要线索。现有研究大多通过提取人脸、身体、场景等相关特征来进行社交关系识别,达到了不错的效果。近年来,专为图结构数据设计的图神经网络快速发展,并对其它领域也起到了促进作用。因此,部分研究者将其引入到社交关系识别领域中,模拟人的思维对场景中的人物和物体关系进行推理来提升社交关系识别的准确率。目前,社交关系识别在照片分类、群体划分、人群活动分析等领域发挥着重要作用。
[0003] 社交关系识别作为计算机视觉领域的重要研究任务,受到了国内外相关研究人员的广泛关注。已有的识别方法仅仅考虑了人物对相关的特征、社交关系之间的逻辑关系特征以及场景特征中的一个或两个,并且大多数的方法通过简单的特征向量拼接来融合提取到的特征,无法充分挖掘特征之间的相关信息。因此,本专利先通过一层全连接层、两个权重共享的ResNet‑101网络、一个参数独立的ResNet‑101网络、一个ResNet‑50网络一次提取人物对的相对位置特征、人物对中每一个人的特征、人物对共同区域的特征以及整幅图的场景特征;然后融合除场景特征外的所有特征形成社交关系结点,以及将提取到的场景特征作为场景结点,接着将这些社交关系结点和场景结点以全连接的方式连接起来形成引入场景的社交关系图并送入图神经网络中进行图推理;最后,移除场景结点,对社交关系结点进行分类,以提高社交关系的识别准确率。

发明内容

[0004] 本发明的目的是提供一种基于多层次特征融合的社交关系识别方法,首先充分提取社交关系识别相关的各层次特征,然后通过图的形式对提取的特征进行融合并产生特征之间的逻辑关系,最后引入图神经网络对构建的引入场景的社交关系图进行推理,有效解决了社交关系识别中特征提取不充分以及特征融合方式过于粗糙的问题。
[0005] 为了方便说明,首先引入一下概念:
[0006] 预训练模型:神经网络的训练需要大量的数据、时间和充足的计算资源,为了避免网络的重复训练,将其他研究者训练的具有较好效果的模型参数迁移到特定任务中的模型中来,并进行微调以适应该任务的需求。
[0007] 图(Graph):指图论中的图,是一种非欧氏空间中的图,由结点(Node)和连接结点的边(Edge)构成。
[0008] 图神经网络(Graph Neural Network,GNN):直接在图上计算的神经网络结构,通过消息传递的方式学习结点的表达,以相邻结点更新当前结点的信息,直到整张图收敛到稳定状态。
[0009] 门控图神经网络(Gated Graph Neural Network,GGNN):为解决传统图神经网络中基于不动点理论(Banach's Fixed Point Theorem)带来的应用限制,引入门控循环单元(Gated Recurrent Unit,GRU)的更新方式形成的新的图神经网络。
[0010] 深度残差网络(ResNets):一种深度学习网络,通过引入残差块来解决网络深度带来的副作用;根据网络层数的不同划分为ResNet‑18、ResNet‑34、ResNet‑50、ResNet‑101以及ResNet‑152。
[0011] 本发明具体采用如下技术方案:
[0012] 一种基于多层次特征融合的社交关系识别方法,其特征在于:
[0013] a.通过全连接网络、卷积神经网络以及图神经网络提取与社交关系识别相关的各层次特征;
[0014] b.构建非欧氏空间的动态的社交关系图,并通过图神经网络推理社交关系之间的逻辑关系;
[0015] c.以结点的形式引入场景特征到的社交关系图,通过消息传递的方式将场景信息纳入社交关系的推理中,以增强社交关系识别的合理性;
[0016] 该方法主要包括以下步骤:
[0017] (1)数据处理与增强:对作为输入的两人物框和人物对联合区域统一裁剪为224×224的尺寸,对整张图片裁剪为448×448的尺寸,并对裁剪后的图片做归一化和随机水平翻转;另外,将两人物框的位置信息和面积信息归一化后作为一路输入;
[0018] (2)特征提取:通过所述结点生成模型中的一层全连接层、两个权重共享且预训练的ResNet‑101网络、一个参数独立的ResNet‑101网络、一个预训练的ResNet‑50网络依次提取人物对的相对位置特征、人物对中每一个人的特征、人物对共同区域的特征以及整幅图的场景特征;
[0019] (3)结点生成:用一层全连接层融合人物对的相对位置特征、人物对中每一个人的特征以及人物对共同区域的特征以形成社交关系结点,用ResNet‑50网络提取到的场景特征作为场景结点;需要说明的是,一张RGB图像中每两个人形成一个社交关系结点,但只存在一个场景结点;
[0020] (4)图构建与推理:以全连接的方式连接步骤(2)生成的社交关系结点和场景结点来构建引入场景的社交关系图,并通过门控图神经网络对图进行推理,充分挖掘社交关系之间的逻辑关系和传播场景结点蕴含的信息到关系结点;
[0021] (5)社交关系分类:移除场景结点,通过全连接层对每个社交关系节点进行分类;
[0022] (6)模型训练:通过(2)-(5)构建的模型的训练分为两步,第一步对用于生成社交关系结点的各路网络做整体训练,删除分类层后保存参数;第二步冻结社交关系结点和场景结点生成网络的参数,对整个网络进行训练,保存整体模型的参数用于社交关系识别。
[0023] 本发明的有益效果是:
[0024] (1)充分利用预训练模型进行特征提取,节约了大量的训练时间和计算资源。
[0025] (2)以图的形式融合提取到的各层次特征,并产生新的社交关系之间的逻辑限制,即新的中层次的特征。
[0026] (3)引入图神经网络模型人的思维推理构建的引入场景的社交关系图,有效挖掘社交
[0027] 关系之间的逻辑限制并传递场景信息。

附图说明

[0028] 图1为结点生成模型示意图。
[0029] 图2为整体模型框架图。
[0030] 具体实施方法
[0031] 下面结合附图及实施例对本发明作进一步的详细说明,有必要指出的是,以下的实施例只用于对本发明做进一步的说明,不能理解为对本发明保护范围的限制,所属领域技术熟悉人员根据上述发明内容,对本发明做出一些非本质的改进和调整进行具体实施,应仍属于本发明的保护范围。
[0032] 基于多层次特征融合的社交关系识别方法,具体包括以下步骤:
[0033] (1)数据处理与增强
[0034] 对作为输入的两人物边界框区域和人物对联合区域统一裁剪为224×224的尺寸,对整张图片裁剪为448×448的尺寸,并对裁剪后的图片做归一化处理和随机水平翻转;另外,两人物边界框的位置信息和面积信息归一化后作为一路输入,其具体表示为:
[0035]
[0036] 其中,xmin_A,ymin_A,xmax_A,ymax_A分别表示图1中person A边界框左上角和右下角的坐标,areaA表示person A边界框的面积。同样地,xmin_B,ymin_B,xmax_B,ymax_B,areaB对应于person B边界框的坐标和面积。当该向量作为网络输入时,其各坐标和面积均被归一化到[‑1~1]。
[0037] (2)特征提取
[0038] 通过图1中的结点生成模型中的一层全连接层、两个权重共享且在ImageNet数据集上预训练的ResNet‑101网络、一个参数独立的ResNet‑101网络、一个在Places365‑Standard数据集上预训练的ResNet‑50网络依次提取人物对的相对位置特征、人物对中每一个人的特征、人物对共同区域的特征以及整幅图的场景特征。
[0039] (3)结点生成
[0040] 如图1所示,用一层全连接层融合人物对的相对位置特征、人物对中每一个人的特征以及人物对共同区域的特征以形成社交关系结点,用ResNet‑50网络提取到的场景特征作为场景结点;需要说明的是,一张RGB图像中每两个人形成一个社交关系结点,但只存在一个场景结点,如图2所示输入图片中存在三个人物,则两两组成三对人物对形成三个社交关系结点,而提取整张图片中的场景特征作为一个关系结点。
[0041] 另外,社交关系结点和场景结点都通过各自结点生成网络的最后一层统一变换到512维,即所有输入图神经网络的结点表示都为512维。
[0042] (4)图构建与推理
[0043] 以全连接的方式连接步骤(3)生成的社交关系结点和场景结点来构建引入场景的社交关系图,当输入图片中存在三个人物时,其社交关系图如图2所示。形成引入场景的社交关系图后,将其送入门控图神经网络中进行图推理,充分挖掘社交关系之间的逻辑关系和传递场景结点蕴含的信息到关系结点。
[0044] 该部分的门控图神经网络的层数为3,各层的输入输出均为512维。
[0045] (5)社交关系分类
[0046] 对图进行充分推理后,移除场景结点,通过全连接层对各社交关系结点进行分类。
[0047] (6)模型训练
[0048] 通过(2)‑(5)构建的模型的训练分为两步,第一步对用于生成社交关系结点的各路网络做整体训练,删除分类层后保存参数;第二步冻结社交关系结点和场景结点生成网络的参数,对整个网络进行训练,保存整体模型的参数用社交关系识别。