基于多模态语义角色识别的人机交互指令解析方法及装置转让专利

申请号 : CN202210659318.5

文献号 : CN114757209B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张梅山卢攀忠林智超孙越恒

申请人 : 天津大学

摘要 :

本发明提供了一种基于多模态语义角色识别的人机交互指令解析方法及装置,涉及自然语言处理中的语义分析技术领域。包括:根据人机交互指令的特性,构建一套完善的指令语义角色标注范式;根据所述指令语义角色标注范式,结合图像采集,将语义角色标注模型的单模态形式扩展为视觉文本多模态形式;对语义角色标注模型的视觉文本多模态形式进行训练学习,完成多模态语义角色识别对人机交互指令进行语义解析。本发明创新性的尝试用多模态语义角色标注的范式来对人机交互指令进行语义解析,从而将原本机器无法理解的指令转换成机器可理解的语义结构化输出,做到更加方便、安全、快捷的执行用户的意图。

权利要求 :

1.一种基于多模态语义角色识别的人机交互指令解析方法,其特征在于,包括以下步骤:S1:根据人机交互指令的特性,构建指令语义角色标注范式;

S2:根据所述指令语义角色标注范式,结合图像采集,将语义角色标注模型的单模态形式扩展为视觉文本多模态形式;

S3:对语义角色标注模型的视觉文本多模态形式进行训练学习,完成多模态语义角色识别对人机交互指令的语义解析;

所述步骤S3中,对语义角色标注模型的视觉文本多模态形式进行训练学习,完成多模态语义角色识别对人机交互指令进行语义解析,包括:S31:根据语义角色标注模型的视觉文本多模态形式构建预训练模型;

S32:所述预训练模型的输入的指令 ;利用BERT预训练模型对所述指令I进行编码,获得指令I中每个词对应的词向量序列 ;

S33:枚举出指令I中所有的跨度 ,其中

,获得每个跨度的特征向量;其中,所述跨度的大小均为预设值;

S34:根据所述每个跨度的特征向量,生成语义图中谓词节点和语义角色节点对应的候选向量;

S35:引入损失函数对模型的训练损失进行完善,完成多模态语义角色识别对人机交互指令进行语义解析。

2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,根据人机交互指令的特性,构建指令语义角色标注范式,包括:S11:采用VerbAtlas语义角色标注数据的标注方式作为标注基准;

S12:对预存的中文语义角色标注范式扩展和修改,使扩展和修改后的中文语义角色标注范式适用于人机交互指令的语义解析,获得指令语义角色标注范式。

3.根据权利要求2所述的方法,其特征在于,所述步骤S2中,根据所述指令语义角色标注范式,结合图像采集,将语义角色标注模型的单模态形式扩展为视觉文本双模态形式,包括:S21:根据所述指令语义角色标注范式,通过无人系统采集图像,采用Faster‑RCNN获得序列目标区域,将所述序列目标区域组成图像区域序列,对所述图像序列特征进行提取;

S22:通过提取的图像序列特征,对语义文本端的语义角色进行辅助识别,将语义角色标注模型的单模态形式扩展为视觉文本双模态形式。

4.根据权利要求1所述的方法,其特征在于,所述S34中,采用两个不同的层感知机MLP层分别得到谓词候选向量 以及语义角色候选向量 ,其中:。

5.根据权利要求4所述的方法,其特征在于,所述S35中,引入损失函数对模型的训练损失进行完善,包括:构建语义角色标注损失函数,判断模型预测的谓词及论元结构的完整性;

其中,包括一个MLP 层得分层以及一个Biaffine得分层;所述MLP 层得分层用于判断当前谓词节点的语义框架,所述Biaffine得分层用于对句子中每个谓词 语义角色以及两者关系 的三元组 进行打分;交叉熵来计算每个三元组的损失,所述语义角色标注损失函数如下述公式(1)所示:。

6.根据权利要求4所述的方法,其特征在于,所述S35中,引入损失函数对模型的训练损失进行完善,包括:构建模态匹配函数,用于图像和文本跨模态特征对的模态匹配,该函数的标签定义为如果该语义角色对应的片段中包含目标区域对应的物体,则输出标签为1,否则标签为0;通过多任务学习的范式,定义如下述公式(2)的模态匹配函数的损失函数:。

7.一种基于多模态语义角色识别的人机交互指令解析装置,其特征在于,所述装置适用于上述权利要求1‑6 中任意一项的方法,装置包括:指令语义角色标注范式构建模块,用于根据人机交互指令的特性,构建指令语义角色标注范式;

多模态构建模块,用于根据所述指令语义角色标注范式,结合图像采集,将语义角色标注模型的单模态形式扩展为视觉文本多模态形式;

模型训练模块,用于对语义角色标注模型的视觉文本多模态形式进行训练学习,完成多模态语义角色识别对人机交互指令进行语义解析。

8.根据权利要求7所述的装置,其特征在于,所述指令语义角色标注范式构建模块,用于根采用VerbAtlas语义角色标注数据的标注方式作为标注基准;

对预存的中文语义角色标注范式扩展和修改,使扩展和修改后的中文语义角色标注范式适用于人机交互指令的语义解析,获得指令语义角色标注范式。

9.根据权利要求7所述的装置,其特征在于,所述多模态构建模块,用于根据所述指令语义角色标注范式,通过无人系统采集图像,采用Faster‑RCNN获得序列目标区域,将所述序列目标区域组成图像区域序列,对所述图像序列特征进行提取;

通过提取的图像序列特征,对语义文本端的语义角色进行辅助识别,将语义角色标注模型的单模态形式扩展为视觉文本双模态形式。

说明书 :

基于多模态语义角色识别的人机交互指令解析方法及装置

技术领域

[0001] 本发明涉及自然语言处理中的语义分析技术领域,特别是指一种基于多模态语义角色识别的人机交互指令解析方法及装置。

背景技术

[0002] 语义角色标注是一种浅层语义分析技术,用于抽取出句子中所蕴含的谓词‑论元结构。其中,谓词是一条语句中能够引发一个语义事件的核心词,论元则是参与该语义事件的角色,包括施事者、受事者等。总的来说,语义角色标注技术的核心在于能够让机器理解一句话中“谁都谁做了什么,在什么时间和地点”。目前,已经有着许多应用尝试将语义角色标注作为其技术链路中的关键一环,如知识问答、对话机器人、机器翻译等。
[0003] 随着技术的发展,人机交互技术已经逐渐成为用户控制无人设备(如机器人、无人机)的一种重要方式。通过语音下达指令,使得无人设备理解操控者的意图,从而执行相应的命令,可以解放操控者的双手,更加方便、安全、快捷地操控无人设备。然而,现有的指令解析技术发展有限,不能做到有针对性的从指令中解析出机器可理解的语义结构。本发明计划利用语义角色标注技术本身的优势,做到对控制指令的意图语义高精度的解析,使得无人设备更好的服务于用户,执行更高抽象难度的作业。
[0004] 目前语义角色标注整体流程主要分为两种,一种是基于流水线的方式,利用序列标注方法识别出句子中的谓词,接着再识别出句子中的语义角色(论元),这会导致错误传播的问题严重。另一种则是构建语义图的方法来同时抽取出谓词和其对应的语义角色,首先通过枚举句子所有可能的谓词和论元候选片段作为图中节点,接着利用谓词片段和语义角色片段之间的语义角色关系作为图中的边,最终通过精确的解码构成的语义图得到结构化输出。目前的无人设备大都具有视觉和语言两种感知,然而现有的语义角色标注方法大都面向单一文本设定下,忽略了图像信息和文本信息之间重要的互补关系。
[0005] 目前语义角色标注数据集的标注范式大都面向通用领域,在特殊领域如无人设备指令操控指令下仍有较大的空白。

发明内容

[0006] 针对现有技术中无人设备指令操控指令下仍有较大的空白的问题,本发明提出了一种基于多模态语义角色识别的人机交互指令解析方法及装置。
[0007] 为解决上述技术问题,本发明提供如下技术方案:
[0008] 一方面,提供了一种基于多模态语义角色识别的人机交互指令解析方法,该方法应用于电子设备,包括以下步骤:
[0009] S1:根据人机交互指令的特性,构建指令语义角色标注范式;
[0010] S2:根据所述指令语义角色标注范式,结合图像采集,将语义角色标注模型的单模态形式扩展为视觉文本多模态形式;
[0011] S3:对语义角色标注模型的视觉文本多模态形式进行训练学习,完成多模态语义角色识别对人机交互指令进行语义解析。
[0012] 可选地,步骤S1中,根据人机交互指令的特性,构建指令语义角色标注范式,包括:
[0013] S11:采用VerbAtlas语义角色标注数据的标注方式作为标注基准;
[0014] S12:对预存的中文语义角色标注范式扩展和修改,使扩展和修改后的中文语义角色标注范式适用于人机交互指令的语义解析,获得指令语义角色标注范式。
[0015] 可选地,步骤S2中,根据所述指令语义角色标注范式,结合图像采集,将语义角色标注模型的单模态形式扩展为视觉文本双模态形式,包括:
[0016] S21:根据所述指令语义角色标注范式,通过无人系统采集图像,采用Faster‑RCNN获得序列目标区域,将所述序列目标区域组成图像区域序列,对所述图像序列特征进行提取;
[0017] S22:通过提取的图像序列特征,对语义文本端的语义角色进行辅助识别,将语义角色标注模型的单模态形式扩展为视觉文本双模态形式。
[0018] 可选地,步骤S3中,对语义角色标注模型的视觉文本多模态形式进行训练学习,完成多模态语义角色识别对人机交互指令进行语义解析,包括:
[0019] S31:根据语义角色标注模型的视觉文本多模态形式构建预训练模型;
[0020] S32:所述预训练模型的输入的指令 ;利用BERT预训练模型对所述指令I进行编码,获得指令I中每个词对应的词向量序列 ;
[0021] S33:枚举出指令I中所有的跨度 ,其中 ,获得每个跨度的特征向量;其中,所述跨度的大小均为预设值;
[0022] S34:根据所述每个跨度的特征向量,生成语义图中谓词节点和语义角色节点对应的候选向量;
[0023] S35:引入损失函数对模型的训练损失进行完善,完成多模态语义角色识别对人机交互指令进行语义解析。
[0024] 可选地,S34中,采用两个不同的MLP层分别得到谓词候选向量 以及语义角色候选向量 ,其中: ; 。
[0025] 可选地,S35中,引入损失函数对模型的训练损失进行完善,包括:
[0026] 构建语义角色标注损失函数,判断模型预测的谓词及论元结构的完整性;
[0027] 其中,包括一个MLP 层得分层以及一个Biaffine得分层;所述MLP 层得分层用于判断当前谓词节点的语义框架,所述Biaffine得分层用于对句子中每个谓词 、语义角色以及两者关系 的三元组 进行打分;交叉熵来计算每个三元组的损失,所述语义角色标注损失函数如下述公式(1)所示:
[0028]
[0029] 可选地,S35中,引入损失函数对模型的训练损失进行完善,包括:
[0030] 构建模态匹配函数,用于图像和文本跨模态特征对的模态匹配,该函数的标签定义为如果该语义角色对应的片段中包含该目标区域对应的物体,则输出标签为1,否则标签为0;通过多任务学习的范式,定义如下述公式(2)的模态匹配函数的损失函数:
[0031]
[0032] 一方面,提供了一种基于多模态语义角色识别的人机交互指令解析装置,该装置应用于电子设备,该装置包括:
[0033] 指令语义角色标注范式构建模块,用于根据人机交互指令的特性,构建指令语义角色标注范式;
[0034] 多模态构建模块,用于根据所述指令语义角色标注范式,结合图像采集,将语义角色标注模型的单模态形式扩展为视觉文本多模态形式;
[0035] 模型训练模块,用于对语义角色标注模型的视觉文本多模态形式进行训练学习,完成多模态语义角色识别对人机交互指令进行语义解析。
[0036] 可选地,9、根据权利要求8所述的装置,其特征在于,所述指令语义角色标注范式构建模块,用于根采用VerbAtlas语义角色标注数据的标注方式作为标注基准;
[0037] 对预存的中文语义角色标注范式扩展和修改,使扩展和修改后的中文语义角色标注范式适用于人机交互指令的语义解析,获得指令语义角色标注范式。
[0038] 可选地,多模态构建模块,用于根据所述指令语义角色标注范式,通过无人系统采集图像,采用Faster‑RCNN获得序列目标区域,将所述序列目标区域组成图像区域序列,对所述图像序列特征进行提取;
[0039] 通过提取的图像序列特征,对语义文本端的语义角色进行辅助识别,将语义角色标注模型的单模态形式扩展为视觉文本双模态形式。
[0040] 一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述一种基于多模态语义角色识别的人机交互指令解析方法。
[0041] 一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述一种基于多模态语义角色识别的人机交互指令解析方法。
[0042] 本发明实施例的上述技术方案至少具有如下有益效果:
[0043] 上述方案中,本发明创新性的提出一种集成话语篇章的语义依存图表示方案,将句子语义依存图扩展到整个篇章,充分考虑了对话场景下话语语义信息不完整的特性。本发明首次针对对话文本提出融合话语内部和话语之间的一体化语义依存图联合分析模型,采用端到端的建模方式将句子语义和篇章语义连接在一起。另外本发明所采用的基于知识蒸馏的教师‑学生网络也能够满足对话系统实际应用中对于效率和延迟的高要求。

附图说明

[0044] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045] 图1是本发明实施例提供的一种基于多模态语义角色识别的人机交互指令解析方法的流程图;
[0046] 图2是本发明实施例提供的一种基于多模态语义角色识别的人机交互指令解析方法的流程图;
[0047] 图3是本发明实施例提供的一种基于多模态语义角色识别的人机交互指令解析方法的多模态语义角色标注模型图;
[0048] 图4是本发明实施例提供的一种基于多模态语义角色识别的人机交互指令解析方法的多模态语义角色结构化输出图;
[0049] 图5是本发明实施例提供的一种基于多模态语义角色识别的人机交互指令解析方法的多模态语义角色标注实现人机交互示例图;
[0050] 图6是本发明实施例提供的一种基于多模态语义角色识别的人机交互指令解析装置框图;
[0051] 图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

[0052] 为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0053] 本发明实施例提供了一种基于多模态语义角色识别的人机交互指令解析方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的基于多模态语义角色识别的人机交互指令解析方法流程图,该方法的处理流程可以包括如下的步骤:
[0054] S101:根据人机交互指令的特性,构建指令语义角色标注范式;
[0055] S102:根据所述指令语义角色标注范式,结合图像采集,将语义角色标注模型的单模态形式扩展为视觉文本多模态形式;
[0056] S103:对语义角色标注模型的视觉文本多模态形式进行训练学习,完成多模态语义角色识别对人机交互指令进行语义解析。
[0057] 可选地,步骤S101中,根据人机交互指令的特性,构建指令语义角色标注范式,包括:
[0058] S111:采用VerbAtlas语义角色标注数据的标注方式作为标注基准;
[0059] S112:对预存的中文语义角色标注范式扩展和修改,使扩展和修改后的中文语义角色标注范式适用于人机交互指令的语义解析,获得指令语义角色标注范式。
[0060] 可选地,步骤S102中,根据所述指令语义角色标注范式,结合图像采集,将语义角色标注模型的单模态形式扩展为视觉文本双模态形式,包括:
[0061] S121:根据所述指令语义角色标注范式,通过无人系统采集图像,采用Faster‑RCNN获得序列目标区域,将所述序列目标区域组成图像区域序列,对所述图像序列特征进行提取;
[0062] S122:通过提取的图像序列特征,对语义文本端的语义角色进行辅助识别,将语义角色标注模型的单模态形式扩展为视觉文本双模态形式。
[0063] 可选地,步骤S103中,对语义角色标注模型的视觉文本多模态形式进行训练学习,完成多模态语义角色识别对人机交互指令进行语义解析,包括:
[0064] S131:根据语义角色标注模型的视觉文本多模态形式构建预训练模型;
[0065] S132:所述预训练模型的输入的指令 ;利用BERT预训练模型对所述指令I进行编码,获得指令I中每个词对应的词向量序列 ;
[0066] S133:枚举出指令I中所有的跨度 ,其中 ,获得每个跨度的特征向量;其中,所述跨度的大小均为预设值;
[0067] S134:根据所述每个跨度的特征向量,生成语义图中谓词节点和语义角色节点对应的候选向量;
[0068] S135:引入损失函数对模型的训练损失进行完善,完成多模态语义角色识别对人机交互指令进行语义解析。
[0069] 可选地,S134中,采用两个不同的MLP层分别得到谓词候选向量 以及语义角色候选向量 ,其中: ; 。
[0070] 可选地,S135中,引入损失函数对模型的训练损失进行完善,包括:
[0071] 构建语义角色标注损失函数,判断模型预测的谓词及论元结构的完整性;
[0072] 其中,包括一个MLP 层得分层以及一个Biaffine得分层;所述MLP 层得分层用于判断当前谓词节点的语义框架,所述Biaffine得分层用于对句子中每个谓词 、语义角色以及两者关系 的三元组 进行打分;交叉熵来计算每个三元组的损失,所述语义角色标注损失函数如下述公式(1)所示:
[0073]
[0074] 可选地,S135中,引入损失函数对模型的训练损失进行完善,包括:
[0075] 构建模态匹配函数,用于图像和文本跨模态特征对的模态匹配,该函数的标签定义为如果该语义角色对应的片段中包含该目标区域对应的物体,则输出标签为1,否则标签为0;通过多任务学习的范式,定义如下述公式(2)的模态匹配函数的损失函数:
[0076]
[0077] 本发明实施例中,创新性的尝试引入图像信息到现有的单模态语义角色标注模型中,从而利用图像信息辅助语义角色标注模型对输入语句进行语义分析。尝试用多模态语义角色标注的范式来对人机交互指令进行语义解析,从而将原本机器无法理解的指令转换成机器可理解的语义结构化输出,做到更加方便、安全、快捷的执行用户的意图。
[0078] 本发明实施例提供了一种基于多模态语义角色识别的人机交互指令解析方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图2所示的基于多模态语义角色识别的人机交互指令解析方法流程图,该方法的处理流程可以包括如下的步骤:
[0079] S201:采用VerbAtlas语义角色标注数据的标注方式作为标注基准。
[0080] 一种可行的实施方式中,本发明首先针对人机交互指令,基于其本身的特点构建一套完善的指令语义角色标注范式。以往的语义角色标注范式大都面向通用领域(如新闻)等,其语义角色的设定在于更好的通用性。但是在人机交互领域,每种类型的指令其语义角色都有着其特殊性,这是通用领域的语义角色不能涵盖的。
[0081] S202:对预存的中文语义角色标注范式扩展和修改,使扩展和修改后的中文语义角色标注范式适用于人机交互指令的语义解析,获得指令语义角色标注范式。
[0082] 一种可行的实施方式中,本发明拟扩展和修改现有的中文语义角色标注范式,使其适用于人机交互指令的语义解析。
[0083] 初步计划采用VerbAtlas语义角色标注数据标注方式作为本发明的标注基准,其主要基于以下两种考虑:(1)该标注基准在谓词识别上加入语义框架的概念,使得每个谓词的具体语义更加精确,从而缓解了谓词由于语境不同导致的歧义问题。(2)该标注基准面向多语言场景设计,可以方便本发明设计面向中文指令的标注范式。表1展示了本发明初步设定的语义框架即语义角色。涵盖了简单的如前进、移动等的位移指令,以及高难度的如拿取、打开等操作指令;语义角色则包含了参与该语义事件的操控设备、操控手段以及指令执行的时间、地点等。
[0084]
[0085]
[0086] S203:根据所述指令语义角色标注范式,通过无人系统采集图像,采用Faster‑RCNN获得序列目标区域,将所述序列目标区域组成图像区域序列,对所述图像序列特征进行提取;
[0087] S204:通过提取的图像序列特征,对语义文本端的语义角色进行辅助识别,将语义角色标注模型的单模态形式扩展为视觉文本双模态形式。
[0088] 一种可行的实施方式中,在模型架构上,本发明采用如图3所示的双塔模型来解决多模态语义角色任务之间图文特征的融合。整体架构主要分为三个部分,图像端的图像序列特征提取,语言端的语义图特征提取,以及最后用于特征融合的训练函数。
[0089] 一种可行的实施方式中,图像序列特征:对于无人系统观察到的图像  ,本发明采用现有的Faster‑RCNN获得一序列目标区域,将其组成图像区域序列 ,并获得区域序列对应的特征序列 。对于特征序列中的区域特征 ,本发明利用一层MLP层,对做进一步的特征抽象,得到最终的图像特征  :
[0090]
[0091] S205:根据语义角色标注模型的视觉文本多模态形式构建预训练模型;
[0092] S206:所述预训练模型的输入的指令 ;利用BERT预训练模型对所述指令I进行编码,获得指令I中每个词对应的词向量序列 ;
[0093]  S207:枚举出指令I中所有的跨度 ,其中 ,获得每个跨度的特征向量;其中,所述跨度的大小均为预设值;
[0094] S208:根据所述每个跨度的特征向量,生成语义图中谓词节点和语义角色节点对应的候选向量。
[0095] 一种可行的实施方式中,文本序列特征:本发明采用目前端到端语义角色标注经典的语义图神经网络构建思路来获得句子中隐含的谓词和其对应的论元。对于输入的指令,利用BERT预训练模型对其进行编码,获得指令中每个词对应的词向量序列 。接着枚举出指令中所有的跨度 ,其中
,由句子中多个词组成的。每个跨度的最大长度和最小长度都是
预先设定好的。对于每个跨度 ,将其特征向量表示为:
[0096]
[0097] 其中 , 表示每个跨度起始单词和结尾单词所对应的隐藏层表示,表示每个跨度对应的长度特征, 则是利用Self‑Attention机制,计算对于跨度内每个词的注意力,并根据注意力加权平均得到的向量。
[0098] 对于每个跨度对应的表示 ,需要生成语义图中谓词节点和语义角色节点对应的候选向量,因此本发明采用两个不同的MLP层分别得到谓词候选向量以及语义角色候选向量 以及  :
[0099]
[0100] S209:引入损失函数对模型的训练损失进行完善,完成多模态语义角色识别对人机交互指令进行语义解析。
[0101] 一种可行的实施方式中,采用两个不同的MLP层分别得到谓词候选向量 以及语义角色候选向量 ,其中: ; 。
[0102] 其中,MLPP 是用于获取谓词表示的多层前馈神经网络,MLPR是用于获取语义角色表示的多层前馈神经网络。
[0103] 一种可行的实施方式中,引入损失函数对模型的训练损失进行完善,包括:
[0104] 构建语义角色标注损失函数,判断模型预测的谓词及论元结构的完整性;
[0105] 其中,包括一个MLP 层得分层以及一个Biaffine得分层;所述MLP 层得分层用于判断当前谓词节点的语义框架,所述Biaffine得分层用于对句子中每个谓词 、语义角色以及两者关系 的三元组 进行打分;交叉熵来计算每个三元组的损失,所述语义角色标注损失函数如下述公式(1)所示:
[0106]
[0107] 一种可行的实施方式中,在训练损失上,本发明定义了两种损失函数用于训练模型。第一种判断模型预测的谓词、论元结构的完整性的语义角色标注损失函数,其包括一个MLP层得分层来判断当前谓词节点的语义框架,以及一个Biaffine得分层来对句子中每个谓词、语义角色以及两者关系的三元组 进行打分,具体定义如下:
[0108]
[0109]
[0110] 其中,  表示用于获取语义框架类别得分的多层前馈神经网络; 是Biaffine权重矩阵, 是线性权重矩阵, 是偏置项。获得每个关系对应的评分后,本发明采用交叉熵来计算每个三元组的损失:
[0111]
[0112] 其中 和 表示对应的的语义框架以及语义角色集合。
[0113] 一种可行的实施方式中,引入损失函数对模型的训练损失进行完善,包括:
[0114] 构建模态匹配函数,用于图像和文本跨模态特征对的模态匹配,该函数的标签定义为如果该语义角色对应的片段中包含该目标区域对应的物体,则输出标签为1,否则标签为0;通过多任务学习的范式,定义如下述公式(2)的模态匹配函数的损失函数:
[0115]
[0116] 一种可行的实施方式中,第二种则是用于图像和文本跨模态特征对的模态匹配函数,该函数的标签本发明定义为如果该语义角色对应的片段中包含该目标区域对应的物体,则输出标签为1,否则标签为0。本发明同样利用一个Biaffine层计算对该图像区域特征、语义角色以及两者关系的三元组 进行打分,
[0117]
[0118] 同理,其对应的损失函数为: 
[0119] 最终的损失函数,本发明采用多任务学习的范式进行定义:
[0120]
[0121] 其中 用于调节两种损失函数在模型训练中所发挥的权重。
[0122] 本发明实施例中,多模态语义角色标注的目标是给定一条输入指令,得出该指令的语义结构化输出,使得机器能够理解并执行。多模态语义角色识别的结构化输出结果如图4所示。
[0123] 本发明实施例中,图5展示了本发明的多模态语义角色标注模型在人机交互指令上的解析实例。对于用户下达的指令,本发明的多模态语义角色解析系统识别出其中的谓词,对应的语义框架,以及属于该语义框架的语义角色,将其组织为机器可识别的结构化输出。
[0124] 本发明实施例中,针对于目前现有的语义角色标注模型大都基于单模态设定,创新性的尝试引入图像信息到现有的单模态语义角色标注模型中,从而利用图像信息辅助语义角色标注模型对输入语句进行语义分析。尝试用多模态语义角色标注的范式来对人机交互指令进行语义解析,从而将原本机器无法理解的指令转换成机器可理解的语义结构化输出,做到更加方便、安全、快捷的执行用户的意图。
[0125] 图6是根据一示例性实施例示出的一种基于多模态语义角色识别的人机交互指令解析装置框图。参照图6,该装置300包括:
[0126] 范式构建模块310,用于根据人机交互指令的特性,构建一套完善的指令语义角色标注范式;
[0127] 多模态构建模块320,用于根据所述指令语义角色标注范式,结合图像采集,将语义角色标注模型的单模态形式扩展为视觉文本多模态形式;
[0128] 模型训练模块330,用于对语义角色标注模型的视觉文本多模态形式进行训练学习,完成多模态语义角色识别对人机交互指令进行语义解析。
[0129] 可选地,范式构建模块310,用于根采用VerbAtlas语义角色标注数据的标注方式作为标注基准;
[0130] 对预存的中文语义角色标注范式扩展和修改,使扩展和修改后的中文语义角色标注范式适用于人机交互指令的语义解析,获得一套完善的指令语义角色标注范式。
[0131] 可选地,多模态构建模块320,用于根据所述指令语义角色标注范式,通过无人系统采集图像,采用Faster‑RCNN获得序列目标区域,将所述序列目标区域组成图像区域序列,对所述图像序列特征进行提取;
[0132] 通过提取的图像序列特征,对语义文本端的语义角色进行辅助识别,将语义角色标注模型的单模态形式扩展为视觉文本双模态形式。
[0133] 可选地,模型训练模块330,用于根据语义角色标注模型的视觉文本多模态形式构建预训练模型;
[0134] 所述预训练模型的输入的指令 ;利用BERT预训练模型对所述指令I进行编码,获得指令I中每个词对应的词向量序列 ;
[0135] 枚举出指令I中所有的跨度 ,其中 ,获得每个跨度的特征向量;其中,所述跨度的大小均为预设值;
[0136] 根据所述每个跨度的特征向量,生成语义图中谓词节点和语义角色节点对应的候选向量;
[0137] 引入损失函数对模型的训练损失进行完善,完成多模态语义角色识别对人机交互指令进行语义解析。
[0138] 可选地,模型训练模块330,用于采用两个不同的MLP层分别得到谓词候选向量以及语义角色候选向量 ,其中: ; 。
[0139] 可选地,模型训练模块330,用于构建语义角色标注损失函数,判断模型预测的谓词及论元结构的完整性;
[0140] 其中,包括一个MLP 层得分层以及一个Biaffine得分层;所述MLP 层得分层用于判断当前谓词节点的语义框架,所述Biaffine得分层用于对句子中每个谓词 、语义角色以及两者关系 的三元组 进行打分;交叉熵来计算每个三元组的损失,所述语义角色标注损失函数如下述公式(1)所示:
[0141]
[0142] 可选地,模型训练模块330,用于构建模态匹配函数,用于图像和文本跨模态特征对的模态匹配,该函数的标签定义为如果该语义角色对应的片段中包含该目标区域对应的物体,则输出标签为1,否则标签为0;通过多任务学习的范式,定义如下述公式(2)的模态匹配函数的损失函数:
[0143]
[0144] 本发明实施例中,针对于目前现有的语义角色标注模型大都基于单模态设定,创新性的尝试引入图像信息到现有的单模态语义角色标注模型中,从而利用图像信息辅助语义角色标注模型对输入语句进行语义分析。尝试用多模态语义角色标注的范式来对人机交互指令进行语义解析,从而将原本机器无法理解的指令转换成机器可理解的语义结构化输出,做到更加方便、安全、快捷的执行用户的意图。
[0145] 图7是本发明实施例提供的一种电子设备400的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现下述基于多模态语义角色识别的人机交互指令解析方法的步骤:
[0146] S1:根据人机交互指令的特性,构建一套完善的指令语义角色标注范式;
[0147] S2:根据所述指令语义角色标注范式,结合图像采集,将语义角色标注模型的单模态形式扩展为视觉文本多模态形式;
[0148] S3:对语义角色标注模型的视觉文本多模态形式进行训练学习,完成多模态语义角色识别对人机交互指令进行语义解析。
[0149] 在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于多模态语义角色识别的人机交互指令解析方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD‑ROM、磁带、软盘和光数据存储设备等。
[0150] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0151] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。