会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学 / 基于改进的seq2seq模型的多意图识别方法、装置、设备及介质

基于改进的seq2seq模型的多意图识别方法、装置、设备及介质

申请号 CN202410006771.5 申请日 2024-01-02 公开(公告)号 CN117746862A 公开(公告)日 2024-03-22
申请人 重庆长安汽车股份有限公司; 发明人 张花旗;
摘要 本 申请 公开了一种基于改进的seq2seq模型的多意图识别方法、装置、设备及介质,应用于车辆中控设备,所述方法包括:获得待识别语音信息,并根据所述待识别语音信息中的各个词,构建对应所述词的 特征向量 ;其中,所述特征向量包括字符向量和分词向量;将所述特征向量输入至多意图识别模型中,采用所述多意图识别模型对所述特征向量进行处理,得到处理结果;其中,所述处理结果包括所述待识别语音信息对应的由多个单意图语句组成的意图识别结果,所述多意图识别模型是基于seq2seq模型进行改进的;所述处理结果至少依据所述字符向量对应的局部上下文特征向量和所述分词向量对应的全局上下文特征向量得到的。
权利要求

1.一种基于改进的seq2seq模型的基于改进的seq2seq模型的多意图识别方法,其特征在于,所述方法包括:
获得待识别语音信息,并根据所述待识别语音信息中的各个词,构建对应所述词的特征向量;其中,所述特征向量包括字符向量和分词向量;
将所述特征向量输入至多意图识别模型中,采用所述多意图识别模型对所述特征向量进行处理,得到处理结果;其中,所述处理结果包括所述待识别语音信息对应的由多个单意图语句组成的意图识别结果,所述多意图识别模型是基于seq2seq模型进行改进的;
所述处理结果至少依据所述字符向量对应的局部上下文特征向量和所述分词向量对应的全局上下文特征向量得到的。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待识别语音信息中的各个词,构建对应所述词的特征向量,包括:
利用Python工具包jieba中的分词模型对所述待识别语音信息进行分词,得到所述待识别语音信息的分词结果;其中,所述分词结果包括字符序列和分词序列;
以所述分词结果中的序列作为输入,采用预设词向量模型对所述分词结果进行向量化处理,得到所述字符序列中各个字符对应的字符向量和所述分词序列中各个分词对应的分词向量。
3.根据权利要求1或2所述的方法,其特征在于,所述多意图识别模型包括编码模和解码模块,所述编码模块包括双通道特征提取网络,所述采用所述多意图识别模型对所述特征向量进行处理,得到处理结果,包括:
将所述字符向量输入至第一通道特征提取网络,结合所述待识别语音信息上下文,进行双向编码处理,得到所述字符向量对应的用于表征每个字符的序列信息的所述局部上下文特征向量;
将所述分词向量输入至第二通道特征提取网络,结合所述待识别语音信息上下文,进行膨胀卷积处理,得到所述分词向量对应的用于表征每个分词与各个分词之间的上下文语义关系的所述全局上下文特征向量,其中,所述第一通道特征提取网络与所述第二通道特征提取网络不同;
对所述局部上下文特征向量和所述全局上下文特征向量进行特征融合,得到融合上下文特征向量;
采用所述解码模块对所述融合上下文特征向量进行特征解码,得到所述处理结果。
4.根据权利要求3所述的方法,其特征在于,所述第二通道特征提取网络包括迭代膨胀卷积神经网络和第一注意机制网络,所述将所述分词向量输入至第二通道特征提取网络,结合所述待识别语音信息上下文,进行膨胀卷积处理,得到所述分词向量对应的用于表征每个分词与各个分词之间的上下文语义关系的所述全局上下文特征向量,包括:
将所述分词向量输入至所述迭代膨胀卷积神经网络,采用多个膨胀卷积块分别对所述分词向量进行膨胀处理,得到中间特征向量;
将所述中间特征向量输入至所述第一注意力机制网络,得到所述分词向量对应的所述全局上下文特征向量。
5.根据权利要求3所述的方法,其特征在于,所述对所述局部上下文特征向量和所述全局上下文特征向量进行特征融合,得到融合上下文特征向量,包括:
获得所述编码模块为所述局部上下文特征向量分配的第一权重,以及为所述全局上下文特征向量分配的第二权重;
基于所述第一权重和所述第二权重,对所述局部上下文特征向量和所述全局上下文特征向量进行加权处理,得到所述融合上下文特征向量。
6.根据权利要求1或2所述的方法,其特征在于,所述多意图识别模型的训练过程包括:
获得包括多个已标注单意图语句的样本语音信息,并根据所述样本语音信息中的各个词,构建对应所述词的样本特征向量;其中,所述样本特征向量包括样本字符向量和样本分词向量;
将所述样本特征向量输入至待训练多意图识别模型中,采用所述待训练多意图识别模型对所述样本特征向量进行处理,得到所述样本语音信息对应的多个预测单意图语句;
利用交叉熵损失函数,确定所述多个已标注单意图语句中每一已标注单意图语句与对应的预测单意图语句之间的损失值,从而得到所述多个已标注单意图语句分别对应的多个损失值;
基于所述多个损失值,对所述待训练多意图识别模型的网络参数进行调整,以使调整后的所述待训练多意图识别模型输出的损失值满足预设收敛条件。
7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
根据所述意图识别结果,依次执行每一单意图语句,执行相应的车辆控制操作。
8.一种基于改进的seq2seq模型的多意图识别装置,其特征在于,所述装置包括,获得模块,用于获得待识别语音信息;
处理模块,用于根据所述待识别语音信息中的各个词,构建对应所述词的特征向量;其中,所述特征向量包括字符向量和分词向量;
输入模块,用于将所述特征向量输入至多意图识别模型中;
多意图识别模型,用于采用所述多意图识别模型对所述特征向量进行处理,得到处理结果;其中,所述处理结果包括所述待识别语音信息对应的由多个单意图语句组成的意图识别结果,所述多意图识别模型是基于seq2seq模型进行改进的,所述处理结果至少依据所述字符向量对应的局部上下文特征向量和所述分词向量对应的全局上下文特征向量得到的。
9.一种车辆中控设备,其特征在于,所述设备包括:存储器和处理器,
所述存储器存储有可在处理器上运行的计算机程序
所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于改进的seq2seq模型的多意图识别方法。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个计算机程序,一个或者多个计算机程序可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的基于改进的seq2seq模型的多意图识别方法。

说明书全文

基于改进的seq2seq模型的多意图识别方法、装置、设备及

介质

技术领域

[0001] 本申请涉及自然语言处理领域,涉及但不限于一种基于改进的seq2seq模型的多意图识别方法、车辆中控设备及存储介质。

背景技术

[0002] 在智能人机对话系统,如车载对话系统中,用户通常会在同一语音中表达多个意图,即一句话中希望车载设备完成控制指令,车载设备需要执行一系列指令。示例性地,在智能车机中,驾驶员或乘客在一句话中表述出“请打开车窗并将空调温度调低”的多意图语音,这种多意图的语音输入对系统的识别能提出了更高的要求。如果系统不能正确地理解和区分这些不同的意图,将导致不正确的响应,严重损害用户体验。为此,目前亟需提供一种基于改进的seq2seq模型的多意图识别方法。发明内容
[0003] 本申请的目的之一在于提供一种基于改进的seq2seq模型的多意图识别方法;目的之二在于提供一种基于改进的seq2seq模型的多意图识别装置;目的之三在于提供一种车辆中控设备,目的之四在于提供一种存储介质。
[0004] 为了实现上述目的,本申请采用的技术方案如下:
[0005] 第一方面,本申请提供一种基于改进的seq2seq模型的多意图识别方法,所述方法包括:
[0006] 获得待识别语音信息,并根据所述待识别语音信息中的各个词,构建对应所述词的特征向量;其中,所述特征向量包括字符向量和分词向量;
[0007] 将所述特征向量输入至多意图识别模型中,采用所述多意图识别模型对所述特征向量进行处理,得到处理结果;其中,所述处理结果包括所述待识别语音信息对应的由多个单意图语句组成的意图识别结果,所述多意图识别模型是基于seq2seq模型进行改进的;
[0008] 所述处理结果至少依据所述字符向量对应的局部上下文特征向量和所述分词向量对应的全局上下文特征向量得到的。
[0009] 根据上述技术手段,通过待识别语音信息,并构建待识别语音信息中各个词的包含有字符向量和分词向量的特征向量;进一步地,由多意图识别模型进行多个单意图语句的识别,为一种自动识别方案。此外,由多意图识别模型两种特征向量:字符向量对应的局部上下文特征向量和分词向量对应的全局上下文特征向量,相当于不仅考虑到局部上下文特征向量对意图识别结果的影响,还考虑道路全局上下文特征向量对意图识别结果的影响;也即考虑到了字符向量在序列信息中的局部上下文特征向量,还考虑到了分词向量在各个层次或长距离上下文语义中的全局上下文特征向量,结合这两个上下文特征向量所体现的待识别语音信息的多个意图特征,对待识别语音信息对应的多个单意图语句进行识别,可进一步保证识别准确性。再有,本申请实施例中的多意图识别模型具有一定的稳定性和健壮性,不易受外界环境的干扰,由多意图识别模型进行识别,可保证意图识别结果的稳定性和准确性。
[0010] 进一步,所述根据所述待识别语音信息中的各个词,构建对应所述词的特征向量,包括:利用Python工具包jieba中的分词模型对所述待识别语音信息进行分词,得到所述待识别语音信息的分词结果;其中,所述分词结果包括字符序列和分词序列;以所述分词结果中的序列作为输入,采用预设词向量模型对所述分词结果进行向量化处理,得到所述字符序列中各个字符对应的字符向量和所述分词序列中各个分词对应的分词向量。
[0011] 根据上述技术手段,字符向量和分词向量为后续的多意图识别模型提供了文本数据的数字化表示,使其能够更好地捕捉不同意图之间的语义和上下文信息。
[0012] 进一步,多意图识别模型包括编码模和解码模块,所述编码模块包括双通道特征提取网络,所述采用所述多意图识别模型对所述特征向量进行处理,得到处理结果,包括:将所述字符向量输入至第一通道特征提取网络,结合所述待识别语音信息上下文,进行双向编码处理,得到所述字符向量对应的用于表征每个字符的序列信息的所述局部上下文特征向量;将所述分词向量输入至第二通道特征提取网络,结合所述待识别语音信息上下文,进行膨胀卷积处理,得到所述分词向量对应的用于表征每个分词与各个分词之间的上下文语义关系的所述全局上下文特征向量,其中,所述第一通道特征提取网络与所述第二通道特征提取网络不同;对所述局部上下文特征向量和所述全局上下文特征向量进行特征融合,得到融合上下文特征向量;采用所述解码模块对所述融合上下文特征向量进行特征解码,得到所述处理结果。
[0013] 根据上述技术特征,引入双向长短期记忆(BiLSTM)模型来提取待识别语音信息中单个字符的顺序和方向信息,从而有助于捕捉待识别语音信息中字符级别的序列信息。同时为了获取更大的卷积视野,选用迭代膨胀卷积神经网络(IDCNN)和注意力机制,从而有利于捕捉更高层次的词级别语义关系。如此,经过使用BiLSTM和IDCNN‑attention进行序列信息和捕捉更高层次的词级别语义关系的双通道联合特征提取,使得向量能够更好地表征文本的特征,能够更全面、准确地捕捉输入序列的信息,有利于后续的多个单意图语句识别效果的提升。同时,增强模型的上下文理解和多意图处理能力,使其更适用于复杂多样的对话情境,从而提高模型的实用性。
[0014] 进一步,所述第二通道特征提取网络包括迭代膨胀卷积神经网络和第一注意力机制网络,所述将所述分词向量输入至第二通道特征提取网络,结合所述待识别语音信息上下文,进行膨胀卷积处理,得到所述分词向量对应的用于表征每个分词与各个分词之间的上下文语义关系的所述全局上下文特征向量,包括:将所述分词向量输入至所述迭代膨胀卷积神经网络,采用多个膨胀卷积块分别对所述分词向量进行膨胀处理,得到中间特征向量;将所述中间特征向量输入至所述第一注意力机制网络,得到所述分词向量对应的所述全局上下文特征向量。
[0015] 根据上述技术特征,本申请实施例中,由于待识别语音信息大多数为长文本,通过注意力机制能够为模型提取的每一个特征赋予权重,减小无效特征对模型进行实体识别的影响,相较于不加入注意力机制的IDCNN效果要更好。
[0016] 进一步,所述对所述局部上下文特征向量和所述全局上下文特征向量进行特征融合,得到融合上下文特征向量,包括:获得所述编码模块为所述局部上下文特征向量分配的第一权重,以及为所述全局上下文特征向量分配的第二权重;基于所述第一权重和所述第二权重,对所述局部上下文特征向量和所述全局上下文特征向量进行加权处理,得到所述融合上下文特征向量。
[0017] 根据上述技术手段,本申请实施例可以将局部上下文特征向量和全局上下文特征向量加权,后续所使用的融合上下文特征向量将同时包含长距离依赖信息和局部信息,语义信息更加丰富,有助于提高实体识别的准确率。
[0018] 进一步,所述多意图识别模型的训练过程包括:获得包括多个已标注单意图语句的样本语音信息,并根据所述样本语音信息中的各个词,构建对应所述词的样本特征向量;其中,所述样本特征向量包括样本字符向量和样本分词向量;将所述样本特征向量输入至待训练多意图识别模型中,采用所述待训练多意图识别模型对所述样本特征向量进行处理,得到所述样本语音信息对应的多个预测单意图语句;利用所述交叉熵损失函数,确定所述多个已标注单意图语句中每一已标注单意图语句与对应的预测单意图语句之间的损失值,从而得到所述多个已标注单意图语句分别对应的多个损失值;基于所述多个损失值,对所述待训练多意图识别模型的网络参数进行调整,以使调整后的所述待训练多意图识别模型输出的损失值满足预设收敛条件。
[0019] 进一步,所述方法还包括:根据所述意图识别结果,依次执行每一单意图语句,执行相应的车辆控制操作。
[0020] 第二方面,本申请提供一种基于改进的seq2seq模型的多意图识别装置,所述装置包括:
[0021] 获得模块,用于获得待识别语音信息;
[0022] 处理模块,用于根据所述待识别语音信息中的各个词,构建对应所述词的特征向量;其中,所述特征向量包括字符向量和分词向量;
[0023] 输入模块,用于将所述特征向量输入至多意图识别模型中;
[0024] 多意图识别模型,用于采用所述多意图识别模型对所述特征向量进行处理,得到处理结果;其中,所述处理结果包括所述待识别语音信息对应的由多个单意图语句组成的意图识别结果,所述多意图识别模型是基于seq2seq模型进行改进的;
[0025] 所述处理结果至少依据所述字符向量对应的局部上下文特征向量和所述分词向量对应的全局上下文特征向量得到的。
[0026] 第三方面,本申请提供一种车辆中控设备,所述设备包括:存储器和处理器,[0027] 所述存储器存储有可在处理器上运行的计算机程序
[0028] 所述处理器执行所述计算机程序时实现如第一方面或第一方面的实施例中任一项所述的基于改进的seq2seq模型的多意图识别方法。
[0029] 第四方面,本申请提供一种存储介质,所述存储介质存储有一个或者多个计算机程序,一个或者多个计算机程序可被一个或者多个处理器执行,以实现如第一方面或第一方面的实施例中任一项所述的基于改进的seq2seq模型的多意图识别方法。附图说明
[0030] 图1为本申请实施例提供的一种基于改进的seq2seq模型的多意图识别方法的流程示意图;
[0031] 图2为本申请实施例提供的一种基于改进的seq2seq模型的多意图识别系统的流程示意图;
[0032] 图3为本申请实施例提供的一种基于改进的seq2seq模型的多意图识别方法的流程示意图;
[0033] 图4为本申请实施例提供的一种基于改进的seq2seq模型的多意图识别系统的流程示意图;
[0034] 图5为本申请实施例提供的一种基于改进的seq2seq模型的多意图识别模型的结构示意图;
[0035] 图6为本申请实施例提供的一种多意图识别模式的结构示意图;
[0036] 图7为本申请实施例提供的一种基于改进的seq2seq模型的多意图识别系统的流程示意图;
[0037] 图8为本申请实施例提供的一种基于改进的seq2seq模型的多意图识别装置的结构示意图;
[0038] 图9为本申请实施例提供的一种车辆中控设备的结构示意图。

具体实施方式

[0039] 为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本申请的技术方案进一步详细阐述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0040] 在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0041] 除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的,不是旨在限制本申请。
[0042] 本申请实施例提供一种基于改进的seq2seq模型的多意图识别方法,该方法可以由车辆中控设备的处理器执行。其中,车辆中控设备指的可以是服务器笔记本电脑平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。在一些实施例中,该车辆中控设备可以为车载终端设备。其中,该车载终端设备可以为部署于车辆的终端设备,该终端设备与车辆通信连接,可以独立于车辆使用,也可以集成在车辆控制系统中。在一些实施例中,车辆中控设备还可以为车载端服务器,车载云端服务器与车辆通信连接,本申请对车辆中控设备不作具体限定。
[0043] 参照图1,图1为本申请实施例提供的一种基于改进的seq2seq模型的多意图识别方法的实现流程示意图,该方法可以由车辆中控设备的处理器执行,这里,将结合图1示出的步骤进行说明,
[0044] 步骤101、获得待识别语音信息,并根据待识别语音信息中的各个词,构建对应词的特征向量;其中,特征向量包括字符向量和分词向量。
[0045] 本申请实施例中,待识别语音信息可以是包含有多个意图的语音信息,示例性地,待识别语音信息可以是开空调和车窗等。
[0046] 本申请实施例中,获得待识别语音信息可以是通过车辆中控设备的麦克,获取用户说话的语音内容,并将其转换为文本的信息。在一些实施例时,可以预先根据用户的语音设置用户身份信息,以便车辆中控设备判断用户的身份。当获取的语音内容与预先设置的用户身份信息匹配时,根据语音内容获取到文本信息。这样,防止了获取到非预设用户身份信息的语音内容,得到非认证用户想要得到的意图识别结果的情况出现,例如,防止获取到来自车辆外的其他语音内容,造成车辆得到非车辆驾驶员想要得到的意图识别结果。
[0047] 本申请实施例中,字符、分词为待识别语音信息中词的文字本身,字符向量为待识别语音信息中每个字符用一个多维向量表示,分词向量为待识别语音信息中每个分词用一个多维向量表示。
[0048] 在一些实施例中,还可以包括词性,词性为待识别语音信息中词的性质;通常将词分为两类12种词性。一类是实词:名词、动词、形容词、数词、副词、拟声词、量词和代词,一类是虚词:介词、连词、助词和叹词;词性向量为待识别语音信息中每个词所对应的词性用一个多维向量表示。
[0049] 本申请实施例中,车辆中控设备获得用户的待识别语音信息后,根据待识别语音信息中的各个词,构建对应词的包含有字符向量、分词向量和词性向量中的一种或多种的特征向量。
[0050] 在一些实施例中,获得用户的待识别语音信息之后,还可以对待识别语音信息进行预处理,以删除待识别语音信息中的噪音信息。
[0051] 本申请实施例中,获得用户的待识别语音信息之后,可以对待识别语音信息进行数据预处理,主要的数据预处理步骤包括:语料清洗,即删除待识别语音信息中的噪音信息,以及删除待识别语音信息中的标点符号、语气助词,并保留有用的数据。在本实施例中,常见的清洗方式包括:人工去重、对齐、删除、标注等,例如去掉对文本特征没有任何贡献作用的字词,如标点符号、语气、“的”等。
[0052] 在一些实施例中,步骤101中根据待识别语音信息中的各个词,构建对应词的特征向量的过程结合图2进行说明,
[0053] 步骤111、利用Python工具包jieba中的分词模型对待识别语音信息进行分词,得到待识别语音信息的分词结果。其中,分词结果包括字符序列和分词序列。
[0054] 本申请实施例中,字符序列为由待识别语音信息中的字符组成的序列,分词序列可以理解为由待识别语音信息中的词语组成的序列。
[0055] 本申请实施例中,分词模型可以是提前训练好的,具体可以根据实际情况确定,此处不做限定。
[0056] 本申请实施例中,车辆中控设备在获得待识别语音信息后,利用Python工具包jieba中的分词模型对待识别语音信息进行分词,得到包含有字符序列和分词序列的分词结果。
[0057] 在一种可实现场景中,车辆中控设备利用Python中的分词工具jieba对待识别语音信息进行分词,将待识别语音信息拆分为有意义的字符和词语,以便后续的文本处理和分析。首先,需要导入jieba库并加载预训练的分词模型,以确保分词的准确性。接着,将待识别语音信息传入jieba库的分词模型,利用分词模型将句子拆分成多个字符和多个分词,每个字符和分词代表一个语义单元,这里,分词模型又称分词函数;最后,将拆分后的字符和分词转换成字符序列和分词序列。
[0058] 步骤112、以分词结果中的序列作为输入,采用预设词向量模型对分词结果进行向量处理,得到字符序列中各个字符对应的字符向量和分词序列中各个分词对应的分词向量。
[0059] 本申请实施例中,预设词向量模型用于对输入的字符序列和分词序列分别进行字符级别和词级别的向量编码,以得到字符向量和分词向量。这里,预设词向量模型可以是提前训练好的,具体可以根据实际情况确定,此处不做限定。
[0060] 在一种可实现场景中,预设词向量模型可以是双向变换器编码器(bidirectional encoder representation from transformers,BERT)模型,其中,变换器transformer是一种完全依赖于自注意力以计算输入与输出表征的方法。BERT利用masked model实现了语言模型的双向性,证明了双向性对语言表示预训练的重要性。BERT模型是真正意义上的双向语言模型,能够捕捉每个词以及该词在上下文中丰富的语义信息。BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建。
[0061] 本申请实施例中,车辆中控设备以分词结果中的序列作为输入,采用预设词向量模型对分词结果进行第一向量处理,得到字符序列中各个字符对应的字符向量和分词序列中各个分词对应的分词向量,如此,字符向量和分词向量为后续的多意图识别模型提供了文本数据的数字化表示,使其能够更好地捕捉不同意图之间的语义和上下文信息。
[0062] 需要说明的是,在对上述分词模型进行训练之前,可以收集与多意图识别相关的语料库。示例性地,首先,可以从在线社交媒体、新闻、博客以及对话数据中收集大量语料,确保包括正式和非正式的语言表达。其次,收集涵盖不同领域如健康、科技、旅游等的句子,以便模型具备广泛的背景知识。这有助于模型更好地学习各种语言表达方式和意图之间的关系。
[0063] 步骤102、将特征向量输入至多意图识别模型中,采用多意图识别模型对特征向量进行处理,得到处理结果;其中,处理结果包括待识别语音信息对应的由多个单意图语句组成的意图识别结果,多意图识别模型是基于seq2seq模型进行改进的;处理结果至少依据字符向量对应的局部上下文特征向量和分词向量对应的全局上下文特征向量得到的。
[0064] 本申请实施例中,多意图识别模型可以是对序列到序列模型(Sequence  to Sequence,Seq2Seq)进行改进后得到的,Seq2Seq模型可以理解为一种能够根据给定的序列,通过特定的生成方法生成另一个序列的方法,同时这两个序列可以不等长。这种结构又叫Encoder‑Decoder模型,即编码‑解码模型。
[0065] 在一种可实现的场景中,若待识别语音信息为“打开空调和车窗”,车辆中控设备利用采用注意力机制的多意图识别模型,对各个词对应的拼接向量进行向量处理,得到待识别语音信息对应的由多个单意图语句组成的意图识别结果,即包含有“打开空调,打开车窗”这两个单意图语句组成的意图识别结果。
[0066] 本申请实施例中,多意图识别模型是针对seq2seq模型进行改进得到的,由多意图识别模型对特征向量进行处理,通过多意图识别模型获得的字符向量对应的局部上下文特征向量和分词向量对应的全局上下文特征向量,得到待识别语音信息对应的由多个单意图语句组成的意图识别结果。
[0067] 需要说明的是,本申请实施例中,由多意图识别模型进行多个单意图语句的识别,为一种自动识别方案。此外,由多意图识别模型两种特征向量:字符向量对应的局部上下文特征向量和分词向量对应的全局上下文特征向量,相当于不仅考虑到局部上下文特征向量对意图识别结果的影响,还考虑道路全局上下文特征向量对意图识别结果的影响;也即考虑到了字符向量在序列信息中的局部上下文特征向量,还考虑到了分词向量在各个层次或长距离上下文语义中的全局上下文特征向量,结合这两个上下文特征向量所体现的待识别语音信息的多个意图特征,对待识别语音信息对应的多个单意图语句进行识别,可进一步保证识别准确性。再有,本申请实施例中的多意图识别模型具有一定的稳定性和健壮性,不易受外界环境的干扰,由多意图识别模型进行识别,可保证意图识别结果的稳定性和准确性。
[0068] 参照图3,图3为本申请实施例提供的一种基于改进的seq2seq模型的多意图识别方法的实现流程示意图,该方法可以由车辆中控设备的处理器执行,这里,将结合图3示出的步骤进行说明,
[0069] 步骤301、获得待识别语音信息,并根据待识别语音信息中的各个词,构建对应词的特征向量;其中,特征向量包括字符向量和分词向量。
[0070] 步骤302、多意图识别模型包括编码模块和解码模块,编码模块包括双通道特征提取网络,将特征向量输入至多意图识别模型中,将字符向量输入至第一通道特征提取网络,结合待识别语音信息上下文,进行双向编码处理,得到字符向量对应的用于表征每个字符的序列信息的局部上下文特征向量。
[0071] 本申请实施例中,双通道特征提取网络包括,用于处理字符向量的第一通道特征提取网络以得到局部上下文特征向量,以及用于处理分词向量的第二通道特征提取网络以得到全局上下文特征向量。
[0072] 本申请实施例中,局部上下文特征用于表征待识别语音信息中每个字符在短距离上下文语义的序列信息,示例性地,待识别语音信息为“开空调和车窗”,则局部上下文特征至少包括:“开”与下文的“空”之间的语义以及关系类型的信息、“车”与上文的“和”,以及与下文的“窗”之间的语义以及关系类型的信息。
[0073] 本申请实施例中,利用多意图识别模型中的编码模块中的第一通道特征提取网络对字符向量进行向量编码,得到字符向量对应的局部上下文特征向量,且该局部上下文特征向量用于表征待识别语音信息中每个字符在短距离上下文语义的序列信息。
[0074] 本申请实施例中,第一通道特征提取网络采用双向多层长短时记忆网络(Bidirectional Long Short‑Term Memory,Bi‑LSTM)。
[0075] 本申请实施例中,对于待识别语音信息而言,由于单个词的意思不能仅仅依靠其本身的意思来决定,更需要在上下文中语境中判断,所以将向量化的待识别语音信息即待识别语音信息中各个词对应的字符向量,输入到编码层(Bi‑LSTM)中,获得在上下文语境中的每个词状态。例如,对于待识别语音信息,由N个字符对应的字符向量进行表示,并将其输入到Bi‑LSTM网络中,得到待识别语音信息中每一个词的向前状态以及向后状态,将二者进行拼接后,得到当前时序i的隐藏状态,可以通过如下公式(1)表示:
[0076]
[0077] 所有向前与向后时序上的隐藏状态拼接后的串联,可以通过公式(2)表示,[0078] H={h1,h2,…,hN}(公式2)
[0079] 之后,需要将上述中最后时序的正向与反向隐藏状态拼接,通过一个线性层g以及tanh激活函数将其进行转换,得到局部上下文特征向量,这里,局部上下文特征向量可以通过如下公式(3)表示,
[0080]
[0081] 如此,本申请实施例通过BiLSTM有助于捕捉字符级别的序列信息。
[0082] 步骤303、将分词向量输入至第二通道特征提取网络,结合待识别语音信息上下文,进行膨胀卷积处理,得到分词向量对应的用于表征每个分词与各个分词之间的上下文语义关系的全局上下文特征向量,其中,第一通道特征提取网络与第二通道特征提取网络不同。
[0083] 本申请实施例中,参照图4所示,第二通道特征提取网络包括迭代膨胀卷积神经网络和第一注意力机制网络,步骤303将分词向量输入至第二通道特征提取网络,结合待识别语音信息上下文,进行膨胀卷积处理,得到分词向量对应的用于表征每个分词与各个分词之间的上下文语义关系的全局上下文特征向量,可以通过图4所示的步骤实现,[0084] 步骤331、将分词向量输入至迭代膨胀卷积神经网络,采用多个膨胀卷积块分别对分词向量进行膨胀处理,得到中间特征向量。
[0085] 本申请实施例中,迭代膨胀卷积神经网络(Incremental Dilated Convolution Neural Networks,IDCNN)包括多个膨胀卷积块和级联层(Cascade Layer,Cascade),每个膨胀卷积块包含有多个多个膨胀卷积层(Dilated Convolutional Layer,DC)。其中,膨胀卷积层通过在卷积操作中添加间隔参数(dilation)来扩大卷积核的感受野,从而增加模型的上下文信息。级联层则通过级联多个DC层,每层的卷积核大小逐渐增大,来增加模型的感受野,进一步提高模型的性能。
[0086] 示例性地,假设分词向量表示为F,针对输入至每个膨胀卷积块的计算原理如公式(6)所示,
[0087]
[0088]
[0089] 其中, 表示第l个膨胀卷积层,δ为膨胀距离,r表示ReLU激活函数,F表示分词向(l+1)量,C 为经过第l个膨胀卷积层进行膨胀处理输出的向量。
[0090] 进一步地,将多个膨胀卷积层的输出经过级联层进行拼接,得到中间特征向量。假设第j个膨胀卷积块的输出为Hj,则计算最终迭代膨胀卷积神经网络的输出的原理如公式(7)所示,
[0091]
[0092] H′=dropout(H)    (7)
[0093] 其中,K表示膨胀卷积块的数量,H′为迭代膨胀卷积神经网络输出的中间特征向量。
[0094] 由上述可知,在多意图识别任务中,本申请实施例中所使用的数据集中所包含的文本均为长文本。IDCNN相较于传统的卷积神经网络加大了感受野,让每个卷积输出都包含较大范围的信息;同时它能够加速图像处理器并行,减少训练时间,在多意图识别任务中具有更好的性能。
[0095] 步骤332、将中间特征向量输入至第一注意力机制网络,得到分词向量对应的全局上下文特征向量。
[0096] 本申请实施例中,在得到迭代膨胀卷积神经网络输出的中间特征向量之后,本申请实施例将中间特征向量输入至第一注意力机制网络进行计算,假设第一注意力机制网络的输入为H′=[h1,h2,…,hQ],则每一个输入hq(q=1,2,3,…,Q)的注意力权重aq的计算过程如公式(8)所示,
[0097] uq=tanh(W×hq+b)
[0098]
[0099] 其中,W为注意力矩阵,又称权重矩阵,b为偏置,最终将注意力权重aq输入hq进行加权求和,即可得到最终第一注意力机制网络输出的全局上下文特征向量,其中,全局上下文特征向量可以通过如下公式(9)表示:
[0100]
[0101] 由上述可知,本申请实施例中,由于待识别语音信息大多数为长文本,通过注意力机制能够为模型提取的每一个特征赋予权重,减小无效特征对模型进行实体识别的影响,相较于不加入注意力机制的IDCNN效果要更好。
[0102] 由上述可知,本申请实施例中,引入双向长短期记忆(BiLSTM)模型来提取待识别语音信息中单个字符的顺序和方向信息,从而有助于捕捉待识别语音信息中字符级别的序列信息。同时为了获取更大的卷积视野,选用迭代膨胀卷积神经网络(IDCNN)和注意力机制,从而有利于捕捉更高层次的词级别语义关系。如此,经过使用BiLSTM和IDCNN‑attention进行序列信息和捕捉更高层次的词级别语义关系的双通道联合特征提取,使得向量能够更好地表征文本的特征,能够更全面、准确地捕捉输入序列的信息,有利于后续的多个单意图语句识别效果的提升。同时,增强模型的上下文理解和多意图处理能力,使其更适用于复杂多样的对话情境,从而提高模型的实用性。
[0103] 步骤304、对局部上下文特征向量和全局上下文特征向量进行特征融合,得到融合上下文特征向量。
[0104] 本申请实施例中,步骤304对局部上下文特征向量和全局上下文特征向量进行特征融合,得到融合上下文特征向量,可以通过如下方式实现,
[0105] 步骤341、获得编码模块为局部上下文特征向量分配的第一权重,以及为全局上下文特征向量分配的第二权重;
[0106] 步骤342、基于第一权重和第二权重,对局部上下文特征向量和全局上下文特征向量进行加权处理,得到融合上下文特征向量。
[0107] 本申请实施例中,第一权重为训练好的多意图识别模型针对局部上下文特征向量分配的权重,第二权重为训练好的多意图识别模型针对全局上下文特征向量分配的权重。
[0108] 本申请实施例中,车辆中控设备获得编码模块为局部上下文特征向量分配的第一权重,以及为全局上下文特征向量分配的第二权重,利用第一权重对局部上下文特征向量进行加权处理,利用第二权重对全局上下文特征向量进行加权处理,并将加权后的局部上下文特征向量和加权后的全局上下文特征向量进行融合,得到融合上下文特征向量。如此,将局部上下文特征向量和全局上下文特征向量加权,后续所使用的融合上下文特征向量将同时包含长距离依赖信息和局部信息,语义信息更加丰富,有助于提高实体识别的准确率。
[0109] 本申请实施例中,步骤304对局部上下文特征向量和全局上下文特征向量进行特征融合,得到融合上下文特征向量,还可以通过如下方式实现,
[0110] 步骤343、利用求解系数函数,计算局部上下文特征向量对应的第三权重和全局上下文特征向量对应的第四权重;
[0111] 步骤344、基于第三权重和第四权重,对局部上下文特征向量和全局上下文特征向量进行加权处理,得到融合上下文特征向量。
[0112] 本申请实施例中,编码模块还可以采用求解系数函数,计算局部上下文特征向量和全局上下文特征向量,这两个隐藏状态之间的权重比例,权重比例可以通过如下公式(10)表示,
[0113] M=Lambda([hb;hd])    (10)
[0114] 其中,Lambda表示求解权重系数的函数,hb为局部上下文特征向量,hd为全局上下文特征向量,M为局部上下文特征向量和全局上下文特征向量之间的权重系数比例。Lambda函数为自定义的匿名函数,用来实现权重比例功能,通过两个向量间的相似度进行加权求和,首先计算向量的余弦相似度,之后使用Keras内置函数根据余弦相似度得到向量间的相似度比例,最后加权融合得到最终向量。具体定义需要针对实际应用需求,针对不同的应用需求可以定义出不同的求解权重系数的函数。
[0115] 进一步地,求出权重系数比例后,通过如下公式(11),得到局部上下文特征向量的第三权重和全局上下文特征向量的第四权重,其中,
[0116]
[0117] 其中,Wb为局部上下文特征向量的第三权重,Wd为全局上下文特征向量的第四权重,M为局部上下文特征向量和全局上下文特征向量之间的权重系数比例。
[0118] 最后,基于第三权重和第四权重,将局部上下文特征向量和全局上下文特征向量加权求和得到融合上下文特征向量,加权过程通过如下公式(12)所示,
[0119] h=Wb·hb+Wd·hd    (12)
[0120] 由上述可知,本申请实施例将局部上下文特征向量和全局上下文特征向量加权,后续所使用的融合上下文特征向量将同时包含长距离依赖信息和局部信息,语义信息更加丰富,有助于提高实体识别的准确率。
[0121] 步骤305、采用解码模块对融合上下文特征向量进行特征解码,得到处理结果。
[0122] 本申请实施例中,利用多意图识别模型中的解码层,并引入第二注意力机制网络,对语义向量进行意图解码,得到意图识别结果。
[0123] 本申请实施例中,要将编码模块最后输出的含有全部上下文语义的隐藏状态作为解码模块的初始隐藏状态,即对局部上下文特征向量和全局上下文特征向量进行加权处理得到的融合上下文特征向量作为解码模块的初始隐藏状态。
[0124] 本申请实施例中,车辆中控设备将编码模块最后输出的含有全部上下文语义的隐藏状态作为解码模块的初始隐藏状态,采用多意图识别模型中的解码模块对融合上下文特征向量进行特征解码,得到包括待识别语音信息对应的由多个单意图语句组成的意图识别结果。
[0125] 本申请实施例中,解码模块为seq2seq模型中的所使用的,本领域技术人员可以使用相关技术得到,对此,本申请不做具体限制。
[0126] 示例性地,多意图识别模型中的解码模块包含单向多层长短时记忆网络,即单向Bi‑LSTM网络、连接层,以及结合了注意力机制。单向多层长短时记忆网络包括多个节点数,对于解码模块每个时序上的输出si,需要通过解码模块中的注意力机制先生成一个中间语义向量ci,再由编码模块中上一时序的隐藏状态yi‑1、解码模块中上一时序的隐藏状态si‑1与中间语义向量ci进行融合作为输出,这里,解码模块中的每个时序i的隐藏状态si可以通过如下公式(13)表示,
[0127] si=f(yi‑1,si‑1,ci)(公式13)
[0128] 这里,对于中间语义向量ci,中间语义向量ci是编码模块结合注意力机制训练得到的,注意力机制对编码模块的每个时序的隐藏状态分配不同的权重,并对每个时序的隐藏状态进行加权,权重大的的隐藏状态对应的时序对解码的输出影响较大,中间语义向量ci可以通过如下公式(14)表示,
[0129]
[0130] 其中,aij为每个时序的隐藏状态分配的权重,hj表示每个时序的隐藏状态。
[0131] 这里,权重aij可以通过如下公式(15)表示为,
[0132]
[0133] 其中,eij=a(si‑1,hj)表示一种对齐模型,本申请对对齐模型的选择不做具体限制。
[0134] 在一些实施例中,车辆中控设备得到意图识别结果后,根据意图识别结果,依次执行每一单意图语句,执行相应的车辆控制操作。
[0135] 在一种可能实现的方式中,依次执行为按照获取的单意图语句的顺序,例如,获取的单意图语句是“开空调,开车窗”,则先执行打开空调的车辆控制操作,再执行打开车窗的车辆控制操作。可选地,将得到的多个单一意图语句发送到相应的处理器,由相应的处理器各自执行每一单一意图语句,并在收到前一个处理器已经执行相应的车辆控制操作后,再发送下一个单一意图语句。
[0136] 例如,将“开空调”的单一意图语句发送到空调处理器,空调处理器执行开空调的车辆控制操作。在收到空调处理器反馈信息已执行开空调的车辆控制操作后,将“开车窗”的单一意图语句发送到BCM(Body Control Module车身制模块),BCM执行打开车窗的车辆控制操作。这样,可以实现车辆的控制,提高车辆使用的便捷性。通过语音输入,可以提高驾驶过程中的安全性。
[0137] 在一种可实现场景中,参照图5,图5示出了对多意图语句进行处理的整体架构图。这里,获得输入的多意图语句51(对应上述的待识别语音信息),如开空调和车窗,并对多意图语句进行分词,并将分词后的结果转换为字符序列和词序列,对字符序列和词序列分别进行字符级别和词级别的向量(embedding)处理,得到多意图语句对应的字符向量52和词向量53(对应上述的分词向量)。然后,将字符向量52输入至多意图识别模型中的编码模块(Encoder)54中的双向多层BiLSTM541,进行双向编码,得到隐藏层的局部上下文特征向量;
将词向量依次经过IDCNN模型542和attention模型543处理,得到隐藏层的全局上下文特征向量,获得多意图识别模型中针对局部上下文特征向量训练得到的局部权重和针对全局上下文特征向量训练得到的全局权重,并基于局部权重和全局权重,对局部上下文特征向量和全局上下文特征向量进行加权处理,得到融合上下文特征向量544。进一步地,将融合上下文特征向量作为多意图识别模型中的解码模块(Decoder)55的初始隐藏状态,使用注意力机制551和单向多层LSTM网络552进行逐步解码,生成包含有多个单意图子句集合56,如{开空调;开车窗}。
[0138] 进一步地,参照图6,图6示出的是多意图识别模型的结构示意图。以多意图语句为开空调和车窗为例,在编码(Encoder)层61,在获得各个字符(开、空、调、和、车、窗)对应的字符向量(x1、x2、x3、x4、x5和x6)之后,将各个字符对应的字符向量通过双向多层Bi‑LSTM网络进行编码处理,得到隐藏层的局部上下文特征向量611;在获得各个分词(开、空调、和、车窗)对应的字符向量(x1、x2、x3和x4)之后,将各个分词对应的分词向量通过多个膨胀卷积层进行膨胀处理,需要说明的是,不同膨胀卷积层对应不同的膨胀距离,如第一个膨胀卷积层的膨胀距离dilation=1,第二个膨胀卷积层的膨胀距离dilation=2(膨胀距离dilation对应上述的膨胀距离δ),并将多个膨胀卷积层的输出进行拼接,得到中间特征向量;然后,采用注意力矩阵对中间特征向量进行处理,得到分词向量对应的全局上下文特征向量612;对局部上下文特征向量和全局上下文特征向量进行加权处理,得到融合上下文特征向量
613。在解码(Decoder)层62,将融合上下文特征向量作为初始隐藏状态,使用注意力机制
621和单向多层LSTM网622,按照贪婪搜索解码算法进行逐步解码,生成包含有多个单意图子句集合,如{开空调;开车窗}。
[0139] 参照图7,图7为本申请实施例提供的一种基于改进的seq2seq模型的多意图识别方法的实现流程示意图,该方法可以由车辆中控设备的处理器执行,这里,将结合图7示出的步骤进行说明,
[0140] 步骤701、获得包含有多个已标注单意图语句的样本语音信息,并根据样本语音信息中的各个词,构建对应词的样本特征向量;其中,样本特征向量包括样本字符向量和样本分词向量。
[0141] 本申请实施例中,车辆中控设备对样本语音信息按照预设规则进行处理,得到多个已标注单意图语句,并根据样本语音信息中的各个词,构建对应词的包含有样本字符向量和样本分词向量的样本特征向量。
[0142] 步骤702、将样本特征向量输入至待训练多意图识别模型中,采用待训练多意图识别模型对样本特征向量进行处理,得到样本语音信息对应的多个预测单意图语句。
[0143] 本申请实施例中,车辆中控设备基于待训练多意图识别模型得到多个预测单意图语句作为中间监督信息来提高待训练神经网络的学习能力。
[0144] 步骤703、利用交叉熵损失函数,确定多个已标注单意图语句中每一已标注单意图语句与对应的预测单意图语句之间的损失值,从而得到多个已标注单意图语句分别对应的多个损失值。
[0145] 步骤704、基于多个损失值,对待训练多意图识别模型的网络参数进行调整,以使调整后的待训练多意图识别模型输出的损失值满足预设收敛条件。
[0146] 本申请实施例中,车辆中控设备利用交叉熵损失函数,确定多个已标注单意图语句中每一已标注单意图语句与对应的预测单意图语句之间的损失值,从而得到多个已标注单意图语句分别对应的多个损失值;进一步地,基于多个损失值,采用自适应运动估计算法(adaptive moment estimation,Adam)优化多意图识别模型的网络参数,以使调整后的待训练多意图识别模型输出的损失值满足预设收敛条件。当然,本申请实施例还可以基于双语评估替补(bilingual evaluation understudy,BLEU)指标对多意图识别模型进行评估。
[0147] 由上述可知,本申请实施例通过将多意图语句转化为多个单一意图子句,以提高多意图识别的准确性和稳定性。这种端到端的处理方式不仅减少了错误,还提供了更大的灵活性和方便性,有望为多意图对话系统的发展带来更多便利和创新。同时,本申请实施例为了提高模型的性能,对seq2seq模型的编码层进行改进,Seq2seq模型的编码层由两部分组成,BiLSTM和IDCNN‑Attention。其中,BiLSTM的输入为字符向量,IDCNN‑Attention的输入为词向量。通过采用BiLSTM和IDCNN‑Attention的结合,模型能够学习多层次的表示。BiLSTM有助于捕捉字符级别的序列信息,IDCNN‑Attention则有利于捕捉更高层次的词级别语义关系。这种混合编码层的设计使得Seq2seq模型能够更全面、准确地捕捉输入序列的信息,增强模型的上下文理解和多意图处理能力,使其更适用于复杂多样的对话情境,从而提高模型的实用性。需要说明的是,该模型的准确性和效果可以通过人工评估和指标评估进行验证和优化器,该方案在多意图分句任务中具有较大的应用前景和实用价值。
[0148] 需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
[0149] 本申请的实施例提供一种基于改进的seq2seq模型的多意图识别装置,该基于改进的seq2seq模型的多意图识别装置可以用于实施图1至图4、图7对应的实施例提供的一种基于改进的seq2seq模型的多意图识别方法,参照图8所示,该基于改进的seq2seq模型的多意图识别装置8包括:获得模块801、处理模块802、输入模块803和多意图识别模型804,其中,
[0150] 获得模块801,用于获得待识别语音信息;
[0151] 处理模块802,用于根据待识别语音信息中的各个词,构建对应词的特征向量;其中,特征向量包括字符向量和分词向量;
[0152] 输入模块803,用于将特征向量输入至多意图识别模型中;
[0153] 多意图识别模型804,用于采用多意图识别模型对特征向量进行处理,得到处理结果;其中,处理结果包括待识别语音信息对应的由多个单意图语句组成的意图识别结果,多意图识别模型是基于seq2seq模型进行改进的;
[0154] 处理结果至少依据字符向量对应的局部上下文特征向量和分词向量对应的全局上下文特征向量得到的。
[0155] 本申请实施例提供一种车辆中控设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
[0156] 本申请实施例提供一种存储介质,存储介质存储有一个或者多个计算机程序,一个或者多个计算机程序可被一个或者多个处理器执行,以实现上述方法中的部分或全部步骤。所述存储介质可以是瞬时性的,也可以是非瞬时性的。
[0157] 本申请实施例提供一种计算机程序,包括计算机可读代码,在所述计算机可读代码在车辆中控设备中运行的情况下,所述车辆中控设备中的处理器执行用于实现上述方法中的部分或全部步骤。
[0158] 本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件软件或其结合的方式实现。在一些实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一些实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
[0159] 这里需要指出的是:上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
[0160] 图9为本申请实施例提供的一种车辆中控设备的硬件实体示意图,如图9所示,该车辆中控设备9的硬件实体包括:处理器901和存储器902,其中,存储器902存储有可在处理器901上运行的计算机程序,处理器901执行程序时实现如下步骤,
[0161] 获得待识别语音信息,并根据待识别语音信息中的各个词,构建对应词的特征向量;其中,特征向量包括字符向量和分词向量;
[0162] 将特征向量输入至多意图识别模型中,采用多意图识别模型对特征向量进行处理,得到处理结果;其中,处理结果包括待识别语音信息对应的由多个单意图语句组成的意图识别结果,多意图识别模型是基于seq2seq模型进行改进的;
[0163] 处理结果至少依据字符向量对应的局部上下文特征向量和分词向量对应的全局上下文特征向量得到的。
[0164] 其中,存储器902存储有可在处理器上运行的计算机程序,存储器902配置为存储由处理器901可执行的指令和应用,还可以缓存待处理器901以及车辆中控设备9中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random Access Memory,RAM)实现。
[0165] 其中,处理器901执行程序时实现上述任一实施例的基于改进的seq2seq模型的多意图识别方法的步骤。处理器901通常控制车辆中控设备9的总体操作。
[0166] 本申请实施例提供一种存储介质,存储介质存储有一个或者多个计算机程序,该一个或者多个计算机程序可被一个或者多个处理器执行,以实现如上任一实施例的基于改进的seq2seq模型的多意图识别方法的步骤。
[0167] 这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
[0168] 上述处理器可以为目标用途集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器微控制器微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本申请实施例不作具体限定。
[0169] 上述计算机存储介质/存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read‑Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read‑Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read‑Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read‑Only Memory,CD‑ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
[0170] 应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各步骤/过程的序号的大小并不意味着执行顺序的先后,各步骤/过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
[0171] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0172] 在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
[0173] 上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0174] 另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0175] 本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0176] 或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台车载终端(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
[0177] 以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。