基于人工智能的交互方法、装置、设备及存储介质转让专利

申请号 : CN202311042338.9

文献号 : CN116758908B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 顾维玺廉润泽马戈叶鸿儒王青春

申请人 : 中国工业互联网研究院

摘要 :

本发明属于人工智能技术领域,公开了一种基于人工智能的交互方法、装置、设备及存储介质。根据用户的交互语音中的语调频谱和目标情绪识别模型确定用户的用户交互情绪,保证了对用户交互情绪确定的准确性,同时根据采集的用户姿态图像确定用户的当前用户动作,实现了对当前用户动作的精准识别,并根据交互语音确定回复文本,根据用户交互情绪确定语音交互语调,根据当前用户动作确定交互回复动作,从而进行智能交互,不仅能够在交互过程中贴合用户的当前情绪,还能够对用户当前所作出的动作和发出的语音做出准确回应,提升了用户的交互体验感。

权利要求 :

1.一种基于人工智能的交互方法,其特征在于,所述基于人工智能的交互方法,包括:在接收到用户的交互语音时,对所述交互语音进行语调频谱提取;

根据语调频谱和目标情绪识别模型确定用户交互情绪;

根据所述交互语音进行内容识别,确定回复文本,并根据所述用户交互情绪确定语音交互语调;

根据采集的用户姿态图像进行关节点检测,确定各用户关节点的关节点坐标;

根据各用户关节点的关节点坐标确定所述用户的当前用户动作,并根据所述当前用户动作确定交互回复动作;

根据所述语音交互语调、所述回复文本以及交互回复动作进行智能交互;

其中,所述根据采集的用户姿态图像进行关节点检测,确定各用户关节点的关节点坐标,包括:通过卷积神经网络对采集的用户姿态图像进行特征处理,得到姿态特征图;

对所述姿态特征图进行部位预测,得到所述姿态特征图对应的部位置信编码和部位亲和编码;

根据所述部位置信编码和所述部位亲和编码检测所述用户的部位关联向量;

根据所述部位关联向量进行亲和向量检测,确定各用户关节点及各用户关节点的关节点坐标;

其中,所述根据所述交互语音进行内容识别,确定回复文本,包括:对所述交互语音进行内容识别,确定语音交互文本;

根据所述语音交互文本确定当前交互场景;

根据所述当前交互场景调用对应的交互知识库,并在所述交互知识库中查找所述语音交互文本的匹配文本;

根据所述匹配文本确定回复文本。

2.如权利要求1所述的基于人工智能的交互方法,其特征在于,所述根据所述交互语音和目标情绪识别模型确定用户交互情绪之前,还包括:对样本语音训练集中的各样本语音进行频谱提取,得到各样本语音的频谱特征;

输入所述频谱特征至卷积神经网络,确定所述频谱特征的空间特征向量;

输入所述频谱特征至双向记忆网络,确定所述频谱特征的全局特征向量;

根据所述全局特征向量、所述空间特征向量以及注意力机制进行模型训练,得到目标情绪识别模型。

3.如权利要求2所述的基于人工智能的交互方法,其特征在于,所述根据所述全局特征向量、所述空间特征向量以及注意力机制进行模型训练,得到目标情绪识别模型,包括:输入所述全局特征向量和所述空间特征向量至注意力机制,确定注意力训练权重;

根据所述注意力训练权重进行归一化处理,得到目标训练权重;

根据所述目标训练权重和所述全局特征向量进行特征计算,确定目标训练特征;

根据所述目标训练特征输入至初始分类网络,对所述初始分类网络进行网络训练,得到目标情绪识别模型。

4.如权利要求1所述的基于人工智能的交互方法,其特征在于,所述根据各用户关节点的关节点坐标确定所述用户的当前用户动作,包括:在多个用户关节点中进行目标关节点定位,根据各用户关节点的关节点坐标计算各用户关节点至所述目标关节点之间的间距;

根据各用户关节点至所述目标关节点之间的间距进行归一化处理,得到关节距离特征;

根据各用户关节点的关节点坐标计算各用户关节点的关节点角度,确定关节角度特征;

根据所述关节距离特征和所述关节角度特征进行动作匹配,确定所述用户的当前用户动作。

5.如权利要求1所述的基于人工智能的交互方法,其特征在于,所述根据所述语音交互语调、所述回复文本以及交互回复动作进行智能交互,包括:确定所述用户的交互性别;

根据所述交互性别确定虚拟交互人声;

根据所述虚拟交互人声、所述回复文本以及所述语音交互语调生成交互回复语音;

根据所述交互回复语音和所述交互回复动作进行智能交互。

6.一种基于人工智能的交互装置,其特征在于,所述基于人工智能的交互装置包括:提取模块,用于在接收到用户的交互语音时,对所述交互语音进行语调频谱提取;

确定模块,用于根据语调频谱和目标情绪识别模型确定用户交互情绪;

识别模块,用于根据所述交互语音进行内容识别,确定回复文本,并根据所述用户交互情绪确定语音交互语调;

检测模块,用于根据采集的用户姿态图像进行关节点检测,确定各用户关节点的关节点坐标;

所述确定模块,还用于根据各用户关节点的关节点坐标确定所述用户的当前用户动作,并根据所述当前用户动作确定交互回复动作;

交互模块,用于根据所述语音交互语调、所述回复文本以及交互回复动作进行智能交互;

所述检测模块,还用于通过卷积神经网络对采集的用户姿态图像进行特征处理,得到姿态特征图;

对所述姿态特征图进行部位预测,得到所述姿态特征图对应的部位置信编码和部位亲和编码;

根据所述部位置信编码和所述部位亲和编码检测所述用户的部位关联向量;

根据所述部位关联向量进行亲和向量检测,确定各用户关节点及各用户关节点的关节点坐标;

所述识别模块,还用于对所述交互语音进行内容识别,确定语音交互文本;

根据所述语音交互文本确定当前交互场景;

根据所述当前交互场景调用对应的交互知识库,并在所述交互知识库中查找所述语音交互文本的匹配文本;

根据所述匹配文本确定回复文本。

7.一种基于人工智能的交互设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于人工智能的交互程序,所述基于人工智能的交互程序配置为实现如权利要求1至5中任一项所述的基于人工智能的交互方法。

8.一种存储介质,其特征在于,所述存储介质上存储有基于人工智能的交互程序,所述基于人工智能的交互程序被处理器执行时实现如权利要求1至5任一项所述的基于人工智能的交互方法。

说明书 :

基于人工智能的交互方法、装置、设备及存储介质

技术领域

[0001] 本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的交互方法、装置、设备及存储介质。

背景技术

[0002] 随着科技的快速发展,人工智能的交互产品也逐渐增多,用户可与人工智能交互产品进行语音和动作交互。但现有技术中人工智能交互产品在与用户的交互过程中,均采用机械式语音与用户进行交互,且交互过程中仅能够与用户进行简单的语音交互,交互过程无聊且呆板,使用户的体验感较差,无法沉浸式体验智能交互过程。

发明内容

[0003] 本发明的主要目的在于提供一种基于人工智能的交互方法、装置、设备及存储介质,旨在解决在人工智能的交互场景下,如何提高交互的智能性,以提升用户的交互体验感的技术问题。
[0004] 为实现上述目的,本发明提供了一种基于人工智能的交互方法,所述基于人工智能的交互方法包括:
[0005] 在接收到用户的交互语音时,对所述交互语音进行语调频谱提取;
[0006] 根据语调频谱和目标情绪识别模型确定用户交互情绪;
[0007] 根据所述交互语音进行内容识别,确定回复文本,并根据所述用户交互情绪确定语音交互语调;
[0008] 根据采集的用户姿态图像进行关节点检测,确定各用户关节点的关节点坐标;
[0009] 根据各用户关节点的关节点坐标确定所述用户的当前用户动作,并根据所述当前用户动作确定交互回复动作;
[0010] 根据所述语音交互语调、所述回复文本以及交互回复动作进行智能交互。
[0011] 可选地,所述根据所述交互语音和目标情绪识别模型确定用户交互情绪之前,还包括:
[0012] 对样本语音训练集中的各样本语音进行频谱提取,得到各样本语音的频谱特征;
[0013] 输入所述频谱特征至卷积神经网络,确定所述频谱特征的空间特征向量;
[0014] 输入所述频谱特征至双向记忆网络,确定所述频谱特征的全局特征向量;
[0015] 根据所述全局特征向量、所述空间特征向量以及注意力机制进行模型训练,得到目标情绪识别模型。
[0016] 可选地,所述根据所述全局特征向量、所述空间特征向量以及注意力机制进行模型训练,得到目标情绪识别模型,包括:
[0017] 输入所述全局特征向量和所述空间特征向量至注意力机制,确定注意力训练权重;
[0018] 根据所述注意力训练权重进行归一化处理,得到目标训练权重;
[0019] 根据所述目标训练权重和所述全局特征向量进行特征计算,确定目标训练特征;
[0020] 根据所述目标训练特征输入至初始分类网络,对所述初始分类网络进行网络训练,得到目标情绪识别模型。
[0021] 可选地,所述根据采集的用户姿态图像进行关节点检测,确定各用户关节点的关节点坐标,包括:
[0022] 通过卷积神经网络对采集的用户姿态图像进行特征处理,得到姿态特征图;
[0023] 对所述姿态特征图进行部位预测,得到所述姿态特征图对应的部位置信编码和部位亲和编码;
[0024] 根据所述部位置信编码和所述部位亲和编码检测所述用户的部位关联向量;
[0025] 根据所述部位关联向量进行亲和向量检测,确定各用户关节点及各用户关节点的关节点坐标。
[0026] 可选地,所述根据各用户关节点的关节点坐标确定所述用户的当前用户动作,包括:
[0027] 在多个用户关节点中进行目标关节点定位,根据各用户关节点的关节点坐标计算各用户关节点至所述目标关节点之间的间距;
[0028] 根据各用户关节点至所述目标关节点之间的间距进行归一化处理,得到关节距离特征;
[0029] 根据各用户关节点的关节点坐标计算各用户关节点的关节点角度,确定关节角度特征;
[0030] 根据所述关节距离特征和所述关节角度特征进行动作匹配,确定所述用户的当前用户动作。
[0031] 可选地,所述根据所述交互语音进行内容识别,确定回复文本,包括:
[0032] 对所述交互语音进行内容识别,确定语音交互文本;
[0033] 根据所述语音交互文本确定当前交互场景;
[0034] 根据所述当前交互场景调用对应的交互知识库,并在所述交互知识库中查找所述语音交互文本的匹配文本;
[0035] 根据所述匹配文本确定回复文本。
[0036] 可选地,所述根据所述语音交互语调、所述回复文本以及交互回复动作进行智能交互,包括:
[0037] 确定所述用户的交互性别;
[0038] 根据所述交互性别确定虚拟交互人声;
[0039] 根据所述虚拟交互人声、所述回复文本以及所述语音交互语调生成交互回复语音;
[0040] 根据所述交互回复语音和所述交互回复动作进行智能交互。
[0041] 此外,为实现上述目的,本发明还提出一种基于人工智能的交互装置,所述基于人工智能的交互装置包括:
[0042] 提取模块,用于在接收到用户的交互语音时,对所述交互语音进行语调频谱提取;
[0043] 确定模块,用于根据语调频谱和目标情绪识别模型确定用户交互情绪;
[0044] 识别模块,用于根据所述交互语音进行内容识别,确定回复文本,并根据所述用户交互情绪确定语音交互语调;
[0045] 检测模块,用于根据采集的用户姿态图像进行关节点检测,确定各用户关节点的关节点坐标;
[0046] 所述确定模块,还用于根据各用户关节点的关节点坐标确定所述用户的当前用户动作,并根据所述当前用户动作确定交互回复动作;
[0047] 交互模块,用于根据所述语音交互语调、所述回复文本以及交互回复动作进行智能交互。
[0048] 此外,为实现上述目的,本发明还提出一种基于人工智能的交互设备,所述基于人工智能的交互设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于人工智能的交互程序,所述基于人工智能的交互程序配置为实现如上文所述的基于人工智能的交互方法。
[0049] 此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于人工智能的交互程序,所述基于人工智能的交互程序被处理器执行时实现如上文所述的基于人工智能的交互方法。
[0050] 本发明通过在接收到用户的交互语音时,对所述交互语音进行语调频谱提取;根据语调频谱和目标情绪识别模型确定用户交互情绪;根据所述交互语音进行内容识别,确定回复文本,并根据所述用户交互情绪确定语音交互语调;根据采集的用户姿态图像进行关节点检测,确定各用户关节点的关节点坐标;根据各用户关节点的关节点坐标确定所述用户的当前用户动作,并根据所述当前用户动作确定交互回复动作;根据所述语音交互语调、所述回复文本以及交互回复动作进行智能交互。通过上述方式,根据交互语音中的语调频谱和目标情绪识别模型确定用户的用户交互情绪,保证了对用户交互情绪确定的准确性,同时根据采集的用户姿态图像确定用户的当前用户动作,实现了对当前用户动作的精准识别,并根据交互语音确定回复文本,根据用户交互情绪确定语音交互语调,根据当前用户动作确定交互回复动作,从而进行智能交互,不仅能够在交互过程中贴合用户的当前情绪,还能够对用户当前所作出的动作和发出的语音做出准确回应,提高了交互的智能性,提升了用户的交互体验感。

附图说明

[0051] 图1是本发明实施例方案涉及的硬件运行环境的基于人工智能的交互设备的结构示意图;
[0052] 图2为本发明基于人工智能的交互方法第一实施例的流程示意图;
[0053] 图3为本发明基于人工智能的交互方法第二实施例的流程示意图;
[0054] 图4为本发明基于人工智能的交互装置第一实施例的结构框图。
[0055] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0056] 应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0057] 参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于人工智能的交互设备结构示意图。
[0058] 如图1所示,该基于人工智能的交互设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless‑Fidelity,Wi‑Fi)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non‑Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
[0059] 本领域技术人员可以理解,图1中示出的结构并不构成对基于人工智能的交互设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0060] 如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于人工智能的交互程序。
[0061] 在图1所示的基于人工智能的交互设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明基于人工智能的交互设备中的处理器1001、存储器1005可以设置在基于人工智能的交互设备中,所述基于人工智能的交互设备通过处理器1001调用存储器1005中存储的基于人工智能的交互程序,并执行本发明实施例提供的基于人工智能的交互方法。
[0062] 本发明实施例提供了一种基于人工智能的交互方法,参照图2,图2为本发明一种基于人工智能的交互方法第一实施例的流程示意图。
[0063] 基于人工智能的交互方法包括以下步骤:
[0064] 步骤S10:在接收到用户的交互语音时,对所述交互语音进行语调频谱提取。
[0065] 需要说明的是,本实施例的执行主体为基于人工智能的交互设备,基于人工智能的交互设备可以是个人电脑或服务器等电子设备,还可以为其他可实现相同或相似功能的控制器及设备,本实施例对此不加以限制,在本实施例及下述各实施例中,以基于人工智能的交互设备为例对本发明基于人工智能的交互方法进行说明。
[0066] 可以理解的是,交互语音指的是用户所发出的与基于人工智能的交互设备进行交互的语音,基于人工智能的交互设备在开启后,则实时检测是否接收到用户发送的交互语音,当用户处于基于人工智能的交互设备的交互范围内且检测到有语音时,则确定接收到用户发送的交互语音。
[0067] 在具体实现中,基于人工智能的交互设备对交互语音进行语音预处理,预处理的过程包括语音加窗、分帧等,以保证后续在进行语音识别和情绪定位的准确性。基于人工智能的交互设备对预处理后的交互语音进行频谱提取,从预处理后的交互语音中所提取出的梅尔频谱即为语调频谱。
[0068] 步骤S20:根据语调频谱和目标情绪识别模型确定用户交互情绪。
[0069] 需要说明的是,目标情绪识别模型是通过卷积神经网络、注意力机制以及大量的样本语音进行训练所得到的模型,目标情绪识别模型可以识别出语音中所包含的用户情绪。用户情绪包括但不限于高兴、焦虑、恐惧、愤怒以及平静等。
[0070] 可以理解的是,输入交互语音的语调频谱至目标情绪识别模型,目标情绪识别模型可输出用户当前发出交互语音时所处的情绪,用户当前发出交互语音时所处的情绪即为用户交互情绪。
[0071] 在具体实现中,为了保证目标情绪识别模型可准确输出用户情绪,进一步地,所述根据所述交互语音和目标情绪识别模型确定用户交互情绪之前,还包括:对样本语音训练集中的各样本语音进行频谱提取,得到各样本语音的频谱特征;输入所述频谱特征至卷积神经网络,确定所述频谱特征的空间特征向量;输入所述频谱特征至双向记忆网络,确定所述频谱特征的全局特征向量;根据所述全局特征向量、所述空间特征向量以及注意力机制进行模型训练,得到目标情绪识别模型。
[0072] 需要说明的是,样本语音训练集指的是包含大量的标注了用户情绪的样本语音的数据集,对样本语音训练集中的各样本语音进行预处理,对预处理后的各样本语音进行频谱提取,得到各样本语音的梅尔频谱即为各样本语音的频谱特征。
[0073] 可以理解的是,将各样本语音的频谱特征分别输入至卷积神经网络和双向长短时记忆网络,双向长短时记忆网络即为双向记忆网络,卷积神经网络对各频谱特征进行特征提取,得到各频谱特征的空间特征向量 ,其中 为偏移量,为权重, 为输入的频谱特征,输入各频谱特征至双向记忆网络后,可得到正向长短期记忆网络输出和反向长短期记忆网络输出,各频谱特征的正向长短期记忆网络输出和反向长短期记忆网络输出即为全局特征向量 ,其中 为正向长短期记忆网络输出,为反向长短期记忆网络输出。
[0074] 在具体实现中,为了根据全局特征向量、空间特征向量以及注意力机制得到准确的目标情绪识别模型,进一步地,所述根据所述全局特征向量、所述空间特征向量以及注意力机制进行模型训练,得到目标情绪识别模型,包括:输入所述全局特征向量和所述空间特征向量至注意力机制,确定注意力训练权重;根据所述注意力训练权重进行归一化处理,得到目标训练权重;根据所述目标训练权重和所述全局特征向量进行特征计算,确定目标训练特征;根据所述目标训练特征输入至初始分类网络,对所述初始分类网络进行网络训练,得到目标情绪识别模型。
[0075] 需要说明的是,根据全局特征向量和空间特征向量计算特征相似性,其中,W为权重矩阵,c为模型训练过程中得到的模型偏置项,
将低秩分布作为参数矩阵 ,将 和 进行叠加计算,得到对应的注意力训练权重,将注意力训练权重进行归一化处理,得到目标训练权重M,将M与全局特征向量进行计算得到最终的目标训练特征 ,将目标训练特征进行拼接得到注意力表示,并基于注意力表示和标注的用户情绪进行模型的训练,从而得到训练完成的目标情绪识别模型,目标情绪识别模型是基于卷积神经网络、双向长短记忆力网络以及多头注意力机制搭建得到的。
[0076] 步骤S30:根据所述交互语音进行内容识别,确定回复文本,并根据所述用户交互情绪确定语音交互语调。
[0077] 需要说明的是,基于人工智能的交互设备对交互语音进行内容识别,将其转换为交互语音对应的文本内容,进行内容识别可采用基于参数模型的隐马尔可夫模型的方法,也可采用其他的方式,本实施例对此不加以限制。
[0078] 可以理解的是,基于人工智能的交互设备在数据库中查找与交互语音对应的文本内容相匹配的回复文本,或,通过自然语言处理方法确定回复文本。
[0079] 在具体实现中,为了照顾用户情绪,在用户失落或伤心时,用充满激情或阳光的语音与用户进行交互,可根据用户交互情绪在语调情绪映射表中选择对应的语音交互语调。语调情绪映射表中存在用户情绪和交互语调的映射关系,一种用户情绪均对应交互语调,比如,用户情绪为伤心时,交互语调则为高昂且活力的语调,用户情绪为焦虑时,交互语调则为沉稳且平静的语调,多种交互语调是基于人工智能的交互设备提前进行语调模拟和实战训练所得到的。
[0080] 步骤S40:根据采集的用户姿态图像进行关节点检测,确定各用户关节点的关节点坐标。
[0081] 需要说明的是,在接收到用户的交互语音时,需根据交互语音的声源进行目标定位,确定用户的当前所处位置,基于人工智能的交互设备会将摄像头的采集方向调整至用户的当前所处位置,以使摄像头能够采集到包含用户大部分身体部位的图像,采集到包含用户大部分身体部位的图像即为用户姿态图像。
[0082] 可以理解的是,识别用户姿态图像中用户身体上的多个关节点,用户身体上的多个关节点即为用户关节点,并确定用户关节点的二维图像坐标,用户关节点的二维图像坐标即为关节点坐标。
[0083] 步骤S50:根据各用户关节点的关节点坐标确定所述用户的当前用户动作,并根据所述当前用户动作确定交互回复动作。
[0084] 需要说明的是,在数据存储库中查找多个关节点坐标所构成的动作,多个关节点所构成的动作即用户所呈现的当前用户动作,并在动作映射表中查找当前用户动作所对应的交互回复动作,动作映射表中每一个用户动作均对应一个交互回复动作。
[0085] 步骤S60:根据所述语音交互语调、所述回复文本以及交互回复动作进行智能交互。
[0086] 需要说明的是,基于人工智能的交互设备呈现交互回复动作,以响应用户的当前用户动作,并按照语音交互语调对回复文本进行演绎,以保证交互过程中的活泼灵动且贴合用户情绪。
[0087] 本实施例通过在接收到用户的交互语音时,对所述交互语音进行语调频谱提取;根据语调频谱和目标情绪识别模型确定用户交互情绪;根据所述交互语音进行内容识别,确定回复文本,并根据所述用户交互情绪确定语音交互语调;根据采集的用户姿态图像进行关节点检测,确定各用户关节点的关节点坐标;根据各用户关节点的关节点坐标确定所述用户的当前用户动作,并根据所述当前用户动作确定交互回复动作;根据所述语音交互语调、所述回复文本以及交互回复动作进行智能交互。通过上述方式,根据交互语音中的语调频谱和目标情绪识别模型确定用户的用户交互情绪,保证了对用户交互情绪确定的准确性,同时根据采集的用户姿态图像确定用户的当前用户动作,实现了对当前用户动作的精准识别,并根据交互语音确定回复文本,根据用户交互情绪确定语音交互语调,根据当前用户动作确定交互回复动作,从而进行智能交互,不仅能够在交互过程中贴合用户的当前情绪,还能够对用户当前所作出的动作和发出的语音做出准确回应,提高了交互的智能性,提升了用户的交互体验感。
[0088] 参考图3,图3为本发明一种基于人工智能的交互方法第二实施例的流程示意图。
[0089] 基于上述第一实施例,本实施例基于人工智能的交互方法中所述步骤S40,包括:
[0090] 步骤S41:通过卷积神经网络对采集的用户姿态图像进行特征处理,得到姿态特征图。
[0091] 需要说明的是,在对用户姿态图像进行关节点检测之前,需对用户姿态图像进行图像预处理,包括但不限于高斯滤波、图像去噪等处理过程。
[0092] 可以理解的是,输入预处理之后的用户姿态图像至卷积神经网络,卷积神经网络对用户姿态图像进行处理,从而得到用户姿态图像对应的特征图,用户姿态图像对应的特征图即为姿态特征图。
[0093] 步骤S42:对所述姿态特征图进行部位预测,得到所述姿态特征图对应的部位置信编码和部位亲和编码。
[0094] 需要说明的是,卷积神经网络将姿态特征图分成两个线程,通过多次迭代预测用户身体部分置信度映射编码M和亲和度矢量向量场编码N,置信度映射编码M即为部位置信编码,亲和度矢量向量场编码N即为部位亲和编码。在本实施例中,整个预测过程为t个阶段, ,第一阶段所得到的部位置信编码为 ,部位亲和编码为 。后续的T‑1个阶段将上一阶段的部位置信编码和部位亲和编码分别与姿态特征图 融合,进行下一步预测, , ,最后输出部位亲和编码N和置信度映射编码M。
[0095] 步骤S43:根据所述部位置信编码和所述部位亲和编码检测所述用户的部位关联向量。
[0096] 需要说明的是,通过部位置信编码和部位亲和编码检测用户各身体部分之间的关联向量场,用户各身体部位之间的关联向量场即为部位关联向量。
[0097] 步骤S44:根据所述部位关联向量进行亲和向量检测,确定各用户关节点及各用户关节点的关节点坐标。
[0098] 需要说明的是,通过置信度分析用户关节点的亲和向量场,最终确定用户姿态图像中所有的用户关节点和其对应的关节点坐标。具体过程为:在最后检测时对于任意两个用户关节点位置 和 ,计算 和 之间的关联程度,通过用户关节点的亲和度的线性积分进行关联程度的计算,G值越大则表明 和 之间的关联程度越大,,其中 为 和 连线上的任意值,通过对均值 进行采样、
求和来近似积分,有: ,最终可完成用户关节点的检测。
[0099] 可以理解的是,为了保证根据各用户关节点的关节点坐标准确识别到当前用户动作,进一步地,所述根据各用户关节点的关节点坐标确定所述用户的当前用户动作,包括:在多个用户关节点中进行目标关节点定位,根据各用户关节点的关节点坐标计算各用户关节点至所述目标关节点之间的间距;根据各用户关节点至所述目标关节点之间的间距进行归一化处理,得到关节距离特征;根据各用户关节点的关节点坐标计算各用户关节点的关节点角度,确定关节角度特征;根据所述关节距离特征和所述关节角度特征进行动作匹配,确定所述用户的当前用户动作。
[0100] 在具体实现中,目标关节点指的是对用户进行躯干定位的关节点,在本实施例中可为颈椎关节点或腰椎关节点,计算用户关节点中肘关节、腕关节、踝关节以及膝关节至目标关节点X、Y方向的距离,用户关节点中肘关节、腕关节、踝关节以及膝关节至目标关节点X、Y方向的距离即为各用户关节点至目标关节点之间的间距,将各用户关节点至目标关节点之间的间距除于各用户关节点到目标关节点之间的欧氏距离,所得到的结果即为关节距离特征。
[0101] 需要说明的是,确定用户关节点中的肘关节、肩关节、胯关节以及膝关节,根据余弦定律计算角度,具体为 ,其中x,y分别代表其中某用户关节点的关节点坐标,计算所得到的角度即为关节角度特征。
[0102] 可以理解的是,将用户所展现的关节距离特征和关节角度特征作为一组姿态序列,将姿态序列与数据存储库中预先存储的用户动作的姿态序列进行相似度计算,在数据存储库中选取与用户所对应的姿态序列最相似的姿态序列所对应的用户动作作为当前用户动作。
[0103] 在具体实现中,为了保证回复文本确定的准确性,进一步地,所述根据所述交互语音进行内容识别,确定回复文本,包括:对所述交互语音进行内容识别,确定语音交互文本;根据所述语音交互文本确定当前交互场景;根据所述当前交互场景调用对应的交互知识库,并在所述交互知识库中查找所述语音交互文本的匹配文本;根据所述匹配文本确定回复文本。
[0104] 需要说明的是,基于人工智能的交互设备对交互语音进行内容识别,将其转换为交互语音对应的文本内容,交互语音对应的文本内容即为语音交互文本,进行内容识别可采用基于参数模型的隐马尔可夫模型的方法,也可采用其他的方式,本实施例对此不加以限制。
[0105] 可以理解的是,对语音交互文本进行关键词提取,识别其中的关键字段,基于其中的关键字段确定用户希望进行交互的内容场景,用户希望进行交互的内容场景即为当前交互场景。基于人工智能的交互设备提前设定了大量的关键字段,并为每个关键字段划分了对应的场景,但存在一个关键字段可出现在出个场景下的情况,此时需为该关键字段分配一个组合字段,从而对其场景进行限定。例如,“牙疼”可在日常交互场景中出现,也可在医疗交互场景中出现,则需为“牙疼”分配一个组合字段“症状”,当“牙疼”和“症状”两个关键字段一起出现时,则说明当前交互场景为医疗交互场景。
[0106] 在具体实现中,为了保证交互的准确性,不同的交互场景对应不同的交互知识库,根据当前交互场景调用所对应的交互知识库。例如,当前交互场景为医疗交互场景时,则需获取到大量医学相关的知识,保证与用户交互的流畅性和准确性,此时需调用医疗交互场景所对应的医疗交互知识库,保证有充足的医疗知识储备。
[0107] 需要说明的是,在交互知识库中查找与语音交互文本中的关键字段相匹配的文本内容,与语音交互文本中的关键字段相匹配的文本内容即为匹配文本,并基于匹配文本进行字段顺滑,最终生成语句通顺且包含匹配文本的回复文本。
[0108] 可以理解的是,除上述确定当前交互场景从而调用对应的交互知识库,基于交互知识库确定回复文本的方式外,还可采用马尔可夫模型的方法,通过输入语音交互文本至马尔可夫模型,从而得到回复文本。
[0109] 在具体实现中,为了保证交互的生动性,进一步地,所述根据所述语音交互语调、所述回复文本以及交互回复动作进行智能交互,包括:确定所述用户的交互性别;根据所述交互性别确定虚拟交互人声;根据所述虚拟交互人声、所述回复文本以及所述语音交互语调生成交互回复语音;根据所述交互回复语音和所述交互回复动作进行智能交互。
[0110] 需要说明的是,根据交互语音确定发送交互语音的用户所对应的性别,发送交互语音的用户所对应的性别即为交互性别,并通过用户姿态图像对用户进行年龄检测,确定用户年龄,根据交互性别和用户年龄创建一个相同性别且年龄相仿的虚拟人声,相同性别且年龄相仿的虚拟人声即为虚拟交互人声。
[0111] 可以理解的是,基于人工智能的交互设备呈现交互回复动作,以响应用户的当前用户动作,并按照语音交互语调和虚拟交互人声对回复文本进行演绎,以保证交互过程中的活泼灵动且贴合用户情绪。
[0112] 本实施例中通过卷积神经网络对采集的用户姿态图像进行特征处理,得到姿态特征图;对所述姿态特征图进行部位预测,得到所述姿态特征图对应的部位置信编码和部位亲和编码;根据所述部位置信编码和所述部位亲和编码检测所述用户的部位关联向量;根据所述部位关联向量进行亲和向量检测,确定各用户关节点及各用户关节点的关节点坐标。通过上述方式,通过卷积神经网络确定用户姿态图像的姿态特征图,并对姿态特征图进行部位预测,利用确定的部位置信编码和部位亲和编码检测用户的部位关联向量,最终可实现对用户关节点的准确检测和定位。
[0113] 此外,参照图4,本发明实施例还提出一种基于人工智能的交互装置,所述基于人工智能的交互装置包括:
[0114] 提取模块10,用于在接收到用户的交互语音时,对所述交互语音进行语调频谱提取。
[0115] 确定模块20,用于根据语调频谱和目标情绪识别模型确定用户交互情绪。
[0116] 识别模块30,用于根据所述交互语音进行内容识别,确定回复文本,并根据所述用户交互情绪确定语音交互语调。
[0117] 检测模块40,用于根据采集的用户姿态图像进行关节点检测,确定各用户关节点的关节点坐标。
[0118] 所述确定模块20,还用于根据各用户关节点的关节点坐标确定所述用户的当前用户动作,并根据所述当前用户动作确定交互回复动作。
[0119] 交互模块50,用于根据所述语音交互语调、所述回复文本以及交互回复动作进行智能交互。
[0120] 本实施例通过在接收到用户的交互语音时,对所述交互语音进行语调频谱提取;根据语调频谱和目标情绪识别模型确定用户交互情绪;根据所述交互语音进行内容识别,确定回复文本,并根据所述用户交互情绪确定语音交互语调;根据采集的用户姿态图像进行关节点检测,确定各用户关节点的关节点坐标;根据各用户关节点的关节点坐标确定所述用户的当前用户动作,并根据所述当前用户动作确定交互回复动作;根据所述语音交互语调、所述回复文本以及交互回复动作进行智能交互。通过上述方式,根据交互语音中的语调频谱和目标情绪识别模型确定用户的用户交互情绪,保证了对用户交互情绪确定的准确性,同时根据采集的用户姿态图像确定用户的当前用户动作,实现了对当前用户动作的精准识别,并根据交互语音确定回复文本,根据用户交互情绪确定语音交互语调,根据当前用户动作确定交互回复动作,从而进行智能交互,不仅能够在交互过程中贴合用户的当前情绪,还能够对用户当前所作出的动作和发出的语音做出准确回应,提高了交互的智能性,提升了用户的交互体验感。
[0121] 在一实施例中,所述确定模块20,还用于对样本语音训练集中的各样本语音进行频谱提取,得到各样本语音的频谱特征;
[0122] 输入所述频谱特征至卷积神经网络,确定所述频谱特征的空间特征向量;
[0123] 输入所述频谱特征至双向记忆网络,确定所述频谱特征的全局特征向量;
[0124] 根据所述全局特征向量、所述空间特征向量以及注意力机制进行模型训练,得到目标情绪识别模型。
[0125] 在一实施例中,所述确定模块20,还用于输入所述全局特征向量和所述空间特征向量至注意力机制,确定注意力训练权重;
[0126] 根据所述注意力训练权重进行归一化处理,得到目标训练权重;
[0127] 根据所述目标训练权重和所述全局特征向量进行特征计算,确定目标训练特征;
[0128] 根据所述目标训练特征输入至初始分类网络,对所述初始分类网络进行网络训练,得到目标情绪识别模型。
[0129] 在一实施例中,所述检测模块40,还用于通过卷积神经网络对采集的用户姿态图像进行特征处理,得到姿态特征图;
[0130] 对所述姿态特征图进行部位预测,得到所述姿态特征图对应的部位置信编码和部位亲和编码;
[0131] 根据所述部位置信编码和所述部位亲和编码检测所述用户的部位关联向量;
[0132] 根据所述部位关联向量进行亲和向量检测,确定各用户关节点及各用户关节点的关节点坐标。
[0133] 在一实施例中,所述确定模块20,还用于在多个用户关节点中进行目标关节点定位,根据各用户关节点的关节点坐标计算各用户关节点至所述目标关节点之间的间距;
[0134] 根据各用户关节点至所述目标关节点之间的间距进行归一化处理,得到关节距离特征;
[0135] 根据各用户关节点的关节点坐标计算各用户关节点的关节点角度,确定关节角度特征;
[0136] 根据所述关节距离特征和所述关节角度特征进行动作匹配,确定所述用户的当前用户动作。
[0137] 在一实施例中,所述识别模块30,还用于对所述交互语音进行内容识别,确定语音交互文本;
[0138] 根据所述语音交互文本确定当前交互场景;
[0139] 根据所述当前交互场景调用对应的交互知识库,并在所述交互知识库中查找所述语音交互文本的匹配文本;
[0140] 根据所述匹配文本确定回复文本。
[0141] 在一实施例中,所述交互模块50,还用于确定所述用户的交互性别;
[0142] 根据所述交互性别确定虚拟交互人声;
[0143] 根据所述虚拟交互人声、所述回复文本以及所述语音交互语调生成交互回复语音;
[0144] 根据所述交互回复语音和所述交互回复动作进行智能交互。
[0145] 由于本装置采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
[0146] 此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于人工智能的交互程序,所述基于人工智能的交互程序被处理器执行时实现如上文所述的基于人工智能的交互方法的步骤。
[0147] 由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
[0148] 需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
[0149] 另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于人工智能的交互方法,此处不再赘述。
[0150] 此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0151] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0152] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光 盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0153] 以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。