多模态融合人机交互方法、装置、存储介质、终端及系统转让专利
申请号 : CN201910770607.0
文献号 : CN110465947B
文献日 : 2021-07-02
发明人 : 孙骋 , 苏衍宇 , 孙斌 , 张俊杰 , 莫明兴
申请人 : 苏州博众机器人有限公司
摘要 :
权利要求 :
1.一种多模态融合人机交互方法,其特征在于,包括:获取机器人采集的目标交互对象对应的交互数据,其中,所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据;
将所述交互数据输入至基于深度学习的预设多模态融合模型,并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据,其中,所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据;
利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作;
其中,所述预设多模态融合模型包括三个子模型,所述三个子模型分别为语音子模型、表情子模型和动作子模型,所述语音子模型对应第一子样本数据、所述表情子模型对应第二子样本数据,所述动作子模型对应第三子样本数据,所述第一子样本数据中包括所述音频数据、所述微表情数据、以及由所述音频数据转换的自然语言文本数据,所述第二子样本数据中包括所述自然语言文本数据和所述微表情数据,所述第三子样本数据中包括所述自然语言文本数据、所述距离数据和所述姿势数据;
所述将所述交互数据输入至预设多模态融合模型,并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据,包括:从所述交互数据中提取多个子模型分别对应的子样本数据;
将各子样本数据输入至对应的子模型中,得到多个子输出结果;
综合所述多个子输出结果确定所述机器人的交互反馈数据。
2.根据权利要求1所述的方法,其特征在于,在所述获取机器人采集的目标交互对象对应的交互数据之前,还包括:
获取机器人采集的训练样本交互数据,并基于预设专家系统确定所述训练样本交互数据对应的样本标签;
将所述训练样本交互数据和对应的样本标签输入至预设初始模型中进行训练,得到预设多模态融合模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述训练样本交互数据和对应的样本标签输入至预设初始模型中进行训练,得到预设多模态融合模型,包括:将所述训练样本交互数据和对应的样本标签输入至预设初始模型中进行训练,得到多模态融合初始模型;
基于所述预设专家系统确定测试样本集;
利用所述测试样本集对所述多模态融合初始模型进行评估,并根据评估结果修改所述多模态融合初始模型中的参数,得到预设多模态融合模型。
4.一种多模态融合人机交互装置,其特征在于,包括:交互数据获取模块,用于获取机器人采集的目标交互对象对应的交互数据,其中,所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据;
交互反馈数据确定模块,用于将所述交互数据输入至基于深度学习的预设多模态融合模型,并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据,其中,所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据;
反馈控制模块,用于利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作;
其中,所述预设多模态融合模型包括三个子模型,所述三个子模型分别为语音子模型、表情子模型和动作子模型,所述语音子模型对应第一子样本数据、所述表情子模型对应第二子样本数据,所述动作子模型对应第三子样本数据,所述第一子样本数据中包括所述音频数据、所述微表情数据、以及由所述音频数据转换的自然语言文本数据,所述第二子样本数据中包括所述自然语言文本数据和所述微表情数据,所述第三子样本数据中包括所述自然语言文本数据、所述距离数据和所述姿势数据;
所述将所述交互数据输入至预设多模态融合模型,并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据,包括:从所述交互数据中提取多个子模型分别对应的子样本数据;
将各子样本数据输入至对应的子模型中,得到多个子输出结果;
综合所述多个子输出结果确定所述机器人的交互反馈数据。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1‑3任一项所述的方法。
6.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1‑3任一项所述的方法。
7.一种多模态融合人机交互系统,其特征在于,包括机器人和后台终端;
所述机器人,用于采集目标交互对象对应的交互数据,并将所述交互数据发送至所述后台终端,在所述后台终端的控制下执行交互反馈操作,其中,所述交互数据包括音频数据、微表情数据、距离数据以及姿势数据;
所述后台终端,用于将所述交互数据输入至基于深度学习的预设多模态融合模型,并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据,利用所述交互反馈数据控制所述机器人执行相应的交互反馈操作,其中,所述交互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据;
其中,所述预设多模态融合模型包括三个子模型,所述三个子模型分别为语音子模型、表情子模型和动作子模型,所述语音子模型对应第一子样本数据、所述表情子模型对应第二子样本数据,所述动作子模型对应第三子样本数据,所述第一子样本数据中包括所述音频数据、所述微表情数据、以及由所述音频数据转换的自然语言文本数据,所述第二子样本数据中包括所述自然语言文本数据和所述微表情数据,所述第三子样本数据中包括所述自然语言文本数据、所述距离数据和所述姿势数据;
所述将所述交互数据输入至预设多模态融合模型,并根据所述预设多模态融合模型的输出结果确定所述机器人的交互反馈数据,包括:从所述交互数据中提取多个子模型分别对应的子样本数据;
将各子样本数据输入至对应的子模型中,得到多个子输出结果;
综合所述多个子输出结果确定所述机器人的交互反馈数据。
说明书 :
多模态融合人机交互方法、装置、存储介质、终端及系统
技术领域
背景技术
的工作,可应用于如生产业、建筑业或其他危险行业。
测,到2020年,全球服务机器人的市场总的规模将达到约600亿美元。在个人服务、公共服
务、康复辅助以及助老助残等领域,各种不同种类的机器人也在飞速应用发展,成为方便大
众生活、缓解劳动力成本上涨以及提升服务质量的有力助手。
发明内容
据以及动作反馈数据;
例提供的多模态融合人机交互方法。
数据、微表情数据、距离数据以及姿势数据;
馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据。
据所述交互数据基于预设规则确定所述机器人的交互反馈数据,其中,交互反馈数据包括
包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据,利用交互反馈数据控
制机器人执行相应的交互反馈操作。通过采用上述技术方案,通过采集多个维度的交互数
据,并采用基于预设规则来输出多模态的反馈数据,使得机器人的反馈更加合理和人性化,
丰富反馈形式,有助于提升人机交互的体验。
附图说明
具体实施方式
的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作
完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以
对应于方法、函数、规程、子例程、子程序等等。
在终端中。如图1所示,该方法包括:
具体可以是交互机器人,对机器人的具体类型不做限定,例如可以是服务机器人、教学机器
人以及表演机器人等等。
目前的机器人通常反馈形式单调,交互生硬,严重影响交互体验。而本发明实施例中,可以
通过机器人采集目标交互对象的多种维度的交互数据,这样在确定机器人的反馈时,就可
以考虑多重因素,使得机器人的反馈更加接近人类,进而提升交互体验。
微表情数据和姿势数据可以根据通过机器人中的摄像头等图像采集部件所采集的图像进
行分析而得到。距离数据可以通过机器人中的超声波传感器等距离传感器采集得到。上述
数据的具体采集方式本发明实施例不做限定。
数据。
据基于通过预设专家系统设定的预设映射规则确定所述机器人的交互反馈数据。预设专家
系统可以指一个智能计算机程序系统,其内部含有大量的人机交互领域专家水平的知识与
经验,能够利用人类专家的知识和解决问题的方法来处理人机交互领域问题。也就是说,预
设专家系统是一个具有大量的专门知识与经验的程序系统,根据人机交互领域一个或多个
专家提供的知识和经验,进行推理和判断,模拟人类专家的决策过程,以便解决那些需要人
类专家处理的复杂问题。利用预设专家系统可以定义机器人说的话以及说话的语气,机器
人的微表情,以及机器人能够完成的动作,本发明实施例中可称为是行为准则的定义,参考
行为准则确定交互数据和交互反馈数据的对应关系,得到预设映射规则。这种方式的好处
在于,没有冷启动的问题,适应性更广泛。
中,预设多模态融合模型基于深度学习训练得到,训练过程可在机器人内部完成,也可在机
器人对应的后台终端完成,也可在其他设备中完成,本发明实施例不做限定。预设多模态融
合模型可以是一个整体的模型,将交互数据统一输入该整体模型中;预设多模态融合模型
也可以由多个子模型构成,将交互数据进行分类,并分别输入至对应的子模型中。可选的,
可直接将交互数据输入至预设多模态融合模型中,也可对交互数据进行一定的转换处理再
输入至预设多模态融合模型中。以音频数据为例,可以提取其中包含的语音信息和语气信
息等,还可将语音信息转换成自然语言文本,更加方便预设多模态融合模型的识别。可选
的,用于训练预设多模态融合模型的训练样本的标签可以由后台人工设定,也可以基于预
设专家系统确定,本发明实施例不做限定。
中,经过预设多模态融合模型的一系列运算,输出预测行为,也即根据模型输出结果可以确
定机器人的交互反馈数据。
交互反馈操作。
馈,动作反馈数据可以指导机器人身体各个部位配合语音以及微表情做出相应的动作。
馈数据做出相应的动作;可利用设置在机器人头部以及各个关节处的舵机来按照动作反馈
数据来控制机器人做出相应的动作。通过多方面的综合反馈,让机器人的反馈更加接近人
类,在提高用户体验的同时也能够改善沟通效率。
据所述交互数据基于预设规则确定所述机器人的交互反馈数据,其中,交互反馈数据包括
包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据,利用交互反馈数据控
制机器人执行相应的交互反馈操作。通过采用上述技术方案,通过采集多个维度的交互数
据,并采用基于预设规则来输出多模态的反馈数据,使得机器人的反馈更加合理和人性化,
丰富反馈形式,有助于提升人机交互的体验。
互反馈数据,包括:从所述交互数据中提取多个子模型分别对应的子样本数据;将各子样本
数据输入至对应的子模型中,得到多个子输出结果;综合所述多个子输出结果确定所述机
器人的交互反馈数据。这样设置的好处在于,各个子模型的输出更加有针对性,并且,由于
深度学习模型的不可控性较高,采用多个子模型的方式可以降低模型效果控制的难度。
型对应第二子样本数据,所述动作子模型对应第三子样本数据,所述第一子样本数据中包
括所述音频数据、所述微表情数据、以及由所述音频数据转换的自然语言文本数据,所述第
二子样本数据中包括所述自然语言文本数据和所述微表情数据,所述第三子样本数据中包
括所述自然语言文本数据、所述距离数据和所述姿势数据。这样设置的好处在于,合理地划
分子模型以及对应的样本数据,提升反馈数据的准确度。
Modulation,PCM)音频信号,可将PCM音频信号作为重要特征(如转换为特征矩阵中的元素)
输入预设多模态融合模型中。
达探测器等距离传感器来采集机器人到交互对象的距离,得到距离数据;又如,可以采用深
度摄像头等深度图像传感器(RGBD)来采集深度图像,其中,R表示红色red,G表示绿色
green,B表示蓝色blue,D表示深度图(Depth Map),将得到的RGB图像用于分析微表情和姿
势,得到微表情数据和姿势数据,Depth Map图像生成点云,计算机器人到交互对象的距离,
得到距离数据。
grams,tf‑idf,或者使用含有上下文信息的word2vec等。
语音输出结果中可以包括机器人需要反馈的语音以及语气等信息。音频数据中可以包含用
户说话的语气等信息,还可包含环境声音等信息,微表情数据中可包含用户说话时的神态
和情绪等信息,自然语言文本数据中可以包含用户说话的含义等,通过这三类数据可以确
定机器人向用户反馈的语音及语气等信息。
出结果中可以包括机器人需要反馈的微表情信息。微表情数据中可包含用户说话时的神态
和情绪等信息,自然语言文本数据中可以包含用户说话的含义等,通过这两类数据可以确
定机器人在向用户反馈时需要作出的微表情。
作输出结果中可以包括机器人需要反馈的动作信息。自然语言文本数据中可以包含用户说
话的含义等,距离数据可以包含用户当前与机器人的距离,姿势数据可以包含用户当前的
肢体语言信息,通过这三类数据可以确定机器人在向用户反馈时需要作出的肢体动作。
的反应在人类眼中也就成了“连续”(即流畅自然),如机器人回答的语气种类定为6种(快
乐、悲伤、愤怒、惊讶、恐惧和厌恶),微表情种类定为27种,最多样化的是机器人的动作,如
果有10个舵机,动作参数就有10个维度,每个维度都可以360°旋转,则机器人可以做出360^
10种动作,虽然人的关节基本上无法旋转360°,本发明中也可以用十个维度表示,那么机器
人反应参数就有12维。不同机器人由于硬件设备的差异,能完成的动作可能有所不同,本发
明实施例不做具体限定,为了保证流畅性,机器人的处理器优选拥有强大的处理能力。对于
处理器性能有限的机器人来说,可以先把多维的舵机参数简化为离散的、以一段时间为单
位的连贯动作,如设计100种不同的动作类型。
子模型中,使得各个子模型的输出更加有针对性,并且,由于深度学习模型的不可控性较
高,采用多个子模型的方式可以降低模型效果控制的难度,最后综合三个子模型的输出结
果来控制机器人对用户的交互行为进行反馈,使得机器人的反馈更加准确合理,进一步提
升人机交互体验。
应的样本标签;将所述训练样本交互数据和对应的样本标签输入至预设初始模型中进行训
练,得到预设多模态融合模型。这样设置的好处在于,利用预设专家系统可以更加合理地设
置训练样本集。
输入至预设初始模型中进行训练,得到多模态融合初始模型;基于所述预设专家系统确定
测试样本集;利用所述测试样本集对所述多模态融合初始模型进行评估,并根据评估结果
修改所述多模态融合初始模型中的参数,得到预设多模态融合模型。这样设置的好处在于,
利用预设专家系统设置测试样本集,通过对模型的不断优化,可以使得模型的输出更加合
理准确,进而使得机器人的反馈更加人性化。
示意图,如图4所示,可以将PCM音频、文本、微表情、距离以及姿势相关数据全部输入至预设
多模态融合模型中,输出音频、微表情以及舵机角度等复合动作。这种方式主要是对多样多
维特征的加权拼接,将所有的输入特征通过加权拼接或其他手段整合成多维矩阵,放入一
个多层复杂的深度模型网络中,避免人为分类,让模型自己通过梯度下降不断优化参数,可
以保护模型的整体性,也可以提高训练效率。另外,在模型训练完成后,还可利用基于预设
专家系统得到的行为准则的标签制定测试样本集,通过测试样本集的标签和模型预测的评
估对比,不断修改模型的超参数,达到输出行为的最优效果,也即对输出的音频、微表情以
及舵机角度等复合动作进行优化
供的另一种预设多模态融合模型示意图,如图5所示,将PCM音频、文本和微表情输入至语音
子模型,将文本和微表情输入至表情子模型,将文本、距离和姿势输入至动作子模型,三个
模型分别输出有语气的音频、微表情和动作(多个舵机角度)。另外,还可利用基于专家系统
的行为准则对输出进行规范,最终输出音频、微表情以及舵机角度等复合动作。
模型。
达采集的交互数据,将交互数据发送至基于深度学习的多模态融合系统,多模态融合系统
中包含预设多模态融合模型,模型的输出结果被发送至自然交互控制中心(Nature
Interaction Control Center,NICC),最后输出包含12个维度的机器人反应参数,用来控
制机器人进行反馈。其中,NICC可以理解为人机交互执行单元的核心,也是预设多模态融合
模型的应用平台能够合成预设多模态融合模型输出的复合行为,使机器人执行定义的动
作,NICC可分布于机器人和后台终端,两者通过内部局域网连接,由后台终端将获取到的机
器人行为标签发送给机器人,以实现机器人对用户交互的反馈。
型框架的优化,可以逐步做到端对端的人机交互,使得机器人的反应更加流畅及多样,并符
合人类的行为。
的服务场景,并根据所述服务场景从多个备选模型中筛选出相应的预设多模态融合模型。
这样设置的好处在于,可以让机器人适用于跟多的服务场景。具体的,可以通过机器人采集
的声音数据和图像数据对当前服务场景进行识别,在识别成功后,筛选出对应的预设多模
态融合模型,并将采集到的交互数据输入至该模型。
类,以生成不同场景对应的训练数据,针对场景数量设置对应数量的预设初始模型,并将聚
类后的训练样本交互数据和对应的样本标签分别输入至预设初始模型中,得到不同场景对
应的多模态融合初始模型。这样设置的好处在于,通过聚类来自动区分服务场景,智能生成
多个场景对应的多模态融合初始模型,随后进行测试等操作,进而得到多个场景对应的预
设多模态融合模型,便于控制机器人在不同服务场景下做出有针对性的反馈,使机器人的
服务更加人性化。
行人机交互。如图7所示,该装置包括:
馈数据以及动作反馈数据;
据所述交互数据基于预设规则确定所述机器人的交互反馈数据,其中,交互反馈数据包括
包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据,利用交互反馈数据控
制机器人执行相应的交互反馈操作。通过采用上述技术方案,通过采集多个维度的交互数
据,并采用基于预设规则来输出多模态的反馈数据,使得机器人的反馈更加合理和人性化,
丰富反馈形式,有助于提升人机交互的体验。
对应第二子样本数据,所述动作子模型对应第三子样本数据,所述第一子样本数据中包括
所述音频数据、所述微表情数据、以及由所述音频数据转换的自然语言文本数据,所述第二
子样本数据中包括所述自然语言文本数据和所述微表情数据,所述第三子样本数据中包括
所述自然语言文本数据、所述距离数据和所述姿势数据。
数据对应的样本标签;
预设多模态融合模型。
DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例
如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型
的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者
可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计
算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可
以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多
存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计
算机程序)。
提供的多模态融合人机交互方法中的相关操作。
器801,处理器802及存储在存储器801上并可在处理器运行的计算机程序,所述处理器802
执行所述计算机程序时实现如本发明实施例所述的多模态融合人机交互方法。
机交互的体验。
频数据、微表情数据、距离数据以及姿势数据;
互反馈数据包括包含语气信息的语音反馈数据、微表情反馈数据以及动作反馈数据。
馈形式,有助于提升多模态融合人机交互的体验。
法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任
意实施例所提供的多模态融合人机交互方法。
重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行
了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还
可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。