会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 人工智能 / 情感识别 / 针对虚拟人的性格训练系统及其方法

针对虚拟人的性格训练系统及其方法

阅读:666发布:2021-02-20

IPRDB可以提供针对虚拟人的性格训练系统及其方法专利检索,专利查询,专利分析的服务。并且一种针对虚拟人的性格训练系统及其方法,包括如下步骤:步骤1:建立情感刺激融合的参数化模型;步骤2:建立事件刺激推理机制;步骤3:意图融合规则的定制;步骤4:构建基于隐马尔可夫模型的心理反应模型;步骤5:模型的训练;步骤6:执行可持续学习的训练机制。结合其它结构或方法有效避免了现有技术中只能单模态输入事件进行情感刺激,无法综合输出当前时刻情感刺激、无法根据用户期望来调节智能体的情感反应、基于数据驱动的情感识别模型需要依赖大量详细标注的训练数据、无法在与用户互动的过程中提高性能的缺陷。,下面是针对虚拟人的性格训练系统及其方法专利的具体信息内容。

1.一种针对虚拟人的性格训练系统的方法,其特征在于,包括如下步骤:步骤1:建立情感刺激融合的参数化模型;

步骤2:建立事件刺激推理机制;

步骤3:意图融合规则的定制;

步骤4:构建基于隐马尔可夫模型的心理反应模型;

步骤5:模型的训练;

步骤6:执行可持续学习的训练机制。

2.根据权利要求1所述的针对虚拟人的性格训练系统的方法,其特征在于,所述情感刺激包括:用户的表情、用户所说语句文本的情感、用户语音语调中包含的情感以及用户自身特征和动作中所隐含的情感;

所述用户的表情、用户所说语句文本的情感以及用户语音语调中包含的情感分别在视觉模块、语义模块和语音模块中给出;这三种情感取值将通过加权的方式融合到情感刺激;

所述用户自身特征和动作中所隐含的情感以布尔变量的形式给出,即表明是否具有这种特征或该动作是否出现,每个特征或动作所隐含的情感以参数矢量的形式描述,它们通过加权后融合到情感刺激。

3.根据权利要求1所述的针对虚拟人的性格训练系统的方法,其特征在于,所述建立事件刺激推理机制包括对用户的表情、用户所说语句文本的情感以及用户语音语调的判断,所述语音模块把用户语音语调转换成语句文本来输入所述语义模块,所述语义模块通过自然语言处理分词方式对输入的语句文本做出包括情感主体的判定、主体/客体极性的判定、事件/行为极性的判定、事件状态的判定和自身反应的判定,所述对作为视觉事件的用户的表情的判断方式包括:(1)情感主体的判定,其包括:

情感主体以智能体为中心,分为自身和他人,自身指的就是智能体本身,他人指的是视野中的用户的表情识别出来的人;

(2)主体/客体极性的判定,其包括:

主体/客体极性划分为五类:正面、非正面、负面、非负面和不存在,将识别出来的人的表情、年龄、颜值和性别四类特征的不同取值做如上五类极性的划分;

(3)事件/行为极性的判定,其包括:

事件/行为极性分五类:期望的、不期望的、值得表扬的、值得批评的和不存在,将识别出来的人的动作做如上五类划分;

(4)事件状态的判定,其包括:

事件状态分六类:确定过去未发生,不确定过去未发生,不确定将来是否发生,确定已发生,该特征必须不存在和未知;

(5)自身反应的判定,其包括:

自身反应分四类:displeased,非displeased,pleased,非pleased。

4.根据权利要求1所述的针对虚拟人的性格训练系统的方法,其特征在于,所述意图融合规则的定制在时间同步的基础下采用如下规则融合来自语义模块和视觉模块的意图输入:所述时间同步包括:当存在文本意图输入时,将该文本意图与就近的视觉输入相融合,确保二者时间上的同步性,所述融合的规则遵循以下两点:(1)意图互补,其包括:

若某一通道中意图难以判断,不确定程度高,则另一通道可以作为补充,舍弃不确定程度高的通道的意图,取较确信的通道的意图;

(2)语义主导,其包括:

若两个通道的置信程度都很高,而同一意图槽的取值又有所矛盾时,以语义输入为主,视觉输入为辅。

5.根据权利要求1所述的针对虚拟人的性格训练系统,其特征在于,所述构建基于隐马尔可夫模型的心理反应模型的方式包括:首先给出性格训练的任务描述图,训练者为用户,被训练者为作为虚拟人的机器人;用户在任务描述图中的具体可控的有两部分,一是表情输入,即用户对机器人做一系列表情;

二是期望输出,即用户希望机器人对这一系列表情的情感状态反应;

接着采用表情识别软件识别表情输入序列,转化为六维情感刺激的矢量序列,两个序列等长;随后采用隐马尔可夫模型以六维情感刺激为观测输入,以用户希望机器人的情感状态反应为解码输出;

隐马尔可夫模型中,在某一状态滞留的概率为λ,跳出该状态到其他所有状态的概率则为1-λ,那么在该状态滞留t个时间单位的概率则为λt;情感状态之间的耦合影响则需对情感状态转移矩阵施加惩罚项来修正,该修正在Viterbi算法解码中可具体实施。

6.根据权利要求1所述的针对虚拟人的性格训练系统的方法,其特征在于,所述模型的训练包括用户对机器人做出用户表情序列,并标注出作为希望情感序列的希望机器人依次产生什么情感;

产生多对用户表情序列和希望情感序列后,就采用基于期望最大算法的刺激—情感隐马尔可夫模型训练方法的方法训练该模型的参数,该方法包括:描述外部刺激和情感状态关系的观测矩阵、情感状态之间的转移矩阵。

7.根据权利要求1所述的针对虚拟人的性格训练系统的方法,其特征在于,所述可持续学习的训练机制采用增强学习机制,包括最大化用户评分,所述最大化用户评分如公式(1)所示的目标函数:Es~p(s;x,z),x~p(x)(f(x,s))    (1)针对所述目标函数,采用如公式(2)所示的策略梯度的方法:其中,sij为从p(s;xj,z)的采样,也就是给定事件采样输入xj,当前模型参数z的情况下,根据前面模型中的概率分布p(sij;xj,z)产生随机的sij;xj是模拟事件输入,来自于对事件空间的采样p(xj)。

8.一种针对虚拟人的性格训练系统,其特征在于,包括建立模块、推理模块、融合模块、构建模块、训练模块和执行模块;

所述建立模块用于建立情感刺激融合的参数化模型;

所述推理模块用于建立事件刺激推理机制;

所述融合模块用于意图融合规则的定制;

所述构建模块用于构建基于隐马尔可夫模型的心理反应模型;

所述训练模块用于模型的训练;

所述执行模块用于执行可持续学习的训练机制。

说明书全文

针对虚拟人的性格训练系统及其方法

技术领域

[0001] 本发明涉及人工智能下的虚拟人技术领域,也涉及性格训练技术领域,具体涉及一种针对虚拟人的性格训练系统及其方法,尤其涉及一种基于策略梯度强化学习的虚拟人性格训练系统及其方法。

背景技术

[0002] 人工智能在计算机领域内,得到了愈加广泛的重视。并在机器人,经济政治决策,控制系统,仿真系统中得到应用。近年来,随着人工智能技术的发展,具有人机交互功能的虚拟人技术及其个性化方案也具有了较多的需求。虚拟人在智能人机交互中应当具有一定的情感,已经成为业界共识。虚拟人所具备的情感由外部刺激引发,并通过其“性格”决定。虚拟人的性格可以通过硬编码或规则的形式来赋予,例如采用if“刺激”then“情感”的方式。理想情况下,虚拟人的性格应该像人类一样在与用户交互中习得,使其针对特定用户产生个性化性格。
[0003] 而现有的针对虚拟人的情感刺激,具有如下缺陷:
[0004] 1.只能单模态输入事件进行情感刺激,无法综合输出当前时刻情感刺激;
[0005] 2.无法根据用户期望来调节智能体的情感反应;
[0006] 3.现有的基于数据驱动的情感识别模型需要依赖大量详细标注的训练数据,无法在与用户互动的过程中提高性能。

发明内容

[0007] 为解决上述问题,本发明提供了一种针对虚拟人的性格训练系统及其方法,有效避免了现有技术中只能单模态输入事件进行情感刺激,无法综合输出当前时刻情感刺激、无法根据用户期望来调节智能体的情感反应、基于数据驱动的情感识别模型需要依赖大量详细标注的训练数据、无法在与用户互动的过程中提高性能的缺陷。
[0008] 为了克服现有技术中的不足,本发明提供了一种针对虚拟人的性格训练系统及其方法的解决方案,具体如下:
[0009] 一种针对虚拟人的性格训练系统的规划方法,包括如下步骤:
[0010] 步骤1:建立情感刺激融合的参数化模型;
[0011] 步骤2:建立事件刺激推理机制;
[0012] 步骤3:意图融合规则的定制;
[0013] 步骤4:构建基于隐马尔可夫模型的心理反应模型;
[0014] 步骤5:模型的训练;
[0015] 步骤6:执行可持续学习的训练机制。
[0016] 所述情感刺激包括:用户的表情、用户所说语句文本的情感、用户语音语调中包含的情感以及用户自身特征和动作中所隐含的情感;
[0017] 所述用户的表情、用户所说语句文本的情感以及用户语音语调中包含的情感分别在视觉模块、语义模块和语音模块中给出;这三种情感取值将通过加权的方式融合到情感刺激;
[0018] 所述用户自身特征和动作中所隐含的情感以布尔变量的形式给出,即表明是否具有这种特征或该动作是否出现,每个特征或动作所隐含的情感以参数矢量的形式描述,它们通过加权后融合到情感刺激。
[0019] 所述建立事件刺激推理机制包括对用户的表情、用户所说语句文本的情感以及用户语音语调的判断,所述语音模块把用户语音语调转换成语句文本来输入所述语义模块,所述语义模块通过自然语言处理分词方式对输入的语句文本做出包括情感主体的判定、主体/客体极性的判定、事件/行为极性的判定、事件状态的判定和自身反应的判定,所述对作为视觉事件的用户的表情的判断方式包括:
[0020] (1)情感主体的判定,其包括:
[0021] 情感主体以智能体为中心,分为自身和他人,自身指的就是智能体本身,他人指的是视野中的用户的表情识别出来的人;
[0022] (2)主体/客体极性的判定,其包括:
[0023] 主体/客体极性划分为五类:正面、非正面、负面、非负面和不存在,将识别出来的人的表情、年龄、颜值和性别四类特征的不同取值做如上五类极性的划分;
[0024] (3)事件/行为极性的判定,其包括:
[0025] 事件/行为极性分五类:期望的、不期望的、值得表扬的、值得批评的和不存在,将识别出来的人的动作做如上五类划分;
[0026] (4)事件状态的判定,其包括:
[0027] 事件状态分六类:确定过去未发生,不确定过去未发生,不确定将来是否发生,确定已发生,该特征必须不存在和未知;
[0028] (5)自身反应的判定,其包括:
[0029] 自身反应分四类:displeased,非displeased,pleased,非pleased。
[0030] 所述意图融合规则的定制在时间同步的基础下采用如下规则融合来自语义模块和视觉模块的意图输入:
[0031] 所述时间同步包括:当存在文本意图输入时,将该文本意图与就近的视觉输入相融合,确保二者时间上的同步性,所述融合的规则遵循以下两点:
[0032] (1)意图互补,其包括:
[0033] 若某一通道中意图难以判断,不确定程度高,则另一通道可以作为补充,舍弃不确定程度高的通道的意图,取较确信的通道的意图;
[0034] (2)语义主导,其包括:
[0035] 若两个通道的置信程度都很高,而同一意图槽的取值又有所矛盾时,以语义输入为主,视觉输入为辅。
[0036] 所述构建基于隐马尔可夫模型的心理反应模型的方式包括:
[0037] 首先给出性格训练的任务描述图,训练者为用户,被训练者为作为虚拟人的机器人;用户在任务描述图中的具体可控的有两部分,一是表情输入,即用户对机器人做一系列表情;二是期望输出,即用户希望机器人对这一系列表情的情感状态反应;
[0038] 接着采用表情识别软件识别表情输入序列,转化为六维情感刺激的矢量序列,两个序列等长;随后采用隐马尔可夫模型以六维情感刺激为观测输入,以用户希望机器人的情感状态反应为解码输出;
[0039] 隐马尔可夫模型中,在某一状态滞留的概率为λ,跳出该状态到其他所有状态的概率则为1-λ,那么在该状态滞留t个时间单位的概率则为λt;情感状态之间的耦合影响则需对情感状态转移矩阵施加惩罚项来修正,该修正在Viterbi算法解码中可具体实施。
[0040] 所述模型的训练包括用户对机器人做出用户表情序列,并标注出作为希望情感序列的希望机器人依次产生什么情感;
[0041] 产生多对用户表情序列和希望情感序列后,就采用基于期望最大算法的刺激—情感隐马尔可夫模型训练方法的方法训练该模型的参数,该方法包括:描述外部刺激和情感状态关系的观测矩阵、情感状态之间的转移矩阵。
[0042] 所述可持续学习的训练机制采用增强学习机制,包括最大化用户评分,所述最大化用户评分如公式(1)所示的目标函数:
[0043] Es~p(s;x,z),x~p(x)(f(x,s))   (1)
[0044] 针对所述目标函数,采用如公式(2)所示的策略梯度的方法:
[0045] ▽zEs~p(s;x,z),x~p(x)(f(x,s))=▽zΣxp(x)Σsp(s;x,z)f(x,s)[0046] =Σxp(x)Σsp(s;x,z)▽zlog(p(s;x,z))f(x,s)
[0047] =Ex~p(x)Es~p(s;x,z)▽zlog(p(s;x,z))f(x,s)   (2)
[0048] =ΣjΣi▽zlog(p(sij;xj,z))f(xj,sij)
[0049] 其中,sij为从p(s;xj,z)的采样,也就是给定事件采样输入xj,当前模型参数z的情况下,根据前面模型中的概率分布p(sij;xj,z)产生随机的sij;xj是模拟事件输入,来自于对事件空间的采样p(xj)。
[0050] 所述针对虚拟人的性格训练系统,包括建立模块、推理模块、融合模块、构建模块、训练模块和执行模块;
[0051] 所述建立模块用于建立情感刺激融合的参数化模型;
[0052] 所述推理模块用于建立事件刺激推理机制;
[0053] 所述融合模块用于意图融合规则的定制;
[0054] 所述构建模块用于构建基于隐马尔可夫模型的心理反应模型;
[0055] 所述训练模块用于模型的训练;
[0056] 所述执行模块用于执行可持续学习的训练机制。
[0057] 本发明的有益效果为:
[0058] 本发明的基于策略梯度强化学习的虚拟人性格训练系统及其方法,包括多模态输入事件情感刺激的量化建模和基于策略梯度强化学习的模型训练方法,可以用于多模态情感识别和情感计算:不局限于所列举的事件、不受限于情感的具体度量方式等,并与单模态事件输入相比,本发明融合处理多种模态的多个事件输入,综合输出当前时刻情感刺激;与专家系统相比,本发明所提模型的参数具有可调节性,能通过量化、参数化、可优化估计等技术根据用户期望来调节智能体的情感反应;与经典的基于数据驱动的情感识别模型相比,本发明不依赖于大量详细标注的训练数据,可以在与用户互动的过程中提高性能。

附图说明

[0059] 图1为本发明的针对虚拟人的性格训练系统的规划方法的原理图。
[0060] 图2为本发明的情感刺激融合的参数化模型的示例图。
[0061] 图3为本发明的性格训练的任务描述图的示例图。
[0062] 图4为本发明的转移关系的示意图.
[0063] 图5为本发明的基于期望最大算法的刺激—情感隐马尔可夫模型训练方法的示意图。

具体实施方式

[0064] 本发明考虑如下虚拟人性格训练的场景:
[0065] 用户对作为虚拟人的机器人做出一串表情刺激、文本刺激,并希望机器人依次产生特定的情感状态。为了对真实场景有效建模,考虑序列刺激、依次产生情感状态。这是因为用户做表情一般是由平静开始到平静,很难做出严格的限定哪一段是平静,哪一段是高兴/愤怒等;同样的,对于机器人也存在一个识别到用户表情、对其做出反应、反应逐步消除的过程。
[0066] 此外,用户对机器人的刺激不一定是表情或语音,还可以是其他可量化的事件;但是目前表情刺激和文本刺激有比较好的量化模型,特别是已经六维矢量化了的表情刺激;此处需要结合机器人应用场景的“边界”来确定。
[0067] 为了实现上述场景中的训练模型,需要建立“刺激—情感状态”的量化关系、“情感状态—情感状态”的转移关系,这正是概率型有限状态机、隐马尔可夫模型、贝叶斯网络这类模型所要解决的问题。因此,本发明采用隐马尔可夫模型,并做出如下假设:外部刺激离散化成M维矢量(如当只含有表情刺激时,模型中M=6);机器人的7种基本情感状态(含平静)为隐马尔可夫模型的隐含状态。
[0068] 下面将结合附图和实施例对本发明做进一步地说明。
[0069] 如图1-图5所示,针对虚拟人的性格训练系统的规划方法,包括如下步骤:
[0070] 步骤1:建立情感刺激融合的参数化模型;
[0071] 外部刺激,即来自外部的所述情感刺激有以下几种,也就是考虑如下外部的所述情感刺激包括:用户的表情、用户所说语句文本的情感、用户语音语调中包含的情感以及用户自身特征和动作中所隐含的情感;所述用户自身特征例如:是否熟人、性别、年龄、颜值等;所述用户的动作例如:点头、摇头、出现、消失、讲话、盯着看等。
[0072] 所述用户的表情、用户所说语句文本的情感以及用户语音语调中包含的情感分别在视觉模块、语义模块和语音模块中给出,其中视觉模块能够是通过摄像头采集用户表情的功能的模块、语义模块能够是通过分析用户语句文本提取感情色彩的功能的模块、语音模块能够是通过分析语调中蕴含情感的功能的模块;这三种情感取值将通过加权的方式融合到情感刺激;权重是未知参数,将在训练过程中调节,也就是说,权重是参数化模型的参数,可配置、可调节;
[0073] 所述用户自身特征和动作中所隐含的情感以布尔变量的形式给出,即表明是否具有这种特征或该动作是否出现,每个特征或动作所隐含的情感以参数矢量的形式描述,它们通过加权后融合到情感刺激;这些参数矢量和权重也是可配置、可调节的。
[0074] 步骤2:建立事件刺激推理机制;
[0075] 采取OCC情感基本模型及其23个情感标签的五条产生的规则,在OCC情感模型中,23个情感标签的产生有五条规则,该五条规则如表1所示:
[0076] 表1
[0077]
[0078] 为了对输入事件做情感刺激判断,可以针对五条规则逐条比对,由于所述建立事件刺激推理机制包括对用户的表情、用户所说语句文本的情感以及用户语音语调的判断,所述语音模块可把用户语音语调转换成语句文本来输入所述语义模块,所述语义模块可通过自然语言处理分词等方式对用户输入的语句文本做出包括情感主体的判定、主体/客体极性的判定、事件/行为极性的判定、事件状态的判定和自身反应的判定,此处只给出所述对作为视觉事件的用户的表情的判断方式包括:
[0079] (1)情感主体的判定,其包括:
[0080] 情感主体以智能体为中心,分为自身和他人,自身指的就是智能体本身,他人指的是视野中的用户的表情识别出来的人;
[0081] (2)主体/客体极性的判定,其包括:
[0082] 主体/客体极性划分为五类:正面、非正面、负面、非负面和不存在,将识别出来的人的表情、年龄、颜值和性别四类特征的不同取值做如上五类极性的划分;注意到这四类特征的取值在极性上可能会互相矛盾,还需要一些规则其先做一次融合。融合的规则可由配置文件给出。
[0083] (3)事件/行为极性的判定,其包括:
[0084] 事件/行为极性分五类:期望的、不期望的、值得表扬的、值得批评的和不存在,将识别出来的人的动作(如点头、眨眼、摇头等简单动作)做如上五类划分;注意到,多个动作的分类可能有矛盾,也需要先做一次融合。融合的规则也由配置文件给出。
[0085] (4)事件状态的判定,其包括:
[0086] 事件状态分六类:确定过去未发生,不确定过去未发生,不确定将来是否发生,确定已发生,该特征必须不存在和未知;对于视觉事件来讲,一般取现在时态,即确定已发生。
[0087] (5)自身反应的判定,其包括:
[0088] 自身反应分四类:displeased,非displeased,pleased,非pleased。对于视觉模态输入来讲,可暂时不考虑此规则。
[0089] 上述五条规则中,视觉事件本身在某特征的取值可能会互相矛盾,例如颜值高可能是正面,颜值低可能是负面,具体怎么融合,需要遍历各种组合,定义可训练的参数来确定。该建立事件刺激推理机制的方案将对外部事件的描述的任务留给了事件的结构化模块(即视觉模块和语义模块),而描述的过程实际上是将任意输入针对情感规则中的五类特征进行分类。用有限状态机来替代硬规则,就可对OCC情感标签得到强度。
[0090] 步骤3:意图融合规则的定制;
[0091] 除了用户所说语句能表达用户意图外,用户的手势、动作有时也带有意图。因此,所述意图融合规则的定制在时间同步的基础下采用如下规则融合来自语义模块和视觉模块的意图输入:
[0092] 所述时间同步包括:由用户的表情变化或动作检测而带来的视觉输入一般比较频繁,数量上远大于用户语音交互的条目。因此多数时间戳上只有视觉输入,而没有文本语义输入,这种情况下以一个通道的视觉意图为融合后输出的意图。当存在另一个通道的文本意图输入时,将该文本意图与就近的视觉输入相融合,确保二者时间上的同步性,所述融合的规则遵循以下两点:
[0093] (1)意图互补,其包括:
[0094] 若某一通道中意图难以判断,不确定程度高,则另一通道可以作为补充,舍弃不确定程度高的通道的意图,取较确信的通道的意图;该规则通过置信程度判断和填槽法来具体实现。
[0095] (2)语义主导,其包括:
[0096] 若两个通道的置信程度都很高,而同一意图槽的取值又有所矛盾时,以语义输入为主,视觉输入为辅。
[0097] 步骤4:构建基于隐马尔可夫模型的心理反应模型;
[0098] 所述构建基于隐马尔可夫模型的心理反应模型的方式包括:
[0099] 首先给出性格训练的任务描述图,如图3所示,训练者为用户,被训练者为作为虚拟人的机器人;用户在任务描述图中的具体可控的有两部分,一是表情输入,即用户对机器人做一系列表情;二是期望输出,即用户希望机器人对这一系列表情的情感状态反应,这两部分分别见于图3的顶部和底部;
[0100] 为了将这两部分结合起来,接着采用表情识别软件识别表情输入序列,转化为六维情感刺激的矢量序列,所述六维情感刺激的矢量序列如采用One-Hot(独热)编码的形式,每一种情感刺激对应矢量的一个元素,即1(或0)表示具有(或不具有)该情感刺激,如xt=T[0,1,0,0,0,0] ,表示第t个时刻受到了第2种情感刺激;随后采用隐马尔可夫模型以六维情感刺激为观测输入,以用户希望机器人的情感状态反应为解码输出,两个序列不等长,一般来说机器人情感变化要少于用户表情变化;这两部分分别以不同暗度的阴影部分标出,表示其不可见性。
[0101] 隐马尔可夫模型着眼于建立六维情感刺激序列与用户希望机器人的情感状态反应的关系。图4为针对该任务,建立离散密度隐马尔可夫模型用于描述“刺激—情感状态”的量化关系、“情感状态—情感状态”的转移关系的示意图,均可实现定量描述。需要指出的是,图4所述模型与基于规则的硬编码模型并不冲突,是后者的自然延拓。硬编码实际上刻画的是刺激事件和情感状态的逻辑关系,即图4中的观测矩阵为0-1矩阵,概率关系Pr(x1|s1)为伯努利分布。
[0102] 隐马尔可夫模型中,在某一状态滞留的概率为λ,跳出该状态到其他所有状态的概率则为1-λ,那么在该状态滞留t个时间单位的概率则为λt;情感状态之间的耦合影响则需对情感状态转移矩阵施加惩罚项来修正,该修正在Viterbi算法解码中可具体实施,实际上语音识别解码中语言模型的施加正是这样进行的。
[0103] 步骤5:模型的训练;
[0104] 用户对机器人做出用户表情序列,即连贯动作,并标注出作为希望情感序列的希望机器人依次产生什么情感,例如,用户作如下表演,“开始没有表情→瞪眼→皱眉→没有表情”,标注出希望机器人“平静→恐惧→平静”或希望机器人“平静→愤怒→平静”(注意,这里分别对应了两类性格的机器人,前一个胆小,后一个胆大);
[0105] 产生多对用户表情序列和希望情感序列后,就可以采用图5基于期望最大算法的刺激—情感隐马尔可夫模型训练方法训练该模型的参数,该参数包括:描述第i个外部刺激xi和第j个情感状态sj关系的观测概率Eij=P(xi|sj)、情感状态之间的转移概率Tjk=P(sk|sj),其中i作为遍历所有外部刺激的序列号,j和k作为遍历所有情感状态的序列号,i、j和k均为正整数,从而把所述观测概率和转移概率以矩阵形式分别表示为观测矩阵E和状态转移矩阵T,具体所述训练方法如下例所示:
[0106] 将用户表情序列当作输入{x1,x2,…,xt},这里的xt表示第t个用户表情,并将希望得到的情感序列当作状态{q1,q2,…,qt},这里的qt表示第t个希望得到的情感,t为正整数,其中qt取6种情感状态的集合{s1,s2,s3,s4,s5,s6}中的某个元素;接下来采用如下步骤:
[0107] a)采用Viterbi算法估计每个qt的取值,如图5所示,qt分别取“若干次平静”、“若干次高兴”和“若干次平静”;
[0108] b)在此取值的基础上,用最大似然估计更新观测矩阵E和状态转移矩阵T的参数;
[0109] c)重复a)和b)两个步骤若干次,该若干次为两次以上。
[0110] 步骤6:执行可持续学习的训练机制;
[0111] 作为机器学习训练的所述可持续学习的训练机制的目标是使得模型更精准、更丰富。更精确指的是模型参数能更精确的刻画刺激和性格,更丰富指的是模型能通过自学习容纳更多的外部事件。为了使得参数更精确,采用增强学习机制,包括最大化用户评分,所述最大化用户评分如公式(1)所示的目标函数:
[0112] Es~p(s;x,z),x~p(x)(f(x,s))   (1)
[0113] 其中,f(x,s)是虚拟人收到外部刺激x做出情感反应s时,用户对其反应的评价,取正数表示用户认可虚拟人的情感反应,并激励这种反应;取负数表示用户不认可这种反应,并抑制这种反应。E表示数学期望,s~p(s;x,z)表示依概率p(s;x,z)抽取s,x~p(x)表示依概率p(x)抽取x,z表示该强化学习模型中待优化的参数。针对所述目标函数,采用如公式(2)所示的策略梯度的方法迭代更新参数z:
[0114] ▽zEs~p(s;x,z),x~p(x)(f(x,s))=▽zΣxp(x)Σsp(s;x,z)f(x,s)[0115] =Σxp(x)Σsp(s;x,z)▽zlog(p(s;x,z))f(x,s)
[0116] =Ex~p(x)Es~p(s;x,z)▽zlog(p(s;x,z))f(x,s)   (2)
[0117] =ΣjΣi▽zlog(p(sij;xj,z))f(xj,sij)
[0118] 其中,sij为从p(s;xj,z)的第i个采样,也就是给定事件采样输入xj,在当前模型参数z的情况下,根据前面模型中的概率分布p(sij;xj,z)产生随机的sij;xj是模拟事件输入,来自于对事件空间的采样p(xj);这样,策略梯度▽zEs~p(s;x,z),x~p(x)(f(x,s))就可以计算出来,沿着梯度方向,就可优化模型参数z了,这里i、j均为正整数。
[0119] 为了使得模型能处理更多的外部事件,需要在视觉和语义事件的结构化表示方面做好架构,统一于一个表示框架下,然后借助于推导规则和参数化模型来得到情感刺激。
[0120] 所述针对虚拟人的性格训练系统,包括建立模块、推理模块、融合模块、构建模块、训练模块和执行模块;所述建立模块、推理模块、融合模块、构建模块、训练模块和执行模块能够运行在作为虚拟人的机器人上。
[0121] 所述建立模块用于建立情感刺激融合的参数化模型;
[0122] 所述推理模块用于建立事件刺激推理机制;
[0123] 所述融合模块用于意图融合规则的定制;
[0124] 所述构建模块用于构建基于隐马尔可夫模型的心理反应模型;
[0125] 所述训练模块用于模型的训练;
[0126] 所述执行模块用于执行可持续学习的训练机制。
[0127] 以上以用实施例说明的方式对本发明作了描述,本领域的技术人员应当理解,本公开不限于以上描述的实施例,在不偏离本发明的范围的情况下,可以做出各种变化、改变和替换。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用