强化学习模型的训练方法及装置转让专利
申请号 : CN202110268665.0
文献号 : CN113011583B
文献日 : 2022-04-12
发明人 : 王昊天 , 应缜哲 , 王维强
申请人 : 支付宝(杭州)信息技术有限公司
摘要 :
权利要求 :
1.一种强化学习模型的训练方法,所述方法包括:获取业务环境的当前状态,其中包括上一轮交互产生的交互内容,该交互内容包括历史业务动作和历史用户响应;
基于所述交互内容,将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集;
将所述当前状态输入强化学习模型,该强化学习模型采用神经网络计算所述当前状态下,所述多个备选业务动作对应的多个收益预测值,并从所述可选动作集中选取对应收益预测值最大的可选动作,作为本轮业务动作;
将所述本轮业务动作施加于所述业务环境,得到该业务环境作出的本轮反馈和该业务环境的下一状态;
计算所述当前状态下多个备选业务动作对应的多个收益标签值,其中,基于所述本轮反馈、下一状态和所述神经网络,计算所述本轮业务动作对应的收益标签值;
针对所述多个备选业务动作中的其他任一动作,若其属于所述可选动作集,则将其收益标签值确定为其收益预测值和第一阈值中的较大值;若其属于所述禁选动作集,则将其收益标签值确定为其收益预测值和第二阈值中的较小值;所述第一阈值和第二阈值小于所述本轮业务动作对应的收益标签值;
基于所述多个收益预测值和多个收益标签值,训练所述强化学习模型。
2.根据权利要求1所述的方法,其中,所述当前状态中包括当前交互窗口中所有历史交互轮次产生的交互内容,和/或,所述当前交互窗口所对应用户的用户属性特征。
3.根据权利要求1所述的方法,其中,基于所述交互内容,将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集,包括:将所述交互内容输入预先训练的意图识别模型,得到用户当前意图;
基于所述用户当前意图,将所述多个备选业务动作划分为所述可选动作集和禁选动作集。
4.根据权利要求3所述的方法,其中,基于所述用户当前意图,将所述多个备选业务动作划分为所述可选动作集和禁选动作集,包括:从所述多个备选业务动作中确定与所述用户当前意图相匹配的动作,归为所述可选动作集,并将剩余的备选业务动作归为所述禁选动作集。
5.根据权利要求1所述的方法,其中,得到该业务环境作出的本轮反馈,包括:将所述本轮业务动作施加于所述业务环境,得到本轮用户响应;
基于所述本轮用户响应,确定所述本轮反馈。
6.根据权利要求5所述的方法,其中,基于所述本轮用户响应,确定所述本轮反馈,包括:
判断所述本轮用户响应是否命中业务目标;
若命中任一的第一业务目标,则将所述本轮反馈确定为该第一业务目标对应的第一预设奖励分数;
若未命中,则将所述本轮反馈确定为第二预设奖励分数,该第二预设奖励分数小于所述第一预设奖励分数。
7.根据权利要求6所述的方法,其中,判断所述本轮用户响应是否命中若干业务目标,包括:
利用本轮用户响应与风险判别规则中的风险判别条件进行匹配;
若与某个风险判别条件匹配成功,则判断出命中与该某个风险判别条件对应的业务目标;
若均不匹配,则判断出未命中业务目标。
8.根据权利要求1所述的方法,其中,所述第一阈值大于所述第二阈值。
9.根据权利要求1或8所述的方法,其中,所述第一阈值等于所述本轮业务动作对应的收益标签值与第一衰减系数的乘积,所述第二阈值等于所述本轮业务动作对应的收益标签值与第二衰减系数的乘积。
10.根据权利要求1所述的方法,其中,所述业务环境涉及客服业务,所述历史业务动作包括历史客服会话语句,所述历史用户响应包括历史用户会话语句。
11.根据权利要求1所述的方法,其中,基于所述多个收益预测值和多个收益标签值,训练所述强化学习模型,包括:
基于所述多个收益预测值和多个收益标签值,计算均方误差损失;
利用所述均方误差损失,训练所述强化学习模型。
12.一种强化学习模型的训练装置,所述装置包括:状态获取单元,配置为获取业务环境的当前状态,其中包括上一轮交互产生的交互内容,该交互内容包括历史业务动作和历史用户响应;
动作划分单元,配置为基于所述交互内容,将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集;
动作预测单元,配置为将所述当前状态输入强化学习模型,该强化学习模型采用神经网络计算所述当前状态下,所述多个备选业务动作对应的多个收益预测值,并从所述可选动作集中选取对应收益预测值最大的可选动作,作为本轮业务动作;
动作施加单元,配置为将所述本轮业务动作施加于所述业务环境,得到该业务环境作出的本轮反馈和该业务环境的下一状态;
标签计算单元,配置为计算所述当前状态下多个备选业务动作对应的多个收益标签值,其中,
基于所述本轮反馈、下一状态和所述神经网络,计算所述本轮业务动作对应的收益标签值;
针对所述多个备选业务动作中的其他任一动作,若其属于所述可选动作集,则将其收益标签值确定为其收益预测值和第一阈值中的较大值;若其属于所述禁选动作集,则将其收益标签值确定为其收益预测值和第二阈值中的较小值;所述第一阈值和第二阈值小于所述本轮业务动作对应的收益标签值;
模型训练单元,配置为基于所述多个收益预测值和多个收益标签值,训练所述强化学习模型。
13.根据权利要求12所述的装置,其中,所述动作划分单元具体配置为:将所述交互内容输入预先训练的意图识别模型,得到用户当前意图;
基于所述用户当前意图,将所述多个备选业务动作划分为所述可选动作集和禁选动作集。
14.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1‑11中任一项的所述的方法。
15.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1‑11中任一项所述的方法。
说明书 :
强化学习模型的训练方法及装置
技术领域
背景技术
是通过跟环境的不断交互、改变环境状态,根据获得的奖励或惩罚不断自我学习,更加适应
环境。
以使强化学习模型能够收敛并取得良好的模型效果。然而,这种探索式交互无疑将给用户
带来大量的打扰,严重影响用户体验。
发明内容
互下的可选动作集和禁选动作集;将所述当前状态输入强化学习模型,该强化学习模型采
用神经网络计算所述当前状态下,所述多个备选业务动作对应的多个收益预测值,并从所
述可选动作集中选取对应收益预测值最大的可选动作,作为本轮业务动作;将所述本轮业
务动作施加于所述业务环境,得到该业务环境作出的本轮反馈和该业务环境的下一状态;
计算所述当前状态下多个备选业务动作对应的多个收益标签值,其中,基于所述本轮反馈、
下一状态和神经网络,计算所述本轮业务动作对应的收益标签值;针对所述多个备选业务
动作中的其他任一动作,若其属于所述可选动作集,则将其收益标签值确定为其收益预测
值和第一阈值中的较大值;若其属于所述禁选动作集,则将其收益标签值确定为其收益预
测值和第二阈值中的较小值;所述第一阈值和第二阈值小于所述本轮业务动作对应的收益
标签值;基于所述多个收益预测值和多个收益标签值,训练所述强化学习模型。
当前意图;基于所述用户当前意图,将所述多个备选业务动作划分为所述可选动作集和禁
选动作集。
意图相匹配的动作,归为所述可选动作集,并将剩余的备选业务动作归为所述禁选动作集。
定为该第一业务目标对应的第一预设奖励分数;若未命中,则将所述本轮反馈确定为第二
预设奖励分数,该第二预设奖励分数小于所述第一预设奖励分数。
配成功,则判断出命中与该某个风险判别条件对应的业务目标;若均不匹配,则判断出未命
中业务目标。
的乘积。
均方误差损失,训练所述强化学习模型。
互内容,将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集。动作预测单
元,配置为将所述当前状态输入强化学习模型,该强化学习模型采用神经网络计算所述当
前状态下,所述多个备选业务动作对应的多个收益预测值,并从所述可选动作集中选取对
应收益预测值最大的可选动作,作为本轮业务动作。动作施加单元,配置为将所述本轮业务
动作施加于所述业务环境,得到该业务环境作出的本轮反馈和该业务环境的下一状态。标
签计算单元,配置为计算所述当前状态下多个备选业务动作对应的多个收益标签值,其中,
基于所述本轮反馈、下一状态和神经网络,计算所述本轮业务动作对应的收益标签值;针对
所述多个备选业务动作中的其他任一动作,若其属于所述可选动作集,则将其收益标签值
确定为其收益预测值和第一阈值中的较大值;若其属于所述禁选动作集,则将其收益标签
值确定为其收益预测值和第二阈值中的较小值;所述第一阈值和第二阈值小于所述本轮业
务动作对应的收益标签值。模型训练单元,配置为基于所述多个收益预测值和多个收益标
签值,训练所述强化学习模型。
互下的可选动作集和禁选动作集;将该当前状态输入强化学习模型,从可选动作集中选取
收益预测值最大的可选动作作为本轮业务动作,如此可以避免用户被无关动作打扰,从而
提升用户体验;再将该本轮业务动作施加于上述业务环境,得到该业务环境的本轮反馈,基
于本轮反馈计算本轮业务动作的收益标签值,并基于该收益标签值构建其他备选业务动作
的收益标签值,从而实现可以利用全量备选业务动作训练上述强化学习模型,有效加速强
化学习模型的收敛。
附图说明
领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的
附图。
具体实施方式
的动作,而不是一直施加强化学习模型预测的最优动作,从而采集到对环境和动作空间进
行足够探索、足够全面的训练样本,以使得强化学习模型能够收敛、可用。但是,这种探索式
交互,对用户无疑会造成严重打扰,比如,在客服服务场景,假定机器人客服对用户输入的
“xx功能怎么开通”,进行的回复是“你今天吃了什么”,将给用户带来糟糕的服务体验。
打扰,进而提高用户体验,对于动作空间中的其他业务动作,通过构建软标签,使得该其他
业务动作也可以用于构建训练样本,参与到强化学习模型的训练过程,从而实现强化学习
模型的快速收敛。
一轮交互产生的交互内容;然后,基于该当前状态中交互内容,将多个备选业务动作划分为
本轮交互下的可选动作集和禁选动作集,并且,将上述当前状态输入强化学习模型,得到从
可选动作集中选取出的本轮业务动作;接着,将该本轮业务动作施加于上述业务环境,得到
该业务环境作出的本轮反馈和该业务环境的下一状态;然后,基于本轮反馈和下一状态,构
建与多个备选业务动作对应的多个训练样本,该多个训练样本用于训练上述强化学习模
型。如此,可以使得不打扰线上用户的同时,依然可以快速训练出一个较好的模型。
述方法包括以下步骤:
动作划分为本轮交互下的可选动作集和禁选动作集;步骤S230,将所述当前状态输入强化
学习模型,该强化学习模型采用神经网络计算所述当前状态下,所述多个备选业务动作对
应的多个收益预测值,并从所述可选动作集中选取对应收益预测值最大的可选动作,作为
本轮业务动作;步骤S240,将所述本轮业务动作施加于所述业务环境,得到该业务环境作出
的本轮反馈和该业务环境的下一状态;步骤S250,计算所述当前状态下多个备选业务动作
对应的多个收益标签值,其中包括步骤S251和步骤S252,在步骤S251,基于所述本轮反馈、
下一状态和神经网络,计算所述本轮业务动作对应的收益标签值;在步骤S252,针对所述多
个备选业务动作中的其他任一动作,若其属于所述可选动作集,则将其收益标签值确定为
其收益预测值和第一阈值中的较大值;若其属于所述禁选动作集,则将其收益标签值确定
为其收益预测值和第二阈值中的较小值;所述第一阈值和第二阈值小于所述本轮业务动作
对应的收益标签值;步骤S260,基于所述多个收益预测值和多个收益标签值,训练所述强化
学习模型。
台、使用业务平台所提供的交互式服务的用户等。相应地,业务环境的状态可以是描述业务
环境的信息,具体获取哪些信息可以根据实际的预测任务而设定。
中,业务环境涉及客服业务,上述历史业务动作包括历史客服会话语句,历史用户响应包括
历史用户会话语句。在另一个实施例中,业务环境涉及游戏对战业务,上述历史业务动作包
括由系统控制的游戏角色的操作,历史用户响应包括玩家控制的游戏角色的操作。在还一
个实施例中,业务环境涉及商品导购服务,上述历史业务动作可以包括系统推荐的商品列
表,历史用户响应可以包括用户基于该商品列表所选择的商品。
启的交互窗口,在当前交互窗口中可以通过与用户进行多次交互,以完成对用户的服务。在
一个具体的实施例中,当前交互窗口对应一通语音电话。在另一个具体的实施例中,当前交
互窗口对应即时通讯软件中的一次聊天。在还一个具体的实施例中,当前交互窗口对应一
局游戏。
则当前状态中除包括上一个轮次的交互内容以外,还可以包括在上一轮次之前的轮次的交
互内容。如此,可以丰富当前状态中的有效信息。
施例中,该用户可以指代个人、机构或企业。在一个具体的实施例中,对于个人用户,其属性
特征可以包括性别、年龄、职业、常驻地、兴趣爱好、年收入、消费偏好(如商品类别、消费时
段)等。在一个具体的实施例中,对应企业用户,其属性特征可以包括行业、招聘信息、公司
规模、年营业额、成立时长等。
易的用户,通过主动外呼语音电话与当事用户进行沟通,引导被骗用户配合询问或接受教
育,或者,为没有被骗的正常用户进行交易放行。在此业务场景下,需要与用户进行多轮对
话,通过对话式交互产生的交互内容包括外呼客服和用户的说话内容。在一个更具体的实
施例中,当前状态中还可以包括风险特征,具体,可以将用户的属性特征,以及被阻断的交
易的交易特征(交易时间、交易地址、交易金额等)输入预先训练的风险识别模型,从而将得
到的对应各个风险类别的概率作为风险特征,归入当前状态,例如,风险特征可以包括欺诈
概率为0.4等。
上将多个备选业务动作划分为本轮对话中的强相关动作和弱相关动作,从而在下一步只选
取强相关动作施加于业务环境,进而避免对用户造成打扰。
和禁选动作集。其中意图识别模型是预先训练好的机器学习模型,在一个具体的实施例中,
意图识别模型可以基于深度神经网络(Deep Neural Network,简称DNN)或Bert模型实现。
需理解,意图识别模型可以采用监督学习的方式得到,其训练过程和使用过程类似,区别主
要在于训练过程中采用的训练数据带有意图类别标签,并且,训练过程中模型参数在调整、
变化,而使用过程使用的是训练好的意图识别模型,使用过程中其模型参数不会变化,因
此,对意图识别模型的训练可以参见对其的使用,不再单独对训练过程进行多余描述。在一
个具体的实施例中,意图识别模型的输入除包括上一轮交互产生的交互内容以外,还可以
包括当前交互窗口中所有历史交互轮次产生的交互内容,和/或,所述当前交互窗口所对应
用户的用户属性特征。需说明,意图识别模型的输入与上述获取的当前状态可以部分相同
或完全相同。
作,归为所述可选动作集,并将剩余的备选业务动作归为禁选动作集。在一个具体的实施例
中,可以基于预先建立的用户意图与备选业务动作之间的关联关系,确定与用户当前意图
相关联的若干备选业务动作,归入可选动作集。在另一个具体的实施例中,可以分别计算用
户当前意图与各个备选业务动作之间的相似度,再将相似度高于预设阈值的若干备选业务
动作,归入可选动作集。如此,可以实现根据确定出的显式的用户意图,对贴合用户意图的
可选动作集和背离用户意图的禁选动作集进行划分。
动作归入禁选动作集。如此,可以实现根据隐式的用户意图,对可选动作集和禁选动作集进
行划分。
动作集(或称本轮禁选动作集)。
的期望收益,收益值又被称为Q值,用于计算Q值的神经网络还可以被称为Q‑Network或Q网
络。在一个实施例中,其中神经网络可以实现为DNN网络或CNN网络等。在一个实施例中,强
化学习模型可以实现为DQN(Deep Q Network)或DDQN(Double DQN)等。
务动作而给用户带来打扰。需说明,在对训练好的强化学习模型进行实际使用时,可以直接
使用贪婪策略,从多个备选业务动作中选取收益预测值最大的动作,施加到业务环境中。
状态,或称下一状态。
轮用户响应;再基于该本轮用户响应,确定本轮反馈。需说明,在一个交互窗口中,希望使用
尽可能少的交互轮次就能够的达成业务目标,从而在达成业务目标后快速结束交互,进一
步降低对用户的打扰,有效提升用户体验。相应,在一个具体的实施例中,确定本轮反馈可
以包括:判断该本轮用户响应是否命中业务目标;若命中任一的第一业务目标,则将上述本
轮反馈确定为该第一业务目标对应的第一预设奖励分数;若未命中,则将上述本轮反馈确
定为第二预设奖励分数,该第二预设奖励分数(例如,10等)小于所述第一预设奖励分数(例
如,0等)。
中风险判别规则中的风险判别条件时,才能得到准确的风险判别结果。相应,上述判断本轮
用户响应是否命中业务目标可以包括:利用本轮用户响应与风险判别规则中的风险判别条
件进行匹配;若与某个风险判别条件匹配成功,则判断出命中与之对应的业务目标;若均不
匹配,则判断出未命中业务目标。在一个示例中,与风险判别条件的匹配,除了利用本轮用
户响应以外,还可以利用本轮业务动作,乃至之前交互轮次中的交互内容。根据一个具体的
例子,假定本轮交互内容包括,本轮业务动作“请问这是刷单交易吗”,本轮用户响应“是
的”,此时,可以判断出其命中风险判别规则中“如果是刷单交易,则涉嫌欺诈”的风险判别
条件“如果是刷单交易”,从而判定本轮交互内容命中业务目标。在一个更具体的实施例中,
命中不同业务目标后得到的奖励分数可以相同或不同,具体可根据实际业务经验设定。在
一个示例中,假定本轮用户响应命中的业务目标包括“判定交易涉嫌欺诈且用户终止支
付”,则其获得的奖励分数可以是10分;假定本轮用户响应命中的业务目标包括“判定交易
涉嫌欺诈但用户坚持支付”,则其获得的奖励分数可以是5分。
作。进一步,若包括下单操作,则将本轮反馈确定为6分,若不包括下单操作,则将本轮反馈
确定为0分。
励分数,作为本轮反馈。
多个收益标签值。如此,实现基于实际施加的单个动作,即可构建对应动作空间中全量离散
动作的多个训练样本。
算,可以采用多种已有方式实现,包括Bellman方程,时序差分(Temporal‑Difference,简称
TD)法或蒙特卡罗(Monte‑Calo,MC)法等。
他业务动作所对应的标签值。
个备选业务动作的收益预测值在步骤S230中已算出,此处可以直接获取第一动作对应的收
益预测值。另外,若该第一动作属于禁选动作集,则将该第一动作的收益标签值确定为其收
益预测值和第二阈值中的较小值。在一个实施例中,第一阈值大于第二阈值。为便于理解特
此说明,如此针对其他业务动作设定的软标签,其含义在于,若某个动作是可选的,则其收
益标签值不会低于本轮业务动作所对应的收益标签值太多,若某个动作是禁选的,则其收
益标签值不会高于本轮业务动作的收益标签值。如此,通过设置软标签,实际与用户进行一
轮交互,仍然可以训练到所有备选的业务动作,使得强化学习模型能够收敛到一个较好的
点。
分别表示上述第一阈值和第二阈值。
多个收益标签值和多个收益预测值,确定训练损失,再基于该训练损失,利用反向传播法,
训练上述强化学习模型。在一个具体的实施例中,其中训练损失可以采用均方误差形式的
损失函数计算得到。在另一个具体的实施例中,可以计算曼哈顿距离作为训练损失。
户体验。需理解,在一个交互窗口中通常包括多轮次交互,相应地,可以针对其中各轮次交
互分别确定对应多个备选业务动作的多个训练样本。依次类推,在与不同线上用户进行交
互的过程中,可以快速构建出大量的训练样本,从而快速训练处一个较好的强化学习模型。
模型。
例的强化学习模型的训练装置结构图,如图3所示,所述装置300包括:
所述交互内容,将多个备选业务动作划分为本轮交互下的可选动作集和禁选动作集。动作
预测单元330,配置为将所述当前状态输入强化学习模型,该强化学习模型采用神经网络计
算所述当前状态下,所述多个备选业务动作对应的多个收益预测值,并从所述可选动作集
中选取对应收益预测值最大的可选动作,作为本轮业务动作。动作施加单元340,配置为将
所述本轮业务动作施加于所述业务环境,得到该业务环境作出的本轮反馈和该业务环境的
下一状态。标签计算单元350,配置为计算所述当前状态下多个备选业务动作对应的多个收
益标签值,标签计算单元350具体配置为:基于所述本轮反馈、下一状态和神经网络,计算所
述本轮业务动作对应的收益标签值;针对所述多个备选业务动作中的其他任一动作,若其
属于所述可选动作集,则将其收益标签值确定为其收益预测值和第一阈值中的较大值;若
其属于所述禁选动作集,则将其收益标签值确定为其收益预测值和第二阈值中的较小值;
所述第一阈值和第二阈值小于所述本轮业务动作对应的收益标签值。模型训练单元360,配
置为基于所述多个收益预测值和多个收益标签值,训练所述强化学习模型。
为所述可选动作集和禁选动作集。
动作归为所述禁选动作集。
目标,则将所述本轮反馈确定为该第一业务目标对应的第一预设奖励分数;若未命中,则将
所述本轮反馈确定为第二预设奖励分数,该第二预设奖励分数小于所述第一预设奖励分
数。
匹配;若与某个风险判别条件匹配成功,则判断出命中与该某个风险判别条件对应的业务
目标;若均不匹配,则判断出未命中业务目标。
的乘积。
均方误差损失,训练所述强化学习模型。
存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应
包括在本发明的保护范围之内。