基于联邦学习的知识迁移方法、装置、设备及介质转让专利
申请号 : CN201911344082.0
文献号 : CN111126609B
文献日 : 2021-04-23
发明人 : 梁新乐 , 刘洋 , 陈天健 , 董苗波
申请人 : 深圳前海微众银行股份有限公司
摘要 :
权利要求 :
1.一种基于联邦学习的知识迁移方法,其特征在于,所述基于联邦学习的知识迁移方法包括:
知识迁移设备接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,其中,所述知识迁移设备对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:知识迁移设备从所有训练任务中选定目标训练任务对应的强化学习训练模型为标准强化学习训练模型,获得标准模型输出和标准模型输入,并通过将各所述强化学习训练模型对应的模型输入和对应的模型输出校正为所述标准模型输出和标准模型输入,调整各所述强化学习训练模型的模型网络参数,获得强化学习适配模型;
所述知识迁移设备对各所述强化学习适配模型进行联邦处理,获得联邦模型;
所述知识迁移设备对所述联邦模型进行适配,获得联邦适配模型;
所述知识迁移设备将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
2.如权利要求1所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:获取各所述强化学习训练模型的模型输入和模型输出;
对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。
3.如权利要求2所述基于联邦学习的知识迁移方法,其特征在于,所述模型输入包括环境参数,所述模型输出包括模型控制变量,所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型的步骤包括:
对各所述环境参数进行量纲校正,获得模型输入校正结果;
对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;
基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。
4.如权利要求3所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述环境参数进行量纲校正,获得模型输入校正结果的步骤包括:获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;
基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。
5.如权利要求3所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果的步骤包括:对各所述控制变量进行对齐处理,获得对齐处理结果;
获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。
6.如权利要求1所述基于联邦学习的知识迁移方法,其特征在于,所述对所述联邦模型进行适配,获得联邦适配模型的步骤包括:获取各所述强化学习训练模型的训练任务;
基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。
7.如权利要求1所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述强化学习适配模型进行联邦处理,获得联邦模型的步骤包括:获取各所述强化学习适配模型的模型参数,并对各所述模型参数进行加权平均,获得联邦模型参数;
基于所述联邦模型参数,获取所述联邦模型。
8.一种基于联邦学习的知识迁移装置,其特征在于,所述基于联邦学习的知识迁移装置包括:
第一适配模块,用于所述知识迁移设备接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,其中,所述对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:知识迁移设备从所有训练任务中选定目标训练任务对应的强化学习训练模型为标准强化学习训练模型,获得标准模型输出和标准模型输入,并通过将各所述强化学习训练模型对应的模型输入和对应的模型输出校正为所述标准模型输出和标准模型输入,调整各所述强化学习训练模型的模型网络参数,获得强化学习适配模型;
联邦模块,用于所述知识迁移设备对各所述强化学习适配模型进行联邦处理,获得联邦模型;
第二适配模块,用于所述知识迁移设备对所述联邦模型进行适配,获得联邦适配模型;
发送模块,用于所述知识迁移设备将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
9.一种基于联邦学习的知识迁移设备,其特征在于,所述基于联邦学习的知识迁移设备包括:存储器、处理器以及存储在存储器上的用于实现所述基于联邦学习的知识迁移方法的程序,
所述存储器用于存储实现基于联邦学习的知识迁移方法的程序;
所述处理器用于执行实现所述基于联邦学习的知识迁移方法的程序,以实现如权利要求1至7中任一项所述基于联邦学习的知识迁移方法的步骤。
10.一种介质,其特征在于,所述介质上存储有实现基于联邦学习的知识迁移方法的程序,所述实现基于联邦学习的知识迁移方法的程序被处理器执行以实现如权利要求1至7中任一项所述基于联邦学习的知识迁移方法的步骤。
说明书 :
基于联邦学习的知识迁移方法、装置、设备及介质
技术领域
背景技术
如对金融业对应待办事项的分发也有更高的要求。
训练模型的知识也是可迁移的,例如,将无人车的控制知识迁移到扫地机器人的控制上,目
前,通常是通过离线的迁移模型进行强化学习训练模型的知识的迁移,但是,这种离线迁移
的方法在训练过程中需要花费大量的训练时间,进而导致强化学习训练模型的知识迁移效
率极低,且导致训练过程中消耗的计算资源和传输资源过高,所以,现有技术中存在知识迁
移效率低的技术问题。
发明内容
方法包括:
备,所述基于联邦学习的知识迁移装置包括:
存储器上并可在所述处理器上运行的所述基于联邦学习的知识迁移方法的程序,所述基于
联邦学习的知识迁移方法的程序被处理器执行时可实现如上述的基于联邦学习的知识迁
移方法的步骤。
时实现如上述的基于联邦学习的知识迁移方法的步骤。
得联邦模型,进而对所述联邦模型进行适配,获得联邦适配模型,进而将各所述联邦适配模
型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭
代训练。也即,本申请首先进行各不同训练任务的各强化学习训练模型的接收,进而进行对
各所述预设强化学习训练模型的适配,获得强化学习适配模型,进而进行对各所述强化学
习适配模型的联邦处理,获得联邦模型,进而进行对所述联邦模型的适配,获得联邦适配模
型,进而将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各
所述强化学习训练模型进行迭代训练。也即,本申请通过首先进行对各所述强化学习训练
模型的适配,实现了对不同训练任务的各强化学习训练模型的联邦处理,获得联邦模型,进
而对所述联邦模型进行适配,获得联邦适配模型,进而实现了对不同训练任务的各强化学
习训练模型的迭代训练,也即,实现了基于联邦学习的不同训练任务的各强化学习训练模
型的知识的在线实时迁移,避免了进行知识迁移时花费训练时间过长的情况发生,进而提
高了知识迁移的迁移效率,所以,解决了现有技术中知识迁移效率低的技术问题。
附图说明
言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
第一实施例中,参照图1,所述基于联邦学习的知识迁移方法包括:
个,所述训练任务包括无人车避障任务和扫地机器人避障任务,则可设置其中2个强化学习
训练模型由所述无人车避障任务对应的训练设备进行模型训练获取,另外2个强化学习训
练模型由所述扫地机器人避障任务对应的训练设备进行模型训练获取,所述强化学习训练
模型包括模型输入参数、模型网络参数和模型输出参数等,所述联邦学习包括横向联邦学
习和纵向联邦学习,所述基于联邦学习的知识迁移设备包括模型适配中心和联邦服务器。
模型适配中心对各所述强化学习训练模型的模型输入参数和模型输出参数进行适配,获得
第一迁移学习模型,也即,获得所述强化学习适配模型,其中,所述模型输入参数包括环境
参数,所述模型输出参数包括控制变量。
进行联邦处理,获得所述联邦模型,其中,所述联邦规则包括横向联邦规则和纵向联邦规
则。
强化学习适配模型对应的模型参数权重,基于各所述模型参数和对应的各模型参数权重,
求取各所述模型参数的加权平均数,也即,计算所有模型参数和模型参数权重的乘积之和,
获得联邦模型参数,例如,假设2个所述强化学习适配模型的模型参数分别为W1和W2,对应的
模型参数权重分别为X1和X2,则所述联邦模型参数为(W1X1+W2X2)。
通过直接建立或者训练更新获得所述联邦模型,其中,对各所述强化学习适配模型进行更
新的方式包括使用所述联邦模型参数直接替换所述强化学习适配模型的模型参数或者基
于所述联邦模型参数,对所述强化学习适配模型进行训练更新等。
联邦模型进行适配,以将所述联邦模型调整为所述训练任务对应的联邦适配模型,其中,所
述训练任务的数量大于或者等于2。
述强化学习训练模型对应的强化学习任务中应至少存在两种不同且相似的训练任务。
型输出,将所述联邦模型的输入和输出进行校正,也即,将所述联邦模型的模型输入和模型
输出校正为各所述训练任务对应的模型输入和输出,获得多个联邦适配模型,其中,每一种
训练任务对应一类联邦适配模型。
各所述强化学习训练模型对应的训练设备,也即,将各所述联邦适配模型发送至与其训练
任务一致的所述训练设备,以对各所述训练设备中的强化学习训练模型进行更新,例如,基
于所述联邦适配模型对所述强化学习训练模型进行训练更新或者直接将所述强化学习训
练模型作为当前强化学习训练模型,以完成本次迭代训练,并判断迭代训练后的各所述强
化学习训练模型是否达到收敛条件,若未达到,则可对各所述强化学习训练模型进行单独
训练或者进行下一次所述迭代训练,如图2所示为在实时环境下的基于横向联邦的多任务
强化学习的实时知识迁移架构,其中,所述迁移学习模型适配即为所述模型适配中心,所述
强化学习Agent1、Agent2、Agent3和Agent4均为各所述强化学习训练模型对应的训练设备,
所述联邦学习服务器即为所述联邦服务器。
所述模型适配中心发送一次,则表示每10分钟进行一轮迭代训练。
获得联邦模型,进而对所述联邦模型进行适配,获得联邦适配模型,进而将各所述联邦适配
模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行
迭代训练。也即,本实施例首先进行各不同训练任务的各强化学习训练模型的接收,进而进
行对各所述预设强化学习训练模型的适配,获得强化学习适配模型,进而进行对各所述强
化学习适配模型的联邦处理,获得联邦模型,进而进行对所述联邦模型的适配,获得联邦适
配模型,进而将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以
对各所述强化学习训练模型进行迭代训练。也即,本实施例通过首先进行对各所述强化学
习训练模型的适配,实现了对不同训练任务的各强化学习训练模型的联邦处理,获得联邦
模型,进而对所述联邦模型进行适配,获得联邦适配模型,进而实现了对不同训练任务的各
强化学习训练模型的迭代训练,也即,实现了基于联邦学习的不同训练任务的各强化学习
训练模型的知识的在线实时迁移,避免了进行知识迁移时花费训练时间过长的情况发生,
进而提高了知识迁移的迁移效率,所以,解决了现有技术中知识迁移效率低的技术问题。
骤包括:
数为与路况和车况相关的参数,所述控制变量包括转向、停止、刹车等。
准强化学习训练模型,获得标准模型输出和标准模型输入,将各所述模型输入和各所述模
型输出对应地校正为所述标准模型输出和标准模型输入,并相应地对各所述强化学习训练
模型的模型网络参数进行调整,获得强化学习适配模型,例如,假设所述训练任务为无人车
避障任务和扫地机器人避障任务,无人车避障任务对应的强化学习训练模型的模型输入中
的环境参数为障碍物的高度为30厘米,模型输出为转向或者停止,也即,无人车避障任务为
当障碍物的高度超过30厘米时,进行90度左转向,并行驶1米后,进行90度右转向后继续行
驶或者停止,扫地机器人避障任务为当障碍物的高度超过15厘米时,进行90度左转向,并行
驶0.5米后,进行90度右转向后继续行驶,则假设所述扫地机器人对应的强化学习训练模型
为所述标准强化学习训练模型,则将无人车避障任务对应的强化学习训练模型的模型输入
中的环境参数校正为障碍物的高度为15厘米,模型输出校正为进行90度左转向,并行驶0.5
米后,进行90度右转向后继续行驶。
纲校正,获得模型输入校正结果。
境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度,例
如,假设所述训练任务为无人车避障任务和扫地机器人避障任务,所述无人车避障任务的
环境参数为障碍物高度为30厘米,所述扫地机器人避障任务的避障任务为15厘米,则所述
环境参数差异度为2倍。
进行调整,以将各所述环境参数调整为标准环境参数,获得所述模型输入校正结果。
量进行量纲校正,获得模型输出校正结果,例如,假设,所述所述训练任务为无人车避障任
务和扫地机器人避障任务,所述无人车避障任务对应的控制变量为转向、加速、刹车,所述
扫地机器人避障任务对应的控制变量为转向和特征,则所述共同控制变量为转向,进一步
地,假设所述无人车避障任务对应的转向的角度为60度,所述扫地机器人避障任务对应的
转向的角度为90度,则可进行量纲校正将所述转向的角度校正为统一的60度或者90度。
齐处理结果,例如,假设所述训练任务为无人车避障任务和扫地机器人避障任务,所述无人
车避障任务的控制变量为转向、加速和刹车,且相对应的字符串代码为0001、0002和0003,
所述扫地机器人避障任务的控制变量为转向和停止,相对应的字符串代码为0001和0004,
所述将各训练任务的控制变量对应的字符串代码进行逐一比对,获得公共字符串代码为
0001,则公共控制变量为转向。
准参数,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量中的公共控
制变量进行量纲校正,以将各公共控制变量的参数调整为标准参数,获得模型输出校正结
果。
述强化学习训练模型的网络权重参数进行调整,以使得各所述强化学习训练模型的权重网
络可通用,也即,向各所述强化学习训练模型输入所述模型输入校正结果,即可输出所述模
型输出校正结果,获得各所述强化学习训练模型对应的各所述强化学习适配模型。
所述模型适配中心进行各所述强化学习训练模型的模型输入和模型输出的获取,进而进行
对各所述模型输入和各所述模型输出的校正,获得强化学习适配模型。也即,本实施例提供
了一种迁移学习的方法,可将不同训练任务的强化学习训练模型适配为可进行联邦处理的
模型,进而可对不同的训练任务的强化学习训练模型进行迭代训练,进一步地,可实现基于
联邦学习的不同训练任务的各强化学习训练模型的知识的在线实时迁移,可避免进行知识
迁移时花费训练时间过长的情况发生,进而提高知识迁移的迁移效率,所以,为解决了现有
技术中知识迁移效率低的技术问题奠定了基础。
接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non‑volatile
memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设
备。
以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括
标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI‑FI
接口)。
合某些部件,或者不同的部件布置。
移设备硬件和软件资源的程序,支持基于联邦学习的知识迁移程序以及其它软件和/或程
序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与基于联邦学
习的知识迁移系统中其它硬件和软件之间通信。
方法的步骤。
以用于实现上述任一项所述的基于联邦学习的知识迁移方法的步骤。
术领域,均同理包括在本申请的专利处理范围内。