基于联邦学习的知识迁移方法、装置、设备及介质转让专利

申请号 : CN201911344082.0

文献号 : CN111126609B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 梁新乐刘洋陈天健董苗波

申请人 : 深圳前海微众银行股份有限公司

摘要 :

本申请公开了一种基于联邦学习的知识迁移方法、装置、设备和介质,所述基于联邦学习的知识迁移方法包括:接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,对各所述强化学习适配模型进行联邦处理,获得联邦模型,对所述联邦模型进行适配,获得联邦适配模型,将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。本申请解决了知识迁移效率低的技术问题。

权利要求 :

1.一种基于联邦学习的知识迁移方法,其特征在于,所述基于联邦学习的知识迁移方法包括:

知识迁移设备接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,其中,所述知识迁移设备对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:知识迁移设备从所有训练任务中选定目标训练任务对应的强化学习训练模型为标准强化学习训练模型,获得标准模型输出和标准模型输入,并通过将各所述强化学习训练模型对应的模型输入和对应的模型输出校正为所述标准模型输出和标准模型输入,调整各所述强化学习训练模型的模型网络参数,获得强化学习适配模型;

所述知识迁移设备对各所述强化学习适配模型进行联邦处理,获得联邦模型;

所述知识迁移设备对所述联邦模型进行适配,获得联邦适配模型;

所述知识迁移设备将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。

2.如权利要求1所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:获取各所述强化学习训练模型的模型输入和模型输出;

对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。

3.如权利要求2所述基于联邦学习的知识迁移方法,其特征在于,所述模型输入包括环境参数,所述模型输出包括模型控制变量,所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型的步骤包括:

对各所述环境参数进行量纲校正,获得模型输入校正结果;

对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;

基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。

4.如权利要求3所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述环境参数进行量纲校正,获得模型输入校正结果的步骤包括:获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;

基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。

5.如权利要求3所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果的步骤包括:对各所述控制变量进行对齐处理,获得对齐处理结果;

获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。

6.如权利要求1所述基于联邦学习的知识迁移方法,其特征在于,所述对所述联邦模型进行适配,获得联邦适配模型的步骤包括:获取各所述强化学习训练模型的训练任务;

基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。

7.如权利要求1所述基于联邦学习的知识迁移方法,其特征在于,所述对各所述强化学习适配模型进行联邦处理,获得联邦模型的步骤包括:获取各所述强化学习适配模型的模型参数,并对各所述模型参数进行加权平均,获得联邦模型参数;

基于所述联邦模型参数,获取所述联邦模型。

8.一种基于联邦学习的知识迁移装置,其特征在于,所述基于联邦学习的知识迁移装置包括:

第一适配模块,用于所述知识迁移设备接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,其中,所述对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:知识迁移设备从所有训练任务中选定目标训练任务对应的强化学习训练模型为标准强化学习训练模型,获得标准模型输出和标准模型输入,并通过将各所述强化学习训练模型对应的模型输入和对应的模型输出校正为所述标准模型输出和标准模型输入,调整各所述强化学习训练模型的模型网络参数,获得强化学习适配模型;

联邦模块,用于所述知识迁移设备对各所述强化学习适配模型进行联邦处理,获得联邦模型;

第二适配模块,用于所述知识迁移设备对所述联邦模型进行适配,获得联邦适配模型;

发送模块,用于所述知识迁移设备将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。

9.一种基于联邦学习的知识迁移设备,其特征在于,所述基于联邦学习的知识迁移设备包括:存储器、处理器以及存储在存储器上的用于实现所述基于联邦学习的知识迁移方法的程序,

所述存储器用于存储实现基于联邦学习的知识迁移方法的程序;

所述处理器用于执行实现所述基于联邦学习的知识迁移方法的程序,以实现如权利要求1至7中任一项所述基于联邦学习的知识迁移方法的步骤。

10.一种介质,其特征在于,所述介质上存储有实现基于联邦学习的知识迁移方法的程序,所述实现基于联邦学习的知识迁移方法的程序被处理器执行以实现如权利要求1至7中任一项所述基于联邦学习的知识迁移方法的步骤。

说明书 :

基于联邦学习的知识迁移方法、装置、设备及介质

技术领域

[0001] 本申请涉及金融科技(Fintech)的机器学习技术领域,尤其涉及一种基于联邦学习的知识迁移方法、装置、设备及介质。

背景技术

[0002] 随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,
如对金融业对应待办事项的分发也有更高的要求。
[0003] 随着计算机软件和人工智能的不断发展,机器学习建模的应用也越来越广泛,在现有技术中,强化学习训练模型通常利用自身收集的数据进行学习、优化和控制,强化学习
训练模型的知识也是可迁移的,例如,将无人车的控制知识迁移到扫地机器人的控制上,目
前,通常是通过离线的迁移模型进行强化学习训练模型的知识的迁移,但是,这种离线迁移
的方法在训练过程中需要花费大量的训练时间,进而导致强化学习训练模型的知识迁移效
率极低,且导致训练过程中消耗的计算资源和传输资源过高,所以,现有技术中存在知识迁
移效率低的技术问题。

发明内容

[0004] 本申请的主要目的在于提供一种基于联邦学习的知识迁移方法、装置、设备和介质,旨在解决现有技术中知识迁移效率低的技术问题。
[0005] 为实现上述目的,本申请提供一种基于联邦学习的知识迁移方法,所述基于联邦学习的知识迁移方法应用于基于联邦学习的知识迁移设备,所述基于联邦学习的知识迁移
方法包括:
[0006] 接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;
[0007] 对各所述强化学习适配模型进行联邦处理,获得联邦模型;
[0008] 对所述联邦模型进行适配,获得联邦适配模型;
[0009] 将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
[0010] 可选地,所述对各所述强化学习训练模型进行适配,获得强化学习适配模型的步骤包括:
[0011] 获取各所述强化学习训练模型的模型输入和模型输出;
[0012] 对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。
[0013] 可选地,所述模型输入包括环境参数,所述模型输出包括模型控制变量,
[0014] 所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型的步骤包括:
[0015] 对各所述环境参数进行量纲校正,获得模型输入校正结果;
[0016] 对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;
[0017] 基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。
[0018] 可选地,所述对各所述环境参数进行量纲校正,获得模型输入校正结果的步骤包括:
[0019] 获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;
[0020] 基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。
[0021] 可选地,所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果的步骤包括:
[0022] 对各所述控制变量进行对齐处理,获得对齐处理结果;
[0023] 获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。
[0024] 可选地,所述对所述联邦模型进行适配,获得联邦适配模型的步骤包括:
[0025] 获取各所述强化学习训练模型的训练任务;
[0026] 基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。
[0027] 可选地,所述对各所述强化学习适配模型进行联邦处理,获得联邦模型的步骤包括:
[0028] 获取各所述强化学习适配模型的模型参数,并对各所述模型参数进行加权平均,获得联邦模型参数;
[0029] 基于所述联邦模型参数,获取所述联邦模型。
[0030] 本申请还提供一种基于联邦学习的知识迁移装置,所述基于联邦学习的知识迁移装置为虚拟装置,且所述基于联邦学习的知识迁移装置应用于基于联邦学习的知识迁移设
备,所述基于联邦学习的知识迁移装置包括:
[0031] 第一适配模块,用于所述接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;
[0032] 联邦模块,用于所述对各所述强化学习适配模型进行联邦处理,获得联邦模型;
[0033] 第二适配模块,用于所述对所述联邦模型进行适配,获得联邦适配模型;
[0034] 发送模块,用于所述将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
[0035] 可选地,所述第一适配模块包括:
[0036] 第一获取子模块,用于所述获取各所述强化学习训练模型的模型输入和模型输出;
[0037] 校正子模块,用于所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。
[0038] 可选地,所述校正子模块包括:
[0039] 第一校正单元,用于所述对各所述环境参数进行量纲校正,获得模型输入校正结果;
[0040] 第二校正单元,用于所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;
[0041] 获取单元,用于所述基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。
[0042] 可选地,所述第一校正单元包括:
[0043] 比对子单元,用于所述获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;
[0044] 第一校正子单元,用于所述基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。
[0045] 可选地,所述第二校正单元包括:
[0046] 对齐子单元,用于所述对各所述控制变量进行对齐处理,获得对齐处理结果;
[0047] 第二校正子单元,用于所述获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。
[0048] 可选地,所述第二适配模块包括:
[0049] 第二获取子模块,用于所述获取各所述强化学习训练模型的训练任务;
[0050] 适配子模块,用于所述基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。
[0051] 可选地,所述联邦模块包括:
[0052] 加权平均子模块,用于所述获取各所述强化学习适配模型的模型参数,并对各所述模型参数进行加权平均,获得联邦模型参数;
[0053] 第三获取子模块,用于所述基于所述联邦模型参数,获取所述联邦模型。
[0054] 本申请还提供一种基于联邦学习的知识迁移设备,所述基于联邦学习的知识迁移设备为实体设备,所述基于联邦学习的知识迁移设备包括:存储器、处理器以及存储在所述
存储器上并可在所述处理器上运行的所述基于联邦学习的知识迁移方法的程序,所述基于
联邦学习的知识迁移方法的程序被处理器执行时可实现如上述的基于联邦学习的知识迁
移方法的步骤。
[0055] 本申请还提供一种介质,所述介质为可读存储介质,所述介质上存储有实现基于联邦学习的知识迁移方法的程序,所述基于联邦学习的知识迁移方法的程序被处理器执行
时实现如上述的基于联邦学习的知识迁移方法的步骤。
[0056] 本申请首先接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,进而对各所述强化学习适配模型进行联邦处理,获
得联邦模型,进而对所述联邦模型进行适配,获得联邦适配模型,进而将各所述联邦适配模
型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭
代训练。也即,本申请首先进行各不同训练任务的各强化学习训练模型的接收,进而进行对
各所述预设强化学习训练模型的适配,获得强化学习适配模型,进而进行对各所述强化学
习适配模型的联邦处理,获得联邦模型,进而进行对所述联邦模型的适配,获得联邦适配模
型,进而将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各
所述强化学习训练模型进行迭代训练。也即,本申请通过首先进行对各所述强化学习训练
模型的适配,实现了对不同训练任务的各强化学习训练模型的联邦处理,获得联邦模型,进
而对所述联邦模型进行适配,获得联邦适配模型,进而实现了对不同训练任务的各强化学
习训练模型的迭代训练,也即,实现了基于联邦学习的不同训练任务的各强化学习训练模
型的知识的在线实时迁移,避免了进行知识迁移时花费训练时间过长的情况发生,进而提
高了知识迁移的迁移效率,所以,解决了现有技术中知识迁移效率低的技术问题。

附图说明

[0057] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0058] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而
言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0059] 图1为本申请基于联邦学习的知识迁移方法第一实施例的流程示意图;
[0060] 图2为本申请基于联邦学习的知识迁移方法中实时环境下的基于横向联邦的多任务强化学习的实时知识迁移架构的示意图;
[0061] 图3为本申请基于联邦学习的知识迁移方法第二实施例的流程示意图;
[0062] 图4为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
[0063] 本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0064] 应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0065] 本申请实施例提供一种基于联邦学习的知识迁移方法,所述基于联邦学习的知识迁移方法应用于基于联邦学习的知识迁移设备,在本申请基于联邦学习的知识迁移方法的
第一实施例中,参照图1,所述基于联邦学习的知识迁移方法包括:
[0066] 步骤S10,接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;
[0067] 在本实施例中,需要说明的是,各所述强化学习训练模型是由不同的训练设备基于不同的训练任务进行模型训练而获取的,例如,假设所述强化学习训练模型的数量为4
个,所述训练任务包括无人车避障任务和扫地机器人避障任务,则可设置其中2个强化学习
训练模型由所述无人车避障任务对应的训练设备进行模型训练获取,另外2个强化学习训
练模型由所述扫地机器人避障任务对应的训练设备进行模型训练获取,所述强化学习训练
模型包括模型输入参数、模型网络参数和模型输出参数等,所述联邦学习包括横向联邦学
习和纵向联邦学习,所述基于联邦学习的知识迁移设备包括模型适配中心和联邦服务器。
[0068] 接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,具体地,接收不同训练任务的各强化学习训练模型,并通过与
模型适配中心对各所述强化学习训练模型的模型输入参数和模型输出参数进行适配,获得
第一迁移学习模型,也即,获得所述强化学习适配模型,其中,所述模型输入参数包括环境
参数,所述模型输出参数包括控制变量。
[0069] 步骤S20,对各所述强化学习适配模型进行联邦处理,获得联邦模型;
[0070] 在本实施例中,对各所述强化学习适配模型进行联邦处理,获得联邦模型,具体地,获取所述联邦服务器中的联邦规则,并基于所述联邦规则对各所述强化学习适配模型
进行联邦处理,获得所述联邦模型,其中,所述联邦规则包括横向联邦规则和纵向联邦规
则。
[0071] 其中,所述对各所述强化学习适配模型进行联邦处理,获得联邦模型的步骤包括:
[0072] 步骤S21,获取各所述强化学习适配模型的模型参数,并对各所述模型参数进行加权平均,获得联邦模型参数;
[0073] 在本实施例中,需要说明的是,所述模型参数包括网络权重。
[0074] 获取各所述强化学习适配模型的模型参数,并对各所述模型参数进行加权平均,获得联邦模型参数,具体地,提取各所述强化学习适配模型中的模型参数,进而获取各所述
强化学习适配模型对应的模型参数权重,基于各所述模型参数和对应的各模型参数权重,
求取各所述模型参数的加权平均数,也即,计算所有模型参数和模型参数权重的乘积之和,
获得联邦模型参数,例如,假设2个所述强化学习适配模型的模型参数分别为W1和W2,对应的
模型参数权重分别为X1和X2,则所述联邦模型参数为(W1X1+W2X2)。
[0075] 步骤S22,基于所述联邦模型参数,获取所述联邦模型。
[0076] 在本实施例中,需要说明的是,各强化学习适配模型的模型输入和模型输出是一致的。
[0077] 基于所述联邦模型参数,获取所述联邦模型,具体地,基于所述联邦模型参数,其中,所述联邦模型参数包括网络权重、模型输出和模型输入,进而基于所述联邦模型参数可
通过直接建立或者训练更新获得所述联邦模型,其中,对各所述强化学习适配模型进行更
新的方式包括使用所述联邦模型参数直接替换所述强化学习适配模型的模型参数或者基
于所述联邦模型参数,对所述强化学习适配模型进行训练更新等。
[0078] 步骤S30,对所述联邦模型进行适配,获得联邦适配模型;
[0079] 在本实施例中,对所述联邦模型进行适配,获得联邦适配模型,具体地,通过所述模型适配中心获取各所述强化学习训练模型对应的训练任务,基于所述训练任务,对所述
联邦模型进行适配,以将所述联邦模型调整为所述训练任务对应的联邦适配模型,其中,所
述训练任务的数量大于或者等于2。
[0080] 其中,所述对所述联邦模型进行适配,获得联邦适配模型的步骤包括:
[0081] 步骤S31,获取各所述强化学习训练模型的训练任务;
[0082] 在本实施例中,需要说明的是,各所述训练任务为相似的训练任务,例如,无人车避障任务和扫地机器人避障任务等,其中,所述训练任务是存储于本地数据库中,在所有所
述强化学习训练模型对应的强化学习任务中应至少存在两种不同且相似的训练任务。
[0083] 步骤S32,基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。
[0084] 在本实施例中,基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型,具体地,基于所述训练任务,获取各所述训练任务对应的模型输入和模
型输出,将所述联邦模型的输入和输出进行校正,也即,将所述联邦模型的模型输入和模型
输出校正为各所述训练任务对应的模型输入和输出,获得多个联邦适配模型,其中,每一种
训练任务对应一类联邦适配模型。
[0085] 步骤S40,将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
[0086] 在本实施例,将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练,具体地,将各所述联邦适配模型发送至
各所述强化学习训练模型对应的训练设备,也即,将各所述联邦适配模型发送至与其训练
任务一致的所述训练设备,以对各所述训练设备中的强化学习训练模型进行更新,例如,基
于所述联邦适配模型对所述强化学习训练模型进行训练更新或者直接将所述强化学习训
练模型作为当前强化学习训练模型,以完成本次迭代训练,并判断迭代训练后的各所述强
化学习训练模型是否达到收敛条件,若未达到,则可对各所述强化学习训练模型进行单独
训练或者进行下一次所述迭代训练,如图2所示为在实时环境下的基于横向联邦的多任务
强化学习的实时知识迁移架构,其中,所述迁移学习模型适配即为所述模型适配中心,所述
强化学习Agent1、Agent2、Agent3和Agent4均为各所述强化学习训练模型对应的训练设备,
所述联邦学习服务器即为所述联邦服务器。
[0087] 另外地,也可设置各所述训练设备定期将各所述强化学习训练模型发送至所述模型适配中心,以进行迭代训练,例如,假设可设置每过10分钟将各所述强化学习训练模型向
所述模型适配中心发送一次,则表示每10分钟进行一轮迭代训练。
[0088] 本实施例首先接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型,进而对各所述强化学习适配模型进行联邦处理,
获得联邦模型,进而对所述联邦模型进行适配,获得联邦适配模型,进而将各所述联邦适配
模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行
迭代训练。也即,本实施例首先进行各不同训练任务的各强化学习训练模型的接收,进而进
行对各所述预设强化学习训练模型的适配,获得强化学习适配模型,进而进行对各所述强
化学习适配模型的联邦处理,获得联邦模型,进而进行对所述联邦模型的适配,获得联邦适
配模型,进而将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以
对各所述强化学习训练模型进行迭代训练。也即,本实施例通过首先进行对各所述强化学
习训练模型的适配,实现了对不同训练任务的各强化学习训练模型的联邦处理,获得联邦
模型,进而对所述联邦模型进行适配,获得联邦适配模型,进而实现了对不同训练任务的各
强化学习训练模型的迭代训练,也即,实现了基于联邦学习的不同训练任务的各强化学习
训练模型的知识的在线实时迁移,避免了进行知识迁移时花费训练时间过长的情况发生,
进而提高了知识迁移的迁移效率,所以,解决了现有技术中知识迁移效率低的技术问题。
[0089] 进一步地,参照图3,基于本申请中第一实施例,在基于联邦学习的知识迁移方法的另一实施例中,所述对各所述强化学习训练模型进行适配,获得强化学习适配模型的步
骤包括:
[0090] 步骤S11,获取各所述强化学习训练模型的模型输入和模型输出;
[0091] 在本实施例中,需要说明的是,所述模型输入包括环境参数,所述模型输出包括控制变量,例如,假设所述训练任务为无人车避障任务和扫地机器人避障任务,则所述环境参
数为与路况和车况相关的参数,所述控制变量包括转向、停止、刹车等。
[0092] 步骤S12,对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。
[0093] 在本实施例中,对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型,具体地,从所有训练任务中选定目标训练任务对应的强化学习训练模型为标
准强化学习训练模型,获得标准模型输出和标准模型输入,将各所述模型输入和各所述模
型输出对应地校正为所述标准模型输出和标准模型输入,并相应地对各所述强化学习训练
模型的模型网络参数进行调整,获得强化学习适配模型,例如,假设所述训练任务为无人车
避障任务和扫地机器人避障任务,无人车避障任务对应的强化学习训练模型的模型输入中
的环境参数为障碍物的高度为30厘米,模型输出为转向或者停止,也即,无人车避障任务为
当障碍物的高度超过30厘米时,进行90度左转向,并行驶1米后,进行90度右转向后继续行
驶或者停止,扫地机器人避障任务为当障碍物的高度超过15厘米时,进行90度左转向,并行
驶0.5米后,进行90度右转向后继续行驶,则假设所述扫地机器人对应的强化学习训练模型
为所述标准强化学习训练模型,则将无人车避障任务对应的强化学习训练模型的模型输入
中的环境参数校正为障碍物的高度为15厘米,模型输出校正为进行90度左转向,并行驶0.5
米后,进行90度右转向后继续行驶。
[0094] 其中,所述模型输入包括环境参数,所述模型输出包括模型控制变量,
[0095] 所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型的步骤包括:
[0096] 步骤S121,对各所述环境参数进行量纲校正,获得模型输入校正结果;
[0097] 在本实施例中,需要说明的是,由于各所述强化学习训练模型的训练任务是相似的,所以各所述环境参数也应该是相似的。
[0098] 对各所述环境参数进行量纲校正,获得模型输入校正结果,具体地,在各所述强化学习训练模型中选定标准环境参数,并基于所述标准环境参数,对各所述环境参数进行量
纲校正,获得模型输入校正结果。
[0099] 其中,所述对各所述环境参数进行量纲校正,获得模型输入校正结果的步骤包括:
[0100] 步骤A10,获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;
[0101] 在本实施例中,获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度,具体地,在各所述强化学习训练模型中选定标准环
境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度,例
如,假设所述训练任务为无人车避障任务和扫地机器人避障任务,所述无人车避障任务的
环境参数为障碍物高度为30厘米,所述扫地机器人避障任务的避障任务为15厘米,则所述
环境参数差异度为2倍。
[0102] 步骤A20,基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。
[0103] 在本实施例中,基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果,具体地,基于各所述环境参数差异度,对各所述环境参数的大小
进行调整,以将各所述环境参数调整为标准环境参数,获得所述模型输入校正结果。
[0104] 步骤S122,对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;
[0105] 在本实施例中,对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果,具体地,对各所述控制变量进行对齐处理,获得共同控制变量,并对所述共同控制变
量进行量纲校正,获得模型输出校正结果,例如,假设,所述所述训练任务为无人车避障任
务和扫地机器人避障任务,所述无人车避障任务对应的控制变量为转向、加速、刹车,所述
扫地机器人避障任务对应的控制变量为转向和特征,则所述共同控制变量为转向,进一步
地,假设所述无人车避障任务对应的转向的角度为60度,所述扫地机器人避障任务对应的
转向的角度为90度,则可进行量纲校正将所述转向的角度校正为统一的60度或者90度。
[0106] 其中,所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果的步骤包括:
[0107] 步骤B10,对各所述控制变量进行对齐处理,获得对齐处理结果;
[0108] 在本实施例中,对各所述控制变量进行对齐处理,获得对齐处理结果,具体地,将各所述强化学习训练模型的控制变量进行逐一比对,获得公共控制变量,也即,获得所述对
齐处理结果,例如,假设所述训练任务为无人车避障任务和扫地机器人避障任务,所述无人
车避障任务的控制变量为转向、加速和刹车,且相对应的字符串代码为0001、0002和0003,
所述扫地机器人避障任务的控制变量为转向和停止,相对应的字符串代码为0001和0004,
所述将各训练任务的控制变量对应的字符串代码进行逐一比对,获得公共字符串代码为
0001,则公共控制变量为转向。
[0109] 步骤B20,获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。
[0110] 在本实施例中,需要说明的是,所述预设标准控制变量可从各公共控制变量中选取。
[0111] 获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果,具体地,获取预设标准控制变量的标
准参数,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量中的公共控
制变量进行量纲校正,以将各公共控制变量的参数调整为标准参数,获得模型输出校正结
果。
[0112] 步骤S123,基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。
[0113] 在本实施例中,基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型,具体地,基于所述模型输入校正结果和所述模型输出校正结果,对各所
述强化学习训练模型的网络权重参数进行调整,以使得各所述强化学习训练模型的权重网
络可通用,也即,向各所述强化学习训练模型输入所述模型输入校正结果,即可输出所述模
型输出校正结果,获得各所述强化学习训练模型对应的各所述强化学习适配模型。
[0114] 本实施例获取各所述强化学习训练模型的模型输入和模型输出,进而对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。也即,本实施例首先通过
所述模型适配中心进行各所述强化学习训练模型的模型输入和模型输出的获取,进而进行
对各所述模型输入和各所述模型输出的校正,获得强化学习适配模型。也即,本实施例提供
了一种迁移学习的方法,可将不同训练任务的强化学习训练模型适配为可进行联邦处理的
模型,进而可对不同的训练任务的强化学习训练模型进行迭代训练,进一步地,可实现基于
联邦学习的不同训练任务的各强化学习训练模型的知识的在线实时迁移,可避免进行知识
迁移时花费训练时间过长的情况发生,进而提高知识迁移的迁移效率,所以,为解决了现有
技术中知识迁移效率低的技术问题奠定了基础。
[0115] 参照图4,图4是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
[0116] 如图4所示,该基于联邦学习的知识迁移设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连
接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non‑volatile 
memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设
备。
[0117] 可选地,该基于联邦学习的知识迁移设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可
以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括
标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI‑FI
接口)。
[0118] 本领域技术人员可以理解,图4中示出的基于联邦学习的知识迁移设备结构并不构成对基于联邦学习的知识迁移设备的限定,可以包括比图示更多或更少的部件,或者组
合某些部件,或者不同的部件布置。
[0119] 如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及基于联邦学习的知识迁移程序。操作系统是管理和控制基于联邦学习的知识迁
移设备硬件和软件资源的程序,支持基于联邦学习的知识迁移程序以及其它软件和/或程
序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与基于联邦学
习的知识迁移系统中其它硬件和软件之间通信。
[0120] 在图4所示的基于联邦学习的知识迁移设备中,处理器1001用于执行存储器1005中存储的基于联邦学习的知识迁移程序,实现上述任一项所述的基于联邦学习的知识迁移
方法的步骤。
[0121] 本申请基于联邦学习的知识迁移设备具体实施方式与上述基于联邦学习的知识迁移方法各实施例基本相同,在此不再赘述。
[0122] 本申请实施例还提供一种基于联邦学习的知识迁移装置,所述基于联邦学习的知识迁移装置包括:
[0123] 第一适配模块,用于所述接收不同训练任务的各强化学习训练模型,并对各所述强化学习训练模型进行适配,获得强化学习适配模型;
[0124] 联邦模块,用于所述对各所述强化学习适配模型进行联邦处理,获得联邦模型;
[0125] 第二适配模块,用于所述对所述联邦模型进行适配,获得联邦适配模型;
[0126] 发送模块,用于所述将各所述联邦适配模型发送至各所述强化学习训练模型对应的训练设备,以对各所述强化学习训练模型进行迭代训练。
[0127] 可选地,所述第一适配模块包括:
[0128] 第一获取子模块,用于所述获取各所述强化学习训练模型的模型输入和模型输出;
[0129] 校正子模块,用于所述对各所述模型输入和各所述模型输出进行校正,获得所述强化学习适配模型。
[0130] 可选地,所述校正子模块包括:
[0131] 第一校正单元,用于所述对各所述环境参数进行量纲校正,获得模型输入校正结果;
[0132] 第二校正单元,用于所述对各所述控制变量进行量纲校正和对齐处理,获得模型输出校正结果;
[0133] 获取单元,用于所述基于所述模型输入校正结果和所述模型输出校正结果,获取所述强化学习适配模型。
[0134] 可选地,所述第一校正单元包括:
[0135] 比对子单元,用于所述获取预设标准环境参数,并将各所述环境参数与所述预设标准环境参数进行比对,获得环境参数差异度;
[0136] 第一校正子单元,用于所述基于各所述环境参数差异度,对各所述环境参数进行量纲校正,获得所述模型输入校正结果。
[0137] 可选地,所述第二校正单元包括:
[0138] 对齐子单元,用于所述对各所述控制变量进行对齐处理,获得对齐处理结果;
[0139] 第二校正子单元,用于所述获取预设标准控制变量,并基于所述预设标准控制变量和所述对齐处理结果对各所述控制变量进行量纲校正,获得模型输出校正结果。
[0140] 可选地,所述第二适配模块包括:
[0141] 第二获取子模块,用于所述获取各所述强化学习训练模型的训练任务;
[0142] 适配子模块,用于所述基于所述训练任务,对所述联邦模型的输入和输出进行适配,获得所述联邦适配模型。
[0143] 可选地,所述联邦模块包括:
[0144] 加权平均子模块,用于所述获取各所述强化学习适配模型的模型参数,并对各所述模型参数进行加权平均,获得联邦模型参数;
[0145] 第三获取子模块,用于所述基于所述联邦模型参数,获取所述联邦模型。
[0146] 本申请基于联邦学习的知识迁移装置的具体实施方式与上述基于联邦学习的知识迁移方法各实施例基本相同,在此不再赘述。
[0147] 本申请实施例提供了一种介质,所述介质为可读存储介质,且所述介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行
以用于实现上述任一项所述的基于联邦学习的知识迁移方法的步骤。
[0148] 本申请介质具体实施方式与上述基于联邦学习的知识迁移方法各实施例基本相同,在此不再赘述。
[0149] 以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技
术领域,均同理包括在本申请的专利处理范围内。