用于机器学习的设备、计算机程序和计算机实现方法转让专利

申请号 : CN202210857465.3

文献号 : CN115700616A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : H·弗林D·里布J·皮特斯M·坎德米尔

申请人 : 罗伯特·博世有限公司

摘要 :

用于机器学习的设备、计算机程序和计算机实现方法,其中所述方法包括:提供(200)包括多臂老虎机问题或上下文老虎机问题的动作空间和以动作为条件的奖励上的分布的任务;提供(202)超先验,其中所述超先验是所述动作空间上的分布;取决于所述超先验来确定(224)超后验,针对所述超后验,当使用从所述超后验采样的先验时关于未来老虎机任务的期望奖励的下界限具有尽可能大的值,并且其中所述超后验是所述动作空间上的分布。

权利要求 :

1.一种用于机器学习的计算机实现方法,其特征在于,所述方法包括:提供(200)包括多臂老虎机问题或上下文老虎机问题的动作空间和以动作为条件的奖励上的分布的任务;

提供(202)超先验,其中所述超先验是所述动作空间上的分布;取决于所述超先验来确定(224)超后验,针对所述超后验,当使用从所述超后验采样的先验时关于未来老虎机任务的期望奖励的下界限具有尽可能大的值,并且其中所述超后验是所述动作空间上的分布。

2.根据权利要求1所述的方法,其特征在于,确定(224)所述超后验包括:确定使所述期望奖励的下界限最大化的超后验。

3.根据前述权利要求中的一项所述的方法,其特征在于,所述方法包括:取决于从所述超后验采样的先验来处理(226)传感器数据、特别是数字图像数据或音频数据,以特别地用于对传感器数据进行分类、检测传感器数据中的对象的存在、或者对传感器数据执行语义分割;或者确定(226)所述机器学习的鲁棒性的度量、特别是当从所述超后验采样先验时关于下一个任务的期望误差不高于预定值的概率;或者取决于从所述超后验采样的先验来检测(226)传感器数据中的异常;或者学习用于控制物理系统的策略,并且取决于从所述超后验采样的先验来确定用于控制物理系统的控制信号。

4.根据前述权利要求中的一项所述的方法,其特征在于,所述方法包括:在多个迭代中确定(224)所述超后验,并且从先前迭代的所述超后验来采样(208)迭代的先验。

5.根据权利要求4所述的方法,其特征在于,所述方法包括:从任务上的分布来采样(206)所述迭代的任务。

6.根据前述权利要求中的一项所述的方法,其特征在于,所述方法包括:利用所述超先验来初始化(204)所述超后验。

7.根据前述权利要求中的一项所述的方法,其特征在于,所述方法包括:利用所述先验来初始化(210)后验;从所述任务的行为策略集合中确定(214)与任务后验相关联的行为策略,其中所述行为策略包括具有概率质量的动作上的分布;从所述概率质量来随机地采样(216)或选择动作;取决于所述动作从奖励上的分布来采样(218)奖励;确定(220)包括所述动作和所述奖励的数据集;更新(22)所述后验以包括所述任务数据集。

8.根据权利要求7所述的方法,其中提供(200)所述任务包括提供包括状态空间以及初始状态上的分布的任务,其中所述方法进一步包括从初始状态上的分布来随机地采样(218)或选择初始状态,并且其中奖励上的分布以所述状态空间的状态以及动作为条件。

9.根据前述权利要求中的一项所述的方法,其特征在于,所述方法包括:利用空集来初始化(212)所述数据集,并且然后在预定轮数中更新所述后验。

10.根据前述权利要求中的一项所述的方法,其特征在于,确定(224)所述超后验包括:

取决于所述超后验和所述超先验的Kullback‑Leibler散度来确定和逼近所述期望奖励。

11.一种用于机器学习的设备(100),其特征在于,所述设备(100)被配置用于执行根据权利要求1至10中的一项所述的方法中的步骤。

12.一种计算机程序,其特征在于,所述计算机程序包括计算机可读指令,所述计算机可读指令当在计算机上被执行时使得所述计算机执行根据权利要求1至10中的一项所述的方法。

说明书 :

用于机器学习的设备、计算机程序和计算机实现方法

背景技术

[0001] 本发明涉及用于机器学习的设备、计算机程序和计算机实现方法。
[0002] A PAC‑Bayesian bound for Lifelong Learning,Anastasia Pentina,Christoph H. Lampert,arXiv:1311.2838公开了用于机器学习的终身学习设置的方面。

发明内容

[0003] 根据独立权利要求的计算机实现方法、设备和计算机程序提供了改进的机器学习,特别是基于用于训练终身学习系统的目标函数的改进的机器学习。
[0004] 一种用于机器学习的计算机实现方法包括:提供包括多臂老虎机(multi‑armed bandit)问题或上下文老虎机(contextual bandit)问题的动作空间和以动作为条件的奖励上的分布的任务;提供超先验,其中该超先验是动作空间上的分布;取决于该超先验来确定超后验,针对该超后验,当使用从该超后验采样的先验时关于未来老虎机任务的期望奖励(expected reward)的下界限(lower bound)具有尽可能大的值,并且其中该超后验是动作空间上的分布。这意味着,任务要么是多臂老虎机问题、要么是上下文老虎机问题。该下界限是PAC‑贝叶斯泛化界限(generalisation bound),该界限形成了当使用从超后验采样的先验时关于未来老虎机任务的期望奖励的下界限。该下界限被用作用于终身学习的目标函数,其中在观察了任务之后,该超后验被更新,使得它近似地使该下界限最大化。该下界限包含可观察的量,并且因此可以使用来自所观察的任务的训练数据来计算。以这种方式,来自一组所观察的多臂老虎机或上下文老虎机任务的先验知识被转移(transfer)到新的多臂老虎机或上下文老虎机任务。
[0005] 确定超后验可以包括:确定使期望奖励的下界限最大化的超后验。使下界限最大化的超后验被期望将高概率指派给产生关于未来任务的低误差的先验。
[0006] 该方法可以用于将来自一组所观察的多臂老虎机或上下文老虎机任务的先验知识转移到新的多臂老虎机或上下文老虎机任务。许多问题可以要么被表示为多臂老虎机问题、要么被表示为上下文老虎机问题。因此,该方法可以用于将先验知识转移到许多类型的任务。
[0007] 该方法可以包括:取决于从超后验采样的先验来处理传感器数据、特别是数字图像数据或音频数据,以特别地用于对传感器数据进行分类、检测传感器数据中的对象的存在、或者对传感器数据执行语义分割;或者确定机器学习的鲁棒性的度量、特别是当从超后验采样先验时关于下一个任务的期望误差不高于预定值的概率;或者取决于从超后验采样的先验来检测传感器数据中的异常;或者学习用于控制物理系统的策略,并且取决于从超后验采样的先验来确定用于控制物理系统的控制信号。因此,该方法用于将先验知识转移到新的问题、特别是新的分类问题、新的鲁棒性问题、新的异常检测问题和/或新的控制问题。
[0008] 下界限也是机器学习的鲁棒性的度量。超后验还提供了当先验从超后验被采样时关于下一个任务的期望误差的信息。例如,当先验从某个超后验被采样时,期望误差不高于某个值。
[0009] 该方法可以包括在多个迭代中确定超后验,并且从先前迭代的超后验来采样迭代的先验。因此,在机器学习的迭代中,先验知识是从较早的迭代被转移的。
[0010] 该方法可以包括:从任务上的分布来采样该迭代的任务。处理特别大量的不同任务改进了机器学习的结果。
[0011] 该方法优选地包括:利用超先验来初始化超后验。任何可用的超先验是用于机器学习的良好起始点。
[0012] 该方法可以包括:利用先验来初始化后验;从任务的行为策略集合中确定与任务后验相关联的行为策略,其中该行为策略包括具有概率质量的动作上的分布;从该概率质量来随机地采样或选择动作;取决于该动作从奖励上的分布来采样奖励;确定包括该动作和该奖励的任务数据集;更新任务后验以包括该任务数据集。这为多臂老虎机或上下文老虎机任务提供了非常高效的机器学习,其中所创建的后验将该任务数据集保存为先前迭代的知识。
[0013] 提供任务优选地包括提供包括状态空间以及初始状态上的分布的任务,其中该方法进一步包括从初始状态上的分布来随机地采样或选择初始状态,并且其中奖励上的分布以状态空间的状态和动作为条件。这为上下文老虎机任务提供了非常高效的机器学习。
[0014] 该方法可以包括:利用空集来初始化该任务数据集,并且然后在预定轮数(number of rounds)中更新任务后验。因此,下界限是从来自所观察的任务的训练数据被计算的。
[0015] 确定超后验可以包括:取决于超后验和超先验的Kullback‑Leibler散度来确定下界限。当先验被优化为在所观察的任务上与它在新任务上一样有效时,提供了改进的机器学习的目标。超后验和超先验的Kullback‑Leibler散度提供了从来自所观察的任务的训练数据来确定下界限的良好方法。
[0016] 一种用于机器学习的设备,其特征在于,该设备被配置用于执行根据权利要求1至9中的一项的方法中的步骤。
[0017] 一种计算机程序,其特征在于,该计算机程序包括计算机可读指令,该计算机可读指令当在计算机上被执行时使得计算机执行根据权利要求1至9中的一项的方法。
[0018] 进一步的有利实施例是从以下描述和附图中可得出的。在附图中:图1示意性地描绘了用于机器学习的设备的一部分,
图2描绘了用于机器学习的方法中的步骤。
[0019] 图1示意性地描绘了用于机器学习的设备100的一部分。设备100包括至少一个处理器102和至少一个存储装置104。该至少一个存储装置104可以存储包括计算机可读指令的计算机程序,该计算机可读指令当在计算机上被执行使得计算机执行将在下面参考图2描述的方法。设备100被配置用于执行该方法中的步骤,特别是当至少一个处理器102执行计算机程序的指令时。
[0020] 该示例中的机器学习的方法使用基学习算法(base learning algorithm)Q=Q(D,P),并且从步骤200开始。基学习算法返回后验分布Q。由于基学习算法使用数据集D和先验P,所以后验在本描述中被写为Q(D, P)以使得对D和P的依赖性是清楚的。
[0021] 在步骤200中,该方法包括:提供任务Ti。
[0022] 任务Ti可以是被表示为一对(couple) 的多臂老虎机问题的任务,其包括多臂老虎机问题的动作空间A(即,一组动作a)、以及以动作a为条件的奖励r上的分布。
[0023] 任务Ti可以是被表示为四元组(quadruple) 的上下文老虎机问题的任务,其包括动作空间A(即,一组动作a)和状态空间S、以及以动作a和状态s为条件的奖励r上的分布 、以及上下文老虎机问题的初始状态 上的分布。
[0024] 假定奖励r在0和1之间,并且假定任务Ti是从环境T被独立同分布地(i.i.d.)采样的。
[0025] 之后,执行步骤202。
[0026] 在步骤202中,该方法包括:提供超先验 。
[0027] 超先验 是一组可能的先验分布上的分布。每个先验分布是动作空间A上的分布。
[0028] 之后,执行步骤204。
[0029] 在步骤204中,该方法包括:利用超先验 来初始化超后验 。超后验 是先验分布上的另一个分布。
[0030] 之后,执行步骤206。
[0031] 在步骤206中,该方法包括:从任务T上的分布T来采样迭代i的任务Ti。
[0032] 与任务Ti相关联的是任务Ti的行为策略集合 ,其包括mi个行为策略。
[0033] 对于多臂老虎机问题,行为策略bij包括具有概率质量bij(a)的动作a上的分布。在该示例中,行为策略bij是动作a上的分布,该分布在迭代i中取决于先前所观察的训练数据其中,对于多臂老虎机任务训练数据集的元素在多臂老虎机任务中分布如下:

[0034] 对于上下文老虎机问题,行为策略bij包括具有概率质量 的以状态s为条件的动作a上的分布。在该示例中,行为策略bij是动作a上的分布,该分布在迭代i中取决于先前所观察的训练数据训练数据集的元素在上下文老虎机任务中分布如下:

[0035] 之后,执行步骤208。
[0036] 在步骤208中,该方法包括:从先前迭代i‑1的超后验 来采样迭代i的先验P。
[0037] 之后,执行步骤210。
[0038] 在步骤210中,该方法包括:利用先验P来初始化后验Q。
[0039] 之后,执行步骤212。
[0040] 在步骤212中,该方法包括:利用空集来初始化数据集Di。
[0041] 之后,执行步骤214。
[0042] 在步骤214中,该方法包括:从任务Ti的行为策略集合Bij中确定与任务后验Q相关联的行为策略bij。
[0043] 之后,执行步骤216。
[0044] 在步骤216中,该方法包括:从行为策略bij的概率质量来随机地采样或选择动作aij。
[0045] 之后,执行步骤218。
[0046] 在步骤218中,该方法包括:针对多臂老虎机问题,取决于动作aij从奖励r上的分布来采样奖励rij。
[0047] 在步骤218中,该方法包括:针对上下文老虎机问题,从初始状态 上的分布来随机地采样或选择初始状态sij,并且取决于动作aij从奖励r上的分布 来采样奖励rij,奖励r上的分布以状态空间S的状态s和动作a为条件。
[0048] 之后,执行步骤220。
[0049] 在步骤220中,该方法包括:确定包括动作aij和奖励rij的数据集Di。
[0050] 数据集Di是训练集,对于多臂老虎机问题,它包括mi个可观察的训练数据对:数据集Di是训练集,对于上下文老虎机问题,它包括mi个可观察的训练数据三元组:

[0051] 之后,执行步骤222。
[0052] 在步骤222中,该方法包括:更新后验Q以包括数据集Di。
[0053] 为此,确定性基学习算法将数据集Di和先验P作为输入,并且产生后验Q = Q(Di; P)。
[0054] 任务Ti的目标是找到使期望奖励最大化的后验Q。多臂老虎机问题的期望奖励是:其中E是期望值。
[0055] 使用数据集Di,期望奖励在多臂老虎机问题的示例中被估计为:I{aij=a}是指示器函数,如果aij=a,则它返回1,否则返回0。上下文老虎机问题的期望奖励是:
其中E是相应的期望值,并且其中先验P和后验Q是策略的空间 上的分布,其中是以状态s为条件的动作a上的分布π(a|s)。
[0056] 使用数据集Di,期望奖励在上下文老虎机问题的示例中被估计为:在该示例中,该方法包括在预定轮数m中更新后验Q。这意味着,该方法继续步骤
214达m轮。
[0057] 之后,执行步骤224。
[0058] 在步骤224中,该方法包括:取决于超先验 来确定超后验 ,针对该超后验 ,当使用从该超后验 采样的先验P时关于未来老虎机任务的期望奖励L的下界限具有尽可能大的值。
[0059] 在该示例中,确定超后验 包括确定使期望奖励L的下界限最大化的超后验 。
[0060] 在该示例中,多臂老虎机问题的函数下界限 是以下目标函数中的一个:其中,β1和β1是常数,0≤β1,β2≤1,
其中
并且其中0<δ≤1是置信度参数,因此对于多臂老虎机问题,以下不等式均在训练数据D1...Dn和后验Q1...Qn上以概率1−δ成立:
n n
其中Q 表示动作a1...an上的联合分布,其中ai~Qi,并且其中P 表示动作a1...an上的联合分布,其中ai~Pi,并且其中 并且 ,并且其中
其中 ,
其中mi是用于任务i的训练集样本的数量。
[0061] 对于上下文老虎机问题,可以通过用 代替Li以及用 代替 来应用这些目标函数,其中Qi和Pi是策略πi而不是动作ai上的分布,并且让 ,其中πmax是针对任何策略π和任何动作状态的最大可能概率质量。
[0062] 当使用配备有先验 的基学习算法Q(Dn+1; P)时,超后验 的性能例如通过边际转移奖励(marginal transfer reward)来测量,该边际转移奖励是关于新任务Tn+1的期望奖励。
[0063] 对于多臂老虎机问题,边际转移奖励是:对于上下文老虎机问题,边际转移奖励是:
利用上述函数,该方法不是最大化边际转移奖励,而是最大化关于边际转移奖励的PAC‑贝叶斯下界限。界限中的一些包含二元Kullback‑Leibler KL散度的逆(inverse)。
[0064] 这意味着,确定超后验 包括取决于超后验 和超先验 的Kullback‑Leibler散度 来确定和逼近期望奖励L。
[0065] 在该示例中,超后验 是在数量n个迭代i中被确定的。
[0066] 这意味着,该方法继续步骤206达n个迭代。之后,可选地,执行步骤226。
[0067] 在步骤226中,该方法在该示例中包括:取决于从超后验 采样的先验来处理传感器数据、特别是数字图像数据或音频数据。传感器可以是麦克风、视频、雷达、激光雷达、超声、运动、热成像或声纳传感器。
[0068] 传感器数据例如被处理以用于对传感器数据进行分类、检测传感器数据中的对象的存在、或者对传感器数据执行语义分割。传感器数据分类例如被框定(frame)为上下文老虎机问题。可以例如关于交通标志、道路表面、行人、车辆的存在或不存在、或类型对图像进行分类。
[0069] 取而代之或者附加地,步骤226可以包括:学习用于控制物理系统的策略,并且取决于从超后验 采样的先验来确定用于控制物理系统的控制信号。
[0070] 举例来说,当从超后验 采样先验时,可以确定关于下一个任务的期望误差不高于预定值的概率。
[0071] 取而代之或者附加地,步骤226可以包括:确定机器学习的鲁棒性的度量。在该示例中,对于从超后验 采样的先验,鲁棒性的度量是期望误差。
[0072] 例如当期望误差小于阈值时,可以使用先验来处理传感器数据,否则,可以采样另一个先验以用于处理传感器数据或确定控制信号。
[0073] 取而代之或者附加地,步骤226可以包括:取决于从超后验 采样的先验来检测传感器数据中的异常。在这方面,异常检测问题被框定为多臂老虎机问题。
[0074] 之后,该方法在该示例中结束。
[0075] 下面提供了在用于多臂老虎机问题的机器学习的方法中由计算机采取的步骤的示例: