一种提高工作机学习性能的方法、装置、设备及介质转让专利

申请号 : CN202211394593.5

文献号 : CN115456202B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张旭孙华锦王凛吴睿振王小伟

申请人 : 苏州浪潮智能科技有限公司

摘要 :

本发明涉及机器学习领域,提出一种提高工作机学习性能的方法、装置、设备及介质。方法包括:建立每个工作机对应的局部训练数据集,并通过高斯过程回归算法对所述局部训练数据集进行训练,以得到每个工作机对应的局部预测模型;通过服务器对所述每个工作机对应的局部预测模型的数据设置不确定性的修正项并基于rBCM聚合算法进行聚合,得到全局预测模型;将所述全局预测模型发送给所述每个工作机,并对所述每个工作机设置融合算法以及一个不确定性测试数据集合进行融合,以得到所述每个工作机对应的预测误差最小模型。本发明公开的方法可以显著提高工作机模型预测融合后最终的学习精度。

权利要求 :

1.一种提高工作机学习性能的方法,其特征在于,所述方法用于实现工作机的最终预测融合并且提升工作机的最终学习精度,并且所述方法包括:建立每个工作机对应的局部训练数据集,并通过高斯过程回归算法对所述局部训练数据集进行训练,以得到每个工作机对应的局部预测模型;

通过服务器对所述每个工作机对应的局部预测模型的数据设置不确定性的修正项,并基于rBCM聚合算法对所述每个工作机对应的局部预测模型设置所述不确定性的修正项后的数据进行聚合,得到全局预测模型;

将所述全局预测模型发送给所述每个工作机,根据所述每个工作机对应的局部预测模型和所述全局预测模型为所述每个工作机建立对应的一个不确定性测试数据集合和融合算法,通过所述融合算法在所述不确定性测试数据集合上进行融合,以得到所述每个工作机对应的预测误差最小模型。

2.根据权利要求1所述的方法,其特征在于,所述建立每个工作机对应的局部训练数据集,并通过高斯过程回归算法对所述局部训练数据集进行训练,以得到每个工作机对应的局部预测模型包括:建立目标函数和每个工作机对应的局部训练数据集,并通过所述局部训练数据集构建测试数据集;

通过高斯过程回归算法使所述局部训练数据集在所述测试数据集上逼近所述目标函数,以得到所述每个工作机对应的局部预测模型。

3.根据权利要求2所述的方法,其特征在于,所述建立目标函数和每个工作机对应的局部训练数据集,并通过所述局部训练数据集构建测试数据集包括:计算每一个测试数据到所述局部训练数据集的投影,得到局部投影集合;

基于所述局部投影集合中的每个投影点对应的邻域构建测试数据集。

4.根据权利要求2所述方法,其特征在于,所述通过高斯过程回归算法使所述局部训练数据集在所述测试数据集上逼近所述目标函数,以得到所述每个工作机对应的局部预测模型包括:对所述每个工作机在所述测试数据集上计算高斯后验概率分布,得到所述每个工作机对应的局部预测的期望和方差;

通过所述每个工作机对应的局部预测的期望和方差建立局部预测模型。

5.根据权利要求4所述的方法,其特征在于,所述对所述每个工作机在所述测试数据集上计算高斯后验概率分布,得到所述每个工作机对应的局部预测的期望和方差包括:选择与计算高斯后验概率相匹配的核函数,并基于所述核函数对所述每个工作机在所述测试数据集上计算高斯后验概率分布,得到所述每个工作机对应的局部预测的期望和方差。

6.根据权利要求4所述的方法,其特征在于,所述通过服务器对所述每个工作机对应的局部预测模型的数据设置不确定性的修正项,并基于rBCM聚合算法对所述每个工作机对应的局部预测模型设置所述不确定性的修正项后的数据进行聚合,得到全局预测模型包括:通过服务器对所述每个工作机对应的局部预测的期望和方差设置不确定性的修正项;

基于所述不确定性的修正项和rBCM聚合算法对所述每个工作机对应的局部预测的期望和方差进行聚合,得到全局预测模型。

7.根据权利要求6所述的方法,其特征在于,所述基于所述不确定性的修正项和rBCM聚合算法对所述每个工作机对应的局部预测的期望和方差进行聚合,得到全局预测模型包括:基于所述不确定性的修正项和rBCM聚合算法对所述每个工作机对应的局部预测的期望和方差进行聚合,得到全局预测的期望和方差。

8.根据权利要求7所述的方法,其特征在于,所述将所述全局预测模型发送给所述每个工作机,根据所述每个工作机对应的局部预测模型和所述全局预测模型为所述每个工作机建立对应的一个不确定性测试数据集合和融合算法,通过所述融合算法在所述不确定性测试数据集合上进行融合,以得到所述每个工作机对应的预测误差最小模型包括:将所述全局预测的期望和方差发送给所述每个工作机;

对所述每个工作机设置融合算法以及一个不确定性测试数据集合进行融合,以得到所述每个工作机对应的预测误差最小模型。

9.根据权利要求8所述的方法,其特征在于,所述对所述每个工作机设置融合算法以及一个不确定性测试数据集合进行融合,以得到所述每个工作机对应的预测误差最小模型包括:根据所述全局预测的方差和所述每个工作机的局部预测的方差对所述每个工作机设置融合算法和一个不确定性测试数据集;

通过所述融合算法在所述不确定性测试数据集上得到所述每个工作机对应的预测误差最小模型,以实现在所述不确定性测试数据集上的期望值的误差最小。

10.根据权利要求9所述的方法,其特征在于,所述根据所述全局预测的方差和所述每个工作机的局部预测的方差对所述每个工作机设置融合算法和一个不确定性测试数据集包括:建立一个不确定性测试数据集,并根据所述不确定性测试数据集中的数据的全局预测的方差与局部预测的方差的大小为所述每个工作机设置融合算法。

11.根据权利要求10所述的方法,其特征在于,所述建立一个不确定性测试数据集,并根据所述不确定性测试数据集中的数据的全局预测的方差与局部预测的方差的大小为所述每个工作机设置融合算法包括:响应于所述不确定性测试数据集中的数据的全局预测的方差不大于局部预测的方差,使用所述全局预测模型作为所述工作机的预测误差最小模型。

12.根据权利要求10所述的方法,其特征在于,所述建立一个不确定性测试数据集,并根据所述不确定性测试数据集中的数据的全局预测的方差与局部预测的方差的大小为所述每个工作机设置融合算法还包括:响应于所述不确定性测试数据集中的数据的全局预测的方差大于局部预测的方差,使用所述工作机对应的局部预测模型作为所述工作机的预测误差最小模型。

13.一种提高工作机学习性能的装置,其特征在于,所述装置用于实现工作机的最终预测融合并且提升工作机的最终学习精度,并且所述装置包括:第一模块,配置用于建立每个工作机对应的局部训练数据集,并通过高斯过程回归算法对所述局部训练数据集进行训练,以得到每个工作机对应的局部预测模型;

第二模块,配置用于通过服务器对所述每个工作机对应的局部预测模型的数据设置不确定性的修正项,并基于rBCM聚合算法对所述每个工作机对应的局部预测模型设置所述不确定性的修正项后的数据进行聚合,得到全局预测模型;以及第三模块,配置用于将所述全局预测模型发送给所述每个工作机,根据所述每个工作机对应的局部预测模型和所述全局预测模型为所述每个工作机建立对应的一个不确定性测试数据集合和融合算法,通过所述融合算法在所述不确定性测试数据集合上进行融合,以得到所述每个工作机对应的预测误差最小模型。

14.根据权利要求13所述的装置,其特征在于,所述第一模块进一步配置用于:建立目标函数和每个工作机对应的局部训练数据集,并通过所述局部训练数据集构建测试数据集;

通过高斯过程回归算法使所述局部训练数据集在所述测试数据集上逼近所述目标函数,以得到所述每个工作机对应的局部预测模型。

15.根据权利要求14所述的装置,其特征在于,所述第一模块进一步配置用于:计算每一个测试数据到所述局部训练数据集的投影,得到局部投影集合;

基于所述局部投影集合中的每个投影点对应的邻域构建测试数据集。

16.根据权利要求14所述的装置,其特征在于,所述第一模块进一步配置用于:对所述每个工作机在所述测试数据集上计算高斯后验概率分布,得到所述每个工作机对应的局部预测的期望和方差;

通过所述每个工作机对应的局部预测的期望和方差建立局部预测模型。

17.根据权利要求16所述的装置,其特征在于,所述第一模块进一步配置用于:选择与计算高斯后验概率相匹配的核函数,并基于所述核函数对所述每个工作机在所述测试数据集上计算高斯后验概率分布,得到所述每个工作机对应的局部预测的期望和方差。

18.根据权利要求16所述的装置,其特征在于,所述第二模块进一步配置用于:通过服务器对所述每个工作机对应的局部预测的期望和方差设置不确定性的修正项;

基于所述不确定性的修正项和rBCM聚合算法对所述每个工作机对应的局部预测的期望和方差进行聚合,得到全局预测模型。

19. 一种计算机设备,其特征在于,包括:

至少一个处理器;以及

存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1‑12任意一项所述方法的步骤。

20.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1‑12任意一项所述方法的步骤。

说明书 :

一种提高工作机学习性能的方法、装置、设备及介质

技术领域

[0001] 本发明涉及机器学习领域,尤其涉及一种提高工作机学习性能的方法、装置、设备及介质。

背景技术

[0002] 物联网产生大量的分布数据,一种典型的训练方式是将这些数据存储在服务器上,通过服务器训练模型,然而,这种方式的通信效率以及计算效率的问题明显,比如,一辆汽车几个小时产生的数百Gb的数据在传输和计算过程中,都是极大的负担。分布式机器学习对于计算量太大、训练数据太多以及模型规模太大的情况可以有效的解决,在实际应用中,一般分布式机器学习采用深度神经网络作为机器学习模型,这种机器学习模型在许多应用中都取得了空前的成功,比如模型分类与模式识别,但是主要局限在离线学习。在实际应用中工作机会获得数据流,因此在线学习是解决这一问题的有效方式。
[0003] 现有技术中,在工作机学习性能提升的方法中,提出过利用gPoE(Generalized product of experts)来进行全局模型预测的聚合。gPoE的一个缺点是,当利用工作机提供的局部预测进行gPoE聚合,得到的全局预测模型具有较大的不确定性,即预测的方差比较大且保守,这样保守的全局预测方差会影响分布式框架下工作机的最终学习性能。利用现有聚合算法得到的全局预测方差与工作机利用局部数据集和GPR(Gaussian process regression,高斯过程回归)得到局部预测方差没有太大区分,那么在比较两个方差时,全局预测的结果优势将不明显,即无法利用某种聚合算法得到全局预测方差相对于工作机局部预测方差更小,在最终局部融合过程中,无法体现全局模型带来的优势对于局部预测性能的提升。

发明内容

[0004] 有鉴于此,本发明提出了一种提高工作机学习性能的方法、装置、设备及介质,其中,本发明提出的一种提高工作机学习性能的方法通过高斯过程回归(Gaussian process regression,GPR)和rBCM(Robust Bayesian committee machine)聚合算法,利用高斯过程回归为工作机的预测模型,其用局部数据集对函数进行学习,实现对测试输出的预测。然后每个工作机将局部预测的期望和方差发送至服务器。服务器接收到所有工作机的预测期望和方差后,采用rBCM算法进行全局模型的聚合,并将得到的全局预测期望和方差发送给各个工作机,让工作机实现最终的预测融合。在在线学习框架下,通过引入精度的校正项,可以使得全局预测的方差更小,来提升工作机最终的学习精度。
[0005] 基于以上目的,本发明的实施例的一个方面提供了一种提高工作机学习性能的方法,所述方法包括以下步骤:建立每个工作机对应的局部训练数据集,并通过高斯过程回归算法对所述局部训练数据集进行训练,以得到每个工作机对应的局部预测模型;通过服务器对所述每个工作机对应的局部预测模型的数据设置不确定性的修正项并基于rBCM聚合算法进行聚合,得到全局预测模型;将所述全局预测模型发送给所述每个工作机,并对所述每个工作机设置融合算法以及一个不确定性测试数据集合进行融合,以得到所述每个工作机对应的预测误差最小模型。
[0006] 在一些实施例中,所述建立每个工作机对应的局部训练数据集,并通过高斯过程回归算法对所述局部训练数据集进行训练,以得到每个工作机对应的局部预测模型包括:建立目标函数和每个工作机对应的局部训练数据集,并通过所述局部训练数据集构建测试数据集;通过高斯过程回归算法使所述局部训练数据集在所述测试数据集上逼近所述目标函数,以得到所述每个工作机对应的局部预测模型。
[0007] 在一些实施例中,所述建立目标函数和每个工作机对应的局部训练数据集,并通过所述局部训练数据集构建测试数据集包括:计算每一个测试数据到所述局部训练数据集的投影,得到局部投影集合;基于所述局部投影集合中的每个投影点对应的邻域构建测试数据集。
[0008] 在一些实施例中,所述通过高斯过程回归算法使所述局部训练数据集在所述测试数据集上逼近所述目标函数,以得到所述每个工作机对应的局部预测模型包括:对所述每个工作机在所述测试数据集上计算高斯后验概率分布,得到所述每个工作机对应的局部预测的期望和方差;通过所述每个工作机对应的局部预测的期望和方差建立局部预测模型。
[0009] 在一些实施例中,所述对所述每个工作机在所述测试数据集上计算高斯后验概率分布,得到所述每个工作机对应的局部预测的期望和方差包括:选择与计算高斯后验概率相匹配的核函数,并基于所述核函数对所述每个工作机在所述测试数据集上计算高斯后验概率分布,得到所述每个工作机对应的局部预测的期望和方差。
[0010] 在一些实施例中,所述通过服务器对所述每个工作机对应的局部预测模型的数据设置不确定性的修正项并基于rBCM聚合算法进行聚合,得到全局预测模型包括:通过服务器对所述每个工作机对应的局部预测的期望和方差设置不确定性的修正项;基于所述不确定性的修正项和rBCM聚合算法对所述每个工作机对应的局部预测的期望和方差进行聚合,得到全局预测模型。
[0011] 在一些实施例中,所述基于所述不确定性的修正项和rBCM聚合算法对所述每个工作机对应的局部预测的期望和方差进行聚合,得到全局预测模型包括:基于所述不确定性的修正项和rBCM聚合算法对所述每个工作机对应的局部预测的期望和方差进行聚合,得到全局预测的期望和方差。
[0012] 在一些实施例中,所述将所述全局预测模型发送给所述每个工作机,并对所述每个工作机设置融合算法以及一个不确定性测试数据集合进行融合,以得到所述每个工作机对应的预测误差最小模型包括:将所述全局预测的期望和方差发送给所述每个工作机;对所述每个工作机设置融合算法以及一个不确定性测试数据集合进行融合,以得到所述每个工作机对应的预测误差最小模型。
[0013] 在一些实施例中,所述对所述每个工作机设置融合算法以及一个不确定性测试数据集合进行融合,以得到所述每个工作机对应的预测误差最小模型包括:根据所述全局预测的方差和所述每个工作机的局部预测的方差对所述每个工作机设置融合算法和一个不确定性测试数据集;通过所述融合算法在所述不确定性测试数据集上得到所述每个工作机对应的预测误差最小模型,以实现在所述不确定性测试数据集上的期望值的误差最小。
[0014] 在一些实施例中,所述根据所述全局预测的方差和所述每个工作机的局部预测的方差对所述每个工作机设置融合算法和一个不确定性测试数据集包括:建立一个不确定性测试数据集,并根据所述不确定性测试数据集中的数据的全局预测的方差与局部预测的方差的大小为所述每个工作机设置融合算法。
[0015] 在一些实施例中,所述建立一个不确定性测试数据集,并根据所述不确定性测试数据集中的数据的全局预测的方差与局部预测的方差的大小为所述每个工作机设置融合算法包括:响应于所述不确定性测试数据集中的数据的全局预测的方差不大于局部预测的方差,使用所述全局预测模型作为所述工作机的预测误差最小模型。
[0016] 在一些实施例中,所述建立一个不确定性测试数据集,并根据所述不确定性测试数据集中的数据的全局预测的方差与局部预测的方差的大小为所述每个工作机设置融合算法还包括:响应于所述不确定性测试数据集中的数据的全局预测的方差大于局部预测的方差,使用所述工作机对应的局部预测模型作为所述工作机的预测误差最小模型。
[0017] 本发明实施例的另一个方面,还提供了一种提高工作机学习性能的装置,所述装置包括:第一模块,配置用于建立每个工作机对应的局部训练数据集,并通过高斯过程回归算法对所述局部训练数据集进行训练,以得到每个工作机对应的局部预测模型;第二模块,配置用于通过服务器对所述每个工作机对应的局部预测模型的数据设置不确定性的修正项并基于rBCM聚合算法进行聚合,得到全局预测模型;以及第三模块,配置用于将所述全局预测模型发送给所述每个工作机,并对所述每个工作机设置融合算法以及一个不确定性测试数据集合进行融合,以得到所述每个工作机对应的预测误差最小模型。
[0018] 在一些实施例中,所述第一模块进一步配置用于:建立目标函数和每个工作机对应的局部训练数据集,并通过所述局部训练数据集构建测试数据集;通过高斯过程回归算法使所述局部训练数据集在所述测试数据集上逼近所述目标函数,以得到所述每个工作机对应的局部预测模型。
[0019] 在一些实施例中,所述第一模块进一步配置用于:计算每一个测试数据到所述局部训练数据集的投影,得到局部投影集合;基于所述局部投影集合中的每个投影点对应的邻域构建测试数据集。
[0020] 在一些实施例中,所述第一模块进一步配置用于:对所述每个工作机在所述测试数据集上计算高斯后验概率分布,得到所述每个工作机对应的局部预测的期望和方差;通过所述每个工作机对应的局部预测的期望和方差建立局部预测模型。
[0021] 在一些实施例中,所述第一模块进一步配置用于:选择与计算高斯后验概率相匹配的核函数,并基于所述核函数对所述每个工作机在所述测试数据集上计算高斯后验概率分布,得到所述每个工作机对应的局部预测的期望和方差。
[0022] 在一些实施例中,所述第二模块进一步配置用于:通过服务器对所述每个工作机对应的局部预测的期望和方差设置不确定性的修正项;基于所述不确定性的修正项和rBCM聚合算法对所述每个工作机对应的局部预测的期望和方差进行聚合,得到全局预测模型。
[0023] 本发明实施例的另一方面,还提供一种计算机设备,包括至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述任一方法的步骤。
[0024] 本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上任一方法步骤的计算机程序。
[0025] 本发明至少具有以下有益效果:本发明提出一种提高工作机学习性能的方法、装置、设备及介质,其中,本发明提出的一种提高工作机学习性能的方法通过高斯过程回归(GPR)为工作机的预测模型和通过rBCM算法进行全局模型的聚合,并将得到的全局预测期望和方差发送给各个工作机,让工作机实现最终的预测融合。可以提高全局预测的精度,即大幅降低全局模型预测方差(具有不确定性),从而可以实现工作机更好的模型融合效果。具体地,对于局部方差和全局方差,如果全局预测方差非常小,则对于局部预测方差较大的工作机,采用全局模型替换局部模型这样的融合算法更有价值。一方面rBCM全局模型聚合算法,降低了全局预测的不确定性,即减小了保守性;另一方面,对于服务器通过rBCM得到的全局预测方差,工作机利用全局模型与局部模型方差的对比,显著提高工作机模型预测融合后最终的学习精度。

附图说明

[0026] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的实施例。
[0027] 图1为本发明提供的一种提高工作机学习性能的方法的实施例的示意图;
[0028] 图2为本发明提供的一种提高工作机学习性能的装置的实施例的示意图;
[0029] 图3为本发明提供的一种计算机设备的实施例的示意图;
[0030] 图4为本发明提供的一种计算机可读存储介质的实施例的示意图。

具体实施方式

[0031] 以下描述了本发明的实施例。然而,应该理解,所公开的实施例仅仅是示例,并且其它实施例可以采取各种替代形式。
[0032] 此外,需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。术语“包括”、“包含”或其任何其它变形旨在涵盖非排他性的包括,以使包含一系列要素的过程、方法、物品或装置不仅包括那些要素,也可以包括未明确列出的或这些过程、方法、物品或装置所固有的要素。
[0033] 下面将结合附图说明本申请的一个或多个实施例。
[0034] 基于以上目的,本发明实施例的第一个方面,提出了一种提高工作机学习性能的方法的实施例。图1示出的是本发明提供的一种提高工作机学习性能的方法的实施例的示意图。如图1所示,本发明实施例的一种提高工作机学习性能的方法包括以下步骤:
[0035] S1、建立每个工作机对应的局部训练数据集,并通过高斯过程回归算法对所述局部训练数据集进行训练,以得到每个工作机对应的局部预测模型;
[0036] S2、通过服务器对所述每个工作机对应的局部预测模型的数据设置不确定性的修正项并基于rBCM聚合算法进行聚合,得到全局预测模型;
[0037] S3、将所述全局预测模型发送给所述每个工作机,并对所述每个工作机设置融合算法以及一个不确定性测试数据集合进行融合,以得到所述每个工作机对应的预测误差最小模型。
[0038] 基于以上目的,本发明实施例的第一个方面,还提出了一种提高工作机学习性能的方法的另一实施例。
[0039] 分布式机器学习用于解决计算量太大、训练数据过多以及模型规模过大的情况。对于计算量太大的情况,可以采取基于共享内存(或虚拟内存)的多线程或多机并行运算;
对于训练数据太多的情形,需要将数据进行划分,并分配到多个工作节点上进行训练,以使每个工作节点的局部数据都在容限之内。每个工作节点会根据局部数据训练出一个子模型,并且会按照一定的规律和其他工作节点进行通信(通信的内容主要是子模型参数或者参数更新),以保证最终可以有效整合来自各个工作节点的训练结果并得到全局的机器学习模型。对于模型规模太大的情况,需要对模型进行划分,并且分配到不同的工作节点上进行训练。与数据并行不同,模型并行的框架下各个子模型之间的依赖关系非常强,因为某个子模型的输出可能是另外一个子模型的输入,如果不进行中间计算结果的通信,则无法完成整个模型训练。
[0040] 一般的分布式机器学习采用深度神经网络作为机器学习模型,主要应用在模式分类以及模式识别,但是他局限在离线学习,在实际应用中,工作机在实时应用中会获得数据流,在线学习称为一种解决此问题的手段,高斯过程回归是一个有效的手段之一。高斯过程模型可以等价为现有的机器学习模型,包括Bayesian线性模型、多层神经网络。根据中心极限定理,假设神经网络中的权重服从高斯正态分布,随着神经网络的宽度趋近于无穷,那么这样的神经网络等价于高斯过程回归。然而高斯过程回归是一个非超参数的统计概率模型,不像传统的学习模型,比如线性回归,逻辑回归,神经网络,需要求解优化问题使得损失函数最小来得到最优的模型参数,高斯过程回归并不需要求解优化问题。给定训练数据和测试输入,高斯过程回归的预测分为推断和预测两步。推断过程假设要学习的函数服从高斯过程,给出模型的高斯先验概率分布,然后利用观测值和Bayesian规则,求出模型的高斯后验概率分布。当完成局部模型预测之后,各个工作机将所得到的局部预测(期望和方差)发送至服务器,让服务器完成全局模型的计算,例如,利用平均聚合算法求取全局模型。最后,服务器将计算得到的全局模型(全局期望和方差)发送回各个工作机,让工作机利用得到的全局模型和自身训练得到的局部模型进行融合计算,以期望获得一个更新的对目标函数的预测,使得这个预测更加逼近函数的真值。
[0041] 本发明提出的一种提高工作机学习性能的方法通过高斯过程回归(GPR)为工作机的预测模型,其用局部数据集对函数进行学习,实现对测试输出的预测。然后每个工作机将局部预测的期望和方差发送至服务器。服务器接收到所有工作机的预测期望和方差后,通过rBCM算法进行全局模型的聚合,并将得到的全局预测期望和方差发送给各个工作机,让工作机实现最终的预测融合。其中rBCM算法进行全局聚合可以提高全局预测的精度,即大幅降低全局模型预测方差(不确定性),从而可以实现工作机更好的模型融合效果。具体地,考虑对比局部方差和全局方差,如果全局预测方差非常小,那么对于局部预测方差较大的工作机,采用全局模型替换局部模型这样的融合算法才更有价值。
[0042] 定义目标函数为 ,其中 是 维输入空间。不失一般性,我们假设输出为一维,即 。在时刻 ,给定 ,相应的输出是
[0043] 公式(1)
[0044] 是服从均值为0,方差为 的高斯概率分布的高斯噪声,即 。定义如下形式的训练集 ,其中 是输入数据集合,
是聚合了输出的列向量。高斯过程回归目标是利用训练集 在测试数据集合
上逼近函数 。
[0045] 定义对称正半定的核函数 ,即 ,其中 ,是测度。让 返回一个列向量,使得它的第 个元素等于 。假
设函数 是来自高斯过程先验概率分布的一个采样,这个先验分布的均值函数为 ,核函数是 。那么训练输出和测试输出 服从联合概率分布
[0046] 公式(2)
[0047] 其中 和 返回由 和 组成的向量, 返回一个矩阵使得第 行第 列的元素是 。
[0048] 利用高斯过程的性质,高斯过程回归利用训练集 预测测试数据集 的输出。这个输出 服从正态分布,即 ,这里
[0049] 公式(3)
[0050] 在分布式机器学习中,考虑一个网络中有 个工作机。定义这个集合为 。在每一个时刻 ,每一个工作机 利用局部的训练数据 来预测函数对
于测试输入 的输出。 、 每一个工作机训练的局
部预测值为
[0051] 公式(4)
[0052] 如果在联邦学习框架下,每一个工作机都会将训练好的局部预测 , 发送给服务器。
[0053] 以下为分布式训练和融合的具体步骤:
[0054] (1)基于对训练集投影构造训练子集,定义两个训练数据点 和 的距离为,数据点 到集合 的距离为 。定义数据点 到集合 的投影集合为 。
[0055] 考虑每一个工作机 及其局部训练数据集 ,针对一个测试数据 ,计算测试数据 到训练集 的投影,标注为:
[0056] 公式(5)
[0057] 在每一个时刻 ,这个局部投影集合 包含有 个投影数据,即 。
[0058] 对每一个工作机 及其投影集合 ,取出每一个投影点,标注为 。这里下标 表示第 个投影点。然后针对每一个投影点 ,找出它的一个邻域 使得并且针对 , , 。这里需要注意,邻域的个数是可调
的,可以实现选取固定。
[0059] 对每一个工作机 ,构造新的训练集合 。
[0060] (2)选择核函数,在实际应用中,一般选择核函数:
[0061] 公式(6)
[0062] (3)针对每一个工作机 ,在新的训练集 上计算高斯后验概率分布,即:
[0063] 公式(7)
[0064] 在训练子集 ,利用公式(7)得到局部预测 和 ,然后将此局部预测发送给服务器,里可以证明,局部预测误差小于一个上界,我们定义为,即针对测试输入,有如下不等式成立
[0065] 公式(8)
[0066] (4)服务器利用rBCM聚合算法对局部预测值进行聚合,给出全局预测期望和方差:
[0067] 公式(9)
[0068] 其中, 是一个不确定性的修正项,此不确定性修正项可以使得全局期望方差更小。因为利用rBCM算法得到的全局预测期望具有一致性,即当训练数据足够大的时候,全局预测期望 可以逼近函数 。因此,逼近误差如下所示:
[0069] 公式(10)
[0070] (5)服务器将全局预测期望 和方差 发送给各个工作机,根据全局预测方差 和局部预测方差 ,对每一个工作机设计融合算法,使得融合
后的预测期望更加逼近目标函数 的真实值。构造一个具有小不确定性的测试数据 的集合如下:
[0071] 公式(11)
[0072] 如果这个集合不是空集,来自服务器的全局预测 和 将被使用;如果这个集合为空集,来自工作机的局部预测 和 将会被使用。由于rBCM算法得到的全局预测方差更小,使得在工作机融合算法中,对比全局预测方差和局部预测方差时,全局预测方差更能占据主导优势。如果局部方差比较大,则利用全局预测期望和方差进行替换,使得工作机的局部预测显著得到改善。另一方面,通过对比公式(8)和公式(10)的上界,当全局预测方差足够小,使得置信区间变得更窄从而体现出逼近误差更小。
[0073] 本发明的实施例的第二个方面,提出了一种提高工作机学习性能的装置。图2示出的是本发明提供的一种提高工作机学习性能的装置的实施例的示意图。如图2所示,本发明提供的一种提高工作机学习性能的装置包括:第一模块011,配置用于建立每个工作机对应的局部训练数据集,并通过高斯过程回归算法对所述局部训练数据集进行训练,以得到每个工作机对应的局部预测模型;第二模块012,配置用于通过服务器对所述每个工作机对应的局部预测模型的数据设置不确定性的修正项并基于rBCM聚合算法进行聚合,得到全局预测模型;以及第三模块013,配置用于将所述全局预测模型发送给所述每个工作机,并对所述每个工作机设置融合算法以及一个不确定性测试数据集合进行融合,以得到所述每个工作机对应的预测误差最小模型。
[0074] 第一模块011进一步配置用于:建立目标函数和每个工作机对应的局部训练数据集,并通过所述局部训练数据集构建测试数据集;通过高斯过程回归算法使所述局部训练数据集在所述测试数据集上逼近所述目标函数,以得到所述每个工作机对应的局部预测模型。
[0075] 第一模块011进一步配置用于:计算每一个测试数据到所述局部训练数据集的投影,得到局部投影集合;基于所述局部投影集合中的每个投影点对应的邻域构建测试数据集。
[0076] 第一模块011进一步配置用于:对所述每个工作机在所述测试数据集上计算高斯后验概率分布,得到所述每个工作机对应的局部预测的期望和方差;通过所述每个工作机对应的局部预测的期望和方差建立局部预测模型。
[0077] 第一模块011进一步配置用于:选择与计算高斯后验概率相匹配的核函数,并基于所述核函数对所述每个工作机在所述测试数据集上计算高斯后验概率分布,得到所述每个工作机对应的局部预测的期望和方差。
[0078] 第二模块012进一步配置用于:通过服务器对所述每个工作机对应的局部预测的期望和方差设置不确定性的修正项;基于所述不确定性的修正项和rBCM聚合算法对所述每个工作机对应的局部预测的期望和方差进行聚合,得到全局预测模型。
[0079] 基于以上目的,本发明实施例的第三个方面,提出了一种计算机设备,图3示出的是本发明提供的一种计算机设备的实施例的示意图。如图3所示,本发明提供的一种计算机设备的实施例,包括以下模块:至少一个处理器021;以及存储器022,存储器022存储有可在处理器021上运行的计算机指令023,该计算机指令023由处理器021执行时实现如上所述的方法的步骤。
[0080] 本发明还提供了一种计算机可读存储介质。图4示出的是本发明提供的一种计算机可读存储介质的实施例的示意图。如图4所示,计算机可读存储介质031存储有被处理器执行时执行如上方法的计算机程序032。
[0081] 最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,设置系统参数的方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
[0082] 此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
[0083] 此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
[0084] 本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
[0085] 在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD‑ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、D0L或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
[0086] 以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
[0087] 应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
[0088] 上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
[0089] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0090] 所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。