数据处理的方法、电子设备和计算机程序产品转让专利

申请号 : CN202110839222.2

文献号 : CN115700547A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王子嘉倪嘉呈杨文彬贾真

申请人 : 伊姆西IP控股有限责任公司

摘要 :

本公开的实施例提供了一种数据处理的方法、电子设备和计算机程序产品。在此描述的方法包括确定表征数据集中样本的第一组特征向量。方法还包括通过对第一组特征向量执行第一变换来生成第二组特征向量,第二组特征向量在特征空间中的分布偏度小于第一组特征向量。方法还包括通过对第二组特征向量执行第二变换来生成第三组特征向量,第三组特征向量和第二组特征向量具有不同的向量间距离。方法还包括基于第三组特征向量在特征空间中的分布,从样本中选择作为代表的目标样本。利用本申请的数据处理的方案,能够从数据集的样本中选择具有代表性的、数量更少的目标样本以用于训练,从而提高训练的效率。

权利要求 :

1.一种数据处理的方法,包括:

确定表征数据集中样本的第一组特征向量;

通过对所述第一组特征向量执行第一变换来生成第二组特征向量,所述第二组特征向量在特征空间中的分布偏度小于所述第一组特征向量;

通过对所述第二组特征向量执行第二变换来生成第三组特征向量,所述第三组特征向量和所述第二组特征向量具有不同的向量间距离;以及基于所述第三组特征向量在特征空间中的分布,从所述样本中选择作为代表的目标样本。

2.根据权利要求1所述的方法,其中执行第一变换包括:降低所述第一组特征向量中与所述数据集中同一类别的样本相关联的特征向量在所述特征空间中的分布偏度。

3.根据权利要求1所述的方法,其中所述第一变换包括:求幂变换;或

对数变换。

4.根据权利要求1所述的方法,其中执行第二变换包括以下至少一项:减小所述第二组特征向量中与所述数据集中同一类别的样本相关联的特征向量之间的距离;以及增加所述第二组特征向量中与所述数据集中不同类别的样本相关联的特征向量之间的距离。

5.根据权利要求1所述的方法,其中执行第二变换包括:通过使基于所述第二组特征向量、权重矩阵以及所述样本的类别的损失函数最小化,确定所述权重矩阵;以及确定所述第二组特征向量与所确定的所述权重矩阵的乘积,以作为所述第三组特征向量。

6.根据权利要求1所述的方法,其中基于第三组特征向量在特征空间中的分布选择目标样本包括:确定所述第三组特征向量中与所述数据集中第一类别的样本相关联的特征向量的均值;

基于所述均值,从与所述第一类别的样本相关联的特征向量采样目标特征向量;以及将与所述目标特征向量关联的样本确定为代表所述第一类别的样本的目标样本。

7.根据权利要求6所述的方法,其中基于所述均值采样目标特征向量包括:利用无迹卡尔曼滤波算法,基于所述均值采样所述目标特征向量。

8.根据权利要求7所述的方法,还包括:基于所述目标特征向量,确定所述第三组特征向量中与所述数据集中第一类别的样本相关联的特征向量的估计分布;

基于所述估计分布,确定附加目标特征向量;以及基于所述附加目标特征向量,确定用于代表所述第一类别的样本的附加目标样本。

9.一种电子设备,包括:

处理器;以及

与所述处理器耦合的存储器,所述存储器具有存储于其中的指令,所述指令在被处理器执行时使所述设备执行动作,所述动作包括:确定表征数据集中样本的第一组特征向量;

通过对所述第一组特征向量执行第一变换来生成第二组特征向量,所述第二组特征向量在特征空间中的分布偏度小于所述第一组特征向量;

通过对所述第二组特征向量执行第二变换来生成第三组特征向量,所述第三组特征向量和所述第二组特征向量具有不同的向量间距离;以及基于所述第三组特征向量在特征空间中的分布,从所述样本中选择作为代表的目标样本。

10.根据权利要求9所述的设备,其中执行第一变换包括:降低所述第一组特征向量中与所述数据集中同一类别的样本相关联的特征向量在所述特征空间中的分布偏度。

11.根据权利要求9所述的设备,其中所述第一变换包括:求幂变换;或

对数变换。

12.根据权利要求9所述的设备,其中执行第二变换包括以下至少一项:减小所述第二组特征向量中与所述数据集中同一类别的样本相关联的特征向量之间的距离;以及增加所述第二组特征向量中与所述数据集中不同类别的样本相关联的特征向量之间的距离。

13.根据权利要求9所述的设备,其中执行第二变换包括:通过使基于所述第二组特征向量、权重矩阵以及所述样本的类别的损失函数最小化,确定所述权重矩阵;以及确定所述第二组特征向量与所确定的所述权重矩阵的乘积,以作为所述第三组特征向量。

14.根据权利要求9所述的设备,其中基于第三组特征向量在特征空间中的分布选择目标样本包括:确定所述第三组特征向量中与所述数据集中第一类别的样本相关联的特征向量的均值;

基于所述均值,从与所述第一类别的样本相关联的特征向量采样目标特征向量;以及将与所述目标特征向量关联的样本确定为代表所述第一类别的样本的目标样本。

15.根据权利要求14所述的设备,其中基于所述均值采样目标特征向量包括:利用无迹卡尔曼滤波算法,基于所述均值采样所述目标特征向量。

16.根据权利要求15所述的设备,所述动作还包括:基于所述目标特征向量,确定所述第三组特征向量中与所述数据集中第一类别的样本相关联的特征向量的估计分布;

基于所述估计分布,确定附加目标特征向量;以及基于所述附加目标特征向量,确定用于代表所述第一类别的样本的附加目标样本。

17.一种计算机程序产品,所述计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行根据权利要求1至8中任一项所述的方法。

说明书 :

数据处理的方法、电子设备和计算机程序产品

技术领域

[0001] 本公开的实施例涉及数据处理领域,并且具体地,涉及用于数据处理的方法、电子设备和计算机程序产品。

背景技术

[0002] 机器学习模型需要使用大量数据来进行训练。非常大的数据集在训练时可能会消耗大量的计算资源。并且,标注大量数据也将消耗大量劳动力。因此,需要能够蒸馏(distill)数据集以利用经蒸馏的小型数据集来训练机器学习模型的方法,从而减少资源消耗并提高训练效率。

发明内容

[0003] 在本公开的第一方面,提供了一种数据处理的方法。该方法包括确定表征数据集中样本的第一组特征向量。方法还包括通过对第一组特征向量执行第一变换来生成第二组特征向量,第二组特征向量在特征空间中的分布偏度小于第一组特征向量。方法还包括通过对第二组特征向量执行第二变换来生成第三组特征向量,第三组特征向量和第二组特征向量具有不同的向量间距离。方法还包括基于第三组特征向量在特征空间中的分布,从样本中选择作为代表的目标样本。
[0004] 在本公开的第二方面,提供了一种电子设备。该电子设备包括处理器以及与处理器耦合的存储器,存储器具有存储于其中的指令,指令在被处理器执行时使设备执行动作。动作包括确定表征数据集中样本的第一组特征向量。动作还包括通过对第一组特征向量执行第一变换来生成第二组特征向量,第二组特征向量在特征空间中的分布偏度小于第一组特征向量。动作还包括通过对第二组特征向量执行第二变换来生成第三组特征向量,第三组特征向量和第二组特征向量具有不同的向量间距离。动作还包括基于第三组特征向量在特征空间中的分布,从样本中选择作为代表的目标样本。
[0005] 在本公开的第三方面中,提供了一种计算机程序产品,计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令,机器可执行指令在被执行时使机器执行根据第一方面的方法。
[0006] 在本公开的实施例中,利用本申请的数据处理的方案,能够从数据集的样本中选择具有代表性的目标样本以用于训练,从而提高训练的效率。
[0007] 提供发明内容部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的实施例的关键特征或主要特征,也无意限制本公开的范围。

附图说明

[0008] 通过结合附图对本公开的示例性实施例进行更详细的描述,本公开的实施例的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开的示例性实施例中,相同的参考标号通常代表相同部件。
[0009] 图1示出了本公开的实施例能够在其中被实现的环境的示意图;
[0010] 图2示出了根据本公开的一些实施例的用于数据处理的系统架构图;
[0011] 图3示出了根据本公开的一些实施例的势能与向量间距离的关系的示意图;
[0012] 图4示出了根据本公开的一些实施例的数据处理的示例方法的流程图;以及[0013] 图5示出了可以用来实施本公开的实施例的示例计算设备的框图。

具体实施方式

[0014] 下面将参考附图中示出的若干示例实施例来描述本公开的实施例的原理。虽然附图中显示了本公开的优选实施例,但应当理解,描述这些实施例仅是为了使本领域技术人员能够更好地理解进而实现本公开的实施例,而并非以任何方式限制本公开的范围。
[0015] 在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一些实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0016] 如上文所提及的,需要能够蒸馏数据集以利用经蒸馏的小型数据集来训练机器学习模型的方法。常规的蒸馏数据集的方法是计算密集型的并且可解释性较差。
[0017] 本公开的实施例提出了一种数据处理的方案。在该方案中,确定表征数据集中样本的第一组特征向量。方案还包括通过对第一组特征向量执行第一变换来生成第二组特征向量,第二组特征向量在特征空间中的分布偏度小于第一组特征向量。方案还包括通过对第二组特征向量执行第二变换来生成第三组特征向量,第三组特征向量和第二组特征向量具有不同的向量间距离。方案还包括基于第三组特征向量在特征空间中的分布,从样本中选择作为代表的目标样本。以此方式,能够从数据集的样本中选择具有代表性的目标样本以用于训练,从而提高训练的效率。
[0018] 以下参考图1至图5来说明本公开的基本原理和若干示例实施例。应当理解,给出这些示例性实施例仅是为了使本领域技术人员能够更好地理解进而实现本公开的实施例,而并非以任何方式限制本公开的范围。
[0019] 图1示出了本公开的实施例能够在其中被实现的环境100。如图1所示,环境100包括计算设备110、数据集中的样本120和目标样本140。计算设备110中部署有数据处理模块130。计算设备110包括通用计算设备形式的任何计算设备。在一些实现中,计算设备110可以被实现为具有计算能力的各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端,包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。
[0020] 计算设备110的组件可以包括但不限于一个或多个处理器或处理单元、存储器、存储设备、一个或多个通信单元、一个或多个输入设备以及一个或多个输出设备。这些组件可以被集成在单个设备上,也可以以云计算架构的形式被设置。在云计算架构中,这些部件可以被远程布置,并且可以一起工作以实现本公开所描述的功能。在一些实现中,云计算提供计算、软件、数据访问和存储服务,它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实现中,云计算使用适当的协议通过广域网(诸如因特网)提供服务。例如,云计算提供商通过广域网提供应用,并且它们可以通过web浏览器或任何其他计算组件被访问。云计算架构的软件或组件以及相应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并或者它们可以被分散。云计算基础设施可以通过共享数据中心提供服务,即使它们表现为针对用户的单一访问点。因此,可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。
备选地,它们也可以从常规服务器被提供,或者它们可以直接或以其他方式被安装在客户端设备上。
[0021] 计算设备110可以利用数据处理模块130来实施根据本公开的实施例的数据处理方法。如图1所示,计算设备110接收样本120。计算设备110可以通过其输入设备从其他计算设备或存储设备接收样本120。样本120可以是用于训练的数据集中的样本。样本120可以是多种形式的,例如图片、音频、视频、数值等。数据集中还可以包括样本120对应的标签。标签的示例可以包括图片的类别、音频的说话人标识等。计算设备110可以利用数据处理模块130来从样本120中选择目标样本140。目标样本140的数目小于样本120的数目。目标样本
140可以是作为样本120的代表的样本。目标样本140可以代替样本120用于训练,以实现在降低训练数据量的同时保证较高的训练准确性,从而提高训练效率。由于具有代表大型数据集中的样本120的特性,目标样本140可以用于小样本学习(few‑shot learning)、少于一次学习(less than one‑shot learning)等。利用数据处理模块130来选择目标样本140的细节将在下文参考图2‑4来描述。
[0022] 应当理解,图1所示出的环境100仅仅是示例性的,而不应当构成对本公开所描述的实现的功能和范围的任何限制。例如,计算设备110也可以从与其集成在一起的存储设备接收样本120。
[0023] 图2示出了根据本公开的实现的用于数据处理的系统200的架构图。系统200可以被实现在图1的计算设备110中。如图2所示,系统200可以包括预训练模型210、第一变换模块220、第二变换模块230、采样模块240和目标样本选择模块250。
[0024] 预训练模型210接收数据集中的样本120并确定表征样本120的第一组特征向量260。图2示出了样本120为图片的示例。样本120可以包括多个图片,例如数十万至百万个图片。预训练模型210可以是任何合适的预训练模型,本公开的范围在此方面不受限制。预训练模型210用于从样本120确定表征样本120的第一组特征向量260。每个样本具有对应的一个特征向量。例如,预训练模型210可以是深度神经网络模型、卷积神经网络模型等。
[0025] 第一组特征向量260在特征空间中具有分布。图2示出了第一组特征向量260的分布的示例。应理解,图2所示出的二维分布仅是示意性的。特征空间中的实际分布取决于第一组特征向量260的维度。第一组特征向量260的分布可以与样本的类别有关。如图2所示,第一组特征向量260的分布可以根据样本120的类别(例如,两个类别)被划分为(例如,两个)相对分离的分布。应理解的是,取决于预训练模型210的性能,第一组特征向量260的分布可以不示出为完全分离的独立分布。
[0026] 第一变换模块220通过对第一组特征向量260执行第一变换来生成第二组特征向量270。第二组特征向量270在特征空间中的分布偏度小于第一组特征向量260。如图2所示,第一组特征向量260是在特征空间中的分布可能是不规则的。可以利用分布偏度(skewness)来表征分布的规则性。第一变换模块220通过对第一组特征向量260执行第一变换来降低第一组特征向量260的分布偏度。在一些实施例中,第一变换模块220可以降低第一组特征向量260中与数据集中同一类别的样本120相关联的特征向量在特征空间中的分布偏度。换句话说,第一变换模块220可以降低每个类别的样本的分布的偏度。
[0027] 第一变换可以是能够降低特征向量的分布偏度的任何合适的变换。在一些实施例中,第一变换可以是求幂变换或对数变换。例如,可以根据公式(1)所描述的图基幂阶变换来对第一组特征向量260执行第一变换。
[0028]
[0029] 其中λ是超参数,λ用于控制第一变换的实现方式。λ越小,分布的正偏度越小(less positively skewed)。反之,λ越大,分布的正偏度越大。λ为1时,第一组特征向量260保持原有的分布偏度。
[0030] 如图2所示,经过第一变换所确定的第二组特征向量270相比第一组特征向量270具有更小的分布偏度,也即,第二组特征向量270的分布更规则。例如,第二组特征向量270的分布可以是更规则的类高斯分布(Gaussian‑like distribution)。
[0031] 第二变换模块230通过对第二组特征向量270执行第二变换来生成第三组特征向量280。第三组特征向量280和第二组特征向量270具有不同的向量间距离。向量间距离可以是向量之间的欧式距离。向量间距离也可以是向量之间的曼哈顿距离。
[0032] 在一些实施例中,执行第二变换包括减小第二组特征向量270中与数据集中同一类别的样本120相关联的特征向量之间的距离。换句话说,第二变换模块230可以通过执行第二变换来减小同一类别的样本的特征向量之间的距离。例如,对于类高斯分布的第二组特征向量270,执行第二变换可以减小分布的方差。备选地或附加地,执行第二变换包括增加第二组特征向量270中与数据集中不同类别的样本120相关联的特征向量之间的距离。换句话说,第二变换模块230可以通过执行第二变换来增加不同类别的样本的特征向量之间的距离。例如,对于类高斯分布的第二组特征向量270,执行第二变换可以增加第一类别的样本的特征向量的第一均值与第二类别的样本的特征向量的第二均值之间的距离。
[0033] 第二变换可以是能够调节特征向量之间的距离的任何合适的变换。在一些实施例中,可以基于用于调节分子间距离的势能最小化方法来调节第二组特征向量270之间的距离。例如,可以利用公式(2)来表征势能与两个特征向量之间的距离的关系。
[0034]
[0035] 其中E表示势能,r表示特征向量之间的距离。图3示出了公式(2)描述的势能与向量间距离的关系的示意图。如图3所示,当向量间距离为r0时,势能E最小。因此,两个向量之间的距离r0可以称为最优距离。
[0036] 在一些实施例中,可以利用公式(3)来确定第二组特征向量270之间的最优距离。
[0037]
[0038] 其中L是损失函数,N是样本120的数目,dij=dis(WTfi,WTfj)表示向量WTfi与向量WTfj之间的距离,dis()表示计算向量WTfi与向量WTfj之间距离的函数,例如用于计算欧式距离的函数。WT是用于对第二组特征向量270执行第二变换的权重矩阵,并且WT是可学习的参数。λ是超参数(不同于公式(1)中的λ)。λ可以取决于样本的类别。对于同一类别的样本i和样本j,可以设置较大的λ(例如,10)。相反,对于不同类别的样本i和样本j,可以设置较小的λ(例如,1)。
[0039] 继续参考图2,第二变换模块230可以通过使基于第二组特征向量270、权重矩阵WT以及样本120的类别的损失函数L最小化,确定权重矩阵WT的值。第二变换模块230可以确定第二组特征向量270与所确定的权重矩阵WT的乘积,以作为第三组特征向量280。如上所述,第三组特征向量280和第二组特征向量270具有不同的向量间距离。相比第二组特征向量270,第三组特征向量280中同一类别的特征向量之间的距离可以更小,并且第三组特征向量280中不同类别的特征向量之间的距离可以更大。如图2所示,相比第二组特征向量270,第三组特征向量280中与同一类别的样本相关联的特征向量的类高斯分布的方差减小,并且第一类别的样本的特征向量的第一均值与第二类别的样本的特征向量的第二均值之间的距离增加。
[0040] 基于所确定的第三组特征向量280,采样模块240可以从第三组特征向量280中选择目标特征向量290。与目标特征向量290对应的目标样本140可以用于代表样本120。采样模块240可以基于第三组特征向量280的分布来采样目标特征向量290。目标特征向量290可以包括至少一个特征向量。采样模块240可以选择位于第三组特征向量280的分布的中心的特征向量作为目标特征向量290。备选地或附加地,采样模块240可以选择位于第三组特征向量280的分布的边缘的特征向量作为目标特征向量290。图2中以小圆圈示出了目标特征向量290的示例。如图2所示,目标特征向量290可以位于分布的中心或边缘。
[0041] 在一些实施例中,采样模块240可以确定第三组特征向量280中与数据集中第一类别的样本120相关联的特征向量的均值。基于均值,采样模块240可以从与第一类别的样本相关联的特征向量采样目标特征向量290。采样模块240可以选择第三组特征向量280中与均值距离最近的特征向量作为目标特征向量290中的中心特征向量。采样模块240可以计算第三组特征向量280中与中心特征向量距离最远的特征向量作为目标特征向量290中的边缘特征向量。
[0042] 备选地或附加地,采样模块240可以利用无迹卡尔曼滤波(UKF)算法来基于均值采样目标特征向量290。针对每个类别的样本,可以分别参考公式(4)来采样目标特征向量290。
[0043]
[0044] 其中 表示所采样的目标特征向量290,μ表示针对第三组特征向量280中与一个类别的样本相关联的特征向量的均值。 表示方差矩阵,Vi表示方差矩阵的第i列。n表示特征向量的维度。λ是可预设的缩放参数((不同于公式(1)和(2)中的λ)),表示采样点与分布的中心的距离。∑是第三组特征向量280的协方差矩阵。
[0045] 基于目标特征向量290,目标样本选择模块250可以将与目标特征向量290关联的样本确定为代表样本120的目标样本140。具体地,目标样本选择模块250可以针对每个类别将与目标特征向量290关联的样本确定为代表相应类别的样本120的目标样本140。如图2所示,目标样本选择模块250可以从样本120中选择目标样本140(以大圆圈示出)。
[0046] 备选地或附加地,采样模块240可以基于目标特征向量290,确定第三组特征向量280的估计分布。具体地,采样模块240可以基于针对每个类别的目标特征向量290,确定第三组特征向量280中与相应类别的样本相关联的特征向量的估计分布。估计分布可以用数学表达式来表征。例如,对于类高斯分布,估计分布可以用均值和方差来表征。基于估计分布的数学表达式,采样模块240可以确定附加目标特征向量。附加目标特征向量可以不与第三组特征向量280中的任何特征向量相同,但是可以代表第三组特征向量280。可以利用附加的神经网络模块来基于附加目标特征向量生成附加样本。附加样本可以用于代表样本
120。
[0047] 图4示出了根据本公开的一些实施例的数据处理的示例方法400的流程图。方法400例如可以在如图1所示的环境100中实现。应当理解,方法400还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
[0048] 在框410处,确定表征数据集中样本120的第一组特征向量。可以利用预训练模型210来确定第一组特征向量260。
[0049] 在框420处,通过对第一组特征向量260执行第一变换来生成第二组特征向量270,第二组特征向量270在特征空间中的分布偏度小于第一组特征向量260。在一些实施例中,执行第一变换包括降低第一组特征向量260中与数据集中同一类别的样本相关联的特征向量在特征空间中的分布偏度。在一些实施例中,第一变换包括求幂变换或对数变换。
[0050] 在框430处,通过对第二组特征向量270执行第二变换来生成第三组特征向量280,第三组特征向量280和第二组特征向量270具有不同的向量间距离。在一些实施例中,执行第二变换包括以下至少一项:减小第二组特征向量270中与数据集中同一类别的样本相关联的特征向量之间的距离;以及增加第二组特征向量270中与数据集中不同类别的样本相关联的特征向量之间的距离。在一些实施例中,执行第二变换包括:通过使基于第二组特征向量270、权重矩阵以及样本的类别的损失函数最小化,确定权重矩阵;以及确定第二组特征向量270与所确定的权重矩阵的乘积,以作为第三组特征向量280。
[0051] 在框440处,基于第三组特征向量280在特征空间中的分布,从样本中选择作为代表的目标样本140。在一些实施例中,基于第三组特征向量280在特征空间中的分布选择目标样本140包括:确定第三组特征向量280中与数据集中第一类别的样本相关联的特征向量的均值;基于均值,从与第一类别的样本相关联的特征向量采样目标特征向量290;以及将与目标特征向量关联的样本确定为代表第一类别的样本的目标样本140。在一些实施例中,基于均值采样目标特征向量290包括:利用无迹卡尔曼滤波算法,基于均值采样目标特征向量290。
[0052] 在一些实施例中,方法还包括基于目标特征向量,确定第三组特征向量280中与数据集中第一类别的样本相关联的特征向量的估计分布;基于估计分布,确定附加目标特征向量;以及基于附加目标特征向量,确定用于代表第一类别的样本的附加目标样本。
[0053] 以此方式,能够从数据集的样本120中选择具有代表性的数量更少的目标样本140以用于训练,从而降低资源消耗以提高训练的效率。此外,目标样本140由于具有代表大型数据集中的样本120的特性,可以用于迁移学习、小样本学习和少于一次学习等。
[0054] 图5示出了可以用来实施本公开内容的实施例的示例设备500的示意性框图。例如,设备500可以在如图1所示的环境100处实现。如图5所示,设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。
在RAM 503中,还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 
503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
[0055] 设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0056] 上文所描述的各个过程和处理,例如方法400,可由处理单元501执行。例如,在一些实施例中,方法400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序被加载到RAM 503并由CPU 501执行时,可以执行上文描述的方法400的一个或多个动作。
[0057] 本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
[0058] 计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、SRAM、便携式压缩盘只读存储器(CD‑ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0059] 这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0060] 用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言‑诸如Smalltalk、C++等,以及常规的过程式编程语言‑诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络‑包括局域网(LAN)或广域网(WAN)‑连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
[0061] 这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0062] 这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0063] 也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0064] 附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0065] 以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。