数据处理方法及其装置、电子设备以及计算机可读介质转让专利

申请号 : CN201911087621.7

文献号 : CN110837525B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 何源张钧波郑宇

申请人 : 北京京东智能城市大数据研究院

摘要 :

本公开提供了一种数据处理方法,包括:获取目标数据,所述目标数据包括多维度数据,且所述目标数据的每个维度与一个特征的特征值相对应,所述特征值为连续值;获取预定的第一分类树,所述第一分类树的每个叶子节点对应一个离散的特征值;向所述第一分类树输入所述目标数据,以便确定所述目标数据所划分到的第一叶子节点;以及至少将与所述第一叶子节点对应的离散的特征值作为所述目标数据的第一离散化结果。本公开还提供了一种数据处理装置、一种电子设备和一种计算机可读存储介质。

权利要求 :

1.一种数据处理方法,包括:

获取目标数据,所述目标数据包括多维度数据,且所述目标数据的每个维度与一个特征的特征值相对应,所述特征值为连续值,所述目标数据是关于用户的数据,所述维度是所述用户的属性;

获取预定的第一分类树,所述第一分类树的每个叶子节点对应一个离散的特征值;

向所述第一分类树输入所述目标数据,以便确定所述目标数据所划分到的第一叶子节点;

至少将与所述第一叶子节点对应的离散的特征值作为所述目标数据的第一离散化结果;

获取样本集,所述样本集中包括多个样本数据,每个样本数据都与所述目标数据具有相同的数据结构;

获取预定的至少一个第二分类树,每个第二分类树的每个叶子节点对应一个离散的特征值;

向所述每个第二分类树输入所述目标数据,从而确定所述目标数据所划分到的所有的第二叶子节点;以及将与每个所述第二叶子节点对应的离散的特征值以及与所述第一叶子节点对应的离散的特征值作为所述目标数据的第二离散化结果,其中,所述方法还包括:

执行第三方法体,以构建所述至少一个第二分类树中的第一个第二分类树;

迭代执行第四方法体,以构建所述至少一个第二分类树中的其他第二分类树;

其中,所述第三方法体包括以下操作:

向所述第一分类树输入所述样本集中的所有的样本数据,从而确定每个样本数据所划分到的第二叶子节点;

根据划分结果计算所述每个样本数据的第一标签值;

基于计算得到的所述每个样本数据的第一标签值,调用并执行用于构建所述第一分类树的方法体,以构建所述第一个第二分类树。

2.根据权利要求1所述的方法,其中,所述方法还包括:执行第一方法体,以确定所述第一分类树的根节点;

迭代执行第二方法体,以确定所述第一分类树的除所述根节点之外的其他节点;

其中,所述第一方法体包括以下操作:

逐维度地遍历所述样本集中所有样本数据的特征值,以确定每个维度的特征值的分裂点;

基于确定的各个维度的特征值的分裂点,确定所述第一分类树的根节点;

基于所述根节点将所述样本集划分为两个子样本集;

其中,所述第二方法体包括以下操作:

逐维度地遍历所述子样本集中所有样本数据的特征值,以确定每个预定维度的特征值的分裂点;

基于确定的各个预定维度的特征值的分裂点,确定所述第一分类树的对应深度的子节点;以及基于所述对应深度的子节点将所述子样本集划分为两个子样本集。

3.根据权利要求2所述的方法,其中,在所述第一方法体中,所述基于确定的各个维度的特征值的分裂点,确定所述第一分类树的根节点包括:针对每个维度的特征值的分裂点,计算总样本的基尼系数,得到多个基尼系数;

将与所述多个基尼系数中的最小基尼系数对应的维度的特征以及对应的特征值的分裂点作为所述根节点的分类依据。

4.根据权利要求2所述的方法,其中,在所述第二方法体中,所述逐维度地遍历所述子样本集中所有样本数据的特征值,以确定每个预定维度的特征值的分裂点,包括:在满足预定条件的情况下,执行所述逐维度地遍历所述子样本集中所有样本数据的特征值,以确定每个预定维度的特征值的分裂点的操作,其中,所述预定条件包括:当前得到的分类树的深度小于第一预设值,和/或所述子样本集中的样本数据的数量大于第二预设值。

5.根据权利要求1所述的方法,其中,所述第四方法体包括以下操作:向第(N-1)个第二分类树输入所述样本集中的所有的样本数据,从而确定每个样本数据所划分到的第三叶子节点;

根据划分结果计算所述每个样本数据的第二标签值;

基于计算得到的所述每个样本数据的第二标签值,调用并执行用于构建所述第(N-1)个第二分类树的方法体,以构建第N个第二分类树,其中,N≥2且N为整数。

6.根据权利要求1所述的方法,其中,所述方法还包括:确定从所述第一分类树的根节点到所述第一叶子节点之间的路径;以及根据所述路径确定与所述第一离散化结果对应的组合特征。

7.一种数据处理装置,包括:

第一获取单元,被配置为获取目标数据,所述目标数据包括多维度数据,且所述目标数据的每个维度对应一个特征的特征值,所述特征值为连续值,所述目标数据是关于用户的数据,所述维度是所述用户的属性;

第二获取单元,被配置为获取预定的第一分类树,所述第一分类树的每个叶子节点对应一个离散的特征值;

第一确定单元,被配置为向所述第一分类树输入所述目标数据,从而确定所述目标数据所划分到的第一叶子节点;

第三获取单元,被配置为至少将与所述第一叶子节点对应的离散的特征值作为所述目标数据的第一离散化结果;

第四获取单元,被配置为获取样本集,所述样本集中包括多个样本数据,每个样本数据都与所述目标数据具有相同的数据结构;

第五获取单元,被配置为获取预定的至少一个第二分类树,每个第二分类树的每个叶子节点对应一个离散的特征值;

第二确定单元,被配置为向所述每个第二分类树输入所述目标数据,从而确定所述目标数据所划分到的所有的第二叶子节点;以及第六获取单元,被配置为将与每个所述第二叶子节点对应的离散的特征值以及与所述第一叶子节点对应的离散的特征值作为所述目标数据的第二离散化结果,其中,所述数据处理装置还包括:第一执行单元,被配置为执行第三方法体,以构建所述至少一个第二分类树中的第一个第二分类树;

第二执行单元,被配置为迭代执行第四方法体,以构建所述至少一个第二分类树中的其他第二分类树;

其中,所述第三方法体包括以下操作:

向所述第一分类树输入所述样本集中的所有的样本数据,从而确定每个样本数据所划分到的第二叶子节点;

根据划分结果计算所述每个样本数据的第一标签值;

基于计算得到的所述每个样本数据的第一标签值,调用并执行用于构建所述第一分类树的方法体,以构建所述第一个第二分类树。

8.一种电子设备,包括:

一个或多个处理器;

存储装置,用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现根据权利要求1~6中任一项所述的方法。

9.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时实现根据权利要求1~6中任一项所述的方法。

说明书 :

数据处理方法及其装置、电子设备以及计算机可读介质

技术领域

[0001] 本公开涉及计算机技术领域,更具体地,涉及一种数据处理方法、一种数据处理装置、一种电子设备以及一种计算机可读介质。

背景技术

[0002] 随着通信和计算机技术的快速发展,在各种应用领域的信息化过程中产生了海量数据,迫切需要将这些数据转换成有价值的信息和知识,这使得数据挖掘技术受到了越来越多的关注。数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取其中隐含的且人们事先不知道的但又潜在有用的信息和知识的过程。例如,根据用户的年龄、性别、以往交易历史等数据,可以分析出用户的交易风险,或者可以分析出用户的偏好以向其推荐感兴趣的商品。
[0003] 数据挖掘的一个重要步骤是对数据进行预处理,将杂乱的数据转为可以进行建模的数据,从而便于得到数据背后隐含的信息。现实世界的大部分数据具有连续值,如用户年龄、每月消费金额、通话时长等。由于具有连续值的数据之间重复少,通常存在计算量大、计算时间长、浪费计算资源等一系列问题,因此,需要在预处理中将这些连续值离散化。现阶段对具有连续值的数据的处理方法为数据分箱(binning)。
[0004] 在实现本公开构思的过程中,发明人发现在现有技术中至少存在如下问题。首先现有分箱方法仅能分析单维特征以寻找该特征的离散划分方法,不能考虑多特征数据的多个特征之间的相互关系。另外,现有分箱方法需要找到恰当的多个固定数量的分割点,但当分箱数过多或者数据分布密度的偏差性明显时,这通常是极为困难的,因此难以准确地离散化连续数据。

发明内容

[0005] 有鉴于此,本公开提供了能够更准确地对具有连续特征值的多维度数据进行离散化的数据处理方法、数据处理装置、电子设备以及计算机可读介质。
[0006] 本公开的一个方面提供了一种数据处理方法,包括:获取目标数据,所述目标数据包括多维度数据,且所述目标数据的每个维度与一个特征的特征值相对应,所述特征值为连续值;获取预定的第一分类树,所述第一分类树的每个叶子节点对应一个离散的特征值;向所述第一分类树输入所述目标数据,以便确定所述目标数据所划分到的第一叶子节点;
以及至少将与所述第一叶子节点对应的离散的特征值作为所述目标数据的第一离散化结果。
[0007] 根据本公开的实施例,所述方法还包括:获取样本集,所述样本集中包括多个样本数据,每个样本数据都与所述目标数据具有相同的数据结构;执行第一方法体,以确定所述第一分类树的根节点;迭代执行第二方法体,以确定所述第一分类树的除所述根节点之外的其他节点;其中,所述第一方法体包括以下操作:逐维度地遍历所述样本集中所有样本数据的特征值,以确定每个维度的特征值的分裂点;基于确定的各个维度的特征值的分裂点,确定所述第一分类树的根节点;基于所述根节点将所述样本集划分为两个子样本集;其中,所述第二方法体包括以下操作:逐维度地遍历所述子样本集中所有样本数据的特征值,以确定每个预定维度的特征值的分裂点;基于确定的各个预定维度的特征值的分裂点,确定所述第一分类树的对应深度的子节点;以及基于所述对应深度的子节点将所述子样本集划分为两个子样本集。
[0008] 根据本公开的实施例,在所述第一方法体中,所述基于确定的各个维度的特征值的分裂点,确定所述第一分类树的根节点包括:针对每个维度的特征值的分裂点,计算总样本的基尼系数,得到多个基尼系数;将与所述多个基尼系数中的最小基尼系数对应的维度的特征以及对应的特征值的分裂点作为所述根节点的分类依据。
[0009] 根据本公开的实施例,在所述第二方法体中,所述逐维度地遍历所述子样本集中所有样本数据的特征值,以确定每个预定维度的特征值的分裂点,包括:在满足预定条件的情况下,执行所述逐维度地遍历所述子样本集中所有样本数据的特征值,以确定每个预定维度的特征值的分裂点的操作,其中,所述预定条件包括:当前得到的分类树的深度小于第一预设值,和/或所述子样本集中的样本数据的数量大于第二预设值。
[0010] 根据本公开的实施例,所述方法还包括:获取预定的至少一个第二分类树,每个第二分类树的每个叶子节点对应一个离散的特征值;向所述每个第二分类树输入所述目标数据,从而确定所述目标数据所划分到的所有的第二叶子节点;以及将与每个所述第二叶子节点对应的离散的特征值以及与所述第一叶子节点对应的离散的特征值作为所述目标数据的第二离散化结果。
[0011] 根据本公开的实施例,所述方法还包括:执行第三方法体,以构建所述至少一个第二分类树中的第一个第二分类树;迭代执行第四方法体,以构建所述至少一个第二分类树中的其他第二分类树;其中,所述第三方法体包括以下操作:向所述第一分类树输入所述样本集中的所有的样本数据,从而确定每个样本数据所划分到的第二叶子节点;根据划分结果计算所述每个样本数据的第一标签值;基于计算得到的所述每个样本数据的第一标签值,调用并执行用于构建所述第一分类树的方法体,以构建所述第一个第二分类树;其中,所述第四方法体包括以下操作:向第(N-1)个第二分类树输入所述样本集中的所有的样本数据,从而确定每个样本数据所划分到的第三叶子节点;根据划分结果计算所述每个样本数据的第二标签值;基于计算得到的所述每个样本数据的第二标签值,调用并执行用于构建所述第(N-1)个第二分类树的方法体,以构建所述第N个第二分类树,其中,N≥2且N为整数。
[0012] 根据本公开的实施例,所述方法还包括:确定从所述第一分类树的根节点到所述第一叶子节点之间的路径;以及根据所述路径确定与所述第一离散化结果对应的组合特征。
[0013] 本公开的另一个方面提供了一种数据处理装置,包括:第一获取单元,被配置为获取目标数据,所述目标数据包括多维度数据,且所述目标数据的每个维度对应一个特征的特征值,所述特征值为连续值;第二获取单元,被配置为获取预定的第一分类树,所述第一分类树的每个叶子节点对应一个离散的特征值;确定单元,被配置为向所述第一分类树输入所述目标数据,从而确定所述目标数据所划分到的第一叶子节点;以及第三获取单元,被配置为至少将与所述第一叶子节点对应的离散的特征值作为所述目标数据的第一离散化结果。
[0014] 本公开的另一方面提供了一种电子设备,包括一个或多个处理器以及存储装置,其中,所述存储装置用于存储可执行指令,所述可执行指令在被所述处理器执行时,实现如上所述的方法。
[0015] 本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
[0016] 本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
[0017] 根据本公开的实施例,由于第一分类树的每个叶子节点表示多个维度的特征值的组合关系,因而可以将特征间关联性引入数据离散化的结果中,这样,能够解决现有分箱方法不能考虑数据的多个特征之间的相互关系的问题,从而达到了更准确地对具有连续特征值的多维度数据进行离散化的技术效果。

附图说明

[0018] 通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
[0019] 图1示意性示出了根据本公开实施例的数据处理方法和装置的系统架构;
[0020] 图2示意性示出了根据本公开实施例的数据处理方法的流程图;
[0021] 图3示意性示出了根据本公开实施例的创建第一分类树的相关操作的流程图;
[0022] 图4示出了根据本公开实施例的第一分类树的示例构建结果;
[0023] 图5示意性示出了根据本公开另一实施例的数据处理方法的流程图;
[0024] 图6示意性示出了根据本公开实施例的创建第二分类树的相关操作的流程图;
[0025] 图7示意性示出了根据本公开的实施例的数据处理装置的框图;以及
[0026] 图8示意性示出了根据本公开实施例的电子设备的方框图。

具体实施方式

[0027] 以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
[0028] 在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
[0029] 在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
[0030] 在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。
[0031] 现实世界的大部分数据具有连续值,如用户年龄、每月消费金额、通话时长等。由于具有连续值的数据之间重复少,通常存在计算量大、计算时间长、浪费计算资源等一系列问题,因此,需要在预处理中将这些连续值离散化。现阶段对具有连续值的数据的处理方法为数据分箱。现有分箱方法通过对特征数值做简单统计,得到对单维连续特征的切分方法,并将样本属于的划分区间作为其对应的离散分类。例如,用户年龄常被分为若干类别,如0~18岁、18~25岁、25~45岁、45岁及以上,0~18之间的任意年龄都会被同一个固定值替代,从而节省存储空间,降低计算复杂度。实践证明,离散化后的数据也可以让模型评分更稳定,并可以降低下游模型的过拟合风险。常用的分箱方法有等频分箱和等距分箱:等频分箱指的是将数据预先排序,并保证每个区间包含大致相等的样本数量;等距分箱指的是将数据的取值范围分为固定数量的等宽区间,每个区间表示一个分箱。
[0032] 在实现本公开构思的过程中,发明人发现在现有技术中至少存在如下问题。(1)现有分箱方法仅能分析单维特征以寻找该特征的离散划分方法,不能考虑多特征数据的多个特征之间的相互关系。例如,如果同时考虑年龄、性别、消费金额的离散结果,则更能反映用户群体的相似特性,而现有的分箱方法无法做到这一点。(2)另外,现有分箱方法需要找到恰当的多个固定数量的分割点,但当分箱数过多或者数据分布密度的偏差性明显时,这通常是极为困难的,因此难以准确地离散化连续数据。
[0033] 由此,本公开的实施例提供了一种更准确地对具有连续特征值的多维度数据进行离散化的数据处理方法和装置、电子设备以及计算机可读介质。根据本公开实施例,将待离散化的目标数据分别输入已经构建的多个分类树,得到该目标数据的多个离散化结果,并组合得到最终的离散化结果。在构建多个分类树时,获取样本集,对样本集的特征值进行预处理,保证数据中不存在缺失值,然后基于样本集的特征值和标签值构建多个分类树,每个分类树拟合先前分类树得到的拟合结果残差,样本在每个树中落入的叶子节点即为对应的离散化结果。
[0034] 下面结合附图对本公开的实施例进行详细描述。
[0035] 图1示意性示出了可以应用根据本公开实施例的数据处理方法和装置的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
[0036] 如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0037] 用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
[0038] 终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
[0039] 服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
[0040] 需要说明的是,本公开实施例所提供的数据处理方法一般可以由服务器105或终端设备101、102、103执行。相应地,本公开实施例所提供的数据处理装置一般可以设置于服务器105或终端设备101、102、103中。本公开实施例所提供的数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
[0041] 应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0042] 图2示意性示出了根据本公开实施例的数据处理方法的流程图。
[0043] 如图2所示,该方法包括操作S201至操作S204。
[0044] 在操作S201,获取目标数据,目标数据包括多维度数据,且目标数据的每个维度对应一个特征的特征值,特征值为连续值。可以从例如数据库、服务器等各种数据源获取目标数据。目标数据例如表示用户,其特征维度例如可以包括用户的年龄、性别、月消费金额等,这些维度的特征值是连续值。由于连续的特征值计算量大、计算时间长、浪费计算资源,因此,将其进行离散分类可以减少计算量和计算时间,节约计算资源。
[0045] 在操作S202,获取预定的第一分类树,第一分类树的每个叶子节点对应一个离散的特征值。可以获取样本集,并将样本集作为训练资料预先训练第一分类树。
[0046] 在操作S203,向第一分类树输入目标数据,从而确定目标数据所划分到的第一叶子节点。第一分类树的每个非叶子节点都对应着一个划分依据,将目标数据输入到第一分类树之后,目标数据会从根节点起经由若干个非叶子节点而划分到最终的叶子节点。每个叶子节点与一个离散的特征值相对应,因此将目标数据划分到最终的叶子节点便可以实现连续特征的离散化。
[0047] 在操作S204,至少将与第一叶子节点对应的离散的特征值作为目标数据的第一离散化结果。每个叶子节点与离散的特征值相对应,目标数据的离散化结果即为其所划分到的叶子节点所对应的离散的特征值。
[0048] 根据本公开实施例,第一分类树的每个叶子节点表示多个维度的特征值的组合关系。如果将目标数据输入第一分类树,则目标数据会从根节点起通过各个非叶子节点逐层划分到最终的叶子节点,每个非叶子节点完成对一个维度的特征值的最优划分,最终的叶子节点表示目标数据所有维度的特征值的组合关系,因而可以将特征间关联性引入数据离散化的结果中。这样,能够解决现有分箱方法不能考虑数据的多个特征之间的相互关系的问题,从而达到了更准确地对具有连续特征值的多维度数据进行离散化的技术效果。
[0049] 图3示意性示出了根据本公开实施例的创建第一分类树的相关操作的流程图。
[0050] 如图3所示,该方法包括操作S301至操作S303。
[0051] 在操作S301,获取样本集,该样本集中包括多个样本数据,每个样本数据都与目标数据具有相同的数据结构。由于样本集是用来作为训练资料训练构建第一分类树的,第一分类树在构建之后将用来对目标数据进行离散分类,因此样本集中的样本数据都与目标数据具有相同的数据结构,以保证离散分类结果的准确性。例如,假设目标数据表示用户,其维度包括用户的年龄和性别,则样本集中的每个样本数据也表示用户,且其特征维度也包括用户的年龄和性别。
[0052] 此外,在本公开实施例中,在获取样本集之后例如还可以对样本数据进行数据预处理。数据预处理例如可以包括剔除数据集中的缺失值和异常值。对于缺失值,为了让离散化之后要建立的下游模型得到更多数据信息,进行缺失值填充。填充方法可以有两种:第一,利用总体样本的众值进行填充。众值即出现次数最多的数值,该方法适用于总体符合高斯分布,或某些数值出现极为频繁的情况;第二,利用总体样本的均值填充,即计算样本全集的均值作为填充值,该方法适用于样本总体分布均衡的情况。在本公开的实施例中,对特征的每个维度进行分析,按照上述两种方法进行填充。对于异常值,先使用GESR判别方法进行识别。识别出的异常值例如可以直接删除,从而作为缺失值处理。
[0053] 在操作S302,执行第一方法体,以确定第一分类树的根节点。
[0054] 其中,第一方法体例如可以包括以下操作。
[0055] 逐维度地遍历样本集中所有样本数据的特征值,以确定每个维度的特征值的分裂点。
[0056] 基于确定的各个维度的特征值的分裂点,确定第一分类树的根节点。
[0057] 基于根节点将样本集划分为两个子样本集。
[0058] 其中,基于确定的各个维度的特征值的分裂点,确定第一分类树的根节点例如可以包括:针对每个维度的特征值的分裂点,计算总样本的基尼系数,得到多个基尼系数;将与多个基尼系数中的最小基尼系数对应的维度的特征以及对应的特征值的分裂点作为根节点的分类依据。
[0059] 其中,在确定每个维度的特征值的分裂点时,可以同样借助于基尼系数来确定。基尼系数是一种衡量样本纯粹性的度量指标,借助于基尼系数这一指标来确定最佳分裂点,可以使得划分后样本集全体的纯粹性最高。最佳分裂点可以满足以下条件:用最佳分裂点切分样本集后总样本的基尼系数最小。每个样本数据可以对应一个标签值,基于该标签值来计算基尼系数。样本数据的标签值表示样本的某种属性,例如当样本数据表示用户时,其标签值可以是例如将用户的交易风险、用户的偏好、用户是否点击了某个对象、用户已选择的选项等属性进行了数值化而得到的值。作为替代,也可以采用其他方法来确定分裂点,只要划分后满足预定的分类目标即可。
[0060] 在操作S303,迭代执行第二方法体,以确定第一分类树的除根节点之外的其他节点。
[0061] 其中,第二方法体例如可以包括以下操作。
[0062] 逐维度地遍历子样本集中所有样本数据的特征值,以确定每个预定维度的特征值的分裂点。
[0063] 基于确定的各个预定维度的特征值的分裂点,确定第一分类树的对应深度的子节点。
[0064] 基于子节点再将子样本集划分为两个子样本集。
[0065] 其中,在满足预定条件的情况下,执行逐维度地遍历子样本集中所有样本数据的特征值,以确定每个预定维度的特征值的分裂点的操作,预定条件包括但不限于:当前得到的分类树的深度小于第一预设值,和/或子样本集中的样本数据的数量大于第二预设值。
[0066] 下面通过具体的示例来描述第一分类树的获取方法。
[0067] 假设所获取的样本集为S,其中的某个样本为s,即s∈S。该样本s的特征向量为其中 表示第j维的特征值,n表示总维数,即,样本s具有n个维度的特征值 每个样本具有对应的标签值,用ys表示样本s的标签值。例如,假设样本s表示某个用户,且第一维特征表示用户年龄,如果用户年龄为20,则
[0068] 首先,通过以下操作确定第一分类树的根节点。可以逐维度地遍历样本集S中所有样本的特征值,以确定n个维度中每个维度的特征值的分裂点,然后从所确定的每个维度的特征值的分裂点中确定其中一个维度的分裂点作为根节点处的最佳分裂点t,以将样本集S划分为左右两个子样本集。最佳分裂点t可以满足以下条件:用最佳分裂点t切分样本集S后总样本的基尼系数最小,即:
[0069]
[0070] 其中t表示对第j维特征的切分点,且R1={j|jt},为两个集合中样本标签的均值,即
[0071] 基尼系数是一种衡量样本纯粹性的度量指标,基尼系数取值越大,样本的不确定性也越大。上述最佳分裂点t的确定方法仅为示例,而并非旨在限制本公开的范围,可以由其他确定方法所代替。图4示出了根据本公开实施例的第一分类树的示例构建结果。如图4所示,假设在样本集S的所有样本的特征值中,年龄特征的分裂点20岁使得样本总体的基尼系数最小,则将其作为根节点处的最佳分裂点t,将样本集S划分为左右两个子样本集。
[0072] 然后,通过对划分得到的每一个子样本集递归迭代以下操作来确定除根节点之外的其他节点。对于该子样本集,选择其他一个或多个维度的特征,重复执行上述确定最佳分裂点t的操作,并根据所确定的最佳分裂点t将该子样本集再划分为两个子样本集。在选择其他维度的特征时,从当前维度的集合中剔除已经切分过的维度,然后进行选择。另外,仅在满足预定条件的情况下才对子样本集执行以上迭代操作。该预定条件例如可以包括但不限于:第一分类树的当前深度小于预设值、该子样本集中的样本数大于预设值、存在可以选择的维度、或者所有的基尼系数并非都相等。在图4生成的第一分类树中,每个叶子节点对应一个离散分类,年龄小于20岁且性别为男性的用户被分到第一个离散分类中,年龄小于20岁且性别为女的用户被分到第二个离散分类中,年龄大于20岁的用户被分到第三个离散分类中。
[0073] 图5示意性示出了根据本公开另一实施例的数据处理方法的流程图。
[0074] 如图5所示,该方法包括操作S501至操作S507。
[0075] 在操作S501,获取目标数据,目标数据包括多维度数据,且目标数据的每个维度对应一个特征的特征值,特征值为连续值。
[0076] 在操作S502,获取预定的第一分类树,第一分类树的每个叶子节点对应一个离散的特征值。
[0077] 在操作S503,向第一分类树输入目标数据,从而确定目标数据所划分到的第一叶子节点。
[0078] 在操作S504,至少将与第一叶子节点对应的离散的特征值作为目标数据的第一离散化结果。
[0079] 其中操作S501至操作S504分别与图2中的操作S201至操作S204对应相同,因此这里不再重复描述。
[0080] 在操作S505,获取预定的至少一个第二分类树,每个第二分类树的每个叶子节点对应一个离散的特征值。
[0081] 在操作S506,向每个第二分类树输入目标数据,从而确定目标数据所划分到的所有的第二叶子节点。
[0082] 在操作S507,将与每个第二叶子节点对应的离散的特征值以及与第一叶子节点对应的离散的特征值作为目标数据的第二离散化结果。
[0083] 第一分类树和至少一个第二分类树之间可以具有相关性。
[0084] 具体地,在本公开实施例中,至少一个第二分类树中的第一个第二分类树是在第一分类树的基础上迭代生成的,而第M+1个第二分类树是在第M个第二分类树的基础上迭代生成的,其中M≥1。
[0085] 根据本公开另一实施例,可以通过多个分类树得到多次离散划分结果。
[0086] 在根据本公开的一个实施例中,通过第一分类树,仅能得到样本集中每个样本数据的第一次离散划分结果,但通常希望能对样本集进行多次离散划分,以体现样本之间的多样化的相似关系。另外,现有分箱方法可以将目标数据的单维特征值划分到多于两个分箱,而根据本公开的一个实施例,第一分类树对目标数据的单维特征值仅划分一次,相当于只能划分到两个分箱。对此,根据本公开另一实施例,还可以通过迭代产生多个第二分类树,来对目标数据的单维特征值进行多次划分,从而弥补了使用单个分类树进行划分带来的局限性。
[0087] 另外,如上所述,当分箱数过多或者数据分布密度的偏差性明显时,现有分箱方法很难找到恰当的多个固定数量的分割点,因此难以准确地离散化连续数据。而根据本公开另一实施例,依赖多个分类树来实现对每维特征值的多次离散划分,这样,在每个分类树中,对每维特征值仅需切分一次即可,也就是将每个维度的多个特征值仅切分为两份,切分点易于寻找,从而使离散化结果更加精确。
[0088] 图6示意性示出了根据本公开实施例的创建第二分类树的相关操作的流程图。
[0089] 如图6所示,该方法包括操作S601至操作S602。
[0090] 在操作S601,执行第三方法体,以构建至少一个第二分类树中的第一个第二分类树。
[0091] 其中,第三方法体包括以下操作。
[0092] 向第一分类树输入样本集中的所有的样本数据,从而确定每个样本数据所划分到的第二叶子节点。
[0093] 根据划分结果计算每个样本数据的第一标签值,样本数据的标签值表示样本的某种属性,例如当样本为用户时,其标签值可以是例如用户的交易风险、用户的偏好、用户是否点击了某个对象、用户选择的选项等等。
[0094] 基于计算得到的每个样本数据的第一标签值,调用并执行用于构建第一分类树的方法体,以构建第一个第二分类树。
[0095] 其中,为了在第一个第二分类树中反映第一分类树的划分结果,根据第一分类树对样本集的划分结果来计算每个样本数据的第一标签值。例如,可以根据每个样本数据的原有标签值与该样本数据在第一分类树中所划分到的叶子节点的子样本集中的其他样本的原有标签值,来计算每个样本数据的第一标签值。
[0096] 在操作S602,迭代执行第四方法体,以构建至少一个第二分类树中的其他第二分类树。
[0097] 其中,第四方法体包括以下操作。
[0098] 向第(N-1)个第二分类树输入样本集中的所有的样本数据,从而确定每个样本数据所划分到的第三叶子节点。
[0099] 根据划分结果计算每个样本数据的第二标签值。
[0100] 根据计算得到的每个样本数据的第二标签值,调用并执行用于构建第(N-1)个第二分类树的方法体,以构建第N个第二分类树,其中,N≥2且N为整数。
[0101] 其中,为了在第N个第二分类树中反映第(N-1)个第二分类树的划分结果,根据第(N-1)个第二分类树对样本集的划分结果来计算每个样本数据的第二标签值。新的标签值的计算方法可以与第三方法体中的相同,也可以不同。例如,可以根据每个样本数据的当前标签值与该样本数据在第(N-1)个第二分类树中所划分到的叶子节点的子样本集中的其他样本的当前标签值,来计算每个样本数据的第二标签值。
[0102] 下面通过具体的示例来描述至少一个第二分类树的获取方法。
[0103] 在构建第一个第二分类树时,基于第一分类树的离散划分结果,重新计算每个样本的标签值ynew。在一个示例中,将ynew计算为残差值。假设样本s落在第一分类树的第一个叶子节点,且第一个叶子节点对应的子样本集为S1,其中包含|S1|个样本,则第一个叶子节点对应的期望标签值为样本集S1的均值 样本s的新的标签值计算为ynew=ys-e1。将样本集S中的每个样本s的特征向量 和该样本的新的标签值ynew
重新输入用于构建第一分类树的方法体,即可构造第一个第二分类树。由于样本s的标签值发生了变化,所以将对样本集进行不同的切分,从而构建出新的分类树作为第一个第二分类树。
[0104] 类似地,在构建后续的每个第二分类树时,基于前一个第二分类树的离散划分结果,重新计算每个样本的标签值,并将样本集S中的每个样本的特征向量和该样本的新的标签值重新输入用于构建前一个第二分类树的方法体,以得到新的一个第二分类树。
[0105] 以上通过具体示例描述了至少一个第二分类树的获取方法。
[0106] 返回参考图5,在操作S506中向每个第二分类树输入目标数据,从而确定目标数据所划分到的所有的第二叶子节点,得到更多离散化结果。
[0107] 在操作S507,将目标数据在多个分类树中的离散化结果(即,通过第一分类树得到的第一离散化结果和通过至少一个第二分类树得到的至少一个离散化结果)组合,作为目标数据的最终的离散化结果。假设共生成M个分类树,目标数据在第m棵决策树上落在第t个叶子节点,则该目标数据对应的第m维离散化结果即为t。由于每个分类树的叶子节点个数是固定的,因而本实施例的方法将目标数据的多维连续特征值划分到有限维的离散空间,即完成对多维连续特征值的离散化。在下游任务中,也可以将得到的多维离散结果作为样本的新特征,以提升后续模型的分类准确性与稳定性。
[0108] 图7示意性示出了根据本公开的实施例的数据处理装置700的框图。
[0109] 如图7所示,数据处理装置700包括第一获取单元710、第二获取单元720、确定单元730和第三获取单元740。
[0110] 第一获取单元710被配置为获取目标数据,目标数据包括多维度数据,且目标数据的每个维度对应一个特征的特征值,特征值为连续值。
[0111] 第二获取单元720被配置为获取预定的第一分类树,第一分类树的每个叶子节点对应一个离散的特征值。
[0112] 确定单元730被配置为向第一分类树输入目标数据,从而确定目标数据所划分到的第一叶子节点。
[0113] 第三获取单元740被配置为至少将与第一叶子节点对应的离散的特征值作为目标数据的第一离散化结果。
[0114] 需要说明的是,在本公开实施例中,装置部分的实施方式与方法部分的实施方式对应相同或类似,所解决的技术问题以及所达到的技术效果也对应相同或类似,在此不再赘述。
[0115] 根据本公开实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0116] 例如,第一获取单元710、第二获取单元720、确定单元730和第三获取单元740中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一获取单元710、第二获取单元720、确定单元730和第三获取单元740中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获取单元710、第二获取单元720、确定单元730和第三获取单元740中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0117] 图8示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的方框图。图8示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0118] 如图8所示,根据本公开实施例的计算机系统800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0119] 在RAM 803中,存储有系统800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0120] 根据本公开的实施例,系统800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。系统800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
[0121] 根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0122] 本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
[0123] 根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
[0124] 附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0125] 本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0126] 以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。