一种数据处理系统及方法转让专利

申请号 : CN201911421978.4

文献号 : CN111177200B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 方磊王清臣武华亭

申请人 : 北京九章云极科技有限公司

摘要 :

本发明提供一种数据处理系统及方法,该数据处理系统包括:接口模块,用于接收用户在数据集界面上的第一输入操作,得到待处理数据集;推断模块,用于推断所述待处理数据集的类型信息;第一确定模块,用于基于所述待处理数据集的类型信息,确定目标数据处理策略;处理模块,用于利用所述目标数据处理策略,对所述待处理数据集进行数据处理。根据本发明的实施例,可以简化数据处理过程,并可以提高数据准备的适用性。

权利要求 :

1.一种数据处理系统,其特征在于,所述系统应用于大数据挖掘和分析中,所述系统包括:

接口模块,用于接收用户在数据集界面上的第一输入操作,得到待处理数据集;所述待处理数据集中的数据为结构化数据或半结构化数据;

推断模块,用于推断所述待处理数据集的类型信息;其中,所述待处理数据集的类型信息包括:数据基础类型和/或业务类型;

第一确定模块,用于基于所述待处理数据集的类型信息,确定目标数据处理策略;

处理模块,用于利用所述目标数据处理策略,对所述待处理数据集进行数据处理;

其中,所述目标数据处理策略包括以下至少一项:数据质量处理策略;

数据衍生处理策略;其中,所述数据衍生处理策略包括基于所述待处理数据集进行聚合处理,生成辅助数据集;

合并数据集;

去除冗余列;

其中,所述第一确定模块具体用于执行以下过程:基于所述待处理数据集中的列数据的数据类型和数据质量,推荐提升数据质量的策略;

基于所述待处理数据集中的列数据的数据类型和预设的聚合函数,推荐用于进行数据衍生的策略;

其中,所述系统还包括:

显示模块,用于显示以下至少一项:所述待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系。

2.根据权利要求1所述的系统,其特征在于,所述系统还包括:第二确定模块,用于从所述待处理数据集中确定目标数据集;

所述第一确定模块具体用于:基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。

3.根据权利要求2所述的系统,其特征在于,所述第一确定模块包括:第一推荐单元,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;

第一确定单元,用于将多个数据处理策略中的最优策略确定为所述目标数据处理策略。

4.根据权利要求2所述的系统,其特征在于,所述接口模块还用于:接收用户在策略界面上的第二输入操作;

所述第一确定模块包括:

第二推荐单元,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;

第二确定单元,用于响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;或者,响应于所述第二输入操作,将第二策略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的第一策略进行调整后得到。

5.根据权利要求2所述的系统,其特征在于,所述接口模块还用于:接收用户在策略界面上的第二输入操作;

所述第一确定模块具体用于:响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对所述目标数据集的第三策略确定为所述目标数据处理策略。

6.根据权利要求1所述的系统,其特征在于,所述类型信息包括以下至少一项:所述待处理数据集中每一数据集的业务类型;

所述待处理数据集中每一列数据的数据基础类型和/或业务类型。

7.根据权利要求6所述的系统,其特征在于,所述推断模块具体用于:基于预设的领域模型,推断所述待处理数据集中每一数据集的业务类型。

8.根据权利要求6所述的系统,其特征在于,所述推断模块包括:调用单元,用于基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;

第一推断单元,用于基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。

9.根据权利要求6所述的系统,其特征在于,所述推断模块包括:第二推断单元,用于基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。

10.根据权利要求9所述的系统,其特征在于,所述第二推断单元包括:处理子单元,用于在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;

推断子单元,用于将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。

11.根据权利要求7所述的系统,其特征在于,所述领域模型为相应领域下的数据集的结构规则或者模板。

12.根据权利要求1所述的系统,其特征在于,所述目标数据处理策略的执行顺序包括以下任意一项:

第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;

第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;

第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;

第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;

第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。

13.根据权利要求1所述的系统,其特征在于,所述待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略包括以下至少一项:针对所述目标数据集和/或所述第一数据集的数据质量处理策略;

针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;

从所述待处理数据集中选择至少两个数据集进行合并的策略;

以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。

14.根据权利要求1或13所述的系统,其特征在于,所述数据质量处理策略包括以下至少一项:

空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理、日期格式处理。

15.根据权利要求1或13所述的系统,其特征在于,所述数据衍生处理策略包括以下至少一项:

数值范围标记处理、日期提取处理、数据聚合处理。

16.根据权利要求1所述的系统,其特征在于,所述合并数据集的方式包括以下任意一项:

join连接方式、union拼接方式。

17.根据权利要求1所述的系统,其特征在于,所述去除冗余列的方式包括以下任意一项:

计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;

对列数据进行主成分分析降维,获取预设范围的列。

18.一种数据处理方法,其特征在于,所述方法应用于大数据挖掘和分析中,所述方法包括:

接收用户在数据集界面上的第一输入操作,得到待处理数据集;所述待处理数据集中的数据为结构化数据或半结构化数据;

推断所述待处理数据集的类型信息;其中,所述待处理数据集的类型信息包括:数据基础类型和/或业务类型;

基于所述待处理数据集的类型信息,确定目标数据处理策略;

利用所述目标数据处理策略,对所述待处理数据集进行数据处理;

其中,所述目标数据处理策略包括以下至少一项:数据质量处理策略;

数据衍生处理策略;其中,所述数据衍生处理策略包括基于所述待处理数据集进行聚合处理,生成辅助数据集;

合并数据集;

去除冗余列;

其中,所述基于所述待处理数据集的类型信息,确定目标数据处理策略,包括:基于所述待处理数据集中的列数据的数据类型和数据质量,推荐提升数据质量的策略;

基于所述待处理数据集中的列数据的数据类型和预设的聚合函数,推荐用于进行数据衍生的策略;

其中,所述方法还包括:

显示以下至少一项:所述待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系。

19.根据权利要求18所述的方法,其特征在于,所述基于所述待处理数据集的类型信息,确定目标数据处理策略之前,所述方法还包括:从所述待处理数据集中确定目标数据集;

所述基于所述待处理数据集的类型信息,确定目标数据处理策略,包括:基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。

20.根据权利要求19所述的方法,其特征在于,所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;

将多个数据处理策略中的最优策略确定为所述目标数据处理策略。

21.根据权利要求19所述的方法,其特征在于,所述方法还包括:接收用户在策略界面上的第二输入操作;

所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:

基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;

响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;

或者,响应于所述第二输入操作,将第二策略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的第一策略进行调整后得到。

22.根据权利要求19所述的方法,其特征在于,所述方法还包括:接收用户在策略界面上的第二输入操作;

所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:

响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对所述目标数据集的第三策略确定为所述目标数据处理策略。

23.根据权利要求18所述的方法,其特征在于,所述类型信息包括以下至少一项:所述待处理数据集中每一数据集的业务类型;

所述待处理数据集中每一列数据的数据基础类型和/或业务类型。

24.根据权利要求23所述的方法,其特征在于,所述推断所述待处理数据集的类型信息,包括:

基于预设的领域模型,推断所述待处理数据集中每一数据集的业务类型。

25.根据权利要求23所述的方法,其特征在于,所述推断所述待处理数据集的类型信息,包括:

基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;

基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。

26.根据权利要求23所述的方法,其特征在于,所述推断所述待处理数据集的类型信息,包括:

基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。

27.根据权利要求26所述的方法,其特征在于,所述基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型,包括:在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;

将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。

28.根据权利要求24所述的方法,其特征在于,所述领域模型为相应领域下的数据集的结构规则或者模板。

29.根据权利要求18所述的方法,其特征在于,所述目标数据处理策略的执行顺序包括以下任意一项:

第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;

第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;

第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;

第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;

第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。

30.根据权利要求18所述的方法,其特征在于,所述待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略包括以下至少一项:针对所述目标数据集和/或所述第一数据集的数据质量处理策略;

针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;

从所述待处理数据集中选择至少两个数据集进行合并的策略;

以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。

31.根据权利要求18或30所述的方法,其特征在于,所述数据质量处理策略包括以下至少一项:

空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理、日期格式处理。

32.根据权利要求18或30所述的方法,其特征在于,所述数据衍生处理策略包括以下至少一项:

数值范围标记处理、日期提取处理、数据聚合处理。

33.根据权利要求18所述的方法,其特征在于,所述合并数据集的方式包括以下任意一项:

join连接方式、union拼接方式。

34.根据权利要求18所述的方法,其特征在于,所述去除冗余列的方式包括以下任意一项:

计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;

对列数据进行主成分分析降维,获取预设范围的列。

35.一种数据处理系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求

18至34中任一项所述的数据处理方法的步骤。

36.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求18至34中任一项所述的数据处理方法的步骤。

说明书 :

一种数据处理系统及方法

技术领域

[0001] 本发明涉及数据处理技术领域,尤其涉及一种数据处理系统及数据处理方法。

背景技术

[0002] 大数据挖掘和分析的成功往往取决于数据准备。目前对于数据准备,常采用人工直接对相应数据进行处理。然而,由于人工处理的局限性等原因,造成现有数据准备方式的
适用性较差、效率较低。

发明内容

[0003] 本发明实施例提供一种数据处理系统及方法,以解决现有数据准备方式的适用性较差、效率较低的问题。
[0004] 为了解决上述技术问题,本发明是这样实现的:
[0005] 第一方面,本发明实施例提供了一种数据处理系统,包括:
[0006] 接口模块,用于接收用户在数据集界面上的第一输入操作,得到待处理数据集;
[0007] 推断模块,用于推断所述待处理数据集的类型信息;
[0008] 第一确定模块,用于基于所述待处理数据集的类型信息,确定目标数据处理策略;
[0009] 处理模块,用于利用所述目标数据处理策略,对所述待处理数据集进行数据处理。
[0010] 可选的,所述系统还包括:
[0011] 第二确定模块,用于从所述待处理数据集中确定目标数据集;
[0012] 所述第一确定模块具体用于:基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。
[0013] 可选的,所述第一确定模块包括:
[0014] 第一推荐单元,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
[0015] 第一确定单元,用于将多个数据处理策略中的最优策略确定为所述目标数据处理策略。
[0016] 可选的,所述接口模块还用于:接收用户在策略界面上的第二输入操作;
[0017] 所述第一确定模块包括:
[0018] 第二推荐单元,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
[0019] 第二确定单元,用于响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;或者,响应于所述第二输入操作,将第二策略
确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的
第一策略进行调整后得到。
[0020] 可选的,所述接口模块还用于:接收用户在策略界面上的第二输入操作;
[0021] 所述第一确定模块具体用于:响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对所述目标数据集的第三策略确定为所述目标数据处理策略。
[0022] 可选的,所述系统还包括:
[0023] 显示模块,用于显示以下至少一项:所述待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系。
[0024] 可选的,所述类型信息包括以下至少一项:
[0025] 所述待处理数据集中每一数据集的业务类型;
[0026] 所述待处理数据集中每一列数据的数据基础类型和/或业务类型。
[0027] 可选的,所述推断模块具体用于:
[0028] 基于预设的领域模型,推断所述待处理数据集中每一数据集的业务类型。
[0029] 可选的,所述推断模块包括:
[0030] 调用单元,用于基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;
[0031] 第一推断单元,用于基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。
[0032] 可选的,所述推断模块包括:
[0033] 第二推断单元,用于基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
[0034] 可选的,所述第二推断单元包括:
[0035] 处理子单元,用于在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;
[0036] 推断子单元,用于将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
[0037] 可选的,所述领域模型为相应领域下的数据集的结构规则或者模板。
[0038] 可选的,所述目标数据处理策略包括以下至少一项:
[0039] 数据质量处理策略;
[0040] 数据衍生处理策略;
[0041] 合并数据集;
[0042] 去除冗余列。
[0043] 可选的,所述目标数据处理策略的执行顺序包括以下任意一项:
[0044] 第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;
[0045] 第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;
[0046] 第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;
[0047] 第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;
[0048] 第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。
[0049] 可选的,所述待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略包括以下至少一项:
[0050] 针对所述目标数据集和/或所述第一数据集的数据质量处理策略;
[0051] 针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;
[0052] 从所述待处理数据集中选择至少两个数据集进行合并的策略;
[0053] 以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。
[0054] 可选的,所述数据质量处理策略包括以下至少一项:
[0055] 空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理、日期格式处理。
[0056] 可选的,所述数据衍生处理策略包括以下至少一项:
[0057] 数值范围标记处理、日期提取处理、数据聚合处理。
[0058] 可选的,所述合并数据集的方式包括以下任意一项:
[0059] join连接方式、union拼接方式。
[0060] 可选的,所述去除冗余列的方式包括以下任意一项:
[0061] 计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;
[0062] 对列数据进行主成分分析降维,获取预设范围的列。
[0063] 第二方面,本发明实施例提供了一种数据处理方法,包括:
[0064] 接收用户在数据集界面上的第一输入操作,得到待处理数据集;
[0065] 推断所述待处理数据集的类型信息;
[0066] 基于所述待处理数据集的类型信息,确定目标数据处理策略;
[0067] 利用所述目标数据处理策略,对所述待处理数据集进行数据处理。
[0068] 可选的,所述基于所述待处理数据集的类型信息,确定目标数据处理策略之前,所述方法还包括:
[0069] 从所述待处理数据集中确定目标数据集;
[0070] 所述基于所述待处理数据集的类型信息,确定目标数据处理策略,包括:
[0071] 基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。
[0072] 可选的,所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
[0073] 基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
[0074] 将多个数据处理策略中的最优策略确定为所述目标数据处理策略。
[0075] 可选的,所述方法还包括:
[0076] 接收用户在策略界面上的第二输入操作;
[0077] 所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
[0078] 基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
[0079] 响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;
[0080] 或者,响应于所述第二输入操作,将第二策略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的第一策略进行调整后得到。
[0081] 可选的,所述方法还包括:
[0082] 接收用户在策略界面上的第二输入操作;
[0083] 所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
[0084] 响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对所述目标数据集的第三策略确定为所述目标数据处理策略。
[0085] 可选的,所述方法还包括:
[0086] 显示以下至少一项:所述待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系。
[0087] 可选的,所述类型信息包括以下至少一项:
[0088] 所述待处理数据集中每一数据集的业务类型;
[0089] 所述待处理数据集中每一列数据的数据基础类型和/或业务类型。
[0090] 可选的,所述推断所述待处理数据集的类型信息,包括:
[0091] 基于预设的领域模型,推断所述待处理数据集中每一数据集的业务类型。
[0092] 可选的,所述推断所述待处理数据集的类型信息,包括:
[0093] 基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;
[0094] 基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。
[0095] 可选的,所述推断所述待处理数据集的类型信息,包括:
[0096] 基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
[0097] 可选的,所述基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型,包括:
[0098] 在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;
[0099] 将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
[0100] 可选的,所述领域模型为相应领域下的数据集的结构规则或者模板。
[0101] 可选的,所述目标数据处理策略包括以下至少一项:
[0102] 数据质量处理策略;
[0103] 数据衍生处理策略;
[0104] 合并数据集;
[0105] 去除冗余列。
[0106] 可选的,所述目标数据处理策略的执行顺序包括以下任意一项:
[0107] 第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;
[0108] 第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;
[0109] 第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;
[0110] 第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;
[0111] 第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。
[0112] 可选的,所述待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略包括以下至少一项:
[0113] 针对所述目标数据集和/或所述第一数据集的数据质量处理策略;
[0114] 针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;
[0115] 从所述待处理数据集中选择至少两个数据集进行合并的策略;
[0116] 以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。
[0117] 可选的,所述数据质量处理策略包括以下至少一项:
[0118] 空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理、日期格式处理。
[0119] 可选的,所述数据衍生处理策略包括以下至少一项:
[0120] 数值范围标记处理、日期提取处理、数据聚合处理。
[0121] 可选的,所述合并数据集的方式包括以下任意一项:
[0122] join连接方式、union拼接方式。
[0123] 可选的,所述去除冗余列的方式包括以下任意一项:
[0124] 计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;
[0125] 对列数据进行主成分分析降维,获取预设范围的列。
[0126] 第三方面,本发明实施例提供了一种数据处理系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理
器执行时实现上述数据处理方法的步骤。
[0127] 第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时可以实现上述数据处理方法的步骤。
[0128] 在本发明实施例中,通过推断待处理数据集的类型信息,并基于此确定目标数据处理策略,利用该目标数据处理策略进行数据处理,可以简化数据处理过程,并且相比于通
过人工进行数据准备,可以提高数据准备的适用性和效率,有利于后续的模型训练(例如机
器学习)、业务分析、数据挖掘等。

附图说明

[0129] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其
他的附图。
[0130] 图1为本发明实施例提供的一种数据处理系统的结构示意图;
[0131] 图2为本发明具体实例的数据集界面的示意图;
[0132] 图3为本发明实施例提供的另一种数据处理系统的结构示意图;
[0133] 图4为本发明实施例提供的另一种数据处理系统的结构示意图;
[0134] 图5为本发明具体实例的一策略界面的示意图;
[0135] 图6为本发明具体实例的目标数据表的选择界面示意图;
[0136] 图7为本发明具体实例的另一策略界面的示意图;
[0137] 图8为本发明实施例提供的一种数据处理方法的流程图。

具体实施方式

[0138] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发
明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本发明保护的范围。
[0139] 请参见图1,图1是本发明实施例提供的一种数据处理系统的结构示意图,如图1所示,该数据处理系统10可包括:
[0140] 接口模块11,用于接收用户在数据集界面上的第一输入操作,得到待处理数据集。
[0141] 本实施例中,上述待处理数据集中的数据可为结构化数据或半结构化数据。需说明的是,本实施例中主要涉及的是结构化数据,此情况下的数据集可以称之为数据表。
[0142] 可选的,该结构化数据或半结构化数据可以来源于文件类型数据源,或者,来源于数据库类型数据源。其中,文件类型数据源是指数据源为HDFS(Hadoop Distributed File 
System,分布式文件系统),和/或,单机文件系统等文件系统。分布式文件系统文件格式可
以包括但不限于:CSV、TSV、TXT、parquet、Excel、ORC等;单机文件系统文件格式可以包括但
不限于:CSV、TSV、TXT、parquet、Excel等。数据库类型数据源是指数据源为DBMS(Database 
Management System,数据库管理系统),包括且不限于下述数据库至少之一:Oracle甲骨文
数据库、DB2数据库、SQL Server数据库、MySQL数据库、PostgreSQL数据库、Hive数据库、
Teredata数据库、Greenplum数据库、GaussDB数据库。
[0143] 一种实施方式中,上述待处理数据集可为基于用户输入和/或系统自动选择的多个数据集。而该多个数据集可以是已创建的部分或全部数据集,进一步的也可以是某一领
域的部分或全部数据集。比如,参见图2所示,此时得到待处理数据集的过程可为:数据集界
面中指定区域(如图2左栏区域)显示已创建的数据集列表,通过接收用户针对于该已创建
的数据集列表执行的选择操作,从该已创建的数据集列表中筛选出该选择操作指示的数据
集,从而得到待处理数据集。
[0144] 另一种实施方式中,上述待处理数据集可特指目标数据集。比如,基于用户预先指定的目标数据表,或者,系统默认推荐的目标数据表。
[0145] 可选的,对于创建数据集,具体过程可为:数据集界面中包括新建数据集的创建控件,检测针对于该创建控件的操作,响应该操作,在数据集界面的一指定区域显示数据集创
建界面,用户通过操作该数据集创建界面,创建新数据集。其中,用户通过操作该数据集创
建界面,可以选择以上传方式将数据源中的数据导入到数据处理系统,进而创建一新数据
集;或者,用户通过操作该数据集创建界面,可以选择将数据源的访问地址添加到该数据集
创建界面,从而使得数据处理系统通过该访问地址,访问该数据源,进而创建一新数据集。
需要说明的是,若选择以上传方式将数据源中的数据导入到该数据处理系统,进而实现新
数据集的创建,在创建一新数据集之前,需要先将文件类型数据源和/或数据库类型数据源
的数据以文件形式导出;然后,在创建新数据集时,用户可以通过拖拽方式,将该文件拖拽
至数据集创建界面,以实现将文件上传至数据处理系统,完成新数据集的创建。其中,该导
出的文件的文件格式可以包括但不限于下述至少之一:CSV、TSV、TXT、XLS、ZIP、TAR。
[0146] 推断模块12,用于推断所述待处理数据集的类型信息。
[0147] 第一确定模块13,用于基于所述待处理数据集的类型信息,确定目标数据处理策略。
[0148] 处理模块14,用于利用所述目标数据处理策略,对所述待处理数据集进行数据处理。
[0149] 在本发明实施例中,通过推断待处理数据集的类型信息,并基于此确定目标数据处理策略,利用该目标数据处理策略进行数据处理,可以简化数据处理过程,并且相比于通
过人工进行数据准备,可以提高数据准备的适用性和效率,有利于后续的模型训练(例如机
器学习)、业务分析、数据挖掘等。
[0150] 本发明实施例中,数据处理系统可以推断出待处理数据集中每一数据集的整体业务类型,和/或待处理数据集中每一列数据的数据类型,其中该数据类型包括但不限于数据
基础类型、业务类型等。上述推断模块12推断出的类型信息可以包括以下至少一项:
[0151] 待处理数据集中每一数据集的业务类型;
[0152] 待处理数据集中每一列数据的数据基础类型和/或业务类型。
[0153] 其中,待处理数据集中每一数据集的业务类型(或称为整体业务类型)可以通过领域模型识别。该推断模块12具体可用于基于预设的领域模型,推断待处理数据集中每一数
据集的业务类型。需指出的是,数据集可以基于领域分类,并基于系统(此表示本实施例中
的数据处理系统,下同)默认推荐或用户选择领域。用户可以自定义调整数据集的业务类
型。系统可以预置默认领域模型,不同的领域有不同的模型(比如数据表的模型)。例如,银
行领域的模型包括下述至少之一:客户信息表、交易流水表、凭证表、验证码表等;电商领域
的模型包括下述至少之一:用户表、会话表、交易表、日志表等;交通领域的模型包括下述至
少之一:车辆表、违规违章表、人员表等。实际应用中,所述领域及领域模型可以不断扩展,
例如基于用户设置进行扩展,即基于用户新设置的领域及其中的表构建领域模型。
[0154] 一种实施方式中,所述领域模型可选为相应领域下的数据集(即数据表)的结构规则或者模板。例如,用户表的结构规则可包括:具体字段名包括哪些(例如用户标识ID、用户
名称、用户注册日期等)、各字段数据基础类型的范畴及各字段业务类型的范畴等。
[0155] 另一种实施方式中,在基于预设的领域模型推断待处理数据集的业务类型时,可以按照匹配程度排序推断出的业务类型,并优选给出一种最匹配的业务类型。
[0156] 可选的,上述数据基础类型可包括下述至少之一:整型、长整型、浮点型、双精度类型、时间型(比如格式为:年月日时分秒、YYYY‑mm‑DD HH:MM:SS等)、字符串型、布尔类型等。
上述列数据的业务类型可包括下述至少之一:电话号码(例如手机号码)、身份证号、邮编、
时间长度、日期、金额、标识地理坐标中的点、标识WKT格式的地理线、多边形、标识英语国家
名或ISO国家码、电子邮件(E‑Mail)地址、温度、性别、尺寸、重量、用户自定义的业务类型
等。
[0157] 本发明实施例中,由于列数据的数据基础类型为数据本身的一种属性,列数据的业务类型为一种具有实际的业务含义的属性,因此,数据处理系统可以基于数据基础类型
和业务类型对数据采用针对性的处理方法。可选的,由于每类数据基础类型对应的列数据
的取值具有一定的取值条件,例如,对于数据基础类型为整型的数据,其列数据的取值条件
为整数;对于数据基础类型为浮点型的数据,其列数据的取值条件为小数;对于数据基础类
型为布尔型的数据,其列数据的取值为0或1,等等,因此,本申请可基于每类数据基础类型
对应的列数据的取值条件,构造每类数据基础类型对应的类型推断函数,如此在实现推断
待处理数据中的列数据对应的数据基础类型时,可以利用每类数据基础类型对应的构造函
数,确定待处理数据集中每一列数据的数据基础类型。如图3所示,上述推断模块12可包括:
[0158] 调用单元121,用于基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;
[0159] 第一推断单元122,用于基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。
[0160] 其中,上述用于调用各类型推断函数的预设顺序可以为数据处理系统默认的调用顺序,或者,还可以为用户基于用户需求设置的调用顺序。
[0161] 可选的,由于列数据的业务类型具有实际的业务含义,结合其业务类型实际的业务含义,每种业务类型数据的取值具有一定的取值规则,因此,本申请针对于业务类型推断
的实现提供一种可行方式,即:在推断列数据对应的业务类型时,基于业务类型的取值规则
来推断相应业务类型。而对于一些复杂的数据集,为保证相对准确地推断出这些复杂数据
的业务类型,本申请还可结合机器学习技术,利用机器学习模型对待处理数据集的列数据
进行业务类型推断,即基于预先建立的多分类模型推断所述待处理数据集的列数据的业务
类型。如图3所示,上述推断模块12还可包括:
[0162] 第二推断单元123,用于基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
[0163] 其中,上述预先建立的多分类模型可以依据机器学习模型训练过程得到,主要包括两个阶段:数据准备阶段和模型训练阶段。数据准备阶段主要是获取大量的列数据,并且
为这些列数据标注业务类型标签,该标注业务类型标签的大量列数据构成样本集,该样本
集可以分成两部分,一部分作为训练样本集用于训练模型,另一部分作为测试样本集用于
测试训练完成的训练模型。模型训练阶段即是利用训练样本集进行模型训练。
[0164] 进一步地,由于列数据的数据基础类型和业务类型之间存在一定的关系,数据基础类型可以为业务类型的推断提供一定的先验信息,为了提高该多分类模型推断列数据的
业务类型的速度和准确度,在执行基于预先建立的多分类模型推断列数据的业务类型时,
具体包括:在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据
集的列数据以及相应的数据基础类型处理为特征向量(此处理为特征向量的方式可采用现
有技术,本实施例不对此进行限制);然后,将所述特征向量输入所述预先建立的多分类模
型,推断所述待处理数据集中每一列数据的业务类型。
[0165] 也就是说,上述的第二推断单元123可以包括:
[0166] 处理子单元,用于在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;
[0167] 推断子单元,用于将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
[0168] 本发明实施例中,在上述待处理数据集为待处理的多个数据集的情况下,为了明确处理策略,可以优先从待处理的多个数据集中确定目标数据集,并针对该目标数据集来
确定目标数据处理策略。此外,目标数据集还可由数据处理系统默认推荐或用户预先指定。
目标数据集的数量可以是多个,而针对每个目标数据集都可推荐相应的一个或多个数据处
理策略。
[0169] 可选的,如图4所示,所述数据处理系统还包括:
[0170] 第二确定模块15,用于从所述待处理数据集中确定目标数据集。
[0171] 进一步的,所述第一确定模块13具体用于:基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。
[0172] 一种实施方式中,数据处理系统可以基于待处理数据集的整体业务类型,选定目标数据集。
[0173] 另一种实施方式中,数据处理系统可以基于相应领域下的待处理数据集的领域模型的统计分析,选定目标数据集;比如基于数据集名称、数据集中字段等的统计分析给出相
应的选择目标数据集的规则。
[0174] 另一种实施方式中,数据处理系统可以基于语义分析选定目标数据集。具体的,可以利用预设的语义分析规则对数据集的名称进行语义分析,以确定目标数据集。比如,利用
语义分析规则可以将名称为“交易表”的数据集确定为目标数据表,将名称为“交易详情表”
的数据集确定为非目标数据表(例如,为辅助表)。
[0175] 另一种实施方式中,数据处理系统可以基于用户的输入操作,选定目标数据集。
[0176] 对于得到待处理数据集和对数据集进行数据类型推断的顺序,可以先得到待处理数据集,再数据类型推断;也可以先数据类型推断,再得到待处理数据集;也可以得到待处
理数据集和数据类型推断同时进行,本实施例中不对此进行限制。而本实施例中优选先对
已创建的数据集进行数据类型推断,再得到待处理数据集。
[0177] 需说明的,本实施例中的数据处理系统可自动推荐多个数据处理策略,并基于用户选择或系统默认选择目标数据处理策略(比如最优策略)。一般情况下若用户不选择直接
点击执行,则执行系统默认最优策略。在一种可能的实现方式中,所述方法还包括:通过策
略界面的推荐策略管理区域展示至少一个数据处理策略;响应于用户在推荐策略管理区域
的策略选取操作,将推荐策略管理区域中被选择的数据处理策略呈现于策略界面的目标策
略管理区域;将呈现于目标策略管理区域的数据处理策略确定为用于处理所述待处理数据
集的数据处理策略。例如参见图5所示的策略界面图中,左侧的推荐策略管理区域包括系统
推荐策略和其他策略,右侧的目标策略管理区域包括用户选择的策略;具体的,左侧为系统
推荐的策略和其他策略,右侧为用户选择的系统默认的1个最优策略。在用户点击展开该1
个最优策略时,展示的策略包含多个步骤:异常行删除、自动填充空值、自动校正日期格式。
[0178] 此外,用户还可以调整策略和/或自定义策略,并保存策略用于下次使用或供其他用户使用。具体的,系统可以提供一些基本的处理方法,例如上图5中的具体步骤,用户可以
选择具体的步骤组成新的策略以自定义策略(具体的,可以为针对所述目标数据集的自定
义策略),或者调整策略中的具体步骤以调整策略。
[0179] 可选的,如图4所示,所述第一确定模块13可以包括:
[0180] 第一推荐单元131,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
[0181] 第一确定单元132,用于将多个数据处理策略中的最优策略确定为所述目标数据处理策略。
[0182] 这样,可以基于系统自动推荐得到最优策略,从而对数据进行最优处理。
[0183] 可选的,所述接口模块11还可用于:接收用户在策略界面上的第二输入操作。如图4所示,所述第一确定模块13还可包括:
[0184] 第二推荐单元133,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
[0185] 第二确定单元134,用于响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;或者,响应于所述第二输入操作,将第二策
略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中
的第一策略进行调整后得到。
[0186] 此外,当存在用户在策略界面上的第二输入操作时,所述第一确定模块13具体还可用于:响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对
所述目标数据集的第三策略确定为所述目标数据处理策略。
[0187] 可理解的,具体实现时,上述的第一推荐单元131和第二推荐单元133可以为同一个单元。这样,结合用户输入操作来选定目标数据处理策略,可以提高所选策略的有效性。
[0188] 一种实施方式中,数据处理系统在推荐数据处理策略时,所依据的内容包括但不限于以下至少一项:目标数据集的整体业务类型、目标数据集中唯一列(这唯一列中每一行
的值不同,可由系统自动识别)的业务类型、各个待处理的数据集中每一列数据的数据基础
类型和/或业务类型。
[0189] 进一步的,如图4所示,所述数据处理系统10还可包括:
[0190] 显示模块16,用于显示以下至少一项:待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系等。
[0191] 其中,该推荐的数据处理策略中的字段信息包括但不限于:字段名称、字段含义、字段的计算方法等。该推荐的数据处理策略中的数据血缘关系包括但不限于:数据集级别
的数据血缘关系、字段级别的数据血缘关系等。这样,可以便于用户了解所需的策略以及相
关信息。
[0192] 本发明实施例中,对于系统推荐的数据处理策略,可至少包括两类:一类是用于提升数据质量(数据质量处理),即简单的进行数据处理,比如对某一列基于中位数进行缺失
值填充、对某一列中的空白值所在行进行丢弃等;另一类是用于对数据进行衍生,即进行数
据衍生处理,例如对日期列的拆分、按某个列的取值进行聚合等。此外,还可包括合并数据
集、去除冗余列等。
[0193] 可选的,所述目标数据处理策略包括以下至少一项:
[0194] 数据质量处理策略;
[0195] 数据衍生处理策略;
[0196] 合并数据集;
[0197] 去除冗余列。
[0198] 其中,在所述目标数据处理策略包括数据质量处理策略、数据衍生处理策略和合并数据集的情况下,所述目标数据处理策略的执行顺序可包括但不限于以下任意一项:
[0199] 第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;
[0200] 第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;
[0201] 第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;
[0202] 第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;
[0203] 第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。
[0204] 比如,本实施例中具体策略可包括:方案(1)先对各待处理数据集分别进行数据质量处理,再合并各处理后的数据集,再进行数据衍生处理(其中,数据衍生处理可以与合并
各处理后的数据集同步进行);方案(2)先合并各数据集,再进行数据质量处理和数据衍生
处理;方案(3)先进行数据质量处理和数据衍生处理,再合并各处理后的数据集。而本实施
例优选方案(1)。
[0205] 一种实施方式中,可以先基于列数据的数据类型和数据质量,推荐提升数据质量的策略步骤,再基于列数据的数据类型和可选的聚合函数,推荐用于衍生的策略步骤。其
中,此方式中的列数据的数据类型可以只包括数据基础类型或业务类型,也可以包括数据
基础类型和业务类型。
[0206] 可选的,若上述的待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略还可以包括以下至少一项:
[0207] 针对所述目标数据集和/或所述第一数据集的数据质量处理策略;
[0208] 针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;
[0209] 从所述待处理数据集中选择至少两个数据集进行合并的策略;
[0210] 以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。其中作为主键字段的目标字段是可选
的,可以为目标数据集中的唯一列字段,该唯一列字段中每一行的值唯一地标识相应数据
集中的某一条记录。其中,利用主键字段作为连接字段(被合并的多个数据集中都有的字
段),生成中间合并数据集或最终的合并数据集,根据目标数据处理策略确定提取的相关数
据。
[0211] 所述以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集,与针对所述目标数据集和/或所述
第一数据集的数据衍生处理策略可以同步进行。
[0212] 进一步的,所述数据质量处理策略可包括但不限于以下至少一项:空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理(比如向上取整、
向下取整)、日期格式处理(比如格式统一处理)等。而所述数据衍生处理策略可包括但不限
于以下至少一项:数值范围标记处理、日期提取处理(比如提取年、月、日等)、数据聚合处理
等。
[0213] 其中,所述数据聚合处理的方式可包括但不限于以下至少一项:Mean(计算某列数据的平均值)、Sum(计算某列数据的总和)、Count(计算某列数据的数量)、Max(计算某列数
据的最大值)、Min(计算某列数据的最小值)、Variance(计算某列数据的方差)、Standard 
Deviation(计算某列数据的标准偏差)、Mode(计算某列数据的众数)、Median(计算某列数
据的中位数)、Distinct(计算某列数据的非重复取值的数量)、四分位距(Interquartile 
Range,IQR,计算某列数据的四分差,此是描述统计学中的一种方法,以确定其中第三四分
位数和第一四分位数的区别)等。
[0214] 进一步的,所述合并数据集的方式可包括以下任意一项:join连接方式、union拼接方式。其中,通过join连接或union拼接可生成合并数据集(如大宽表),即生成单数据集,
根据数据集的类型横向扩展或纵向拼接。对于join连接方式,是指根据连接字段(此指含义
相同的字段,例如用户ID)将多个数据集合成一个数据集,即横向扩展(列变多了)。对于
union拼接方式,是指选择多个数据集中相同类型的字段,纵向拼接合成一个数据集。可理
解的,若几张表之间既有相同的字段又有不同的字段,且不同的字段数量较多,则进行join
连接是比较有意义的,而若两张表的字段是相互包含关系,则进行union拼接是比较有意义
的。
[0215] 进一步的,所述去除冗余列的方式可包括以下任意一项:1)计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;2)对列数据进行主成分分析
(Principal Component Analysis,PCA)降维,获取预设范围的列。其中,对于PCA降维的方
式以及获取预设范围的列可参见现有方式,本实施例不对此进行限制。这样,借助计算列
(字段)之间的关系来去除冗余列,可以避免维度爆炸的问题。
[0216] 一种实施方式中,以交易表为例,该交易表包含的字段如下所示:交易ID、会话ID、交易时间、产品ID、交易额;则,系统推荐的提升数据质量的策略可包括:1)删除交易额为空
的记录;2)将交易时间转换为统一的时间格式;3)将交易额转换为统一的货币单位;和/或,
系统推荐的进行数据衍生的策略可包括:1)从交易时间提取星期作为新的列(比如新增星
期一到星期日的7个列,列的值可以取为0和1标识一个交易发生在星期几);2)从交易时间
提取1~24小时的时间段作为新的列(比如新增0、1~23共24个列,用0和1标识一个交易发
生在哪个时间段);3)使用SUM聚合函数计算一周中每天的交易量、交易金额以及一天中每
个时间段的交易量、交易金额。
[0217] 需指出的是,在本实施例中,基于不同的数据类型,数据质量处理的方式和数据衍生处理的方式可以不同。其中,数据质量处理仅会改变数据的质量,并不会新增数据(例如
新增列或行数)例如一列为数值列,存在空白值,则可以使用其他值的平均值或中位数来填
充空白值。而数据衍生则会在原有数据集的基础上新增列、改变行的数量或新增辅助表,例
如原有一列为日期,且格式为YYYY‑MM‑dd,则可以基于该列衍生出新的列,比如year、
month、day、weekday等等。
[0218] 此外,对于不同的数据类型,具体的数据处理方式也可以不同。比如缺失值填充:针对数值类型、类别类型等,缺失值填充处理方式不同。数据基础类型可包括数值类型、类
别类型。所述数值类型包括下述之一的基础类型:整型、长整型、浮点型、双精度类型。所述
类别类型可包括下述之一的基础类型:时间型、字符串型、布尔类型等,并且取值是有限个
值。
[0219] 对于合并数据集以及数据质量和/或衍生处理,可以先合并数据集,再执行数据质量和/或衍生处理,也可以先执行数据质量和/或衍生处理,再合并数据集;也可以合并数据
集以及数据质量和/或衍生处理同步进行。
[0220] 一种实施方式中,可首先对各数据表分别执行数据质量处理,例如空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空等;然后对处理后的数据表进行
合并;最后根据策略进行进一步地数据处理,如数据衍生处理。
[0221] 可选的,所述数据衍生处理策略可包括:基于待处理数据集或者处理后的合并数据集进行聚合处理,生成辅助数据集;其中,所述聚合处理具体可以为进行数据统计操作。
上述数据衍生处理的过程可包括:基于多张数据表或者处理后的合并数据表进行聚合处理
(例如统计操作),生成辅助表。比如,基于邮编统计地区,基于身份证号统计人,基于金额求
和、求平均值等。
[0222] 例如,基于聚合处理(例如统计操作)生成辅助表的示例可如下表1和表2所示。其中,表1为员工表的部分示例数据,各字段依次表示员工ID、部门ID、入职日期、离职日期。而
通过聚合处理可以统计各个部门当前分别有多少人,如表2所示的统计结果(部分示例数
据)。
[0223] 表1
[0224] 员工ID 部门ID 入职日期 离职日期10001 d001 2010/6/7 2015/6/7
10002 d001 2010/6/8 9999/1/1
10003 d001 2010/6/9 9999/1/1
10004 d001 2010/6/10 9999/1/1
10005 d002 2010/6/11 9999/1/1
10006 d006 2010/6/12 9999/1/1
10007 d007 2010/6/13 9999/1/1
10008 d008 2010/6/14 9999/1/1
10009 d002 2010/6/7 9999/1/1
10010 d006 2010/6/8 9999/1/1
10011 d007 2010/6/9 9999/1/1
10012 d008 2010/6/10 9999/1/1
10013 d002 2010/6/11 9999/1/1
10014 d006 2010/6/12 9999/1/1
10015 d007 2010/6/13 9999/1/1
10016 d008 2010/6/14 9999/1/1
10017 d002 2010/6/7 9999/1/1
10018 d006 2010/6/8 9999/1/1
10019 d007 2010/6/9 2019/10/21
10020 d008 2010/6/10 2019/10/22
[0225] 表2
[0226]
[0227]
[0228] 下面结合表3至表11对本发明具体实例的数据处理过程进行说明。
[0229] 本发明具体实例中,对应的数据处理过程可主要包括以下步骤:
[0230] S1:选定多张待处理数据表;如下所示表3~表7(仅为各表的部分示例数据)。
[0231] 表3(会话表)
[0232]
[0233] 表4(用户表)
[0234]
[0235] 表5(交易表)
[0236]
[0237] 表6(日志表)
[0238]
[0239] 表7(商品详情表)
[0240]
[0241] S2:数据处理系统(以下简称为:系统)对选定的数据表进行数据类型推断,包括每一张数据表的整体业务类型,以及每一张数据表中每一列数据的数据基础类型和业务类
型。具体的,系统可推断或用户选择电商领域,并推断出每一张数据表的整体业务类型分别
是:表3为会话表、表4为用户表、表5为交易表、表6为日志表和表7为商品详情表。
[0242] S3:系统推荐指定目标数据表。可选的,系统可以基于数据表的整体业务类型选定一个或多个目标数据表;或者,系统可以基于相应领域的统计分析选定推荐的目标数据表。
例如,系统可以基于统计分析,选择出比较重要的、有意义的数据表作为目标数据表,比如
在电商领域中因用户表比较重要则被选为目标数据表,而日志表不作为目标数据表。
[0243] S4:基于S2中数据类型推断的结果,系统针对各个目标数据表推荐对应的数据处理策略。
[0244] S5:基于S4中推荐的数据处理策略,选择目标数据处理策略后,进行数据处理。一种实施方式中,可首先对各个数据表分别进行数据质量处理提升每张表的数据质量,比如
若数据表中有缺失数据,则进行数据填充;而若数据表中数据质量良好,则可以不用进行数
据质量处理;然后多张数据表合并为一张宽表,其中需要有一个连接字段,系统自动识别某
个唯一列作为连接字段,可以针对每一个唯一列生成一个宽表,并在合并数据表时同步地
进行数据衍生,即生成的宽表为同时进行了数据衍生的数据表。
[0245] 此外结合界面操作,本发明具体实例的数据处理过程可包括以下步骤:
[0246] 步骤一:系统选定目标数据表。可选的,系统可在用户选择的多个待处理数据表中基于表的整体业务类型检测目标数据表,并给出检测出的目标数据表。用户也可以自定义
选择目标数据表或调整系统推荐(自动选定)的目标数据表。
[0247] 一种实施方式中,用于选定目标数据表的用户界面可以如图6所示(附图中目标表即目标数据表)。其中若考虑用户特征,可选定用户表作为目标数据表;若考虑会话特征,可
选定会话表作为目标数据表;若考虑交易特征,可选定交易表作为目标数据表。此外还可由
用户自定义目标数据表。
[0248] 步骤二:针对选定的目标数据表,系统推荐相应的数据处理策略,进一步的用户可以选择目标数据处理策略(比如最优策略)。
[0249] 一种实施方式中,以上述表4中用户表作为目标数据表为例,相应的界面图可如图7所示,左侧为系统推荐的最优策略、次优策略和其他策略,右侧为用户选择的系统默认的
最优策略。其中最优策略包括以下步骤:①对于其中的邮编,检查并删除邮编中的异常值,
包括按业务类型的处理:其具有有限个合法值,因此对于不合理的取值的记录进行删除;按
数据基础类型处理:比如邮编是整型的,如果某个值为字符串类型的,则不正确,进行删除。
②按业务类型的处理:将邮编使用实际地址进行替换,便于用户理解。③按业务类型的处
理:检查注册日期是否合理并删除异常值,如果出现过早的日期(例如早于电商平台成立日
期,不属于合理的日期范围),则是不正确的,需要将对应的记录删除。
[0250] 可理解的,上述图7所示的策略仅为简单示例。针对表4中用户表作为目标数据表,与其他数据表的合并及进行数据处理等,具体的策略还可以包括以下多个步骤:
[0251] 一、对于数据表中的邮编(例如用户表的邮编)执行如下处理:
[0252] 1、检查并删除邮编中的异常值;
[0253] 2、将邮编使用实际地址替换。
[0254] 二、对于各个数据表中的日期执行如下处理:
[0255] 1、检查不合理的日期;
[0256] 2、删除不合理的日期对应的记录。
[0257] 三、对于数据表中的商品ID(例如交易表的商品ID)执行如下处理:
[0258] 1、删除不合理的ID(商品详情表中不存在即认为不合理);
[0259] 2、使用实际的产品名称替换商品ID。
[0260] 四、进行数据表的合并与数据衍生处理。比如,以用户表(目标数据表)中的用户ID字段(目标数据表的唯一列)作为主键字段,提取其他数据表中的相关信息进行表合并与数
据衍生处理后的数据表可如下表8(其包含的部分字段)所示。其中,利用用户ID作为连接字
段把用户表和会话表合并为中间合并数据表(即中间合并数据集),然后利用会话ID合并中
间合并数据表和交易表,同步地进行数据衍生处理,得到最终的合并数据表。
[0261] 表8
[0262]
[0263]
[0264] 进一步的,本发明具体实例中还可以进行聚合处理生成辅助表。比如,针对上述表5中交易表作为目标数据表,基于聚合处理可以统计每种产品的销售额,统计结果可如下表
9中所示:
[0265] 表9
[0266] product_id Amount1 307.14
2 159.42
3 135.05
4 43.59
5 44.11
[0267] 又比如,针对上述表3中会话表作为目标数据表,基于聚合处理可以统计每种设备的用户数量,统计结果可如下表10中所示:
[0268] 表10
[0269] Device count_customerTablet 3
Mobile 3
Desktop 4
[0270] 又比如,针对上述表4中用户表作为目标数据表,基于聚合处理可以统计每个邮编(zip_code)的用户数量,统计结果可如下表11中所示:
[0271] 表11
[0272] Zip_code count_customer60091 3
13244 2
[0273] 上述实施例对本发明的数据处理系统进行了说明,下面将结合实施例和附图对本发明的数据处理方法进行说明。
[0274] 参见图8所示,本发明实施例还提供了一种数据处理方法,所述方法包括如下步骤:
[0275] 步骤801:接收用户在数据集界面上的第一输入操作,得到待处理数据集。
[0276] 步骤802:推断所述待处理数据集的类型信息。
[0277] 步骤803:基于所述待处理数据集的类型信息,确定目标数据处理策略。
[0278] 步骤804:利用所述目标数据处理策略,对所述待处理数据集进行数据处理。
[0279] 在本发明实施例中,通过推断待处理数据集的类型信息,并基于此确定目标数据处理策略,利用该目标数据处理策略进行数据处理,可以简化数据处理过程,并且相比于通
过人工定义策略进行数据准备,可以提高数据准备的适用性和效率,有利于后续的模型训
练(例如机器学习)、业务分析、数据挖掘等。
[0280] 可选的,所述步骤803之前,所述方法还包括:
[0281] 从所述待处理数据集中确定目标数据集。
[0282] 而所述步骤803包括:基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。
[0283] 进一步的,所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
[0284] 基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
[0285] 将多个数据处理策略中的最优策略确定为所述目标数据处理策略。
[0286] 可选的,所述方法还包括:
[0287] 接收用户在策略界面上的第二输入操作;
[0288] 所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
[0289] 基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
[0290] 响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;
[0291] 或者,响应于所述第二输入操作,将第二策略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的第一策略进行调整后得到。
[0292] 可选的,所述方法还包括:
[0293] 接收用户在策略界面上的第二输入操作;
[0294] 所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
[0295] 响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对所述目标数据集的第三策略确定为所述目标数据处理策略。
[0296] 可选的,所述方法还包括:
[0297] 显示以下至少一项:所述待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系。
[0298] 可选的,所述类型信息包括以下至少一项:
[0299] 所述待处理数据集中每一数据集的业务类型;
[0300] 所述待处理数据集中每一列数据的数据基础类型和/或业务类型。
[0301] 可选的,所述步骤802包括:基于预设的领域模型,推断所述待处理数据集中每一数据集的业务类型。
[0302] 可选的,所述步骤802具体包括:
[0303] 基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。
[0304] 可选的,所述步骤802具体包括:
[0305] 基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
[0306] 可选的,所述步骤802具体包括:
[0307] 在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;
[0308] 将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
[0309] 可选的,所述领域模型为相应领域下的数据集的结构规则或者模板。
[0310] 可选的,所述目标数据处理策略包括以下至少一项:
[0311] 数据质量处理策略;
[0312] 数据衍生处理策略;
[0313] 合并数据集;
[0314] 去除冗余列。
[0315] 可选的,所述目标数据处理策略的执行顺序包括以下任意一项:
[0316] 第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;
[0317] 第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;
[0318] 第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;
[0319] 第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;
[0320] 第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。
[0321] 可选的,所述待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略包括以下至少一项:
[0322] 针对所述目标数据集和/或所述第一数据集的数据质量处理策略;
[0323] 针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;
[0324] 从所述待处理数据集中选择至少两个数据集进行合并的策略;
[0325] 以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。
[0326] 可选的,所述数据质量处理策略包括以下至少一项:
[0327] 空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理、日期格式处理。
[0328] 可选的,所述数据衍生处理策略包括以下至少一项:
[0329] 数值范围标记处理、日期提取处理、数据聚合处理。
[0330] 可选的,所述合并数据集的方式包括以下任意一项:
[0331] join连接方式、union拼接方式。
[0332] 可选的,所述去除冗余列的方式包括以下任意一项:
[0333] 计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;
[0334] 对列数据进行主成分分析降维,获取预设范围的列。
[0335] 此外,本发明实施例还提供了一种数据处理系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器
执行时可实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重
复,这里不再赘述。
[0336] 本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技
术效果,为避免重复,这里不再赘述。
[0337] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数
据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器
(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器
(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读
存储器(CD‑ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或
其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照
本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的
数据信号和载波。
[0338] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而
且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有
的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该
要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0339] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0340] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下
前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做
出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质
(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台数据处理系统设备(可以是手机,
计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0341] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应
视为本发明的保护范围。