一种数据处理系统及方法转让专利
申请号 : CN201911421978.4
文献号 : CN111177200B
文献日 : 2021-05-11
发明人 : 方磊 , 王清臣 , 武华亭
申请人 : 北京九章云极科技有限公司
摘要 :
权利要求 :
1.一种数据处理系统,其特征在于,所述系统应用于大数据挖掘和分析中,所述系统包括:
接口模块,用于接收用户在数据集界面上的第一输入操作,得到待处理数据集;所述待处理数据集中的数据为结构化数据或半结构化数据;
推断模块,用于推断所述待处理数据集的类型信息;其中,所述待处理数据集的类型信息包括:数据基础类型和/或业务类型;
第一确定模块,用于基于所述待处理数据集的类型信息,确定目标数据处理策略;
处理模块,用于利用所述目标数据处理策略,对所述待处理数据集进行数据处理;
其中,所述目标数据处理策略包括以下至少一项:数据质量处理策略;
数据衍生处理策略;其中,所述数据衍生处理策略包括基于所述待处理数据集进行聚合处理,生成辅助数据集;
合并数据集;
去除冗余列;
其中,所述第一确定模块具体用于执行以下过程:基于所述待处理数据集中的列数据的数据类型和数据质量,推荐提升数据质量的策略;
基于所述待处理数据集中的列数据的数据类型和预设的聚合函数,推荐用于进行数据衍生的策略;
其中,所述系统还包括:
显示模块,用于显示以下至少一项:所述待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系。
2.根据权利要求1所述的系统,其特征在于,所述系统还包括:第二确定模块,用于从所述待处理数据集中确定目标数据集;
所述第一确定模块具体用于:基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。
3.根据权利要求2所述的系统,其特征在于,所述第一确定模块包括:第一推荐单元,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
第一确定单元,用于将多个数据处理策略中的最优策略确定为所述目标数据处理策略。
4.根据权利要求2所述的系统,其特征在于,所述接口模块还用于:接收用户在策略界面上的第二输入操作;
所述第一确定模块包括:
第二推荐单元,用于基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
第二确定单元,用于响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;或者,响应于所述第二输入操作,将第二策略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的第一策略进行调整后得到。
5.根据权利要求2所述的系统,其特征在于,所述接口模块还用于:接收用户在策略界面上的第二输入操作;
所述第一确定模块具体用于:响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对所述目标数据集的第三策略确定为所述目标数据处理策略。
6.根据权利要求1所述的系统,其特征在于,所述类型信息包括以下至少一项:所述待处理数据集中每一数据集的业务类型;
所述待处理数据集中每一列数据的数据基础类型和/或业务类型。
7.根据权利要求6所述的系统,其特征在于,所述推断模块具体用于:基于预设的领域模型,推断所述待处理数据集中每一数据集的业务类型。
8.根据权利要求6所述的系统,其特征在于,所述推断模块包括:调用单元,用于基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;
第一推断单元,用于基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。
9.根据权利要求6所述的系统,其特征在于,所述推断模块包括:第二推断单元,用于基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
10.根据权利要求9所述的系统,其特征在于,所述第二推断单元包括:处理子单元,用于在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;
推断子单元,用于将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
11.根据权利要求7所述的系统,其特征在于,所述领域模型为相应领域下的数据集的结构规则或者模板。
12.根据权利要求1所述的系统,其特征在于,所述目标数据处理策略的执行顺序包括以下任意一项:
第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;
第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;
第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;
第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;
第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。
13.根据权利要求1所述的系统,其特征在于,所述待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略包括以下至少一项:针对所述目标数据集和/或所述第一数据集的数据质量处理策略;
针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;
从所述待处理数据集中选择至少两个数据集进行合并的策略;
以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。
14.根据权利要求1或13所述的系统,其特征在于,所述数据质量处理策略包括以下至少一项:
空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理、日期格式处理。
15.根据权利要求1或13所述的系统,其特征在于,所述数据衍生处理策略包括以下至少一项:
数值范围标记处理、日期提取处理、数据聚合处理。
16.根据权利要求1所述的系统,其特征在于,所述合并数据集的方式包括以下任意一项:
join连接方式、union拼接方式。
17.根据权利要求1所述的系统,其特征在于,所述去除冗余列的方式包括以下任意一项:
计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;
对列数据进行主成分分析降维,获取预设范围的列。
18.一种数据处理方法,其特征在于,所述方法应用于大数据挖掘和分析中,所述方法包括:
接收用户在数据集界面上的第一输入操作,得到待处理数据集;所述待处理数据集中的数据为结构化数据或半结构化数据;
推断所述待处理数据集的类型信息;其中,所述待处理数据集的类型信息包括:数据基础类型和/或业务类型;
基于所述待处理数据集的类型信息,确定目标数据处理策略;
利用所述目标数据处理策略,对所述待处理数据集进行数据处理;
其中,所述目标数据处理策略包括以下至少一项:数据质量处理策略;
数据衍生处理策略;其中,所述数据衍生处理策略包括基于所述待处理数据集进行聚合处理,生成辅助数据集;
合并数据集;
去除冗余列;
其中,所述基于所述待处理数据集的类型信息,确定目标数据处理策略,包括:基于所述待处理数据集中的列数据的数据类型和数据质量,推荐提升数据质量的策略;
基于所述待处理数据集中的列数据的数据类型和预设的聚合函数,推荐用于进行数据衍生的策略;
其中,所述方法还包括:
显示以下至少一项:所述待处理数据集的类型信息、推荐的数据处理策略中的字段信息、推荐的数据处理策略中的数据血缘关系。
19.根据权利要求18所述的方法,其特征在于,所述基于所述待处理数据集的类型信息,确定目标数据处理策略之前,所述方法还包括:从所述待处理数据集中确定目标数据集;
所述基于所述待处理数据集的类型信息,确定目标数据处理策略,包括:基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略。
20.根据权利要求19所述的方法,其特征在于,所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
将多个数据处理策略中的最优策略确定为所述目标数据处理策略。
21.根据权利要求19所述的方法,其特征在于,所述方法还包括:接收用户在策略界面上的第二输入操作;
所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
基于所述待处理数据集的类型信息,针对所述目标数据集推荐多个数据处理策略;
响应于所述第二输入操作,将用户从所述多个数据处理策略中选择的策略确定为所述目标数据处理策略;
或者,响应于所述第二输入操作,将第二策略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的第一策略进行调整后得到。
22.根据权利要求19所述的方法,其特征在于,所述方法还包括:接收用户在策略界面上的第二输入操作;
所述基于所述待处理数据集的类型信息,确定针对所述目标数据集的所述目标数据处理策略,包括:
响应于所述第二输入操作,将用户基于所述待处理数据集的类型信息定义的针对所述目标数据集的第三策略确定为所述目标数据处理策略。
23.根据权利要求18所述的方法,其特征在于,所述类型信息包括以下至少一项:所述待处理数据集中每一数据集的业务类型;
所述待处理数据集中每一列数据的数据基础类型和/或业务类型。
24.根据权利要求23所述的方法,其特征在于,所述推断所述待处理数据集的类型信息,包括:
基于预设的领域模型,推断所述待处理数据集中每一数据集的业务类型。
25.根据权利要求23所述的方法,其特征在于,所述推断所述待处理数据集的类型信息,包括:
基于预设顺序,依次调用预先构造的各个数据基础类型对应的类型推断函数;
基于调用的类型推断函数,推断所述待处理数据集中每一列数据的数据基础类型。
26.根据权利要求23所述的方法,其特征在于,所述推断所述待处理数据集的类型信息,包括:
基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
27.根据权利要求26所述的方法,其特征在于,所述基于预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型,包括:在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据集的列数据以及相应的数据基础类型处理为特征向量;
将所述特征向量输入所述预先建立的多分类模型,推断所述待处理数据集中每一列数据的业务类型。
28.根据权利要求24所述的方法,其特征在于,所述领域模型为相应领域下的数据集的结构规则或者模板。
29.根据权利要求18所述的方法,其特征在于,所述目标数据处理策略的执行顺序包括以下任意一项:
第一步为数据质量处理策略,第二步为合并数据集,第三步为数据衍生处理策略;
第一步为数据质量处理策略,第二步为合并数据集并同步地进行数据衍生处理策略;
第一步为数据质量处理策略,第二步为数据衍生处理策略,第三步为合并数据集;
第一步为合并数据集,第二步为数据质量处理策略,第三步为数据衍生处理策略;
第一步为数据衍生处理策略,第二步为合并数据集,第三步为数据质量处理策略。
30.根据权利要求18所述的方法,其特征在于,所述待处理数据集包括目标数据集和多个第一数据集,所述目标数据处理策略包括以下至少一项:针对所述目标数据集和/或所述第一数据集的数据质量处理策略;
针对所述目标数据集和/或所述第一数据集的数据衍生处理策略;
从所述待处理数据集中选择至少两个数据集进行合并的策略;
以所述目标数据集中的目标字段为主键字段,从所述待处理数据集和/或处理后的待处理数据集中提取相关数据构成合并数据集。
31.根据权利要求18或30所述的方法,其特征在于,所述数据质量处理策略包括以下至少一项:
空值列删除、缺失值填充、去重、排序、过滤、异常行删除、异常值设置为空、数值取整处理、日期格式处理。
32.根据权利要求18或30所述的方法,其特征在于,所述数据衍生处理策略包括以下至少一项:
数值范围标记处理、日期提取处理、数据聚合处理。
33.根据权利要求18所述的方法,其特征在于,所述合并数据集的方式包括以下任意一项:
join连接方式、union拼接方式。
34.根据权利要求18所述的方法,其特征在于,所述去除冗余列的方式包括以下任意一项:
计算不同列之间的相关系数,并对相关性高于预设值的不同列保留其一;
对列数据进行主成分分析降维,获取预设范围的列。
35.一种数据处理系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求
18至34中任一项所述的数据处理方法的步骤。
36.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求18至34中任一项所述的数据处理方法的步骤。
说明书 :
一种数据处理系统及方法
技术领域
背景技术
适用性较差、效率较低。
发明内容
确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中的
第一策略进行调整后得到。
器执行时实现上述数据处理方法的步骤。
过人工进行数据准备,可以提高数据准备的适用性和效率,有利于后续的模型训练(例如机
器学习)、业务分析、数据挖掘等。
附图说明
本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其
他的附图。
具体实施方式
明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本发明保护的范围。
System,分布式文件系统),和/或,单机文件系统等文件系统。分布式文件系统文件格式可
以包括但不限于:CSV、TSV、TXT、parquet、Excel、ORC等;单机文件系统文件格式可以包括但
不限于:CSV、TSV、TXT、parquet、Excel等。数据库类型数据源是指数据源为DBMS(Database
Management System,数据库管理系统),包括且不限于下述数据库至少之一:Oracle甲骨文
数据库、DB2数据库、SQL Server数据库、MySQL数据库、PostgreSQL数据库、Hive数据库、
Teredata数据库、Greenplum数据库、GaussDB数据库。
域的部分或全部数据集。比如,参见图2所示,此时得到待处理数据集的过程可为:数据集界
面中指定区域(如图2左栏区域)显示已创建的数据集列表,通过接收用户针对于该已创建
的数据集列表执行的选择操作,从该已创建的数据集列表中筛选出该选择操作指示的数据
集,从而得到待处理数据集。
建界面,用户通过操作该数据集创建界面,创建新数据集。其中,用户通过操作该数据集创
建界面,可以选择以上传方式将数据源中的数据导入到数据处理系统,进而创建一新数据
集;或者,用户通过操作该数据集创建界面,可以选择将数据源的访问地址添加到该数据集
创建界面,从而使得数据处理系统通过该访问地址,访问该数据源,进而创建一新数据集。
需要说明的是,若选择以上传方式将数据源中的数据导入到该数据处理系统,进而实现新
数据集的创建,在创建一新数据集之前,需要先将文件类型数据源和/或数据库类型数据源
的数据以文件形式导出;然后,在创建新数据集时,用户可以通过拖拽方式,将该文件拖拽
至数据集创建界面,以实现将文件上传至数据处理系统,完成新数据集的创建。其中,该导
出的文件的文件格式可以包括但不限于下述至少之一:CSV、TSV、TXT、XLS、ZIP、TAR。
过人工进行数据准备,可以提高数据准备的适用性和效率,有利于后续的模型训练(例如机
器学习)、业务分析、数据挖掘等。
基础类型、业务类型等。上述推断模块12推断出的类型信息可以包括以下至少一项:
据集的业务类型。需指出的是,数据集可以基于领域分类,并基于系统(此表示本实施例中
的数据处理系统,下同)默认推荐或用户选择领域。用户可以自定义调整数据集的业务类
型。系统可以预置默认领域模型,不同的领域有不同的模型(比如数据表的模型)。例如,银
行领域的模型包括下述至少之一:客户信息表、交易流水表、凭证表、验证码表等;电商领域
的模型包括下述至少之一:用户表、会话表、交易表、日志表等;交通领域的模型包括下述至
少之一:车辆表、违规违章表、人员表等。实际应用中,所述领域及领域模型可以不断扩展,
例如基于用户设置进行扩展,即基于用户新设置的领域及其中的表构建领域模型。
名称、用户注册日期等)、各字段数据基础类型的范畴及各字段业务类型的范畴等。
上述列数据的业务类型可包括下述至少之一:电话号码(例如手机号码)、身份证号、邮编、
时间长度、日期、金额、标识地理坐标中的点、标识WKT格式的地理线、多边形、标识英语国家
名或ISO国家码、电子邮件(E‑Mail)地址、温度、性别、尺寸、重量、用户自定义的业务类型
等。
和业务类型对数据采用针对性的处理方法。可选的,由于每类数据基础类型对应的列数据
的取值具有一定的取值条件,例如,对于数据基础类型为整型的数据,其列数据的取值条件
为整数;对于数据基础类型为浮点型的数据,其列数据的取值条件为小数;对于数据基础类
型为布尔型的数据,其列数据的取值为0或1,等等,因此,本申请可基于每类数据基础类型
对应的列数据的取值条件,构造每类数据基础类型对应的类型推断函数,如此在实现推断
待处理数据中的列数据对应的数据基础类型时,可以利用每类数据基础类型对应的构造函
数,确定待处理数据集中每一列数据的数据基础类型。如图3所示,上述推断模块12可包括:
的实现提供一种可行方式,即:在推断列数据对应的业务类型时,基于业务类型的取值规则
来推断相应业务类型。而对于一些复杂的数据集,为保证相对准确地推断出这些复杂数据
的业务类型,本申请还可结合机器学习技术,利用机器学习模型对待处理数据集的列数据
进行业务类型推断,即基于预先建立的多分类模型推断所述待处理数据集的列数据的业务
类型。如图3所示,上述推断模块12还可包括:
为这些列数据标注业务类型标签,该标注业务类型标签的大量列数据构成样本集,该样本
集可以分成两部分,一部分作为训练样本集用于训练模型,另一部分作为测试样本集用于
测试训练完成的训练模型。模型训练阶段即是利用训练样本集进行模型训练。
业务类型的速度和准确度,在执行基于预先建立的多分类模型推断列数据的业务类型时,
具体包括:在得到所述待处理数据集中每一列数据的数据基础类型后,将所述待处理数据
集的列数据以及相应的数据基础类型处理为特征向量(此处理为特征向量的方式可采用现
有技术,本实施例不对此进行限制);然后,将所述特征向量输入所述预先建立的多分类模
型,推断所述待处理数据集中每一列数据的业务类型。
确定目标数据处理策略。此外,目标数据集还可由数据处理系统默认推荐或用户预先指定。
目标数据集的数量可以是多个,而针对每个目标数据集都可推荐相应的一个或多个数据处
理策略。
应的选择目标数据集的规则。
语义分析规则可以将名称为“交易表”的数据集确定为目标数据表,将名称为“交易详情表”
的数据集确定为非目标数据表(例如,为辅助表)。
理数据集和数据类型推断同时进行,本实施例中不对此进行限制。而本实施例中优选先对
已创建的数据集进行数据类型推断,再得到待处理数据集。
点击执行,则执行系统默认最优策略。在一种可能的实现方式中,所述方法还包括:通过策
略界面的推荐策略管理区域展示至少一个数据处理策略;响应于用户在推荐策略管理区域
的策略选取操作,将推荐策略管理区域中被选择的数据处理策略呈现于策略界面的目标策
略管理区域;将呈现于目标策略管理区域的数据处理策略确定为用于处理所述待处理数据
集的数据处理策略。例如参见图5所示的策略界面图中,左侧的推荐策略管理区域包括系统
推荐策略和其他策略,右侧的目标策略管理区域包括用户选择的策略;具体的,左侧为系统
推荐的策略和其他策略,右侧为用户选择的系统默认的1个最优策略。在用户点击展开该1
个最优策略时,展示的策略包含多个步骤:异常行删除、自动填充空值、自动校正日期格式。
选择具体的步骤组成新的策略以自定义策略(具体的,可以为针对所述目标数据集的自定
义策略),或者调整策略中的具体步骤以调整策略。
略确定为所述目标数据处理策略,其中,所述第二策略是用户对所述多个数据处理策略中
的第一策略进行调整后得到。
所述目标数据集的第三策略确定为所述目标数据处理策略。
的值不同,可由系统自动识别)的业务类型、各个待处理的数据集中每一列数据的数据基础
类型和/或业务类型。
的数据血缘关系、字段级别的数据血缘关系等。这样,可以便于用户了解所需的策略以及相
关信息。
值填充、对某一列中的空白值所在行进行丢弃等;另一类是用于对数据进行衍生,即进行数
据衍生处理,例如对日期列的拆分、按某个列的取值进行聚合等。此外,还可包括合并数据
集、去除冗余列等。
各处理后的数据集同步进行);方案(2)先合并各数据集,再进行数据质量处理和数据衍生
处理;方案(3)先进行数据质量处理和数据衍生处理,再合并各处理后的数据集。而本实施
例优选方案(1)。
中,此方式中的列数据的数据类型可以只包括数据基础类型或业务类型,也可以包括数据
基础类型和业务类型。
的,可以为目标数据集中的唯一列字段,该唯一列字段中每一行的值唯一地标识相应数据
集中的某一条记录。其中,利用主键字段作为连接字段(被合并的多个数据集中都有的字
段),生成中间合并数据集或最终的合并数据集,根据目标数据处理策略确定提取的相关数
据。
第一数据集的数据衍生处理策略可以同步进行。
向下取整)、日期格式处理(比如格式统一处理)等。而所述数据衍生处理策略可包括但不限
于以下至少一项:数值范围标记处理、日期提取处理(比如提取年、月、日等)、数据聚合处理
等。
据的最大值)、Min(计算某列数据的最小值)、Variance(计算某列数据的方差)、Standard
Deviation(计算某列数据的标准偏差)、Mode(计算某列数据的众数)、Median(计算某列数
据的中位数)、Distinct(计算某列数据的非重复取值的数量)、四分位距(Interquartile
Range,IQR,计算某列数据的四分差,此是描述统计学中的一种方法,以确定其中第三四分
位数和第一四分位数的区别)等。
根据数据集的类型横向扩展或纵向拼接。对于join连接方式,是指根据连接字段(此指含义
相同的字段,例如用户ID)将多个数据集合成一个数据集,即横向扩展(列变多了)。对于
union拼接方式,是指选择多个数据集中相同类型的字段,纵向拼接合成一个数据集。可理
解的,若几张表之间既有相同的字段又有不同的字段,且不同的字段数量较多,则进行join
连接是比较有意义的,而若两张表的字段是相互包含关系,则进行union拼接是比较有意义
的。
(Principal Component Analysis,PCA)降维,获取预设范围的列。其中,对于PCA降维的方
式以及获取预设范围的列可参见现有方式,本实施例不对此进行限制。这样,借助计算列
(字段)之间的关系来去除冗余列,可以避免维度爆炸的问题。
的记录;2)将交易时间转换为统一的时间格式;3)将交易额转换为统一的货币单位;和/或,
系统推荐的进行数据衍生的策略可包括:1)从交易时间提取星期作为新的列(比如新增星
期一到星期日的7个列,列的值可以取为0和1标识一个交易发生在星期几);2)从交易时间
提取1~24小时的时间段作为新的列(比如新增0、1~23共24个列,用0和1标识一个交易发
生在哪个时间段);3)使用SUM聚合函数计算一周中每天的交易量、交易金额以及一天中每
个时间段的交易量、交易金额。
新增列或行数)例如一列为数值列,存在空白值,则可以使用其他值的平均值或中位数来填
充空白值。而数据衍生则会在原有数据集的基础上新增列、改变行的数量或新增辅助表,例
如原有一列为日期,且格式为YYYY‑MM‑dd,则可以基于该列衍生出新的列,比如year、
month、day、weekday等等。
别类型。所述数值类型包括下述之一的基础类型:整型、长整型、浮点型、双精度类型。所述
类别类型可包括下述之一的基础类型:时间型、字符串型、布尔类型等,并且取值是有限个
值。
集以及数据质量和/或衍生处理同步进行。
合并;最后根据策略进行进一步地数据处理,如数据衍生处理。
上述数据衍生处理的过程可包括:基于多张数据表或者处理后的合并数据表进行聚合处理
(例如统计操作),生成辅助表。比如,基于邮编统计地区,基于身份证号统计人,基于金额求
和、求平均值等。
通过聚合处理可以统计各个部门当前分别有多少人,如表2所示的统计结果(部分示例数
据)。
10002 d001 2010/6/8 9999/1/1
10003 d001 2010/6/9 9999/1/1
10004 d001 2010/6/10 9999/1/1
10005 d002 2010/6/11 9999/1/1
10006 d006 2010/6/12 9999/1/1
10007 d007 2010/6/13 9999/1/1
10008 d008 2010/6/14 9999/1/1
10009 d002 2010/6/7 9999/1/1
10010 d006 2010/6/8 9999/1/1
10011 d007 2010/6/9 9999/1/1
10012 d008 2010/6/10 9999/1/1
10013 d002 2010/6/11 9999/1/1
10014 d006 2010/6/12 9999/1/1
10015 d007 2010/6/13 9999/1/1
10016 d008 2010/6/14 9999/1/1
10017 d002 2010/6/7 9999/1/1
10018 d006 2010/6/8 9999/1/1
10019 d007 2010/6/9 2019/10/21
10020 d008 2010/6/10 2019/10/22
型。具体的,系统可推断或用户选择电商领域,并推断出每一张数据表的整体业务类型分别
是:表3为会话表、表4为用户表、表5为交易表、表6为日志表和表7为商品详情表。
例如,系统可以基于统计分析,选择出比较重要的、有意义的数据表作为目标数据表,比如
在电商领域中因用户表比较重要则被选为目标数据表,而日志表不作为目标数据表。
若数据表中有缺失数据,则进行数据填充;而若数据表中数据质量良好,则可以不用进行数
据质量处理;然后多张数据表合并为一张宽表,其中需要有一个连接字段,系统自动识别某
个唯一列作为连接字段,可以针对每一个唯一列生成一个宽表,并在合并数据表时同步地
进行数据衍生,即生成的宽表为同时进行了数据衍生的数据表。
选择目标数据表或调整系统推荐(自动选定)的目标数据表。
选定会话表作为目标数据表;若考虑交易特征,可选定交易表作为目标数据表。此外还可由
用户自定义目标数据表。
最优策略。其中最优策略包括以下步骤:①对于其中的邮编,检查并删除邮编中的异常值,
包括按业务类型的处理:其具有有限个合法值,因此对于不合理的取值的记录进行删除;按
数据基础类型处理:比如邮编是整型的,如果某个值为字符串类型的,则不正确,进行删除。
②按业务类型的处理:将邮编使用实际地址进行替换,便于用户理解。③按业务类型的处
理:检查注册日期是否合理并删除异常值,如果出现过早的日期(例如早于电商平台成立日
期,不属于合理的日期范围),则是不正确的,需要将对应的记录删除。
据衍生处理后的数据表可如下表8(其包含的部分字段)所示。其中,利用用户ID作为连接字
段把用户表和会话表合并为中间合并数据表(即中间合并数据集),然后利用会话ID合并中
间合并数据表和交易表,同步地进行数据衍生处理,得到最终的合并数据表。
9中所示:
2 159.42
3 135.05
4 43.59
5 44.11
Mobile 3
Desktop 4
13244 2
过人工定义策略进行数据准备,可以提高数据准备的适用性和效率,有利于后续的模型训
练(例如机器学习)、业务分析、数据挖掘等。
执行时可实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重
复,这里不再赘述。
术效果,为避免重复,这里不再赘述。
据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器
(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器
(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读
存储器(CD‑ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或
其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照
本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的
数据信号和载波。
且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有
的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该
要素的过程、方法、物品或者装置中还存在另外的相同要素。
前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做
出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质
(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台数据处理系统设备(可以是手机,
计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
视为本发明的保护范围。