会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 专利权 / 申请 / 一种分布式数据处理方法及组件

一种分布式数据处理方法及组件

阅读:493发布:2021-02-09

IPRDB可以提供一种分布式数据处理方法及组件专利检索,专利查询,专利分析的服务。并且本发明公开的分布式数据处理方法及组件,在构建数据处理任务模型时,在可视化任务编辑器中加入控制流图元,将控制流图元与顺序处理图元进行组合,从而实现在数据处理任务执行过程中的逻辑控制功能。接收并解析租户的资源申请信息,得到租户所需服务器的数量,再获取当前各个已注册的服务器的运行状态,根据当前各个所述已注册的服务器的运行状态,为所述租户分配与所述租户所需的服务器资源相对应的多个服务器,基于分配给租户的多个服务器组建集群,将数据处理任务模型中的数据处理任务发送到集群中的各个服务器,使各个服务器分布式执行数据处理任务,避免了服务器资源的紧缺或闲置,满足了服务器资源的按需灵活分配。,下面是一种分布式数据处理方法及组件专利的具体信息内容。

1.一种分布式数据处理方法,其特征在于,所述方法应用于分布式数据处理组件,所述方法包括:根据租户的编辑指令,在可视化任务编辑器中生成数据处理任务模型;

接收并解析所述租户的资源申请信息,得到所述租户所需的服务器资源;

获取当前各个已注册的服务器的运行状态;

根据当前各个所述已注册的服务器的运行状态,为所述租户分配与所述租户所需的服务器资源相对应的多个服务器;

基于分配给所述租户的多个所述服务器组建集群,将所述数据处理任务模型中的数据处理任务发送到所述集群中的各个所述服务器,使各个所述服务器分别同时执行所述数据处理任务。

2.根据权利要求1所述的方法,其特征在于,在所述根据租户的编辑指令,在可视化任务编辑器中生成数据处理任务模型,之前还包括:创建多个租户,分别生成各个所述租户对应的租户信息,并对所述租户信息进行维护;

所述租户信息包括:租户标识、管理密码、源数据库和目标数据库。

3.根据权利要求1所述的方法,其特征在于,所述可视化任务编辑器中设有多个顺序处理图元和多个控制流图元;所述根据租户的编辑指令,在可视化任务编辑器中生成数据处理任务模型,包括:根据租户对各个所述顺序处理图元的编辑指令,生成数据处理顺序,所述数据处理处理顺序对应于数据处理中的数据导入、数据检验、数据处理和数据导出四个阶段;

根据租户对所述控制流图元的编辑指令,将与对所述控制流图元的编辑指令相对应的多个所述控制流图元与按所述数据处理顺序排列的多个所述顺序处理图元进行组合,生成数据处理任务模型;所述控制流图元包括:终止作业图元、计算表行数图元、设置变量图元、检查字段值图元、执行SQL图元、转换图元和开始图元。

4.根据权利要求1所述的方法,其特征在于,所述已注册的服务器的运行状态包括所述服务器是否被分配数据处理任务;所述根据当前各个所述已注册的服务器的运行状态,为所述租户分配与所述租户所需的服务器资源相对应的多个服务器,包括:根据当前各个已注册的服务器的运行状态,得到未被分配数据处理任务的多个服务器;

依据所述租户所需的服务器资源确定所述租户所需的服务器数量;

从所述未被分配数据处理任务的多个服务器中,为所述租户分配所需数量的服务器,并将分配给所述租户的服务器的运行状态修改为已被分配数据处理任务。

5.根据权利要求1所述的方法,其特征在于,所述基于分配给所述租户的多个所述服务器组建集群,将所述数据处理任务模型中的数据处理任务分配到所述集群中的各个服务器,使各个所述服务器分别同时执行所述数据处理任务,包括:基于分配给所述租户的多个所述服务器组建集群,确定所述集群中的主服务器和各个从服务器;

将所述数据处理任务模型发送到所述主服务器;

控制所述主服务器将所述数据处理任务模型分配到各个所述从服务器;

控制各个所述从服务器对所述数据处理任务模型进行解析,得到数据处理顺序和控制逻辑,使各个所述从服务器根据所述数据处理顺序和所述控制逻辑进行数据处理。

6.一种分布式数据处理组件,其特征在于,所述组件包括:

生成单元,用于根据租户的编辑指令,在可视化任务编辑器中生成数据处理任务模型;

解析单元,用于接收并解析所述租户的资源申请信息,得到所述租户所需的服务器资源;

获取单元,用于获取当前各个已注册的服务器的运行状态;

分配单元,用于根据当前各个所述已注册的服务器的运行状态,为所述租户分配与所述租户所需的服务器资源相对应的多个服务器;

发送单元,用于基于分配给所述租户的多个所述服务器组建集群,将所述数据处理任务模型中的数据处理任务发送到所述集群中的各个所述服务器,使各个所述服务器分别同时执行所述数据处理任务。

7.根据权利要求6所述的组件,其特征在于,所述组件还包括:租户管理单元,用于创建多个租户,分别生成各个所述租户对应的租户信息,并对所述租户信息进行维护;所述租户信息包括:租户标识、管理密码、源数据库和目标数据库。

8.根据权利要求6所述的组件,其特征在于,所述生成单元包括:第一生成子单元,用于根据租户对各个所述顺序处理图元的编辑指令,生成数据处理顺序,所述数据处理处理顺序对应于数据处理中的数据导入、数据检验、数据处理和数据导出四个阶段;

第二生成子单元,用于根据租户对所述控制流图元的编辑指令,将与对所述控制流图元的编辑指令相对应的多个所述控制流图元与按所述数据处理顺序排列的多个所述顺序处理图元进行组合,生成数据处理任务模型;所述控制流图元包括:终止作业图元、计算表行数图元、设置变量图元、检查字段值图元、执行SQL图元、转换图元和开始图元。

9.根据权利要求6所述的组件,其特征在于,所述分配单元包括:获取子单元,用于根据当前各个已注册的服务器的运行状态,得到未被分配数据处理任务的多个服务器;

确定子单元,用于依据所述租户所需的服务器资源确定所述租户所需的服务器数量;

分配子单元,用于从所述未被分配数据处理任务的多个服务器中,为所述租户分配所需数量的服务器,并将分配给所述租户的服务器的运行状态修改为已被分配数据处理任务。

10.根据权利要求6所述的组件,其特征在于,所述发送单元包括:组建子单元,用于基于分配给所述租户的多个所述服务器组建集群,确定所述集群中的主服务器和各个从服务器;

发送子单元,用于将所述数据处理任务模型发送到所述主服务器;

第一控制子单元,用于控制所述主服务器将所述数据处理任务模型分配到各个所述从服务器;

第二控制子单元,用于控制各个所述从服务器对所述数据处理任务模型进行解析,得到数据处理顺序和控制逻辑,使各个所述从服务器根据所述数据处理顺序和所述控制逻辑进行数据处理。

说明书全文

一种分布式数据处理方法及组件

技术领域

[0001] 本发明涉及数据处理领域,更具体地,涉及一种分布式数据处理方法及组件。

背景技术

[0002] 信息化是以现代通信、网络、数据库技术为基础,对所研究对象各要素汇总至数据库,供特定人群生活、工作、学习、辅助决策等和人类息息相关的各种行为相结合的一种技术。信息化的本质是数据的处理过程,因此,数据处理组件成为信息化项目不可或缺的重要组成部分。
[0003] 现有的数据处理组件是基于B/S模式实现的,通过可视化的方式构建数据处理过程,对数据处理的各个环节进行了抽象,使用统一的模型描述数据处理的各个环节,采用多线程与集群,支持数据的分布式处理,但是,这种数据处理组件采取统一分配资源组件集群的方式执行数据处理任务,资源分配方式单一,导致资源分配不均匀,可能导致数据处理量大的用户分配到的服务器资源不够,而数据处理量小的用户分配到的服务器资源存在闲置,资源利用率较低,无法满足资源分配多样性的需求。

发明内容

[0004] 有鉴于此,本发明提供了一种分布式数据处理方法及组件,采用多租户技术,根据租户数据处理需求分配相应的服务器资源,分布式执行数据处理任务。
[0005] 具体方案如下:
[0006] 一种分布式数据处理方法,所述方法应用于分布式数据处理组件,所述方法包括:
[0007] 根据租户的编辑指令,在可视化任务编辑器中生成数据处理任务模型;
[0008] 接收并解析所述租户的资源申请信息,得到所述租户所需的服务器资源;
[0009] 获取当前各个已注册的服务器的运行状态;
[0010] 根据当前各个所述已注册的服务器的运行状态,为所述租户分配与所述租户所需的服务器资源相对应的多个服务器;
[0011] 基于分配给所述租户的多个所述服务器组建集群,将所述数据处理任务模型中的数据处理任务发送到所述集群中的各个所述服务器,使各个所述服务器分别同时执行所述数据处理任务。
[0012] 优选的,在所述根据租户的编辑指令,在可视化任务编辑器中生成数据处理任务模型,之前还包括:
[0013] 创建多个租户,分别生成各个所述租户对应的租户信息,并对所述租户信息进行维护;所述租户信息包括:租户标识、管理密码、源数据库和目标数据库。
[0014] 优选的,所述可视化任务编辑器中设有多个顺序处理图元和多个控制流图元;所述根据租户的编辑指令,在可视化任务编辑器中生成数据处理任务模型,包括:
[0015] 根据租户对各个所述顺序处理图元的编辑指令,生成数据处理顺序,所述数据处理处理顺序对应于数据处理中的数据导入、数据检验、数据处理和数据导出四个阶段;
[0016] 根据租户对所述控制流图元的编辑指令,将与对所述控制流图元的编辑指令相对应的多个所述控制流图元与按所述数据处理顺序排列的多个所述顺序处理图元进行组合,生成数据处理任务模型;所述控制流图元包括:终止作业图元、计算表行数图元、设置变量图元、检查字段值图元、执行SQL图元、转换图元和开始图元。
[0017] 优选的,所述已注册的服务器的运行状态包括所述服务器是否被分配数据处理任务;所述根据当前各个所述已注册的服务器的运行状态,为所述租户分配与所述租户所需的服务器资源相对应的多个服务器,包括:
[0018] 根据当前各个已注册的服务器的运行状态,得到未被分配数据处理任务的多个服务器;
[0019] 依据所述租户所需的服务器资源确定所述租户所需的服务器数量;
[0020] 从所述未被分配数据处理任务的多个服务器中,为所述租户分配所需数量的服务器,并将分配给所述租户的服务器的运行状态修改为已被分配数据处理任务。
[0021] 优选的,所述基于分配给所述租户的多个所述服务器组建集群,将所述数据处理任务模型中的数据处理任务分配到所述集群中的各个服务器,使各个所述服务器分别同时执行所述数据处理任务,包括:
[0022] 基于分配给所述租户的多个所述服务器组建集群,确定所述集群中的主服务器和各个从服务器;
[0023] 将所述数据处理任务模型发送到所述主服务器;
[0024] 控制所述主服务器将所述数据处理任务模型分配到各个所述从服务器;
[0025] 控制各个所述从服务器对所述数据处理任务模型进行解析,得到数据处理顺序和控制逻辑,使各个所述从服务器根据所述数据处理顺序和所述控制逻辑进行数据处理。
[0026] 一种分布式数据处理组件,所述组件包括:
[0027] 生成单元,用于根据租户的编辑指令,在可视化任务编辑器中生成数据处理任务模型;
[0028] 解析单元,用于接收并解析所述租户的资源申请信息,得到所述租户所需的服务器资源;
[0029] 获取单元,用于获取当前各个已注册的服务器的运行状态;
[0030] 分配单元,用于根据当前各个所述已注册的服务器的运行状态,为所述租户分配与所述租户所需的服务器资源相对应的多个服务器;
[0031] 发送单元,用于基于分配给所述租户的多个所述服务器组建集群,将所述数据处理任务模型中的数据处理任务发送到所述集群中的各个所述服务器,使各个所述服务器分别同时执行所述数据处理任务。
[0032] 优选的,所述组件还包括:
[0033] 租户管理单元,用于创建多个租户,分别生成各个所述租户对应的租户信息,并对所述租户信息进行维护;所述租户信息包括:租户标识、管理密码、源数据库和目标数据库。
[0034] 优选的,所述生成单元包括:
[0035] 第一生成子单元,用于根据租户对各个所述顺序处理图元的编辑指令,生成数据处理顺序,所述数据处理处理顺序对应于数据处理中的数据导入、数据检验、数据处理和数据导出四个阶段;
[0036] 第二生成子单元,用于根据租户对所述控制流图元的编辑指令,将与对所述控制流图元的编辑指令相对应的多个所述控制流图元与按所述数据处理顺序排列的多个所述顺序处理图元进行组合,生成数据处理任务模型;所述控制流图元包括:终止作业图元、计算表行数图元、设置变量图元、检查字段值图元、执行SQL图元、转换图元和开始图元。
[0037] 优选的,所述分配单元包括:
[0038] 获取子单元,用于根据当前各个已注册的服务器的运行状态,得到未被分配数据处理任务的多个服务器;
[0039] 确定子单元,用于依据所述租户所需的服务器资源确定所述租户所需的服务器数量;
[0040] 分配子单元,用于从所述未被分配数据处理任务的多个服务器中,为所述租户分配所需数量的服务器,并将分配给所述租户的服务器的运行状态修改为已被分配数据处理任务。
[0041] 优选的,所述发送单元包括:
[0042] 组建子单元,用于基于分配给所述租户的多个所述服务器组建集群,确定所述集群中的主服务器和各个从服务器;
[0043] 发送子单元,用于将所述数据处理任务模型发送到所述主服务器;
[0044] 第一控制子单元,用于控制所述主服务器将所述数据处理任务模型分配到各个所述从服务器;
[0045] 第二控制子单元,用于控制各个所述从服务器对所述数据处理任务模型进行解析,得到数据处理顺序和控制逻辑,使各个所述从服务器根据所述数据处理顺序和所述控制逻辑进行数据处理。
[0046] 相对于现有技术,本发明的有益效果如下:
[0047] 本发明公开的分布式数据处理方法及组件,在构建数据处理任务模型时,在可视化任务编辑器中加入控制流图元,将控制流图元与顺序处理图元进行组合,从而实现在数据处理任务执行过程中的逻辑控制功能。接收并解析租户的资源申请信息,得到租户所需的服务器资源,再获取当前各个已注册的服务器的运行状态,根据当前各个所述已注册的服务器的运行状态,为所述租户分配与所述租户所需的服务器资源相对应的多个服务器,基于分配给租户的多个服务器组建集群,将数据处理任务模型中的数据处理任务发送到集群中的各个服务器,使各个服务器分布式执行数据处理任务,避免了服务器资源的紧缺或闲置,满足了服务器资源的按需灵活分配。

附图说明

[0048] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0049] 图1为本发明实施例公开的一种分布式数据处理方法流程图;
[0050] 图2为本发明实施例公开的一种分布式数据处理方法又一方法流程图;
[0051] 图3为本发明实施例公开的一种分布式数据处理方法又一方法流程图;
[0052] 图4为本发明实施例公开的一种分布式数据处理组件结构示意图;
[0053] 图5为本发明实施例公开的另一种分布式数据处理组件结构示意图。

具体实施方式

[0054] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0055] 请参阅图1,本实施例公开了一种分布式数据处理方法,所述方法应用于分布式数据处理组件,所述方法具体包括以下步骤:
[0056] 步骤S101:根据租户的编辑指令,在可视化任务编辑器中生成数据处理任务模型;
[0057] 需要说明的是,本实施例采用多租户技术,多租户是云计算领域的专有术语,在本实施例中,一个租户对应一个业务系统,租户之间数据隔离,多个租户共享服务器资源。
[0058] 还需要说明的是,本实施例为租户提供可视化任务编辑器,租户可以在可视化界面上输入编辑指令,生成数据处理任务模型。
[0059] 具体的,所述可视化任务编辑器基于flex技术实现,用于辅助租户通过图形方法对数据处理任务模型进行编辑,可以对数据处理任务的功能性需求以及性能性需求进行全图形化配置管理,功能性需求包括数据处理任务的环节构成、数据流向和布局格式等;性能需求包括对环节的线程使用数量、服务器使用数量和数据通道数量进行配置。所述可视化任务编辑器将生成的数据处理任务模型以xml的方式存储,所述可视化任务编辑器中设有多个顺序处理图元和多个控制流图元,请参阅图2,步骤S101的具体执行过程如下:
[0060] 步骤S201:根据租户对各个所述顺序处理图元的编辑指令,生成数据处理顺序,所述数据处理处理顺序对应于数据处理中的数据导入、数据检验、数据处理和数据导出四个阶段;
[0061] 具体的,所述顺序处理图元包括输入、输出、统计、脚本和计算5类图元,分别对应于数据处理中的数据导入、数据检验、数据处理和数据导出四个阶段,并且对数据处理中比较常见的增量采集与出错处理等需求提供针对性的解决方案。
[0062] 步骤S202:根据租户对所述控制流图元的编辑指令,将与对所述控制流图元的编辑指令相对应的多个所述控制流图元与按所述数据处理顺序排列的多个所述顺序处理图元进行组合,生成数据处理任务模型;所述控制流图元包括:终止作业图元、计算表行数图元、设置变量图元、检查字段值图元、执行SQL图元、转换图元和开始图元。
[0063] 具体的,为了使数据处理过程更加贴合业务应用,实现在数据处理任务执行过程中业务逻辑判断,在可视化任务编辑器中增加控制流图元,各种控制流图元的具体功能如下:
[0064] 终止作业图元:判断是否满足数据处理任务结束条件,如果满足则结束该数据处理任务。
[0065] 计算表行数图元:执行租户配置的SQL,计算表行数,用于统计处理数据的行数,提供给后续图元或者比较表达式,计算处理数据的行数和最终行数是否匹配,校验数据完整性。
[0066] 设置变量图元:完成计算过程中的一些临时变量的设置,用于存储一些过程数据,这些数据可以最终输出到目标表,也可以仅用于计算过程。配置端主要完成变量名和初始值的设置。
[0067] 检查字段值图元:用于表达式计算前的计算因子校验,检查计算因子是否符合计算条件,对不符合条件的计算因子可以进行过滤,并输出不符条件的计算因子,便于运维人员检查。配置端完成检验字段的定义,以及检验条件的配置。
[0068] 执行SQL图元:运行一段符合语法规则的SQL语句。配置端主要完成需要运行的SQL语句的相关配置。
[0069] 转换图元:为减少单个数据处理任务的复杂度和增强数据处理任务的重用性,执行转换图元主要用来调用以前配置好的其他数据处理任务。配置端需要完成与其他数据处理任务接口的配置,以及相关上下文参数的配置。
[0070] 开始图元:将任务模型进行解析,找到开始图元,执行第一个业务图元。
[0071] 步骤S102:接收并解析所述租户的资源申请信息,得到所述租户所需的服务器资源;
[0072] 步骤S103:获取当前各个已注册的服务器的运行状态;
[0073] 具体的,当接收到资源申请信息后,获取当前各个已注册服务器是否被分配给租户,以便根据当前各个服务器的运行状态为租户分配服务器资源。
[0074] 步骤S104:根据当前各个所述已注册的服务器的运行状态,为所述租户分配与所述租户所需的服务器资源相对应的多个服务器;
[0075] 需要说明的是,步骤S104的具体执行过程如下:
[0076] 根据当前各个已注册的服务器的运行状态,得到未被分配数据处理任务的多个服务器;
[0077] 依据所述租户所需的服务器资源确定所述租户所需的服务器数量;
[0078] 从所述未被分配数据处理任务的多个服务器中,为所述租户分配所需数量的服务器,并将分配给所述租户的服务器的运行状态修改为已被分配数据处理任务。
[0079] 步骤S105:基于分配给所述租户的多个所述服务器组建集群,将所述数据处理任务模型中的数据处理任务发送到所述集群中的各个服务器,使各个所述服务器分别同时执行所述数据处理任务。
[0080] 具体的,步骤S105的具体执行过程如下:
[0081] 基于分配给所述租户的多个所述服务器组建集群,确定所述集群中的主服务器和各个从服务器;
[0082] 需要说明的是,可以根据集群中各个服务器的IP地址确定所述主服务器和从服务器,其中,将集群中IP地址最小的服务器确定为主服务器,并将集群中的其他服务器确定为从服务器。
[0083] 将所述数据处理任务模型发送到所述主服务器;
[0084] 控制所述主服务器将所述数据处理任务模型分配到各个所述从服务器;
[0085] 控制各个所述从服务器对所述数据处理任务模型进行解析,得到数据处理顺序和控制逻辑,使各个所述从服务器根据所述数据处理顺序和所述控制逻辑进行数据处理。
[0086] 本实施例公开的分布式数据处理方法,在构建数据处理任务模型时,在可视化任务编辑器中加入控制流图元,将控制流图元与顺序处理图元进行组合,从而实现在数据处理任务执行过程中的逻辑控制功能。接收并解析租户的资源申请信息,得到租户所需的服务器资源,再获取当前各个已注册的服务器的运行状态,根据当前各个所述已注册的服务器的运行状态,为所述租户分配与所述租户所需的服务器资源相对应的多个服务器,基于分配给租户的多个服务器组建集群,将数据处理任务模型中的数据处理任务发送到集群中的各个服务器,使各个服务器分布式执行数据处理任务,避免了服务器资源的紧缺或闲置,满足了服务器资源的按需灵活分配。
[0087] 请参阅图3,在步骤S101之前还包括:
[0088] 步骤S106:创建多个租户,分别生成各个所述租户对应的租户信息,并对所述租户信息进行维护;所述租户信息包括:租户标识、管理密码、源数据库和目标数据库。
[0089] 需要说明的是,所述租户信息还可以包括:租户描述和创建时间。租户标识为表征租户的唯一标识,所述租户标识可以为租户名称与租户ID的组合。源数据库为租户数据处理过程中的数据源,当数据处理任务结束后将经过处理后的数据保存到目标数据库。
[0090] 对租户信息的维护包括:查询租户、修改租户、删除租户、租户授权服务和多租户隔离。其中,租户授权服务为租户的操作提供安全性保障,将“租户ID+租户管理密码+租户创建时间+加密字符串”按摩斯密码生成令牌,租户下载令牌需要提供正确的管理密码,租户在申请服务器资源时,需要根据租户标识、令牌和密码等信息进行安全校验,校验通过后才能为租户分配相应的资源。多租户隔离通过在不同租户之间数据增加租户ID字段隔离。
[0091] 为多个服务器注册服务器账号,分别生成各个所述服务器信息,并对所述服务器信息进行维护;所述服务器信息包括:服务器标识、服务器IP地址、服务器端口和运行状态。
[0092] 需要说明的是,将多个服务器注册服务器账号,以便在租户申请服务器资源时,根据预先注册的各个服务器,查询当前各个服务器的当前是否被分配数据处理任务,根据租户的资源申请信息,为租户分配服务器资源。
[0093] 对服务器信息进行维护包括:查询服务器和删除服务器。其中,删除服务器具体为:将服务器从租户中删除,同时删除分配到该服务器的数据处理任务。
[0094] 请参阅图4,基于上述实施例公开的一种分布式数据处理方法,本实施例对应公开了一种分布式数据处理组建,所述组件包括:
[0095] 生成单元101,用于根据租户的编辑指令,在可视化任务编辑器中生成数据处理任务模型;
[0096] 解析单元102,用于接收并解析所述租户的资源申请信息,得到所述租户所需的服务器资源;
[0097] 获取单元103,用于获取当前各个已注册的服务器的运行状态;
[0098] 分配单元104,用于根据当前各个所述已注册的服务器的运行状态,为所述租户分配与所述租户所需的服务器资源相对应的多个服务器;
[0099] 发送单元105,用于基于分配给所述租户的多个所述服务器组建集群,将所述数据处理任务模型中的数据处理任务发送到所述集群中的各个服务器,使各个所述服务器分别同时执行所述数据处理任务。
[0100] 需要说明的是,本实施例公开的分布式数据处理组件还包括数据处理进程显示单元,用于展示整个数据处理过程中每个环节所消耗的处理时间,以便使分布式数据处理组件的运维人员快速的定位整个数据处理过程的性能瓶颈,采取相应的手段完成数据处理任务运行的性能调优工作。
[0101] 本实施例公开的分布式数据处理组件,生成单元101在构建数据处理任务模型时,在可视化任务编辑器中加入控制流图元,将控制流图元与顺序处理图元进行组合,从而实现在数据处理任务执行过程中的逻辑控制功能。解析单元102接收并解析租户的资源申请信息,得到租户所需的服务器资源,获取单元103获取当前各个已注册的服务器的运行状态,分配单元104根据当前各个所述已注册的服务器的运行状态,为所述租户分配与所述租户所需的服务器资源相对应的多个服务器,发送单元105基于分配给租户的多个服务器组建集群,将数据处理任务模型中的数据处理任务发送到集群中的各个服务器,使各个服务器分布式执行数据处理任务,避免了服务器资源的紧缺或闲置,满足了服务器资源的按需灵活分配。
[0102] 请参阅图5,所述分布式数据处理组件还包括:
[0103] 租户管理单元106,用于创建多个租户,分别生成各个所述租户对应的租户信息,并对所述租户信息进行维护;所述租户信息包括:租户标识、管理密码、源数据库和目标数据库。
[0104] 所述生成单元101包括:
[0105] 第一生成子单元107,用于根据租户对各个所述顺序处理图元的编辑指令,生成数据处理顺序,所述数据处理处理顺序对应于数据处理中的数据导入、数据检验、数据处理和数据导出四个阶段;
[0106] 第二生成子单元108,用于根据租户对所述控制流图元的编辑指令,将与对所述控制流图元的编辑指令相对应的多个所述控制流图元与按所述数据处理顺序排列的多个所述顺序处理图元进行组合,生成数据处理任务模型;所述控制流图元包括:终止作业图元、计算表行数图元、设置变量图元、检查字段值图元、执行SQL图元、转换图元和开始图元。
[0107] 所述分配单元104包括:
[0108] 获取子单元109,用于根据当前各个已注册的服务器的运行状态,得到未被分配数据处理任务的多个服务器;
[0109] 确定子单元110,用于依据所述租户所需的服务器资源确定所述租户所需的服务器数量;
[0110] 分配子单元111,用于从所述未被分配数据处理任务的多个服务器中,为所述租户分配所需数量的服务器,并将分配给所述租户的服务器的运行状态修改为已被分配数据处理任务。
[0111] 所述发送单元105包括:
[0112] 组建子单元112,用于基于分配给所述租户的多个所述服务器组建集群,确定所述集群中的主服务器和各个从服务器;
[0113] 发送子单元113,用于将所述数据处理任务模型发送到所述主服务器;
[0114] 第一控制子单元114,用于控制所述主服务器将所述数据处理任务模型分配到各个所述从服务器;
[0115] 第二控制子单元115,用于控制各个所述从服务器对所述数据处理任务模型进行解析,得到数据处理顺序和控制逻辑,使各个所述从服务器根据所述数据处理顺序和所述控制逻辑进行数据处理。
[0116] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用