一种数据采集分发方法及装置转让专利

申请号 : CN201610087185.3

文献号 : CN107085579A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄庆荣谢志崇彭家华林恪徐林郑志欢陈钰铖

申请人 : 中国移动通信集团福建有限公司

摘要 :

本发明实施例公开了一种数据采集分发方法,所述方法包括:显示用户配置界面;通过所述用户配置界面获取用户配置的本次采集任务的任务信息,所述任务信息包括源服务器和目的服务器;从所述源服务器采集数据文件,将采集到的数据文件分发到所述目的服务器。本发明实施例还公开了一种数据采集分发装置。

权利要求 :

1.一种数据采集分发方法,其特征在于,所述方法包括:

显示用户配置界面;

通过所述用户配置界面获取用户配置的本次采集任务的任务信息,所述任务信息包括源服务器和目的服务器;

从所述源服务器采集数据文件,将采集到的数据文件分发到所述目的服务器。

2.根据权利要求1所述的方法,其特征在于,所述任务信息中还包括:数据分发规则,则所述将采集到的数据文件分发到所述目的服务器,包括:按照所述数据分发规则将采集到的数据文件分发到所述目的服务器。

3.根据权利要求2所述的方法,其特征在于,所述数据分发规则中包括用户配置的至少一组服务器集群,每组服务器集群包括若干所述源服务器和若干所述目的服务器;则所述按照所述数据分发规则将采集到的数据文件分发到所述目的服务器,包括:将从同一组服务器集群的源服务器中采集到的数据文件分发到同一组服务器集群的目的服务器中。

4.根据权利要求3所述的方法,其特征在于,所述数据分发规则中还包括分类规则,所述分类规则包括按照或者不按照特定字符串进行数据分类,则将从同一组服务器集群的源服务器中采集到的数据文件分发到同一组服务器集群的目的服务器中,包括:在所述分类分发规则包括按照特定字符串进行数据分类时,将采集到的数据文件的文件名中的特定字符串相同的数据文件作为同一类数据文件;在所述数据分发规则包括不按照特定字符串进行数据分类时,将采集到的数据文件作为同一类数据文件;

将从同一组服务器集群的源服务器中采集到的数据文件分发到所述同一组服务器集群的目的服务器中,将分发到同一目的服务器的同一类数据文件分发到所述同一目的服务器的同一目录下。

5.根据权利要求3或4所述的方法,其特征在于,所述数据分发规则中还包括均衡规则,所述均衡规则包括随机均衡、发牌式均衡或百分比均衡,所述均衡规则为百分比均衡时,配置有每个目的服务器对应的负载百分比阈值;则,所述将从同一组服务器集群的源服务器中采集到的数据文件分发到所述同一组服务器集群的目的服务器中,包括:在所述均衡规则为随机均衡时,将从同一组服务器集群的源服务器中采集到的数据文件随机均衡分发到所述同一组服务器集群的目的服务器中;

在所述均衡规则为发牌式均衡时,将从同一组服务器集群的一个源服务器中采集到的各数据文件依次循环分发到所述同一组服务器集群的各个目的服务器中;

在所述均衡规则为百分比均衡时,将从同一组服务器集群的一个源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群的目的服务器中,在所述同一组服务器集群的第一目的服务器的使用率大于对应的第一负载百分比阈值时,继续将从所述同一组服务器集群的所述一个源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群中除所述第一目的服务器外的其他目的服务器中。

6.一种数据采集分发装置,其特征在于,所述装置包括:

显示单元,用于显示用户配置界面;

获取单元,用于通过所述显示单元显示的用户配置界面获取用户配置的本次采集任务的任务信息,所述任务信息包括源服务器和目的服务器;

采集分发单元,用于从所述获取单元获取的所述源服务器采集数据文件,将采集到的数据文件分发到所述获取单元获取的目的服务器。

7.根据权利要求6所述的装置,其特征在于,所述任务信息中还包括:数据分发规则,则,所述采集分发单元,具体用于按照所述数据分发规则将采集到的数据文件分发到所述目的服务器。

8.根据权利要求7所述的装置,其特征在于,所述数据分发规则中包括用户配置的至少一组服务器集群,每组服务器集群包括若干所述源服务器和若干所述目的服务器;则,所述采集分发单元,具体用于将从同一组服务器集群的源服务器中采集到的数据文件分发到所述同一组服务器集群的目的服务器中。

9.根据权利要求8所述的装置,其特征在于,所述数据分发规则中还包括分类规则,所述分类规则包括按照或者不按照特定字符串进行数据分类,则,所述采集分发单元,具体用于在所述分类分发规则包括按照特定字符串进行数据分类时,将采集到的数据文件的文件名中的特定字符串相同的数据文件作为同一类数据文件;

在所述数据分发规则包括不按照特定字符串进行数据分类时,将采集到的数据文件作为同一类数据文件;将从同一组服务器集群的源服务器中采集到的数据文件分发到所述同一组服务器集群的目的服务器中,将分发到同一目的服务器的同一类数据文件分发到所述同一目的服务器的同一目录下。

10.根据权利要求8或9所述的装置,其特征在于,所述数据分发规则中还包括均衡规则,所述均衡规则包括随机均衡、发牌式均衡或百分比均衡,所述均衡规则为百分比均衡时,配置有每个目的服务器对应的负载百分比阈值;则,所述采集分发单元,具体用于在所述均衡规则为随机均衡时,将从同一组服务器集群的源服务器中采集到的数据文件随机均衡分发到所述同一组服务器集群的目的服务器中;

在所述均衡规则为发牌式均衡时,将从同一组服务器集群的源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群的目的服务器中;在所述均衡规则为百分比均衡时,将从同一组服务器集群的一个源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群的目的服务器中,在所述同一组服务器集群的第一目的服务器的使用率大于对应的第一负载百分比阈值时,继续将从所述同一组服务器集群的所述一个源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群中除所述第一目的服务器外的其他目的服务器中。

说明书 :

一种数据采集分发方法及装置

技术领域

[0001] 本发明涉及数据处理领域,尤其涉及一种数据采集分发方法及装置。

背景技术

[0002] 随着企业信息技术(IT,Information Technology)信息化基础平台建设的大力推进,移动运营商的网络规模也相应越来越大,越来越复杂。许多网络规模达到成千甚至上万节点。在互联网行业快速发展的今天,运营商为了更好的服务于客户,企业经营分析系统已经逐步纳入网络域数据进行数据分析,提升在生产服务中的客户感知。随之而来海量数据的采集对于经营分析系统迎来了新的挑战。另外,为了满足海量数据在分布式系统中的高效处理,源数据根据要求在分布式集群的均匀分布是也是采集工具的重点要求。
[0003] 当前业界存在许多满足各种海量数据的开源采集工具,各个产品的功能都有各自的特点。如:应用于海量日志采集领域中的日志收集系统(Scribe),Scribe是一种开源的日志收集系统,它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是分布式文件系统等)上,以便于进行集中统计分析处理。它为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。它最重要的特点是容错性好。当后端的存储系统碰撞(crash)时,scribe会将数据写到本地磁盘上,当存储系统恢复正常后,scribe将日志重新加载到存储系统中。
[0004] 现有技术中的Flume也是一套开源的数据分布式采集产品,其内置各种组件,主要具有可靠性、可扩展性和可管理性的特点。在可靠性上,Flume提供了三种级别的可靠性保障,当节点出现故障时,日志能够被传送到其他节点上而不会丢失;在可扩展性上,所述Flume采用了三层架构,分别为代理(agent),收集器(collector)和储存器(storage),每一层均可以水平扩展,用户可以根据需要添加自己的agent,colletor或者storage。在可管理性上,所有agent和colletor由master统一管理,这使得系统便于维护和维护,且master允许有多个,这就避免了单点故障问题。用户可以在master上查看各个数据源或者数据流执行情况,且可以对各个数据源进行配置和动态加载。
[0005] 现有技术中还有一种分布式性能数据采集方法,包括:根据采集对象及其属性生成采集任务,然后根据任务分配算法给各采集点分配这些性能数据采集任务,将拆分后的多个独立的采集任务分配到各个采集节点上进行采集。其中,任务分配算法为了保证各个采集任务被公平的分发到所有的采集节点上,以一定的粒度为采集点分配资源,当资源超过平均资源时,则结束对他的分配,开始对下一个节点的分配。
[0006] 上述的这些开源分布式采集产品虽然在可靠性、扩展性、管理性上可以满足海量数据采集需求,但在实际应用过程中还存在如下缺陷:
[0007] (1)若多个数据源间存在业务间的关联关系,需要组合采集,开源产品不能快速实现。
[0008] (2)现有的分布式采集产品虽然有提供封装好的若干功能组件,但是没有友好的用户使用界面,造成使用门槛较高;且在新增数据源有任务采集需求时,需要开发者进行二次开发,使用成本高。

发明内容

[0009] 有鉴于此,本发明实施例期望提供一种数据采集分发方法及装置,可以满足用户需求,方便用户使用。
[0010] 为达到上述目的,本发明的技术方案是这样实现的:
[0011] 一种数据采集分发方法,所述方法包括:
[0012] 显示用户配置界面;
[0013] 通过所述用户配置界面获取用户配置的本次采集任务的任务信息,所述任务信息包括源服务器和目的服务器;
[0014] 从所述源服务器采集数据文件,将采集到的数据文件分发到所述目的服务器。
[0015] 上述方案中,所述任务信息中还包括:数据分发规则,则所述将采集到的数据文件分发到所述目的服务器,包括:
[0016] 按照所述数据分发规则将采集到的数据文件分发到所述目的服务器。
[0017] 上述方案中,所述数据分发规则中包括用户配置的至少一组服务器集群,每组服务器集群包括若干所述源服务器和若干所述目的服务器;则所述按照所述数据分发规则将采集到的数据文件分发到所述目的服务器,包括:
[0018] 将从同一组服务器集群的源服务器中采集到的数据文件分发到同一组服务器集群的目的服务器中。
[0019] 上述方案中,所述数据分发规则中还包括分类规则,所述分类规则包括按照或者不按照特定字符串进行数据分类,则将从同一组服务器集群的源服务器中采集到的数据文件分发到同一组服务器集群的目的服务器中,包括:
[0020] 在所述分类分发规则包括按照特定字符串进行数据分类时,将采集到的数据文件的文件名中的特定字符串相同的数据文件作为同一类数据文件;在所述数据分发规则包括不按照特定字符串进行数据分类时,将采集到的数据文件作为同一类数据文件;
[0021] 将从同一组服务器集群的源服务器中采集到的数据文件分发到所述同一组服务器集群的目的服务器中,将分发到同一目的服务器的同一类数据文件分发到所述同一目的服务器的同一目录下。
[0022] 上述方案中,所述数据分发规则中还包括均衡规则,所述均衡规则包括随机均衡、发牌式均衡或百分比均衡,所述均衡规则为百分比均衡时,配置有每个目的服务器对应的负载百分比阈值;则,所述将从同一组服务器集群的源服务器中采集到的数据文件分发到所述同一组服务器集群的目的服务器中,包括:
[0023] 在所述均衡规则为随机均衡时,将从同一组服务器集群的源服务器中采集到的数据文件随机均衡分发到所述同一组服务器集群的目的服务器中;
[0024] 在所述均衡规则为发牌式均衡时,将从同一组服务器集群的一个源服务器中采集到的各数据文件依次循环分发到所述同一组服务器集群的各个目的服务器中;
[0025] 在所述均衡规则为百分比均衡时,将从同一组服务器集群的一个源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群的目的服务器中,在所述同一组服务器集群的第一目的服务器的使用率大于对应的第一负载百分比阈值时,继续将从所述同一组服务器集群的所述一个源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群中除所述第一目的服务器外的其他目的服务器中。
[0026] 一种数据采集分发装置,所述装置包括:
[0027] 显示单元,用于显示用户配置界面;
[0028] 获取单元,用于通过所述显示单元显示的用户配置界面获取用户配置的本次采集任务的任务信息,所述任务信息包括源服务器和目的服务器;
[0029] 采集分发单元,用于从所述获取单元获取的所述源服务器采集数据文件,将采集到的数据文件分发到所述获取单元获取的目的服务器。
[0030] 上述方案中,所述任务信息中还包括:数据分发规则,则,
[0031] 所述采集分发单元,具体用于按照所述数据分发规则将采集到的数据文件分发到所述目的服务器。
[0032] 上述方案中,所述数据分发规则中包括用户配置的至少一组服务器集群,每组服务器集群包括若干所述源服务器和若干所述目的服务器;则,
[0033] 所述采集分发单元,具体用于将从同一组服务器集群的源服务器中采集到的数据文件分发到所述同一组服务器集群的目的服务器中。
[0034] 上述方案中,所述数据分发规则中还包括分类规则,所述分类规则包括按照或者不按照特定字符串进行数据分类,则,
[0035] 所述采集分发单元,具体用于在所述分类分发规则包括按照特定字符串进行数据分类时,将采集到的数据文件的文件名中的特定字符串相同的数据文件作为同一类数据文件;在所述数据分发规则包括不按照特定字符串进行数据分类时,将采集到的数据文件作为同一类数据文件;将从同一组服务器集群的源服务器中采集到的数据文件分发到所述同一组服务器集群的目的服务器中,将分发到同一目的服务器的同一类数据文件分发到所述同一目的服务器的同一目录下。
[0036] 上述方案中,所述数据分发规则中还包括均衡规则,所述均衡规则包括随机均衡、发牌式均衡或百分比均衡,所述均衡规则为百分比均衡时,配置有每个目的服务器对应的负载百分比阈值;则,
[0037] 所述采集分发单元,具体用于在所述均衡规则为随机均衡时,将从同一组服务器集群的源服务器中采集到的数据文件随机均衡分发到所述同一组服务器集群的目的服务器中;在所述均衡规则为发牌式均衡时,将从同一组服务器集群的源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群的目的服务器中;在所述均衡规则为百分比均衡时,将从同一组服务器集群的一个源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群的目的服务器中,在所述同一组服务器集群的第一目的服务器的使用率大于对应的第一负载百分比阈值时,继续将从所述同一组服务器集群的所述一个源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群中除所述第一目的服务器外的其他目的服务器中。
[0038] 本发明实施例提供了一种数据采集分发方法及装置,该装置首先显示用户配置界面;通过所述用户配置界面获取用户配置的本次采集任务的任务信息,所述任务信息包括源服务器和目的服务器;从所述源服务器采集数据文件,将采集到的数据文件分发到所述目的服务器。该装置为用户提供一个用户配置界面,由用户根据需要来配置本次采集任务的采集信息,可以满足用户需求,方便用户使用;若多个服务器中存在业务间的关联关系,需要从这多个服务器内采集数据时,可以直接由用户将这多个服务器配置为源服务器,就可以从这多个服务器内采集数据了,如果需要采集新增服务器中的数据,则直接将该新增服务器配置为源服务器即可进行采集,不需要进行二次开发,使用成本降低。

附图说明

[0039] 图1为本发明实施例1提供的一种数据采集分发方法流程示意图;
[0040] 图2为本发明实施例2提供的一种数据采集分发方法流程示意图;
[0041] 图3为本发明实施例2提供的一种数据分组过程示意图;
[0042] 图4为本发明实施例2提供的一种数据分类过程示意图;
[0043] 图5为本发明实施例3提供的一种数据采集分发装置结构框图。

具体实施方式

[0044] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
[0045] 实施例1
[0046] 本实施例提供了一种数据采集分发方法,如图1所示,本实施例方法的处理流程包括以下步骤:
[0047] 步骤101、显示用户配置界面。
[0048] 本实施例方法中,数据采集分发装置上设置有显示屏,该装置可以在显示屏上显示用户配置界面,该用户配置界面用于提示用户配置本次采集任务的任务信息。
[0049] 步骤102、通过所述用户配置界面获取用户配置的本次采集任务的任务信息。
[0050] 用户在需要进行某个采集任务时,可以在显示屏显示的用户配置界面上输入本次采集任务的任务信息,用户可以通过触摸屏或键盘等输入设备输入用户为本次采集任务配置的任务信息,所述任务信息包括源服务器和目的服务器。
[0051] 步骤103、从所述源服务器采集数据文件,将采集到的数据文件分发到所述目的服务器。
[0052] 该装置通过所述用户配置界面获取用户配置的本次采集任务的任务信息后,就可以从该源服务器采集数据文件,并将采集到的数据文件分发到所述目的服务器。
[0053] 本实施例方法为用户提供一个用户配置界面,由用户根据需要来配置本次采集任务的采集信息,可以满足用户需求,方便用户使用,若多个服务器中存在业务间的关联关系,需要从这多个服务器内采集数据时,可以直接由用户将这多个服务器配置为源服务器,就可以从这多个服务器内采集数据了,如果需要采集新增服务器中的数据,则直接将该新增服务器配置为源服务器即可进行采集,不需要进行二次开发,使用成本降低。
[0054] 实施例2
[0055] 本实施例方法提供了一种数据采集分发方法,如图2所示,本实施例方法的处理流程包括以下步骤:
[0056] 步骤201、显示用户配置界面。
[0057] 本实施例方法中,数据采集分发装置上设置有显示屏,该装置可以在显示屏上显示用户配置界面,该用户配置界面用于提示用户配置本次采集任务的任务信息。
[0058] 步骤202、通过所述用户配置界面获取用户配置的本次采集任务的任务信息。
[0059] 用户在需要进行某个采集任务时,可以在显示屏显示的用户配置界面上输入本次采集任务的任务信息,用户可以通过触摸屏或键盘等输入设备输入用户为本次采集任务配置的任务信息,所述任务信息包括源服务器、目的服务器和数据分发规则。
[0060] 数据采集处理装置支持从多种服务器如文件系统(FS,File System)、数据库(DB,Database)、消息队列(MQ,Message Queue)、套接字(socket)端口、Hbase分布式数据库等服务器中采集数据文件,并可将采集到的数据文件分发到多种目的服务器上存储;同时支持在采集、分发的过程中,对采集到的数据文件做简单处理。
[0061] 在本实施例方法中,采集任务的源服务器和目的服务器的可由用户灵活配置,数据采集处理装置可以根据用户配置的源服务器和目的服务器实现任意源数据服务器到任意目的服务器的数据采集、同步。
[0062] 步骤203、从所述源服务器采集数据文件。
[0063] 该装置通过所述用户配置界面获取用户配置的本次采集任务的任务信息后,就可以从获取的源服务器中采集数据文件。
[0064] 步骤204、按照所述数据分发规则将采集到的数据文件分发到所述目的服务器。
[0065] 该装置从源服务器中采集到数据文件后,在进行数据文件分发时会按照数据分发规则来进行分发。
[0066] 可选的,本实施例中给出以下A1、A2和A3三种情况:
[0067] A1、用户配置的数据分发规则只有服务器分组。
[0068] 所述数据分发规则中包括用户配置的至少一组服务器集群,每组服务器集群包括若干所述源服务器和若干所述目的服务器;则所述按照所述数据分发规则将采集到的数据文件分发到所述目的服务器,包括:将从同一组服务器集群的源服务器中采集到的数据文件分发到同一组服务器集群的目的服务器中。
[0069] 示例的,假设用户配置的源服务器包括:服务器A、服务器B、服务器C、服务器D、服务器E、服务器F;用户配置的目的服务器包括:服务器1、服务器2、服务器3、服务器4、服务器5。
[0070] 如图3所示,所述数据分发规则中包括用户配置的两组服务器集群。第一组服务器集群中包括:源服务器-服务器A、服务器B、服务器C和目的服务器-服务器1、服务器2;第二组服务器集群包括源服务器-服务器D、服务器E、服务器F和目的服务器-服务器3、服务器4、服务器5。
[0071] 从第一组服务器集群的源服务器(服务器A、服务器B、服务器C)中采集的数据文件会被分发到第一组服务器集群的目的服务器(服务器1、服务器2)中。从第二组服务器集群的源服务器(服务器D、服务器E、服务器F)中采集的数据文件会被分发到第二组服务器集群的目的服务器(服务器3、服务器4、服务器5)中。
[0072] 以上示例所述数据分发规则中用户配置了两组服务器集群,当然,所述用户也可以只配置一组服务器集群,该一组服务器集群中包括用户配置的所有源服务器和所有目的服务器。当用户未配置服务器集群分组时,默认此时的数据分发规则中包括用户配置的一组服务器集群,该一组服务器集群中包括用户配置的所有源服务器和所有目的服务器。
[0073] A2、用户配置的数据分发规则中包括分类规则。
[0074] 在这里需要说明的是,用户配置的数据分发规则中不包括服务器分组时,可以将用户配置的所有源服务器和所有目的服务器作为一组服务器集群;用户配置的所述数据分发规则包括服务器分组时,按照用户配置的服务器分组对源服务器和目的服务器进行分组。
[0075] 用户配置的数据分发规则中还包括分类规则,所述分类规则包括按照或者不按照特定字符串进行数据分类,则将从同一组服务器集群的源服务器中采集到的数据文件分发到同一组服务器集群的目的服务器中,包括:在所述分类分发规则包括按照特定字符串进行数据分类时,将采集到的数据文件的文件名中的特定字符串相同的数据文件作为同一类数据文件;在所述数据分发规则包括不按照特定字符串进行数据分类时,将采集到的数据文件作为同一类数据文件;将从同一组服务器集群的源服务器中采集到的数据文件分发到所述同一组服务器集群的目的服务器中,将分发到同一目的服务器的同一类数据文件分发到所述同一目的服务器的同一目录下。
[0076] 示例的,下面以移动GN口数据为例,源服务器A中有三种类型的数据文件:
[0077] 数据文件名中的特定字符串为GnA64_http_的类型A:
[0078] GnA64_http_dnssession_60_20131218_105600_20131218_105659.csv[0079] GnA64_http_dnssession_60_20131218_105600_20131218_105659.ctl[0080] GnA64_http_dnssession_60_20131218_103000_20131218_103059.csv[0081] GnA64_http_dnssession_60_20131218_103000_20131218_103059.ctl[0082] 数据文件名中的特定字符串为GnA64_http_的类型B:
[0083] GnB64_ip_dnssession_60_20131218_105600_20131218_105659.csv[0084] GnB64_ip_dnssession_60_20131218_105600_20131218_105659.ctl[0085] GnB64_ip_dnssession_60_20131218_103000_20131218_103059.csv[0086] GnB64_ip_dnssession_60_20131218_103000_20131218_103059.ctl[0087] 数据文件名中的特定字符串为GnC64_pdp_的类型C:
[0088] GnC64_pdp_dnssession_60_20131218_105600_20131218_105659.csv[0089] GnC64_pdp_dnssession_60_20131218_105600_20131218_105659.ctl[0090] GnC64_pdp_dnssession_60_20131218_103000_20131218_103059.csv[0091] GnC64_pdp_dnssession_60_20131218_103000_20131218_103059.ctl[0092] 源服务器B中也有三种类型的文件:
[0093] 数据文件名中的特定字符串为GnA64_http_的类型A:
[0094] GnA64_http_session_60_20131218_105600_20131218_105659.csv
[0095] GnA64_http_session_60_20131218_105600_20131218_105659.ctl
[0096] GnA64_http_session_60_20131218_103000_20131218_103059.csv
[0097] GnA64_http_session_60_20131218_103000_20131218_103059.ctl
[0098] 数据文件名中的特定字符串为GnA64_http_的类型B:
[0099] GnB64_ip_session_60_20131218_105600_20131218_105659.csv
[0100] GnB64_ip_session_60_20131218_105600_20131218_105659.ctl
[0101] GnB64_ip_session_60_20131218_103000_20131218_103059.csv
[0102] GnB64_ip_session_60_20131218_103000_20131218_103059.ctl
[0103] 数据文件名中的特定字符串为GnC64_pdp_的类型C:
[0104] GnC64_pdp_session_60_20131218_105600_20131218_105659.csv
[0105] GnC64_pdp_session_60_20131218_105600_20131218_105659.ctl
[0106] GnC64_pdp_session_60_20131218_103000_20131218_103059.csv
[0107] GnC64_pdp_session_60_20131218_103000_20131218_103059.ctl
[0108] 假设将图3中从第一组服务器集群的源服务器(服务器A、服务器B)中采集到的数据文件分发到所述同一组服务器集群的目的服务器(服务器2)中,则如图4所示,将分发到同一目的服务器即服务器2中的同一类数据文件分发到所述服务器2的同一目录下。即将服务器A、服务器B中的类型A数据文件采集到目的服务器即服务器2中的目录1中,将类型B数据文件采集到目的服务器中的目录2中,类型C数据文件采集到目的服务器中的目录3中;这样达到了将同一种类型的文件采集到同一个目录中的目的。
[0109] A3、用户配置的数据分发规则中包括均衡规则。
[0110] 在这里需要说明的是,用户配置的数据分发规则中不包括服务器分组时,可以将用户配置的所有源服务器和所有目的服务器作为一组服务器集群;用户配置的所述数据分发规则包括服务器分组时,按照用户配置的服务器分组对源服务器和目的服务器进行分组。
[0111] 用户配置的数据分发规则中还包括均衡规则,所述均衡规则包括随机均衡、发牌式均衡或百分比均衡,所述均衡规则为百分比均衡时,配置有每个目的服务器对应的负载百分比阈值;则,所述将从同一组服务器集群的源服务器中采集到的数据文件分发到所述同一组服务器集群的目的服务器中包括:步骤A31、步骤A32或步骤A33。
[0112] 步骤A31、在所述均衡规则为随机均衡时,将从同一组服务器集群的源服务器中采集到的数据文件随机均衡分发到所述同一组服务器集群的目的服务器中。
[0113] 示例的,所述均衡规则为随机均衡时,如图3所示,按照预设的随机均衡算法,从第一组服务器集群中的源服务器-服务器A中采集的数据文件会随机分发到目的服务器-服务器1或者服务器2中,从服务器B中采集的数据文件也是随机分发到服务器1或者服务器2中,从服务器C中采集的数据文件也是随机采集到服务器1或者服务器2中。第二组服务器集群中的源服务器-服务器D中采集的数据文件会随机分发到目的服务器-服务器3、服务器4或者服务器5中,从服务器E中采集的数据文件也是随机分发到目的服务器-服务器3、服务器4或者服务器5中,从服务器F中采集的数据文件也是随机分发到目的服务器-服务器3、服务器4或者服务器5中。
[0114] A32、在所述均衡规则为发牌式均衡时,将从同一组服务器集群的一个源服务器中采集到的各数据文件依次循环分发到所述同一组服务器集群的各个目的服务器中。
[0115] 示例的,所述均衡规则为发牌式均衡时,如图3所示,从第一组服务器集群中的源数据服务器-服务器A中采集的第一个数据文件会分发到目的服务器-服务器1,第二个数据文件会采集到目的服务器-服务器2中,第三个文件数据会采集目的服务器-服务器1中,第四个数据文件会分发到目的服务器-服务器2中,然后依次循环。从服务器B中采集的第一个数据文件会分发到目的服务器-服务器1,采集的第二个数据文件会到目的服务器-服务器2中,采集的第三个数据文件会分发到目的服务器-服务器1中,采集的第四个数据文件会分发到目的服务器-服务器2中,然后依次循环。
[0116] A33、在所述均衡规则为百分比均衡时,将从同一组服务器集群的一个源服务器中采集到的各数据文件依次循环分发到所述同一组服务器集群的各个目的服务器中,在所述同一组服务器集群的第一目的服务器的使用率大于对应的第一负载百分比阈值时,将从同一组服务器集群的源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群中除所述第一目的服务器外的其他目的服务器中。
[0117] 示例的,百分比均衡是以发牌式均衡方式为基础,当组内一个目的服务器的系统资源使用率达到配置的负载百分比阈值时,本台服务器将停止接收数据文件,则后续的数据文件将均分到组内剩余的其它目的服务器中。如图3所示,第二组服务器集群包括源服务器-服务器D、服务器E、服务器F,和目的服务器-服务器3、服务器4、服务器5。按照各目的服务器的能力为目的服务器-服务器3、服务器4、服务器5分别配置的负载百分比阈值依次为:60%:70%:90%。
[0118] 各源服务器-服务器D、服务器E、服务器F中的数据文件首先按照发牌式均衡方式依次循环分发到第二组服务器集群的各个目的服务器-服务器3、服务器4、服务器5中,当服务器3的系统资源使用率大于60%时,服务器3将不接收数据文件,则该装置将后续采集的数据文件按发牌式依次循环分发到服务器4、服务器5,当服务器4的系统资源使用率大于70%时,服务器4也不接收数据文件,该装置将后续采集的数据文件都分发到服务器5。
[0119] 当然,本实施例方法中,用户配置的数据分发规则可以同时包括服务器分组、分类规则和均衡规则,此时,所述按照所述数据分发规则将采集到的数据文件分发到所述目的服务器,包括:将从同一组服务器集群的源服务器中采集到的数据文件按照一定的均衡规则分发到所述同一组服务器集群的目的服务器中,将分发到同一目的服务器的同一类数据文件分发到所述同一目的服务器的同一目录下。
[0120] 本实施例方法中采集任务由用户自己灵活配置,可以满足用户需求,方便用户使用,若多个服务器中存在业务间的关联关系,需要从这多个服务器内采集某类数据文件时,可以直接由用户将这多个服务器配置为源服务器,就可以从这多个服务器内采集数据了,然后按照数据分发规则中的分类规则等将某一类数据文件采集到一个目的服务器的目录下,便于综合分析该累数据;如果需要采集新增服务器中的数据,则直接将该新增服务器配置为源服务器即可进行采集,不需要进行二次开发,使用成本降低。另外,本实施例方法在分发数据文件时提供三种负载均衡方式,保证目的服务器的负载均衡。
[0121] 实施例3
[0122] 本发明实施例提供了一种数据采集分发装置,如图5所示,所述装置包括:显示单元501,获取单元502,采集分发单元503,其中,
[0123] 显示单元501,用于显示用户配置界面;
[0124] 获取单元502,用于通过所述显示单元501显示的用户配置界面获取用户配置的本次采集任务的任务信息,所述任务信息包括源服务器和目的服务器;
[0125] 采集分发单元503,用于从所述获取单元502获取的所述源服务器采集数据文件,将采集到的数据文件分发到所述获取单元获取的目的服务器。
[0126] 可选的,所述任务信息中还包括:数据分发规则,则,所述采集分发单元503,具体用于按照所述数据分发规则将采集到的数据文件分发到所述目的服务器。
[0127] 可选的,所述数据分发规则中包括用户配置的至少一组服务器集群,每组服务器集群包括若干所述源服务器和若干所述目的服务器;则,所述采集分发单元503,具体用于将从同一组服务器集群的源服务器中采集到的数据文件分发到所述同一组服务器集群的目的服务器中。
[0128] 可选的,所述数据分发规则中还包括分类规则,所述分类规则包括按照或者不按照特定字符串进行数据分类,则,所述采集分发单元503,具体用于在所述分类分发规则包括按照特定字符串进行数据分类时,将采集到的数据文件的文件名中的特定字符串相同的数据文件作为同一类数据文件;在所述数据分发规则包括不按照特定字符串进行数据分类时,将采集到的数据文件作为同一类数据文件;将从同一组服务器集群的源服务器中采集到的数据文件分发到所述同一组服务器集群的目的服务器中,将分发到同一目的服务器的同一类数据文件分发到所述同一目的服务器的同一目录下。
[0129] 可选的,所述数据分发规则中还包括均衡规则,所述均衡规则包括随机均衡、发牌式均衡或百分比均衡,所述均衡规则为百分比均衡时,配置有每个目的服务器对应的负载百分比阈值;则,所述采集分发单元503,具体用于在所述均衡规则为随机均衡时,将从同一组服务器集群的源服务器中采集到的数据文件随机均衡分发到所述同一组服务器集群的目的服务器中;在所述均衡规则为发牌式均衡时,将从同一组服务器集群的源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群的目的服务器中;在所述均衡规则为百分比均衡时,将从同一组服务器集群的一个源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群的目的服务器中,在所述同一组服务器集群的第一目的服务器的使用率大于对应的第一负载百分比阈值时,将从所述同一组服务器集群的所述一个源服务器中采集到的数据文件依次循环分发到所述同一组服务器集群中除所述第一目的服务器外的其他目的服务器中。
[0130] 在实际应用中,本实施例中所述的显示单元501,获取单元502,采集分发单元503可以由所述数据采集分发装置上的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)、调制解调器等器件实现。
[0131] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0132] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0133] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0134] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0135] 以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。