大数据分析方法、装置、系统、设备和计算机存储介质转让专利

申请号 : CN202010032824.2

文献号 : CN111291227B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 艾建文张伟哲刘川意张宾方滨兴

申请人 : 鹏城实验室

摘要 :

本发明公开了一种大数据分析方法,包括以下步骤:接收数据源节点发送的样本文件,获取所述样本文件中的样本数据和数据源地址信息;根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果;在所述适配结果为所述数据分析程序与所述样本数据匹配时,将所述数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过所述数据分析程序在数据源节点进行全量数据分析。本发明还公开了一种大数据分析装置、系统、设备和计算机存储介质。本发明在保证数据安全性的前提下,提高了大数据分析的效率。

权利要求 :

1.一种大数据分析方法,其特征在于,所述大数据分析方法包括以下步骤:接收数据源节点发送的样本文件,获取所述样本文件中的样本数据和数据源地址信息;

根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果;

在所述适配结果为所述数据分析程序与所述样本数据匹配时,将所述数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过所述数据分析程序在数据源节点进行全量数据分析。

2.如权利要求1所述的大数据分析方法,其特征在于,所述接收数据源节点发送的样本文件,获取所述样本文件中的样本数据和数据源地址信息的步骤之前,包括:在分布式数据集群部署大数据调测平台,将数据挖掘调测平台部署到所述大数据调测平台的数据节点中;

将数据分析程序设置到所述数据挖掘调测平台的数据节点,并将所述数据分析程序和所述数据节点的关联关系记录在数据分析程序适配表上。

3.如权利要求1所述的大数据分析方法,其特征在于,所述接收数据源节点发送的样本文件,获取所述样本文件中的样本数据和数据源地址信息的步骤,包括:接收数据源节点发送的样本文件,根据所述样本文件关联的验证码对所述样本文件进行验证;

若所述样本文件验证不通过,则发送传输指令至所述数据源节点,以使所述数据源节点重新上传样本文件;

若所述样本文件验证通过,则解压所述样本文件获取所述样本文件中的样本数据和数据源地址信息。

4.如权利要求1所述的大数据分析方法,其特征在于,所述根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果的步骤,包括:查询数据分析程序适配表,确定所述数据分析程序适配表中未适配的数据分析程序;

调度设置有所述数据分析程序的数据节点,驱动所述数据节点中的数据分析程序与所述样本数据进行适配,获得适配结果。

5.如权利要求1所述的大数据分析方法,其特征在于,所述根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果的步骤之后,包括:在所述适配结果为所述数据分析程序与所述样本数据不匹配时,判断所述数据分析程序适配表中是否存在没有适配的数据分析程序;

若所述数据分析程序适配表中存在没有适配的数据分析程序,则调度设置有未适配数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,直至所述数据分析程序适配表中全部数据分析程序适配完成,或所述数据分析程序与所述样本数据匹配;

若所述数据分析程序适配表中全部的数据分析程序适配完成,则输出提示信息。

6.如权利要求1所述的大数据分析方法,其特征在于,所述根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果的步骤之后,包括:根据所述适配结果,更新所述数据分析程序适配表。

7.一种大数据分析装置,其特征在于,所述大数据分析装置包括:

接收获取模块,用于接收数据源节点发送的样本文件,获取所述样本文件中的样本数据和数据源地址信息;

调度适配模块,用于根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果;

浮动分析模块,用于在所述适配结果为所述数据分析程序与所述样本数据匹配时,将所述数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过所述数据分析程序在数据源节点进行全量数据分析。

8.一种大数据分析系统,其特征在于,所述大数据分析系统包括通信连接的数据源节点和大数据调测平台,所述大数据分析系统包括:数据源节点选择样本数据,对所述样本数据进行脱敏处理;

数据源节点将脱敏后的样本数据与所述样本数据的数据源地址信息关联形成样本文件,并将所述样本文件发送至大数据调测平台;

大数据调测平台接收数据源节点发送的样本文件,大数据调测平台获取所述样本文件中的样本数据和数据源地址信息;

大数据调测平台根据数据分析程序适配表,大数据调测平台调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果;

在所述适配结果为所述数据分析程序与所述样本数据匹配时,大数据调测平台将所述数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过所述数据分析程序在数据源节点进行全量数据分析。

9.一种大数据分析设备,其特征在于,所述大数据分析设备上搭载有大数据调测平台,所述大数据分析设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中:所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的大数据分析方法的步骤。

10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的大数据分析方法的步骤。

说明书 :

大数据分析方法、装置、系统、设备和计算机存储介质

技术领域

[0001] 本发明涉及大数据分析领域,尤其涉及大数据分析方法、装置、系统、设备和计算机存储介质。

背景技术

[0002] 全球数据量增长速度较快,这些快速增长的海量数据分散存储在各地。
[0003] 为了对海量数据进行快速分析和处理,设置了大数据调测平台,大数据调测平台采用集群的方式对结构化与非结构化数据进行存储和分析,大数据调测平台进行大数据处理时,首先需要先将分散在互联网各地的数据远程传输到大数据集群内存储,然后,在利用设置的多个数据分析程序分别对批量的大数据进行分析处理。
[0004] 这样的大数据分析方式,数据传输过程中安全性得不到保证,网络资源浪费严重,且数据集中分析处理数量处理量大,大数据分析效率低。

发明内容

[0005] 本发明的主要目的在于提供一种大数据分析方法、装置、系统、设备和计算机存储介质,旨在解决当前大数据分析时安全性低,资源浪费严重且数据分析效率低的技术问题。
[0006] 为实现上述目的,本发明提供大数据分析方法,所述大数据分析方法包括以下步骤:
[0007] 接收数据源节点发送的样本文件,获取所述样本文件中的样本数据和数据源地址信息;
[0008] 根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果;
[0009] 在所述适配结果为所述数据分析程序与所述样本数据匹配时,将所述数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过所述数据分析程序在数据源节点进行全量数据分析。
[0010] 在一实施例中,所述接收数据源节点发送的样本文件,获取所述样本文件中的样本数据和数据源地址信息的步骤之前,包括:
[0011] 在分布式数据集群部署大数据调测平台,将数据挖掘调测平台部署到所述大数据调测平台的数据节点中;
[0012] 将数据分析程序设置到所述数据挖掘调测平台的数据节点,并将所述数据分析程序和所述数据节点的关联关系记录在数据分析程序适配表上。
[0013] 在一实施例中,所述接收数据源节点发送的样本文件,获取所述样本文件中的样本数据和数据源地址信息的步骤,包括:
[0014] 接收数据源节点发送的样本文件,根据所述样本文件关联的验证码对所述样本文件进行验证;
[0015] 若所述样本文件验证不通过,则发送传输指令至所述数据源节点,以使所述数据源节点重新上传样本文件;
[0016] 若所述样本文件验证通过,则解压所述样本文件获取所述样本文件中的样本数据和数据源地址信息。
[0017] 在一实施例中,所述根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果的步骤,包括:
[0018] 查询数据分析程序适配表,确定所述数据分析程序适配表中未适配的数据分析程序;
[0019] 调度设置有所述数据分析程序的数据节点,驱动所述数据节点中的数据分析程序与所述样本数据进行适配,获得适配结果。
[0020] 在一实施例中,所述根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果的步骤之后,包括:
[0021] 在所述适配结果为所述数据分析程序与所述样本数据不匹配时,判断所述数据分析程序适配表中是否存在没有适配的数据分析程序;
[0022] 若所述数据分析程序适配表中存在没有适配的数据分析程序,则调度设置有未适配数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,直至所述数据分析程序适配表中全部数据分析程序适配完成,或所述数据分析程序与所述样本数据匹配;
[0023] 若所述数据分析程序适配表中全部的数据分析程序适配完成,则输出提示信息。
[0024] 在一实施例中,所述根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果的步骤之后,包括:
[0025] 根据所述适配结果,更新所述数据分析程序适配表。
[0026] 此外,为实现上述目的,本发明还提供一种大数据分析装置,所述大数据分析装置包括:
[0027] 接收获取模块,用于接收数据源节点发送的样本文件,获取所述样本文件中的样本数据和数据源地址信息;
[0028] 调度适配模块,用于根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果;
[0029] 浮动分析模块,用于在所述适配结果为所述数据分析程序与所述样本数据匹配时,将所述数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过所述数据分析程序在数据源节点进行全量数据分析。
[0030] 此外,为实现上述目的,本发明还提供一种大数据分析系统,所述大数据分析系统包括通信连接的数据源节点和大数据调测平台,所述大数据分析系统包括:
[0031] 数据源节点选择样本数据,对所述样本数据进行脱敏处理;
[0032] 数据源节点将脱敏后的样本数据与所述样本数据的数据源地址信息关联形成样本文件,并将所述样本文件发送至大数据调测平台;
[0033] 大数据调测平台接收数据源节点发送的样本文件,大数据调测平台获取所述样本文件中的样本数据和数据源地址信息;
[0034] 大数据调测平台根据数据分析程序适配表,大数据调测平台调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果;
[0035] 在所述适配结果为所述数据分析程序与所述样本数据匹配时,大数据调测平台将所述数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过所述数据分析程序在数据源节点进行全量数据分析。
[0036] 此外,为实现上述目的,本发明还提供一种大数据分析设备;
[0037] 所述大数据分析设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中:
[0038] 所述计算机程序被所述处理器执行时实现如上所述的大数据分析方法的步骤。
[0039] 此外,为实现上述目的,本发明还提供计算机存储介质;
[0040] 所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的大数据分析方法的步骤。
[0041] 本发明实施例提出的一种大数据分析方法、装置、系统、设备和计算机存储介质,通过接收数据源节点发送的样本文件,获取所述样本文件中的样本数据和数据源地址信息;根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果;在所述适配结果为所述数据分析程序与所述样本数据匹配时,将所述数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过所述数据分析程序在数据源节点进行全量数据分析。本实施例中先从数据源中抽取样本数据,将预置的多类数据分析程序对样本数据进行适配,筛选出适合该样本数据的数据分析程序,然后将数据分析程序浮动至数据源节点进行全量的数据分析处理,本实施例中的数据分析方法不需要数据传输集中处理,减少了数据传输网络资源的浪费,避免了敏感数据泄露问题,提高了数据分析效率。

附图说明

[0042] 图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图;
[0043] 图2为本发明大数据分析方法第一实施例中大数据调测平台部署的流程示意图;
[0044] 图3为本发明大数据分析方法第一实施例中大数据调测平台部署的具体场景示意图;
[0045] 图4为本发明大数据分析方法第一实施例的流程示意图;
[0046] 图5为本发明大数据分析方法第三实施例的流程示意图;
[0047] 图6为本发明大数据分析装置一实施例的功能模块示意图。
[0048] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0049] 应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0050] 由于现有技术通过主要两种方式实现大数据分析管理:
[0051] 方式一,将待分析数据从各数据源传输至数据分析平台进行处理,待分析数据隐私性极易在传输过程中或数据分析平台上遭到侵害,并且将海量数据从互联网的公有IP上进行传输,其网络传输时间成本昂贵。与此同时,在多方数据源协作进行数据分析的场景下,还存在自有数据隐私被外部数据源拥有者侵害的风险性。
[0052] 方式二,对用户进行身份认证或者授权,使得被授权的用户对大数据进行分析管理;这种大数据分析管理方式,没有考虑数据的保密性和内部的复杂权限管理。这样的数据分析流程中,设定集群总是处于可信的环境中,由可信用户使用的相互协作的可信计算机组成。一旦身份认证或者授权管理通过,用户就拥有了在大数据调测平台集群内数据节点上数据的随意处置权,大数据中的姓名、手机号、身份证号、性别等敏感信息没有被有效保护与剔除,敏感数据能轻易地通过大数据调测平台集群中的数据节点流出大数据管理平台,向互联网中传播。
[0053] 方式三,将数据分析程序部署到各个数据源节点,以在每个数据分析节点进行数据分析,这样由于数据分析程序的种类和数据较多,每个节点保存全量的数据分析程序,数据分析程序更新困难,且数据源节点对硬件成本要求较高。
[0054] 为了克服当前大数据分析时,对大数据进行集中处理,导致数据传输时间成本昂贵、设备成本高和出现敏感数据泄露问题,本发明采用基于程序浮动原理的数据分析机制,利用在数据挖掘平台中预置多类数据分析程序,分散在互联网各地的数据源不需要将全量数据传输到大数据调测平台的集群中进行处理,只需要抽取样本数据,进行脱密处理后,传输到大数据调测平台的集群中,将预置的多类数据分析程序对样本数据进行适配,筛选出适合该样本数据的数据分析程序,然后数据分析程序根据样本数据所携带的地址信息浮动至数据源所在的节点进行全量的数据分析处理。
[0055] 如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端(又叫大数据分析设备,其中,大数据分析设备可以是由单独的大数据分析装置构成,也可以是由其他装置与大数据分析装置组合形成)结构示意图。
[0056] 如图1所示,该终端可以包括:处理器1001,例如,中央处理器Central Processing Unit,CPU),网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真WIreless‑FIdelity,WIFI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non‑volatile memory),例如,磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
[0057] 本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0058] 如图1所示,该计算机软件产品存储在一个存储介质(存储介质:又叫计算机存储介质、计算机介质、可读介质、可读存储介质、计算机可读存储介质或者直接叫介质等,存储介质可以是非易失性可读存储介质,如RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序;操作系统是指电视终端中安装的操作系统,例如,安卓系统;网络通信模块是指用于通信连接的网络模块,本实施例中网络通信模块可以与共享终端建立连接;用户接口模块是指用于接收用户输入的模块,例如,用户接口模块用于接收遥控器发送的指令;计算机程序中保存有大数据分析程序。
[0059] 在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的计算机程序,并执行本发明以下实施例提供的大数据分析方法中的步骤。
[0060] 基于本发明上述硬件结构提出了本发明大数据分析方法实施例,包括:
[0061] 接收数据源节点发送的样本文件,获取所述样本文件中的样本数据和数据源地址信息;
[0062] 根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果;
[0063] 在所述适配结果为所述数据分析程序与所述样本数据匹配时,将所述数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过所述数据分析程序在数据源节点进行全量数据分析。
[0064] 本实施例中的大数据分析方法应用在大数据分析设备,大数据分析设备上部署有大数据测调平台,参照图2和图3,本实施例中给出一种大数据测调平台部署的具体实现方式,包括:
[0065] 步骤S01,在分布式数据集群部署大数据调测平台,将数据挖掘调测平台部署到所述大数据调测平台的数据节点中;
[0066] 步骤S02,将数据分析程序设置到所述数据挖掘调测平台的数据节点,并将所述数据分析程序和所述数据节点的关联关系记录在数据分析程序适配表上。
[0067] 本实施例中,用户在大数据分析设备上部署大数据调测平台,并将数据挖掘调测平台部署到大数据调测平台的数据节点中,在数据挖掘调测平台部署完成之后,根据各个节点的属性,确定一个数据挖掘调测平台管理节点,数据挖掘调测平台管理节点统计部署到大数据调测平台的数据挖掘调测平台节点数,数据挖掘调测平台管理节点将多类数据分析程序均匀预置到数据挖掘调测平台节点中;在数据挖掘调测平台管理节点中,根据各挖掘节点预置的多类数据分析程序,构建一个数据分析程序适配表,记录不同节点预置的数据分析程序所在节点地址、已适配节点记录、数据分析程序适配状态和适配成功的地址信息。
[0068] 参照图4,在本发明一种大数据分析方法的第一实施例中,所述大数据分析方法包括:
[0069] 步骤S10,接收数据源节点发送的样本文件,获取所述样本文件中的样本数据和数据源地址信息。
[0070] 大数据分析设备接收数据源节点发送的样本文件,大数据分析设备对样本文件进行解压,获取样本文件中的样本数据和数据源地址信息,其中,样本数据是指从大数据源中抽取的具有代表意义的特征数据;数据源地址信息是指样本数据的来源地址信息。
[0071] 可以理解的是,本实施例中的大数据分析设备中设置负载均衡器,大数据分析设备接收到样本文件之后,大数据分析设备中的负载均衡器会将样本文件保存至大数据调测平台。
[0072] 步骤S20,根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果。
[0073] 具体地,步骤S20包括:
[0074] 步骤a1,查询数据分析程序适配表,确定所述数据分析程序适配表中未适配的数据分析程序;
[0075] 步骤a2,调度设置有所述数据分析程序的数据节点,驱动所述数据节点中的数据分析程序与所述样本数据进行适配,获得适配结果。
[0076] 即,大数据分析设备查询数据分析程序适配表,确定数据分析程序适配表中未适配的数据分析程序;大数据分析设备调度设置有未适配的数据分析程序的数据节点,驱动数据节点中的数据分析程序与样本数据进行适配,获得适配结果。
[0077] 步骤S30,在所述适配结果为所述数据分析程序与所述样本数据匹配时,将所述数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过所述数据分析程序在数据源节点进行全量数据分析。
[0078] 在适配结果为数据分析程序与所述样本数据匹配时,大数据分析设备通知数据挖掘调测平台管理节点,在数据分析程序适配状态表中修改当前数据分析程序的适配状态为成功,同时从读取数据源地址信息,将数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过数据分析程序在数据源节点进行全量数据分析。
[0079] 在本实施例中本实施例中先从数据源中抽取样本数据,将预置的多类数据分析程序对样本数据进行适配,筛选出适合该样本数据的数据分析程序,然后将数据分析程序浮动至数据源节点进行全量的数据分析处理,本实施例中的数据分析方法不需要数据传输集中处理,减少了数据传输网络资源的浪费,避免了敏感数据泄露问题,提高了数据分析效率。
[0080] 进一步地,在本发明第一实施例的基础上,提出了本发明大数据分析方法的第二实施例。
[0081] 本实施例是第一实施例中步骤S10的细化,本实施例与本发明第一实施例的区别在于:
[0082] 接收数据源节点发送的样本文件,根据所述样本文件关联的验证码对所述样本文件进行验证;
[0083] 若所述样本文件验证不通过,则发送传输指令至所述数据源节点,以使所述数据源节点重新上传样本文件;
[0084] 若所述样本文件验证通过,则解压所述样本文件获取所述样本文件中的样本数据和数据源地址信息。
[0085] 大数据分析设备接收数据源节点发送的样本文件,大数据分析设备根据样本文件关联的验证码对样本文件进行验证;以判断样本文件是否完整传输,若样本文件验证不通过,则大数据分析设备判定数据未完整传输,大数据分析设备发送传输指令至数据源节点,以使数据源节点重新上传样本文件;若样本文件验证通过,则解压样本文件获取所述样本文件中的样本数据和数据源地址信息。
[0086] 在本实施例中大数据分析设备先对样本数据进行验证,避免样本数据没有完全传输导致的数据分析错误的问题,进一步地提高了大数据分析准确性。
[0087] 进一步地,参考图5,在本发明上述实施例的基础上,提出了本发明大数据分析方法的第三实施例。
[0088] 本实施例是第一实施例中步骤S20之后,本实施例与本发明上述实施例的区别在于:
[0089] 步骤S40,在所述适配结果为所述数据分析程序与所述样本数据不匹配时,判断所述数据分析程序适配表中是否存在没有适配的数据分析程序。
[0090] 步骤S50,若所述数据分析程序适配表中存在没有适配的数据分析程序,则调度设置有未适配数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,直至所述数据分析程序适配表中全部数据分析程序适配完成,或所述数据分析程序与所述样本数据匹配。
[0091] 步骤S60,若所述数据分析程序适配表中全部的数据分析程序适配完成,则输出提示信息。
[0092] 在适配结果为数据分析程序与样本数据不匹配时,大数据分析设备判断数据分析程序适配表中是否存在没有适配的数据分析程序,若数据分析程序适配表中存在没有适配的数据分析程序,大数据分析设备调度设置有未适配数据分析程序的数据节点,驱动数据分析程序与所述样本数据进行适配,直至数据分析程序与样本数据匹配,输出匹配成功的提示信息;或者直至数据分析程序适配表中全部数据分析程序适配完成,则通知数据挖掘调测平台管理节点,在数据分析程序适配状态表中修改当前数据分析程序的适配状态为不成功,并输出提示信息。
[0093] 若数据分析程序适配表中全部的数据分析程序适配完成,则输出提示信息。此外,大数据设备还可以根据数据分析程序适配表中的已适配节点记录信息,判断是否可以将数据分析程序浮动到数据挖掘调测平台的其他节点,完成数据分析程序与数据样本的全量适配。
[0094] 在本实施例中大数据分析设备在适配结果为数据分析程序与样本数据不匹配时,大数据分析设备根据数据分析程序适配表,调度部署有没有适配的数据分析程序的数据节点,驱动数据分析程序与所述样本数据进行适配,直至得到结果,这样保证了数据分析的全面性。
[0095] 此外,本发明实施例还提出一种大数据分析系统,所述大数据分析所述大数据分析系统包括通信连接的数据源节点和大数据调测平台,所述大数据分析系统包括:
[0096] 数据源节点选择样本数据,对所述样本数据进行脱敏处理;
[0097] 数据源节点将脱敏后的样本数据与所述样本数据的数据源地址信息关联形成样本文件,并将所述样本文件发送至大数据调测平台;
[0098] 大数据调测平台接收数据源节点发送的样本文件,大数据调测平台获取所述样本文件中的样本数据和数据源地址信息;
[0099] 大数据调测平台根据数据分析程序适配表,大数据调测平台调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果;
[0100] 在所述适配结果为所述数据分析程序与所述样本数据匹配时,大数据调测平台将所述数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过所述数据分析程序在数据源节点进行全量数据分析。
[0101] 本实施例中,数据源节点选择样本数据,对所述样本数据进行脱敏处理;即,数据源节点中预设敏感词集合,敏感词集合中包含有个人信息、金钱信息、限制词语等敏感信息,数据源节点将获取到的样本数据与敏感词集合中的敏感信息进行比对,若样本数据中包含敏感信息,数据源节点将敏感信息进行删除,得到脱敏后的样本数据。
[0102] 数据源节点将脱敏后的样本数据与样本数据的数据源地址信息关联形成样本文件,数据源节点对样本文件进行加密压缩形成验证码,然后数据源节点将样本文件向大数据调测平台数据节点集群的进行传输,实现数据传输与存储的负载均衡。
[0103] 大数据调测平台接收数据源节点发送的样本文件,大数据调测平台获取所述样本文件中的样本数据和数据源地址信息;大数据调测平台根据数据分析程序适配表,大数据调测平台调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果;在所述适配结果为所述数据分析程序与所述样本数据匹配时,大数据调测平台将所述数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过所述数据分析程序在数据源节点进行全量数据分析。具体地,参照第一实施例,本实施例中不作赘述。
[0104] 本实施例中采用基于程序浮动原理的数据分析机制,使得分散在互联网各地的数据源不需要将全量数据传输到大数据调测平台的集群中进行处理,只需要抽取样本数据,进行脱密处理后,传输到大数据调测平台的集群中,将预置的多类数据分析程序对样本数据进行适配,筛选出适合该样本数据的数据分析程序,然后数据分析程序根据样本数据所携带的地址信息浮动至数据源所在的节点进行全量的数据分析处理。克服传统数据被处理时,需要从数据源获得数据进行集中处理,导致数据传输时间成本昂贵和出现敏感数据泄露问题。
[0105] 此外,参考图6,本发明实施例还提出一种大数据分析装置,所述大数据分析装置包括:
[0106] 接收获取模块10,用于接收数据源节点发送的样本文件,获取所述样本文件中的样本数据和数据源地址信息;
[0107] 调度适配模块20,用于根据数据分析程序适配表,调度部署有数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,获得适配结果;
[0108] 浮动分析模块30,用于在所述适配结果为所述数据分析程序与所述样本数据匹配时,将所述数据分析程序浮动至所述数据源地址信息对应的数据源节点,通过所述数据分析程序在数据源节点进行全量数据分析。
[0109] 在一实施例中,所述的大数据分析装置,包括:
[0110] 平台部署模块,用于在分布式数据集群部署大数据调测平台,将数据挖掘调测平台部署到所述大数据调测平台的数据节点中;
[0111] 将数据分析程序设置到所述数据挖掘调测平台的数据节点,并将所述数据分析程序和所述数据节点的关联关系记录在数据分析程序适配表上。
[0112] 在一实施例中,所述接收获取模块,包括:
[0113] 接收验证单元,用于接收数据源节点发送的样本文件,根据所述样本文件关联的验证码对所述样本文件进行验证;
[0114] 第一判定单元,用于若所述样本文件验证不通过,则发送传输指令至所述数据源节点,以使所述数据源节点重新上传样本文件;
[0115] 第二判定单元,用于若所述样本文件验证通过,则解压所述样本文件获取所述样本文件中的样本数据和数据源地址信息。
[0116] 在一实施例中,所述调度适配模块,包括:
[0117] 查询确定单元,用于查询数据分析程序适配表,确定所述数据分析程序适配表中未适配的数据分析程序;
[0118] 调度确定单元,用于调度设置有所述数据分析程序的数据节点,驱动所述数据节点中的数据分析程序与所述样本数据进行适配,获得适配结果。
[0119] 在一实施例中,所述的大数据分析装置,包括:
[0120] 程序判断模块,用于在所述适配结果为所述数据分析程序与所述样本数据不匹配时,判断所述数据分析程序适配表中是否存在没有适配的数据分析程序;
[0121] 调度比对模块,用于若所述数据分析程序适配表中存在没有适配的数据分析程序,则调度设置有未适配数据分析程序的数据节点,驱动所述数据分析程序与所述样本数据进行适配,直至所述数据分析程序适配表中全部数据分析程序适配完成,或所述数据分析程序与所述样本数据匹配;
[0122] 比对输出模块,用于若所述数据分析程序适配表中全部的数据分析程序适配完成,则输出提示信息。
[0123] 在一实施例中,所述的大数据分析装置,包括:
[0124] 根据所述适配结果,更新所述数据分析程序适配表。
[0125] 其中,大数据分析装置的各个功能模块实现的步骤可参照本发明大数据分析方法的各个实施例,此处不再赘述。
[0126] 此外,本发明实施例还提出一种计算机存储介质。
[0127] 所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例提供的大数据分析方法中的操作。
[0128] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序;术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0129] 对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0130] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0131] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0132] 以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。