基于大数据平台的数据处理方法、装置、设备及存储介质转让专利

申请号 : CN202211033781.5

文献号 : CN115098602B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 谢泽雄郑岩

申请人 : 矩阵起源(深圳)信息科技有限公司

摘要 :

本发明涉及数据处理领域,公开了一种基于大数据平台的数据处理方法、装置、设备及存储介质,用于提高数据异常检测的准确率。所述基于大数据平台的数据处理方法包括:从预置的大数据平台中获取待处理的事件数据,并提取所述事件数据中的多个实体和事件动作;根据所述事件动作对所述事件数据中的多个实体之间的关系信息进行识别,得到关系信息;根据所述关系信息创建所述多个实体之间的连接关系,并根据所述连接关系生成所述事件数据对应的关系图,得到实体关系图;根据所述实体关系图并通过预置的异常检测模型对所述事件数据进行异常检测,得到异常检测结果。

权利要求 :

1.一种基于大数据平台的数据处理方法,其特征在于,所述基于大数据平台的数据处理方法包括:

从预置的大数据平台中获取待处理的事件数据,并提取所述事件数据中的多个实体和事件动作;其中,所述从预置的大数据平台中获取待处理的事件数据,并提取所述事件数据中的多个实体和事件动作,包括:通过预置的大数据平台获取待处理的事件数据;提取所述事件数据中的键值对,并根据所述键值对标记所述事件数据,得到标记后的事件数据;根据预置的数据格式解析所述标记后的事件数据,得到所述事件数据对应的多个实体和事件动作;

根据所述事件动作对所述事件数据中的多个实体之间的关系信息进行识别,得到关系信息;具体的,实体和实体之间的关系表示记录在事件数据中的由一个实体相对于另一实体执行的活动,根据事件动作对事件数据中的多个实体之间的关系信息进行识别,得到关系信息,所述关系信息是所述事件数据中的多个实体之间的事件动作之间的联系;

根据所述关系信息创建所述多个实体之间的连接关系,并根据所述连接关系生成所述事件数据对应的关系图,得到实体关系图;具体的,所述关系信息中记录了多个实体之间的关系,所述关系包括多个实体之间的连接关系,根据连接关系生成事件数据对应的关系图,得到实体关系图,所述实体关系图包括表示与计算机网络相关联的实体的多个节点和链接多个节点中的两个或更多个的多个边,所述实体关系图中的每条边都表示由节点表示的实体之间的关联,其中,关系图包括至少两个节点和两个节点之间的边,每个节点代表实体之一,边表示实体之间的关系;

根据所述实体关系图并通过预置的异常检测模型对所述事件数据进行异常检测,得到异常检测结果;其中,所述根据所述实体关系图并通过预置的异常检测模型对所述事件数据进行异常检测,得到异常检测结果,包括:提取所述实体关系图中的节点和边,其中,所述节点用于指示所述实体,所述边用于指示所述实体之间的关系;根据所述节点和边生成所述关系图对应的特征向量;将所述特征向量输入预置的异常检测模型进行异常检测,输出异常概率值;对所述异常概率值和预设目标值进行比较;若所述异常概率值大于或等于所述预设目标值,则确定异常检测结果为异常;若所述异常概率值小于所述预设目标值,则确定异常检测结果为正常。

2.根据权利要求1所述的基于大数据平台的数据处理方法,其特征在于,所述根据所述事件动作对所述事件数据中的多个实体之间的关系信息进行识别,得到关系信息,包括:对所述事件动作进行解析,得到执行数据;

检测所述事件数据对应的数据格式;

根据所述数据格式和所述执行数据生成所述多个实体之间的关系信息。

3.根据权利要求1所述的基于大数据平台的数据处理方法,其特征在于,所述基于大数据平台的数据处理方法还包括:将所述实体关系图和所述事件数据发送至预置的事件处理引擎;

通过所述事件处理引擎对所述实体关系图和所述事件数据进行数据分析,得到数据分析结果,其中,所述数据分析结果用于指示所述事件数据的安全异常。

4.根据权利要求1所述的基于大数据平台的数据处理方法,其特征在于,所述基于大数据平台的数据处理方法还包括:从所述大数据平台中获取多个样本事件数据;

根据所述多个样本事件数据生成每个样本事件数据对应的样本关系图;

对所述样本关系图进行组合,得到复合关系图。

5.根据权利要求1‑4中任一项所述的基于大数据平台的数据处理方法,其特征在于,所述基于大数据平台的数据处理方法还包括:将预置的视图标识符添加至所述事件数据;

通过所述视图标识符提取所述事件对应的多个属性;

根据所述多个属性生成所述事件数据对应的选择信息。

6.一种基于大数据平台的数据处理装置,其特征在于,所述基于大数据平台的数据处理装置包括:

获取模块,用于从预置的大数据平台中获取待处理的事件数据,并提取所述事件数据中的多个实体和事件动作;其中,所述从预置的大数据平台中获取待处理的事件数据,并提取所述事件数据中的多个实体和事件动作,包括:通过预置的大数据平台获取待处理的事件数据;提取所述事件数据中的键值对,并根据所述键值对标记所述事件数据,得到标记后的事件数据;根据预置的数据格式解析所述标记后的事件数据,得到所述事件数据对应的多个实体和事件动作;

识别模块,用于根据所述事件动作对所述事件数据中的多个实体之间的关系信息进行识别,得到关系信息;具体的,实体和实体之间的关系表示记录在事件数据中的由一个实体相对于另一实体执行的活动,根据事件动作对事件数据中的多个实体之间的关系信息进行识别,得到关系信息,所述关系信息是所述事件数据中的多个实体之间的事件动作之间的联系;

生成模块,用于根据所述关系信息创建所述多个实体之间的连接关系,并根据所述连接关系生成所述事件数据对应的关系图,得到实体关系图;具体的,所述关系信息中记录了多个实体之间的关系,所述关系包括多个实体之间的连接关系,根据连接关系生成事件数据对应的关系图,得到实体关系图,所述实体关系图包括表示与计算机网络相关联的实体的多个节点和链接多个节点中的两个或更多个的多个边,所述实体关系图中的每条边都表示由节点表示的实体之间的关联,其中,关系图包括至少两个节点和两个节点之间的边,每个节点代表实体之一,边表示实体之间的关系;

检测模块,用于根据所述实体关系图并通过预置的异常检测模型对所述事件数据进行异常检测,得到异常检测结果;其中,所述根据所述实体关系图并通过预置的异常检测模型对所述事件数据进行异常检测,得到异常检测结果,包括:提取所述实体关系图中的节点和边,其中,所述节点用于指示所述实体,所述边用于指示所述实体之间的关系;根据所述节点和边生成所述关系图对应的特征向量;将所述特征向量输入预置的异常检测模型进行异常检测,输出异常概率值;对所述异常概率值和预设目标值进行比较;若所述异常概率值大于或等于所述预设目标值,则确定异常检测结果为异常;若所述异常概率值小于所述预设目标值,则确定异常检测结果为正常。

7.一种基于大数据平台的数据处理设备,其特征在于,所述基于大数据平台的数据处理设备包括:存储器和至少一个处理器,所述存储器中存储有指令;

所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于大数据平台的数据处理设备执行如权利要求1‑5中任一项所述的基于大数据平台的数据处理方法。

8.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1‑5中任一项所述的基于大数据平台的数据处理方法。

说明书 :

基于大数据平台的数据处理方法、装置、设备及存储介质

技术领域

[0001] 本发明涉及数据处理领域,尤其涉及一种基于大数据平台的数据处理方法、装置、设备及存储介质。

背景技术

[0002] 随着云技术的不断发展,大数据平台被广泛应用于存储和管理计算机数据,其中,数字数据,通常以数据包的形式,由互连的网络设备沿网络传递。数据活动检测,无论是友好的还是恶意的,一直是计算机安全管理的首要任务。
[0003] 恶意活动可能对网络的软件或硬件或其用户造成损害,恶意活动可能包括未经授权的访问或随后未经许可使用网络资源和数据,网络管理员试图检测此类活动,例如,通过搜索异常或与特定实体。但是现有方案对于数据活动的异常检测的准确率低。

发明内容

[0004] 本发明提供了一种基于大数据平台的数据处理方法、装置、设备及存储介质,用于提高数据异常检测的准确率。
[0005] 本发明第一方面提供了一种基于大数据平台的数据处理方法,所述基于大数据平台的数据处理方法包括:从预置的大数据平台中获取待处理的事件数据,并提取所述事件数据中的多个实体和事件动作;根据所述事件动作对所述事件数据中的多个实体之间的关系信息进行识别,得到关系信息;根据所述关系信息创建所述多个实体之间的连接关系,并根据所述连接关系生成所述事件数据对应的关系图,得到实体关系图;根据所述实体关系图并通过预置的异常检测模型对所述事件数据进行异常检测,得到异常检测结果。
[0006] 可选的,在本发明第一方面的第一种实现方式中,所述从预置的大数据平台中获取待处理的事件数据,并提取所述事件数据中的多个实体和事件动作,包括:通过预置的大数据平台获取待处理的事件数据;提取所述事件数据中的键值对,并根据所述键值对标记所述事件数据,得到标记后的事件数据;根据预置的数据格式解析所述标记后的事件数据,得到所述事件数据对应的多个实体和事件动作。
[0007] 可选的,在本发明第一方面的第二种实现方式中,所述根据所述事件动作对所述事件数据中的多个实体之间的关系信息进行识别,得到关系信息,包括:对所述事件动作进行解析,得到执行数据;检测所述事件数据对应的数据格式;根据所述数据格式和所述执行数据生成所述多个实体之间的关系信息。
[0008] 可选的,在本发明第一方面的第三种实现方式中,所述根据所述实体关系图并通过预置的异常检测模型对所述事件数据进行异常检测,得到异常检测结果,包括:提取所述实体关系图中的节点和边,其中,所述节点用于指示所述实体,所述边用于指示所述实体之间的关系;根据所述节点和边生成所述关系图对应的特征向量;将所述特征向量输入预置的异常检测模型进行异常检测,输出异常概率值;对所述异常概率值和预设目标值进行比较;若所述异常概率值大于或等于所述预设目标值,则确定异常检测结果为异常;若所述异常概率值小于所述预设目标值,则确定异常检测结果为正常。
[0009] 可选的,在本发明第一方面的第四种实现方式中,所述基于大数据平台的数据处理方法还包括:将所述实体关系图和所述事件数据发送至预置的事件处理引擎;通过所述事件处理引擎对所述实体关系图和所述事件数据进行数据分析,得到数据分析结果,其中,所述数据分析结果用于指示所述事件数据的安全异常。
[0010] 可选的,在本发明第一方面的第五种实现方式中,所述基于大数据平台的数据处理方法还包括:从所述大数据平台中获取多个样本事件数据;根据所述多个样本事件数据生成每个样本事件数据对应的样本关系图;对所述样本关系图进行组合,得到复合关系图。
[0011] 可选的,在本发明第一方面的第六种实现方式中,所述基于大数据平台的数据处理方法还包括:将预置的视图标识符添加至所述事件数据;通过所述视图标识符提取所述事件对应的多个属性;根据所述多个属性生成所述事件数据对应的选择信息。
[0012] 本发明第二方面提供了一种基于大数据平台的数据处理装置,所述基于大数据平台的数据处理装置包括:获取模块,用于从预置的大数据平台中获取待处理的事件数据,并提取所述事件数据中的多个实体和事件动作;识别模块,用于根据所述事件动作对所述事件数据中的多个实体之间的关系信息进行识别,得到关系信息;生成模块,用于根据所述关系信息创建所述多个实体之间的连接关系,并根据所述连接关系生成所述事件数据对应的关系图,得到实体关系图;检测模块,用于根据所述实体关系图并通过预置的异常检测模型对所述事件数据进行异常检测,得到异常检测结果。
[0013] 可选的,在本发明第二方面的第一种实现方式中,所述获取模块具体用于:通过预置的大数据平台获取待处理的事件数据;提取所述事件数据中的键值对,并根据所述键值对标记所述事件数据,得到标记后的事件数据;根据预置的数据格式解析所述标记后的事件数据,得到所述事件数据对应的多个实体和事件动作。
[0014] 可选的,在本发明第二方面的第二种实现方式中,所述识别模块具体用于:对所述事件动作进行解析,得到执行数据;检测所述事件数据对应的数据格式;根据所述数据格式和所述执行数据生成所述多个实体之间的关系信息。
[0015] 可选的,在本发明第二方面的第三种实现方式中,所述检测模块具体用于:提取所述实体关系图中的节点和边,其中,所述节点用于指示所述实体,所述边用于指示所述实体之间的关系;根据所述节点和边生成所述关系图对应的特征向量;将所述特征向量输入预置的异常检测模型进行异常检测,输出异常概率值;对所述异常概率值和预设目标值进行比较;若所述异常概率值大于或等于所述预设目标值,则确定异常检测结果为异常;若所述异常概率值小于所述预设目标值,则确定异常检测结果为正常。
[0016] 可选的,在本发明第二方面的第四种实现方式中,所述基于大数据平台的数据处理装置还包括:分析模块,用于将所述实体关系图和所述事件数据发送至预置的事件处理引擎;通过所述事件处理引擎对所述实体关系图和所述事件数据进行数据分析,得到数据分析结果,其中,所述数据分析结果用于指示所述事件数据的安全异常。
[0017] 可选的,在本发明第二方面的第五种实现方式中,所述基于大数据平台的数据处理装置还包括:组合模块,用于从所述大数据平台中获取多个样本事件数据;根据所述多个样本事件数据生成每个样本事件数据对应的样本关系图;对所述样本关系图进行组合,得到复合关系图。
[0018] 可选的,在本发明第二方面的第六种实现方式中,所述基于大数据平台的数据处理装置还包括:添加模块,用于将预置的视图标识符添加至所述事件数据;通过所述视图标识符提取所述事件对应的多个属性;根据所述多个属性生成所述事件数据对应的选择信息。
[0019] 本发明第三方面提供了一种基于大数据平台的数据处理设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于大数据平台的数据处理设备执行上述的基于大数据平台的数据处理方法。
[0020] 本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于大数据平台的数据处理方法。
[0021] 本发明提供的技术方案中,从预置的大数据平台中获取待处理的事件数据,并提取所述事件数据中的多个实体和事件动作;根据所述事件动作对所述事件数据中的多个实体之间的关系信息进行识别,得到关系信息;根据所述关系信息创建所述多个实体之间的连接关系,并根据所述连接关系生成所述事件数据对应的关系图,得到实体关系图;根据所述实体关系图并通过预置的异常检测模型对所述事件数据进行异常检测,得到异常检测结果。本发明通过大数据平台对数据的安全进行实时检测,并且通过深度学习的异常检测模型有效提高了数据安全检测的准确率。

附图说明

[0022] 图1为本发明实施例中基于大数据平台的数据处理方法的一个实施例示意图;
[0023] 图2为本发明实施例中基于大数据平台的数据处理方法的另一个实施例示意图;
[0024] 图3为本发明实施例中基于大数据平台的数据处理装置的一个实施例示意图;
[0025] 图4为本发明实施例中基于大数据平台的数据处理装置的另一个实施例示意图;
[0026] 图5为本发明实施例中基于大数据平台的数据处理设备的一个实施例示意图。

具体实施方式

[0027] 本发明实施例提供了一种基于大数据平台的数据处理方法、装置、设备及存储介质,用于提高数据异常检测的准确率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0028] 为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于大数据平台的数据处理方法的一个实施例包括:
[0029] 101、从预置的大数据平台中获取待处理的事件数据,并提取事件数据中的多个实体和事件动作;
[0030] 可以理解的是,本发明的执行主体可以为基于大数据平台的数据处理装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
[0031] 需要说明的是,大数据平台可以检测由用户、设备或应用程序产生的异常和威胁,例如,不管引起异常或威胁的实体是来自组织的网络外部还是内部。大数据平台可以通过行为分析,使任何规模或技能组合的组织都能够检测和响应未知威胁。行为分析可以基于的一些具体示例包括机器学习、行为建模、对等组分析、分类、统计模型和图形分析,这些分析可以利用例如马尔可夫处理流程、推理和分组过程以及风险评分机制来开发用户和实体配置文件,以便比较和对比活动,最终允许平台检测和暴露异常和威胁。事件数据的数据源可以包括网络设备、应用服务服务器、消息服务器、终端用户设备或其他能够记录机器数据的计算设备。此外,事件数据中的多个实体包括以下至少一种:用户、设备、应用程序、统一资源定位符、会话或威胁;事件动作包括以下至少一种:使用、访问、连接、登录或注销。
[0032] 102、根据事件动作对事件数据中的多个实体之间的关系信息进行识别,得到关系信息;
[0033] 需要说明的是,实体和实体之间的关系表示记录在事件数据中的由一个实体相对于另一实体执行的活动,服务器根据事件动作对事件数据中的多个实体之间的关系信息进行识别,得到关系信息,该关系信息是该事件数据中的多个实体之间的事件动作之间的联系。
[0034] 103、根据关系信息创建多个实体之间的连接关系,并根据连接关系生成事件数据对应的关系图,得到实体关系图;
[0035] 具体的,该关系信息中记录了多个实体之间的关系,该关系包括多个实体之间的连接关系,因此,服务器根据连接关系生成事件数据对应的关系图,得到实体关系图,该实体关系图包括表示与计算机网络相关联的实体的多个节点和链接多个节点中的两个或更多个的多个边,该实体关系图中的每条边都表示由节点表示的实体之间的关联。其中,关系图包括至少两个节点和两个节点之间的边,每个节点代表实体之一,边表示实体之间的关系。此外,服务器将包括连接关系的事件数据返回至该大数据平台。
[0036] 可选的,服务器从大数据平台中获取多个样本事件数据;服务器根据多个样本事件数据生成每个样本事件数据对应的样本关系图;服务器法对样本关系图进行组合,得到复合关系图。
[0037] 具体的,大数据平台可以将来自所有已处理事件数据的个体事件特定关系图组合成综合关系图,该复合关系图概括了整个网络的所有重要网络活动。复合关系图可以包括表示与网络相关联的各种实体的节点以及表示检测到的异常的节点。该复合关系图的子集或“投影”然后可以被各种不同的威胁模型用来检测安全威胁,将与同一用户相关联的相同类型的网络活动压缩为合并后的网络活动的单个条目。服务器根据活动的类型,将这些组合的网络活动分配到复合关系图的不同投影中。每个投影表示复合关系图的一个子集,该子集与特定类型的用户操作或其他类别。
[0038] 104、根据实体关系图并通过预置的异常检测模型对事件数据进行异常检测,得到异常检测结果。
[0039] 具体的,该异常检测模型用于生成异常概率值,并根据该异常概率值生成异常检测结果,该异常检测模型可以是机器学习模型。该异常检测模型可以更有效地基于多个特征分数生成异常概率值。服务器生成异常概率值可以包括集成学习过程,其中应用多种不同类型的机器学习模型来处理多个特征分数。其中,异常概率值是设定范围内的数值。例如,根据异常模型处理多个特征分数可以产生介于0和10之间的值,其中0是最不异常并且10是最异常。进一步地,服务器生成异常概率值可以简单地涉及计算特征分数的加权线性组合。模型准备过程线程对格式化子集的每个数据组进行排序。服务器数据获取和准备阶段可能没有从目标端计算机系统按时间顺序接收样本事件数据。服务器通过排序确保格式化子集的组是有序的。如果异常概率值满足指定标准,则输出特定异常的异常概率值。例如,可以设置指定标准,使得如果异常概率值大于或等于6,则确定该事件数据检测到异常。
[0040] 本发明实施例中,从预置的大数据平台中获取待处理的事件数据,并提取事件数据中的多个实体和事件动作;根据事件动作对事件数据中的多个实体之间的关系信息进行识别,得到关系信息;根据关系信息创建多个实体之间的连接关系,并根据连接关系生成事件数据对应的关系图,得到实体关系图;根据实体关系图并通过预置的异常检测模型对事件数据进行异常检测,得到异常检测结果。本发明通过大数据平台对数据的安全进行实时检测,并且通过深度学习的异常检测模型有效提高了数据安全检测的准确率。
[0041] 请参阅图2,本发明实施例中基于大数据平台的数据处理方法的另一个实施例包括:
[0042] 201、从预置的大数据平台中获取待处理的事件数据,并提取事件数据中的多个实体和事件动作;
[0043] 可选的,服务器通过预置的大数据平台获取待处理的事件数据;服务器提取事件数据中的键值对,并根据键值对标记事件数据,得到标记后的事件数据;服务器根据预置的数据格式解析标记后的事件数据,得到事件数据对应的多个实体和事件动作。
[0044] 具体的,事件数据的数据源可以包括网络设备、应用服务服务器、消息服务器、终端用户设备或其他能够记录机器数据的计算设备。此外,事件数据中的多个实体包括以下至少一种:用户、设备、应用程序、统一资源定位符、会话或威胁;事件动作包括以下至少一种:使用、访问、连接、登录或注销。服务器提取事件数据中的键值对,并根据键值对标记事件数据,得到标记后的事件数据;服务器根据预置的数据格式解析标记后的事件数据,最终得到多个实体和事件动作。
[0045] 202、根据事件动作对事件数据中的多个实体之间的关系信息进行识别,得到关系信息;
[0046] 可选的,服务器对事件动作进行解析,得到执行数据;服务器检测事件数据对应的数据格式;服务器根据数据格式和执行数据生成多个实体之间的关系信息。
[0047] 其中,数据格式包括以下至少一项:活动目录、代理、防火墙、网络网关、虚拟专用网络连接、入侵检测系统、网络流量分析器,或恶意软件引擎,服务器根据数据格式和执行数据生成多个实体之间的关系信息。
[0048] 203、根据关系信息创建多个实体之间的连接关系,并根据连接关系生成事件数据对应的关系图,得到实体关系图;
[0049] 具体的,该关系信息中记录了多个实体之间的关系,该关系包括多个实体之间的连接关系,因此,服务器根据连接关系生成事件数据对应的关系图,得到实体关系图,该实体关系图包括表示与计算机网络相关联的实体的多个节点和链接多个节点中的两个或更多个的多个边,该实体关系图中的每条边都表示由节点表示的实体之间的关联。
[0050] 204、根据实体关系图并通过预置的异常检测模型对事件数据进行异常检测,得到异常检测结果;
[0051] 可选的,服务器提取实体关系图中的节点和边,其中,节点用于指示实体,边用于指示实体之间的关系;服务器根据节点和边生成关系图对应的特征向量;服务器将特征向量输入预置的异常检测模型进行异常检测,输出异常概率值;服务器对异常概率值和预设目标值进行比较;服务器若异常概率值大于或等于预设目标值,则确定异常检测结果为异常;服务器若异常概率值小于预设目标值,则确定异常检测结果为正常。
[0052] 具体的,由于不同类型的实体在其行为中可能具有不同的特征,为了进一步提高对特定实体的行为异常检测的准确性,该异常检测模型可以被配置为首先在训练异常检测模型后,为特定实体建立基线预测配置文件。服务器在连续预测的分析窗口可用于构建基线预测配置文件。服务器对异常概率值和预设目标值进行比较,其中,该预设目标值可以设置为6;服务器若异常概率值大于或等于预设目标值,服务器将异常概率值大于等于6的确定为异常;服务器若异常概率值小于预设目标值,服务器将异常概率值小于6的确定为正常。例如,服务器得到的异常概率值可以是介于0和10之间的值,其中0表示威胁最小,而10表示威胁最大,服务器基于比较结果生成异常概率值。异常概率值是设定范围内的值。例如,所得到的异常概率值可以是介于0和10之间的值,其中0是最不可能是威胁,而10是最可能是威胁。
[0053] 205、将实体关系图和事件数据发送至预置的事件处理引擎;
[0054] 206、通过事件处理引擎对实体关系图和事件数据进行数据分析,得到数据分析结果,其中,数据分析结果用于指示事件数据的安全异常。
[0055] 具体的,服务器通过事件处理引擎对实体关系图和事件数据进行数据分析,得到数据分析结果,其中,数据分析结果用于指示事件数据的安全异常,异常数据以异常图的形式存储在数据结构中。该数据分析结果表示与计算机网络相关联的实体的多个顶点(节点)和多个边,多个边中的每一个表示链接多个顶点(节点)中的两个的异常。数据分析得到的威胁指标分数的计算基于事件处理引擎并表示处理的异常数据与可能对网络安全构成威胁的活动相关联的程度的量化。数据分析结果中的威胁指标分数可以被概念化为检测异常和识别网络安全威胁之间的升级或中间步骤。
[0056] 可选的,服务器将预置的视图标识符添加至事件数据,与特定实体相关联的异常数据可以包括与异常活动相关联的基础事件数据,被注释有关该实体的信息(例如,与设备关联的用户或帐户)、与异常活动关联的时间数据(例如,异常发生的时间、类似的异常上次发生的时间,或此类异常在特定事件中出现的周期性);服务器通过视图标识符提取事件对应的多个属性;服务器根据多个属性生成事件数据对应的选择信息,该多个属性包括多个实体属性。
[0057] 本发明实施例中,从预置的大数据平台中获取待处理的事件数据,并提取事件数据中的多个实体和事件动作;根据事件动作对事件数据中的多个实体之间的关系信息进行识别,得到关系信息;根据关系信息创建多个实体之间的连接关系,并根据连接关系生成事件数据对应的关系图,得到实体关系图;根据实体关系图并通过预置的异常检测模型对事件数据进行异常检测,得到异常检测结果。本发明通过大数据平台对数据的安全进行实时检测,并且通过深度学习的异常检测模型有效提高了数据安全检测的准确率。
[0058] 上面对本发明实施例中基于大数据平台的数据处理方法进行了描述,下面对本发明实施例中基于大数据平台的数据处理装置进行描述,请参阅图3,本发明实施例中基于大数据平台的数据处理装置一个实施例包括:
[0059] 获取模块301,用于从预置的大数据平台中获取待处理的事件数据,并提取所述事件数据中的多个实体和事件动作;
[0060] 识别模块302,用于根据所述事件动作对所述事件数据中的多个实体之间的关系信息进行识别,得到关系信息;
[0061] 生成模块303,用于根据所述关系信息创建所述多个实体之间的连接关系,并根据所述连接关系生成所述事件数据对应的关系图,得到实体关系图;
[0062] 检测模块304,用于根据所述实体关系图并通过预置的异常检测模型对所述事件数据进行异常检测,得到异常检测结果。
[0063] 本发明实施例中,从预置的大数据平台中获取待处理的事件数据,并提取所述事件数据中的多个实体和事件动作;根据所述事件动作对所述事件数据中的多个实体之间的关系信息进行识别,得到关系信息;根据所述关系信息创建所述多个实体之间的连接关系,并根据所述连接关系生成所述事件数据对应的关系图,得到实体关系图;根据所述实体关系图并通过预置的异常检测模型对所述事件数据进行异常检测,得到异常检测结果。本发明通过大数据平台对数据的安全进行实时检测,并且通过深度学习的异常检测模型有效提高了数据安全检测的准确率。
[0064] 请参阅图4,本发明实施例中基于大数据平台的数据处理装置另一个实施例包括:
[0065] 获取模块301,用于从预置的大数据平台中获取待处理的事件数据,并提取所述事件数据中的多个实体和事件动作;
[0066] 识别模块302,用于根据所述事件动作对所述事件数据中的多个实体之间的关系信息进行识别,得到关系信息;
[0067] 生成模块303,用于根据所述关系信息创建所述多个实体之间的连接关系,并根据所述连接关系生成所述事件数据对应的关系图,得到实体关系图;
[0068] 检测模块304,用于根据所述实体关系图并通过预置的异常检测模型对所述事件数据进行异常检测,得到异常检测结果。
[0069] 可选的,获取模块301具体用于:通过预置的大数据平台获取待处理的事件数据;提取所述事件数据中的键值对,并根据所述键值对标记所述事件数据,得到标记后的事件数据;根据预置的数据格式解析所述标记后的事件数据,得到所述事件数据对应的多个实体和事件动作。
[0070] 可选的,识别模块302具体用于:对所述事件动作进行解析,得到执行数据;检测所述事件数据对应的数据格式;根据所述数据格式和所述执行数据生成所述多个实体之间的关系信息。
[0071] 可选的,检测模块304具体用于:提取所述实体关系图中的节点和边,其中,所述节点用于指示所述实体,所述边用于指示所述实体之间的关系;根据所述节点和边生成所述关系图对应的特征向量;将所述特征向量输入预置的异常检测模型进行异常检测,输出异常概率值;对所述异常概率值和预设目标值进行比较;若所述异常概率值大于或等于所述预设目标值,则确定异常检测结果为异常;若所述异常概率值小于所述预设目标值,则确定异常检测结果为正常。
[0072] 可选的,基于大数据平台的数据处理装置还包括:分析模块305,用于将所述实体关系图和所述事件数据发送至预置的事件处理引擎;通过所述事件处理引擎对所述实体关系图和所述事件数据进行数据分析,得到数据分析结果,其中,所述数据分析结果用于指示所述事件数据的安全异常。
[0073] 可选的,基于大数据平台的数据处理装置还包括:组合模块306,用于从所述大数据平台中获取多个样本事件数据;根据所述多个样本事件数据生成每个样本事件数据对应的样本关系图;对所述样本关系图进行组合,得到复合关系图。
[0074] 可选的,基于大数据平台的数据处理装置还包括:添加模块307,用于将预置的视图标识符添加至所述事件数据;通过所述视图标识符提取所述事件对应的多个属性;根据所述多个属性生成所述事件数据对应的选择信息。
[0075] 本发明实施例中,从预置的大数据平台中获取待处理的事件数据,并提取所述事件数据中的多个实体和事件动作;根据所述事件动作对所述事件数据中的多个实体之间的关系信息进行识别,得到关系信息;根据所述关系信息创建所述多个实体之间的连接关系,并根据所述连接关系生成所述事件数据对应的关系图,得到实体关系图;根据所述实体关系图并通过预置的异常检测模型对所述事件数据进行异常检测,得到异常检测结果。本发明通过大数据平台对数据的安全进行实时检测,并且通过深度学习的异常检测模型有效提高了数据安全检测的准确率。
[0076] 上面图3和图4从模块化功能实体的角度对本发明实施例中的基于大数据平台的数据处理装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于大数据平台的数据处理设备进行详细描述。
[0077] 图5是本发明实施例提供的一种基于大数据平台的数据处理设备的结构示意图,该基于大数据平台的数据处理设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于大数据平台的数据处理设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在基于大数据平台的数据处理设备500上执行存储介质530中的一系列指令操作。
[0078] 基于大数据平台的数据处理设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的基于大数据平台的数据处理设备结构并不构成对基于大数据平台的数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0079] 本发明还提供一种基于大数据平台的数据处理设备,所述基于大数据平台的数据处理设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述基于大数据平台的数据处理方法的步骤。
[0080] 本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于大数据平台的数据处理方法的步骤。
[0081] 进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
[0082] 本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0083] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0084] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read‑only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0085] 以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。