基于多源安全检测框架的检测方法及装置转让专利
申请号 : CN202010678002.1
文献号 : CN111865959B
文献日 : 2021-04-27
发明人 : 陈虎 , 唐开达
申请人 : 南京聚铭网络科技有限公司
摘要 :
权利要求 :
1.一种基于多源安全检测框架的检测方法,其特征在于,所述方法包括:确定安全检测的场景以及安全威胁的特征;
根据检测的场景以及安全威胁的特征,基于多源安全检测框架创建对应的检测对象以及检测对象的表示,并选取对应的检测算子,所述多源安全检测模型为利用预定义的检测算子组合得到检测策略以对各种来源数据进行安全检测的统一检测框架;所述多源安全检测框架为基于安全威胁情报技术构建的、是从动态变化的日志及安全报警中抽取相关特征向量,而且配合回归、分类、聚类以及降维处理满足安全检测的要求的多源安全检测框架;
其中,检测对象的表示是通过在确定检测对象后,根据不同对象的表示规则获取对象的属性值得到的;
所述检测对象包括资产对象、脆弱性对象、日志或安全报警对象、威胁情报对象,所述检测算子至少包括基于关系代数的基础算子、机器学习算子,所述检测算子用于将空间中的元素映射为另一个空间中的元素;
根据检测对象以及对应的检测算子构建形式化的检测策略;其中,构建形式化的检测策略为根据各检测算子的公式,设置公式中包括的参数的值,然后将各检测算子进行组合得到检测策略;
基于检测策略进行安全威胁的检测;
检测算子是形式化的表达,其中,基于关系代数的基础算子包括:选择算子、n选择算子、投影算子、连接算子、分组算子、空间膨胀算子、取序列算子、映射算子;机器学习算子包括:回归算子、分类算子、聚类算子、相似度算子、降维算子;
通过STIX对检测对象进行设置;
所述资产对象的属性包括:资产的静态属性集合和动态属性集合;
所述脆弱性对象的属性包括:与网络协议相关属性集合,以及受影响系统的集合;
所述日志或安全报警对象的属性包括:标识、源、目的、原始信息;
所述威胁情报对象的属性包括:标识、指示器集合、工具集合、恶意软件集合:若检测的场景为基于基础规则或者时序状态的检测场景时,则选取基于关系代数的基础算子、和辅助函数;
若检测的场景为基于机器学习的检测场景时,则选取基于关系代数的基础算子、机器学习算子以及辅助函数。
2.根据权利要求1所述的基于多源安全检测框架的检测方法,其特征在于,所述基于危险安全威胁情报技术构建多源安全检测框架包括:基于STIX设置安全检测框架的对象以及对象的表示,所述对象至少包括资产对象、脆弱性对象、日志或安全报警对象、威胁情报对象;
设置检测算子以及检测算子的形式化表示,所述检测算子包括基于关系代数的基础算子、机器学习算子、辅助函数。
3.根据权利要求1所述的基于多源安全检测框架的检测方法,其特征在于,所述检测对象至少包括主机日志、网络设备日志、安全设备报警信息、网络传输流量、安全漏洞信息中的一种数据。
4.根据权利要求3所述的基于多源安全检测框架的检测方法,其特征在于,所述多源安全检测框架基于C/C++进行构建。
5.根据权利要求3所述的基于多源安全检测框架的检测方法,其特征在于,安全检测的场景包括:
基于基础规则的检测场景、基于时序状态的检测场景以及基于机器学习的检测场景。
6.一种基于多源安全检测框架的检测装置,其特征在于,所述装置包括:检测对象创建单元,用于根据检测的场景以及安全威胁的特征,基于多源安全检测框架创建对应的检测对象以及检测对象的表示,所述多源安全检测模型为利用预定义的检测算子组合得到检测策略以对各种来源数据进行安全检测的统一检测框架;所述多源安全检测框架为基于安全威胁情报技术构建的、是从动态变化的日志及安全报警中抽取相关特征向量,而且配合回归、分类、聚类以及降维处理满足安全检测的要求的多源安全检测框架;其中,检测对象的表示是通过在确定检测对象后,根据不同对象的表示规则获取对象的属性值得到的;
所述检测对象包括资产对象、脆弱性对象、日志或安全报警对象、威胁情报对象,所述检测算子至少包括基于关系代数的基础算子、机器学习算子,所述检测算子用于将空间中的元素映射为另一个空间中的元素;
检测算子选择单元,用于根据检测的场景以及安全威胁的特征,基于多源安全检测框架选取对应的检测算子;
检测策略构建单元,用于根据检测对象以及对应的检测算子构建形式化的检测策略;
其中,构建形式化的检测策略为根据各检测算子的公式,设置公式中包括的参数的值,然后将各检测算子进行组合得到检测策略;
安全威胁检测单元,用于基于检测策略进行安全威胁的检测;
检测算子是形式化的表达,其中,基于关系代数的基础算子包括:选择算子、n选择算子、投影算子、连接算子、分组算子、空间膨胀算子、取序列算子、映射算子;机器学习算子包括:回归算子、分类算子、聚类算子、相似度算子、降维算子;
通过STIX对检测对象进行设置;
所述资产对象的属性包括:资产的静态属性集合和动态属性集合;
所述脆弱性对象的属性包括:与网络协议相关属性集合,以及受影响系统的集合;
所述日志或安全报警对象的属性包括:标识、源、目的、原始信息;
所述威胁情报对象的属性包括:标识、指示器集合、工具集合、恶意软件集合;
若检测的场景为基于基础规则或者时序状态的检测场景时,则选取基于关系代数的基础算子、和辅助函数;
若检测的场景为基于机器学习的检测场景时,则选取基于关系代数的基础算子、机器学习算子以及辅助函数。
7.根据权利要求6所述的基于多源安全检测框架的检测装置,其特征在于,所述装置还包括:
对象设置单元,用于基于STIX设置安全检测框架的对象以及对象的表示,所述对象至少包括资产对象、脆弱性对象、日志或安全报警对象、威胁情报对象;
算子设置单元,用于设置检测算子以及检测算子的形式化表示,所述检测算子包括基于关系代数的基础算子、机器学习算子、辅助函数。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1‑5任意一项所述的基于多源安全检测框架的检测方法。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1‑5任意一项所述的基于多源安全检测框架的检测方法。
说明书 :
基于多源安全检测框架的检测方法及装置
技术领域
背景技术
客工具的使用也是极为广泛,其中一些工具也能在如Github等开源社区平台上轻易获得,
例如Empire、gh0stRAT(一个远程控制框架)等,而且诸如Sqlmap、Acunetix扫描器、MSF
(Metasploit)一些渗透测试工具也被广泛使用,虽然各类安全产品如下一代防火墙、入侵
检测系统、防病毒系统、端点检测响应(EndpointDetectionResponse,简称EDR)等产品都能
或多或少地检测到一些安全问题,但对于无明显特征的网络活动或主机活动则无能为力,
即对于一些未知威胁的检测可能存在比较大的局限性,因为它们不会覆盖一些看似正常的
网络访问或主机操作,故一般企业单位会部署诸如态势感知产品、安全管理产品或下一代
安全事件管理系统(NG‑SIEMS)会收集一般的主机日志、网络访问日志(包括各类NAT日志)、
安全报警等进行集中的检测和分析,以期从这些日志和报警中能发现一些在单一安全设备
的报警中无法发现的问题。
此类产品本身具备一定的安全问题发现以及处置能力,但它们核心的功能主要是集中对收
集的相关日志、安全报警进行集中地、广泛地和深入地分析,从而能检测到一些单点安全设
备所无法发现的问题;而且,通过嵌入一些人工智能/机器学习手段或方法,配合传统的基
于特征和简单统计等方法可以发现安全方面的蛛丝马迹,当然这些安全问题不仅指一般意
义上的黑客入侵事件,可能还包含了诸如账号冒用、敏感数据泄漏、数据大量获取(存在离
职倾向的员工等)等用户行为异常问题,故与传统安全相较,此类问题不是一般安全设备能
够直接检测到的。
征的规则(一般它们叫做关联规则,但与一般意义上的关联规则不同,如Apriori等),而且
需要包含能支持人工智能/机器学习的规则或策略。而Spark或Flink等相关开源框架可以
提供相关支撑,但是这些框架存在如下问题:
每日输出的日志数量就可能达到上千万);
主成分分析/等距线性嵌入方法)。
且还可以使用户更容易的定义一些检测策略规则,以解决上述现有框架存在的问题。
发明内容
全检测框架,并基于该种安全检测框架更高效的进行安全检测。
检测算子组合得到检测策略以对各种来源数据进行安全检测的统一检测框架;
检测算子组合得到检测策略以对各种来源数据进行安全检测的统一检测框架;
一方面中任意一项所述的基于多源安全检测框架的检测方法。
述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使
所述至少一个处理器执行上述第一方面中任意一项所述的基于多源安全检测框架的检测
方法。
全检测框架创建对应的检测对象以及检测对象的表示,多源安全检测模型为利用预定义的
检测算子组合得到检测策略以对各种来源数据进行安全检测的统一检测框架;并,基于检
测的场景以及安全威胁的特征在多源安全检测框架中选取对应的检测算子;最后,根据检
测对象以及对应的检测算子构建形式化的检测策略;并基于检测策略进行安全威胁的检
测。看以看出,本申请中,多源安全检测框架可以支持对各种来源数据的检测,而且在检测
策略构建时,只需要选择合适的检测算子进行组合就可以方便的得到,可以简化用户定义
相关检测规则的流程;并且检测算子以及检测策略都是形式化的表达,使用和构建都非常
的方便。因此,基于该种安全检测框架更高效的进行安全检测。
附图说明
构成对本申请的不当限定。在附图中:
具体实施方式
本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范
围。
的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具
有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的
过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清
楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
限于主机日志、网络设备日志、安全设备报警信息、网络传输流量、安全漏洞信息以及其他
脆弱性信息。多源安全检测模型能够利用预定义的检测算子组合得到检测策略以对各种来
源数据进行安全检测的统一检测框架。下面对多源安全检测框架进行具体的说明,如下:
具体如下。
观测数据(Observation)、攻击指标(Indicator)、安全事件(Incident)、攻击活动
(Campaign)等。STIX2.0定义了12种构件:攻击模式(AttackPattern)、战役(Campaign)、应
对措施(CourseofAction)等。2.0将1.0版本中的TTP拆分为AttackPattern、IntrusionSet、
Tool、Malware;从ExploitTarget拆分出Vulnerability;从威胁主体(ThreatActor)中拆分
出Identity、IntrusionSet;删去了Incident;新增了Report。
对象属性的设置如下:
有相对静态部分,包括资产标识(可以唯一定位资产,如名称、IP地址、MAC地址主机名等)、
价值、操作系统类型等,还包含一些动态属性,如安装软件、开放端口、网络连接、补丁、账
号/用户、脆弱性等,简单表示即资产是一个三元组:
的唯一标识,而STATIC和DYNAMIC则分别是资产的静态和动态属性集合;
统等属性。简单起见,定义脆弱性为V,可以使用如下元组表示:
中id是脆弱性标识,而PROTOCOL是与网络协议相关属性集合,包含了作用端口和协议(如
TCP、UDP、ICMP等传输层协议,也可能是如HTTP、FTP等应用层协议),而AFFCTED是受影响系
统的集合;
测信息,其中源和目的不是狭义的源IP/端口、目的IP/端口等,而可能还包含MAC、用户、区
域等信息,原始信息包含了相关日志或报警的原生内容,而其它观测信息包含了无法纳入
到上述属性的其它属性,如进程等等,较为形式化地可以表示为:
这些属性中比较重要的是恶意软件集合,它包含TTP的相关内容,对于我们进行黑客画像有
着至关重要的作用,较为形式化地可以表示为:
反序列化漏洞S2‑048的攻击,是结合了安全事件“疑似StrutsS2‑053(CVE‑2017‑12611)漏
洞利用攻击”与漏洞CVE‑2017‑12611进行(若被攻击资产上包含有此漏洞);它们分属不同
的对象类型。
这些算子一般不是什么严格意义上的线性空间中的线性算子(如巴拿赫/赋范空间或希尔
伯特/向量空间的微分算子、积分算子、左移/右移算子等)。
空间的元素映射为实数空间的元素,如求集合元素数量。
间序列是一定的。
我们一般其实并不需要支持集合的差运算,另外针对笛卡尔积运算而言,在绝大多数场合
下,实际上都是有条件的或者自然连接运算,它用于扩充元组。本申请中进行了一些改动,
从安全分析的实际出发,使用如下几个算子,分别是:
包括这些日志或安全告警集合与其它对象的联合筛选,形式化地可以记作:σf(R)→R′ (1)
或析取范式;
一般情况下它们的维数是不同的,形式化地可以记作:
有相同属性(这些属性应来源于相同的域)值的记录,形式化地记作:
分,得到一个由集合组成的集合,即其结果是集类,形式化地可以记作:
产生的效果;
法生成的,其形式化地记作:Inflatef(R)→R′ (6)
性,可以给这些新的属性赋默认值;另外也可以根据集合域的所有取值情况来膨胀空间,如
所有国家/地区、所有2个字母的组合等;显然dim(R′)>dim(R);
它可以对相关元素进行筛选。
表示方法如下:Mapf(R)→R′ (8)
或未知威胁,这是现代安全态势感知系统、安全管理系统或者下一代安全事件管理系统必
须具备的能力之一,但考虑到安全检测的实际场景,并根据一些常用的工具,如sklearn、
Flink的机器学习框架等提供的能力;但在本申请的多源安全检测框架中没有必要提供过
多的机器学习方法,主要考虑一般性的算子以覆盖主要场景即可;从大类上而言,只关注回
归、分类、聚类以及降维即可,其中回归和分类是有监督的机器学习算法,而聚类是无监督
的聚类算法,降维则其实是对高维数据进行处理,一般使用PCA(主成分分析)方法就能满足
实际运用。
进行类似处理的部分,而且配合一些如归一化、向量运算、求统计分布等处理就可以基本满
足安全检测的要求。
sklearn等框架中有基于线性的回归、逻辑回归、岭回归、混合高斯等方法,本申请不进行具
体讨论和扩展,一个回归算子可以形式化记作:
实数空间或实数向量空间的映射;
分类的结果情况(至于结果是正常的还是不正常的则不在此处反映),形式化的可以记作:
算法,因为聚类算法也有多种(如KMeans、山峰聚类、谱聚类、高斯混合等等),而且本申请并
不是讨论机器学习算法在安全数据处理方面具体应用为主要目的;聚类算子形式上与分组
算子类似,在不考虑噪声的数据情况下,即通过一定方法将原始的数据集划分为一个集类,
每个集类中的一个元素则为同一类,可以形式化地表示为:
是基于向量空间的度量方法,即基于距离的;
器,比如资产变动、模式变化等等,其形式化的记作:
干类别,本申请从实用角度对其分别进行一定的描述:
舍五入、符号、幂运算、对数运算、三角函数运算等数学基础函数;3.统计函数(聚合函数):
支持如求计数(count)、求和、求最大、求最小、求期望、求方差等基础统计函数;这些函数的
输入均是向量,另外支持针对向量的概率分布计算函数,其输入亦是向量,输出按指定间隔
(如每5%)返回概率分布向量;4.距离评估函数:按指定距离评估方法,计算两个向量之间
的距离,距离评估方法包括曼哈顿、欧几里得、切比雪夫、闵可夫斯基以及海明距离等;5.字
符串函数:支持如字符串的大写转换、小写转换、比较、子串匹配、子串正则匹配、字符串连
接、取字符串长度、字符串替换、字符串TRIM等等;6.矩阵/向量运算函数:支持如矩阵的加
法、减法、乘法、转置、求特征值和特征向量等;7.归一化函数:支持对向量进行归一化运算,
得到的结果仍是一个向量,可以采用最大‑最小归一化等方法;8.序列化/反序列化:由于需
要在安全检测中对中间结果进行暂存,或者从其它策略中获取暂存的数据以进行后续处理
(一般用于机器学习部分、用户界面展示),故提供此操作可将中间数据进行暂存;暂存的内
容类似于二维表形式,有统一的序列号与之对应。
模数据,而且因为需要支持多种混合数据,故显得捉襟见肘。
外需要强调的一点是,为了使发现的安全问题可以被处理,所有满足条件的数据集一般必
须绑定到同一个资产对象或用户上,否则可能导致无法对结果进行处理和解释,即在日志
或安全报警中的相关属性中都出现相同的内容。
HKCU\Environment\UserInitMprLogonScript用于自身程序的持久化;2.对浏览器进程进
行远程过程注入;3.注册定时任务;4.创建HTTP或HTTPS网络连接,与僵尸主机进行通讯,而
且其目的地址/域名如果出现在威胁情报的指示器中。
主机日志,第4个特征对应的信息可以在流量通讯日志中获取,也可以在安装了如sysmon工
具的主机日志中发现,因此对应的检测对象包括流量通讯日志以及sysmon工具的主机日
志。综上,可以确定安全威胁“JHUHUGIT”的检测对象为主机日志和流量通讯日志。
了;对于基于时序状态的检测场景通常选择基于关系代数的基础算子、和辅助函数就可以
了,与基于基础规则的检测场景不同的是,基于时序状态的检测场景中一定会选择基础算
子中的取序列算子;对于基于机器学习的检测场景,需要选择基于关系代数的基础算子、机
器学习算子以及辅助函数。
检测策略。
为空,符号“^”是“且”,即满足所有的过滤条件的才可以确定存在要检测的安全威胁。
特征,基于多源安全检测框架创建对应的检测对象以及检测对象的表示,多源安全检测模
型为利用预定义的检测算子组合得到检测策略以对各种来源数据进行安全检测的统一检
测框架;并,基于检测的场景以及安全威胁的特征在多源安全检测框架中选取对应的检测
算子;最后,根据检测对象以及对应的检测算子构建形式化的检测策略;并基于检测策略进
行安全威胁的检测。看以看出,本申请中,多源安全检测框架可以支持对各种来源数据的检
测,而且在检测策略构建时,只需要选择合适的检测算子进行组合就可以方便的得到,可以
简化用户定义相关检测规则的流程;并且检测算子以及检测策略都是形式化的表达,使用
和构建都非常的方便。因此,基于该种安全检测框架更高效的进行安全检测。
对恶意软件相关分析的,它在威胁溯源和分析中占有重要地位,一般单纯的网络攻击是不
需要与其结合的,如分布式拒绝服务攻击(DDoS),但针对木马、病毒、勒索软件、广告、挖矿
等则需要与其结合,特别是利用网络流量和主机日志进行综合分析的时候),可以对大多数
安全场景进行检测;其基本原理比较简单,是在策略规则中可以包含一个到多个选择算子,
针对不同的设置,可以指定它们都匹配或者匹配部分甚至匹配其一即可,对于完全满足则
其形式化地能写为如下方式:
CreateRemoteThread,此信息可在主机日志中获取);3.注册定时任务(此信息也可在主机
日志中获取);4.创建HTTP或HTTPS网络连接,与僵尸主机进行通讯(此信息可在流量通讯日
志中获取,也可以在安装了如sysmon工具的主机日志中发现),而且其目的地址/域名如果
出现在威胁情报的指示器中(如请求恶意域名Cdnverify[.]net),则更可增加可信度。
选择算子通过“^”或者“V”进行连接,完成检测策略的构建。
因此需要通过投影算子选择部分字段进行检测;对于连接算子,通常会在针对漏洞攻击的
场景中使用,如针对“MicrosoftIIS远程代码执行攻击(CVE‑2017‑7269)”就可将安全事件
攻击特征和对应被攻击资产的漏洞情况进行连接,其连接属性是安全事件的IP地址和资产
的IP地址及漏洞CVE编号(通过漏洞扫描发现)
基于时序状态的检测中,一般每个序列都应需要满足,而不存在仅满足一部分即可,形式化
地可以记作:
2.其次,如果运行Word文件,它会从相关网站上下载执行代码,一般这几个网站地址是依次
进行的;3.然后,如果主机被植入相关下载的软件,它会修改注册表项以开机自启,即持久
化;4.利用MS017‑010漏洞(即永恒之蓝,EternalBlue)对内网中的机器进行探测如可能则
进行渗透,即所谓的横向移动,此类报警可以从入侵检测系统上获得;或者它对网银程序进
行注入,记录登录数据等机密信息。
择一个取序列算子,并设置对应的条件f,关键的是还需要设置每个取序列算子中元素的时
间属性存在的偏序关系,偏序关系与动作的执行顺序相对应。以此检测策略进行安全检测,
可以准确的判断是否存在安全威胁。当然,在实际的应用中,如果无法确定动作的顺序,可
以将其作为基于基础规则的检测场景进行检测,以避免因顺序上的错误而无法获得准确的
匹配结果。
全检测框架中选取基于关系代数的基础算子;具体的,若各特征之间的存在时序关系,则选
取取序列算子;若各特征之间的不存在时序关系,则选取选择算子。2.根据选取的基础算子
构建形式化检测策略;具体的,若各特征之间的存在时序关系,则根据取序列算子创建每个
特征对应的检测函数,并结合且运算得到形式化检测策略。具体的检测策略参见基于时序
状态的检测场景中的描述。若各特征之间的不存在时序关系,则根据选择算子创建每个特
征对应的检测函数,并结合析取或且运算得到形式化检测策略。具体的检测策略参见基于
基础规则的检测场景。3.基于检测策略进行安全威胁的检测。
态生成域名等等,但这些方法一般都是针对实际网络中的负载部分或实际文件数据,需要
大量已经做了标识的正向和负向样本进行训练和验证,而且它们一般都使用线下学习(有
监督学习)、线上检验地方式,但在本申请所涉及的实际场景下,这种方式可能不太适用;因
为其一框架处理的是线上数据,而用户也不知道哪些是正常的数据、哪些是异常的数据;其
二在这个检测框架中,所能涉及的数据不太可能深入底层原生数据,往往仅是一些较为简
略的描述。故鉴于上述原因,一般只能采用线上学习,结合无监督和半监督方法进行检测,
在这个过程中可能需要用户进行干预,即对获取的基础数据令用户进行参与,让其对数据
集进行一定程度的标记,再利用其在向量空间上的距离特性进行聚类,从而较为清晰地对
正向和负向数据进行分离(比较方便地是,在信息安全领域中,一般只要关注二分类问题即
可,而一般无需特别注意多分类问题,但如对于恶意软件的家族识别、动态域名生成算法类
型的识别是多分类问题)。
代表性、不过于复杂的场景。
机器学习方法进行安全问题检测时一般包含数据选择/预处理以及数据检测两个主要部
分。
关系代数的基础算子以及机器学习算子。2.根据关系代数的基础算子以及机器学习算子构
建检测策略。3.基于检测策略进行机器学习场景的安全威胁检测。
据机器学习算子(主要为相似度算子)构建用于对检测对象进行异常检测的形式化检测策
略。线上学习数据集为通过线上学习的方式,确定后续进行待检测或者待检验数据安全威
胁判断的参考标准的数据集。
建线上学习数据集筛选、分组、统计、求期望的检测策略。
膨胀算子、辅助函数构建线上学习数据集筛选、分组、增加属性、集合并的检测策略。
建线上学习数据集筛选、分组、集合并、统计、求分布的检测策略。
单的网络访问吞吐异常、用户登录行为异常等等;以下以邮箱发送/接收异常为例,说明在
多源安全检测策略框架下是如何运作的。
(从发送角度而言)或者接收了大量的垃圾邮件(从接收角度而言),而邮件网关未做必要的
过滤。
到此,根据选择算子、分组算子和辅助函数构建线上学习数
据集筛选、分组、统计、求期望的检测策略完成。上述形式化的公式为都属于检测策略。
以把结果集再进行划分(比如按照24小时进行划分),那么可以形成一个基线向量,则上述
公式可以改写为:
时组合成向量,分别检查之即可。
件的某段时间的数量作为相似度比较的对象,然后得到相似度,根据相似度的大小来衡量
两者之间的偏差,根据偏差的大小来进行是否存在安全威胁的判断。同样,将对应的某日收
发邮件数量按小时组合成向量,分别检查也可以通过选择相似度算子构建检测策略实现。
具体的,将由线上学习数据集处理得到的收发邮件数量按小时组合成向量和需要检测的某
日的收发邮件数量按小时组合成向量作为相似度比较对象,然后得到相似度,根据相似度
的大小来衡量两者之间的偏差,根据偏差的大小来进行是否存在安全威胁的判断。
般后者的应用范围更为广泛。
常、用户操作时间异常等类似,均可以采用相似的流程和方法进行,其步骤如下:
分组,得到的结果R3是一个分组后的集类,由于分组字段为日期,故在集类中同一个集合中
的元素均是不同的源区域,使用计数函数将集类中的每个集合进行压缩,并将计数生成为
新的一个属性:
要提供一个维度和区域的映射方法),则其维度是区域的总体数量,然后将向量中的每个元
素进行0‑1化,即大于0的数值映射为1,否则映射为0,而某个维度不为0则表示其有登录行
为,此集类命名为R5;将集类中的每个元素做集合并运算,得到一个新的集合:
行(这是一个平均相似度):
的阈值,若低于这个阈值则存在异常否则应为正常行为。
信,不过提供用户参与的界面必须简单易懂,这需要对最后得到的数据有个比较明确的解
释或图形化的展示,如提供地图、直方图、气泡图、分布图、雷达图等进行标识,使用户可能
充分利用这些界面对数据有较为直观的认识;当然如果系统存储空间允许,我们应尽量保
存每个步骤中的临时数据,以提供明确的挖掘路径信息。
的检测策略。
大否则造成样本空间规模不可控)从原始数据中抽取出来,然后使用概率分布进行计算,然
后用需要校验的数据进行符合性检查,其本质实际上是利用马尔可夫转移概率进行计算和
验证。
形成一条记录,结果形成R4,对R4进行计数得到R5,将R5中的计数列转变成一个向量r,对r中
的计数求分布得到处理后的向量r′,r′中每一维对应了一种序列,如下:r′(r′1,r′2,...,
r′n),其中
认为待检序列中存在罕见操作序列。
度算子实现,具体的,可以将r″和r′中对应位置的序列作为相似度比较的对象,计算得到相
似度,相似度的值可以衡量r″的序列在r′中的概率,然后计算得到概率和。
的工作效率和可信程度。
类算子,用户可以指定资产集合,使用它们的端口开放特征以及这些端口上的通信流量进
行聚类,聚类的方法非常简单,即可按照它们开放的端口进行直接分组就可获得资产集合
的划分,设置一个重叠阈值即可将不同的资产对象进行分组,对于分组异常的资产则可以
认为它们存在问题。而机器算子汇总的降维算子等实际是数据预处理的一部分,它们一般
并不能单独使用;而利用相似度算子进行检测恰是可以对类似“稀少”和“暴增”问题进行检
测的最有效方法,而本申请中的检测框架的目的是为了简化用户定义相关规则的流程,故
一般只关心“稀少”性问题或者“暴增”性问题,所以基本以此为例进行说明。
理系统的需要,在这个框架中主要利用预定义的算子组合对各种数据进行检测,这些数据
包括了传统意义上的日志或者安全报警、各类脆弱性以及近年来在安全检测中具有重要作
用的威胁情报。
掌握这些复杂的、种类繁多的算法,也完全不知道如何选择算法和对安全数据进行检测,这
势必降低系统(多元安全检测框架的检测装置所在系统)的可用性;另外,如前所述,这样也
基本上没有什么可解释性和可追溯性,故将安全问题检测的机器学习范围固定在一个可控
的范围内是比较合适的,也是比较符合一般的网络空间安全实践,如果用户有较为复杂的
机器学习需求可以视其是否具有通用性以决定需要增加新的固定模型,例如分组异常模型
(其中比较典型的是用户分组异常,这是一个横向异常检测模型,即用户出现跨组访问异
常,这在审计用户越权操作中具有比较重要的作用),如果过于复杂并不具有代表性则可以
考虑直接嵌入脚本实现而不一定需要通过界面定义,当然考虑到安全因素,一般不允许直
接上传脚本。
置(如SOAR)等具有重要意义。
同于此处的顺序执行所示出或描述的步骤。
的检测算子组合得到检测策略以对各种来源数据进行安全检测的统一检测框架;
特征,基于多源安全检测框架创建对应的检测对象以及检测对象的表示,多源安全检测模
型为利用预定义的检测算子组合得到检测策略以对各种来源数据进行安全检测的统一检
测框架;并,基于检测的场景以及安全威胁的特征在多源安全检测框架中选取对应的检测
算子;最后,根据检测对象以及对应的检测算子构建形式化的检测策略;并基于检测策略进
行安全威胁的检测。看以看出,本申请中,多源安全检测框架可以支持对各种来源数据的检
测,而且在检测策略构建时,只需要选择合适的检测算子进行组合就可以方便的得到,可以
简化用户定义相关检测规则的流程;并且检测算子以及检测策略都是形式化的表达,使用
和构建都非常的方便。因此,基于该种安全检测框架更高效的进行安全检测。
中的基于多源安全检测框架的检测方法。根据本申请实施例,还提供了一种电子设备,包
括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存
储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器
执行,以使所述至少一个处理器执行上述方法实施例中的基于多源安全检测框架的检测方
法。
的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储
在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们
中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的
硬件和软件结合。
改、等同替换、改进等,均应包含在本申请的保护范围之内。