一种基于多维度信息的内部网络异常检测方法及系统转让专利

申请号 : CN202210408805.4

文献号 : CN114826718B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘翔宇朱诗兵李玉巍王宇熊达鹏

申请人 : 中国人民解放军战略支援部队航天工程大学

摘要 :

本发明公开了一种基于多维度信息的内部网络异常检测方法及系统,包括获取带时间戳的流量数据,流量数据包括业务特征信息和用户交互流量;基于时间戳获取历史时间信息和事件链信息,基于用户交互流量信息获取拓扑信息,对业务特征信息、历史时间信息、事件链信息和拓扑信息进行预处理;输入不同的压缩网络以获c得业务特征低维信息、事件链低维信息和拓扑低维信息;输入估计网络以进行密度估计获得流量数据的能量;基于自适应判别能量阈值和流量数据的能量判断内部网络是否异常,若流量数据的能量大于自适应判别能量阈值,则判定内部网络出现异常;该方法对异常具有更全面的解释性,可以更好地发现隐蔽的内部攻击行为。

权利要求 :

1.一种基于多维度信息的内部网络异常检测方法,其特征在于,包括以下步骤:S100:获取带时间戳的流量数据,所述流量数据包括业务特征信息和用户交互流量信息;

S200:基于所述时间戳获取历史时间信息和事件链信息,基于所述用户交互流量信息获取拓扑信息,对所述业务特征信息、所述历史时间信息、所述事件链信息和所述拓扑信息进行预处理;

S300:将经过预处理后的所述业务特征信息、所述事件链信息和所述拓扑信息输入不同的压缩网络以实现数据降维获得业务特征低维信息、事件链低维信息和拓扑低维信息;

S400:将业务特征低维信息、历史时间信息、事件链低维信息和拓扑低维信息进行整合,并输入估计网络以进行密度估计获得所述流量数据的能量;

S500:基于自适应判别能量阈值和所述流量数据的能量判断内部网络是否异常,若所述流量数据的能量大于所述自适应判别能量阈值,则判定内部网络出现异常;

其中,所述步骤S200中对所述业务特征信息进行预处理包括以下子步骤:S221:将所述业务特征信息进行one‑hot编码;

S222:对经过one‑hot编码的业务特征信息进行数值特征归一化处理;

所述步骤S200中对所述历史时间信息、所述事件链信息和所述拓扑信息进行预处理包括:对历史时间信息进行数值特征归一化处理,对事件链信息和拓扑信息均采用Min‑Max算法进行数值特征归一化处理。

2.根据权利要求1所述的内部网络异常检测方法,其特征在于,所述步骤S200中基于时间戳获取历史时间信息包括:分别计算当前时刻的业务特征信息和一定时间前的业务特征信息之间的欧氏距离和余弦相似度,以获得历史时间信息。

3.根据权利要求1所述的内部网络异常检测方法,其特征在于,所述步骤S200中基于时间戳获取事件链信息包括:基于所述时间戳将流量数据按照时间序列从左到右依次排列以获得数据集合,将所述数据集合按照时间序列进行打包封装以获得多个事件链数据包;

将每个事件链数据包中的数据输入深度自动编码器以输出多个子集;将所有子集进行重组得到新数据集合,所述新数据集合中的流量数据样本包含了基于时间序列的事件链信息。

4.根据权利要求1所述的内部网络异常检测方法,其特征在于,所述步骤S200中基于用户交互流量信息获取拓扑信息包括:在时间窗口内,基于所述用户交互流量信息形成方阵,分别将方阵中的每一列进行相加从而获得列向量,将所述列向量定义为流量拓扑信息。

5.根据权利要求1所述的内部网络异常检测方法,其特征在于,所述压缩网络采用深度自编码网络;所述估计网络为高斯混合模型。

6.根据权利要求1所述的内部网络异常检测方法,其特征在于,所述步骤S500中的自适应判别能量阈值通过以下公式获得:式中,T为自适应判别能量阈值;E(i)为升序排序后第i个流量数据样本的能量值;i为流量数据样本数量N乘以(1‑ρ),ρ为异常数据的比例。

7.一种基于多维度信息的内部网络异常检测系统,其特征在于,包括数据获取模块、信息分类模块、压缩网络、估计网络和异常判断模块;

所述数据获取模块用于获取带时间戳的流量数据,所述流量数据包括业务特征信息和用户交互流量;

所述信息分类模块用于基于所述时间戳获取历史时间信息和事件链信息,基于所述用户交互流量信息获取拓扑信息,对所述业务特征信息、所述历史时间信息、所述事件链信息和所述拓扑信息进行预处理;

所述压缩网络用于将经过预处理后的所述业务特征信息、所述事件链信息和所述拓扑信息输入不同的压缩网络以实现数据降维获得业务特征低维信息、事件链低维信息和拓扑低维信息;

所述估计网络将业务特征低维信息、历史时间信息、事件链低维信息和拓扑低维信息进行整合,并输入估计网络以进行密度估计获得所述流量数据的能量;

所述异常判断模块用于基于自适应判别能量阈值和所述流量数据的能量判断内部网络是否异常,若所述流量数据的能量大于所述自适应判别能量阈值,则判定内部网络出现异常;

其中,所述信息分类模块执行以下操作对所述业务特征信息进行预处理:S221:将所述业务特征信息进行one‑hot编码;

S222:对经过one‑hot编码的业务特征信息进行数值特征归一化处理;

所述信息分类模块执行以下操作对所述历史时间信息、所述事件链信息和所述拓扑信息进行预处理:对历史时间信息进行数值特征归一化处理,对事件链信息和拓扑信息均采用Min‑Max算法进行数值特征归一化处理。

8.根据权利要求7所述的内部网络异常检测系统,其特征在于,还包括通过损失函数引导所述内部网络异常检测系统训练学习达到最优。

说明书 :

一种基于多维度信息的内部网络异常检测方法及系统

技术领域

[0001] 本发明涉及异常数据检测方法的技术领域,具体涉及一种基于多维度信息的内部网 络异常检测方法及系统。

背景技术

[0002] 传统的网络安全技术存在以下缺陷:
[0003] 大型集团公司都会设置内部网络防御系统,制定防范机制来保护内部系统不受外部 攻击;早期可以通过物理隔绝的方式保障网络安全,但在信息化时代中,即便是这样的高 标准保密单位也会存在大量卫星手持机、外部主机的接入,网络边界正在逐步弱化,仅仅 采用“防火墙+入侵检测+防病毒网关+网闸”的边界防护模式,无法有效防范基于“供应 链预先植入+社会工程学攻击”的新型攻击模式;现有的内部网络异常检测思路通常是将 
用户日志生成特征向量,然后对特征向量集进行异常检测得到异常用户;检测流程中缺少 对异常行为的分析与解释,信息的利用也不够全面。

发明内容

[0004] 针对上述问题,本发明的一个目的是提供一种基于多维度信息的内部网络异常检测 方法,该方法基于业务特征信息、事件链信息、拓扑信息以及历史时间信息来分析内部网 络中是否存在的异常,对异常具有更全面的解释性,在此基础上识别高级攻击在内网横向 移动时对业务特征产生的影响,可以更好地发现隐蔽的内部攻击行为。
[0005] 本发明的第二个目的是提供一种基于多维度信息的内部网络异常检测系统。
[0006] 本发明所采用的第一个技术方案是:一种基于多维度信息的内部网络异常检测方法, 包括以下步骤:
[0007] S100:获取带时间戳的流量数据,所述流量数据包括业务特征信息和用户交互流量 信息;
[0008] S200:基于所述时间戳获取历史时间信息和事件链信息,基于所述用户交互流量信 息获取拓扑信息,对所述业务特征信息、所述历史时间信息、所述事件链信息和所述拓扑 信息进行预处理;
[0009] S300:将经过预处理后的所述业务特征信息、所述事件链信息和所述拓扑信息输入 不同的压缩网络以实现数据降维获得业务特征低维信息、事件链低维信息和拓扑低维
信息;
[0010] S400:将业务特征低维信息、历史时间信息、事件链低维信息和拓扑低维信息进行 整合,并输入估计网络以进行密度估计获得所述流量数据的能量;
[0011] S500:基于自适应判别能量阈值和所述流量数据的能量判断内部网络是否异常,若 所述流量数据的能量大于所述自适应判别能量阈值,则判定内部网络出现异常。
[0012] 优选地,所述步骤S200中基于时间戳获取历史时间信息包括:
[0013] 分别计算当前时刻的业务特征信息和一定时间前的业务特征信息之间的欧氏距离和 余弦相似度,以获得历史时间信息。
[0014] 优选地,所述步骤S200中基于时间戳获取事件链信息包括:
[0015] 基于所述时间戳将流量数据按照时间序列从左到右依次排列以获得数据集合,将所述 数据集合按照时间序列进行打包封装以获得多个事件链数据包;
[0016] 将每个事件链数据包中的数据输入深度自动编码器以输出多个子集;将所有子集进行 重组得到新数据集合,所述新数据集合中的流量数据样本包含了基于时间序列的事
件链信 息。
[0017] 优选地,所述步骤S200中基于用户交互流量信息获取拓扑信息包括:
[0018] 在时间窗口内,基于所述用户交互流量信息形成方阵,分别将方阵中的每一列进行相 加从而获得列向量,将所述列向量定义为流量拓扑信息。
[0019] 优选地,所述步骤S200中对所述业务特征信息进行预处理包括以下子步骤:
[0020] S221:将所述业务特征信息进行one‑hot编码;
[0021] S222:对经过one‑hot编码的业务特征信息进行数值特征归一化处理。
[0022] 优选地,所述步骤S200中对所述历史时间信息、所述事件链信息和所述拓扑信息进 行预处理包括:
[0023] 分别对所述历史时间信息、所述事件链信息和所述拓扑信息进行数值特征归一化处理。
[0024] 优选地,所述压缩网络采用深度自编码网络;所述估计网络为高斯混合模型。
[0025] 优选地,所述步骤S500中的自适应判别能量阈值通过以下公式获得:
[0026]
[0027] 式中,T为自适应判别能量阈值;E(i)为升序排序后第i个流量数据样本的能量值;i为 流量数据样本数量N乘以(1‑ρ),ρ为流量数据的能量以及异常数据的比例。
[0028] 本发明所采用的第二个技术方案是:一种基于多维度信息的内部网络异常检测系统, 包括数据获取模块、信息分类模块、压缩网络、估计网络和异常判断模块;
[0029] 所述数据获取模块用于获取带时间戳的流量数据,所述流量数据包括业务特征信息和 用户交互流量;
[0030] 所述信息分类模块用于基于所述时间戳获取历史时间信息和事件链信息,基于所述用 户交互流量信息获取拓扑信息,对所述业务特征信息、所述历史时间信息、所述事件链信 息和所述拓扑信息进行预处理;
[0031] 所述压缩网络用于将经过预处理后的所述业务特征信息、所述事件链信息和所述拓扑 信息输入不同的压缩网络以实现数据降维获得业务特征低维信息、事件链低维信息
和拓扑 低维信息;
[0032] 所述估计网络将业务特征低维信息、历史时间信息、事件链低维信息和拓扑低维信息 进行整合,并输入估计网络以进行密度估计获得所述流量数据的能量;
[0033] 所述异常判断模块用于基于自适应判别能量阈值和所述流量数据的能量判断内部网 络是否异常,若所述流量数据的能量大于所述自适应判别能量阈值,则判定内部网络出现 异常。
[0034] 优选地,还包括通过损失函数引导所述内部网络异常检测系统训练学习达到最优。
[0035] 上述技术方案的有益效果:
[0036] (1)本发明公开的一种基于多维度信息的内部网络异常检测方法根据目前企业内部 网络安全防御工作的特点(在异常数据检测中,由于数据量过大和数据特征维度过高,
往 往会导致数据标定困难、数据冗余、算法效率降低等;在系统内部威胁检测领域,异常行 为往往由一连串的操作构成,单一时间点的数据难以有效支撑异常检测,需要构建时序事 件链来分析用户的威胁行为;用户数量有限,可以利用用户间流量的拓扑信息进行异常检 测;与互联网用户不同,系统内部的用户行为通常具有较强的周期性和重复性),设计了 基于流量数据,从业务特征信息、历史时间信息、事件链信息和拓扑信息四个维度对内部 网络系统进行异常检测和威胁分析;该方法基于无监督学习模型,不需要对数据进行标定, 且在学习过程中,适用于解决系统内部威胁检测等问题。
[0037] (2)本发明公开的一种基于多维度信息的内部网络异常检测方法基于实时监测的流 量业务特征信息(业务特征信息)、时序的事件链信息(事件链信息)、内部网络拓扑结构 的流量交互信息(拓扑信息)以及历史事件之间的差异信息(历史时间信息)来分析内部 网
络中是否存在的异常,对异常具有更全面的解释性,在此基础上识别高级攻击在内网横 向移动时对业务特征产生的影响,可以更好地发现隐蔽的内部攻击行为。
[0038] (3)本发明针对内部系统网络的特点,设计了一种基于流量数据多维度信息的内部 网络异常检测方法,系统内包含业务特征信息、事件链信息、历史时间信息和流量拓扑信 息,充分利用流量的业务特征、事件相关性和空间相关性,从多个角度对系统内部流量进 行分析检测,增强了对异常行为的分析与解释。
[0039] (4)本发明针对不同维度信息的特点,采用不同的自动编码器对多维度信息灵活处 理、数据降维,并将多个自动编码器与分类器进行联合训练,在降低数据维度、减少运算 成本的同时,保证了系统的检测精度。

附图说明

[0040] 图1为本发明的一个实施例提供的一种基于多维度信息的内部网络异常检测方法的 流程示意图;
[0041] 图2为本发明一个实施例提供的一种基于多维度信息的内部网络异常检测方法的示 意图;
[0042] 图3为本发明一个实施例提供的数据集合的示意图;
[0043] 图4为本发明一个实施例提供的数据打包的示意图;
[0044] 图5为本发明一个实施例提供的事件链信息中数据处理网络的结构图;
[0045] 图6为本发明一个实施例提供的基于用户交互流量信息形成的方阵的示意图;
[0046] 图7为本发明一个实施例提供的one‑hot编码示意图;
[0047] 图8为本发明一个实施例提供的深度自动编码器的结构示意图;
[0048] 图9是本发明一个实施例提供的整个异常检测系统的结构示意图,
[0049] 图10为本发明的一个实施例提供的一种基于多维度信息的内部网络异常检测系统的 结构示意图。

具体实施方式

[0050] 下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例的详细 描述和附图用于示例性地说明本发明的原理,但不能用来限制本发明的范围,即本发明不 限于所描述的优选实施例,本发明的范围由权利要求书限定。
[0051] 在本发明的描述中,需要说明的是,除非另有说明,“多个”的含义是两个或两个以 上;术语“第一”“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性;对于本 领域的普通技术人员而言,可视具体情况理解上述术语在本发明中的具体含义。
[0052] 实施例一
[0053] 如图1和图2所示,本发明的一个实施例提供了一种基于多维度信息的内部网络异常 检测方法,包括以下步骤:
[0054] S100:获取带时间戳的流量数据,流量数据包括业务特征信息和用户交互流量信息;
[0055] 在用户端和服务器端放置探针获取带时间戳的流量数据(服务器端和用户端流量探针 的时间戳保持同步),一条完整的流量数据包含业务特征信息和用户交互流量信息。
[0056] 业务特征信息指用户端工作中产生的各种指标信息,指标包含但不限于以下特征:
[0057] 连接时间长度duration,协议类型protocol_type,在目标机的网络服务service,连接 状态flag,源主机到目标主机的数据的字节数src_bytes,目标主机到源主机的数据的字节 数dst_bytes,连接是否来自/送达同一个主机/端口land,错误分段的数量wrong_
fragment, 加急包的个数urgent,访问系统敏感文件和目录的次数hot,登录尝试失败的次
数 num_failed_logins,是否成功登录logged_in,compromised条件出现的次数 num_
compromised,是否获得root_shell,是否出现”su root”命令su_attempted,用户访 问次数num_root,文件创建操作的次数num_file_creations,使用shell命令的次数 num_
shells,访问控制文件的次数num_access_files,FTP会话中出站连接的次数 num_
outbound_cmds,登录是否属于“hot”列表is_host_login,是否为guest登录 is_guest_
login等。
[0058] 用户交互流量信息是指探针获取的每个用户端与其他用户端的流量交互情况。
[0059] 探针产出数据的具体形式包括但不限于如下所示:
[0060] 0,tcp,http,SF,181,5450,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.0 0,9,9,1.00,0.00,0.11,0.00,0.00,0.00,0.00,0.00。
[0061] S200:基于时间戳获取历史时间信息、事件链信息,基于用户交互流量信息获取拓 扑信息,对业务特征信息、历史时间信息、事件链信息和拓扑信息进行预处理;
[0062] S210:基于时间戳获取历史时间信息、事件链信息,基于用户交互流量信息获取拓 扑信息;
[0063] (1)基于时间戳获取历史时间信息;
[0064] 基于时间戳将当前时刻的业务特征信息和一定时间前的业务特征信息进行横向对比 从而获得历史时间信息(T的大小根据具体业务类型进行变更),具体为:
[0065] 分别计算当前时刻的业务特征信息和一定时间前(例如T小时前)的业务特征信息 之间的欧氏距离和余弦相似度,输出2维特征即获得历史时间信息。
[0066] (2)基于时间戳获取事件链信息;
[0067] 如图3所示,基于时间戳将流量数据按照时间序列从左到右依次排列获得数据集合; 如图4所示,将数据集合按照时间序列进行打包封装获得多个事件链数据包,每个事件链 数据包包含k条连续的流量数据样本,k例如为4;
[0068] 如图5所示,分别将每个事件链数据包中的数据(x1、x2...xk)输入深度自动编码器, 经过深度自动编码器处理后,输出k个结果子集(zc1,zrc1,zr1)、(zc2,zrc2,zr2)...(zck, zrck,zrk),将所有子集进行重组得到3k维数据的新数据集合(zc1,zc2...zck;zrc1,zrc2...zrck; zr1,zr2...zrk),zc1,zc2...zck表示各压缩样本;zrc1,zrc2...zrck表示各余弦相似度;zr1,zr2...zrk表示欧氏距离;该新数据集合中的流量数据样本主要包含了基于时间序列的事件链信息。
[0069] (3)基于用户交互流量信息获取拓扑信息;
[0070] 如图4所示,每个事件链数据包大小为k,k的值可以根据具体数据进行设置,例如 可以设k=4,事件链数据包中的x1的时间戳为t1,x4的时间戳为t4,则t1‑t4为一个时间窗 口,依此类推,时间窗口的大小与k值保持一致;在时间窗口内,基于用户交互流量信息 形成如图6所示的方阵,假设内部网络中有a个用户端,则方阵为Ca×a,将方阵的每一列 相加可得到列向量(r1,r2,...,ra),将列向量(r1,r2,...,ra)定义为流量拓扑信息。
[0071] S220:对业务特征信息、历史时间信息、事件链信息和拓扑信息进行预处理;
[0072] (1)对业务特征信息进行预处理;
[0073] 探针获取的流量信息中的业务特征信息包含符号特征和部分值域相差较大的特征,需 对业务特征信息进行预处理,使最终输出的特征信息均为0至1范围内的连续数值;
对业 务特征信息进行预处理包括以下子步骤:
[0074] S221:将业务特征信息进行one‑hot编码;
[0075] 业务特征信息中往往包含符号证据,为了方便后续计算,需要将符号特征通过one‑hot 编码转化为数值特征;如图7所示,以协议类型为例,协议类型包括3个独立并列的特征 值:TCP、UDP、ICMP,经过One‑Hot编码后由1维特征扩展成3维特征;
[0076] S222:对经过one‑hot编码的业务特征信息再次采用Min‑Max算法进行数值特征归一 化处理;Min‑Max算法公式如下所示:
[0077]
[0078] 式中,X′为归一化后的特征取值;X为输入样本的特征取值;Xmin和Xmax分别为样本 特征取值中的最小值和最大值。
[0079] (2)对历史时间信息、事件链信息和拓扑信息进行预处理;
[0080] 对历史时间信息进行数值特征归一化处理,以输出0至1范围内连续数值的2维特征; 对事件链信息和拓扑信息均采用Min‑Max算法进行数值特征归一化处理。
[0081] 业务特征信息、历史时间信息、事件链信息和拓扑信息的取值范围在0到10亿之间, 有的取值范围在0到1之间,为了消除证据之间的数量级差异化,本发明采用Min‑Max 算法将所有数值特征(业务特征信息、历史时间信息、事件链信息和拓扑信息)的取值限 制在区间[0,1]内,以便能够在压缩网络和估计网络中计算。
[0082] S300:将经过预处理后的业务特征信息、事件链信息和拓扑信息输入不同的压缩网 络以实现数据降维获得业务特征低维信息、历史时间信息、事件链低维信息和拓扑低维信 息;
[0083] 压缩网络层主要用于数据降维,业务特征信息通常能够到达100至200维,拓扑信息 的维度也会随着用户数量的的增多而增长,为了提升系统的运算效率,降低运算成本,使 用深度自动编码器进行数据降维,即压缩网络采用深度自编码网络对数据进行降维。
[0084] 深度自编码网络的结构如图8所示;例如输入样本xi经过编码器压缩后得到原样本特 征的低维表示zc,zc再经由解码器重构得到重构样本x′i;编码器和解码器均为全连接层, 激活函数为tanh函数;压缩网络的输出z包含两个特征源:①输入样本通过深度自动编 码器的低维表示zc(压缩样本),②输入样本xi与重构样本x′i之间的重构误差zr;即z=[zc; zr];其中,压缩样本通过以下公式获得:
[0085] zc=h(xi;θe)
[0086] 式中,zc为压缩样本;xi为输入样本;θe为编码器参数。
[0087] 重构误差zr通过以下公式获得:
[0088] zr=f(xi;x′i)
[0089] 式中,zr为重构误差;xi为输入样本;x′i为重构样本;
[0090] 其中,x′i=g(zc;θd),θd为解码器参数。
[0091] 具体的,重构误差zr为2维特征,分别为欧几里得距离L1(xi;x′i)和余弦相似度L2(xi;x i);
[0092] zr=[L1(xi;x′i);L2(xi;x′i)]
[0093] 其中,欧几里得距离(欧式距离)通过以下公式表示:
[0094]
[0095] 式中,L1(xi;x′i)为xi与x′i之间的欧式距离;N为流量数据样本的数量;xi为输入样本; x′i为重构样本;
[0096] 余弦相似度通过以下公式表示:
[0097]
[0098] 式中,L2(xi;x′i)为xi与x′i之间的余弦相似度;N为流量数据样本的数量;xi为输入样 本;x′i为重构样本。
[0099] 本发明中将业务特征信息、事件链信息和拓扑信息输入不同的压缩网络,如图9所示, 利用三个深度自动编码器分别对业务特征信息、事件链信息和拓扑信息进行降维,三个深 度自动编码器编码器每层的具体参数需要根据实际应用进行预设;历史时间信息本
身维度 不高,不需要进行降维处理;其中,业务特征信息经自动编码器压缩后输出z1,为3维 特征,包括低维表示和重构误差;事件链信息经自动编码器压缩后输出Zc,为3维特征, 是事件链信息的低维表示,不包含重构误差,在事件链信息的降维过程中,重构误差仅作 为约束条件;历史时间信息为z2;拓扑信息经自动编码器压缩后输出z3,为3维特征, 包括低维表示和重构误差。
[0100] 综上所述,压缩网络层的总输出为Z=[z1,Zc,z2,z3],包含10维特征信息;在系统 实际运行中,事件链信息和拓扑信息为一段时间窗口内的信息,为方便系统运行,在该时 间窗口内的业务特征信息和历史时间信息与相同的时间窗口中的事件链信息和拓扑信息 匹配使用,假设时间窗口大小k=4,则时刻1至时刻4的压缩网络输出为Z1=[z11,Zc1, z21,z31],Z2=[z12,Zc1,z22,z31],Z2=[z13,Zc1,z23,z31],Z2=[z14,Zc1,z24,z31]。
[0101] S400:将业务特征低维信息、历史时间信息、事件链低维信息和拓扑低维信息进行 整合,并输入估计网络以进行密度估计获得流量数据的能量;
[0102] 估计网络为高斯混合模型(GMM),通过利用多层神经网络预测每个流量数据样本的 混合隶属度进行密度估计,即估计网络层输出流量数据(业务特征低维信息、历史时间
信 息、事件链低维信息和拓扑低维信息)的能量估计,用于判别内部网络是否存在异常;其 中,P=MLN(Zc;θm)是以θm为参数的多层神经网络的输出, 是一个M维 度向量,M
代表高斯混合模型的聚类数。
[0103] 给定N个流量数据样本(N为k的整数倍),数据处理网络的分包大小为k, GMM中的参数如下所示:
[0104]
[0105]
[0106]
[0107] 式中, 为混合概率; 为均值; 为方差; 为第j个输入样本Zj在第m个高斯 混合模型分量下的密度估计;N为样本数量。
[0108] 利用以上参数,通过以下公式计算流量数据样本(业务特征低维信息、历史时间信息、 事件链低维信息和拓扑低维信息)的能量:
[0109]
[0110] 式中,E(Zj)为第j个输入流量数据样本Zj的能量;M为高斯混合模型的聚类数;为 均值; 为方差。
[0111] S500:基于自适应判别能量阈值和流量数据的能量判断内部网络是否异常,若流量 数据的能量大于自适应判别能量阈值,则判定内部网络出现异常;
[0112] 对于异常检测的自适应判别能量阈值T,本发明根据流量数据的能量以及异常数据的 比例ρ决定,对于N条流量数据样本,通过本发明的基于多维度信息的内部网络异常检 测系统计算出每个流量数据样本的能量,然后按照能量值对所有流量数据样本进行升序排 序,阈值T通过以下公式表示:
[0113]
[0114] 式中,T为自适应判别能量阈值;E(i)为升序排序后第i个流量数据样本的能量值;i的 数值为流量数据样本数量乘(1‑ρ),取结果的向下整数;ρ为流量数据的能量以及异常数 据的比例;N为流量数据样本的数量。
[0115] 若流量数据的能量大于自适应判别能量阈值,则判定内部网络出现异常;若流量数据 的能量小于或等于自适应判别能量阈值,则判定内部网络正常;异常判别的方式如下所示:
[0116]
[0117] 实施例二
[0118] 如图9和图10所示,本发明的一个实施例提供了一种基于多维度信息的内部网络异 常检测系统,包括数据获取模块(数据获取层)、信息分类模块(信息分类层)、压缩网络、 估计网络和异常判断模块;
[0119] 数据获取模块用于获取带时间戳的流量数据,所述流量数据包括业务特征信息和用户 交互流量;
[0120] 信息分类模块用于基于所述时间戳获取历史时间信息和事件链信息,基于所述用户交 互流量信息获取拓扑信息,对所述业务特征信息、所述历史时间信息、所述事件链信息和 所述拓扑信息进行预处理;
[0121] 所述压缩网络用于将经过预处理后的所述业务特征信息、所述事件链信息和所述拓扑 信息输入不同的压缩网络以实现数据降维获得业务特征低维信息、事件链低维信息
和拓扑 低维信息;
[0122] 估计网络将业务特征低维信息、历史时间信息、事件链低维信息和拓扑低维信息进行 整合,并输入估计网络以进行密度估计获得所述流量数据的能量;
[0123] 异常判断模块用于基于自适应判别能量阈值和所述流量数据的能量判断内部网络是 否异常,若所述流量数据的能量大于所述自适应判别能量阈值,则判定内部网络出现异常。
[0124] 进一步的,在一个实施例中还包括通过损失函数来估量内部网络异常检测系统的预测 值与真实值的不一致程度,函数值越小,代表系统的鲁棒性越好,通过损失函数引导内部 网络异常检测系统训练学习达到最优;
[0125] 给定N(N为k的整数倍)个数据样本,引导训练的损失函数构造如下:
[0126]
[0127] 式中,H(θe1,θd1,θe2,θd2,θe3,θd3,θm)为损失函数;θe1,θd1分别为业务特征信息对应 的压缩网络编码器和解码器的参数;θe2,θd2分别为事件链信息对应的压缩网络编码器和 解码器的参数;θe3,θd3分别为拓扑信息对应的压缩网络编码器和解码器的参数;θm为 GMM的训练参数;λ1和λ2分别为模型中的元参数;L(x1i,x′1i)为业务特征信息压缩网络的 重构误差; 为事件链信息压缩网络的重构误差;L(x3i,x′3i)为业务特征信息压 缩网络的重构误差;E(Zi)为高斯混合模型的似然函数; 为用于惩罚协方差矩阵对角 项上
‑14
的小值,本发明中设定为1×10 ,避免出现矩阵不可逆。
[0128] 在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方 式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅 为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合 或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的 相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通 信连接,可以是电性,机械或其它的形式。
[0129] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的 部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络 单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的
目的。
[0130] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各 个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0131] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储 在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现 有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该
计算机 软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是
个人计 算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步
骤。而 前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程 序代码的介质。
[0132] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟 悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖 在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。