先期网络防御转让专利

申请号 : CN201811487623.0

文献号 : CN110035049A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : J·A·克雷格J·米德J·E·瓦萨卡

申请人 : 波音公司

摘要 :

先期网络防御。根据各种实施方式,公开了用于先期网络防御的技术。所述技术包括:接收网络事故报告,从报告提取关键字,应用浅层机器学习技术以获得易受至少第一威胁场景影响的联网资产的第一子集的标识和第一威胁场景的标识,对至少第一子集、第一威胁场景、所述关键字以及所述多个联网资产应用深层机器学习技术以获得易受至少第二威胁场景影响的联网资产的第二子集和第二威胁场景,对联网资产和第二威胁场景进行仿真以标识经过联网资产的易受至少第三威胁场景影响的至少一条路径,以及输出所述至少一条路径的标识和第三威胁场景的标识。

权利要求 :

1.一种多个联网资产(200)的先期网络防御的计算机实现的方法,该方法包括以下步骤:接收(1102)多个网络事故报告(302,902);

从所述多个网络事故报告提取(300,1104)关键字;

对至少所述关键字以及所述多个联网资产的标识应用浅层机器学习技术(400,1106)以获得易受至少第一威胁场景影响的所述联网资产的第一子集的标识和所述第一威胁场景的标识;

对至少易受所述第一威胁场景影响的所述联网资产的第一子集的标识、所述第一威胁场景的标识、所述关键字以及所述多个联网资产的标识应用深层机器学习技术(600,

1108),以获得易受至少第二威胁场景影响的所述联网资产的第二子集的标识和所述第二威胁场景的标识;

对所述多个联网资产和所述第二威胁场景进行仿真(700,1110)以标识经过所述多个联网资产的易受至少第三威胁场景影响的至少一条路径;以及输出(1112)经过所述多个联网资产的所述至少一条路径的标识和至少所述第三威胁场景的标识。

2.根据权利要求1所述的方法,该方法还包括针对至少所述第三威胁场景采取补救措施。

3.根据权利要求1所述的方法,其中,所述浅层机器学习技术包括最近邻技术。

4.根据权利要求1所述的方法,其中,所述深层机器学习技术包括神经网络技术、关联规则挖掘技术或字嵌入技术。

5.根据权利要求1所述的方法,其中,所述仿真由离散事件仿真DES引擎(704)执行。

6.根据权利要求1所述的方法,该方法还包括限制通过所述仿真标识的路径的数量。

7.根据权利要求1所述的方法,其中,从所述多个网络事故报告提取关键字的步骤还包括从所述多个网络事故报告、从至少一个历史异常数据库、从至少一个威胁场景数据库以及从资产数据库提取关键字。

8.一种用于多个联网资产(200)的先期网络防御的系统(1200),该系统包括至少一个电子处理器,所述至少一个电子处理器被配置为执行以下步骤:接收(1102)多个网络事故报告(302,902);

从所述多个网络事故报告提取(300,1104)关键字;

对至少所述关键字以及所述多个联网资产的标识应用浅层机器学习技术(400,1106)以获得易受至少第一威胁场景影响的所述联网资产的第一子集的标识和所述第一威胁场景的标识;

对至少易受所述第一威胁场景影响的所述联网资产的第一子集的标识、所述第一威胁场景的标识、所述关键字以及所述多个联网资产的标识应用深层机器学习技术(600,

1108),以获得易受至少第二威胁场景影响的所述联网资产的第二子集的标识和所述第二威胁场景的标识;

对所述多个联网资产和所述第二威胁场景进行仿真(700,1110)以标识经过所述多个联网资产的易受至少第三威胁场景影响的至少一条路径;以及输出(1112)经过所述多个联网资产的所述至少一条路径的标识和至少所述第三威胁场景的标识。

9.根据权利要求8所述的系统,其中,所述至少一个电子处理器还被配置为针对至少所述第三威胁场景采取补救措施。

10.根据权利要求8所述的系统,其中,所述浅层机器学习技术包括最近邻技术。

说明书 :

先期网络防御

技术领域

[0001] 本公开总体上涉及预计并解决网络安全威胁。

背景技术

[0002] 网络安全威胁以及入侵检测和补救的领域正呈指数增长,进阶持续性威胁在于政府、工业、犯罪和闲散网络攻击者的世界的能量、创造力和资源。依赖于检测、分析和反应的传统防御在每天遇到的威胁的冲击下是不够的。非犯罪世界行动缓慢,依赖于辩论、共识和法理来恢复对我们的机构的信心和信任。与我们的信息系统的不受阻碍且不受约束的攻击者的高超音速相比,这样的步伐极度缓慢。
[0003] 如今,网络攻击的受害者通常会在发现攻击后的14到30天内(即,在根本原因分析之后)报告。尽管提交初始事故通知的时间线因机构和私营企业而异并且可能会变化,但目前政府和私营部门的一些分支有义务在检测到初始事故后一小时内报告此类事故。初始事故报告可能包含未经验证且非常稀疏的信息。随着新的信息可用,可能需要快速地更新这些报告。
[0004] 为了遵守24小时报告限制,不同的方法和系统必须就位。这对于利用稀疏但即时的信息是必要的,目标是使特定系统处于警戒状态和/或防止对自己的基础设施或产品的相同攻击或相同类型的攻击。

发明内容

[0005] 根据各种实施方式,公开了一种多个联网资产的先期网络防御的计算机实现的方法。该方法包括:接收多个网络事故报告;从所述多个网络事故报告提取关键字;对至少所述关键字、以及多个联网资产的标识应用浅层机器学习技术以获得易受至少第一威胁场景影响的联网资产的第一子集的标识以及第一威胁场景的标识;对至少易受第一威胁场景影响的联网资产的第一子集的标识、第一威胁场景的标识、所述关键字、和多个联网资产的标识应用深层机器学习技术,以获得易受至少第二威胁场景影响的联网资产的第二子集的标识以及第二威胁场景的标识;对多个联网资产和第二威胁场景进行仿真以标识经过多个联网资产的易受至少第三威胁场景影响的至少一条路径;以及输出经过多个联网资产的至少一条路径的标识和至少第三威胁场景的标识。
[0006] 上述实施方式的各种可选特征包括以下特征。该方法可以包括:将经过多个联网资产的至少一条路径的标识以及至少第三威胁场景的标识添加到多个网络事故报告;将提取、应用浅层机器学习技术、应用深层机器学习技术和仿真重复至少一次,以标识经过多个联网资产的易受至少第四威胁场景影响的至少第二路径;以及输出经过多个联网资产的至少第二路径的标识和至少第四威胁场景的标识。该方法可以包括针对至少第三威胁场景采取补救措施。补救措施可以包括下列中的至少一个:安装至少一个安全措施、关闭至少一个端口、关闭至少一个资产或者断开至少一个资产。浅层机器学习技术可以包括最近邻技术。深层机器学习技术可以包括神经网络技术、关联规则挖掘技术或字嵌入技术。仿真可以由离散事件仿真(DES)引擎执行。该方法可以包括限制通过仿真标识的路径的数量。限制可以包括下列中的至少一个:删减通过仿真标识的路径的数量或者限制深层机器学习技术中的级别的数量。从多个网络事故报告提取关键字还可以包括从多个网络事故报告、从至少一个历史异常数据库、从至少一个威胁场景数据库以及从资产数据库提取关键字。
[0007] 根据各种实施方式,公开了一种用于多个联网资产的先期网络防御的系统。该系统包括至少一个电子处理器,其被配置为执行:接收多个网络事故报告;从所述多个网络事故报告提取关键字;对至少所述关键字、以及多个联网资产的标识应用浅层机器学习技术以获得易受至少第一威胁场景影响的联网资产的第一子集的标识以及第一威胁场景的标识;对至少易受第一威胁场景影响的联网资产的第一子集的标识、第一威胁场景的标识、所述关键字、和多个联网资产的标识应用深层机器学习技术,以获得易受至少第二威胁场景影响的联网资产的第二子集的标识以及第二威胁场景的标识;对多个联网资产和第二威胁场景进行仿真以标识经过多个联网资产的易受至少第三威胁场景影响的至少一条路径;以及输出经过多个联网资产的至少一条路径的标识和至少第三威胁场景的标识。
[0008] 上述实施方式的各种可选特征包括以下特征。所述至少一个电子处理器还可以被配置为执行:将经过多个联网资产的至少一条路径的标识以及至少第三威胁场景的标识添加到多个网络事故报告;将提取、应用浅层机器学习技术、应用深层机器学习技术和仿真重复至少一次,以标识经过多个联网资产的易受至少第四威胁场景影响的至少第二路径;以及输出经过多个联网资产的至少第二路径的标识以及至少第四威胁场景的标识。所述至少一个电子处理器还可以被配置为针对至少第三威胁场景采取补救措施。补救措施可以包括下列中的至少一个:安装至少一个安全措施、关闭至少一个端口、关闭至少一个资产或者断开至少一个资产。浅层机器学习技术可以包括最近邻技术。深层机器学习技术可以包括神经网络技术、关联规则挖掘技术或字嵌入技术。仿真可以由离散事件仿真(DES)引擎执行。所述至少一个电子处理器还可以被配置为限制通过仿真标识的路径的数量。限制可以包括下列中的至少一个:删减通过仿真标识的路径的数量或者限制深层机器学习技术中的级别的数量。从多个网络事故报告提取关键字还可以包括从多个网络事故报告、从至少一个历史异常数据库、从至少一个威胁场景数据库以及从资产数据库提取关键字。

附图说明

[0009] 当结合附图考虑时,参照以下详细描述更好理解示例,因此能够更充分地理解示例的各种特征,附图中:
[0010] 图1是根据各种实施方式的系统的示意图;
[0011] 图2是根据各种实施方式的系统输出的示意图;
[0012] 图3是根据各种实施方式的信息提取子系统的混合图;
[0013] 图4是根据各种实施方式的浅层机器学习子系统的混合图;
[0014] 图5是根据各种实施方式的扩展反馈回路的混合图;
[0015] 图6是根据各种实施方式的深层机器学习子系统的混合图;
[0016] 图7是根据各种实施方式的离散事件仿真子系统的混合图;
[0017] 图8是根据各种实施方式的剪枝回路的第一混合图;
[0018] 图9和图10描绘了根据各种示例的剪枝回路的第二混合图;
[0019] 图11是根据各种实施方式的方法的流程图;以及
[0020] 图12是根据各种实施方式的示例硬件实现方式的示意图。

具体实施方式

[0021] 现在将详细参照所公开的示例,其在附图中例示。只要可能,贯穿附图将使用相同的附图标记来表示相同或相似的部分。在以下描述中,参照附图,附图形成了描述的一部分,并且其中通过例示具体示例的方式示出附图。足够详细地描述这些示例以使得本领域技术人员能够实践它们,并且将理解,可以利用其它示例并且可以在不脱离本公开的范围的情况下进行改变。因此,以下描述仅是示例性的。
[0022] 根据“联邦信息安全管理法案”的某些政策,一些实体需要在它们检测后的24小时内公开报告网络攻击。这些政策要求将原因分析移至事故处理过程的结束阶段以便加快初始通知。“陷阱”在于如果公司将等待签名更新、或者部分或全部原因分析(例如,攻击来自哪里),则其仍像之前一样易受影响。预计在初始事故通知时这些是不可获得的。由于原因分析可能需要24小时到30天或更长的时间,所以一些实施方式提供了提前整一个月(很可能在相同类型的攻击发生在自己的基础设施之前)行动的机会。因此,一些实施方式允许遵守初始提早通知要求,即使信息非常稀疏。
[0023] 一些实施方式接受一个或更多个初始事故报告作为输入,并且输出对防范网络威胁有用的各种信息。一些实施方式标识企业中会潜在地受到初始事故报告中所描述的相同方法和攻击者攻击的所有系统。一些实施方式标识如下的所有潜在路径,即,攻击者可能采取这些路径以达到初始事故报告中所描述的相同级别和位置的系统损害。一些实施方式在接收到初始事故报告的七分钟内向人类用户告知潜在受到攻击的系统和潜在攻击路径。一些实施方式基于关于攻击的可用初始信息将漏洞窗口从(根据现有技术)发现攻击后的14到30天减小到发现攻击后的约68分钟(图1),正好在24小时报告限制内。一些实施方式在每次新的、更新的报告(即,对初始事故报告的更新)到来时重复标识步骤。此外,一些实施方式在可能的网络攻击树的分支变得过时时对其进行剪枝,并且在更新的事故报告中标识出新的叶子、中间节点或顶级节点时对其进行添加。在本文中详细描述这些和其它实施方式。
[0024] 图1是根据各种实施方式的系统100的示意图。一些实施方式基于来自相似或不同工业部门的任意稀疏的初始事故报告来计算对互连资产的目标企业系统的潜在威胁。一些实施方式将根据并且基于离散事件仿真(DES)过程或引擎定义的对各个目标系统的资产的攻击概率相关联。一些实施方式计算(在适当情况下)包括进入目标系统的入口点的潜在攻击路径。一些实施方式将上述发现中的任一个或组合呈现给人类用户以便于进一步动作。一些实施方式自动采取进一步动作。例如,进一步动作可以包括让人类用户为攻击做好准备、关闭端口或系统部分、在潜在目标资产上安装进一步的安全措施、以及其它措施。
[0025] 系统100的输入102包括初始事故报告。一发生(或检测到)事故,此类事故报告就生成并且可以被提供给系统100。事故报告可以通过行业共享机制或政府获得。事故报告通常为计算机可读文本格式。因为各种来源将具有不同的方法和分类,所以假定没有特定的格式或分类。事故报告可以包括异常行为(诸如文件系统的损害(例如文件被删除、加密等)、处理变慢或者网站污损)的顶级观察。事故报告可以包括与受损点有关的计算机系统的一些指示,例如文件系统或数据库的类型、操作系统的类型和版本或者因特网浏览器类型和版本。事故报告可以是计算机可读的并且包括非结构化(以自然语言表示的文本)信息。可以利用新信息(例如,当可获得细节时)快速地(例如,每小时)或缓慢地更新事故报告。此类新信息可以是下列信息中的任一种并且以任何顺序:初始入口点的类型(例如,因特网、内部网)、攻击者如何获得访问权限(例如,密码破解器、密码在几个月前被盗)、可执行文件标识、内存访问标识、混淆技术、攻击来自的因特网地址、或者新的恶意软件签名或可执行文件以及最后,攻击的全部细节。
[0026] 输入102还可以包括美国政府发布的报告、欧盟发布的报告、美国计算机应急准备小组(US-CERT)、美国核监管委员会(NRC)、私人策划的列表、来自金融部门的列表或者例如来自航空航天部门的信息共享和分析中心(ISAC)中的任一个或组合。
[0027] 输入102还可以包括具有历史异常信息的数据库、具有威胁场景的数据库或者所有(用户)系统资产、其直接(最近邻)互连以及其硬件和软件版本的数据库中的任一个或组合。此类电子数据库是行业规范并且其操纵是行业标准。
[0028] 系统100还包括信息提取子系统104,下面参照图3对其详细描述。
[0029] 系统100还包括两个机器学习模型。在处理步骤期间,系统100能够访问浅层机器学习子系统106(例如,基于最近邻方法的版本之一或者一些其它高效模式匹配方法)以及深层机器学习子系统108(例如,基于卷积神经网络)。下面参照图4和5详细描述浅层机器学习子系统106。下面参照图6详细描述深层机器学习子系统108。
[0030] 系统100还包括离散事件仿真子系统110。下面参照图7详细描述离散事件仿真子系统110。
[0031] 系统100还包括输出报告和信息的报告子系统112。报告和信息可以包括下列中的任一个或组合的文本和/或视觉表示:(例如,通过初始事故报告中可用的信息来判断)目标系统是否可能受到损害以及与该事件发生相关联的概率、可能受到损害的潜在资产的列表以及与这些结果相关联的概率、攻击可能采取的经过实体的系统和资产的潜在路径以及与其相关联的概率、和/或进入系统的潜在入口点以及与其相关联的概率。此外,报告和信息可以包括下列中的任一个或组合:与过去事件的相似性、事件的位置、威胁动作、对系统的影响、威胁载体或者异常树(具有相关联的概率的决策树和根本原因分析)的可视化。
[0032] 需要注意的是,图1还包括示例性当前时间线114和示例性新时间线116。如所描绘的,示例性当前时间线指示得到根本原因分析通常需要30天或更长时间。只有在此时才生成攻击签名并将其分发给行业以开始威胁预防过程。根据一些实施方式,示例性新时间线116指示初始事故通知可以花费约一个小时,信息提取子系统104的处理可以花费可忽略的时间,浅层机器学习子系统的处理可以花费约一分钟,深层机器学习子系统108的处理可以花费约一分钟,离散事件仿真子系统110的处理可以花费约五分钟,并且输出与威胁预防相关的报告或其它信息可以花费约一分钟,从而允许行业在那时开始威胁预防过程。因此,一些实施方式显示出对现有技术的巨大改进。
[0033] 图2是根据各种实施方式的系统输出的示意图。目标系统200(可能)包括诸如飞机、数据库、机场、web服务、终端用户装置、无线和有线连接、电子邮件服务等的互连资产。一些实施方式的输出可以包括下列中的任一个或组合:
[0034] ·目标系统可能受到相同或相似的攻击损害的概率P(系统)202;
[0035] ·资产可能受到相同或相似的攻击损害的概率P(资产)204;
[0036] ·不同资产之间的连接路径可能受到相同或相似的攻击损害的概率P(路径)206;或
[0037] ·进入系统的入口点可能受到相同或相似的攻击损害的概率P(入口)208。
[0038] 图3是根据各种实施方式的信息提取子系统300的混合图。信息提取子系统的目的在于从初始事故报告提取有意义的概念和关键字。初始事故报告包括一旦检测到异常,操作者对系统的外部行为的观察的文本描述。初始事故报告可以包括被观察为行为异常的资产的描述以及可能的一些进一步的观察信息。随着时间推移,当更多信息变得可用时将利用其来更新初始事故报告。
[0039] 一些实施方式不要求所有初始事故报告遵守NIST SP 800-61Rev 2中的格式(例如,其可能源于欧盟或者不遵循NIST指南的国家)。因此,该子系统用于解析并提取由其它系统组件使用的信息。
[0040] 如图3所示,信息提取子系统300的输入包括来自任何来源以及任何格式的、结构化和非结构化的、各种概念级别的至少一个初始事故报告302。此类初始事故报告包括行为异常的系统的描述,并且指定异常的行为(例如,变慢、渗漏等)。如图3所示的初始事故报告302包括称为“Krack”的WPA2漏洞的描述。要保护的域资产是域的分类中的WAP(无线接入点),其可以通过对域的资产描述数据库使用关联规则映射机器学习技术(属于浅层类的机器学习技术)来获得。
[0041] 信息提取子系统300的输入还包括要保护的资产的描述。信息提取子系统300可以从(例如,如图1的系统100的输入102中的)所有(用户)系统资产、其直接互连以及其硬件和软件版本的电子数据库获得此类信息。
[0042] 信息提取引擎304可以采用被配置并专用于域(即,要保护的资产集合)并且被映射在目标公司的资产的分类上的任何标准化的提取变换加载(ETL)或信息提取工具(IET)过程。这些工具提取与观察到的异常行为有关的关键字(例如,专有、信息、渗漏、数据库等)以及与受到攻击的系统/资产的类型有关的关键字(例如,数据库管理系统(DBMS)版本)。这些工具输出事件的分类并且可能地输出异常子事件的已知(子)序列或者根本原因、入口点和完整威胁轨迹中的一者或两者。如图3所示,信息提取引擎304从初始事故报告302提取以下提取的术语306:“wpa2”、“无线”、“接入点”、“安卓应用”和“银行应用”。
[0043] 信息提取子系统300还包括关键字映射引擎308,其将提取的术语306映射到作为输入提供的要保护的资产的描述上。关键字映射引擎308提供所提取的关键字与要保护的电子资产之间的以电子方式表示的关联310作为输出。
[0044] 图4是根据各种实施方式的浅层机器学习子系统400的混合图。浅层机器学习子系统400使用高效算法并导出初始事故报告与目标系统描述(即,要保护的资产的描述)之间的快速匹配。与下面描述的作为图6的深层机器学习子系统600的操作级别的语义(含义)相似性相反,浅层机器学习子系统400可以在句法(文本)相似性的级别上操作。浅层机器学习子系统基本上回答了两个问题。第一:“之前有类似的事情发生在我们身上吗?”,第二:“这样的事情会发生在我们身上吗?”
[0045] 浅层机器学习子系统400的输入402包括:从图3的信息提取子系统300输出的关键字、资产和异常的列表以及资产数据库。资产数据库可以包括(例如,如图1的系统100的输入102中的)要保护的资产、其直接(例如,最近邻)互连以及其硬件和软件版本的描述。输入402还可以包括来自历史异常数据库和威胁场景数据库中的一者或二者的信息。
[0046] 多种不同的机器学习模式匹配方法适用于浅层机器学习子系统400。例如,除了关联规则映射之外,可以使用k最近邻(KNN)方法。该方法的最简单形式不需要预训练。其属于“懒”机器学习方法的范畴。“最近”可以通过各种度量(作为非限制性示例,Hamming距离或Levenshtein距离)来衡量。可以将KNN方法应用(404)于资产数据库、威胁场景数据库和历史异常数据库。具体地,可以通过在各个这样的数据库中寻找从信息提取子系统300输出的各个关键字的最近邻来应用(404)KNN方法。
[0047] 浅层机器学习子系统400的输出406包括下列中的一个或更多个:
[0048] -与信息提取子系统300所标识的资产最接近地匹配的在受保护系统内操作的资产(即,与事故报告中当前正在其它地方受到攻击的资产最接近地匹配的受保护系统的资产)的标识(例如,列表)
[0049] -威胁场景或过去异常的标识,其中一个或更多个关键字与信息提取子系统300所输出的、受保护资产与关键字的关联310匹配。
[0050] ○对信息提取子系统300的任何其它形式的输出的模式匹配,例如异常事件序列、根本原因、入口点、威胁轨迹等。
[0051] -对于我们的操作系统(例如,当维护人员将膝上型计算机插入到飞机系统中时)或无线接入点,涉及由子系统300和子系统400引出的概念的异常行为的最重要的驱动因素的视觉表示。
[0052] -用于将来参考和/或分析的对数据库的更新。
[0053] 输出406可以被进一步处理(408),例如将其格式化为人类用户的可视表示,或者将其提供给反馈回路(如下面参照图5示出和描述的)。
[0054] 作为浅层机器学习子系统400的示例处理,当针对表示系统资产的名词、短语以及其它术语的受控词汇测试新的候选(例如,如图4中所描绘的WAP、无线接入点)时,根据相似性度量,浅层机器学习子系统400确定最近邻是WAP AFT和WAP FWD等作为输出406。
[0055] 图5是根据各种实施方式的扩展反馈回路500的混合图。扩展反馈回路500通过将图4的浅层机器学习子系统400的输出406的信息作为输入402提供回浅层机器学习子系统400来生成附加信息。如图4中所描绘,在没有反馈回路500的情况下,没什么与历史异常数据库中的信息匹配,而如图5中所描绘,利用反馈回路500,在输出406中标识出匹配历史异常。如图4中所描绘,输入402包括“WAP AFT”和“WAP FWD”的标识。在此示例中这些是无线接入点的实际实例,由其在飞机上的位置命名。
[0056] 图6是根据各种实施方式的深层机器学习子系统600的混合图。深层机器学习子系统600用于标识仅在句法相似性级别上工作的浅层模式匹配系统可能无法揭示的匹配。通过深层机器学习技术检测到的匹配是在不同概念级别上的关联,例如机上娱乐系统中的各种类型的应用或者这些应用使用信用卡并因此与银行应用共享特征的事实。浅层机器学习技术可以利用基于距离度量的文本挖掘和相似性搜索,而深层方法则聚焦于事实、实体和其它信息之间的关系。因此,深层机器学习子系统600从已由图3的信息提取子系统300提取的关键字的有限列表导出更高级别的概念并使用它们,以在更高(更广)的级别上对所有历史数据库、威胁场景数据库和资产数据库进行模式匹配。深层机器学习子系统600回答了这样的问题:这种威胁可能施加到我们的资产吗?它在我们的环境中会是什么样子?[0057] 在一些实施方式中使用深层机器学习子系统600,因为初始事故报告规范不是穷尽性的,并且缺少该特征的系统在术语或所识别的攻击迹象的广度或深度上不是穷尽性的,并且那些系统无法在句法上匹配。在其自己的系统内,如果不包括与初始事故报告中提及的概念有关的更高级别和更低级别的概念,则初始报告中提及的特定特征可能遗漏可能的攻击的一些重要迹象。深层机器学习子系统600不需要统一应用或适应的本体。相反,其独立于本体。这是因为不存在一个可适应的接受的形式,而实施方案不应放弃预计攻击的机会。
[0058] 深层机器学习子系统600接受来自信息提取子系统300的所有输出以及来自浅层机器学习子系统400的所有输出作为输入602。深层机器学习子系统600还接受来自具有历史异常信息的数据库、具有威胁场景的数据库以及所有(用户)系统资产、其直接互连以及其硬件和软件版本的数据库中的任一个或组合的信息作为输入602。
[0059] 深层机器学习子系统600可以实现各种深层学习技术,包括(作为非限制性示例)实体关系建模(即,学习实体之间的关系)或者链接和关联分析。关联规则映射(先验算法)、字嵌入和神经网络(例如,卷积神经网络)特别适合。因此,可以对资产数据库、威胁场景数据库和历史异常数据库应用(604)深层机器学习技术。
[0060] 这些工具从提取自初始事故报告的关键字创建更高级别的概念。例如,如果初始事故报告叙述“路由器”,则该术语可以导致对所有边界路由器、内部路由器、边界网关协议(BGP)和其它协议装置、交换机以及最终网络装置的检查。在稍后的取证上可能会证明这些计算、联网、存储等资产中的任何和全部受到影响。
[0061] 深层机器学习子系统600的输出606基本上是与浅层机器学习子系统400的输出相同类型的输出,但具有更广和更深的范围。换言之,深层机器学习子系统600标识关键字所牵涉的所有事物,而不仅仅是关键字本身。
[0062] 例如,当深层机器学习子系统600被应用于术语“IFE系统”(“机上娱乐系统”)时,其导出与IFE系统关联的所有相关应用(包括机上购物)作为输出606。术语“机上购物”与输出606的另一部分“信用卡”密切相关。另外应该注意的是,如图6中所描绘,从资产数据库导出“IFE系统”与“WAP FWD”之间的连接。另外应该注意的是,潜在目标IFE FWD和WAP AFT两者都未在初始事故报告中提及。这些可能在最终(现有技术)漏洞或事故分析报告中提及,然而这将比所公开的方法中的这一步骤晚几周发生。
[0063] 一些实施方式可以在深层机器学习子系统600中使用经典自然语言处理信息提取方法。这里,“信息提取”是指用于从纯文本提取可机器处理的结构化信息的方法的集合(称为实体提取、关系提取、事件提取等)。如果企业或其它资产集合具有关联的、标记的、资产及其关系的列表,则使用经典方法是有好处的。然而,在实践中难以获得所有所需信息的广泛、正确、维护得当的机器可读存储库以提取上述所需信息。除了适当标记的数据集潜在不可用之外,可能存在标记中的人为错误和信息中的间隙(gaps)。因此,一些实施方式可以按照无监督设置使用神经网络方法。深层神经网络中的一些方法以无监督方式对神经语言编程任务进行深层学习,并且通过积累关于可用数据和文本内所包含的事实和关系的知识来从所有类型的可用文本和数据语料库中学习。因此,一些实施方式这样使用不需要任何预定义的本体或关系类的现有方法以直接从任何文本连同关系短语一起提取事实。
[0064] 图7是根据各种实施方式的离散事件仿真子系统700的混合图。离散事件仿真子系统700可以用于确定根本原因、威胁路径以及对要保护的系统的潜在伤害。更详细地,离散事件仿真子系统700使用受保护资产的模型来创建仿真系统,该仿真系统包括由关键字和更高级别的概念标识的资产、事件以及其它人造物(artifacts)。离散事件仿真子系统700揭示根本原因以及经过系统的潜在路径,其可以由来自初始事故报告的关于事件本身的信息以及作为深层机器学习子系统600的结果添加的内容触发。
[0065] 离散事件仿真子系统700的输入702包括信息提取子系统300的输出(例如,关联310)、浅层机器学习子系统400的输出406和深层机器学习子系统600的输出606中的任一个或组合。
[0066] 离散事件仿真子系统700包括离散事件仿真引擎704,离散事件仿真引擎704在输入702上实施离散事件仿真以标识并提供经过我们的操作系统的、涉及来自输入的关键字中的任一个或任何组合的所有路径作为输出706。
[0067] 因此,离散事件仿真子系统700提供所考虑的威胁或类似威胁可能采取的经过受保护资产的潜在攻击路径、这种攻击的入口点以及对操作系统的影响,作为输出706。更具体地,离散事件仿真子系统700提供下列标识作为输出706:易受损害的路径、易受损害的资产、入口点、总系统易受损害性以及前述任一个的概率。
[0068] 上面参照图7示出并描述的技术可能潜在地导致标识的路径的过度增殖。事实上,所公开的技术的优点在于其可以探索所有路径以及路径的组合,这是人所难以处理的。可以想到有两种技术来将标识的路径的数量保持在不仅保留重要路径,而且还确保技术收敛的水平。第一种剪枝技术是控制深层机器学习子系统600的概念生成的深度。该技术限制了深层机器学习子系统600从关键字生成多少级别的概念。这是可配置的系统参数。需要注意的是,第一种技术应用在系统的向前“扩展”方向上。第二种剪枝技术是对经过系统的分支或整个路径进行剪枝。下面参照图8和图9描述该技术。
[0069] 图8是根据各种实施方式的剪枝回路800的第一混合图。该技术用在向后“剪枝”方向上,此处系统100返回到其“监听”状态并等待进一步的更新。更详细的信息将使系统100按照顺序步骤收敛到可管理且人类可接受(human-presentable)的状态。通常,剪枝回路800在深层机器学习子系统600的处理终止之后,删除关键字列表802和监视列表804中已发现不与任何其它概念有连接的所有条目(如概念图806中所描绘)。在剪枝回路800之后,系统进入LISTEN状态,具有要监视的资产的当前知识:WAP FWD、IFE系统和机上购物。
[0070] 图9和图10描绘了根据各种示例的剪枝回路的第二混合图。系统100已从初始事故报告902转变到要监视的资产904。根据一些实施方式,向用户的显示可以类似于右侧的框。要注意的是,初始事故报告902中的句法均不与要监视的资产904中的任何句法完全匹配。
[0071] 图11是根据各种实施方式的方法1100的流程图。例如,方法1000可以由图1的系统100使用参照图12示出并描述的硬件来实现。
[0072] 在方框1102,系统100接收至少一个初始事故报告。该报告可以是如上面参照图1所示出并描述的。初始事故报告可以从电子持久存储装置和/或经由诸如因特网的网络接收。
[0073] 在方框1104,系统100提取关键字。可以如上面参照图3所示出并描述的那样提取关键字。
[0074] 在方框1106,系统100应用浅层机器学习技术。可以如上面参照图4所示出并描述的那样应用浅层机器学习技术。
[0075] 在方框1108,系统100应用深层机器学习技术。可以如上面参照图6所示出并描述的那样应用深层机器学习技术。
[0076] 在方框1110,系统100对受到保护的资产进行仿真。可以如上面参照图7所示出并描述的那样实现仿真。
[0077] 在方框1112,系统100提供输出。输出可以是给人类用户的,或者是给另一计算机系统(例如,配置为自动实现补救措施的系统)的。无论是由人类用户启动还是由系统100响应于其输出而自动启动,补救措施可以包括安装至少一个安全措施、关闭至少一个端口、关闭至少一个资产或者断开至少一个资产。
[0078] 图12是根据各种实施方式的示例硬件实现的示意图。处理器系统1200可以包括不同核配置(包括多个核)和时钟频率的一个或更多个处理器1202。一个或更多个处理器1202可以用于执行指令,应用逻辑等。将理解,这些功能可以由并行操作和/或可通信地链接在一起的单个芯片上的多个处理器或多个核提供。在至少一个实施方式中,一个或更多个处理器1202可以是(或者包括)一个或更多个图形处理单元。
[0079] 处理器系统1200还可以包括存储器系统,其可以是(或者包括)不同物理尺寸、可访问性、存储容量等的一个或更多个存储器装置和/或计算机可读介质1204,例如闪存驱动器、硬盘驱动器、磁盘、随机存取存储器等,以用于存储诸如图像、文件的数据以及用于由处理器1202执行的程序指令。在实施方式中,计算机可读介质1204可以存储指令,所述指令在由处理器1202执行时被配置为使得处理器系统1200执行操作。例如,这些指令的执行可以使得处理器系统1200实现本文所描述的方法的一个或更多个部分和/或实施方式。
[0080] 处理器系统1200还可以包括一个或更多个网络接口1206。网络接口1206可以包括任何硬件、应用和/或其它软件。因此,网络接口1206可以包括以太网适配器、无线收发器、外围组件互连(PCI)接口和/或串行网络组件,以用于使用诸如以太网、无线以太网等的协议经由有线或无线介质通信。
[0081] 处理器系统1200还可以包括一个或更多个外围接口1208,以用于与显示屏、投影仪、键盘、鼠标、触摸板、传感器、其它类型的输入和/或输出外设等通信。在一些实施方式中,处理器系统1200的组件不需要封闭在单个外壳内或者甚至彼此紧邻设置,但是在其它实现方式中,组件和/或其它可以设置在单个外壳中。
[0082] 计算机可读介质1204可以物理地或逻辑地布置或配置为在一个或更多个存储装置1210上存储数据。存储装置1210可以包括任何合适格式的一个或更多个文件系统或数据库。存储装置1210还可以包括一个或更多个软件程序1212,其可以包含用于执行一个或更多个所公开的过程的可解释或可执行指令。当处理器1202请求时,可以从存储装置1210将一个或更多个软件程序1212或其一部分加载到存储器装置1204以由处理器1202执行。
[0083] 本领域技术人员将理解,上述组件仅仅是硬件配置的一个示例,因为处理器系统1200可以包括用于执行所公开的实现方式的任何类型的硬件组件,包括任何必要的随附固件或软件。处理器系统1200还可以部分或全部由诸如专用集成电路(ASIC)或现场可编程门阵列(FPGA)的电子电路组件或处理器实现。
[0084] 此外,本公开包括根据以下条款的实施方式:
[0085] 条款1:一种多个联网资产的先期网络防御的计算机实现的方法,该方法包括以下步骤:接收多个网络事故报告;从所述多个网络事故报告提取关键字;对至少所述关键字以及所述多个联网资产的标识应用浅层机器学习技术以获得易受至少第一威胁场景影响的联网资产的第一子集的标识和第一威胁场景的标识;对至少易受所述第一威胁场景影响的联网资产的第一子集的标识、第一威胁场景的标识、所述关键字以及所述多个联网资产的标识应用深层机器学习技术,以获得易受至少第二威胁场景影响的联网资产的第二子集的标识和第二威胁场景的标识;对所述多个联网资产和第二威胁场景进行仿真以标识经过所述多个联网资产的易受至少第三威胁场景影响的至少一条路径;以及输出经过所述多个联网资产的所述至少一条路径的标识和至少第三威胁场景的标识。
[0086] 条款2:根据条款1所述的方法,该方法还包括:将经过所述多个联网资产的所述至少一条路径的标识和至少第三威胁场景的标识添加到所述多个网络事故报告;将提取、应用浅层机器学习技术、应用深层机器学习技术和仿真重复至少一次,以标识经过所述多个联网资产的易受至少第四威胁场景影响的至少第二路径;以及输出经过所述多个联网资产的至少第二路径的标识和至少第四威胁场景的标识。
[0087] 条款3:根据条款1所述的方法,该方法还包括针对至少第三威胁场景采取补救措施。
[0088] 条款4:根据条款3所述的方法,其中,补救措施包括下列中的至少一个:安装至少一个安全措施、关闭至少一个端口、关闭至少一个资产或者断开至少一个资产。
[0089] 条款5:根据条款1所述的方法,其中,浅层机器学习技术包括最近邻技术。
[0090] 条款6:根据条款1所述的方法,其中,深层机器学习技术包括神经网络技术、关联规则挖掘技术或字嵌入技术。
[0091] 条款7:根据条款1所述的方法,其中,仿真由离散事件仿真(DES)引擎执行。
[0092] 条款8:根据条款1所述的方法,该方法还包括限制通过仿真标识的路径的数量。
[0093] 条款9:根据条款8所述的方法,其中,限制包括下列中的至少一个:删减通过仿真标识的路径的数量,或者限制深层机器学习技术中的级别的数量。
[0094] 条款10:根据条款1所述的方法,其中,从所述多个网络事故报告提取关键字的步骤还包括从所述多个网络事故报告、从至少一个历史异常数据库、从至少一个威胁场景数据库以及从资产数据库提取关键字。
[0095] 条款11:一种用于多个联网资产的先期网络防御的系统,该系统包括至少一个电子处理器,所述至少一个电子处理器被配置为执行以下步骤:接收多个网络事故报告;从所述多个网络事故报告提取关键字;对至少所述关键字以及所述多个联网资产的标识应用浅层机器学习技术以获得易受至少第一威胁场景影响的联网资产的第一子集的标识和第一威胁场景的标识;对至少易受第一威胁场景影响的联网资产的第一子集的标识、第一威胁场景的标识、所述关键字以及所述多个联网资产的标识应用深层机器学习技术,以获得易受至少第二威胁场景影响的联网资产的第二子集的标识和第二威胁场景的标识;对所述多个联网资产和第二威胁场景进行仿真以标识经过所述多个联网资产的易受至少第三威胁场景影响的至少一条路径;以及输出经过所述多个联网资产的所述至少一条路径的标识和至少第三威胁场景的标识。
[0096] 条款12:根据条款11所述的系统,其中,所述至少一个电子处理器还被配置为执行:将经过所述多个联网资产的所述至少一条路径的标识和至少第三威胁场景的标识添加到所述多个网络事故报告;将提取、应用浅层机器学习技术、应用深层机器学习技术和仿真重复至少一次,以标识经过所述多个联网资产的易受至少第四威胁场景影响的至少第二路径;以及输出经过所述多个联网资产的至少第二路径的标识和至少第四威胁场景的标识。
[0097] 条款13:根据条款11所述的系统,其中,所述至少一个电子处理器还被配置为针对至少第三威胁场景采取补救措施。
[0098] 条款14:根据条款13所述的系统,其中,补救措施包括下列中的至少一个:安装至少一个安全措施、关闭至少一个端口、关闭至少一个资产或者断开至少一个资产。
[0099] 条款15:根据条款11所述的系统,其中,浅层机器学习技术包括最近邻技术。
[0100] 条款16:根据条款11所述的系统,其中,深层机器学习技术包括神经网络技术、关联规则挖掘技术或字嵌入技术。
[0101] 条款17:根据条款11所述的系统,其中,仿真由离散事件仿真(DES)引擎执行。
[0102] 条款18:根据条款11所述的系统,其中,所述至少一个电子处理器还被配置为限制通过仿真标识的路径的数量。
[0103] 条款19:根据条款18所述的系统,其中,至少一个电子处理器的限制包括下列中的至少一个:删减通过仿真标识的路径的数量,或者限制深层机器学习技术中的级别的数量。
[0104] 条款20:根据条款11所述的系统,其中,从所述多个网络事故报告提取关键字的步骤还包括从所述多个网络事故报告、从至少一个历史异常数据库、从至少一个威胁场景数据库以及从资产数据库提取关键字。
[0105] 上述某些示例可以使用计算机应用或程序来部分地执行。计算机程序可以以各种形式(活动的和非活动的)存在。例如,计算机程序可以作为一个或更多个软件程序、软件模块或这两者而存在,其可以包括以源代码、目标代码、可执行代码或其它格式的程序指令、固件程序或硬件描述语言(HDL)文件。上述任何项可以以压缩或未压缩形式在计算机可读介质上具体实现,该计算机可读介质可以包括计算机可读存储装置和介质。示例性计算机可读存储装置和介质包括传统计算机系统RAM(随机存取存储器)、ROM(只读存储器)、EPROM(可擦除可编程ROM)、EEPROM(电可擦除可编程ROM)以及磁或光盘或磁带。
[0106] 在不脱离真实精神和范围的情况下,本领域技术人员将能够对所描述的示例进行各种修改。本文所使用的术语和描述仅作为例示阐述,并非意在限制。特别地,尽管已通过示例描述了方法,但是该方法的步骤可以按照与例示不同的顺序执行或同时执行。本领域技术人员将认识到,在所附权利要求及其等同物所限定的精神和范围内,这些和其它变化是可能的。