网络数据的客体抽取方法、装置、电子设备及存储介质转让专利

申请号 : CN202110875253.3

文献号 : CN113315792B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 戚建淮李土裕唐娟刘建辉

申请人 : 深圳市永达电子信息股份有限公司

摘要 :

本发明公开了一种网络数据的客体抽取方法、装置、电子设备及存储介质,涉及计算机信息安全领域,其中网络数据的客体抽取方法包括:获取服务端发送的待检测网络数据;对待检测网络数据进行访问控制,得到合法数据流;对合法数据流进行客体知识特征提取,得到待检测客体特征;根据选取条件从预设的客体特征库中提取出待验证网络数据的待验证客体特征;将待检测客体特征和待验证客体特征进行比对,若待检测客体特征符合待验证客体特征,则获取合法数据流的客体报文数据;对客体报文数据进行分组处理,并抽取出合法数据流的客体数据。上述网络数据的客体抽取方法,能够精准筛选出客体数据,提高识别效率,实现了复杂网络环境中网络数据报文的客体提取。

权利要求 :

1.网络数据的客体抽取方法,其特征在于,包括:获取服务端发送的待检测网络数据;

对所述待检测网络数据进行访问控制,得到合法数据流;

对所述合法数据流进行客体知识特征提取,得到对应于所述合法数据流的待检测客体特征;

根据选取条件从预设的客体特征库中提取出待验证网络数据的待验证客体特征;

将所述待检测客体特征和所述待验证客体特征进行比对,若所述待检测客体特征符合所述待验证客体特征,则获取所述合法数据流的客体报文数据;

读取出所述合法数据流的报文协议数据和业务报文数据;

根据所述报文协议数据和所述业务报文数据对所述客体报文数据进行分组,得到多个类型数据;

分别对多个所述类型数据构造正则表达式生成局部特征;

根据预设顺序合并相同部分和所述局部特征,得到客体数据。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述待检测客体特征不符合所述待验证客体特征,则对所述合法数据流进行放行处理。

3.根据权利要求2所述的方法,其特征在于,在所述对所述合法数据流进行放行处理之后,还包括:

获取所述合法数据流与所述客体特征库的关联关系;

根据所述关联关系对所述合法数据流和所述待检测客体特征进行检测,得到所述合法数据流对应的客体数据。

4.根据权利要求1所述的方法,其特征在于,所述对所述合法数据流进行客体知识特征提取,得到对应于所述合法数据流的待检测客体特征,包括:对所述合法数据流进行命名客体识别,得到命名客体数据;

根据所述命名客体数据对所述合法数据流进行客体关系抽取,得到客体关系数据;

根据所述客体关系数据对所述合法数据流进行属性抽取,得到客体信息;

对所述客体信息进行定位,并进行归类抽象,得到所述待检测客体特征。

5.根据权利要求1所述的方法,其特征在于,所述对所述待检测网络数据进行访问控制,得到合法数据流,包括:

获取预设数据配置;

根据所述预设数据配置对所述待检测网络数据进行访问控制,得到所述合法数据流。

6.根据权利要求1所述的方法,其特征在于,还包括建立所述客体特征库,具体包括:获取样本网络数据流,对所述样本网络数据流进行特征模板提取,得到样本特征标签和样本业务行为;

对所述样本网络数据流和所述样本特征标签使用正则表达式匹配,得到规则字符串;

根据预设会话确认所述样本业务行为之间的业务顺序;

根据所述规则字符串、所述业务顺序和所述样本网络数据流组成所述客体特征库。

7.网络数据的客体抽取装置,其特征在于,包括:获取模块,用于获取服务端发送的待检测网络数据;

访问控制模块,用于对所述待检测网络数据进行访问控制,得到合法数据流;

识别模块,用于对所述合法数据流进行客体知识特征提取,得到对应于所述合法数据流的待检测客体特征;

提取模块,用于根据选取条件从预设的客体特征库中提取出待验证网络数据的待验证客体特征;

比对模块,用于将所述待检测客体特征和所述待验证客体特征进行比对,若所述待检测客体特征符合所述待验证客体特征,则获取所述合法数据流的客体报文数据;

抽取模块,用于读取出所述合法数据流的报文协议数据和业务报文数据,根据所述报文协议数据和所述业务报文数据对所述客体报文数据进行分组,得到多个类型数据,分别对多个所述类型数据构造正则表达式生成局部特征,根据预设顺序合并相同部分和所述局部特征,得到客体数据。

8.电子设备,其特征在于,包括:至少一个处理器,以及,

与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述指令时实现如权利要求1至6任一项所述的网络数据的客体抽取方法。

9.计算机可读存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至6任一项所述的网络数据的客体抽取方法。

说明书 :

网络数据的客体抽取方法、装置、电子设备及存储介质

技术领域

[0001] 本发明涉及计算机信息安全领域,尤其是涉及一种网络数据的客体抽取方法、装置、电子设备及存储介质。

背景技术

[0002] 随着互联网的不断发展,网络服务的种类也越来越丰富,伴随着信息化网络带来的方便快捷的同时,信息的安全问题成为企业发展面临的主要问题。
[0003] 对网络中的客体进行分类抽取,是网络安全等级保护中研究的重要部分,而由于数据类型的多样性,在实际的研究工作中研究者常常难以对客体进行精准的类别鉴定。在
传统的分类方式中,主要是靠人工进行客体的指定,通常是通过根据上线的设备功能特征
来进行识别。但由于网络设备种类繁多,通过人工进行分类识别,费时费力,而且准确度差。
目前采用自动客体抽取的方法较少,较为典型的是方法提取客体的功能特征,通过这些特
征来识别客体的种类。但由于在复杂的网络环境中,客体间存在相似特征,同种类客体间存
在差异,这些都容易导致在网络中识抽取客体时的误判。

发明内容

[0004] 本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明实施例提出一种网络数据的客体抽取方法,能够精准筛选出客体数据,提高识别效率,实现了复杂网络
环境中网络数据报文的客体提取。
[0005] 本发明实施例还提出一种网络数据的客体抽取装置。
[0006] 本发明实施例还提出一种电子设备。
[0007] 本发明实施例还提出一种计算机可读存储介质。
[0008] 根据本发明的第一方面实施例的网络数据的客体抽取方法,包括:
[0009] 获取服务端发送的待检测网络数据;
[0010] 对所述待检测网络数据进行访问控制,得到合法数据流;
[0011] 对所述合法数据流进行客体知识特征提取,得到对应于所述合法数据流的待检测客体特征;
[0012] 根据选取条件从预设的客体特征库中提取出待验证网络数据的待验证客体特征;
[0013] 将所述待检测客体特征和所述待验证客体特征进行比对,若所述待检测客体特征符合所述待验证客体特征,则获取所述合法数据流的客体报文数据;
[0014] 对所述客体报文数据进行分组处理,并抽取出所述合法数据流的客体数据。
[0015] 根据本发明第一方面实施例的网络数据的客体抽取方法,至少具有如下有益效果:通过对待检测网络数据进行访问控制,对得到的合法数据流进行客体知识特征提取,得
到待检测客体特征,然后根据选取条件从预设的客体特征库中提取出待验证网络数据的待
验证客体特征,再将待检测客体特征和待验证客体特征进行比对,若待检测客体特征满足
特征,则获取待检测网络数据的客体报文数据,最后对客体报文数据进行分组处理,并抽取
出待检测网络数据的客体数据,能够精准筛选出客体数据,提高识别效率,实现了复杂网络
环境中网络数据报文的客体提取。
[0016] 根据本发明的一些实施例,所述方法还包括:若所述待检测客体特征不符合所述待验证客体特征,则对所述合法数据流进行放行处理。
[0017] 根据本发明的一些实施例,在所述对所述合法数据流进行放行处理之后,还包括:获取所述合法数据流与所述客体特征库的关联关系;根据所述关联关系对所述合法数据流
和所述待检测客体特征进行检测,得到所述合法数据流对应的客体数据。
[0018] 根据本发明的一些实施例,所述对所述客体报文数据进行分组处理,并抽取出所述合法数据流的客体数据,包括:读取出所述合法数据流的报文协议数据和业务报文数据;
根据所述报文协议数据和所述业务报文数据对所述客体报文数据进行分组,得到多个类型
数据;分别对多个所述类型数据构造正则表达式生成局部特征;根据预设顺序合并相同部
分和所述局部特征,得到所述客体数据。
[0019] 根据本发明的一些实施例,所述对所述合法数据流进行客体知识特征提取,得到对应于所述合法数据流的待检测客体特征,包括:对所述合法数据流进行命名客体识别,得
到命名客体数据;根据所述命名客体数据对所述合法数据流进行客体关系抽取,得到客体
关系数据;根据所述客体关系数据对所述合法数据流进行属性抽取,得到客体信息;对所述
客体信息进行定位,并进行归类抽象,得到所述待检测客体特征。
[0020] 根据本发明的一些实施例,所述对所述待检测网络数据进行访问控制,得到合法数据流,包括:获取预设数据配置;根据所述预设数据配置对所述待检测网络数据进行访问
控制,得到所述合法数据流。
[0021] 根据本发明的一些实施例,还包括建立所述客体特征库,具体包括:还包括建立所述客体特征库,具体包括:获取样本网络数据流,对所述样本网络数据流进行特征模板提
取,得到样本特征标签和样本业务行为;对所述样本网络数据流和所述样本特征标签使用
正则表达式匹配,得到规则字符串;根据预设会话确认所述样本业务行为之间的业务顺序;
根据所述规则字符串、所述业务顺序和所述样本网络数据流组成所述客体特征库。
[0022] 根据本发明的第二方面实施例的网络数据的客体抽取装置,包括:
[0023] 获取模块,用于获取服务端发送的待检测网络数据;
[0024] 访问控制模块,用于对所述待检测网络数据进行访问控制,得到合法数据流;
[0025] 识别模块,用于对所述合法数据流进行客体知识特征提取,得到对应于所述合法数据流的待检测客体特征;
[0026] 提取模块,用于根据选取条件从预设的客体特征库中提取出待验证网络数据的待验证客体特征;
[0027] 比对模块,用于将所述待检测客体特征和所述待验证客体特征进行比对,若所述待检测客体特征符合所述待验证客体特征,则获取所述合法数据流的客体报文数据;
[0028] 抽取模块,用于对所述客体报文数据进行分组处理,并抽取出所述合法数据流的客体数据。
[0029] 根据本发明第二方面实施例的网络数据的客体抽取装置,至少具有如下有益效果:通过执行本发明第一方面实施例的网络数据的客体抽取方法,能够精准筛选出客体数
据,提高识别效率,实现了复杂网络环境中网络数据报文的客体提取。
[0030] 根据本发明第三方面实施例的电子设备,包括:至少一个处理器,以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有指令,所述指令被所述至少一个
处理器执行,以使所述至少一个处理器执行所述指令时实现第一方面所述的网络数据的客
体抽取方法。
[0031] 根据本发明第三方面实施例的电子设备,至少具有如下有益效果:通过执行本发明第一方面实施例的网络数据的客体抽取方法,能够精准筛选出客体数据,提高识别效率,
实现了复杂网络环境中网络数据报文的客体提取。
[0032] 根据本发明第四方面实施例的计算机可读存储介质,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行第一方面所述的网络数据的客体抽
取方法。
[0033] 根据本发明第四方面实施例的计算机可读存储介质,至少具有如下有益效果:通过执行本发明第一方面实施例的网络数据的客体抽取方法,能够精准筛选出客体数据,提
高识别效率,实现了复杂网络环境中网络数据报文的客体提取。
[0034] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

[0035] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0036] 图1为本发明实施例的网络数据的客体抽取方法的流程示意图;
[0037] 图2为本发明实施例的类脑计算平台的结构示意图;
[0038] 图3为本发明实施例的网络数据的客体抽取装置的结构示意图;
[0039] 图4为本发明实施例的电子设备的功能模块图。
[0040] 附图标记:
[0041] 获取模块300、访问控制模块310、识别模块320、提取模块330、比对模块340、抽取模块350、处理器400、存储器410、数据传输模块420、摄像头430、显示屏440。

具体实施方式

[0042] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0043] 本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体
含义。
[0044] 对网络中的客体进行分类抽取,是网络安全等级保护中研究的重要部分,而由于数据类型的多样性,在实际的研究工作中研究者常常难以对客体进行精准的类别鉴定。在
传统的分类方式中,主要是靠人工进行客体的指定,通常是通过根据上线的设备功能特征
来进行识别。但由于网络设备种类繁多,通过人工进行分类识别,费时费力,而且准确度差。
目前采用自动客体抽取的方法较少,较为典型的是方法提取客体的功能特征,通过这些特
征来识别客体的种类。但由于在复杂的网络环境中,客体间存在相似特征,同种类客体间存
在差异,这些都容易导致在网络中识抽取客体时的误判。
[0045] 基于此,本发明实施例提出一种网络数据的客体抽取方法、装置、电子设备及存储介质,能够精准筛选出客体数据,提高识别效率,实现了复杂网络环境中网络数据报文的客
体提取。
[0046] 参照图1,根据本发明第一方面实施例提出的网络数据的客体抽取方法,包括:
[0047] 步骤S100,获取服务端发送的待检测网络数据。
[0048] 其中,待检测网络数据是由服务端发送的网络数据报文,以通过服务端发送的待检测网络数据进行客体抽取以得到客体数据。其中,通过服务端发送的网络数据包以获取
接入新的网络数据包,即得到待检测网络数据。待检测网络数据可以包括结构化数据、半结
构化数据和非结构化数据。
[0049] 步骤S110,对待检测网络数据进行访问控制,得到合法数据流。
[0050] 可选的,可以由授权客体配置访问控制策略,访问控制策略规定客体对客体的访问规则,网络安全中的访问控制规则是处理客体对客体访问权限设置的合法性问题,可以
对待检测网络数据中的用户ip、端口类型、协议等进行配置,判断其合法性。对于符合上述
配置的待检测网络数据可以作为合法数据流进行进一步特征提取;对于不符合上述配置的
待检测网络数据则不进行特征提取。
[0051] 步骤S120,对合法数据流进行客体知识特征提取,得到对应于合法数据流的待检测客体特征。
[0052] 其中,待检测客体特征可以是合法数据流的客体抽象特征;命名客体识别可以是对合法数据流中的半结构化数据和非结构化数据进行信息抽取;客体关系抽取又称关系分
类,即对合法数据流中客体之间的关系进行分类;属性抽取可以是对客体和关系进行属性
的抽取。可选的,客体特征提取的粒度主要体现为文件、数据库表级。在采集得到合法数据
流后需要进行相应的数据操作,在对合法数据流进行数据操作的关键部分是知识抽取,对
合法数据流的知识抽取主要包括三个步骤:命名客体识别、客体关系抽取和属性抽取,通过
上述方式提取出合法数据流的客体知识特征,进而可以对合法数据流客体信息进行定位,
并进行归类抽象,得到合法数据流的客体抽象特征,即得到待检测客体特征。参照图2,可以
通过图2所示的类脑计算平台计为客体知识特征的提取、建立客体特征库提供算力,由于业
务系统的工作流程和流程状态数量和转换的复杂性,为了达到实时筛选和分析效果,并不
干扰系统业务的进行,需要大算力平台的支撑。类脑计算机系统采用计算、存储、通信一体
化的并行计算超立方体架构体系,具有超级的计算能力,同时兼具方便部署和安装的特色,
可以为在复杂网络环境中捕获分析众多的网络数据包构建数据客体特征库提供大计算力。
类脑计算机系统采用计算、存储、通信一体化的并行计算超立方体架构体系,借鉴人脑信息
处理方式,仿真、模拟和学习借鉴人脑的神经系统结构和信息处理方式,并构建出具有学习
能力的超低功耗型新型计算系统,为海量用户访问操作,状态机检测,数据流识别并判断提
供强大算力,达到数据分析与抽取的目的。
[0053] 步骤S120,根据选取条件从预设的客体特征库中提取出待验证网络数据的待验证客体特征。
[0054] 可选的,选取条件可以根据需求设置;客体特征库可以是预先设置的存储有网络数据包的客体特征的数据库;待验证网络数据可以是客体特征库中存储的网络数据报文;
待验证客体特征可以是待验证网络数据的抽象特征。可选的,可以通过确认不同客体特征
之间的联系,将多个网络数据包及其客体特征组成客体特征库。为验证合法数据流的抽象
特征,可以从客体特征库中提取出预先存储的待验证网络数据,并提取出其对应的抽象特
征,抽象特征可以包括但不限于:TCP协议,客票TDS协议,客票服务监听端口等,得到待验证
客体特征与待检测客体特征进行比对分析。
[0055] 步骤S130,将待检测客体特征和待验证客体特征进行比对,若待检测客体特征符合待验证客体特征,则获取合法数据流的客体报文数据。
[0056] 其中,客体报文数据可以包括合法数据流的报文协议头部分与业务报文公共部分。可选的,可以将合法数据流的待检测客体特征与待验证客体特征进行比对,判断待检测
客体特征是否满足特征。在一些具体的实施例中,若待验证客体特征为指定数据包地址及
端口,则去除不符合指定地址及端口外的所有合法数据流,只保留符合指定地址及端口的
合法数据流;若待验证客体特征指定传输协议,则去除不符合指定协议外的合法数据流,只
保留符合指定协议的合法数据流。例如,设待验证客体特征为TCP协议,TCP数据包的特征信
息为结构,16位的源目的端口,数据序号32位,确认序32位,偏移位,保留位等等这些特征。
若抽取的待检测客体特征符合上述特征信息时,如满足指定数据包地址及端口的相应特征
要求,则保留满足指定地址及端口的合法数据流,对满足特征条件的合法数据流进行放行,
将合法数据流正常发往目的服务端,即将符合待验证客体特征的待检测网络数据流交由客
票系统继续分析处理,以提取客体信息和深度分析。
[0057] 步骤S140,对客体报文数据进行分组处理,并抽取出合法数据流的客体数据。
[0058] 其中,客体数据可以包括合法数据流的源地址和净载数据,净载数据即合法数据流的数据内容。可选的,对满足特征的合法数据流,可以根据图2所示的类脑计算算法平台
对其进行关键信息定位、深度分析和客体抽取,以及指数级的数据包过滤功能(指数级过滤
由类脑平台支撑完成)。具体的,可以读取合法数据流的客体报文数据,包括报文协议头部
分与业务报文公共部分,并对客体报文数据进行分组,划分出不同类型,不同类型分别构造
正则表达式生成局部特征,再按顺序合并相同部分和局部特征,得到客体的报文特征,例
如,客体的业务报文可能是:响应id|客体参数1|客体参数2...其中,请求id可以是合法数
据流的源地址,客体参数1、客体参数2等可以是净载数据,从而提取出客体数据。在一些具
体的实施例中,客体关系是相对于主体而言,主体与客体是由什么构成,又是如何发生联系
的。通过大量的数据分析和特征分析,可以构建和把握主客体的关系。
[0059] 上述网络数据的客体数据抽取方法,通过对待检测网络数据进行访问控制,对得到的合法数据流进行客体知识特征提取,得到待检测客体特征,然后根据选取条件从预设
的客体特征库中提取出待验证网络数据的待验证客体特征,再将待检测客体特征和待验证
客体特征进行比对,若待检测客体特征满足特征,则获取待检测网络数据的客体报文数据,
最后对客体报文数据进行分组处理,并抽取出待检测网络数据的客体数据,能够精准筛选
出客体数据,提高识别效率,实现了复杂网络环境中网络数据报文的客体提取。
[0060] 在本发明一些实施例中,网络数据的客体抽取方法还包括:
[0061] 若待检测客体特征不符合待验证客体特征,则对合法数据流进行放行处理。可选的,若待检测客体特征不符合待验证客体特征,例如待检测客体特征为UDP的报文,而待验
证客体特征为TCP数据包,合法数据流不符合特征要求,则可以对不符合待验证客体特征的
合法数据流进行放行处理,即根据业务系统的配置,筛选出放行的业务数据包。具体的,如
图2所示,特征比较存在多个节点,数据流到达入口时,先经过一级节点的比较筛选,满足条
件后数据流到达下一级节点。每级节点都会对数据流的一些特征进行分析判断,比如是否
满足TCP包特征,是否满足HTTP协议、TDS协议等特征,满足白名单特征的数据流放行,满足
黑名单特征的数据流丢弃或拦截。
[0062] 在本发明的一些实施例中,在对合法数据流进行放行处理之后,还包括:
[0063] 获取合法数据流与客体特征库的关联关系。其中,关联关系可以是合法数据流的特征链及客体特征库之间的关联关系。可选的,关联关系是指特征之间的关联,比如TCP数
据包中SYN,ACK字段与数据发送的关联。在TCP协议中,为了确保数据能稳定发送,协议中使
用数据包中的SYN,ACK两个字段来监控数据是否正确发送和接收。可以通过分析知识库中
的客体特征,整理学习各个报文之间的关联关系。
[0064] 根据关联关系对合法数据流和待检测客体特征进行检测,得到合法数据流对应的客体数据。可选的,如图2所示,出口节点会对满足条件的数据做相应处理,满足白名单特征
的数据流放行,满足黑名单特征的数据流丢弃或拦截,同时会对特征库以外的数据流(即放
行的数据流)进行特征取样并加入特征库中。具体的,可以根据合法数据流的特征链及客体
特征库之间的关联关系,同步检测合法数据流与数据流特征,提取合法数据流中相应的客
体内容,即得到客体数据。通过对不满足特征的合法数据流进行放行处理,并根据合法数据
流与客体特征库之间的关联关系检测出合法数据流对应的客体数据,可以对放行的数据包
另行提取分析,得到客体数据,提高效率。
[0065] 在本发明的一些实施例中,对客体报文数据进行分组处理,并抽取出合法数据流的客体数据,包括:
[0066] 读取出合法数据流的报文协议数据和业务报文数据。其中,报文协议数据和业务报文数据可以是合法数据流的报文协议头部分与业务报文公共部分,设客体报文数据中的
客体业务报文公共部分的格式可以为:客体的业务报文可能是:响应id|客体参数1|客体参
数2...
[0067] 根据报文协议数据和业务报文数据对客体报文数据进行分组,得到多个类型数据。其中,类型数据可以是对合法数据流的客体报文数据进行分组后所得的不同类型的数
据。可选的,合法数据流的客体报文数据可以包括报文协议头部分与业务报文公共部分,客
体报文数据中的业务报文公共部分的格式可以为:响应id|客体参数1|客体参数2……可以
对上述客体报文数据按照需求进行分组,划分出不同类型的数据,即得到多个类型数据。
[0068] 分别对多个类型数据构造正则表达式生成局部特征。其中,正则表达式又称规则表达式,正则表达式用来于检索、替换符合某个模式(规则)的文本;局部特征可以是每个类
型数据对应的特征。可选的,对于不同类型的类型数据,可以分别构造正则表达式生成局部
特征,即生成每个类型数据对应的局部特征。
[0069] 根据预设顺序合并相同部分和局部特征,得到客体数据。其中,预设顺序可以是预先设置的合并局部特征的顺序。可选的,预设顺序可以按照需求设置,可以按照预设顺序合
并相同部分和局部特征,得到报文特征,从而提取出客体数据。通过将客体报文数据进行分
组,得到多个类型数据,再分别对多个类型数据构造正则表达式生成局部特征,最后按照预
设顺序合并相同部分和局部特征,得到客体数据,利用深度学习方法来对合法数据流中的
客体进行分类抽取,不但可以提高效率,而且兼具准确性,可有效节约时间与资源。
[0070] 在本发明的一些实施例中,对合法数据流进行客体知识特征提取,得到对应于合法数据流的待检测客体特征,包括:
[0071] 对合法数据流进行命名客体识别,得到命名客体数据。可选的,命名客体识别是对半结构化数据和非机构化数据进行信息抽取的第一步,往往客体是信息的主要载体。客体
可以是人、地名等事物,也可以是某个概念。可以通过字符串匹配或人工操作等方式将需要
的客体提取出,随后可以通过自然语言处理和机器学习方式进行客体提取,得到命名客体
信息。
[0072] 根据命名客体数据对合法数据流进行客体关系抽取,得到客体关系数据。可选的,客体关系抽取又称关系分类,为了确定“客体—关系—客体”三元组,需要对客体之间的关
系进行分类,即语义信息的提取。在一些具体的实施例中,根据命名客体数据,通过特征工
程对含有具有关系的两个客体的句子进行关系标注,实现监督学习,在一定程度上提高了
模型的精准度。
[0073] 根据客体关系数据对合法数据流进行属性抽取,得到客体信息。可选的,在根据客体关系数据构建起“客体—关系—客体”三元组后,需要对客体和关系进行属性的抽取,属
性抽取可以直接通过网络获取,同时也可以将属性视为客体关系。
[0074] 对客体信息进行定位,并进行归类抽象,得到待检测客体特征。可选的,可以根据用户需要提取的客体数据特征,对合法数据流的客体信息进行定位,并进行归类抽象,即对
合法数据流进行特征分析,得到合法数据流的抽象特征,即得到待检测客体特征,可以由图
2所示的类脑计算平台为合法数据流的特征分析供算力支持。通过对合法数据流进行特征
提取,然后再对合法数据流进行定位和归类抽象,得到待检测客体特征,非监督式或半监督
式的特征学习和分层特征提取高效算法来替代手工获取特征,实现了复杂网络环境中网络
数据报文的客体提取。
[0075] 在本发明的一些实施例中,对待检测网络数据进行访问控制,得到合法数据流,包括:
[0076] 获取预设数据配置。其中,预设数据配置可以是对待检测网络数据预先设置的相关配置。可选的,预设数据配置可以根据需求设置,例如,预设数据配置可以是预先设置的
用户ip信息、端口类型或协议等配置。
[0077] 根据预设数据配置对待检测网络数据进行访问控制,得到合法数据流。可选的,可以通过预设数据配置对待检测网络数据进行筛选,例如,假设预设数据配置为用户ip信息、
端口类型或协议等配置,若待检测网络数据满足上述配置,则将其作为合法数据流进行进
一步特征分析;若待检测数据不满足上述配置,则待检测网络数据的合法性不符合预设需
求,因此无需对该待检测数据进行进一步的特征提取,可以重新获取新的待检测网络数据
进行访问控制。通过预设数据配置对待检测网络数据进行访问控制,只允许合法数据流进
行进一步的特征提取,可以筛选出符合需求的合法数据流。
[0078] 在本发明的一些实施例中,还包括建立客体特征库,具体包括:
[0079] 获取样本网络数据流,对样本网络数据流进行特征模板提取,得到样本特征标签和样本业务行为。其中,样本网络数据流可以是预先筛选的满足合法条件的数据流(即白名
单上的数据流);样本特征标签和样本业务行为可以是对应于样本网络数据流的标签数据
资料和业务行为数据资料。可选的,若预设条件为对数据流的用户ip,端口,协议等配置,则
将符合上述配置的数据流作为合法数据流,去除不符合上述配置的数据流。可以根据样本
特征标签和样本业务行为生成样本网络数据流对应的样本特征链,以构建客体特征库。
[0080] 对样本网络数据流和样本特征标签使用正则表达式匹配,得到规则字符串。其中,规则字符串可以用来表达对字符串的一种过滤逻辑。可选的,可以对请求的样本网络数据
流进行特征模版提取,进而对提取结果使用正则表达式匹配,正则表达式是对样本网络数
据流和样本特征标签操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特
定字符的组合,组成规则字符串,用于描述客体特征库的过滤逻辑。
[0081] 根据预设会话确认样本业务行为之间的业务顺序。其中,预设会话可以是预先设置的一种面向连接的可靠通信方式。可选的,可以通过会话确认样本业务行为之间的先后
顺序关系,即得到业务顺序,用于描述客体特征库中的数据排列情况。
[0082] 根据规则字符串、业务顺序和样本网络数据流组成客体特征库。可选的,可以根据用于描述客体特征库的过滤逻辑的规则字符串、用于描述客体特征库中的数据排列情况的
业务顺序,将样本网络数据流及其对应的样本特征标签和样本业务行为导入客体特征库
中,构建客体特征库。可以通过图2所示的类脑计算平台为特征提取进行算力支持。通过样
本网络数据流构建客体特征库,可实现数据实体内容的准确比对与获取,达到数据分析与
抽取的目的。
[0083] 参照图3,根据本发明第二方面实施例的网络数据的客体抽取装置,包括:
[0084] 获取模块300,用于获取服务端发送的待检测网络数据;
[0085] 访问控制模块310,用于对待检测网络数据进行访问控制,得到合法数据流;
[0086] 识别模块320,用于对合法数据流进行客体知识特征提取,得到对应于合法数据流的待检测客体特征;
[0087] 提取模块330,用于根据选取条件从预设的客体特征库中提取出待验证网络数据的待验证客体特征;
[0088] 比对模块340,用于将待检测客体特征和待验证客体特征进行比对,若待检测客体特征符合待验证客体特征,则获取合法数据流的客体报文数据;
[0089] 抽取模块350,用于对客体报文数据进行分组处理,并抽取出合法数据流的客体数据。
[0090] 上述网络数据的客体抽取装置,通过执行本发明第一方面实施例的网络数据的客体抽取方法,能够精准筛选出客体数据,提高识别效率,实现了复杂网络环境中网络数据报
文的客体提取。
[0091] 参照图4,本发明第三方面实施例还提供了一种电子设备的功能模块图,包括:至少一个处理器400,以及与至少一个处理器400通信连接的存储器410;还可以包括数据传输
模块420、摄像头430、显示屏440。
[0092] 其中,处理器400通过调用存储器410中存储的计算机程序,用于执行第一方面实施例中的网络数据的客体抽取方法。
[0093] 数据传输模块420通过与处理器400连接,用于实现数据传输模块420与处理器400之间的数据交互。
[0094] 摄像头430可以包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主
摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像
头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual 
Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头430还可以
包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光
闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0095] 显示屏440可用于显示由用户输入的信息或提供给用户的信息。显示屏440可包括显示面板,可选的,可以采用液晶显示器(Liquid Crystal Display,简称LCD)、有机发光二
极管(Organic Light‑Emitting Diode,简称OLED)等形式来配置显示面板。进一步的,触控
面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器400以
确定触摸事件的类型,随后处理器400根据触摸事件的类型在显示面板上提供相应的视觉
输出。在某些实施例中,可以将触控面板与显示面板集成而实现输入和输出功能。
[0096] 存储器作为一种非暂态存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本发明第一方面实施例中的网络数据的客体抽取方法。处理器通过运行
存储在存储器中的非暂态软件程序以及指令,从而实现上述第一方面实施例中的网络数据
的客体抽取方法。
[0097] 存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储执行上述第一方面实施例中的网络数据
的客体抽取方法。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,
例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,
存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该
终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0098] 实现上述第一方面实施例中的网络数据的客体抽取方法所需的非暂态软件程序以及指令存储在存储器中,当被一个或者多个处理器执行时,执行上述第一方面实施例中
的网络数据的客体抽取方法。
[0099] 本发明第四方面实施例还提供了计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于:执行第一方面实施例中的网络数据的客体抽取方法。
[0100] 在一些实施例中,该存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,例如,被第三方面实施例的电子设备中的一个处理器执行,可
使得上述一个或多个处理器执行上述第一方面实施例中的网络数据的客体抽取方法。
[0101] 上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作
出各种变化。
[0102] 以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。
可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0103] 本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为
由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或
者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机
可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领
域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、
数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和
不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、
CD‑ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或
者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通
技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波
或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0104] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结
构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的
示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特
点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0105] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本
发明的范围由权利要求及其等同物限定。