网络数据的客体抽取方法、装置、电子设备及存储介质转让专利
申请号 : CN202110875253.3
文献号 : CN113315792B
文献日 : 2021-11-30
发明人 : 戚建淮 , 李土裕 , 唐娟 , 刘建辉
申请人 : 深圳市永达电子信息股份有限公司
摘要 :
权利要求 :
1.网络数据的客体抽取方法,其特征在于,包括:获取服务端发送的待检测网络数据;
对所述待检测网络数据进行访问控制,得到合法数据流;
对所述合法数据流进行客体知识特征提取,得到对应于所述合法数据流的待检测客体特征;
根据选取条件从预设的客体特征库中提取出待验证网络数据的待验证客体特征;
将所述待检测客体特征和所述待验证客体特征进行比对,若所述待检测客体特征符合所述待验证客体特征,则获取所述合法数据流的客体报文数据;
读取出所述合法数据流的报文协议数据和业务报文数据;
根据所述报文协议数据和所述业务报文数据对所述客体报文数据进行分组,得到多个类型数据;
分别对多个所述类型数据构造正则表达式生成局部特征;
根据预设顺序合并相同部分和所述局部特征,得到客体数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述待检测客体特征不符合所述待验证客体特征,则对所述合法数据流进行放行处理。
3.根据权利要求2所述的方法,其特征在于,在所述对所述合法数据流进行放行处理之后,还包括:
获取所述合法数据流与所述客体特征库的关联关系;
根据所述关联关系对所述合法数据流和所述待检测客体特征进行检测,得到所述合法数据流对应的客体数据。
4.根据权利要求1所述的方法,其特征在于,所述对所述合法数据流进行客体知识特征提取,得到对应于所述合法数据流的待检测客体特征,包括:对所述合法数据流进行命名客体识别,得到命名客体数据;
根据所述命名客体数据对所述合法数据流进行客体关系抽取,得到客体关系数据;
根据所述客体关系数据对所述合法数据流进行属性抽取,得到客体信息;
对所述客体信息进行定位,并进行归类抽象,得到所述待检测客体特征。
5.根据权利要求1所述的方法,其特征在于,所述对所述待检测网络数据进行访问控制,得到合法数据流,包括:
获取预设数据配置;
根据所述预设数据配置对所述待检测网络数据进行访问控制,得到所述合法数据流。
6.根据权利要求1所述的方法,其特征在于,还包括建立所述客体特征库,具体包括:获取样本网络数据流,对所述样本网络数据流进行特征模板提取,得到样本特征标签和样本业务行为;
对所述样本网络数据流和所述样本特征标签使用正则表达式匹配,得到规则字符串;
根据预设会话确认所述样本业务行为之间的业务顺序;
根据所述规则字符串、所述业务顺序和所述样本网络数据流组成所述客体特征库。
7.网络数据的客体抽取装置,其特征在于,包括:获取模块,用于获取服务端发送的待检测网络数据;
访问控制模块,用于对所述待检测网络数据进行访问控制,得到合法数据流;
识别模块,用于对所述合法数据流进行客体知识特征提取,得到对应于所述合法数据流的待检测客体特征;
提取模块,用于根据选取条件从预设的客体特征库中提取出待验证网络数据的待验证客体特征;
比对模块,用于将所述待检测客体特征和所述待验证客体特征进行比对,若所述待检测客体特征符合所述待验证客体特征,则获取所述合法数据流的客体报文数据;
抽取模块,用于读取出所述合法数据流的报文协议数据和业务报文数据,根据所述报文协议数据和所述业务报文数据对所述客体报文数据进行分组,得到多个类型数据,分别对多个所述类型数据构造正则表达式生成局部特征,根据预设顺序合并相同部分和所述局部特征,得到客体数据。
8.电子设备,其特征在于,包括:至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述指令时实现如权利要求1至6任一项所述的网络数据的客体抽取方法。
9.计算机可读存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至6任一项所述的网络数据的客体抽取方法。
说明书 :
网络数据的客体抽取方法、装置、电子设备及存储介质
技术领域
背景技术
传统的分类方式中,主要是靠人工进行客体的指定,通常是通过根据上线的设备功能特征
来进行识别。但由于网络设备种类繁多,通过人工进行分类识别,费时费力,而且准确度差。
目前采用自动客体抽取的方法较少,较为典型的是方法提取客体的功能特征,通过这些特
征来识别客体的种类。但由于在复杂的网络环境中,客体间存在相似特征,同种类客体间存
在差异,这些都容易导致在网络中识抽取客体时的误判。
发明内容
环境中网络数据报文的客体提取。
到待检测客体特征,然后根据选取条件从预设的客体特征库中提取出待验证网络数据的待
验证客体特征,再将待检测客体特征和待验证客体特征进行比对,若待检测客体特征满足
特征,则获取待检测网络数据的客体报文数据,最后对客体报文数据进行分组处理,并抽取
出待检测网络数据的客体数据,能够精准筛选出客体数据,提高识别效率,实现了复杂网络
环境中网络数据报文的客体提取。
和所述待检测客体特征进行检测,得到所述合法数据流对应的客体数据。
根据所述报文协议数据和所述业务报文数据对所述客体报文数据进行分组,得到多个类型
数据;分别对多个所述类型数据构造正则表达式生成局部特征;根据预设顺序合并相同部
分和所述局部特征,得到所述客体数据。
到命名客体数据;根据所述命名客体数据对所述合法数据流进行客体关系抽取,得到客体
关系数据;根据所述客体关系数据对所述合法数据流进行属性抽取,得到客体信息;对所述
客体信息进行定位,并进行归类抽象,得到所述待检测客体特征。
控制,得到所述合法数据流。
取,得到样本特征标签和样本业务行为;对所述样本网络数据流和所述样本特征标签使用
正则表达式匹配,得到规则字符串;根据预设会话确认所述样本业务行为之间的业务顺序;
根据所述规则字符串、所述业务顺序和所述样本网络数据流组成所述客体特征库。
据,提高识别效率,实现了复杂网络环境中网络数据报文的客体提取。
处理器执行,以使所述至少一个处理器执行所述指令时实现第一方面所述的网络数据的客
体抽取方法。
实现了复杂网络环境中网络数据报文的客体提取。
取方法。
高识别效率,实现了复杂网络环境中网络数据报文的客体提取。
附图说明
具体实施方式
图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
含义。
传统的分类方式中,主要是靠人工进行客体的指定,通常是通过根据上线的设备功能特征
来进行识别。但由于网络设备种类繁多,通过人工进行分类识别,费时费力,而且准确度差。
目前采用自动客体抽取的方法较少,较为典型的是方法提取客体的功能特征,通过这些特
征来识别客体的种类。但由于在复杂的网络环境中,客体间存在相似特征,同种类客体间存
在差异,这些都容易导致在网络中识抽取客体时的误判。
体提取。
接入新的网络数据包,即得到待检测网络数据。待检测网络数据可以包括结构化数据、半结
构化数据和非结构化数据。
对待检测网络数据中的用户ip、端口类型、协议等进行配置,判断其合法性。对于符合上述
配置的待检测网络数据可以作为合法数据流进行进一步特征提取;对于不符合上述配置的
待检测网络数据则不进行特征提取。
类,即对合法数据流中客体之间的关系进行分类;属性抽取可以是对客体和关系进行属性
的抽取。可选的,客体特征提取的粒度主要体现为文件、数据库表级。在采集得到合法数据
流后需要进行相应的数据操作,在对合法数据流进行数据操作的关键部分是知识抽取,对
合法数据流的知识抽取主要包括三个步骤:命名客体识别、客体关系抽取和属性抽取,通过
上述方式提取出合法数据流的客体知识特征,进而可以对合法数据流客体信息进行定位,
并进行归类抽象,得到合法数据流的客体抽象特征,即得到待检测客体特征。参照图2,可以
通过图2所示的类脑计算平台计为客体知识特征的提取、建立客体特征库提供算力,由于业
务系统的工作流程和流程状态数量和转换的复杂性,为了达到实时筛选和分析效果,并不
干扰系统业务的进行,需要大算力平台的支撑。类脑计算机系统采用计算、存储、通信一体
化的并行计算超立方体架构体系,具有超级的计算能力,同时兼具方便部署和安装的特色,
可以为在复杂网络环境中捕获分析众多的网络数据包构建数据客体特征库提供大计算力。
类脑计算机系统采用计算、存储、通信一体化的并行计算超立方体架构体系,借鉴人脑信息
处理方式,仿真、模拟和学习借鉴人脑的神经系统结构和信息处理方式,并构建出具有学习
能力的超低功耗型新型计算系统,为海量用户访问操作,状态机检测,数据流识别并判断提
供强大算力,达到数据分析与抽取的目的。
待验证客体特征可以是待验证网络数据的抽象特征。可选的,可以通过确认不同客体特征
之间的联系,将多个网络数据包及其客体特征组成客体特征库。为验证合法数据流的抽象
特征,可以从客体特征库中提取出预先存储的待验证网络数据,并提取出其对应的抽象特
征,抽象特征可以包括但不限于:TCP协议,客票TDS协议,客票服务监听端口等,得到待验证
客体特征与待检测客体特征进行比对分析。
客体特征是否满足特征。在一些具体的实施例中,若待验证客体特征为指定数据包地址及
端口,则去除不符合指定地址及端口外的所有合法数据流,只保留符合指定地址及端口的
合法数据流;若待验证客体特征指定传输协议,则去除不符合指定协议外的合法数据流,只
保留符合指定协议的合法数据流。例如,设待验证客体特征为TCP协议,TCP数据包的特征信
息为结构,16位的源目的端口,数据序号32位,确认序32位,偏移位,保留位等等这些特征。
若抽取的待检测客体特征符合上述特征信息时,如满足指定数据包地址及端口的相应特征
要求,则保留满足指定地址及端口的合法数据流,对满足特征条件的合法数据流进行放行,
将合法数据流正常发往目的服务端,即将符合待验证客体特征的待检测网络数据流交由客
票系统继续分析处理,以提取客体信息和深度分析。
对其进行关键信息定位、深度分析和客体抽取,以及指数级的数据包过滤功能(指数级过滤
由类脑平台支撑完成)。具体的,可以读取合法数据流的客体报文数据,包括报文协议头部
分与业务报文公共部分,并对客体报文数据进行分组,划分出不同类型,不同类型分别构造
正则表达式生成局部特征,再按顺序合并相同部分和局部特征,得到客体的报文特征,例
如,客体的业务报文可能是:响应id|客体参数1|客体参数2...其中,请求id可以是合法数
据流的源地址,客体参数1、客体参数2等可以是净载数据,从而提取出客体数据。在一些具
体的实施例中,客体关系是相对于主体而言,主体与客体是由什么构成,又是如何发生联系
的。通过大量的数据分析和特征分析,可以构建和把握主客体的关系。
的客体特征库中提取出待验证网络数据的待验证客体特征,再将待检测客体特征和待验证
客体特征进行比对,若待检测客体特征满足特征,则获取待检测网络数据的客体报文数据,
最后对客体报文数据进行分组处理,并抽取出待检测网络数据的客体数据,能够精准筛选
出客体数据,提高识别效率,实现了复杂网络环境中网络数据报文的客体提取。
证客体特征为TCP数据包,合法数据流不符合特征要求,则可以对不符合待验证客体特征的
合法数据流进行放行处理,即根据业务系统的配置,筛选出放行的业务数据包。具体的,如
图2所示,特征比较存在多个节点,数据流到达入口时,先经过一级节点的比较筛选,满足条
件后数据流到达下一级节点。每级节点都会对数据流的一些特征进行分析判断,比如是否
满足TCP包特征,是否满足HTTP协议、TDS协议等特征,满足白名单特征的数据流放行,满足
黑名单特征的数据流丢弃或拦截。
据包中SYN,ACK字段与数据发送的关联。在TCP协议中,为了确保数据能稳定发送,协议中使
用数据包中的SYN,ACK两个字段来监控数据是否正确发送和接收。可以通过分析知识库中
的客体特征,整理学习各个报文之间的关联关系。
的数据流放行,满足黑名单特征的数据流丢弃或拦截,同时会对特征库以外的数据流(即放
行的数据流)进行特征取样并加入特征库中。具体的,可以根据合法数据流的特征链及客体
特征库之间的关联关系,同步检测合法数据流与数据流特征,提取合法数据流中相应的客
体内容,即得到客体数据。通过对不满足特征的合法数据流进行放行处理,并根据合法数据
流与客体特征库之间的关联关系检测出合法数据流对应的客体数据,可以对放行的数据包
另行提取分析,得到客体数据,提高效率。
客体业务报文公共部分的格式可以为:客体的业务报文可能是:响应id|客体参数1|客体参
数2...
据。可选的,合法数据流的客体报文数据可以包括报文协议头部分与业务报文公共部分,客
体报文数据中的业务报文公共部分的格式可以为:响应id|客体参数1|客体参数2……可以
对上述客体报文数据按照需求进行分组,划分出不同类型的数据,即得到多个类型数据。
型数据对应的特征。可选的,对于不同类型的类型数据,可以分别构造正则表达式生成局部
特征,即生成每个类型数据对应的局部特征。
并相同部分和局部特征,得到报文特征,从而提取出客体数据。通过将客体报文数据进行分
组,得到多个类型数据,再分别对多个类型数据构造正则表达式生成局部特征,最后按照预
设顺序合并相同部分和局部特征,得到客体数据,利用深度学习方法来对合法数据流中的
客体进行分类抽取,不但可以提高效率,而且兼具准确性,可有效节约时间与资源。
可以是人、地名等事物,也可以是某个概念。可以通过字符串匹配或人工操作等方式将需要
的客体提取出,随后可以通过自然语言处理和机器学习方式进行客体提取,得到命名客体
信息。
系进行分类,即语义信息的提取。在一些具体的实施例中,根据命名客体数据,通过特征工
程对含有具有关系的两个客体的句子进行关系标注,实现监督学习,在一定程度上提高了
模型的精准度。
性抽取可以直接通过网络获取,同时也可以将属性视为客体关系。
合法数据流进行特征分析,得到合法数据流的抽象特征,即得到待检测客体特征,可以由图
2所示的类脑计算平台为合法数据流的特征分析供算力支持。通过对合法数据流进行特征
提取,然后再对合法数据流进行定位和归类抽象,得到待检测客体特征,非监督式或半监督
式的特征学习和分层特征提取高效算法来替代手工获取特征,实现了复杂网络环境中网络
数据报文的客体提取。
用户ip信息、端口类型或协议等配置。
端口类型或协议等配置,若待检测网络数据满足上述配置,则将其作为合法数据流进行进
一步特征分析;若待检测数据不满足上述配置,则待检测网络数据的合法性不符合预设需
求,因此无需对该待检测数据进行进一步的特征提取,可以重新获取新的待检测网络数据
进行访问控制。通过预设数据配置对待检测网络数据进行访问控制,只允许合法数据流进
行进一步的特征提取,可以筛选出符合需求的合法数据流。
单上的数据流);样本特征标签和样本业务行为可以是对应于样本网络数据流的标签数据
资料和业务行为数据资料。可选的,若预设条件为对数据流的用户ip,端口,协议等配置,则
将符合上述配置的数据流作为合法数据流,去除不符合上述配置的数据流。可以根据样本
特征标签和样本业务行为生成样本网络数据流对应的样本特征链,以构建客体特征库。
流进行特征模版提取,进而对提取结果使用正则表达式匹配,正则表达式是对样本网络数
据流和样本特征标签操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特
定字符的组合,组成规则字符串,用于描述客体特征库的过滤逻辑。
顺序关系,即得到业务顺序,用于描述客体特征库中的数据排列情况。
业务顺序,将样本网络数据流及其对应的样本特征标签和样本业务行为导入客体特征库
中,构建客体特征库。可以通过图2所示的类脑计算平台为特征提取进行算力支持。通过样
本网络数据流构建客体特征库,可实现数据实体内容的准确比对与获取,达到数据分析与
抽取的目的。
文的客体提取。
模块420、摄像头430、显示屏440。
摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像
头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual
Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头430还可以
包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光
闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
极管(Organic Light‑Emitting Diode,简称OLED)等形式来配置显示面板。进一步的,触控
面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器400以
确定触摸事件的类型,随后处理器400根据触摸事件的类型在显示面板上提供相应的视觉
输出。在某些实施例中,可以将触控面板与显示面板集成而实现输入和输出功能。
存储在存储器中的非暂态软件程序以及指令,从而实现上述第一方面实施例中的网络数据
的客体抽取方法。
的客体抽取方法。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,
例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,
存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该
终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
的网络数据的客体抽取方法。
使得上述一个或多个处理器执行上述第一方面实施例中的网络数据的客体抽取方法。
出各种变化。
可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或
者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机
可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领
域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、
数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和
不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、
CD‑ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或
者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通
技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波
或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的
示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特
点可以在任何的一个或多个实施例或示例中以合适的方式结合。
发明的范围由权利要求及其等同物限定。